IT之家 12 月 10 日消息,在今年 8 月的 2025 年世界機器人大會上,宇樹科技 CEO 王興興表示當下火熱的 VLA 模型(視覺-語言-動作)是“相對比較傻瓜式的架構”,并表示“保持比較懷疑的態度”。這一觀點隨后引發了多方討論。
理想汽車作為 VLA 方案的堅定支持者,在今年 9 月就將全球首個 VLA 司機大模型推送上車,宣稱為用戶帶來六大維度的提升,包括更精準的選路、更貼心的車速偏好、更舒適的加減速和轉彎體驗、在有盲區的路口通行更安心、更懂你的小理師傅以及更高的通行效率。新增的 VLA 指揮功能允許用戶通過簡單的語音指令完成復雜的路徑規劃。
![]()
今日,理想自動駕駛負責人郎咸朋發布長文,回應了王興興的質疑,表示他與王興興的觀點不同,他認為模型的關鍵是要與整個具身智能系統適配,在此基礎上,數據是起決定意義的。
今年 8 月,我關注到宇樹科技創始人王興興提出對 VLA 的一些擔憂。當時沒有提出我的觀點,一是理想 VLA 司機大模型還沒正式發布,空口無憑;二是我們對具身機器人行業,還處于密切關注階段。我跟王興興觀點最不一樣的地方在于,他認為模型架構更重要,但我認為模型的關鍵是要與整個具身智能系統適配,在此基礎上,數據是起決定意義的。 從今年 9 月 VLA 正式發布,到 12 月 6 日 OTA 8.1 的推送,經過兩個月多的“實踐出真知”后,我有兩點心得:第一,VLA 就是自動駕駛最好的模型方案,第二,具身智能最終拼的是整體的系統能力。 先說 VLA。 1)理想的 VLA 本質上就是生成式模型。我們是在用 GPT 的方式做自動駕駛,只不過生成的 Token 不是文本,而是軌跡和控制信號。從目前用戶使用的反饋看,在某些場景下理想的 VLA 已經具備了對物理世界的認知涌現。具體表現是用戶會越來越多的發現之前端到端沒有的擬人行為。 2)世界模型更適合做“考場”而不是“考生”。世界模型的高算力需求(訓練和推理都是)決定了它更適合在云端做數據生成和極度逼真的仿真測試和強化訓練,這也是理想目前正在做的,通過幾 E flops 的推理算力做仿真測試。這個算力水平,即使再強的車端芯片也無法做到。 3)空談架構不如看療效。在自動駕駛領域,脫離了海量真實數據談模型架構都是空中樓閣,我們之所以堅持 VLA,是因為我們擁有數百萬輛車構建的數據閉環,這讓我們能在當前算力下,把駕駛水平做到接近人類。 再說具身智能。 要想做好自動駕駛,必須先把自動駕駛當作完整的具身智能系統對待,每一部分在研發過程中要相互配合才能將價值發揮出來。人類駕駛車輛并不需要特別強的能力,普通人都能學會。但這里講的普通人,是各部分都能相互協調的正常人。再強的大腦,如果配的是高度近視的眼睛和不靈活的身體,是開不了車的。具身智能系統包括感知(眼睛)、模型(大腦)、操作系統(神經)、芯片(心臟)、本體(身體)。需要做到全棧自研,不僅僅是軟件棧,而是整體軟硬全棧。理想的自動駕駛團隊與基座模型、芯片、底盤團隊協同打造了整個的自動駕駛系統。基座和芯片大家比較了解不多說了,底盤方面給一個簡單例子。底盤的 VMM(車輛運動管理)模塊會對自動駕駛的控制信號做精細化調校,在減速過程中區分卡鉗制動和液壓制動的使用策略,兼顧安全性和舒適體驗,實現“身體”和“大腦”的協同價值。 模型的關鍵是要與整個具身智能系統適配,在此基礎上,數據是起決定意義的。在機器人領域獲取數據相對困難,但在自動駕駛領域,特別是建立起數據閉環能力的車企來說并不是大問題。理想不僅可以從過去幾年積累的 10 幾億公里的存量數據里進行挖掘和篩選,更可以通過 150 萬車主的日常使用源源不斷的獲取新的數據。這與用數據采集車做數據是完全不同的,其質量和分布相比真實情況是有很大差距的。 另外,在篩選數據過程中,我們也發現很多有趣現象,比如有接近 40% 的人類駕駛數據都是偏一側開車的,也幾乎不會嚴格卡著限速值開車。我們認為其實這才是符合人類的駕駛行為,所以并沒有刻意刪除這些數據樣本。大家在使用 AD Max 時如果發現也有這些行為,那是模型跟各位學習到的習慣。 想哥在前兩天明確提到,未來五到十年,具身機器人核心將有兩種形態:汽車類的具身機器人、人形類的具身機器人。理想的 VLA 不僅服務于現在的理想各類汽車產品形態,也將服務于未來的汽車類具身機器人。
![]()
IT之家注意到,在 2025 年成都國際汽車展覽會上,郎咸朋就表示:“VLA 分別代表視覺、語言和動作,與人類學習新知識、新能力的模式相同,具備學習藏在數據背后的邏輯推理能力,能夠像人一樣去思考、推理和解決問題,VLA 架構也將帶來更強大的能力和體驗提升。”
![]()
郎咸朋還在騰訊汽車的采訪中談到,理想汽車能夠比友商早、第一個落地 VLA,是源于理想在數據、算法、算力、工程四方面的優勢,“很多人還在嘴上說,還在用端到端的方式去做 VLA”。
郎咸朋認為,在 VLA 時代,推理算力更重要,如果沒有推理卡,就不能生成仿真訓練環境。目前,理想汽車總算力為 13EFLOPS,其中 3EFLOPS 用于推理,10EFLOPS 用于訓練。如果明年做到 1000MPI(IT之家注:Mileage Per Intervention 接管里程,1000 公里接管一次),VLA 會來到 ChatGPT 時刻。





京公網安備 11011402013531號