![]()
十一年前,王曉剛和湯曉鷗一起,讓計算機視覺的識別率第一次超越了人類肉眼。那是 2014 年,人工智能 1.0 時代的開端,視覺技術從實驗室走向了安防、手機和汽車。
十一年后,當所有人都還在為大語言模型狂歡,或者忙著在發布會上展示機器人“疊衣服”、“做咖啡”的 Demo 時,王曉剛嗅到了一絲危險的氣息。互聯網上的語料快被榨干了,純粹的數字世界正在逼近天花板。
2025 年,具身智能被視為繼大語言模型后的下一塊人工智能高地,玩家們都在賭誰能先造出通用的“機器管家”。但現實是殘酷的:大多數機器人依然只能在視頻里閃爍高光,一旦走進真實的雜亂環境,就會因為缺乏常識而寸步難行。
![]()
圖|大曉機器人核心科學家團隊(大曉機器人)
在 12 月 18 日舉行的新品發布會前夕,我們與王曉剛進行了一場深度對話。此時此刻,具身智能賽道正處于一種“冰火兩重天”的狀態:一方面是資本的狂熱追捧,另一方面是技術落地中遭遇的“數據荒”與“物理幻覺”瓶頸。
現有的機器人研究范式是否走錯了方向?為什么說互聯網語料快被“榨干”了?Sora 等生成式模型在物理世界中存在什么致命缺陷?以及,為什么要在這個時間點選擇開源,并押注國產芯片生態?
在這個時間節點,大曉機器人不僅要發布一個新的世界模型,更要開源一套全新的生存法則。“現在的研究范式走錯了,”王曉剛直言不諱。他拋出了一個判斷:如果繼續以“機器”為中心去訓練大腦,具身智能將永遠困在 Demo 里;唯有回到以“人”為中心,用世界模型重構物理規律,才能撞開 AI 3.0 的大門。
![]()
圖|大曉機器人首席科學家陶大程(大曉機器人)
以下是對話全文。
AI2.0 到 AI3.0:從數字世界到物理世界
“互聯網語料快被榨干了,我們必須打破數字與物理的墻”
DeepTech:你現在的新身份是大曉機器人董事長。和之前在商湯負責研發、汽車、芯片等業務的角色相比,現在側重的目標有什么不同?
王曉剛:其實我在商湯是從 2014 年開始的,當時和湯老師一起創立商湯。那時候我們是第一個做到人臉識別超越肉眼識別率的。在過去十年里,我在商湯負責過研發,也包括手機、互聯網、汽車、芯片等很多不同的業務方向。今天我們面臨的,是從人工智能 1.0 到 3.0 的躍遷。
所謂人工智能 1.0 時代,就是 2014 年那個時候。我們有了視覺技術,靠的是大量人工標注和小模型來實現人工智能的應用。到了 2.0 時代,也就是大模型,特別是大語言模型帶來的通用化能力。因為人類歷史上幾千年積累了海量的語言文字數據,記錄了人類的行為,大模型把這些沉淀的智能提取出來,賦能各個行業。
DeepTech:所謂的 3.0 是什么?
王曉剛:今天我們也看到,大語言模型依賴的這些互聯網語料、數字世界的沉淀和積累,也到了一個瓶頸。未來兩三年,這些語料的價值也會逐漸被“榨干”。
所以人們想打破數字世界和物理世界的限制,通過具身智能,通過跟物理世界的交互去產生新的智能,這就是我們說的人工智能 3.0 時代。
這里面一個很重要的任務,就是通過技術的創新,讓商湯從原來的 2.0 時代進入 3.0 時代。
DeepTech:大曉機器人和商湯是什么關系?
王曉剛:大曉在商湯“1+X”戰略布局。我們希望完成一個軟硬結合的產業鏈垂直整合。之前商湯做得比較多的是軟件和 ToB 的賦能角色,但在具身智能這個領域,我們有機會做軟硬一體,把業務做得更大。
所以我這邊的目標總結下來就是三點:第一,實現從 AI 2.0 到 3.0 的跨越;第二,把商湯歷史上積累的經驗沉淀帶到物理世界;第三,完成軟硬結合的垂直整合。
DeepTech:既然是生態企業,大曉和商湯具體怎么分工?哪些是共享的,哪些是大曉獨立研發的?
王曉剛:這是一種非常緊密的合作關系。大曉提供具身智能的軟件平臺和硬件平臺。但機器人要進入千行百業,需要了解行業的痛點和渠道,這正是商湯過往積累的優勢。
商湯的業務團隊可以基于大曉提供的軟硬件具身平臺,去開發具體的行業應用,解決具體的痛點。這能解決目前具身智能落地的一個大問題——很多公司演示的 Demo 很好,但對場景理解不深,難以落地。
舉個例子,我們會推出一個“具身超級大腦模組 A1”。現在這個模組加裝在四足機器人(機器狗)上,有了它,機器狗就能在室外不依賴高精度地圖實現點到點的自主導航。
這個過程中,機器狗采集到的視頻數據,會跟商湯后臺的“方舟平臺”打通。方舟平臺上有超過 150 個 AI 相關的應用。通過這種結合,機器人的應用價值就被極大地放大了。
范式革命:以人為中心的具身智能
“以機器為中心的范式走不通,必須轉向以人為中心”
DeepTech:2025 年是你所說的 AI 3.0 時代的一個關鍵節點嗎?會有什么標志性事件?
王曉剛:我覺得 2025 年一個非常重要的代表性突破,或者說改變,是研究范式的改變。
大家對具身智能的期待源自于互聯網時代的經驗。在 2.0 時代,大模型讓我們以為,只要有一個強大的大模型,機器人就能在物理世界里通用了。但在過去兩年里,大家在執行過程中遇到了巨大的阻力。
DeepTech:阻力具體體現在哪里?
王曉剛:之前大家的做法是:先有了各種不同形態的機器人,結構各不相同。人們通過遙操作(Teleoperation)控制這些機器人去采集數據,然后把數據聚合在一起,試圖訓練一個通用的機器人大腦。
但大家發現,這種模式是不成功的。
首先,訓練出來的所謂“大腦”很難用到不同的本體上,數據不能共享。其次,通過人操作機器采集數據的效率非常低,而且往往不是在真實的生產生活環境中采集的。
我們把這種舊的研究范式叫做 Machine-centric(以機器為中心)。它的核心邏輯是 VLA(Vision-Language-Action),通過視覺和語言指令,直接讓機器去完成特定任務。這種范式訓練出來的大腦不需要理解物理世界到底是什么樣,只是為了完成任務。
DeepTech:2025 年的新范式是什么?
王曉剛:2025 年一個非常大的轉變,就是從 Machine-centric 轉變為 Human-centric(以人為中心)。
這個起點大概在 2025 年年初。當時我們團隊在南洋理工大學的劉子緯教授帶領下,提出了“環境式采集”。
所謂環境式采集,就是利用第一視角的眼鏡、穿戴式設備,以及第三視角的傳感器,在人真實的生產生活環境中去記錄人的行為。通過這些記錄,訓練出一個“世界模型”。這個世界模型要理解人跟物理世界交互的規律是什么,因果關系是什么。
今年,劉子緯教授發布了 Egolife,記錄了 300 小時人類行為時,像 meta 的 Yann LeCun 團隊就基于這個數據集完成了具身世界模型的訓練。到了 8、9 月份,特斯拉和 Figure AI 也宣布轉向視覺路線,通過攝像頭記錄人的行為來快速積累數據。
DeepTech:這種新范式帶來的最直接的好處是什么?
王曉剛:數據量級的躍升。
在以機器為中心的時代,大家積累的數據大概是十萬小時這個量級。要知道,特斯拉 FSD 做自動駕駛用到了大概 400 萬小時的高質量數據。具身智能的場景復雜度更高,需要的數據更多。
通過以人為中心的研究范式,我們能積累的數據可以達到千萬小時這個級別。這才是讓具身智能具備通用化能力、擁有強大大腦的正確路徑。
所以,2025 年發生了非常重要的變化,給具身智能的發展打開了一條新的思路。
解密:環境式采集與數據壁壘
“一天采集效率提升 100 倍,解決上萬種物品的抓取難題”
DeepTech:你提到的“環境式采集”技術聽起來很有意思,在實際落地中具體是怎么做的?一天能產出多少數據?
王曉剛:我們這套采集方案,需要人佩戴第一視角的攝像頭,同時還會帶上全景相機,這樣能看到人周圍的環境和自己的身體。手上和胸口也會帶攝像頭,特別是手上會帶一些觸覺傳感器,能感受到接觸物品時的材質和力。周圍環境里也會部署深度攝像頭等。
所有的設備都是同步的。人不需要操作機器人,只需要正常做工作,數據自然就被采集下來了。
DeepTech:可以舉一個具體的落地場景嗎?
王曉剛:比如我們在杭州的一個閃購倉(前置倉)試點。
現在的零售行業,大家在網上下單,城市里有很多這樣的前置倉。倉庫里有大量貨品,需要工作人員進行分揀、打包,交給外賣小哥。這個工作需要 7x24 小時進行。
這個場景最難的地方在于,物品類別特別多,有上萬個 SKU。以前大家做具身智能,用真機采集數據,基本只能覆蓋幾十個或者上百個類別。面對上萬個類別,真機采集根本做不過來。
DeepTech:用環境式采集能解決這個問題嗎?
王曉剛:對。有了這套設備,工作人員可以一邊工作,一邊采集數據。
一個人一天工作 10 個小時,就能采集 10 個小時的數據。而且因為人手的靈活度遠高于遙操作機器人,單一采集效率可能有 10 倍的增長。
更重要的是部署方便。以前得在實驗室里雇人操作機器人,現在我可以有幾百人、上千人都帶著這些設備,在正常工作中采集。這樣數據積累的速度可能是原來的 100 倍,也就是兩個數量級的增加。成本更低,效率更高。
DeepTech:采集上來的數據質量如何把控?有沒有具體的標準?
王曉剛:我們有一套自動化的流程來提取關鍵信息。
比如人的肢體 3D 姿態、手部的 3D 手勢、接觸物品的種類和姿態、物品的 3D 形狀等。還會提取人與環境交互的信息,比如我坐在椅子上、趴在桌子上、爬梯子,這些 3D 交互關系都會被建模。
還有材質信息,比如一個瓶子,人通常抓哪里?抓的時候摩擦力如何?受力情況如何?這些都會通過自動化流程提取出來。
核心:開悟 3.0 世界模型
“解決‘水倒進槽里杯子卻滿了’的物理幻覺”
DeepTech:采集了數據之后,如何解決跨本體復用的問題?畢竟人的手和機器人的手不一樣。
王曉剛:這就體現了世界模型的重要性。
我們把采集的數據輸入到世界模型里。世界模型有三個部分:第一是多模態理解,理解世界是什么樣子;第二是生成,大腦可以想象場景;第三是預測,預測動作和結果。
我們即將發布的“開悟 3.0”世界模型平臺,既包含了人類數據,也包含了一些不同類型機器人的本體數據。
在平臺上,你可以選擇場景和任務,然后選擇機器人本體(比如宇樹、智元等)。因為我們有這些機器人的物理參數,世界模型就會根據任務生成針對該本體的視頻和 3D 軌跡數據,用來訓練這個本體。
這就是我們說的“一腦多形”——一個世界模型大腦,適配不同的機器人形態。
DeepTech:“開悟 3.0”和市面上其他的世界模型(比如 Sora、Gen-2 等)有什么技術上的不同?
王曉剛:市面上的模型,比如李飛飛團隊的 World Labs,很多只能生成靜態的世界,做漫游,無法把物體和環境分離開。
我們的模型可以做到物體與環境的解耦。比如桌子上的電腦、水杯,我可以把它們分離開,甚至進行編輯——把桌子換個形狀,把電腦換個牌子,把房型換掉。這極大地拓展了數據的泛化性。
另一點非常重要的是對物理規律的表達。
DeepTech:物理規律是現在生成式視頻的一個大痛點。
王曉剛:對。像 Sora、Gemini、Cosmos 這些模型,本質上是生成式網絡,缺乏對多模態世界的深刻理解和物理預測。
舉個例子,我們讓機器人拿杯子去水龍頭接水。這需要符合流體力學。但在 Sora 生成的視頻里,有時候你會發現,水明明倒在了水槽里,杯子里的水卻莫名其妙漲起來了;或者水倒進杯子,周圍水槽卻有水濺出來。這都是不符合物理規律的。
如果不解決這個問題,機器人就會學到錯誤的邏輯。我們在構建世界模型時,底層加入了很多物理常識和規律的約束。
DeepTech:你們內部怎么量化這個“物理規律”的準確性?
王曉剛:我們有一個指標叫“成片率”。
生成視頻后,我們會檢查它是否符合物理規律。早期可能 100 個視頻里只有個位數是可用的,現在我們的成片率已經越來越高,能達到 50% 以上。
更精細的度量還包括相機位姿的反推準確性、生成圖像與真實圖像的差異等。
戰略:開源與國產芯片適配
“在具身智能領域,我們希望成為開源的標桿”
DeepTech:我聽說大曉這次會開源開悟 3.0,具體會開源到什么程度?
王曉剛:我們的模型、工具鏈、以及部署方法都會開源。
特別值得一提的是,這次我們把開源模型適配到了國產芯片上,包括沐曦、海光、壁仞等。
在國產芯片時代,模型需要和芯片做深度適配,我們做完軟硬協同優化后,極大提升了芯片性能,能達到 A 卡(英偉達)的效果。有了模型和算力基礎,我們就能構建物理世界的“DeepSeek 時刻”,實現“算力—模型—應用”的全方位迭代。
DeepTech:開源對大曉的商業化有什么影響?
王曉剛: 開源和平臺是相輔相成的。開源能讓大家熟悉我們的模型。同時,世界模型的訓練和推理需要大量算力,我們把 API 部署在云上(商湯大裝置、騰訊云等)。用戶使用云服務時,我們和云廠商都能獲得收益。
DeepTech:從長期看,開源對初創公司的護城河有什么意義?
王曉剛:在大模型領域,DeepSeek 是一個很好的例子。它通過開源產生了巨大的行業影響力。
我們希望在物理世界、在具身智能領域,讓“開悟 3.0”成為對標 DeepSeek 的存在。這個行業需要先發優勢。當我們先把高質量的開源項目做出來,用的人多了,就會形成聚集效應。芯片公司也會主動來適配我們,生態就建立起來了。
落地:產品與未來
“機器狗,前置倉,到家庭機器人”
DeepTech:這次發布會有哪些交付形態的產品?
王曉剛:我們會發布幾樣東西:ACE 研發范式:環境式采集(Ambient Capture Engine);開悟 3.0 平臺,并且開源;以及具身超級大腦模組 A1,這是一個軟硬結合的產品,目前最先搭載在四足機器人上。
有了這個模組,機器狗在戶外就具備了自主空間能力,不需要人遙控,可以通過語音控制它去目的地執行任務。我們的機管平臺還和商湯的方舟平臺打通,直接調用 150 多種 AI 應用。
此外,我們在模組硬件上也有創新,引入了 Insta360 的全景相機。現有的機器人攝像頭視野窄、不穩。全景相機能做到 360 度無死角,畫質和穩定性大幅提升,這對夜間作業和 AI 識別非常有幫助。
DeepTech:大曉目前最優先落地的場景是哪些?
王曉剛:我們有近期、中期、遠期的規劃。
近期(現在),重點是戶外四足機器人。雖然提供情緒價值(表演)的市場比較成熟,但規模有限。我們看重的是生產力提升,比如電力巡檢、文旅、智慧城市。加上我們的模組,機器狗就能具備空間自主能力,實現規模化應用。
中期(2 年左右),我們希望把前置倉(閃購倉)這個場景做下來。明年大概會有十幾萬個這樣的倉庫,場景非常類似。一旦做好,規模化落地速度會很快。
遠期(5 年后),就是家庭場景。這目前還屬于預研性質,也是像 Figure AI 這樣的公司的長遠目標。
DeepTech:最后一個我比較好奇的問題,“大曉”這個名字是怎么來的?是你和大程(商湯聯合創始人)老師的名字合在一起的嗎?
王曉剛:(笑)是這樣。我和大曉機器人首席科學家陶大程是中科大的師兄弟,在湯老師那邊讀碩士時還是寢室室友,關系非常好,有很深的信任。在具身智能這個機會點上,我們覺得能一起合作做些事情。
但“大曉”這個名字還有衍生的含義。我們在發布會上給出的解釋是:“大千世界,曉識萬象”。
“大千世界”講的是我們的世界模型,要理解這個世界;“曉識萬象”講的是我們的環境式采集,通過感知去理解人和環境的交互。這正好契合了我們未來具身智能的兩個核心方向。





京公網安備 11011402013531號