當(dāng)前位置：首頁 ? 資訊 ? 新科技 ? 正文

當(dāng)LeCun還在「畫餅」，中國(guó)AI大牛領(lǐng)先李飛飛一步把世界模型開源了

IP屬地中國(guó)·北京 新智元 時(shí)間：2025-12-04 20:17:59

新智元報(bào)道
編輯：艾倫定慧
具身智能如何突破「遙操作」的數(shù)據(jù)桎梏？商湯聯(lián)合創(chuàng)始人王曉剛領(lǐng)銜的大曉機(jī)器人，交出顛覆性答卷——發(fā)布全球首個(gè)開源商業(yè)落地世界模型「開悟3.0」。
在通往AGI的狂歡中，圖靈獎(jiǎng)得主Yann LeCun卻一直像個(gè)執(zhí)著的「反叛者」。
他不止一次給大語言模型（LLM）潑冷水，直言靠預(yù)測(cè)下一個(gè)字符的概率游戲，永遠(yuǎn)無法觸及真正的智能。
他眼中的未來，屬于「世界模型」。
直到李飛飛團(tuán)隊(duì)World Labs發(fā)布的Marble，當(dāng)大家親眼看到那個(gè)可以生成、互動(dòng)且符合邏輯的3D虛擬世界時(shí)，LeCun描繪的圖景才終于具象化了。
為什么實(shí)現(xiàn)AGI需要世界模型
為什么我們?nèi)绱似惹械匦枰澜缒Ｐ?/strong>？
因?yàn)榛诖笳Z言模型的AI在物理世界里，是個(gè)嚴(yán)重的「偏科生」。
現(xiàn)實(shí)數(shù)據(jù)的采集太苦、太慢了！
教會(huì)機(jī)器人認(rèn)識(shí)一件紅衣服，換成綠色的它可能就「懵」了；
更別提那些極端場(chǎng)景——我們總不能為了訓(xùn)練自動(dòng)駕駛，真去撞毀一千輛車吧？（還有更多低概率的corner case）

于是，一場(chǎng)圍繞物理世界的「數(shù)字重構(gòu)」悄然打響，并分化出三大戰(zhàn)場(chǎng)：

游戲VR虛擬世界生成：以李飛飛的Marble為代表；自動(dòng)駕駛：以特斯拉FSD為代表；具身智能：這是當(dāng)下最火的方向，也是下個(gè)十年的AI的重心。
而第三個(gè)戰(zhàn)場(chǎng)——具身智能，則是目前最難啃的「硬骨頭」。
這個(gè)領(lǐng)域正撞上一堵看似不可逾越的「數(shù)據(jù)墻」。
長(zhǎng)期以來，行業(yè)被迫依賴「遙操作」——讓人類穿戴設(shè)備手把手教機(jī)器人。

這種方式不僅效率低、成本高，更致命的是泛化性極差。
而在嘗試用AI生成數(shù)據(jù)時(shí)，又會(huì)掉進(jìn)另一個(gè)深坑：物理因果一致性。
以往的模型生成的視頻，往往只是「看起來像」。
但在機(jī)器人眼里，杯子憑空懸浮、水流違背重力，這些缺乏物理常識(shí)的畫面不僅無用，甚至是毒藥。
如何讓AI生成的世界既逼真又符合物理定律？
這成了阻擋AGI降臨現(xiàn)實(shí)的最大路障。
而一家剛剛成立的公司大曉機(jī)器人，率先突圍，交出了一份顛覆性的答卷——開悟世界模型3.0。
開悟3.0是一種全新范式的確立：多模態(tài)理解-生成-預(yù)測(cè)一體化。
與傳統(tǒng)大模型「看圖說話」的淺層邏輯不同，開悟3.0擁有極強(qiáng)的物理感知力。
它不僅能輸入文字、圖片、視頻，更能直接輸入力學(xué)信息與3D軌跡。
大曉的破局
我們有幸直接采訪到了商湯聯(lián)合創(chuàng)始人、執(zhí)行董事，大曉機(jī)器人董事長(zhǎng)王曉剛先生。
他畢業(yè)于中科大少年班，接著取得香港中文大學(xué)的碩士學(xué)位和MIT的計(jì)算機(jī)博士學(xué)位。

大曉機(jī)器人董事長(zhǎng) 王曉剛
他的論文被引數(shù)已超過14萬，也是中國(guó)的AI學(xué)術(shù)領(lǐng)軍人物之一。

能力越大，責(zé)任越大。目前，王曉剛同時(shí)擔(dān)任香港中文大學(xué)教授、商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事，以及最新也是最重要的身份：大曉機(jī)器人董事長(zhǎng)。
具身智能不能依賴「遙操作」
在我們與王曉剛的深度對(duì)談中，他拋出了一個(gè)令行業(yè)深思的觀點(diǎn)：
如果具身智能繼續(xù)依賴「遙操作」，那我們實(shí)際上是倒退回了AI1.0時(shí)代。
目前的機(jī)器人訓(xùn)練場(chǎng)上，最常見的畫面是：一個(gè)穿戴著VR設(shè)備和動(dòng)作捕捉服的人類，「附身」在機(jī)器人身上，笨拙地教它疊衣服、拿蘋果。
這種被稱為「遙操作」的方法，本質(zhì)上還是「有多少人工，就有多少智能」。
它是線性的、昂貴的，且極度缺乏泛化能力。
王曉剛在采訪中一針見血地指出：
你不可能為了教機(jī)器人做飯，讓幾百萬人都穿上動(dòng)捕服去炒菜。
大曉的核心競(jìng)爭(zhēng)力，在于它率先試圖終結(jié)這種「提線木偶」式的訓(xùn)練邏輯。
他們提出了一套名為「環(huán)境式數(shù)據(jù)采集」的新范式。
大曉不強(qiáng)求「手把手」教機(jī)器人，而是讓AI像人類嬰兒一樣，通過「觀察」來學(xué)習(xí)。
利用第一視角（如AR眼鏡）和第三視角（環(huán)境攝像頭）采集的數(shù)據(jù)同時(shí)生成海量的運(yùn)動(dòng)軌跡，配合他們引以為傲的視覺算法，直接從人類的日常行為中提取「操作邏輯」。
這意味著，當(dāng)AI看了一萬遍人類廚師顛勺的各個(gè)角度視頻后，它學(xué)到的不再只是像素的移動(dòng)，而是手腕發(fā)力的角度、鍋鏟與鍋底摩擦的力反饋，以及火焰與食材互動(dòng)的物理節(jié)奏。

開悟3.0：世界第一梯隊(duì)的世界模型
如果說環(huán)境式數(shù)采解決了「看」的問題，那么大曉即將發(fā)布的開悟3.0，則解決了「想」的問題。
在采訪中，王曉剛并沒有使用晦澀的術(shù)語堆砌，而是用一種近乎哲學(xué)的視角，拆解了這個(gè)被其稱為「全球首個(gè)開源且商業(yè)落地的世界模型」背后的技術(shù)野心。
Puffin：當(dāng)AI學(xué)會(huì)「與相機(jī)共思」
「?jìng)鹘y(tǒng)的視頻生成模型，其實(shí)是“盲”的。」王曉剛拿起桌上的礦泉水瓶，向我們演示，「AI看到這個(gè)瓶子，但它不知道自己是站著看、蹲著看，還是倒立著看。它只是在機(jī)械地預(yù)測(cè)下一幀的像素。」
這種視角的缺失，導(dǎo)致了一個(gè)致命問題：空間感的崩塌。
為了解決這個(gè)痛點(diǎn)，大曉聯(lián)合南洋理工大學(xué)等機(jī)構(gòu)，祭出了一項(xiàng)名為Puffin的殺手锏技術(shù)。
這項(xiàng)技術(shù)的核心理念極其浪漫——「與相機(jī)共思」。

論文地址：https://arxiv.org/abs/2510.08673
Puffin把「相機(jī)的位姿」變成了一種語言。
在它的眼里，光圈、焦距、拍攝角度，和「一只貓」、「一個(gè)蘋果」一樣，都是可以被理解和生成的Token。
「當(dāng)你給Puffin一張照片，它不僅能看懂照片里有什么，還能像福爾摩斯一樣，反推出拍攝者當(dāng)時(shí)站在哪里、相機(jī)是怎么運(yùn)動(dòng)的。」王曉剛解釋道，「這意味著，機(jī)器人不再是被動(dòng)地接收畫面，而是能主動(dòng)“腦補(bǔ)”出——如果我往左走一步，我會(huì)看到什么。」
這種能力讓具身智能第一次擁有了「預(yù)演」的能力。
在真正伸出機(jī)械臂去抓那個(gè)易碎的玻璃杯之前，機(jī)器人已經(jīng)在腦海中不僅模擬了抓取的動(dòng)作，還模擬了攝像頭在移動(dòng)過程中看到的光影變化。
WorldMEM：打破「金魚記憶」的魔咒
除了空間感，具身智能面臨的另一大夢(mèng)魘是「時(shí)間」。
現(xiàn)有的視頻生成模型，往往有著嚴(yán)重的「健忘癥」。
生成的視頻超過幾秒鐘，畫面就會(huì)開始崩壞：背景里的房子突然消失，或是人物的衣服顏色變來變?nèi)ァ?/p>
「想象一下，機(jī)器人要幫你整理房間。」王曉剛舉了一個(gè)非常生活化的例子，「它把一本書放進(jìn)書架的第二層，然后轉(zhuǎn)身去收拾桌子。十分鐘后，當(dāng)它再轉(zhuǎn)回來時(shí)，那本書必須還在那里，不能憑空消失，也不能變成一只貓。」
這看似簡(jiǎn)單的「物體恒常性」，對(duì)AI來說卻是巨大的挑戰(zhàn)。
因?yàn)殡S著時(shí)間的推移，計(jì)算量會(huì)呈指數(shù)級(jí)爆炸，AI只能被迫「遺忘」。
為了打破這個(gè)魔咒，大曉引入了WorldMEM架構(gòu)，并采用了創(chuàng)新的線性注意力機(jī)制。

論文地址：https://arxiv.org/abs/2504.12369
這就像是給機(jī)器人裝上了一個(gè)「無限容量」的記事本。
通過線性復(fù)雜度算法，大曉將計(jì)算成本從Transformer架構(gòu)的指數(shù)級(jí)降到了線性級(jí)。
「我們不僅讓機(jī)器人“記得住”，還讓它知道“記什么”。」王曉剛補(bǔ)充道，這種基于任務(wù)導(dǎo)向的長(zhǎng)時(shí)記憶，讓開悟3.0能夠生成長(zhǎng)達(dá)數(shù)分鐘、甚至更長(zhǎng)時(shí)間的連貫交互視頻。
這一能力被具象化為一組震撼的參數(shù)：支持生成1080P高清視頻、支持長(zhǎng)時(shí)交互、甚至可以在動(dòng)/靜態(tài)場(chǎng)景下實(shí)現(xiàn)精細(xì)可控的自由編輯。
大曉生成的不僅僅是視頻，而是一個(gè)可以被反復(fù)推演、試錯(cuò)的平行時(shí)空。
對(duì)標(biāo)全球：除了造景，更需要交互
當(dāng)被問及與李飛飛團(tuán)隊(duì)的World Labs有何不同時(shí)，王曉剛展現(xiàn)出了技術(shù)派特有的自信。
「World Labs發(fā)布的Marble，更多是在生成一個(gè)靜態(tài)的、唯美的3D場(chǎng)景，像是一個(gè)精美的游戲建模。」王曉剛分析道，「但世界是動(dòng)態(tài)的。你推一下椅子，椅子會(huì)倒；你打開冰箱，燈會(huì)亮。這種動(dòng)態(tài)的物理交互，才是具身智能的剛需。」

開悟3.0采用了一種獨(dú)特的「多模態(tài)理解-生成-預(yù)測(cè)」一體化架構(gòu)。
它不僅把靜態(tài)的物體（如桌子）和動(dòng)態(tài)的物體（如行人）分離開來，還能直接輸入力學(xué)信息。
「未來的機(jī)器人，要有直覺。」王曉剛說道，「它看到一個(gè)玻璃杯，不需要摸就知道它是滑的、易碎的；看到一個(gè)啞鈴，就知道它是重的。這種物理常識(shí)的涌現(xiàn)，只能來自于對(duì)真實(shí)物理世界的深度模擬。」
在這個(gè)意義上，開悟3.0不僅是一個(gè)造夢(mèng)機(jī)器，更是一個(gè)嚴(yán)謹(jǐn)?shù)奈锢砟M器。
它讓機(jī)器人在虛擬世界中經(jīng)歷了成千上萬次的「摔打」，從而換來現(xiàn)實(shí)世界中的一次精準(zhǔn)操作。
軟硬一體的「陽謀」
為什么王曉剛要做「大曉機(jī)器人」這樣一家獨(dú)立的實(shí)體？
這背后藏著王曉剛對(duì)AI未來的終極判斷：當(dāng)互聯(lián)網(wǎng)數(shù)據(jù)枯竭時(shí)，物理世界是唯一的礦藏。
純粹的軟件公司（如OpenAI）就像「缸中之腦」，雖然智商超群，但沒有觸覺，不懂輕重；
純粹的硬件公司雖然四肢發(fā)達(dá)，但缺乏通用的認(rèn)知能力，往往淪為昂貴的玩具。
大曉的成立，就是為了打破這層次元壁。
他們不僅僅是在做算法，更是在通過自研的「具身超級(jí)大腦模組」和四足/通用機(jī)器人，去親自丈量物理世界的摩擦力、重力和反作用力。
這種「軟硬一體」并非簡(jiǎn)單的堆砌，而是一種深度的數(shù)據(jù)閉環(huán)：

環(huán)境數(shù)據(jù)引擎：負(fù)責(zé)「看」（采集）；開悟3.0：負(fù)責(zé)「想」（模擬）；機(jī)器人本體：負(fù)責(zé)「做」（驗(yàn)證）。
這一閉環(huán)一旦跑通，大曉就擁有了類似特斯拉那樣的「飛輪效應(yīng)」——機(jī)器人用得越多，物理常識(shí)越豐富；物理常識(shí)越豐富，機(jī)器人越好用。
正如王曉剛所言：
未來的機(jī)器人，不僅要有聰明的大腦，還要有有趣的靈魂。
而這個(gè)靈魂，只能誕生于真實(shí)世界泥濘的道路上，而不是涼爽的機(jī)房里。
世界模型的「DeepSeek」
在通往具身智能終極形態(tài)的征途上，大曉選擇了一條更為艱難、但也更為寬廣的道路。
當(dāng)全球科技巨頭傾向于構(gòu)筑技術(shù)壁壘時(shí)，大曉堅(jiān)定地高舉起開源的旗幟，做出了最具魄力的回應(yīng)。
開悟3.0的開源，不僅僅是大曉技術(shù)自信的體現(xiàn)，更是一場(chǎng)構(gòu)筑全球具身智能生態(tài)的「陽謀」。
正如DeepSeek在大語言模型領(lǐng)域掀起的開源風(fēng)暴，大曉正立志成為世界模型領(lǐng)域的DeepSeek，打破閉源神話，將最頂尖的物理智能能力賦予全球開發(fā)者。
在這場(chǎng)物理世界的智慧革命中，大曉不僅是破局者，更是連接者，與全行業(yè)共創(chuàng)具身智能落地的輝煌未來。
大千世界，曉識(shí)萬象。
秒追ASI
?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點(diǎn)亮星標(biāo)，鎖定新智元極速推送！

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

京瓷推出DIGNO BX3個(gè)人版手機(jī)：無攝像頭設(shè)計(jì)專為保密場(chǎng)所打造

iOS 26.1停止簽名，蘋果iPhone 17等用戶升級(jí)iOS 26.2后無法降級(jí)

美媒：TikTok將在美國(guó)成立合資公司

消息稱三星考慮為Galaxy Z Flip 8小折疊手機(jī)搭載Exynos 2600芯片

避開蘋果“催更”，iPhone 16等用戶可加入公測(cè)版留守iOS 18

“25km/h”還是“配送超時(shí)”？該答題的不應(yīng)只是騎手 | 鋒面評(píng)論

全站最新

京瓷推出DIGNO BX3個(gè)人版手機(jī)：無攝像頭設(shè)計(jì)專為保密場(chǎng)所打造

iOS 26.1停止簽名，蘋果iPhone 17等用戶升級(jí)iOS 26.2后無法降級(jí)

美媒：TikTok將在美國(guó)成立合資公司

消息稱三星考慮為Galaxy Z Flip 8小折疊手機(jī)搭載Exynos 2600芯片

熱門推薦

谷歌大舉回聘離職員工補(bǔ)強(qiáng)AI團(tuán)隊(duì)

北京人形XR-1模型開源

偽科普有哪些常見套路（嘮“科”）

上海加快建設(shè)具有全球影響力的科創(chuàng)高地

獲L3級(jí)自動(dòng)駕駛準(zhǔn)入許可長(zhǎng)安汽車迎逾二百家機(jī)構(gòu)調(diào)研

京瓷推出DIGNO BX3個(gè)人版手機(jī)：無攝像頭設(shè)計(jì)專為保密場(chǎng)所打造

iOS 26.1停止簽名，蘋果iPhone 17等用戶升級(jí)iOS 26.2后無法降級(jí)

巴基斯坦媒體：中國(guó)快遞行業(yè)迅速增長(zhǎng)，“西藏包郵”正逐漸成為現(xiàn)實(shí)

美媒：中國(guó)降低全球邁入AI時(shí)代的門檻

美媒：TikTok將在美國(guó)成立合資公司

消息稱三星考慮為Galaxy Z Flip 8小折疊手機(jī)搭載Exynos 2600芯片

避開蘋果“催更”，iPhone 16等用戶可加入公測(cè)版留守iOS 18

“25km/h”還是“配送超時(shí)”？該答題的不應(yīng)只是騎手 | 鋒面評(píng)論

河北地質(zhì)大學(xué)“龍人”研究成果入選《科學(xué)》雜志2025年度十大科學(xué)突破

聚焦雄安新區(qū)丨氣象人工智能科學(xué)模型“風(fēng)源”在雄安發(fā)布