![]()
新智元報(bào)道
編輯:艾倫 定慧
具身智能如何突破「遙操作」的數(shù)據(jù)桎梏?商湯聯(lián)合創(chuàng)始人王曉剛領(lǐng)銜的大曉機(jī)器人,交出顛覆性答卷——發(fā)布全球首個(gè)開源商業(yè)落地世界模型「開悟3.0」。
在通往AGI的狂歡中,圖靈獎(jiǎng)得主Yann LeCun卻一直像個(gè)執(zhí)著的「反叛者」。
他不止一次給大語言模型(LLM)潑冷水,直言靠預(yù)測(cè)下一個(gè)字符的概率游戲,永遠(yuǎn)無法觸及真正的智能。
他眼中的未來,屬于「世界模型」。
直到李飛飛團(tuán)隊(duì)World Labs發(fā)布的Marble,當(dāng)大家親眼看到那個(gè)可以生成、互動(dòng)且符合邏輯的3D虛擬世界時(shí),LeCun描繪的圖景才終于具象化了。
為什么實(shí)現(xiàn)AGI需要世界模型
為什么我們?nèi)绱似惹械匦枰澜缒P?/strong>?
因?yàn)榛诖笳Z言模型的AI在物理世界里,是個(gè)嚴(yán)重的「偏科生」。
現(xiàn)實(shí)數(shù)據(jù)的采集太苦、太慢了!
教會(huì)機(jī)器人認(rèn)識(shí)一件紅衣服,換成綠色的它可能就「懵」了;
更別提那些極端場(chǎng)景——我們總不能為了訓(xùn)練自動(dòng)駕駛,真去撞毀一千輛車吧?(還有更多低概率的corner case)

于是,一場(chǎng)圍繞物理世界的「數(shù)字重構(gòu)」悄然打響,并分化出三大戰(zhàn)場(chǎng):
游戲VR虛擬世界生成:以李飛飛的Marble為代表;自動(dòng)駕駛:以特斯拉FSD為代表;具身智能:這是當(dāng)下最火的方向,也是下個(gè)十年的AI的重心。
而第三個(gè)戰(zhàn)場(chǎng)——具身智能,則是目前最難啃的「硬骨頭」。
這個(gè)領(lǐng)域正撞上一堵看似不可逾越的「數(shù)據(jù)墻」。
長(zhǎng)期以來,行業(yè)被迫依賴「遙操作」——讓人類穿戴設(shè)備手把手教機(jī)器人。

這種方式不僅效率低、成本高,更致命的是泛化性極差。
而在嘗試用AI生成數(shù)據(jù)時(shí),又會(huì)掉進(jìn)另一個(gè)深坑:物理因果一致性。
以往的模型生成的視頻,往往只是「看起來像」。
但在機(jī)器人眼里,杯子憑空懸浮、水流違背重力,這些缺乏物理常識(shí)的畫面不僅無用,甚至是毒藥。
如何讓AI生成的世界既逼真又符合物理定律?
這成了阻擋AGI降臨現(xiàn)實(shí)的最大路障。
而一家剛剛成立的公司大曉機(jī)器人,率先突圍,交出了一份顛覆性的答卷——開悟世界模型3.0。
開悟3.0是一種全新范式的確立:多模態(tài)理解-生成-預(yù)測(cè)一體化。
與傳統(tǒng)大模型「看圖說話」的淺層邏輯不同,開悟3.0擁有極強(qiáng)的物理感知力。
它不僅能輸入文字、圖片、視頻,更能直接輸入力學(xué)信息與3D軌跡。
大曉的破局
我們有幸直接采訪到了商湯聯(lián)合創(chuàng)始人、執(zhí)行董事,大曉機(jī)器人董事長(zhǎng)王曉剛先生。
他畢業(yè)于中科大少年班,接著取得香港中文大學(xué)的碩士學(xué)位和MIT的計(jì)算機(jī)博士學(xué)位。
![]()
大曉機(jī)器人董事長(zhǎng) 王曉剛
他的論文被引數(shù)已超過14萬,也是中國(guó)的AI學(xué)術(shù)領(lǐng)軍人物之一。
![]()
能力越大,責(zé)任越大。目前,王曉剛同時(shí)擔(dān)任香港中文大學(xué)教授、商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事,以及最新也是最重要的身份:大曉機(jī)器人董事長(zhǎng)。
具身智能不能依賴「遙操作」
在我們與王曉剛的深度對(duì)談中,他拋出了一個(gè)令行業(yè)深思的觀點(diǎn):
如果具身智能繼續(xù)依賴「遙操作」,那我們實(shí)際上是倒退回了AI1.0時(shí)代。
目前的機(jī)器人訓(xùn)練場(chǎng)上,最常見的畫面是:一個(gè)穿戴著VR設(shè)備和動(dòng)作捕捉服的人類,「附身」在機(jī)器人身上,笨拙地教它疊衣服、拿蘋果。
這種被稱為「遙操作」的方法,本質(zhì)上還是「有多少人工,就有多少智能」。
它是線性的、昂貴的,且極度缺乏泛化能力。
王曉剛在采訪中一針見血地指出:
你不可能為了教機(jī)器人做飯,讓幾百萬人都穿上動(dòng)捕服去炒菜。
大曉的核心競(jìng)爭(zhēng)力,在于它率先試圖終結(jié)這種「提線木偶」式的訓(xùn)練邏輯。
他們提出了一套名為「環(huán)境式數(shù)據(jù)采集」的新范式。
大曉不強(qiáng)求「手把手」教機(jī)器人,而是讓AI像人類嬰兒一樣,通過「觀察」來學(xué)習(xí)。
利用第一視角(如AR眼鏡)和第三視角(環(huán)境攝像頭)采集的數(shù)據(jù)同時(shí)生成海量的運(yùn)動(dòng)軌跡,配合他們引以為傲的視覺算法,直接從人類的日常行為中提取「操作邏輯」。
這意味著,當(dāng)AI看了一萬遍人類廚師顛勺的各個(gè)角度視頻后,它學(xué)到的不再只是像素的移動(dòng),而是手腕發(fā)力的角度、鍋鏟與鍋底摩擦的力反饋,以及火焰與食材互動(dòng)的物理節(jié)奏。
![]()
開悟3.0:世界第一梯隊(duì)的世界模型
如果說環(huán)境式數(shù)采解決了「看」的問題,那么大曉即將發(fā)布的開悟3.0,則解決了「想」的問題。
在采訪中,王曉剛并沒有使用晦澀的術(shù)語堆砌,而是用一種近乎哲學(xué)的視角,拆解了這個(gè)被其稱為「全球首個(gè)開源且商業(yè)落地的世界模型」背后的技術(shù)野心。
Puffin:當(dāng)AI學(xué)會(huì)「與相機(jī)共思」
「?jìng)鹘y(tǒng)的視頻生成模型,其實(shí)是“盲”的。」王曉剛拿起桌上的礦泉水瓶,向我們演示,「AI看到這個(gè)瓶子,但它不知道自己是站著看、蹲著看,還是倒立著看。它只是在機(jī)械地預(yù)測(cè)下一幀的像素。」
這種視角的缺失,導(dǎo)致了一個(gè)致命問題:空間感的崩塌。
為了解決這個(gè)痛點(diǎn),大曉聯(lián)合南洋理工大學(xué)等機(jī)構(gòu),祭出了一項(xiàng)名為Puffin的殺手锏技術(shù)。
這項(xiàng)技術(shù)的核心理念極其浪漫——「與相機(jī)共思」。
![]()
論文地址:https://arxiv.org/abs/2510.08673
Puffin把「相機(jī)的位姿」變成了一種語言。
在它的眼里,光圈、焦距、拍攝角度,和「一只貓」、「一個(gè)蘋果」一樣,都是可以被理解和生成的Token。
「當(dāng)你給Puffin一張照片,它不僅能看懂照片里有什么,還能像福爾摩斯一樣,反推出拍攝者當(dāng)時(shí)站在哪里、相機(jī)是怎么運(yùn)動(dòng)的。」王曉剛解釋道,「這意味著,機(jī)器人不再是被動(dòng)地接收畫面,而是能主動(dòng)“腦補(bǔ)”出——如果我往左走一步,我會(huì)看到什么。」
這種能力讓具身智能第一次擁有了「預(yù)演」的能力。
在真正伸出機(jī)械臂去抓那個(gè)易碎的玻璃杯之前,機(jī)器人已經(jīng)在腦海中不僅模擬了抓取的動(dòng)作,還模擬了攝像頭在移動(dòng)過程中看到的光影變化。
WorldMEM:打破「金魚記憶」的魔咒
除了空間感,具身智能面臨的另一大夢(mèng)魘是「時(shí)間」。
現(xiàn)有的視頻生成模型,往往有著嚴(yán)重的「健忘癥」。
生成的視頻超過幾秒鐘,畫面就會(huì)開始崩壞:背景里的房子突然消失,或是人物的衣服顏色變來變?nèi)ァ?/p>
「想象一下,機(jī)器人要幫你整理房間。」王曉剛舉了一個(gè)非常生活化的例子,「它把一本書放進(jìn)書架的第二層,然后轉(zhuǎn)身去收拾桌子。十分鐘后,當(dāng)它再轉(zhuǎn)回來時(shí),那本書必須還在那里,不能憑空消失,也不能變成一只貓。」
這看似簡(jiǎn)單的「物體恒常性」,對(duì)AI來說卻是巨大的挑戰(zhàn)。
因?yàn)殡S著時(shí)間的推移,計(jì)算量會(huì)呈指數(shù)級(jí)爆炸,AI只能被迫「遺忘」。
為了打破這個(gè)魔咒,大曉引入了WorldMEM架構(gòu),并采用了創(chuàng)新的線性注意力機(jī)制。
![]()
論文地址:https://arxiv.org/abs/2504.12369
這就像是給機(jī)器人裝上了一個(gè)「無限容量」的記事本。
通過線性復(fù)雜度算法,大曉將計(jì)算成本從Transformer架構(gòu)的指數(shù)級(jí)降到了線性級(jí)。
「我們不僅讓機(jī)器人“記得住”,還讓它知道“記什么”。」王曉剛補(bǔ)充道,這種基于任務(wù)導(dǎo)向的長(zhǎng)時(shí)記憶,讓開悟3.0能夠生成長(zhǎng)達(dá)數(shù)分鐘、甚至更長(zhǎng)時(shí)間的連貫交互視頻。
這一能力被具象化為一組震撼的參數(shù):支持生成1080P高清視頻、支持長(zhǎng)時(shí)交互、甚至可以在動(dòng)/靜態(tài)場(chǎng)景下實(shí)現(xiàn)精細(xì)可控的自由編輯。
大曉生成的不僅僅是視頻,而是一個(gè)可以被反復(fù)推演、試錯(cuò)的平行時(shí)空。
對(duì)標(biāo)全球:除了造景,更需要交互
當(dāng)被問及與李飛飛團(tuán)隊(duì)的World Labs有何不同時(shí),王曉剛展現(xiàn)出了技術(shù)派特有的自信。
「World Labs發(fā)布的Marble,更多是在生成一個(gè)靜態(tài)的、唯美的3D場(chǎng)景,像是一個(gè)精美的游戲建模。」王曉剛分析道,「但世界是動(dòng)態(tài)的。你推一下椅子,椅子會(huì)倒;你打開冰箱,燈會(huì)亮。這種動(dòng)態(tài)的物理交互,才是具身智能的剛需。」

開悟3.0采用了一種獨(dú)特的「多模態(tài)理解-生成-預(yù)測(cè)」一體化架構(gòu)。
它不僅把靜態(tài)的物體(如桌子)和動(dòng)態(tài)的物體(如行人)分離開來,還能直接輸入力學(xué)信息。
「未來的機(jī)器人,要有直覺。」王曉剛說道,「它看到一個(gè)玻璃杯,不需要摸就知道它是滑的、易碎的;看到一個(gè)啞鈴,就知道它是重的。這種物理常識(shí)的涌現(xiàn),只能來自于對(duì)真實(shí)物理世界的深度模擬。」
在這個(gè)意義上,開悟3.0不僅是一個(gè)造夢(mèng)機(jī)器,更是一個(gè)嚴(yán)謹(jǐn)?shù)奈锢砟M器。
它讓機(jī)器人在虛擬世界中經(jīng)歷了成千上萬次的「摔打」,從而換來現(xiàn)實(shí)世界中的一次精準(zhǔn)操作。
軟硬一體的「陽謀」
為什么王曉剛要做「大曉機(jī)器人」這樣一家獨(dú)立的實(shí)體?
這背后藏著王曉剛對(duì)AI未來的終極判斷:當(dāng)互聯(lián)網(wǎng)數(shù)據(jù)枯竭時(shí),物理世界是唯一的礦藏。
純粹的軟件公司(如OpenAI)就像「缸中之腦」,雖然智商超群,但沒有觸覺,不懂輕重;
純粹的硬件公司雖然四肢發(fā)達(dá),但缺乏通用的認(rèn)知能力,往往淪為昂貴的玩具。
大曉的成立,就是為了打破這層次元壁。
他們不僅僅是在做算法,更是在通過自研的「具身超級(jí)大腦模組」和四足/通用機(jī)器人,去親自丈量物理世界的摩擦力、重力和反作用力。
這種「軟硬一體」并非簡(jiǎn)單的堆砌,而是一種深度的數(shù)據(jù)閉環(huán):
環(huán)境數(shù)據(jù)引擎:負(fù)責(zé)「看」(采集);開悟3.0:負(fù)責(zé)「想」(模擬);機(jī)器人本體:負(fù)責(zé)「做」(驗(yàn)證)。
這一閉環(huán)一旦跑通,大曉就擁有了類似特斯拉那樣的「飛輪效應(yīng)」——機(jī)器人用得越多,物理常識(shí)越豐富;物理常識(shí)越豐富,機(jī)器人越好用。
正如王曉剛所言:
未來的機(jī)器人,不僅要有聰明的大腦,還要有有趣的靈魂。
而這個(gè)靈魂,只能誕生于真實(shí)世界泥濘的道路上,而不是涼爽的機(jī)房里。
世界模型的「DeepSeek」
在通往具身智能終極形態(tài)的征途上,大曉選擇了一條更為艱難、但也更為寬廣的道路。
當(dāng)全球科技巨頭傾向于構(gòu)筑技術(shù)壁壘時(shí),大曉堅(jiān)定地高舉起開源的旗幟,做出了最具魄力的回應(yīng)。
開悟3.0的開源,不僅僅是大曉技術(shù)自信的體現(xiàn),更是一場(chǎng)構(gòu)筑全球具身智能生態(tài)的「陽謀」。
正如DeepSeek在大語言模型領(lǐng)域掀起的開源風(fēng)暴,大曉正立志成為世界模型領(lǐng)域的DeepSeek,打破閉源神話,將最頂尖的物理智能能力賦予全球開發(fā)者。
在這場(chǎng)物理世界的智慧革命中,大曉不僅是破局者,更是連接者,與全行業(yè)共創(chuàng)具身智能落地的輝煌未來。
大千世界,曉識(shí)萬象。
秒追ASI
?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點(diǎn)亮星標(biāo),鎖定新智元極速推送!





京公網(wǎng)安備 11011402013531號(hào)