![]()
新智元報(bào)道
編輯:桃子 好困
AI第三種Scaling范式來臨!多模態(tài)原生世界模型Emu3.5出世,340億參數(shù),基于790年長(zhǎng)視頻數(shù)據(jù)完成訓(xùn)練。即生3D世界,每張圖片推理速度飆升20倍。
2025年,「世界模型」成為了AI巨頭們廝殺的戰(zhàn)場(chǎng)。
谷歌發(fā)布的Genie 3,一句話即可生成一個(gè)720p實(shí)時(shí)模擬的新世界。甚至,網(wǎng)友將其稱之為「游戲引擎2.0時(shí)代」。
李飛飛World Labs團(tuán)隊(duì)也推出了一款實(shí)時(shí)生成世界模型——RTFM,僅用一塊H100渲染出3D世界。

此外,還有meta FAIR打造的「代碼世界模型」(CWM)、Runway的「通用世界模型」(GWM)、特斯拉的神經(jīng)網(wǎng)絡(luò)模擬器等,AI界玩家們都在積極布局。
尤其是,多模態(tài)領(lǐng)域的「世界模型」,成為了他們加碼的核心點(diǎn)。
![]()
一直以來,李飛飛、LeCun等站隊(duì)「世界模型」AI大佬們認(rèn)為,僅憑語(yǔ)言,AI是無法復(fù)制人類智能,還需要理解和模擬物理解釋。
世界模型,便是終極答案。它可以模仿人類對(duì)周圍環(huán)境形成的「心智模型」來預(yù)測(cè)世界。
就在上周,人工智能領(lǐng)域再次迎來一枚深水炸彈。
北京智源研究院(BAAI)正式發(fā)布了其悟界·Emu系列的最新成果——Emu3.5。
在技術(shù)交流會(huì)上,智源研究院院長(zhǎng)王仲遠(yuǎn)博士將其定位為「開啟多模態(tài)世界大模型新紀(jì)元」的里程碑。
「并不一定所有的大模型技術(shù)路線都要完全跟隨別人已經(jīng)走過的路,我們自己也在開創(chuàng)一些新的技術(shù)路徑。」王仲遠(yuǎn)表示,「Emu系列是我們自己走出來的技術(shù)路線,我們是引領(lǐng)性的。」
與當(dāng)前主流的、將理解與生成分開處理的「模塊拼接式」多模態(tài)模型(如LLM+CLIP及DiT架構(gòu))不同,Emu3.5回歸「第一性原理」,像人類一樣從連續(xù)、長(zhǎng)時(shí)程的視覺經(jīng)驗(yàn)中學(xué)習(xí),用統(tǒng)一的自回歸架構(gòu)實(shí)現(xiàn)了對(duì)多模態(tài)世界的原生理解與生成。
「通過悟界·Emu3,我們驗(yàn)證了自回歸架構(gòu)實(shí)現(xiàn)多模態(tài)理解與生成大一統(tǒng)的可行性,」王仲遠(yuǎn)表示,「從Emu3到Emu3.5,我們證明了多模態(tài)也存在一個(gè)Scaling的范式。」
這個(gè)340億參數(shù)的模型,在長(zhǎng)文本渲染、復(fù)雜圖像編輯、視覺故事生成等多個(gè)維度上,其表現(xiàn)足以讓業(yè)界驚嘆「Wow」。更重要的是,它所展現(xiàn)出的對(duì)物理世界動(dòng)態(tài)、因果、時(shí)空、邏輯的深刻理解,預(yù)示著AI正加速?gòu)臄?shù)字世界邁向物理世界。
智源公開了長(zhǎng)達(dá)45頁(yè)的詳盡技術(shù)報(bào)告,將其數(shù)據(jù)處理、模型架構(gòu)、訓(xùn)練方式、推理加速等技術(shù)細(xì)節(jié)全盤托出。
![]()
項(xiàng)目主頁(yè):https://zh.emu.world
技術(shù)報(bào)告:https://arxiv.org/pdf/2510.26583
這背后,是智源對(duì)「引領(lǐng)人工智能原始創(chuàng)新」的堅(jiān)持,也是對(duì)未來技術(shù)路線的自信。
悟界·Emu3.5為當(dāng)前全球大模型競(jìng)賽中的幾個(gè)根本性問題,提供了一條來自中國(guó)的、邏輯自洽且潛力巨大的原創(chuàng)解法:
多模態(tài)應(yīng)該如何統(tǒng)一?——通過原生的、端到端的自回歸「Next-State Prediction」范式
世界模型應(yīng)該學(xué)習(xí)什么?——學(xué)習(xí)蘊(yùn)含了長(zhǎng)時(shí)程、高一致性等世界知識(shí)的長(zhǎng)視頻數(shù)據(jù)
如何實(shí)現(xiàn)規(guī)模化?——借助「預(yù)訓(xùn)練+多模態(tài)RL」的第三種Scaling范式,復(fù)用現(xiàn)有LLM基礎(chǔ)設(shè)施
如何落地?——通過DiDA等推理加速技術(shù),解決效率瓶頸
第一性原理,像人一樣學(xué)習(xí)
從Next-Token到Next-State
「人類的學(xué)習(xí),不是從文本學(xué)習(xí)開始的。」王仲遠(yuǎn)在發(fā)布會(huì)上反復(fù)強(qiáng)調(diào)這個(gè)觀點(diǎn)。
嬰兒睜開眼,首先感知的是視覺世界,通過觀察、交互,逐步理解物理規(guī)律、因果關(guān)系。語(yǔ)言是在這個(gè)基礎(chǔ)上發(fā)展起來的、用于溝通和泛化的工具。
當(dāng)前的大語(yǔ)言模型(LLM)在耗盡互聯(lián)網(wǎng)文本數(shù)據(jù)后,增長(zhǎng)已顯疲態(tài)。而多模態(tài)領(lǐng)域,技術(shù)路線尚未收斂。主流的視頻和圖像生成模型,如Sora、Nano Banana,大多采用Diffusion Transformer(DiT)等混合架構(gòu),本質(zhì)上仍是「拼裝」——理解和生成模塊分離,難以實(shí)現(xiàn)真正的、統(tǒng)一的智能。
Emu系列從誕生之初,就選擇了另一條更艱難但更本質(zhì)的道路:原生多模態(tài)。
Emu3.5繼承并極大地發(fā)展了這一理念。它采用了一個(gè)極其簡(jiǎn)潔但強(qiáng)大的統(tǒng)一范式:預(yù)測(cè)下一個(gè)狀態(tài)(Next-State Prediction)。
與LLM預(yù)測(cè)下一個(gè)文本Token類似,Emu3.5將圖像、文本、乃至動(dòng)作指令都「Token化」,置于一個(gè)統(tǒng)一的序列中,然后用一個(gè)單一的、端到端的自回歸Transformer模型來預(yù)測(cè)序列中的下一個(gè)Token。
這個(gè)「Token」可以是一段文字描述,也可以是構(gòu)成圖像的一個(gè)「視覺詞塊」,甚至可以是一個(gè)指導(dǎo)機(jī)器人手臂運(yùn)動(dòng)的指令。
這種架構(gòu)的優(yōu)越性是顯而易見的:
統(tǒng)一性:它徹底打破了理解與生成的壁壘。模型在生成圖像時(shí),是基于對(duì)上下文(包括之前的圖像和文字)的深刻理解。
可擴(kuò)展性:它能完美復(fù)用為L(zhǎng)LM構(gòu)建的、已極其成熟的訓(xùn)練、推理和強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施。這意味著,所有在LLM上驗(yàn)證過的Scaling Law和優(yōu)化技術(shù),理論上都可以在Emu3.5上「再來一遍」。
「我們終于可以在多模態(tài)大模型上實(shí)現(xiàn)Scaling up了。」王仲遠(yuǎn)對(duì)此充滿信心。
第三種Scaling范式
790年長(zhǎng)視頻數(shù)據(jù)與大規(guī)模多模態(tài)RL
如果說統(tǒng)一的架構(gòu)是骨架,那么海量且高質(zhì)量的數(shù)據(jù)就是血肉。
Emu3.5的訓(xùn)練數(shù)據(jù)量堪稱恐怖:超過13萬億多模態(tài)Token。
其核心,不再是短視頻剪輯或靜態(tài)的圖文對(duì),而是累計(jì)時(shí)長(zhǎng)達(dá)790年的互聯(lián)網(wǎng)長(zhǎng)視頻,涵蓋了紀(jì)錄片、教學(xué)視頻、Vlog、游戲動(dòng)畫等。
「長(zhǎng)視頻里有語(yǔ)音、有交互的文本,它有一個(gè)長(zhǎng)的上下文,有一致性。」Emu系列研發(fā)負(fù)責(zé)人王鑫龍解釋道。相比孤立的數(shù)據(jù)點(diǎn),長(zhǎng)視頻天然蘊(yùn)含了豐富的時(shí)空連續(xù)性、因果邏輯和上下文一致性,是學(xué)習(xí)世界模型的絕佳養(yǎng)料。
為了消化這些海量數(shù)據(jù),智源團(tuán)隊(duì)構(gòu)建了一套復(fù)雜的自動(dòng)化數(shù)據(jù)處理流水線,包括場(chǎng)景分割、語(yǔ)音轉(zhuǎn)文字(ASR)、關(guān)鍵幀提取、質(zhì)量評(píng)估、冗余去除和多模態(tài)摘要生成等。
在訓(xùn)練上,Emu3.5的路徑清晰而堅(jiān)定:
大規(guī)模預(yù)訓(xùn)練
在超過10萬億Token上進(jìn)行第一階段預(yù)訓(xùn)練,讓模型學(xué)會(huì)基礎(chǔ)的多模態(tài)對(duì)齊和生成能力。整個(gè)訓(xùn)練過程「非常穩(wěn)定」,在多個(gè)未見過的下游任務(wù)驗(yàn)證集上,損失函數(shù)隨著算力投入穩(wěn)步下降,這正是「Scaling范式」存在的有力證據(jù)。
大規(guī)模多模態(tài)強(qiáng)化學(xué)習(xí)(RL)
這是Emu3.5的另一大創(chuàng)舉。眾所周知,強(qiáng)化學(xué)習(xí)是激發(fā)LLM(如GPT-4o、DeepSeek-R1)推理和遵循指令能力的關(guān)鍵。但將其應(yīng)用于更復(fù)雜、序列更長(zhǎng)的多模態(tài)領(lǐng)域,困難重重。
得益于統(tǒng)一的自回歸架構(gòu),Emu3.5首次實(shí)現(xiàn)了統(tǒng)一多任務(wù)、多模態(tài)的強(qiáng)化學(xué)習(xí)。團(tuán)隊(duì)構(gòu)建了一個(gè)包含通用獎(jiǎng)勵(lì)(如美學(xué)、圖文一致性)和任務(wù)特定獎(jiǎng)勵(lì)(如OCR準(zhǔn)確率、人臉I(yè)D保持)的復(fù)雜獎(jiǎng)勵(lì)系統(tǒng),通過GRPO算法,在統(tǒng)一的獎(jiǎng)勵(lì)空間內(nèi)進(jìn)行優(yōu)化。
![]()
這套「大規(guī)模長(zhǎng)視頻預(yù)訓(xùn)練 + 大規(guī)模多模態(tài)RL」的組合拳,被王仲遠(yuǎn)稱為繼語(yǔ)言模型預(yù)訓(xùn)練、后訓(xùn)練之后的「第三種Scaling范式」。它指明了一條道路:通過不斷增加視頻數(shù)據(jù)、模型參數(shù)和算力,多模態(tài)世界模型的能力將可預(yù)見地持續(xù)提升。
黑科技DiDA
自回歸模型推理飆升20倍
自回歸模型「一個(gè)Token一個(gè)Token」的生成方式,導(dǎo)致其在生成高清圖像(通常一張圖就需要數(shù)千個(gè)Token)時(shí)速度很慢。這也是為什么Diffusion模型在生成領(lǐng)域長(zhǎng)期占據(jù)主導(dǎo)地位。
為了攻克這一難題,Emu3.5團(tuán)隊(duì)研發(fā)了名為離散擴(kuò)散自適應(yīng)(Discrete Diffusion Adaptation, DiDA)的黑科技。
DiDA的核心思想是,在模型完成大規(guī)模的自回歸預(yù)訓(xùn)練和后訓(xùn)練之后,通過一個(gè)輕量級(jí)的「適應(yīng)」階段,將其從「逐個(gè)Token預(yù)測(cè)」的模式,轉(zhuǎn)換為「并行生成」的模式。
![]()
具體來說,它借鑒了離散擴(kuò)散的思想,將圖像生成過程變成一個(gè)「去噪」過程:模型不再是從左到右生成,而是一次性生成所有「帶噪聲」的視覺Token,然后在幾個(gè)步驟內(nèi)并行地、雙向地修正它們,最終恢復(fù)出清晰的圖像。
效果如何?每張圖片的推理速度提升約20倍,且?guī)缀鯖]有性能損失!
這意味著,Emu3.5的自回歸模型,在推理效率上首次能夠與頂級(jí)的閉源Diffusion模型(如Midjourney)相媲美。這不僅是工程上的巨大勝利,更從根本上解決了原生多模態(tài)架構(gòu)的商業(yè)化落地瓶頸。
從圖像編輯到具身操作,開源最優(yōu)
理論的先進(jìn)性最終要靠效果說話。Emu3.5交出的答卷,足以讓任何從業(yè)者感到興奮。
頂級(jí)的Any-to-Image生成與編輯:
Emu3.5不僅能生成帶有復(fù)雜公式、中英文對(duì)聯(lián)的高質(zhì)量圖片,其圖像編輯能力更是達(dá)到了新的高度。在ImgEdit、GEdit-Bench等權(quán)威benchmarks上,Emu3.5的得分全面超越了包括Gemini 1.5 Flash、Qwen-VL-Max在內(nèi)的所有公開模型。
高層語(yǔ)義理解:
將指定的人物、特定的場(chǎng)景和任意物品進(jìn)行組合,Emu3.5可以創(chuàng)作出一個(gè)符合邏輯的全新世界,展現(xiàn)了其強(qiáng)大的想象力和世界構(gòu)建能力。
![]()
![]()
數(shù)字與空間理解:
指令「將圖片中標(biāo)號(hào)為4的物體換成電影海報(bào)」,模型能精準(zhǔn)定位并替換。
![]()
視角變換:
給定一張建筑正面圖,指令「切換到俯視圖」,模型能像擁有3D建模能力一樣,合理地生成新視角。
![]()
長(zhǎng)時(shí)序、高一致性的「世界學(xué)習(xí)」能力:
這部分能力,是Emu3.5作為「世界模型」的核心體現(xiàn),也是它與其他生成模型拉開代差的地方。在與Gemini 2.5 Flash Image的并列生成對(duì)比中,Emu3.5在視覺敘事、視覺指導(dǎo)、世界探索和具身操作等任務(wù)上的勝率均顯著更高。
視覺敘事(Visual Narrative):
給定一個(gè)主題,Emu3.5能生成一系列圖文并茂、情節(jié)連貫、主角形象高度一致的繪本故事。這得益于其長(zhǎng)序列建模能力,解決了傳統(tǒng)模型生成多圖時(shí)「張張換人」的痛點(diǎn)
![]()
給圖里的寶寶寫個(gè)故事,要講他夏天晚上和螢火蟲玩
視覺指導(dǎo)(Visual Guidance):
如何倒水?如何疊衣服?Emu3.5能像一本活的說明書,通過「圖片+文字」的步驟,清晰地展示一個(gè)任務(wù)的全過程
![]()
模型輸出結(jié)果:如何用黏土和顏料手工制作一個(gè)宇航員模型
![]()
模型輸出結(jié)果:如何從種子開始種羽衣甘藍(lán)?
世界探索(World Exploration):
用戶可以用文字定義一個(gè)場(chǎng)景,如「一個(gè)陽(yáng)光明媚的現(xiàn)代客廳」,然后通過「向左轉(zhuǎn)」、「向前走」等指令,模型會(huì)生成符合邏輯的、連續(xù)的探索畫面,仿佛置身于一個(gè)可交互的虛擬世界。這部分前面的視頻已經(jīng)展示了。
具身操作(Embodied Manipulation):
這是Emu3.5最具想象力的應(yīng)用之一。給定一個(gè)任務(wù),如「用松靈機(jī)械臂把桌面收拾好,12 步完成」,模型能生成一個(gè)包含12個(gè)步驟的、由松靈機(jī)器人手臂執(zhí)行的圖文序列。它不僅規(guī)劃了子任務(wù),還生成了每個(gè)關(guān)鍵步驟的視覺狀態(tài)。這為解決具身智能領(lǐng)域「數(shù)據(jù)稀缺」的痛點(diǎn)提供了全新的思路——用世界模型生成海量的、泛化的仿真數(shù)據(jù)。
![]()
智源研究院不僅發(fā)布了模型,更公開了詳盡的技術(shù)報(bào)告。這種開放的姿態(tài),旨在邀請(qǐng)全球社區(qū)共同探索這條由中國(guó)開創(chuàng)的新路。「我們希望這條路后續(xù)成為主流的路。」王仲遠(yuǎn)說,「登珠穆朗瑪峰南坡和北坡也許都可以登頂,我們希望我們走的是大家認(rèn)可的一條路。」
Emu3.5的參數(shù)僅為340億,使用的視頻數(shù)據(jù)不到互聯(lián)網(wǎng)公開數(shù)據(jù)的1%。它的能力上限,遠(yuǎn)未觸及。
未來隨著模型規(guī)模、數(shù)據(jù)規(guī)模的進(jìn)一步擴(kuò)大,這個(gè)「世界模型基座」還將帶來怎樣的驚喜,我們拭目以待。
參考資料:
https://zh.emu.world/
https://arxiv.org/pdf/2510.26583





京公網(wǎng)安備 11011402013531號(hào)