![]()
迎來(lái)多模態(tài)世界模型新時(shí)代?
作者|連冉
編輯|鄭玄
10 月 30 日,智源研究院正式發(fā)布了「悟界 EMU3.5」多模態(tài)世界大模型。
在當(dāng)前大語(yǔ)言模型(LLM)的文本能力逐漸觸頂、行業(yè)普遍尋求新突破口的背景下,多模態(tài)被視為人工智能的下一個(gè)重要方向。
然而,如何有效融合文本、圖像、視頻等不同模態(tài)的數(shù)據(jù),一直是業(yè)界面臨的難題。
長(zhǎng)期以來(lái),多模態(tài)領(lǐng)域存在兩種不同的技術(shù)路徑:一種是 DiT(Diffusion Transformer)架構(gòu),在文生圖、文生視頻等生成任務(wù)上表現(xiàn)出色;另一種則是以智源 Emu 系列為代表的「原生多模態(tài)」架構(gòu),嘗試從一開(kāi)始就用統(tǒng)一的模型處理一切。
智源研究院院長(zhǎng)王仲遠(yuǎn)在發(fā)布會(huì)上表示,EMU3.5 的發(fā)布,標(biāo)志著人工智能從「語(yǔ)言學(xué)習(xí)」向「多模態(tài)世界學(xué)習(xí)」演進(jìn)的新紀(jì)元,并率先指明了多模態(tài) Scaling(規(guī)模化)的新范式。
從一年前驗(yàn)證技術(shù)路線的 Emu3,到今天宣稱「開(kāi)啟新紀(jì)元」的 EMU3.5,智源究竟解決了什么關(guān)鍵問(wèn)題?這背后又體現(xiàn)了怎樣的技術(shù)思路?
01
補(bǔ)齊核心短板:
從「統(tǒng)一」到「高效」
多模態(tài) AI 的核心挑戰(zhàn)之一,是如何建立一個(gè)「大一統(tǒng)」的模型。
行業(yè)中常見(jiàn)的做法,是將不同功能的模型(如一個(gè)理解模型、一個(gè)生成模型)拼接起來(lái)。但這會(huì)帶來(lái)融合的挑戰(zhàn),不同架構(gòu)間的「語(yǔ)言」并不相通。
智源從 Emu3 開(kāi)始,就選擇了一條更徹底、也更難的「原生多模態(tài)」路線:使用統(tǒng)一的自回歸架構(gòu)。
![]()
智源研究院
自回歸架構(gòu)是目前大語(yǔ)言模型的基石,其范式是「Next-Token Prediction」。智源將其推廣到了多模態(tài)領(lǐng)域,無(wú)論是文本、圖像還是視頻,都被打散成 Token,由模型統(tǒng)一預(yù)測(cè)。這樣做的好處是理論上極其簡(jiǎn)潔優(yōu)雅,實(shí)現(xiàn)了「圖像、文本、視頻的大一統(tǒng)」。
但這個(gè)選擇在過(guò)去一年里也面臨著一個(gè)致命的「原罪」:推理效率太低。
當(dāng)模型生成圖像時(shí),需要一個(gè) Token 一個(gè) Token 地「吐」出來(lái),這個(gè)過(guò)程就像「像素點(diǎn)打印」,相較于 Diffusion 等模型并行的生成方式,速度慢了幾個(gè)數(shù)量級(jí)。
一個(gè)無(wú)法高效運(yùn)行的模型,其「統(tǒng)一」的理論優(yōu)勢(shì)就很難在實(shí)踐中落地。因此,效率問(wèn)題,是 EMU3.5 必須攻克的第一座大山。MU3.5 團(tuán)隊(duì)提出了一項(xiàng)名為「DiDA(Discrete Diffusion Adaptation,DiDA),離散擴(kuò)散自適應(yīng))」的創(chuàng)新技術(shù),作為這個(gè)難題的解方。
DiDA 是一種高效的混合推理預(yù)測(cè)方法,它允許自回歸模型在推理時(shí),可以并行地預(yù)測(cè)和生成大規(guī)模的 Token。這從根本上改變了「一個(gè)點(diǎn)一個(gè)點(diǎn)畫(huà)」的低效模式。
帶來(lái)的提升是顯著的:在不犧牲性能的前提下,每張圖片的推理速度提升了近 20 倍。王仲遠(yuǎn)談到,這使得 EMU3.5 的自回歸架構(gòu),「首次使自回歸模型的生成效率媲美頂尖的閉源擴(kuò)散模型」。
這個(gè)工程上的關(guān)鍵突破,補(bǔ)齊了原生多模態(tài)路線的核心短板。它證明了這條路不僅在理論上可行,在實(shí)踐中也具備了「可用性」和「可競(jìng)爭(zhēng)性」。
解決了效率枷鎖后,通往「規(guī)模化」的道路才真正被打開(kāi)。
02
開(kāi)啟「第三范式」:
當(dāng)多模態(tài)遇上 Scaling Law
在人工智能領(lǐng)域,「Scaling Law」(規(guī)模定律)是過(guò)去幾年最重要的發(fā)現(xiàn)之一。它指的是,只要持續(xù)增加模型參數(shù)、訓(xùn)練數(shù)據(jù)和算力投入,模型的性能就會(huì)相應(yīng)地可預(yù)期地提升。大模型的成功,就是建立在這一「力大磚飛」的信仰之上。
但在多模態(tài)領(lǐng)域,這條路一直不甚明朗。由于技術(shù)路線不統(tǒng)一,行業(yè)并不確定多模態(tài)模型是否存在清晰的 Scaling Law。
EMU3.5 通過(guò) DiDA 技術(shù)解決了效率問(wèn)題后,智源迅速開(kāi)始了規(guī)模化的驗(yàn)證。從 Emu3 到 EMU3.5 的變化清晰地體現(xiàn)了這一點(diǎn):
模型參數(shù): 從 8B(80 億)躍升至 34B(340 億),提升超過(guò) 4 倍;訓(xùn)練數(shù)據(jù): 累計(jì)的視頻數(shù)據(jù)訓(xùn)練時(shí)長(zhǎng),從 15 年猛增到 790 年,躍升超過(guò) 50 倍;性能也隨之獲得了顯著提升。
基于這一實(shí)踐,王仲遠(yuǎn)在發(fā)布會(huì)上提出了一個(gè)大膽的判斷:EMU3.5 開(kāi)啟了繼「語(yǔ)言預(yù)訓(xùn)練」和「后訓(xùn)練及推理」之后的「第三個(gè) Scaling 范式」。
為什么稱其為「新范式」?智源給出了三個(gè)理由:
架構(gòu)的統(tǒng)一性: EMU 的自回歸架構(gòu)能夠大一統(tǒng)地處理各種模態(tài)的數(shù)據(jù),為規(guī)模化提供了簡(jiǎn)潔的基礎(chǔ)。
設(shè)施的可復(fù)用性: 這一架構(gòu)可以「大規(guī)模復(fù)用已有的計(jì)算基礎(chǔ)設(shè)施」。這意味著,所有為訓(xùn)練 LLM 而構(gòu)建的昂貴智算集群,幾乎都可以無(wú)縫遷移過(guò)來(lái)訓(xùn)練 EMU 模型,極大降低了 Scaling 的門(mén)檻。
強(qiáng)化學(xué)習(xí)的引入: EMU3.5 首次在多模態(tài)領(lǐng)域?qū)崿F(xiàn)了大規(guī)模強(qiáng)化學(xué)習(xí)(RL)。強(qiáng)化學(xué)習(xí)(尤其是 RLHF)是激發(fā) LLM 高級(jí)能力、使其「聽(tīng)話」的關(guān)鍵步驟。如今,智源將這套在語(yǔ)言上被驗(yàn)證過(guò)的成熟方案,成功地應(yīng)用到了更復(fù)雜的多模態(tài)模型上。
「Scaling 范式」的意義在于「可預(yù)期」。而 EMU3.5 的潛力才剛剛開(kāi)始釋放。王仲遠(yuǎn)在現(xiàn)場(chǎng)提到,目前 34B 的參數(shù)規(guī)模,相比 LLM 動(dòng)輒萬(wàn)億的規(guī)模還很小;而 790 年的視頻數(shù)據(jù)量,「只占全互聯(lián)網(wǎng)公開(kāi)視頻數(shù)據(jù)不到 1%」。
這意味著,無(wú)論是在模型參數(shù)還是在數(shù)據(jù)維度上,這條路都還有著巨大的提升空間。只要沿著這條路繼續(xù)「力大磚飛」,模型能力的上限遠(yuǎn)未到來(lái)。
03
學(xué)習(xí)世界規(guī)則:
從「預(yù)測(cè) Token」到「預(yù)測(cè)狀態(tài)」
如果說(shuō),解決效率問(wèn)題和開(kāi)啟規(guī)模化,回答了「怎么做」的問(wèn)題,那么 EMU3.5 的另一大轉(zhuǎn)變,則是在回答「學(xué)什么」的問(wèn)題。
智源團(tuán)隊(duì)在發(fā)布會(huì)上反復(fù)強(qiáng)調(diào)「第一性原理」。王仲遠(yuǎn)舉了一個(gè)觀察兩歲小女孩的例子:她通過(guò)刷短視頻,觀察視頻里的人如何吃糖葫蘆,然后在現(xiàn)實(shí)世界中模仿、嘗試、失敗、再嘗試,最終自己學(xué)會(huì)了串糖葫蘆。
他強(qiáng)調(diào)人類的學(xué)習(xí),不是從文本開(kāi)始的,而是從對(duì)這個(gè)世界、對(duì)物理規(guī)律的視覺(jué)觀察開(kāi)始的。
這也是 EMU3.5 試圖模擬的核心理念:AI 不應(yīng)只學(xué)習(xí)「語(yǔ)言」,更應(yīng)學(xué)習(xí)「世界」。
為此,EMU3.5 提出了一個(gè)核心范式的升級(jí):從 Emu3 的「Next-Token Prediction」),升級(jí)為「Next-State Prediction (NSP)」。
這個(gè)轉(zhuǎn)變意味著模型的目標(biāo),不再是機(jī)械地「續(xù)寫(xiě)」數(shù)據(jù)(比如預(yù)測(cè)下一個(gè)像素或下一個(gè)詞),而是要理解事物背后的因果和規(guī)律,預(yù)測(cè)世界在邏輯上的「下一個(gè)狀態(tài)」。
基于此,智源也對(duì)「世界模型」這一概念提出了自己的定義。王仲遠(yuǎn)在采訪中直言,不完全贊同「世界模型就是視頻生成」的觀點(diǎn)。他認(rèn)為,世界模型的核心,是「對(duì)于整個(gè)世界因果關(guān)系、時(shí)空、物理建模的能力」。
他用一個(gè)「桌邊的咖啡」的例子來(lái)說(shuō)明:
一個(gè)「視頻生成模型」,也許能預(yù)測(cè)出「杯子掉落、咖啡灑一地」的逼真畫(huà)面。
但一個(gè)「世界模型」,首先應(yīng)該理解「這個(gè)杯子放得很危險(xiǎn)(狀態(tài))」,并預(yù)測(cè)「它很可能會(huì)掉落(狀態(tài)變化)」。
更進(jìn)一步,當(dāng)接收到「拿起這杯咖啡」的指令時(shí),這個(gè)模型會(huì)基于對(duì)物理常識(shí)(紙杯的力度、重心的位置)的理解,來(lái)規(guī)劃「下一步的行動(dòng)」。
EMU3.5 展現(xiàn)出的許多能力,都在印證這種從「理解」到「行動(dòng)」的進(jìn)化:
![]()
Emu3.5 能以精準(zhǔn)可控的方式完成文圖生成|智源研究院
![]()
展現(xiàn)出基于視覺(jué)理解的圖像生成能力智源研究院
![]()
Emu3.5 的多模態(tài)指導(dǎo)能力:輸入「如何做芹菜餃子」,模型輸出有步驟的圖文指導(dǎo)智源研究院
意圖規(guī)劃: 當(dāng)用戶輸入「如何做芹菜餃子」時(shí),模型輸出的不是零散的圖片,而是一套圖文并茂、步驟清晰的「行動(dòng)指南」。
動(dòng)態(tài)模擬與推理: 在一個(gè)示例中,模型需要根據(jù)圖案規(guī)律,在「?」處填上合適的顏色。這要求模型必須先「理解」圖案的排布規(guī)則(一種邏輯狀態(tài)),才能「生成」正確的紅色方塊(下一個(gè)狀態(tài))。
時(shí)空理解: 模型可以將一張建筑的正面圖,根據(jù)指令轉(zhuǎn)換為「俯視圖」。這背后是模型對(duì)物體三維空間關(guān)系的建模。
這種「預(yù)測(cè)下一個(gè)狀態(tài)」的能力,最終指向了人工智能的終極應(yīng)用之一:具身智能(機(jī)器人)。
具身智能行業(yè)目前面臨數(shù)據(jù)匱乏的瓶頸。而 EMU3.5 這樣的世界模型,可以通過(guò)對(duì)物理世界的理解和模擬,為機(jī)器人生成海量、高質(zhì)量、且多樣化的「仿真訓(xùn)練數(shù)據(jù)」。例如,在「疊衣服」的演示中,模型自主規(guī)劃并生成了機(jī)器人完成復(fù)雜折疊動(dòng)作的完整序列。
![]()
只需一句「疊衣服」的簡(jiǎn)單指令,Emu3.5 便能自主規(guī)劃、拆解任務(wù),并精確生成機(jī)器人完成一整套復(fù)雜的折疊動(dòng)作|智源研究院
王鑫龍博士則在交流中提到,利用 EMU3.5 的世界模型能力,機(jī)器人在「沒(méi)見(jiàn)過(guò)的場(chǎng)景」中執(zhí)行任務(wù),成功率可以「直接(從 0%)到 70%」。這表明,EMU3.5 正在扮演的,是具身智能「大腦」的角色,即提供理解、規(guī)劃和泛化的核心智能。
EMU3.5 的發(fā)布,首先通過(guò) DiDA 技術(shù),解決了原生多模態(tài)自回歸架構(gòu)最致命的「效率」短板。以此為基礎(chǔ),它得以開(kāi)啟「多模態(tài) Scaling」的進(jìn)程,通過(guò)堆疊數(shù)據(jù)和參數(shù)來(lái)提升能力,并驗(yàn)證了「第三種 Scaling 范式」的可能性。
而這種規(guī)模化的最終目標(biāo),是實(shí)現(xiàn)一個(gè)更宏大的愿景:從「預(yù)測(cè) Token」轉(zhuǎn)向「預(yù)測(cè)狀態(tài)」,讓 AI 真正學(xué)習(xí)這個(gè)世界的物理規(guī)律和因果關(guān)系,為最終實(shí)現(xiàn)能夠理解并與物理世界交互的通用人工智能,提供了一條堅(jiān)實(shí)的路徑。
目前智源已將技術(shù)細(xì)節(jié)在技術(shù)報(bào)告里披露,并計(jì)劃在未來(lái)開(kāi)源模型,或許在多模態(tài)世界模型這條新賽道上,一個(gè)來(lái)自中國(guó)的「新范式」已經(jīng)登場(chǎng)。
*頭圖智源研究院
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO
極客一問(wèn)
你如何看待 EMU3.5?
一年狂賺 3260 億!雷軍成財(cái)富「增長(zhǎng)王」胡潤(rùn)調(diào)侃撿錢(qián)都虧
點(diǎn)贊關(guān)注極客公園視頻號(hào),





京公網(wǎng)安備 11011402013531號(hào)