2025年10月30日,智源研究院(下稱“智源”)在北京舉辦“悟界·Emu系列技術交流會”,智源院長王仲遠、智源多模態大模型負責人王鑫龍,發布了Emu3.5多模態世界大模型。這項工作的發布開啟了AI從語言學習向多模態世界學習演進的新紀元,讓原生多模態的大規模預訓練、大規模強化學習和高效推理迎來了新突破,指明了多模態 Scaling 的新范式,并證明了一條更簡潔、更具擴展性的技術路徑的可行性。與此同時,Emu作為“悟界”系列模型的重要組成部分,標志著AI正加速從數字世界邁向物理世界的關鍵一步。王仲遠表示:“在多模態模型和世界模型上,業內沒有統一法則,大家都在探索。隨著模型的不斷研發,我們相信多模態模型和世界模型應該融合成一個更強大的新物種,那就是“多模態世界大模型”。因此,Emu3.5是我們對這一理念的開創性實踐,甚至我們認為智源可能定義并開啟了一個新賽道。”
![]()
遵循第一性原理,實現端到端原生多模態世界建模
據了解,Emu3.5遵循第一性原理,采用單一的自回歸Transformer架構,實現了端到端的原生多模態世界建模。它在超過 10 萬億 token 的大規模多模態數據基礎上展開訓練,其視頻數據訓練量時長實現從15年到 790年的躍升,參數量從8B上升至34B。在對這一模型進行推理時,智源提出“離散擴散自適應”(Discrete Diffusion Adaptation,DiDA)技術,這項技術是一種高效的混合推理預測方法,能夠在不犧牲性能的前提下,將每張圖片的推理速度提升近 20 倍,讓自回歸模型的生成效率得以首次媲美頂尖的閉源擴散模型。
為什么說Emu3.5是“世界模型”?它是如何“理解世界”的?據了解,智源之所以將Emu3.5稱為“世界模型”,因為它通過單一、統一的訓練目標——“預測下一個狀態”(Next-State Prediction),從海量的多模態數據中,自發學習并內化了物理世界的運行規律、時空連續性以及事物間的因果關系。它并非被硬編碼灌輸這些知識,這種對真實世界物理動態的內在表征,使其能夠進行長時程規劃和與環境進行可泛化的交互。
那么,Emu3.5與當前其他的多模態模型(如視頻生成模型)有什么本質區別?作為一個多模態世界大模型,與專注于內容(如視頻)“生成”的模型不同的是,Emu3.5的核心在于“理解、預測與規劃”,它不僅能生成對未來的預測,更致力于構建一個關于世界如何運作的內在模型。兩者本質區別在于:Emu3.5不僅僅能生成內容,還構建了一個內在世界模型的預測系統,能夠從大規模多模態數據中原生學會意圖解析、因果推理和多步行動路徑規劃的能力。
悟界·Emu3.5模型具備學習現實世界物理動態與因果的能力,為探索通用世界模型奠定了堅實的基礎。它具備三大重要特點:一是具備從意圖到規劃的特點,模型能夠理解高層級的人類意圖(如“如何制作一艘宇宙飛船”“如何做咖啡拉花”),并自主生成詳細、連貫的多步驟行動路徑。二是具備動態世界模擬的特點,模型在統一框架內無縫融合了對世界的理解、規劃與模擬,能夠預測物理動態、時空演化和長時程因果關系。三是可以成為泛化交互的基礎,其涌現出的因果推理和規劃能力,為 AI 與人類及物理環境進行泛化交互如具身操控提供了關鍵的認知基礎。這些特點這讓新一代世界模型具備從“理解”到“行動”的全面智能能力,可以生成行動指南和進行圖文編輯。并且具備一定的物理直覺,因此可以開展多場景的探索。
Emu3.5 在多模態指導中展現出卓越的時序一致性與步驟推理能力,讓復雜任務的執行過程一目了然。多模態敘事能力上,Emu 3.5能圍繞任意主題生成沉浸式的故事體驗,釋放無限想象力。此外模型可實現跨場景的具身操作,具備泛化的動作規劃與復雜交互能力,并能在世界探索中保持長距離一致性與可控交互,兼顧真實與虛擬的動態環境,實現自由探索與精準控制。同時,在圖文編輯方面,它既能通過自然語言實現任意指令的圖片編輯與時空變換,也能以精準、智能、可控且富有創意的方式完成文圖生成,讓文字與視覺內容的融合更加自然與高保真。在基準測試中,Emu3.5 的表現超越了眾多知名的閉源模型。
開創多模態世界大模型新范式,探索通往AGI的演進之路
據介紹,智源的定位是做高校做不了、企業不愿意做的AI創新型研究,創新引領是其主要的使命和愿景。智源是國內最早開始從事大模型研發的機構,過去幾年智源在大模型方面做了不少工作,成功研發了悟道1.0、2.0和3.0,很多耳熟能詳的大模型人物最初都在智源研究院從事研發,最后通過智源把相關項目孵化了出去。近兩年,智源開始將重點放在多模態和面向物理世界的AI研發工作上。之所以聚焦這一重點,是基于智源對于未來技術的研判,即大模型正在加速從數字世界走進物理世界。如今,整個技術路徑演進也正在按照智源所預測的大致方向在走。很多大家耳熟能詳的視頻生成模型和圖像生成模型,基本上都是用的 DiT(Diffusion Transformer)架構。因為Diffusion 和 Transformer是兩種不同的架構,在實際融合的過程中,就會帶來巨大的挑戰。從2024年以來智源一直在倡導并希望能夠引領原生多模態大模型的研發,把多模態的理解和多模態的生成統一起來。因為只有這樣,才能夠真正讓AI看到、感知和理解這個世界,然后再與硬件結合。正因此,具身智能也是過去這兩年智源重點發力的研究方向,最終其希望AI能夠進入物理世界,真正解決人類生活中的更多現實問題。
大約一年前左右,智源于2024年10月發布了全球首個原生多模態世界模型悟界·Emu3,該模型只基于下一個token預測,無需擴散模型或組合方法,實現圖像、文本、視頻的大一統。模型一經上線便在技術社區引發了熱議。一年后,智源此次發布的Emu3.5,在“Next-Token Prediction”范式的基礎上,模擬了人類自然學習方式,以自回歸架構實現了對多模態序列的“下一狀態預測(NSP,Next-State Prediction)”,獲得了可泛化的世界建模能力,并且觀察到多模態大模型性能可以像大語言模型一樣隨數據、計算和參數規模的增長而提升。王仲遠表示:“通過 Emu3 我們驗證了自回歸架構實現多模態理解與生成大一統的可行性,Emu3.5 則開啟了多模態 Scaling 的新時代。更重要的是,它為通往更通用的、能夠理解并與物理世界交互的通用AI,提供了一條堅實的、可度量的實踐路徑。”
王仲遠總結稱:“以第一性原理來看大模型的未來的話,我們相信AI的下一次躍遷將來自模型對現實世界的深層表征與可泛化行動指導的能力。我們期待與更多科研機構與產業伙伴一起,開創多模態世界大模型新范式,探索通往AGI的演進之路。”接下來,智源將逐步面向學術界合作伙伴開放Emu3.5的科研體驗版,以便能夠促進基礎科學的探索與合作。同時,智源將陸續通過其官方渠道啟動面向產業界和開發者的邀請制測試。





京公網安備 11011402013531號