![]()
機器之心發布
機器之心編輯部
如果說 GPT 系列讓 AI 理解語言,Sora 系列讓 AI 生成視覺世界,那么 WoW 正在嘗試讓 AI 建模物理世界。
在「具身智能」與「世界模型」成為新一輪 AI 競賽關鍵詞的當下,來自北京人形機器人創新中心、北京大學多媒體信息處理國家重點實驗室、香港科技大學的中國團隊開源了全新的世界模型架構。
該團隊提出了一個讓機器真正 “看見、理解并行動于世界” 的世界模型 ——WoW(World-Omniscient World Model, 意圖讓 AI 學會 “做”—— 通過身體與世界互動來學習因果與物理,致力于助力行業打造 “最好用” 的具身智能機器人。
一經發布,受到學術界產業界關注關注,其中 Huggingface 留言:"Excellent work" 催更開源,斯坦福具身智能大佬,PI 創始人 Chelsea Finn & 清華合作文章引用 WoW 具身世界模型技術報告。
不是看圖說話,而是動手理解世界:WoW 模型揭秘
真正具備物理理解的世界模型,必須建立在與現實世界廣泛且因果豐富的交互與反饋之上。
人類通過與世界的主動互動,逐漸發展出對直覺物理的理解。這一點,與當下的視頻生成模型形成鮮明對比 —— 主要依賴 “被動觀察”,盡管 scaling up 已經證明這樣的生成有著驚人的潛力,但是在面對真實物理因果關系時可能會力不從心。作為一個預測模型,必須要認識到未來是多樣的,如薛定諤的貓,在實質觀測和交互之前,永遠沒有辦法給出準確的答復,能做的是給出一系列可能發生的選項。
從海量交互數據中學出物理直覺
WoW 從 800 萬條海量機器人與物理世界交互軌跡篩選出200 萬條高質量的訓練集、在參數量高達 140 億的視頻模型進行訓練,結果顯示,模型具備了對 “未來合理物理結果的概率分布” 的構建能力。

WoW 生成依次抓取火方塊,柔性方塊,水方塊

Sora 2 生成依次抓取火方塊,柔性方塊,水方塊

WoW 生成抓取移動放下透明容器

Sora 2 生成抓取移動放下透明容器
WoW 在多個任務中涌現出驚艷的符合物理直覺的生成效果。這意味著,AI 正在逐步具備 “直覺物理” 能力,或許也看到了通用機器人真正落地與泛化能力的曙光。
融合感知、生成與行動
WoW 的四大核心模塊
WoW 提出了一個全新的框架,將世界生成、動作預測、視覺理解 和 自我反思 融合為一個統一系統。這不僅僅是一次視覺模型的升級,而是一個融合了視覺、動作、物理與推理的世界生成框架。它讓 AI 不再只是「看視頻」或「生成圖像」,而能通過交互學習世界的物理規律,并在真實環境中自主操作。這個系統由四個核心組件構成:
SOPHIA 自反范式—— 讓模型能自我評判、修正、重寫。DiT 世界生成引擎—— 生成未來場景,預測物理演化。FM-IDM 逆動力學模型—— 將視頻預測轉化為可執行動作。WoWBench 世界基準—— 用于評測 AI 的物理一致性、規劃能力和現實部署表現。
一句話總結:
WoW 是一個能「想象世界 → 理解物理 → 生成視頻 → 執行動作 → 再學習」的閉環大模型。
![]()
WoW 是一個融合了感知、預測、判斷、反思與行動五個環節的具身世界模型。它從真實的機器人交互數據中學習,能在已知與未知場景中生成高質量、物理一致的機器人視頻,最終讓想象中的動作真正落地于現實執行
SOPHIA 自反體系
讓世界模型 “自己教自己”
如何讓模型不斷變聰明?WoW 的答案是 ——自我反思與自我修正。團隊提出的SOPHIA 框架,讓 AI 在生成結果后自我評估、給出反饋,并通過 Refiner Agent 改進提示詞或推理鏈。
![]()
比較了三種框架的核心機制:(a) Diffusion 模型:從輸入上下文生成未來幀;(b) JEPA 模型:學習在嵌入空間中的預測一致性;(c) SOPHIA: 首先由 預測器從上下文生成未來;接著由 評估器對結果進行打分,產生獎勵信號;然后由 修正器基于獎勵和外部語言 / 嵌入反饋發出糾正信號;整個系統通過這種方式進行循環優化。
這種過程認知閉環的反思式學習 “想象 — 驗證 — 修正 — 再想象”,正是人類智能的核心特征。WoW 的 SOPHIA,讓大模型具備了這種能力。在核心層面,WoW 遵循 SOPHIA 范式—— 將大語言模型與擴散 Transformer結合起來,在語言引導下生成物理上合理的未來, 通過 “生成預測 — 批評 — 修正” 的迭代循環機制,WoW 將 “想象” 與 “推理” 統一為具身智能的基本組成部分。
![]()
左側展示了 動態評論模型,它通過真實與合成視頻的標注訓練,學會判斷生成畫面的物理合理性。右側展示 Refiner Agent,根據評論模型的反饋不斷改寫提示詞、重新生成視頻,形成一個 “生成 — 批評 — 改進” 的閉環優化過程,讓模型越看越準,越生成越真實
DiT 世界生成基座模型
WoW 工作中 SOPHIA 范式的核心,是一個基于Diffusion Transformer架構的世界生成引擎,它能夠根據環境狀態與智能體當前觀測,預測未來場景、推演物理演化、還原動態因果鏈。更值得注意的是,團隊在論文中宣布:從1.3B → 2B → 7B → 14B 參數的全系列擴展的模型權重、推理代碼與 WoWBench 基準已經開源,以促進世界模型研究社區的復現與合作。
這不僅是一個模型,更是一個具備真實世界推理與生成能力的「物理引擎 + 想象系統」。
![]()
視頻擴散世界模型概覽。(a) 推理階段:一個潛空間擴散 Transformer 根據圖像觀測與基于文本的動作描述來預測未來幀。(b) 訓練階段:通過 DINO 特征對擴散 Transformer 的中間表征進行監督,采用特征關系蒸餾損失來提升模型的時空建模能力。
從視頻到動作
給算法觸摸世界的雙手
WoW 的最大亮點之一,在于讓「視頻生成」和「機器人動作」閉環。
WoW 團隊提出的FM-IDM能把預測的未來視頻幀,直接反解成機器人末端 7-DoF 動作。
![]()
給定連續兩幀預測視頻,FM-IDM 能夠計算出機器人末端執行器的動作變化量,從視覺 “想象” 中反推出真實可執行的運動指令,讓模型真正實現從視頻到行動的閉環
其實驗結果令人驚艷:
![]()
WoW 在真實機器人環境中的有效性。(左) 展示了 WoW 在真實機器人上執行的簡單與中等難度任務的成功軌跡示例。 (右)展示三種不同世界模型骨干在現實世界準確性比較的定量結果。在所有基礎模型中,微調都極大地提高了現實世界中的性能,其中 WoW-cosmos2 達到了 最高得分,展現了最優的實際執行能力。
WoW 將模型在 20 個操控任務上進行部署。視頻回放實驗評估IDM 模型的訓練性能,在簡單難度的任務達到 94.5%,中等難度的成功率達到 75.2% (創下新 SOTA,尤其在中等難度任務上顯著超越其他方法)。在復雜任務(如抓取、切割、分類)中具備「想象 — 執行 — 自我糾錯」能力。這意味著 AI 不再停留在 “想象中”,而能真正 “動手” 去驗證其理解,這標志著它真正實現了從生成到執行的跨越。
WoWBench
讓世界模型有了 “考試卷”
沒有評估,就沒有科學。團隊提出了WoWBench—— 全球首個針對具身世界模型的綜合基準。它包含 近千個高質量交互樣本,覆蓋 4 大核心維度,感知理解,預測推理,決策與規劃,泛化執行。WoWBench 的評估角度覆蓋多個指標,包括視覺保真與時間一致性,掩碼引導的區域一致性,指令理解與語義正確性,物理與因果推理,規劃與任務分解。
![]()
WoWBench 圍繞五個核心組成部分構建:(左上)多維評測體系,從視頻質量、規劃推理、物理規律、指令理解四個角度評價生成結果;(中上)對應具身世界模型的四大核心能力 —— 感知、規劃、預測與泛化;(右上)依托多源數據構建流程,融合自采、開源與 AI 生成數據,并結合 GPT 預篩選 + 人類標注的混合機制,形成高質量的視頻–指令對(圖中三張餅圖展示了數據分布統計);(中部)采用雙評測機制:專家模型評估運動與一致性,GPT 或精調 VLM 評估指令理解與任務規劃;(底部)還邀請了 12 位領域專家進行人工評審,確保模型表現與人類認知一致。
WoW 不只是能「生成逼真視頻」,而是真的理解了世界在如何運轉。
在 WoWBench 這個面向 “具身智能” 的綜合評分系統中,WoW 模型表現搶眼:不僅能準確理解任務指令(得分 96.5%),對物體運動的預測也高度符合物理規律(物理一致性超 80%)。這意味著,它不只是會 “看”,也開始 “懂” 了自然法則。
![]()
WoWBench 各模型多維細粒度性能對比圖,這張圖展示了不同模型在 WoWBench 各項指標下的詳細表現。不同顏色的方塊代表四個核心維度 —— 感知、預測、規劃與泛化,每個模塊中都給出了直觀的圖表,對比各模型在不同評測指標下的得分差異。
實驗
同期模型對比實驗
WoW 團隊比較了六種模型在 WoWBench 基準下的總體性能,包括 CogVideoX、Wan2.1、Cosmos-Predict 以及 團隊提出的 WoW 系列模型。結果顯示,數據規模越大、架構越先進的模型,在性能上呈現顯著正相關。
![]()
WoW-DiT 本身已經在人類與自動評測中均取得最高分(Overall = 49.39)
下面實驗結果,說明 WoW 的 “自我優化循環 SOPHIA 范式” 使模型能從推理 — 生成 — 反思的閉環中不斷改進,區別于傳統僅追求視覺保真度的視頻生成模型。
![]()
加入 Agent 自優化模塊后,WoW+Agent 的總體評分進一步提升至 51.97,超過其他對比模型。
消融實驗
此節闡述了 WoW 在具身智能領域對神經網絡 Scaling Law 規律的探索結果。在數據與模型均擴大的情況下,性能呈單調上升但逐漸飽和,這與 GPT 系列、Diffusion 模型的經驗一致,說明其架構穩定且具備擴展潛力。實驗主要針對三個核心變量,數據規模、任務難度、模型規模等。 結果表明總體性能遵循典型冪律關系。其中性能最大收益出現在從200k → 600k的擴展中。任務難度消融實驗說明模型在中等和困難任務中尚未飽和,更多對應類型數據可進一步提升性能。此外,在不同尺寸模型中 14B 模型性能最強但推理最慢,7B 模型在性能與效率間更平衡。
![]()
數據規模與任務難度消融結果
![]()
外源評測基準下數據規模縮放比較
![]()
模型規模縮放實驗
泛化能力分析
WoW 不是在記憶訓練場景,而是在學習“物理規律的抽象本質”。這類 “視覺 + 物理” 的泛化能力,是通向具身智能的關鍵指標。WoW 展現了三種核心泛化能力。
跨機器人形態泛化
WoW 世界模型在不同機器人平臺上的泛化表現。無論是 UR5、Franka、AgileX 雙臂機器人,還是靈巧手與仿真環境,模型都能在零微調的情況下準確理解指令并完成任務,體現出對不同機器人結構與動力學的強大適應能力。這說明模型學到與身體形態無關的物理表示。



任務泛化
WoW 模型能夠覆蓋多達 15 種動作技能,從基礎(pull、push)到復雜(tie、unstack)。并且模型能學習組合式技能表示,而非死記具體動作。



領域泛化
WoW 模型展現出很強的領域外零樣本泛化能力。WoW 能夠操作剛體、流體、不同大小與初始狀態的物體,甚至在不同視覺風格(照片、素描、油畫)下仍能正確預測執行。


高級推理與泛化能力
反事實推理與重新規劃
![]()
WoW 世界模型進一步展示了如何在設定不同反事實假設(如酸性液體、敵意行為、材料屬性等)條件下,進行合理的物理推理與未來場景生成:
在假設液體具有強腐蝕性時,刀具被腐蝕熔化,最終碎裂墜落;在假設機器人行為被判定為敵對時,模型推理人類會做出反抗;在假設夾克由堅硬石材制成時,機器人嘗試搬動卻無法抬起;在假設蘋果為易碎材質時,模型預測其被掰碎成多個碎片。
該圖體現了模型對 “如果…… 將會……” 類問題的理解能力,具備在假設條件下重新規劃行為的能力,標志著具身智能系統朝向更高級推理與泛化能力的重要一步。
物理與邏輯一致性
![]()
這一節展示了 WoW 在符號邏輯與物理行動結合方面的突破。其核心特征是將邏輯結構解析成具體操作圖,使得模型擁有 “理解 - 計劃 - 執行” 的鏈式推理機制,最后實驗結果顯示出模型能處理語言邏輯與物理空間的一致性約束。這說明 WoW 不僅能 “看懂” 指令,還能 “遵守邏輯規則去行動”。在認知層面,構建了 “從理解語義 → 推理約束 → 動作合成” 的完整智能路徑。
可以落地的應用場景
論文不僅停留在理論上,還可以在多個方向落地驗證:
世界模型遷移與數據擴增—— 從少量真實數據出發,生成更多合成樣本,降低數據采集與標注成本。智能體自我迭代平臺—— 提供自優化接口。
此外,原文也涵蓋了動作到視頻仿真,4D 世界重建與虛擬孿生,從視頻到動作等應用場景。
世界模型遷移與數據擴增
AI 的 “自我造數” 能力
在真實世界中采集機器人視頻與動作數據,往往成本高昂、周期漫長。為此,WoW 團隊提出了一條世界模型遷移與可控數據擴增管線, 讓 AI 能夠像科學家一樣,用自己的 “世界想象力” 來創造新數據。這條管線結合了可控視頻生成的多模態控制能力, 使模型不僅能生成視頻,還能控制生成風格、動作分布、光照和場景語義。
![]()
視覺風格遷移增強示例
系統可在虛擬空間中完成“想象 → 生成 → 再標注 → 遷移”的自循環過程。首先從少量真實交互樣本出發,自動合成成千上萬條物理一致的視覺 - 動作數據,然后通過多模態控制,實現不同任務類型、環境風格與相機視角的多樣化生成。并且這種生成支持視覺風格遷移與 VLA 數據同步合成,從而提升策略學習與視覺推理的泛化能力。

換句話說,WoW 讓 AI 擁有了真正的“自我造數”能力 —— 它不再完全依賴昂貴的人力采集,而能依靠世界模型的物理推理與想象能力,持續擴展自己的學習邊界與世界認知。結果表明,這種組合增強能有效模擬真實世界中自然出現的變化,提高 VLA 模型的泛化能力。
智能體自我迭代平臺
此外,WoW 還展現了更廣泛的應用潛力。它不僅僅是一個生成器,還能提升 VLM 的推理能力,充當物理仿真器,支持 3D 感知表征學習。WoW 團隊發現,生成型世界模型可作為交互式沙盒,使 VLM 在長時序任務規劃中 “自我調試邏輯錯誤”。
![]()
通過世界模型仿真的 VLM 規劃自我校正。(a) 我們的迭代循環機制:VLM 規劃器首先提出一個動作方案,世界模型隨后模擬其未來幀,接著由 VLM 評論器(critic) 對結果進行評估并提供反饋,從而使規劃器能夠優化下一步決策。 (b) 生成的示例:上圖展示了一個成功的規劃結果,而下圖展示了檢測到失敗后的重新規劃觸發過程。
例如給定實驗任務為 “將不同顏色的方塊分開,并把相同顏色的方塊堆疊。”,即一個空間推理任務。單次規劃設定下,即使是強大的 Qwen-7B 模型成功率也僅 30%。WoW 團隊建立一個認知循環。首先 VLM 提出子目標,緊接著世界模型模擬未來幀,VLM 評估結果,若失敗則重新規劃。經過 2 輪交互后,任務規劃成功率從 33% → 89%,任務任務完成率從 0% → 44%。實驗表明,這種基于模擬反饋的交互迭代機制,可顯著提升模型在模糊任務中的自我修正與反思能力。這種能力使得模型在長程任務表現得游刃有余。



未來
通向具身物理世界模型時代的 “操作系統”
從 GPT 到 Sora,我們讓 AI 會說、會看。
而 WoW 的真正野心在于 讓 AI開始會 “干活”。WoW 通過系統性結合完成了想象世界 → 理解物理 → 生成視頻 → 執行動作 → 再學習的邏輯閉環,而這僅僅是一個開始。當 AI 擁有 “手” 和 “身體”,能夠真實地探索世界、干預世界、理解因果、積累經驗,它將不再只是世界的觀察者,而成為一個真正的智能體。這也意味著有可能演化出更貼近人類的具身心智模型,具備感知、理解、決策、記憶與行動的統一結構等。
未來的研究將持續推進 WoW 在具身智能方向的多模態融合、自主學習、現實交互等能力邊界,探索 AI 如何像人類一樣在世界中生長、適應與進化。為了加速這個進程,WoW 項目現已全面開源,向所有研究者與開發者開放。
![]()
具身智能體與世界模型的體系結構:一個智能體通過多種感知輸入(例如視覺、聽覺、熱覺、力覺等)來感知外部環境。 這些感知信號由世界模型進行處理,構建出一個關于環境的內部預測表征。模型的預測結果以及保存在短期記憶與長期記憶中的過往經驗,將為其推理與判斷提供依據。在此基礎上,執行體根據內部模擬生成相應的動作,以操縱真實世界。這種閉環系統使智能體能夠:學習環境的動態規律;進行未來的規劃與預判;并最終完成復雜的目標任務。
結語
AI 的下一個十年,不僅屬于語言模型,也屬于世界模型。
而 WoW,無疑在這條路上,邁出了具有里程碑意義的一步。
從「理解世界」到「重建世界」,WoW 讓我們看到了人工智能真正成為具身智能體的未來。
機器終于有了 “身體的想象力”。
世界,也因此變得更可被理解。
論文地址: https://arxiv.org/pdf/2509.22642項目地址: https://wow-world-model.github.io/#開源代碼地址: https://wow-world-model.github.io/開源模型地址:https://huggingface.co/WoW-world-model





京公網安備 11011402013531號