鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
世界模型賽道,又有老面孔新鮮入局!
就在剛剛,Runway發布旗下首個通用世界模型GWM-1。

不止于此,還打包發布了一系列世界模型變體:
模擬真實環境的GWM Worlds;
模擬人物對話的GWM Avatars;
模擬機器人操作的GWM Robotics。
……
而這些通通都是基于最新版Gen-4.5建立的。
是的!Runway這次還把Gen-4.5來了個大升級。

看來年末大促銷的不只有圣誕老人奧特曼,還有好萊塢名導Runway。
話不多說,上實機:
世界模型全家桶發布
根據官方介紹,GWM-1是基于Gen-4.5構建的,這是Runway最新的視頻生成模型。
但和Gen-4.5有所不同的是,GWM-1采用的是自回歸架構,它可以根據之前的記憶內容,進行逐幀預測生成。
另外模型支持實時交互控制,包括調整相機姿態、修改機器人操作指令或音頻。

它目前包含三個變體:
1、GWM Worlds:用于實時環境的模擬與探索。
GWM Worlds能夠讓用戶在連貫、有反應的世界中自由移動,而無需手動設計每個空間。
具體來說,用戶首先需要為模型提供一個可供參考的靜態場景,然后它就會在用戶移動過程中,實時生成一個沉浸式、無限且可探索的空間,其中包含幾何圖形、光照和物理效果。
相比于其它世界模型,普遍只能生成有限長度的幀序列,GWM Worlds不僅能夠在智能體移動的同時實時生成新場景,還能保持這些場景元素在長序列移動過程中的空間一致性。

允許用戶通過文本提示改變環境的物理規則,例如當提示詞要求智能體騎自行車,場景就會被約束在地面上;反之如果提示飛行,模型就會解除重力約束,實現空中自由導航。
這將有助于訓練智能體在真實物理世界的行動,GWM Worlds可以快速搭建出一個能讓智能體自由探索、犯錯和學習的環境。
此外GWM Worlds也可以通過實時生成虛擬環境,為VR沉浸式體驗提供支持。
2、GWM Avatars:能夠模擬人類對話。
這是一個由音頻驅動的交互式視頻生成模型,可以模擬自然的人類表情和動作,無論是寫實還是風格化角色。
能夠渲染出逼真的面部表情、眼部動作、口型與語音同步,以及自然的手勢,在長時間交互中也能保持穩定質量。
它可以作為生活中的個性化導師,用仿真的互動方式解釋復雜概念;也能改變客戶服務方式,生成一個永遠耐心、隨時在線、具有人類表情的數字人,幫助解決用戶實際需求。
在面試、談判等高壓場景中,GWM Avatars模擬真實對話,讓人們得以在安全環境中練習沖突溝通或演講示范;而在游戲和互動娛樂領域,也能讓NPC變得栩栩如生——做到能傾聽、能思考、能對話。

而GWM Avatars即將正式上線,并提供API,供使用者自行集成到自己的產品或服務中。
3、GWM Robotics:用于機器人操作。
GWM Robotics本質上更偏向于學習型模擬器,并非基于固定規則編程,而是通過學習機器人相關數據形成模擬能力。
換言之,它是一個在機器人數據上訓練的世界模型,會根據機器人動作預測視頻序列,主要承擔兩大任務:
用于策略訓練的合成數據增強:
通過GWM Robotics生成合成訓練數據,然后從新物體、任務指令和環境變化多個維度擴充現有的機器人數據集。
這些合成數據無需進行昂貴的真實世界數據收集,就能提升已訓練策略的泛化能力和魯棒性。
模擬中的策略評估:
在GWM Robotics里,可直接測試策略模型可行性(如OpenVLA、OpenPi等VLA模型),而無需部署到實體機器人上。
這種方法將比真實世界測試更快、重復性更高,且安全性顯著提升,同時還能提供貼合實際的行為評估。
總的來說,GWM Robotics可以有效解決物理硬件的瓶頸問題(成本高、損耗快、場景難復現等),通過模擬環境替代實體硬件場景,可以讓訓練和評估更高效、更具性價比。

同時還發布了GWM Robotics的Python軟件開發工具包(SDK),該SDK支持多視角視頻生成和長上下文序列,旨在無縫集成到現代機器人策略模型中。
OMT
除了世界模型,Runway這次還對Gen-4.5進行了升級更新,新增支持原生音頻生成和原生音頻編輯。
比如Gen-4.5現在可以生成逼真的對話、音效和背景音頻,把原先的創作內容擴充到更廣的故事類型。
在現有音頻的編輯上,用戶可以根據自己的特定需求以任何方式進行調整。
不僅能用音頻生成新視頻,還引入了多鏡頭編輯功能,可以在初始場景中進行任意長度的修改,并實現整段視頻的一致變換。





京公網安備 11011402013531號