![]()
機器之心報道
機器之心編輯部
單 GPU 級世界模型來了。
斯坦福大學教授李飛飛創業公司 World Labs 又推出了新成果!
上個月,World Labs 發布了空間智能模型 Marble,「只需一張圖片,就能生成持久存在的 3D 世界,比以往更宏大、更震撼。」
就在今天,一個可以實時、持續運行并保持 3D 一致性的生成式世界模型 RTFM 問世了,并且該模型在單個 H100 GPU 上就能跑起來。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/heMBDj1zReeZkaF8n3Rnsg
RTFM 的全稱為「Real-Time frame Model」,即實時幀模型。
![]()
根據官方介紹,RTFM 并不會顯式地構建世界的 3D 表示。相反,它以一張或多張 2D 圖像作為輸入,直接生成同一場景在不同視角下的全新 2D 圖像。
在技術上,RTFM 可以被視為一種學習型渲染器:它是一種端到端訓練的自回歸擴散 Transformer,基于大規模視頻數據進行訓練,最終僅通過觀察訓練集中的樣本就學會了建模 3D 幾何、反射、陰影等特征。

另外,RTFM 還可以用于從稀疏拍攝的照片中重建真實世界的場景。

World Labs 團隊認為,生成式世界模型必然會對計算能力提出要求,甚至可能擴展到超出當今 LLM 的需求。但他們相信,生成式世界模型是未來渲染和空間智能領域至關重要的研究方向。
評論區的大家直呼不可思議。
![]()
接下來看 RTFM 的技術細節。
世界模型需要巨大的算力
世界模型能夠實時重建、生成并模擬持久的、可交互的、物理上準確的世界。
過去一年生成式視頻建模的突破,正逐漸延伸到生成式世界建模的領域。
但隨著技術的發展,有一點愈發清晰:生成式世界模型的計算需求將遠超當今的大語言模型。
舉例來說,生成一段 4K 分辨率、60 幀每秒的交互式視頻流,就需要每秒輸出超過 10 萬個 token(相當于《弗蘭肯斯坦》或《哈利?波特與魔法石》整本書的長度)。
而若要讓這些生成內容在一小時以上的交互中保持一致性與持續性,模型需要處理超過一億個 token 的上下文。
以今天的計算基礎設施來看,這既不可行,也不具經濟可行性。
圖靈獎得主 Rich Sutton 所著《苦澀的教訓(The Bitter Lesson)》中談到:那些能隨著算力提升而優雅擴展的簡單方法,最終會在人工智能領域占據主導地位,因為它們能夠持續受益于計算成本的指數級下降,而這種下降正是推動整個科技進步的核心力量。
生成式世界模型正好契合這一趨勢:它們將在計算成本持續降低的未來中充分受益。
這引出了一個自然的問題:生成式世界模型是否被當今的硬件條件所限制?還是說,我們已經有辦法在今天就提前預覽這項技術的雛形?
為了回答這一問題,團隊從一個簡單的目標出發:設計出一個足夠高效、今天就可以部署的生成式世界模型,并且能夠隨著算力的增長持續擴展。他們希望構建一個可以在單張 H100 GPU 上運行的模型,既能保持交互式的幀率,又能提供無論你與之互動多長時間都能持續存在的世界體驗。
可擴展性:作為學習型渲染器的世界模型
傳統的 3D 圖形渲染使用顯式的三維表示(例如三角網格、高斯點云等)來建模世界,并通過渲染生成二維圖像。這類方法依賴人工設計的數據結構與算法,來模擬三維幾何、材質、光照、陰影、反射等多個要素。幾十年來,它們一直是計算機圖形學的可靠主力技術,但在擴展數據量和算力方面卻并不容易。
RTFM 采用了完全不同的方法。它基于最近在生成式視頻建模方面的進展,訓練了一個神經網絡模型,該模型輸入一個或多個場景的二維圖像,無需構建任何顯式的三維表示,就能從新的視角生成該場景的二維圖像。RTFM 是一種自回歸擴散式 Transformer 模型,作用于幀序列之上,端到端地在大規模視頻數據上訓練,以預測在已有幀條件下的下一幀。
如前所述,RTFM 可以被視為一個學習型渲染器。它的輸入圖像被轉換為神經網絡的激活(KV 緩存),這些激活以隱式方式表示整個世界;在生成新幀時,網絡通過注意力機制從這種表示中讀取信息,從而生成與輸入視角一致的新視圖。這一從輸入視圖轉換為世界表示、再從表示中渲染新圖像的機制,是通過數據端到端學習得到的,而非人工設計。RTFM 通過在訓練中觀察諸如反射、陰影等復雜視覺效果,從而學會了對它們進行建模。
通過將 RTFM 與 Marble 結合,可以從單幅圖像創建 3D 世界。RTFM 可以渲染復雜的效果,例如光照和反射,這些效果是通過端到端的數據學習而來的。

RTFM 模糊了重建和生成之間的界限,在傳統的計算機視覺領域,重建和生成是兩個不同的任務。RTFM 這項技術 打破了這兩者之間的界限。它不是分別處理重建和生成,而是用同一個模型同時處理這兩種情況:
當輸入視角很多時,RTFM 的任務變得容易 —— 因為大多數信息都已有,它就更像是在做重建。
當輸入視角很少時,模型只能基于已有信息猜測出其他視角的內容,行為更像是生成。

另外,現實世界的一個關鍵特性是持久性:當你移開視線時,世界不會憑空消失或完全改變;無論你離開多長時間,總是可以返回到之前到過的位置。
但對于自回歸幀生成模型來說,實現這一點是一大挑戰。因為世界只通過一幀幀的二維圖像隱式表示,要實現持久性,模型必須在用戶探索過程中不斷推理和記憶越來越多的幀。這意味著每生成一幀所需的計算成本會不斷上升,最終模型所能記住的世界范圍將受限于其計算資源。
RTFM 通過為每一幀建模其在三維空間中的姿態(即位置和朝向),巧妙地繞過了這個問題。
配合上下文調度(context juggling)機制,RTFM 能夠在保持高效的同時,在大場景中保留住幾何結構,實現真正意義上的世界持久性。

如果你還沒有嘗試過 RTFM,現在就去體驗吧:https://rtfm.worldlabs.ai/
播客鏈接:https://www.worldlabs.ai/blog/rtfm





京公網安備 11011402013531號