報道
編輯:喬楊 十二
無需游戲引擎,視頻基座模型直出實時交互可玩的Minecraft,初創公司Decart和Etched打造的Oasis已經做到了這一點。
現在,不用游戲引擎,AI就可以自動生成游戲了?
今天,兩家初創公司Decart和Etched宣布,他們打造了一款世界上首個實時、可玩、可交互的世界模型——Oasis。

Oasis經過了數百萬小時游戲視頻的訓練,僅接收用戶的鍵盤輸入即可實時生成開放世界游戲,但其中并不包含任何游戲引擎,只有一個AI基座模型。
游戲允許玩家進行移動、跳躍、拾取物品、打破磚塊等操作,生成的視頻內容中不僅包含圖形學的渲染,也能體現出對物理原則和游戲規則的理解。

在沒有任何延遲的情況下,Oasis在H100上運行時能以360p的分辨率實現每秒20幀的渲染,并實時生成視頻交互內容。
此前,雖然 谷歌已經發布了首個AI游戲引擎GameNGen ,但并沒有在發布論文后開源。
然而,此次兩家初創聯手研發的Oasis不僅開源了代碼,還公開了500M參數版本的模型權重。

https://github.com/etched-ai/open-oasis

https://huggingface.co/Etched/oasis-500m/tree/main
此外,官網上已經放出了游戲demo,感興趣的玩家從項目官網進入即可在網頁端試玩,體會一下復刻Minecraft的畫風。
項目網址:https://oasis.decart.ai/
雖然全AI生成是一大亮點,但在動輒4K HDR的的今天,360p的分辨率顯得相當復古,可能對2024年的人類雙眼不太友好。
幸好,如果在 Etched打造的Sohu芯片 上運行100B+參數的優化模型,就能達到4K級別的實時渲染,并發用戶數量也將提升超過10x。
就在模型發布的今天,紅杉資本也宣布以2100萬美金投資Oasis背后的其中一家初創公司Decart。

雖然Oasis看起來是一個游戲,但事實上,真正的技術重點卻是「視頻」和「交互」。
OpenAI今年發布的Sora可以說是視頻模型的「第一槍」。隨著視頻模型開始擴展,它們正在學習代表整個物理世界和游戲,從而賦能一個全新的產品類別。
從短視頻社交媒體到視頻通話,再到流媒體,目前超過70%的互聯網流量來自視頻;但另一方面,視頻的數據密集程度相當高,AI生成視頻所需的FLOPs比文本或圖像多出10×。
因此,大部分人工智能推理工作負載將來自視頻。無論是游戲、教育還是生成式內容,大型、低延遲、交互式的視頻模型將成為下一波人工智能產品的核心。
Oasis是如何煉成的
之前谷歌推出的GameNGen本質上仍是一個由AI驅動的游戲引擎,但Oasis的底層機制并不是游戲引擎,而是單一的視頻生成模型,相當于一個能交互、可玩的Sora。
那么,Oasis究竟是如何做到的?
根據博客介紹,技術團隊進行了數百次架構和數據實驗,以確定用于快速生成自回歸交互式視頻的最佳架構。
Oasis模型均基于Transformer架構,由基ViT的變分自動編碼器(VAE)和基于DiT的潛在擴散主干組成,使用了加速過的軸向、時空和因果注意力機制來克服長序列中的模型發散(divergence)。
Oasis的ViT+DiT架構
你可以簡單把它理解一個分工明確的工廠,各個組件各司其職。
主干即工廠的核心生產線,基于DiT(Diffusion Transformer)架構,負責將加工處理好的信息產出游戲內容,比如游戲場景、物體等。
同時,利用Decart的推理引擎,結合Etched公司的Sohu(Transformer架構的ASIC)芯片,實現了實時視頻生成。
這種架構選擇保證了在Sohu芯片上的穩定擴展和快速推理,并且以自回歸方式生成幀,能夠根據游戲輸入實時交互。
Sora這類模型根據用戶輸入的文本內容直出視頻,但Oasis使用Diffusion Forcing進行訓練,每次只生成一幀,根據游戲輸入在token級別調節每個幀,因此可操縱性很高。
之所以能夠被稱為「世界模型」,是因為Oasis已經能夠了解復雜的游戲機制,例如理解物體和建筑、照明的物理規律等等。

模型理解照明的物理原理

放置立方體磚塊
不過,在生成游戲畫面的時候,還有一個問題就是如何保證時間穩定性。因為在自回歸模型中,一個畫面出錯了,后面可能就會越來越亂,如同多米諾骨牌一樣。
解決這個問題需要長上下文生成方面的創新,Oasis的方案是部署動態噪聲(dynamic noising)。

Decart團隊也表示,未來將針對部分遠處物體出現模糊、不確定對象的時間一致性等問題進行研究,逐步提升Oasis的游戲體驗。
兩家初創,強強聯手
生成式交互體驗新紀元這就來了嗎?這兩家初創公司又是什么來頭?
據公開報道,Oasis模型是由Decart和Etched兩家初創公司共同推出的。
Decart成立于2023年9月,一直致力于提高AI模型的效率和降低運行成本,提供更快、更可靠的訓練以及實時推理,成立三個月后便與一家GPU云服務商達成了數百萬美元的交易。

Decart聯合創始人Moshe Shalev和Dean Leitersdorf
今天,紅杉資本更是豪擲2100萬美金對其進行了投資,合伙人Shaun Maguire更是大力稱贊Decart的團隊,認為他們是「超精英的AI工程師」、「合作過的技術最有天賦的團隊之一」,正在將生成式體驗推向極致。

目前推出的Oasis只是一個實時推理方面的熱身實驗,接下來的幾個月,他們還將發布更具有顛覆性的成果。
另一家初創Etched是來自美國的人工智能芯片公司,成立于2022年,三位核心創始人均為哈佛輟學生。
他們最耀眼的成績,就是推出了Sohu——世界上第一個基于Transformer架構的ASIC芯片,專為LLM推理加速打造,不僅快過Groq,也能碾壓英偉達最新的B200。

以Llama 70B模型的推理性能為例,1張Sohu≈20張H100≈10張B200。

令人咂舌的性能背后,是Etched的一場豪賭般的權衡。
打造針對特定算法的AI芯片,將模型架構直接燒錄到芯片的硬件結構中,這意味著無法運行其他模型,比如CNN、RNN或LSTM,但對Transformer來說,就能得到有史以來最快的芯片。
2022年,創始團隊大膽預言——Transformer將占領世界,于是投入花了兩年時間研發,得到了今天的Sohu。
Etched創始人之一Gavin Uberti表示,「我們正在押注人工智能領域最大的賭注——一種只能運行Transformer模型的芯片,但其運行速度比GPU快幾個數量級。也許注意力確實是你所需要的全部...」

能高效推理的AI芯片,對于極耗算力的視頻生成而言,可以說是類似于Scaling Law的福音。
雖然文生視頻模型已經達到了很好的生成效果,但速度非常慢,成本也很高。
視頻中的每個幀包含數百甚至數千個token,必須并行處理多次才能完全去噪。最好的模型平均每秒生成不到一幀,而且每個用戶每分鐘的費用可能高達1美元。
這種低效高成本的推理,不得不說是視頻生成模型用于實際應用的一大障礙,而這正是Sohu芯片期望解決的問題。
今年6月,Etched宣布已經籌集了1.2億美元的資金用于擴大生產,并與臺積電合作,以35人的精干團隊直接放話挑戰市值3萬億的英偉達。

參考資料:
https://www.decart.ai/articles/oasis-interactive-ai-video-game-model
https://www.etched.com/blog-posts/oasis





京公網安備 11011402013531號