剛剛谷歌 DeepMind 宣布推出第三代通用的世界模型 Genie 3 ,可以生成前所未有的多樣化交互式環境,給出文本提示,Genie 3 可以生成動態世界,可以以每秒 24 幀的速度實時導航,并以 720p 的分辨率保持幾分鐘的一致性
Genie 3將首先以有限研究預覽的形式,向一小部分學者和創作者開放 Genie 3,以收集關鍵反饋
Genie 3 的突破
DeepMind 在模擬環境領域已有十余年的深厚積累。從訓練能玩轉即時戰略游戲的 AI,到為機器人開發開放式學習環境,這些研究都指向了一個共同的目標:構建強大的世界模型。
與前代模型(如 Genie 1/2)和視頻生成模型(如 Veo 2,Veo 3對直覺物理學的深刻理解)相比,Genie 3 是第一個允許實時交互的世界模型,同時與 Genie 2 相比,其一致性和真實感也得到了提升
核心能力
自動播放
模擬世界的物理特性:Genie 3 對物理規律有深刻理解,能逼真地模擬水流、光影變化以及復雜的環境互動,例如直升機在懸崖瀑布邊小心翼翼地機動
模擬自然世界:從冰川湖畔充滿生機的生態系統,到幻想世界中可愛的毛茸茸生物在彩虹橋上跳躍,Genie 3 能將想象力轉化為可探索的現實
動畫和小說建模::可以發揮想象力,創造奇幻的場景和富有表現力的動畫角色
探索不同地域與歷史場景:模型能超越地理和時間的限制,帶領用戶探索不同地點和歷史時代,無論是身穿翼裝飛越雪山,還是置身于歷史悠久的古城
突破實時性能的極限:實現高度的可控性和實時交互性,在每一幀的自回歸生成過程中,模型必須考慮先前生成的隨時間增長的軌跡。例如,如果用戶在一分鐘后重新訪問某個位置,則模型必須引用一分鐘前的相關信息。為了實現實時交互性,這種計算必須每秒進行多次,以響應新用戶輸入的到來
長時程環境一致性:為了讓人工智能生成的世界身臨其境,它們必須在很長一段時間內保持物理上的一致性。然而,自動回歸生成環境通常比生成整個視頻更難的技術問題,因為不準確之處往往會隨著時間的推移而累積,Genie 3 環境在幾分鐘內基本保持一致,視覺記憶可以追溯到一分鐘前,Genie 3 生成的世界更加動態和豐富,因為它們是根據用戶的世界描述和作逐幀創建的
可提示的世界事件 (promptable World Events):除了導航輸入之外,Genie 3 還支持一種更具表現力的基于文本的交互形式,稱之為可提示的世界事件 。可提示的世界事件可以改變生成的世界,例如改變天氣條件或引入新的物體和角色,從而增強導航控制的體驗,這種能力還增加了反事實或“假設”場景的廣度,代理可以使用這些場景從經驗中學習來處理意外情況
賦能具身智能體研究
Genie 3 的終極目標之一是為具身智能體(Embodied Agent)提供一個無限豐富的訓練場。DeepMind 已將其與通用智能體 SIMA進行結合測試。研究人員可以為 SIMA 設定一個目標(如在面包房里找到工業攪拌機),SIMA 則通過向 Genie 3 發送導航指令來嘗試完成任務。Genie 3 像一個真正的世界一樣,根據 SIMA 的行為實時反饋結果,從而讓智能體在海量的what if場景中學習和成長
當前的局限性
Genie 3目前存在的局限性:
行動空間有限:智能體的直接行動范圍仍受限制
缺乏多智能體模擬:難以精確模擬多個獨立智能體之間的復雜互動
地理精度不足:無法完美復現實世界的地理位置
文本渲染較差:除非在初始提示中指定,否則生成的文本通常模糊不清
互動時長有限:目前支持數分鐘的連續互動,而非數小時
參考:
https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/





京公網安備 11011402013531號