《山羊模擬器 3》(Goat Simulator 3)這款以混亂、荒誕著稱的游戲,其物理引擎的不可預測性曾讓無數玩家啼笑皆非。如今,谷歌成功讓這款游戲成為了他們最新 AI Agent 泛化能力的試驗場。
11 月 13 日,DeepMind 正式發布 SIMA 2(Scalable Instructable Multiworld Agent,可擴展的可指令多世界智能體),這個集成了 Gemini 大語言模型的新一代智能體,不僅能在《無人深空》的浩瀚星際中導航,也能在《山羊模擬器 3》的混亂世界里完成任務。這種跨越虛擬環境的能力,被 DeepMind 稱為“邁向通用人工智能的重要一步”。
2024 年 3 月,DeepMind 首次發布了 SIMA 的初代版本。當時的 SIMA 1 已經算是一個突破——它能夠跨越《無人深空》《山羊模擬器 3》等八款商業游戲執行基本指令,僅通過觀察屏幕像素和使用虛擬鍵鼠操作,無需訪問游戲的底層代碼。但其 31% 的復雜任務完成率暴露了根本性的瓶頸:這個系統更像一個執行器而非思考者,面對“找到營火”這樣簡單的目標時,它只能機械地嘗試各種操作,缺乏真正的理解和規劃能力。
SIMA 2 的核心改變是整合了 Gemini 2.5 flash-lite 模型作為推理引擎。Gemini 的語言理解和推理能力與 SIMA 的 embodied skills(具身技能)深度融合,使得 Agent 能夠理解高層目標、制定多步計劃,并在執行過程中與用戶對話解釋自己的思路。在新的基準測試中,SIMA 2 在訓練過的游戲環境中達到了 65% 的成功率,幾乎是前代的兩倍,與人類玩家 75% 的基準線已經相當接近。
這種性能提升的背后是架構層面的重新設計。SIMA 2 的訓練數據不再完全依賴人類游戲演示錄像,而是混合了人類標注和 Gemini 生成的任務描述。當智能體觀察到游戲畫面中的某個場景時,Gemini 模型會同時生成對該場景的語義理解和可能的行動方案。這種訓練方式的一個直接結果是,SIMA 2 現在能夠用自然語言描述它的意圖和推理過程。在《無人深空》的演示中,當被要求“前往看起來像成熟番茄的房子”時,智能體會明確說明:“成熟的番茄是紅色的,所以我應該去紅色的房子”——這種顯式推理正是 Gemini 帶來的質變。
多模態交互能力也有提升。SIMA 2 可以理解文字、語音、手繪草圖,甚至 emoji。當用戶發送斧頭和樹木的 emoji 時,智能體能理解這意味著“砍樹”。這種能力來自 Gemini 的多模態架構,但關鍵是 DeepMind 找到了將抽象符號與游戲動作連接的方法,系統理解斧頭是工具、樹木是可交互對象、兩者組合意味著特定行動序列。
SIMA 2 最重要的創新之一是其自我改進機制。與 SIMA 1 完全依賴人類游戲數據不同,SIMA 2 在獲得初始的人類演示基線后,能夠轉向自主學習。當團隊將智能體放入新環境時,系統會調用另一個 Gemini 模型來生成新任務,并使用單獨的獎勵模型對智能體的嘗試進行評分。
通過這些自生成的經驗作為訓練數據,智能體能從自己的錯誤中學習,逐步提升性能,本質上是在 AI 反饋而非人類反饋的引導下,像人類一樣通過試錯來教會自己新行為。這種自我改進循環在與 Genie 3(DeepMind 的世界生成模型)結合時能發揮更大的作用:在 Genie 3 實時生成的全新 3D 環境中,SIMA 2 展現出了前所未有的適應能力,能夠在從未見過的世界中理解用戶指令并采取有意義的行動。
在從未訓練過的 MineDojo(Minecraft 的研究實現版本)和 ASKA 游戲中,SIMA 2 的成功率相較第一代分別提升了 13% 和 12%。雖然仍然只有不到 15% 的水平,但考慮到智能體此前從未見過這些游戲的任何畫面或機制,這個表現已經相對可觀。
![]()
(Google)
更重要的是,它展示了概念遷移的能力——在《無人深空》中學到的“采集資源”概念可以遷移到 MineDojo 中的“挖礦”,在《英靈神殿》中學到的“使用工具”可以應用到 ASKA 的“裝備武器”。這種跨環境的知識遷移,對于提升 AI 的真正智能來說至關重要。
DeepMind 在游戲 AI 上有長期積累,從 AlphaGo 到 AlphaStar,每一步都在推進 AI 的邊界。不過,讓單一系統掌握多種游戲一直是個難題。紐約大學的 AI 研究員 Julian Togelius 提到,之前的嘗試效果不太理想,因為僅通過觀看屏幕來實時控制多個游戲本身就很困難。他特別指出 DeepMind 之前的 GATO 系統,當時宣傳力度很大,但實際上未能在足夠多的虛擬環境中轉移技能。
現在的問題是,SIMA 2 能否避免重蹈覆轍?目前來看,它仍有幾個比較明顯的限制。它在需要多步驟和長時間的復雜任務上仍有困難。為了提高響應速度,團隊削減了長期記憶,它只記得最近的交互。在使用鼠標鍵盤方面,它還是遠不如人類。阿爾伯塔大學的 Matthew Guzdial 向《麻省理工科技評論》表示:大多數游戲的鍵鼠控制很相似,學會一個就學會了全部,“如果給它一個輸入方式怪異的游戲,我認為它表現不會好。”他還質疑這些技能能否遷移到機器人上——游戲視覺是為人類設計的、易于解析,真實世界的攝像頭輸入要復雜得多。
這觸及了具身智能(Embodied AI)領域的核心難題:模擬到現實的鴻溝(sim-to-real gap)。虛擬環境提供了安全、可控、低成本的訓練場所,但它與現實世界有本質差異。Togelius 對此持更開放的看法。他認為真實世界既更難也更容易。更難是因為物理交互的復雜性——你不能按個鍵就開門。但同時,真實世界的機器人清楚知道自己身體的能力邊界,而游戲里每個虛擬世界的規則都不同。
DeepMind 的研究工程師 Frederic Besse 在新聞發布會上給出了他們的思路:將機器人系統分為兩層:上層是 SIMA 2 這樣的“認知層”,負責理解任務、推理和規劃;下層是專門的運動控制系統,負責關節運動、力控制等底層執行。這種分層架構在工業界已有先例,如 NVIDIA 的 Isaac 機器人平臺就采用類似設計。理論上,SIMA 2 學到的“找到紅色物體”“使用工具”“導航到目標”等高層技能是跨越虛擬和現實的,而關鍵是如何將這些抽象能力映射到物理動作上。對此,我們尚保持謹慎的樂觀。
但無論如何,SIMA 2 所展示的研究方向還是非常具有價值的:用多樣化的虛擬環境訓練、用大語言模型增強推理、用自我改進減少對人類數據的依賴。這個方向的可行性和上限值得期待,但也還需要更多研究來驗證。它是具身 AI 領域的一個重要節點,但不是終點。虛擬世界與真實世界之間的鴻溝,在可預見的未來仍然存在。
目前,SIMA 2 僅作為“有限研究預覽”發布,只向小范圍的學術機構和游戲開發者開放訪問。
![]()
參考資料:
1.https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/
2.https://www.technologyreview.com/2025/11/13/1127921/google-deepmind-is-using-gemini-to-train-agents-inside-goat-simulator-3/
運營/排版:何晨龍





京公網安備 11011402013531號