![]()
新智元報道
編輯:定慧
如果一個AI,像人類一樣看屏幕、敲鍵鼠、自己練級變強,這種游戲搭子,你愿意擁有嗎?可能不久將來,類似王者榮耀、DOTA 2這樣的游戲就可以選擇和AI組隊,而不是和人組隊了!
想象一個智能體,它「出生」在一個虛擬3D游戲中,能推理,能學習。
并且,它不走后門,去操縱游戲底層指令,而是和人一樣,只「觀看」屏幕畫面,并且使用「虛擬鍵盤和鼠標」來進行操作。
也就是,創造一個智能體,但完完全全「像人一樣」去打游戲。
這就是谷歌DeepMind推出的SIMA 2智能體!
一個能陪你在虛擬世界中一同游戲、推理和學習的智能體。
![]()
我覺得DeepMind才是那個不忘初心的「Open」AI公司。
不管是從下圍棋的AlphaGo再到破解生命之謎的AlphaFold等等Alpha系列。
然后還有谷歌主打的Gemini大模型系列,以及世界模型Genie 3系列,等等。
可以說谷歌在AI領域是全方面、全棧式發力。
SIMA 2可以說是朝著通用人工智能方向邁出的重要一步。
SIMA,全稱Scalable Instructable Multiworld Agent,可擴展指令多世界智能體。
別看現在它只是觀看屏幕打游戲,如果能夠「像人」一樣理解游戲畫面并做出正確的操作。
那么可以將這種推理和理解能力擴展到其他世界中,甚至也可以拓展到具身智能,這就是SIMA真正的野心。
這意味著,可能不久以后,我們就可以在游戲中組隊類似SIMA智能體。
我的DOTA2、我的王者榮耀、我的英雄聯盟手游好像終于有救,希望以后的MOBA類游戲都能出一個類似的選項,選擇和AI組隊,而不是和人組隊。
推理的力量
在SIMA 1中,智能體學會了執行超過600種語言指令技能,例如拍梯子、打開地圖。
在SIMA 2中,智能體已經可以突破單純的指令跟隨的局限。
通過將Gemini作為智能體的核心引擎,SIMA 2不僅能響應指令,還能對指令進行思考與推理。
比如下面MineDojo游戲中,SIMA 2可以完全在這個「從未見過」的游戲中,靠著推理能力完成任務。

SIMA 2是用什么數據訓練的呢?
DeepMind使用帶有人類演示視頻、語言標簽以及Gemini生成標簽的混合數據對SIMA 2進行訓練。
某種意義上,這種思路和特斯拉FSD的端到端具有異曲同工之妙,再更深一步,只要給AI數據和算力,AI肯定能學會「人類這點能力」。
SIMA 2不僅能響應用戶提問,還能對其自身行為及所處環境進行邏輯推理。

研究人員在博客中也感慨,與SIMA 2互動時,真的感覺更像是在與一個「伙伴、游戲搭子」一起系統合作。
這或許也算是SIMA 2通過游戲上的「圖靈測試」。
谷歌認為這個能力的底層邏輯還是Gemini帶來的,靠著強大的推流能力,SIMA 2可以在復雜的3D環境中進行感知。
泛化能力飛躍
谷歌推出SIMA 2,除了用游戲訓練是初期最合適的手段外,另一個考量就是增強智能體的泛化能力。
SIMA 2能夠理解并完成長期復雜的任務。
短期指令,比如左轉、走三步、爬梯子都是比較容易了,但是如何完整的「打通」游戲關卡才是驗證通用能力的關鍵。
SIMA 2現在可以在未經預訓練的情況下攻克全新的游戲。(左邊是Gemini的推理過程,右邊是SIMA在操作游戲)
![]()
除了語言指令,SIMA 2還能理解多模態的提示。
比如,用戶在畫面中繪制一個路線草圖,SIMA理解玩家的意思,然后再操作。
在游戲中畫個紅框+箭頭,讓智能體據此操作。
![]()
其他的理解能力還有,符號。
比如用戶發送一個+樹木的表情符號,然后智能體就屁顛顛的說「好吧,我不睡,我去砍樹去」。
![]()
泛化能力的另一個體現是在不同游戲之間的遷移。
比如A游戲中學會的「挖掘」,可以應用于B游戲的「采集」。
下面這個圖展示SIMA 2相對SIMA 1能力的巨大提升。
![]()
終極考驗:暢游想象世界
谷歌為了測試SIMA 2的泛化能力,使用了Genie 3來配合。
Genie 3生成全新的3D模擬世界,然后讓SIMA 2在這些「架空世界」中行動。
Genie 3本身會遵循物理規律生成世界,但是和真實世界的展現又可能完全不同。
谷歌的測試結果是,SIMA 2依然能保持良好的環境適應能力。
![]()
可擴展的多任務自我提升
SIMA 2最令人興奮的能力是能夠自我學習,自我進化,自我提升。
谷歌說在整個訓練過程中,SIMA 2智能體能夠通過試錯和基于Gemini的反饋引導,執行更加復雜的任務。
在最初從人類示范中學習后,SIMA 2能夠過渡到完全通過自主游戲繼續學習。
在全新世界學習時,無需額外的人類生成數據。
![]()
左側展示的是初代SIMA 2智能體未能完成的任務示例。
而右側則顯示經過多輪訓練迭代后,SIMA 2已實現自我提升,整個過程完全無需人類反饋或游戲數據介入。
![]()
SIMA 2能在很多不同類型的游戲里運行,這對檢驗「通用智能」非常關鍵。
在這些游戲中,智能體可以學會各種技能、練習復雜的推理,還能通過自己玩游戲不斷提升能力。
不過,SIMA 2目前還是研究階段的系統,離真正的「通用具身智能」還有距離。
它在處理那種特別長、特別復雜、需要很多步推理和反復檢查目標的大任務時,還是會吃力。
它對交互過程的記憶也不算長,只能在有限的上下文里工作,以保證響應足夠快。
另外,想要只用鍵盤鼠標就做出非常精細的操作,或者穩定地看懂復雜的3D場景,這些在整個領域里都還是難題。
這項研究說明了一條新的路:
通過大量、多類型的虛擬世界數據,加上Gemini很強的推理能力,可以訓練出一個通用的智能體,把原本分散在不同專用系統里的能力整合到一起。
SIMA 2也為未來的機器人應用打下了基礎。
它學到的能力——比如導航、用工具、和他人協作完成任務——正是將來讓機器人在現實世界中成為「智能助手」所需要的底層模塊。
參考資料:
https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/





京公網安備 11011402013531號