報道
編輯:編輯部
炸裂!世界上首個完全由AI驅動的游戲引擎來了。谷歌研究者訓練的GameNGen,能以每秒20幀實時生成DOOM的游戲畫面,畫面如此逼真,60%的片段都沒讓玩家認出是AI!全球2000億美元的游戲行業,從此將被改變。
世界上第一個完全由神經模型驅動的游戲引擎,剛剛誕生了!
「黑神話:悟空」的熱度正旺,AI又在游戲中創造了全新的里程碑。
史上首次,AI能在沒有游戲引擎的情況下,為玩家生成實時游戲了。

從此,我們開始進入一個炸裂的新時代:游戲不僅能被AI玩,還能由AI來創造和驅動。

谷歌的GameNGen,可以在單個TPU上,讓AI以每秒20幀的速度,生成實時可玩的游戲。每一幀,都是由擴散模型預測的。
幾年后,AI實時生成3A游戲大作的愿望還會遠嗎?
從此,開發者不必再手動編程游戲邏輯,開發時間和成本都會顯著降低。
價值2000億美元的全球游戲產業,可能會被徹底顛覆!
谷歌研究者表示,GameNGen是第一個完全由神經模型驅動的游戲引擎,能夠在復雜環境中,實現高質量的長軌跡實時交互。

論文地址:https://arxiv.org/abs/2408.14837
不僅速度是實時的,它的優秀畫質,也是讓開發者顫抖的地步。
模擬「毀滅戰士」時,它下一幀預測的峰值信噪比(PSNR)達到了29.4,已經可以和有損JPEG壓縮相媲美。
在神經網絡上實時運行時,視覺質量已經達到了與原始游戲相當。
模擬片段和游戲片段如此相似,讓不少人類被試都分不清,眼前的究竟是游戲還是模擬?

網友感慨:這不是游戲,這是人生模擬器。
小島秀夫的另一個預言,成真了。

3A電視劇是不是也來了?想象下,按照自己的喜好生成一版《權游》。

想象下,1000年后或一百萬年后,這項技術是什么樣?我們是模擬的概率,已經無限接近于1了。

從此,游戲開發不再需要游戲引擎?
AI首次完全模擬具有高質量圖形和復雜交互的復雜視頻游戲,就做到了這個地步,實在是太令人驚嘆了。
作為最受歡迎、最具傳奇色彩的第一人稱射擊游戲,自1993年發布以來,「毀滅戰士」一直是個技術標桿。
它被移植到一系列超乎想象的平臺上,包括微波爐、數碼相機、洗衣機、保時捷等等。

而這次,GameNGen把這些早期改編一舉超越了。
從前,傳統的游戲引擎依賴的是精心編碼的軟件,來管理游戲狀態和渲染視覺效果。
而GameNGen,只用AI驅動的生成擴散模型,就能自動模擬整個游戲環境了。
從視頻中可以看出,神經網絡復現游戲標志性視覺效果的能力簡直是一絕,AI實時生成復雜交互環境的潛力非常驚人
「毀滅戰士」一直以復雜的3D環境和快節奏的動作聞名,現在,所有這些都不需要游戲引擎的常用組件了!
AI引擎的意義,不僅僅是減少游戲的開發時間和成本。
這種技術,可以使游戲創作徹底民主化,無論是小型工作室,還是個人創作者,都能創造出從前難以想象的復雜互動體驗。
此外,AI游戲引擎,還給全新的游戲類型打開了大門。
無論是環境、敘事,還是游戲機制,都可以根據玩家的行為動態來發展。
從此,游戲格局可能會被整個重塑,行業會從熱門游戲為中心的模式,轉向更多樣化的生態系統。
順便一提,「DOOM」的大小只有12MB。

大佬們「瘋了」
AI初創HyperWrite的CEO Matt Schumer表示,這簡直太瘋狂了!用戶玩游戲時,一個模型正在實時生成游戲。
如果將大多數AI模型的進展/軌跡映射到這上面,那么在幾年內,我們將會得到3A級生成游戲。

英偉達高級科學家Jim Fan感慨道,被黑客們在各種地方瘋狂運行的DOOM,竟然在純粹的擴散模型中實現了,每個像素都是生成的。

連Sora跟它比起來,都黯然失色。我們只能設定初始條件(一個文本或初始幀),然后只能被動觀看模擬過程。
因為Sora無法進行交互,因此還不算是一個「數據驅動的物理引擎」。
而GameNGen是一個真正的神經世界模型。它將過去的幀(狀態)和用戶的一個動作(鍵盤/鼠標)作為輸入,并輸出下一幀。這種質量,是他見過的最令人印象深刻的DOOM。
隨后,他深度探討了一些GameNGen中存在的限制。
比如在單個游戲上過擬合到了極致;無法想象新的場景,無法合成新的游戲或交互機制;數據集的瓶頸,導致了方法無法推廣;無法實現用提示詞創造可玩世界,或用世界模型訓練更好的具身AI,等等。

一個真正有用的神經世界模型,應該是什么樣子?
馬斯克的回答是:「特斯拉可以用真實世界的視頻做類似的事情」。
的確,數據是難點。
Autopilot團隊可能擁有數萬億的數據對(攝像頭視頻,方向盤動作)。
有了如此豐富的真實世界數據,完全有可能訓練一個涵蓋各種極端情況的通用駕駛模擬器,并使用它來部署和驗證新的完全自動駕駛(FSD)版本,而不需要實體車輛。

最后Jim Fan總結道:不管怎么說,GameNGen仍是一個非常出色的概念驗證——至少我們現在知道,9億幀是將高分辨率DOOM壓縮到神經網絡中的上限。
網友們感慨:擴散網絡學習物理引擎和游戲規則的方式,太瘋狂了。

核心作者:個人里程碑
谷歌DeepMind核心貢獻者,項目負責人Shlomi Fruchter,在社交媒體上,介紹了自己開發GameNGen的過程。

他表示,「GameNGen是自己開發路上的里程碑」。
從最初手寫GPU渲染代碼(顯式),到現在訓練能在GPU上運行的神經網絡(隱式),甚至包含了游戲邏輯,讓我有一種實現了完整「閉環」的感覺。

Fruchter進行的第一個大型編碼項目之一是3D引擎(如下圖所示)。早在2002年,GPU仍只能用于渲染圖形。
還記得,第一款圖形處理器GeForce 256是在1999年發行。
渲染3D圖形恰好需要大量的矩陣運算,這恰恰是GPU所擅長的。
然后谷歌研究人員編寫高級著色器語言代碼,計算自定義渲染邏輯并構建新的視覺效果,同時還能保持高幀率。

GameNGen的誕生,是源于一個好奇心:
「我們能否在當前的處理器上,運行一個隱式神經網絡,來進行實時互動游戲」。
對于Fruchter以及團隊成員來說,最終答案是一個令人興奮的發現。
AI大牛Karpathy曾說過,100%純軟件2.0計算機,只有一個神經網絡,完全沒有傳統軟件。
設備輸入(音頻、視頻、觸摸等)直接到神經網絡中,其輸出直接作為音頻/視頻在揚聲器/屏幕上顯示,就是這樣。
有網友便問道,那就是它不能運行DOOM了?
對此,Karpathy表示,如果能夠很好提出請求,它可能可以非常接近地模擬DOOM。

而現在,Fruchter更加肯定,它可以運行DOOM了。
另一位谷歌作者Dani Valevski也轉發了此帖,對此愿景表示極度認可。

GameNGen或許標志著游戲引擎全新范式的開啟,想象一下,和自動生成的圖像或視頻一樣,游戲也是自動生成的。
雖然關鍵問題依舊存在,比如如何訓練、如何最大程度利用人類輸入,以及怎樣利用神經游戲引擎創建全新的游戲。但作者表示,這種全新范式的可能性讓人興奮。
而且,GameNGen的名字也暗藏彩蛋,可以讀出來試一試——和Game Engine有相似的發音。
Agent采集軌跡,SD預測生成
在手動制作計算機游戲的時代,工作流程包括(1)收集用戶輸入(2)更新游戲狀態,以及(3)將更新后的狀態渲染為屏幕像素,計算量取決于幀率。
盡管極客工程師們手中的Doom可以在ipod、相機,甚至微波爐、跑步機等各種硬件上運行,但其原理依舊是原樣模擬模擬手動編寫的游戲軟件。
看起來截然不同的游戲引擎,也遵循著相同的底層邏輯——工程師們手動編程,指定游戲狀態的更新規則和渲染邏輯。
如果和擴散模型的實時視頻生成放在一起,乍一看好像沒什么區別。然而,正如Jim Fan指出的交互式世界模擬不僅僅是非常快速的視頻生成。
其一,生成過程需要以用戶的輸入動作流為條件,這打破了現有擴散模型架構的一些假設。
其二,模型需要自回歸生成幀,這往往會導致采樣發散、模型不穩定等問題。

Agent數據收集
由于無法直接對游戲數據進行大規模采樣,因此首先教會一個agent玩游戲,在各種場景中生成類似于人類且足夠多樣化的訓練數據。
agent模型使用深度強化學習方法進行PPO訓練,以簡單的CNN作為特征網絡,共生成900M幀的





京公網安備 11011402013531號