沒(méi)想到連傳統(tǒng)游戲引擎也要被優(yōu)化掉了。
近日,谷歌研究人員宣布在 AI 領(lǐng)域取得了一個(gè)重要的里程碑,只需依靠神經(jīng)網(wǎng)絡(luò)就可以為經(jīng)典射擊游戲《毀滅戰(zhàn)士》生成實(shí)時(shí)游戲玩法,全程無(wú)需使用傳統(tǒng)的游戲引擎。
谷歌
根據(jù)研究人員的說(shuō)法,這個(gè)名為 GameNGen 的系統(tǒng)是世界上第一個(gè)完全由神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的 AI 游戲引擎,可以在單芯片上以每秒 20 幀的速度生成可玩的游戲玩法,每一幀都由擴(kuò)散模型預(yù)測(cè)。
實(shí)時(shí)生成游戲已成現(xiàn)實(shí)!
GameNGen 能在單張 TPU 上以超過(guò) 20 幀/秒的速度實(shí)時(shí)模擬游戲
2024 年 8 月 27 日,谷歌發(fā)布了一篇由谷歌研究院研究員 Dani Valevski、谷歌研究院工程師 Yaniv Leviathan、特拉維夫大學(xué) Moab Arar、谷歌 DeepMind 工程師 Shlomi Fruchter 聯(lián)合發(fā)表的論文,詳細(xì)介紹了新模型 GameNGen 的功能。
在這篇名為“Diffusion models are real-time game engines(擴(kuò)散模型是實(shí)時(shí)游戲引擎)”的研究論文中,研究人員解釋了 GameNGen 的工作原理,系統(tǒng)使用了 2022 年發(fā)布的圖像合成擴(kuò)散模型 Stable Diffusion 1.4 的修改版本,用來(lái)生成 AI 圖像。
GameNGen 架構(gòu)圖(圖源:谷歌)
GameNGen 的開(kāi)發(fā)涉及兩個(gè)階段的訓(xùn)練過(guò)程。
首先,研究人員在數(shù)據(jù)收集與預(yù)處理階段訓(xùn)練了一個(gè)強(qiáng)化學(xué)習(xí)(RL)代理與游戲環(huán)境交互,記錄代理的行動(dòng)和觀察結(jié)果,形成訓(xùn)練數(shù)據(jù)集,即先在《毀滅戰(zhàn)士》 游戲中記錄游戲過(guò)程并創(chuàng)建自動(dòng)生成的訓(xùn)練數(shù)據(jù)集。
接著,研究人員再使用生成的數(shù)據(jù)集訓(xùn)練后續(xù)的擴(kuò)散模型。
通過(guò)使用預(yù)訓(xùn)練的 Stable Diffusion v1.4 模型作為基礎(chǔ),去掉文本條件后將代理的行動(dòng)嵌入到單個(gè)標(biāo)記中,并將觀察結(jié)果編碼到潛在空間中,并通過(guò)噪聲增強(qiáng)技術(shù)緩解自回歸生成過(guò)程中的漂移問(wèn)題,確保長(zhǎng)時(shí)間序列生成的穩(wěn)定性。

圖源:谷歌
據(jù)介紹,GameNGen 能夠在單張 TPU 上以超過(guò) 20 幀/秒的速度實(shí)時(shí)模擬游戲,生成的視頻質(zhì)量與原始游戲相當(dāng)。而在接受《毀滅戰(zhàn)士》大量動(dòng)作鏡頭訓(xùn)練后,GameNGen 能夠根據(jù)過(guò)去的幀和行動(dòng)序列預(yù)測(cè)下一幀,實(shí)現(xiàn)實(shí)時(shí)交互。
經(jīng)過(guò)實(shí)驗(yàn),研究人員確認(rèn),在長(zhǎng)軌跡上,模型模擬質(zhì)量達(dá)到了與原始游戲相當(dāng)?shù)膱D像質(zhì)量,對(duì)于短軌跡,人類(lèi)評(píng)分者只能略微區(qū)分模擬和實(shí)際游戲的片段。
圖源:谷歌
而在人類(lèi)評(píng)估中,研究人員提供 130 個(gè)隨機(jī)短片段給人類(lèi)評(píng)分者,每個(gè)片段的長(zhǎng)度分別為 1.6 秒和 3.2 秒,包括 GameNGen 生成的模擬視頻和實(shí)際游戲視頻,人類(lèi)評(píng)分者的任務(wù)需要識(shí)別每個(gè)片段是來(lái)自實(shí)際游戲還是模擬視頻。
最終結(jié)果表明,在識(shí)別準(zhǔn)確率上,對(duì)于 1.6 秒的片段,評(píng)分者選擇實(shí)際游戲的準(zhǔn)確率為 58%;對(duì)于 3.2 秒的片段,評(píng)分者選擇實(shí)際游戲的準(zhǔn)確率為 60%。
評(píng)分者在區(qū)分模擬視頻和實(shí)際游戲視頻時(shí),表現(xiàn)僅略優(yōu)于隨機(jī)猜測(cè)(50%),表明生成的模擬視頻與實(shí)際游戲視頻非常相似,這驗(yàn)證了 GameNGen 生成的模擬視頻在視覺(jué)質(zhì)量和游戲行為上具有高保真度。
然而,GameNGen 也并非完美無(wú)瑕,研究人員發(fā)現(xiàn),使用穩(wěn)定擴(kuò)散會(huì)引入一些圖形故障,穩(wěn)定擴(kuò)散 v1.4 的預(yù)訓(xùn)練自動(dòng)編碼器會(huì)將 8×8 像素塊壓縮為 4 個(gè)潛在通道,這會(huì)使得模型在預(yù)測(cè)游戲幀時(shí)出現(xiàn)細(xì)節(jié)錯(cuò)誤。
此外,如果確保游戲視頻質(zhì)量在時(shí)間的推移中保持一致也非常困難。
“交互式世界模擬不僅僅是非常快速的視頻生成,對(duì)整個(gè)生成過(guò)程中可用的輸入動(dòng)作流進(jìn)行約束打破了現(xiàn)有擴(kuò)散模型架構(gòu)的一些假設(shè),自回歸可能會(huì)導(dǎo)致不穩(wěn)定情況出現(xiàn),讓生成世界的質(zhì)量迅速下降。”
這意味著持續(xù)的自回歸圖像合成可能會(huì)出現(xiàn)視覺(jué)故障,生成幀中的小錯(cuò)誤會(huì)隨著時(shí)間的推移而累積、復(fù)合,導(dǎo)致虛擬世界隨著生成幀的增加而出現(xiàn)更多故障。
為了解決這個(gè)問(wèn)題,研究人員有意在訓(xùn)練數(shù)據(jù)中添加了不同級(jí)別的隨機(jī)噪聲,并教會(huì)模型糾正這種噪聲,這有助于模型在較長(zhǎng)時(shí)間內(nèi)保持生成世界的質(zhì)量。

在沒(méi)有噪聲增強(qiáng)的情況下,模型的質(zhì)量迅速退化(圖源:谷歌)
值得注意的是,雖然 GameNGen 證明了 AI 游戲引擎可以被用于游戲生成領(lǐng)域,但該方法還存在著一個(gè)根本性的問(wèn)題。
其他基于 Transformer 的模型一樣,GameNGen 更擅長(zhǎng)模仿并創(chuàng)建合理的輸出,這意味著模型目前只能“復(fù)制”已經(jīng)存在的游戲,而無(wú)法在游戲行業(yè)產(chǎn)生真正的創(chuàng)新。
此外,由于模型只能訪問(wèn)約 3 秒的歷史信息,這對(duì)游戲邏輯的持久性提出了挑戰(zhàn)。
盡管模型能夠通過(guò)屏幕像素(如彈藥和生命值計(jì)數(shù)、可用武器等)維持大部分游戲狀態(tài),但仍需找到更為根本的解決方法。
同時(shí),如果該技術(shù)在未來(lái)被廣泛采用來(lái)渲染視頻游戲圖形,那么對(duì)于實(shí)時(shí)運(yùn)行類(lèi)似模型的計(jì)算能力會(huì)提出更高要求。
不過(guò)好在,研究人員也表示將在其他游戲或更廣泛的交互軟件系統(tǒng)上測(cè)試 GameNGen,并探索更復(fù)雜的架構(gòu)以緩解當(dāng)前的諸多限制,進(jìn)一步優(yōu)化技術(shù)以提高幀率和在消費(fèi)級(jí)硬件上的運(yùn)行。
隨著 AI 模型的不斷進(jìn)步,我們將看到越來(lái)越復(fù)雜的神經(jīng)游戲引擎實(shí)時(shí)生成大型、一致的交互式世界,并從根本上改變視頻游戲的制作方式。
全球已有 62%的游戲工作室在開(kāi)發(fā)過(guò)程中使用 AI 技術(shù)
可以看到,GameNGen 展示了 AI 可以作為游戲引擎的基礎(chǔ),通過(guò)神經(jīng)模型自動(dòng)生成游戲內(nèi)容,降低了開(kāi)發(fā)成本,這種新范式可能會(huì)顯著降低游戲開(kāi)發(fā)的難度,使得更多人能夠參與到游戲創(chuàng)作中。
研究人員在論文中聲稱,“如今,視頻游戲是由人類(lèi)編程的。”
通過(guò)新的 AI 技術(shù),未來(lái)的視頻游戲可能不用再使用傳統(tǒng)技術(shù)繪制圖形視頻幀,而是通過(guò)文本描述或示例圖像創(chuàng)建,人們可以直接將一組靜止圖像轉(zhuǎn)換為新的可玩游戲或角色,并不用依賴過(guò)去的編碼技巧。
而實(shí)際上,使用神經(jīng)渲染進(jìn)行實(shí)時(shí)視頻游戲合成并不是一個(gè)全新的想法。Nvidia 首席執(zhí)行官黃仁勛在 3 月份的一次活動(dòng)中預(yù)測(cè)大多數(shù)視頻游戲圖形可以在 5-10 年內(nèi)由人工智能實(shí)時(shí)生成。
在黃仁勛看來(lái),AI 生成游戲并非遙不可及。
當(dāng)時(shí)他的原話是:“即使 AI 無(wú)法僅通過(guò)簡(jiǎn)單提示就從 0 開(kāi)始創(chuàng)作出像《賽博朋克 2077》這樣的游戲,但這項(xiàng)技術(shù)在生成模型、視頻等方面將發(fā)揮重要作用。”誰(shuí)能想到才過(guò)去幾個(gè)月,AI 游戲引擎從 0 到 1 制作游戲就已成為現(xiàn)實(shí)。

圖源:網(wǎng)絡(luò)
現(xiàn)如今的 GameNGen 也是建立在生成式 AI 領(lǐng)域此前打下的工作基礎(chǔ)之上,包括由 David Ha 和 Jürgen Schmidhuber 在 2018 年首次提出的 World Models 模型 、由英偉達(dá)和麻省理工學(xué)院等于 2020 年共同提出的 GameGAN 模型以及今年 3 月份的谷歌 Genie 。
其中,GameGAN 能夠生成新的游戲關(guān)卡布局,甚至產(chǎn)生新的游戲創(chuàng)意,加速游戲開(kāi)發(fā)過(guò)程。
GameGAN 模型通過(guò)觀看游戲視頻和鍵盤(pán)操作學(xué)習(xí)游戲的關(guān)鍵規(guī)則,在訓(xùn)練過(guò)程中,GameGAN 可以學(xué)習(xí)如何渲染《吃豆人》游戲中的迷宮形狀、小點(diǎn)和 Power Pellets 等靜態(tài)元素,以及移動(dòng)元素如敵人的幽靈和 PAC-MAN 本身。
此外,與“世界模擬器”相關(guān)的研究也通常是諸如 Gen-3 Alpha、Sora 等視頻生成 AI 模型的研究方向。在 Sora 首次亮相期間,OpenAI 就展示了模擬 Minecraft 的 AI 生成器的演示視頻。

圖源:OpenAI
這在當(dāng)時(shí)也引發(fā)了對(duì)“AI 是否會(huì)取代游戲開(kāi)發(fā)”的討論。
根據(jù) Unity 在今年 3 月份公布的一份報(bào)告顯示,越來(lái)越多的開(kāi)發(fā)工作室正在采用 AI 工具來(lái)節(jié)省時(shí)間和效率,全球已有 62%的游戲工作室在游戲開(kāi)發(fā)過(guò)程中的某個(gè)階段使用了 AI 技術(shù)。
其中,游戲工作室對(duì)于 AI 的首要用途是改進(jìn)角色動(dòng)畫(huà),其次是加快編寫(xiě)代碼速度,然后才是是美術(shù)資產(chǎn)和關(guān)卡生成、文案寫(xiě)作以及自動(dòng)化游戲測(cè)試。

AI 在游戲開(kāi)發(fā)環(huán)節(jié)中的使用程度(圖源:Unity)
AI 技術(shù)的普及為游戲行業(yè)帶來(lái)了首先是明顯的裁員現(xiàn)象,根據(jù) GDC 的數(shù)據(jù),有 35%的游戲開(kāi)發(fā)者在 2023 年中受到了裁員的影響。但也有業(yè)內(nèi)人士表示,AI 的普及必然帶來(lái)部份傳統(tǒng)從業(yè)者的失業(yè),只不過(guò)要說(shuō) AI 取代游戲開(kāi)發(fā)還為時(shí)尚早。
國(guó)外電子游戲外包服務(wù)提供商 keywords 曾經(jīng)試圖僅靠生成式 AI 工具制作 2D 游戲,并使用了 400 多種不同的工具嘗試觀察 AI 如何完成目標(biāo)。
但最終,keywords 發(fā)現(xiàn) AI 最終還是無(wú)法取代人類(lèi),“雖然 GenAI 可以簡(jiǎn)化或加速某些流程,但只有通過(guò)該領(lǐng)域?qū)<以趧?chuàng)作過(guò)程中將 GenAI 作為一種新的輔助工具,才能獲得所需的最佳結(jié)果和質(zhì)量。”
因此,在目前游戲開(kāi)發(fā)從業(yè)者還不用擔(dān)心被 AI 完全取代,至少在 GameNGen 成為完整體之前,我們還有很多討論“AI 介入藝術(shù)創(chuàng)作是否存在價(jià)值”的時(shí)間。

合作請(qǐng)聯(lián)系
商務(wù)合作對(duì)接:
西柚:(微信LibSept5_)
文靜:(微信mutou_kiki)
歡迎加入陀螺侃侃群:
暢聊行業(yè)發(fā)展/公司動(dòng)態(tài)/游戲干貨/職場(chǎng)人生。
微信:boq270756(備注公司/職務(wù))






京公網(wǎng)安備 11011402013531號(hào)