近年來(lái),生成模型在圖像和視頻生成領(lǐng)域取得了顯著進(jìn)展,這些技術(shù)已經(jīng)在設(shè)計(jì)、廣告、動(dòng)畫(huà)和電影等創(chuàng)意領(lǐng)域得到了廣泛應(yīng)用。
受此啟發(fā),研究人員開(kāi)始探索將生成模型應(yīng)用于游戲產(chǎn)業(yè),尤其是開(kāi)放世界游戲。
開(kāi)發(fā)開(kāi)放世界游戲原型是一項(xiàng)資源密集且成本高昂的工作。由于此類(lèi)游戲環(huán)境復(fù)雜、動(dòng)態(tài)事件多樣、角色各異,生成新穎且連貫的內(nèi)容具有挑戰(zhàn)性。
隨著對(duì)這些環(huán)境中現(xiàn)實(shí)互動(dòng)和行為的需求增加,復(fù)雜性也隨之上升。
在這一背景下,來(lái)自香港科技大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、中國(guó)科學(xué)院合肥物質(zhì)科學(xué)研究院和香港中文大學(xué)的研究團(tuán)隊(duì)推出了 GameGen-X,這是首個(gè)專(zhuān)為生成和交互控制開(kāi)放世界游戲視頻而設(shè)計(jì)的擴(kuò)散變換器模型。
日前,相關(guān)論文發(fā)表在預(yù)印本平臺(tái) arXiv 上。
圖丨相關(guān)論文(arXiv)
據(jù)論文介紹,該模型通過(guò)模擬豐富的游戲引擎特性,如創(chuàng)新角色、動(dòng)態(tài)環(huán)境、復(fù)雜動(dòng)作和多樣事件,實(shí)現(xiàn)了高質(zhì)量的開(kāi)放域生成。
更重要的是,它具備交互式控制能力,能夠基于當(dāng)前片段預(yù)測(cè)以及改變未來(lái)內(nèi)容,來(lái)實(shí)現(xiàn)對(duì)游戲玩法的模擬。
為了實(shí)現(xiàn)這一愿景,研究團(tuán)隊(duì)首先從零開(kāi)始收集和構(gòu)建了開(kāi)放世界視頻游戲數(shù)據(jù)集(OGameData)。
這是目前最大的、用于開(kāi)放世界游戲視頻生成和控制的數(shù)據(jù)集,包含超過(guò) 100 萬(wàn)個(gè)多樣化的游戲視頻片段,這些片段來(lái)自 150 多個(gè)游戲,并配有 GPT-4o 生成的信息豐富的說(shuō)明文本。
OGameData 的特殊之處在于其精細(xì)的標(biāo)注體系,視頻片段都配有結(jié)構(gòu)化的、高密度的文本描述。這種細(xì)致的標(biāo)注不僅確保了訓(xùn)練數(shù)據(jù)的質(zhì)量,也為模型提供了更豐富的學(xué)習(xí)素材。
圖丨 OGameData 的收集和處理(arXiv)
數(shù)據(jù)集被系統(tǒng)地分為多個(gè)子集,包括 OGameData-GEN 用于訓(xùn)練基礎(chǔ)生成模型,側(cè)重于生成連貫的游戲內(nèi)容,而 OGameData-INS 則針對(duì)指令調(diào)優(yōu)和交互控制任務(wù)進(jìn)行了優(yōu)化。
研究團(tuán)隊(duì)還開(kāi)發(fā)了一套完整的數(shù)據(jù)處理流程,涵蓋了收集、清洗、分割、過(guò)濾和結(jié)構(gòu)化標(biāo)注等環(huán)節(jié)。考慮到游戲領(lǐng)域的特殊性,他們結(jié)合了 AI 技術(shù)和人類(lèi)專(zhuān)家的智慧。
在數(shù)據(jù)收集階段,研究人員特別注重選取最小化用戶(hù)界面元素的游戲畫(huà)面,這確保了生成內(nèi)容的純粹性和通用性。
通過(guò) PyScene 和 TransNetV2 等工具進(jìn)行場(chǎng)景檢測(cè),團(tuán)隊(duì)將視頻分割成適當(dāng)長(zhǎng)度的片段,并采用多個(gè)先進(jìn)模型進(jìn)行篩選和標(biāo)注,確保了數(shù)據(jù)集的高質(zhì)量和多樣性。
圖丨實(shí)際生成結(jié)果對(duì)比(arXiv)
GameGen-X 的訓(xùn)練過(guò)程可以分為兩個(gè)階段:基礎(chǔ)模型預(yù)訓(xùn)練和指令調(diào)優(yōu)。
在第一階段,模型通過(guò)文本到視頻生成和視頻延續(xù)任務(wù)進(jìn)行預(yù)訓(xùn)練,使其具備長(zhǎng)序列、高質(zhì)量開(kāi)放域游戲視頻生成能力。
為了實(shí)現(xiàn)交互控制,研究團(tuán)隊(duì)還設(shè)計(jì)了 InstructNet 來(lái)整合游戲相關(guān)的多模態(tài)控制信號(hào)專(zhuān)家。
在指令調(diào)優(yōu)階段,只更新 InstructNet 而凍結(jié)預(yù)訓(xùn)練的基礎(chǔ)模型,這確保了在獲得交互控制能力的同時(shí),不會(huì)損失生成內(nèi)容的多樣性和質(zhì)量。
圖丨訓(xùn)練框架概覽(arXiv)
具體來(lái)說(shuō),GameGen-X 結(jié)合了基礎(chǔ)模型和 InstructNet 的雙重架構(gòu)。
基礎(chǔ)模型負(fù)責(zé)生成高質(zhì)量的游戲內(nèi)容,而 InstructNet 則提供多模態(tài)交互控制能力,使玩家能夠影響生成內(nèi)容的延續(xù),真實(shí)地模擬游戲體驗(yàn)。
為了有效處理視頻中的時(shí)空冗余信息,研究團(tuán)隊(duì)引入了 3D 時(shí)空變分自動(dòng)編碼器進(jìn)行視頻壓縮,使模型能夠高效地處理高分辨率和長(zhǎng)序列的視頻內(nèi)容,顯著提升了處理效率。
在視頻生成和交互控制方面,GameGen-X 采用了創(chuàng)新的掩碼時(shí)空擴(kuò)散變換器。該結(jié)構(gòu)的獨(dú)特之處在于,其巧妙地結(jié)合了空間注意力、時(shí)間注意力和交叉注意力機(jī)制,能夠根據(jù)文本提示高效地生成游戲視頻。
圖丨 GameGen-X 模型架構(gòu)(arXiv)
通過(guò)精心設(shè)計(jì)的堆疊配對(duì)空間和時(shí)間塊,每個(gè)塊都配備了交叉注意力和相應(yīng)的空間或時(shí)間注意力,使模型能夠同時(shí)捕捉空間細(xì)節(jié)、時(shí)間動(dòng)態(tài)和文本引導(dǎo)信息,從而生成高度連貫和真實(shí)的游戲場(chǎng)景。
為了實(shí)現(xiàn)真正的交互控制,研究團(tuán)隊(duì)在 InstructNet 中創(chuàng)新性地采用了多模態(tài)專(zhuān)家系統(tǒng)。
這個(gè)系統(tǒng)能夠處理多種類(lèi)型的控制信號(hào),包括結(jié)構(gòu)化文本指令、鍵盤(pán)輸入和視頻提示等。
實(shí)驗(yàn)測(cè)試結(jié)果顯示,與其他具有開(kāi)放領(lǐng)域生成能力的模型相比,GameGen-X 在生成新穎領(lǐng)域游戲視頻剪輯方面表現(xiàn)優(yōu)異。
GameGen-X 在 Fréchet 初始距離(Fréchet Inception Distance)、Fréchet 視頻距離(Fréchet Video Distance)、文本-視頻對(duì)齊(Text-Video Alignment)和用戶(hù)偏好(User Preference)等多個(gè)指標(biāo)上均優(yōu)于其他模型。
在控制指標(biāo)方面,GameGen-X 的角色動(dòng)作成功率為 63.0%,環(huán)境事件成功率為 56.8%,遠(yuǎn)遠(yuǎn)超過(guò) OpenSora-Plan1.2 等其他模型。
圖丨性能對(duì)比(arXiv)
總的來(lái)說(shuō),GameGen-X 展示了生成模型作為傳統(tǒng)渲染技術(shù)輔助工具的潛力,有效地將創(chuàng)意生成與交互能力結(jié)合在一起。
這一研究為游戲內(nèi)容設(shè)計(jì)和開(kāi)發(fā)開(kāi)辟了新的范式,為未來(lái)更自動(dòng)化、數(shù)據(jù)驅(qū)動(dòng)的游戲開(kāi)發(fā)方法提供了新的可能性。
參考資料:
https://arxiv.org/pdf/2411.00769v1
運(yùn)營(yíng)/排版:何晨龍





京公網(wǎng)安備 11011402013531號(hào)