![]()
這項由Adobe公司的Yicong Hong、Yiqun Mei、Chongjian Ge等研究人員領導的突破性研究發表于2025年12月1日,論文編號為arXiv:2512.04040v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。
說起視頻游戲,我們都習慣了這樣的體驗:你在一個虛擬世界里四處走動,看過的風景、探索過的角落,當你再次回到那里時,一切都還在原地等著你。但如果要用人工智能來生成這樣的世界,就變成了一個超級復雜的挑戰。就好比你要求一個畫家一邊畫畫,一邊記住他之前畫過的每一個細節,還要保證畫面連續流暢,不能有任何斷層。
Adobe的研究團隊開發出了一個叫做RELIC的系統,它可以從一張靜止圖片開始,創造出一個你可以實時探索的虛擬世界。這就像是給了你一張風景照,然后神奇地讓你能夠走進照片里,四處看看,甚至20秒后回到原來的位置,發現之前看到的那棵樹、那棟房子都還完好地在那里。
這項研究解決了一個困擾人工智能領域很久的問題:如何讓AI生成的視頻世界既能實時響應用戶操作,又能準確記住之前生成過的內容。傳統的AI視頻生成就像一個健忘的導游,每次帶你參觀都是全新的體驗,完全不記得上次你們一起看過什么。而RELIC就像一個記憶超群的導游,不僅能實時響應你的需求,還能準確記住你們之前探索過的每一個地方。
一、游戲世界的記憶難題
要理解RELIC解決的問題,可以把它比作經營一家主題公園。一個普通的主題公園,游客只能按照固定路線參觀,看到的都是事先準備好的景點。但RELIC要創建的是一個"魔法主題公園",游客可以自由選擇方向,想去哪里就去哪里,而且當他們重新回到之前參觀過的地方時,那里的一切都應該和上次看到的完全一樣。
傳統的AI視頻生成面臨三個核心挑戰,就像三個必須同時解決的魔法咒語。第一個咒語是"實時響應",意思是當用戶按下鍵盤想要向左轉時,視頻必須立即生成向左轉的畫面,不能讓用戶等待。第二個咒語是"長期記憶",也就是說,當用戶在虛擬世界里兜了一大圈又回到起點時,起點的景象必須和最初看到的完全一致。第三個咒語是"精確控制",用戶想要向上看天空、向下看地面,或者快速移動、緩慢移動,系統都必須準確理解并執行。
問題在于,這三個咒語往往會相互沖突。想要實現長期記憶,就需要存儲大量的歷史信息,這會嚴重拖慢系統速度,影響實時響應。想要精確控制,就需要復雜的計算,這又會消耗更多資源。就好比你要求一個人一邊快速奔跑,一邊背誦所有看到過的東西,還要隨時準確回應你的各種指令,這幾乎是不可能完成的任務。
RELIC的創新之處在于找到了一種巧妙的平衡方案。它就像一個聰明的圖書管理員,不是把所有書都放在手邊,而是建立了一套高效的索引系統。當需要某本書時,能夠迅速找到并取出,平時則把書整理壓縮存放,節省空間又保證效率。
二、雙師制教學的創新架構
RELIC采用了一種類似"雙師制教學"的方法來訓練AI模型。在這個比喻中,有一位"資深教師"和一位"實習教師"。資深教師學識淵博,能夠生成高質量的20秒長視頻,但工作節奏比較慢。實習教師學習能力強,工作速度快,但經驗不足。RELIC的目標就是讓實習教師通過學習資深教師的知識,最終能夠快速生成同樣高質量的視頻。
這個雙師制的核心在于一個叫做"自我強化學習"的過程。就好比學開車時,教練不僅會示范正確的駕駛方式,還會讓學生自己開車,然后根據實際駕駛情況給出指導。RELIC的實習教師在學習過程中,不僅要模仿資深教師的輸出結果,還要在自己生成視頻的過程中不斷自我糾正,逐步改善。
資深教師的優勢在于能夠處理長時間的視頻序列。傳統的AI模型通常只能處理5秒左右的短視頻,就像只能背誦短詩的學生。但RELIC的資深教師經過特殊訓練,能夠處理長達20秒的視頻序列,這為整個系統提供了強大的"長期記憶"基礎。這種擴展是通過一種叫做"課程學習"的方法實現的,先從5秒開始訓練,然后逐漸增加到10秒、20秒,就像體能訓練時逐漸增加運動強度一樣。
更關鍵的是,資深教師在學習過程中不僅要掌握視頻生成技巧,還要學會理解用戶的控制指令。研究團隊設計了一套13維的動作空間,涵蓋了用戶可能做出的各種操作:前進、后退、左移、右移、上升、下降等6種平移動作,以及上看、下看、左轉、右轉等6種旋轉動作,再加上一個"靜止"指令。這就像為司機設計了一套完整的操控系統,不僅有方向盤和油門剎車,還有各種輔助控制按鈕。
三、壓縮記憶的魔法技術
RELIC最巧妙的創新在于它的記憶管理系統,這就像一個超級智能的壓縮軟件,能夠在保留關鍵信息的同時大幅節省存儲空間。當你在虛擬世界中移動時,RELIC會將你看過的畫面進行高度壓縮,然后存儲在一個叫做"KV緩存"的特殊存儲空間里。
這個壓縮過程可以比作一個專業攝影師整理照片的方式。攝影師不會保留每張照片的全部原始數據,而是會根據照片的重要性和使用頻率,保留不同清晰度的版本。最近拍攝的照片保持最高清晰度,稍微久遠一些的照片進行適度壓縮,而很早之前的照片則進行大幅壓縮但仍然保留關鍵特征。
RELIC的記憶系統包含兩個部分:滾動窗口緩存和壓縮的長期空間記憶緩存。滾動窗口緩存就像你的短期記憶,存儲最近幾幀的完整信息,確保畫面的連續性和流暢性。而壓縮的長期空間記憶緩存則像你的長期記憶,存儲經過特殊處理的歷史信息。
這種壓縮不是簡單的縮小圖片,而是一種智能的信息提取。系統會保留每個位置的相機姿態信息,包括相對動作和絕對位置。相對動作告訴系統"我從這里向左移動了多遠",而絕對位置則提供"我現在在世界坐標系中的確切位置"。當用戶回到之前探索過的位置時,系統就能通過這些位置信息快速檢索出對應的壓縮記憶,然后重建出相應的畫面。
更令人驚嘆的是,RELIC能夠將總的記憶存儲量減少到原來的四分之一,從12萬個記憶單元壓縮到3萬個,同時還能保持畫面的高質量和空間一致性。這就像把一整套百科全書壓縮成幾本精華版,但當你需要查找任何信息時,仍然能夠快速準確地找到所需內容。
四、突破性的反向傳播技術
在訓練RELIC這樣復雜的系統時,研究團隊遇到了一個類似"雞生蛋還是蛋生雞"的技術難題。要訓練出能生成20秒長視頻的AI模型,就需要讓模型在訓練過程中處理20秒的完整視頻序列。但處理如此長的序列會消耗大量的計算資源和內存,就像要求一臺普通電腦同時運行幾十個大型游戲一樣,根本無法承受。
為了解決這個問題,RELIC的研究團隊發明了一種叫做"重放反向傳播"的技術。這個技術可以比作一個聰明的考試策略:不是一次性做完所有題目再檢查答案,而是先快速瀏覽所有題目得到大概印象,然后逐題仔細分析和改正。
具體來說,系統首先會快速生成整個20秒的視頻序列,但在這個過程中不進行復雜的學習計算,就像先快速瀏覽一遍考試題目。然后,系統會計算這個生成結果與標準答案之間的差異,并將這些差異信息保存起來。接下來的學習階段,系統會回到視頻的開頭,逐個小段地重新生成視頻,同時使用之前保存的差異信息來指導學習和改進。
這種方法的巧妙之處在于將內存消耗從整個20秒序列的規模降低到單個視頻片段的規模,就像把一個巨大的難題分解成許多個小問題來逐一解決。每處理完一個小段,系統就會立即釋放相應的內存資源,然后再處理下一個小段,這樣就能在有限的硬件資源下完成看似不可能的訓練任務。
這個創新不僅解決了內存限制問題,還保證了學習效果。因為系統能夠看到完整的20秒視頻效果,所以學習到的知識是全面和一致的,不會出現只見樹木不見森林的局限性。
五、來自虛幻引擎的完美訓練數據
要訓練RELIC這樣的AI系統,需要大量高質量的訓練數據,就像培養一個世界級的廚師需要讓他品嘗和練習制作各種不同的菜肴一樣。但獲得合適的訓練數據是一個巨大的挑戰。現實世界的視頻雖然真實,但往往缺乏精確的控制信息,而且視角變化有限。游戲錄像雖然有控制信息,但通常局限于特定的游戲風格和場景。
研究團隊采用了一個創新的解決方案:使用虛幻引擎(Unreal Engine)這個專業游戲開發工具來創建專門的訓練數據。這就像為培訓飛行員而建造一個完全可控的飛行模擬器,能夠創造各種復雜的飛行情況和環境條件。
團隊精心策劃了350個高質量的3D場景,涵蓋室內環境如家庭、辦公室,以及戶外環境如森林、山脈、街道等。然后安排人類操作者在這些場景中進行導航,使用受物理碰撞約束的相機控制器來確保移動的真實性。整個過程中,系統會精確記錄相機的6自由度運動軌跡,包括位置、方向和對應的時間戳。
最終收集到的數據集包含超過1400條人類控制的相機軌跡,總時長超過1600分鐘,平均每個視頻片段約75秒,最長的可達9分鐘。這些數據的特殊價值在于動作分布的平衡性和路徑的多樣性。真實世界的視頻往往以前進運動為主,很少有側移或旋轉,而RELIC的訓練數據中包含了均衡分布的各種運動類型,使AI能夠學會響應用戶的各種控制指令。
更重要的是,這些軌跡特意設計了大量的"重訪"場景,也就是相機會在探索過程中多次返回之前去過的位置。這種設計對于訓練AI的長期記憶能力至關重要,就像教一個導游不僅要會帶路,還要能準確記住每個景點的特色,在游客要求再次參觀時能夠保持一致的介紹。
六、實時運行的優化魔法
讓RELIC能夠在普通硬件上實時運行,需要一系列精巧的優化技術,就像為一輛高性能跑車進行全面的輕量化改造,在保持性能的同時提高燃油效率。研究團隊采用了多項技術來突破計算和內存的瓶頸。
首先是代碼編譯優化。團隊使用了torch.compile技術來減少程序運行時的開銷,這就像為汽車發動機安裝更高效的燃油噴射系統,讓每一滴燃油都能發揮最大效用。這種優化主要針對一些基礎的數學運算模塊,如歸一化處理、旋轉位置編碼和調制層等。
內存管理方面,團隊采用了多項創新措施。他們將KV緩存以FP8 E4M3格式存儲,這種格式只使用傳統格式一半的內存空間,就像使用更緊湊的包裝方式來存儲同樣數量的物品。同時,他們還采用了FlashAttention v3技術配合FP8內核,在NVIDIA H100這樣的新一代GPU上實現了更好的性能表現。
更巧妙的是并行化策略。RELIC采用了一種混合的并行化方案,就像指揮一個大型管弦樂隊,不同樂器組負責不同的部分,但整體協調一致。具體來說,線性層和交叉注意力模塊采用序列并行化,也就是將長序列分割給不同的處理器;而自注意力模塊采用張量并行化,將注意力頭分配給不同的處理器。當需要在這兩種并行方式之間切換時,系統使用NCCL All-to-All操作來重新分布數據,確保計算的連續性。
通過這些綜合優化,RELIC最終能夠在4張H100 GPU上實現16幀每秒的實時生成速度,同時保持480×832的高分辨率輸出。這意味著用戶在使用時幾乎感受不到延遲,能夠獲得流暢的實時交互體驗。
七、超越競爭對手的實驗驗證
為了驗證RELIC的性能,研究團隊進行了全面的對比實驗,就像舉辦一場公平的技能比賽,讓所有參賽者在相同條件下展示各自的能力。他們選擇了當前最先進的兩個競爭對手:Matrix-Game-2.0和Hunyuan-GameCraft作為對比基準。
實驗設計采用了220張來自Adobe Stock的測試圖片,涵蓋現實場景如風景、城市環境、室內空間,以及非現實場景如卡通、矢量藝術、油畫等。這些圖片被隨機分成11組,每個AI系統都要處理相同的圖片并生成20秒長度的視頻,然后從視覺質量和動作準確性兩個維度進行評估。
在視覺質量方面,RELIC表現出了明顯的優勢。研究團隊使用VBench評估框架的多個維度來衡量視頻質量,包括主體一致性、背景一致性、運動平滑度、動態程度、美學質量和成像質量。最終的平均分顯示,RELIC獲得了0.8015分(滿分1分),而Matrix-Game-2.0獲得0.7447分,Hunyuan-GameCraft獲得0.7885分。雖然RELIC的訓練分辨率只有480p,但在圖像質量方面能夠與在720p數據上訓練的Hunyuan-GameCraft相媲美,在美學評分上甚至表現更優。
動作準確性的測試更加嚴格。研究團隊讓所有系統執行相同的預定義動作序列,然后使用ViPE技術從生成的視頻中重建相機軌跡。通過Sim(3) Umeyama對齊消除尺度和坐標系差異后,計算平移和旋轉的相對姿態誤差(RPE)。結果顯示,RELIC在平移誤差方面達到0.0906,旋轉誤差為1.00,明顯優于其他競爭對手。
更直觀的對比體現在實際使用場景中。當用戶想要向上仰視時,Matrix-Game-2.0會在畫面頂部產生黑色區域,無法生成新內容;Hunyuan-GameCraft則幾乎沒有垂直運動響應。而RELIC能夠準確響應指令,生成相應的天花板結構和新視角內容。當用戶想要側向移動時,Hunyuan-GameCraft會錯誤地執行旋轉動作,Matrix-Game-2.0則可能完全靜止不動,只有RELIC能夠準確執行側向平移并揭示正確的視角變化。
八、多樣化應用的驚人潛力
RELIC的能力遠超傳統的視頻生成系統,展現出了令人驚嘆的多樣性和適應性。它不僅能夠處理常規的室內外真實環境,還能夠在各種藝術風格中游刃有余,包括油畫、漫畫插圖、矢量藝術、低多邊形渲染等多種視覺風格。這種泛化能力就像一個多才多藝的演員,能夠在不同類型的電影中都表現出色。
特別值得注意的是RELIC的距離感知能力。在生成的視頻中,遠處的建筑和景物移動速度較慢,而近處的物體移動速度較快,完全符合真實世界的視覺規律。這種細節處理顯示了系統對3D空間結構的深度理解,不是簡單的2D圖像處理,而是真正理解了三維世界的幾何關系。
速度控制是RELIC的另一個突出特色。由于采用了連續數值而非二進制標志來表示動作強度,用戶可以通過調整位移系數λ來自由控制探索速度。無論是緩慢的漫步還是快速的移動,RELIC都能保持高質量和時間穩定的輸出。這就像一輛能夠在各種速度下都保持平穩行駛的高級轎車。
多鍵控制功能讓用戶體驗更加豐富和直觀。RELIC能夠可靠地響應復合操作,比如在前進的同時轉頭觀察,或者在側移的過程中調整視角高度。這種復合動作控制為用戶提供了高度的運動自由度,使虛擬世界探索變得更加自然和流暢。
長期記憶能力可能是RELIC最令人印象深刻的特色。即使在大幅度的相機運動之后,系統仍能準確恢復之前生成的場景內容,細節損失極小。這種能力在對比實驗中表現得尤為明顯:當相機離開某個區域后再次返回時,其他系統往往會生成完全不同的內容,而RELIC能夠忠實地重現之前的場景,包括物體的位置、紋理和光照等細節。
九、技術局限與未來展望
盡管RELIC取得了突破性進展,但研究團隊也誠實地指出了當前系統的一些局限性。這些局限性主要源于訓練數據的特性和計算資源的約束,就像一個剛剛畢業的學生,雖然掌握了扎實的基礎知識,但在某些專業領域還需要進一步的學習和實踐。
首先是場景動態性的限制。由于RELIC主要在靜態場景渲染的數據上訓練,生成的視頻在場景動態性和多樣性方面仍有改進空間。現在的RELIC就像一個專門拍攝風景照的攝影師,雖然能夠完美捕捉自然風光,但在拍攝運動場面或人物活動時還不夠熟練。這個問題可以通過擴展訓練數據集來逐步改善,加入更多動態場景和互動元素。
生成時長的擴展是另一個挑戰。雖然RELIC已經能夠生成20秒的高質量視頻,但距離真正的"無限探索"還有一段距離。要實現分鐘級別的連續生成,需要進一步優化內存管理和長期一致性保持機制。這就像馬拉松運動員需要專門的耐力訓練才能跑完全程一樣。
計算資源需求是當前最實際的限制。RELIC需要大型模型(14B參數)、KV緩存用于長期記憶,以及多次迭代的去噪步驟,這些都對硬件提出了較高要求。在資源受限的環境下,推理延遲會顯著增加。不過,隨著硬件技術的快速發展和優化算法的不斷改進,這個問題有望在不久的將來得到緩解。
盡管存在這些局限性,RELIC為交互式視頻世界建模領域奠定了堅實的基礎。研究團隊相信,通過有針對性的改進,包括數據集的擴充、訓練策略的優化,以及硬件資源的合理配置,這些問題都是可以解決的。更重要的是,RELIC展示的技術路徑是可行和可擴展的,為未來更高級的世界模擬器提供了明確的發展方向。
RELIC的出現標志著我們向真正的交互式虛擬世界邁出了重要一步。雖然現在還不能完全替代傳統的游戲開發或視頻制作,但它開辟了一個全新的可能性空間。未來,我們可能會看到這項技術在教育培訓、娛樂體驗、設計預覽、甚至是虛擬旅游等領域發揮重要作用。當技術進一步成熟時,每個人都可能擁有創造和探索個人專屬虛擬世界的能力,這將徹底改變我們與數字內容交互的方式。
Q&A
Q1:RELIC和傳統視頻游戲引擎有什么區別?
A:傳統游戲引擎需要開發者預先構建所有3D模型和場景,而RELIC只需要一張圖片就能生成可探索的世界。它就像一個魔法畫師,能把靜態圖片變成可以自由行走的三維空間,而且還能"記住"你去過的地方,確保再次返回時景象保持一致。
Q2:RELIC生成的視頻世界能保持多長時間的記憶?
A:RELIC目前能維持20秒時長的連續記憶,這意味著你可以在虛擬世界中探索20秒,然后返回最初位置時仍能看到與開始時完全一致的景象。雖然20秒聽起來不長,但這已經是這類AI技術的重大突破,因為大多數同類系統只能維持幾秒鐘的一致性。
Q3:普通用戶現在能使用RELIC技術嗎?
A:目前RELIC還是研究階段的技術,需要專業的GPU設備才能運行。研究團隊使用4張H100 GPU才能實現16幀每秒的實時生成。不過隨著硬件技術發展和算法優化,未來這項技術有望普及到消費級設備上,讓普通用戶也能體驗從照片創建虛擬世界的神奇功能。





京公網安備 11011402013531號