![]()
本工作由南洋理工大學(xué)與騰訊 ARC 實驗室聯(lián)合完成。本文的第一作者為南洋理工大學(xué)博士生劉坤昊。本文的通訊作者為 ARC 資深研究員胡文博和南洋理工大學(xué)教授 Shijian Lu。
AI 能實時拍長片了嗎?
想象一下,你正在玩一款開放世界游戲,角色在無縫銜接的世界中自由漫游,游戲引擎必須實時生成一條無限長的視頻流來呈現(xiàn)這個虛擬世界。或者,你戴著 AR 眼鏡在街頭行走,系統(tǒng)需要根據(jù)你的視線與動作,即時生成與你環(huán)境交互的畫面。無論是哪種場景,都對 AI 提出了同樣的要求:能實時生成高質(zhì)量、長時間連貫的視頻流。
然而,這正是當(dāng)前 AI 視頻生成的最大瓶頸。現(xiàn)有模型在幾秒鐘的短片中表現(xiàn)不錯,但當(dāng)生成持續(xù)延伸時,問題會像滾雪球一樣放大。這種現(xiàn)象被稱為誤差累積,就像「傳話游戲」中信息一層層失真,每一幀的微小誤差都會被下一幀繼承、放大,最終導(dǎo)致畫面崩壞 —— 顏色漂移、動作僵硬、主體變形…… 視頻越長,問題越嚴(yán)重。
來自南洋理工大學(xué)與騰訊 ARC 實驗室的研究者提出了一種新的實時視頻生成方法:Rolling Forcing。它通過三大創(chuàng)新設(shè)計 —— 滾動窗口聯(lián)合降噪、Attension Sink 機制、以及高效訓(xùn)練算法 —— 實現(xiàn)了「邊生成邊修正」,從而在單張 GPU 上實現(xiàn)分鐘級視頻的實時生成。
![]()
論文鏈接:https://arxiv.org/abs/2509.25161項目主頁:https://kunhao-liu.github.io/Rolling_Forcing_Webpage/代碼倉庫:https://github.com/TencentARC/RollingForcingHuggingface:https://huggingface.co/TencentARC/RollingForcing
研究背景:
實時長視頻生成的「不可能三角」
![]()
實時長視頻生成有一個「不可能三角」的困境:高質(zhì)量、一致性和實時性三者難以兼顧。其核心難點可分解為以下三個挑戰(zhàn):
實時性要求模型順序生成:流式生成要求幀嚴(yán)格按時間順序輸出,且每幀延遲極低。這使規(guī)劃生成(Planning Generation)等非順序方法不適用于流式生成。盡管先預(yù)測關(guān)鍵幀再插值能減少誤差累積,但其亂序生成不適用于實時場景。消除誤差累積與保持一致性的兩難:在自回歸生成中,每一幀的微小誤差(如色彩或運動失真)會像滾雪球一樣被后續(xù)幀繼承放大,導(dǎo)致長期漂移。為緩解此問題,歷史腐蝕(History Corruption)通過噪聲注入降低對歷史的依賴,然而卻犧牲了幀間連貫性,會有幀間跳動和長期漂移的問題。自回歸逐幀生成的局限:Self Forcing 等方法雖滿足實時流式要求,但其逐幀生成的嚴(yán)格因果性使模型無法修正歷史錯誤,導(dǎo)致誤差隨視頻延長而累積,最終引發(fā)畫面崩壞。
方法核心:
Rolling Forcing如何實現(xiàn)「邊生成邊修正」
既然現(xiàn)有方法在高質(zhì)量、一致性和實時性這個困境中難以突破,Rolling Forcing 的動機就很明確: 能否在嚴(yán)格遵守流式順序的前提下,賦予模型一種「前瞻性」的局部修正能力?其答案是一個巧妙的「滾動窗口」思想。
它將視頻生成從一種嚴(yán)格的串行因果過程,轉(zhuǎn)變?yōu)橐环N滑動窗口內(nèi)的并行協(xié)作過程。這好比是將傳統(tǒng)工業(yè)上一步接一步、誤差會逐級放大的串行流水線,升級為一個并行工作站,工作站內(nèi)的成員可以相互溝通、協(xié)同修正,從而在保持產(chǎn)出節(jié)奏的同時,顯著提升了成品的一致性與質(zhì)量。
![]()
具體而言,Rolling Forcing 通過三項關(guān)鍵設(shè)計實現(xiàn)了實時長視頻生成的突破:
1. 滾動窗口聯(lián)合降噪:Rolling Forcing 采用滑動窗口進行多幀聯(lián)合優(yōu)化。模型在單次前向傳播中同時處理一個包含多幀的窗口,窗口內(nèi)各幀通過雙向注意力機制進行相互校準(zhǔn)。每完成一次處理,窗口向前滑動:輸出首幀作為最終結(jié)果,并引入新噪聲幀作為窗口末端輸入,實現(xiàn)連續(xù)流式生成。
2.Attention Sink 機制保障長期一致性:為解決長視頻生成中的漂移問題,Rolling Forcing 引入了 Attention Sink 機制。該機制將初始生成幀作為全局錨點進行持久化緩存。在生成后續(xù)所有幀時,模型均能訪問這些初始錨點信息,從而有效維持視頻的長期視覺屬性(如色調(diào)、光照和主體外觀)的一致性。
3. 高效訓(xùn)練算法緩解曝光偏差:Rolling Forcing 設(shè)計了一種基于非重疊窗口的高效蒸餾訓(xùn)練算法。該算法在訓(xùn)練過程中使模型使用自身生成的歷史幀而非真實數(shù)據(jù),有效模擬了推理時的真實場景。
實驗結(jié)果:
實現(xiàn)高質(zhì)量長視頻生成與交互控制
定量結(jié)果:顯著降低誤差累積,實現(xiàn)實時生成
![]()
如表所示,Rolling Forcing 在多項關(guān)鍵指標(biāo)上超越了現(xiàn)有主流方法。其最突出的優(yōu)勢體現(xiàn)在長期一致性上:衡量視頻質(zhì)量漂移的關(guān)鍵指標(biāo) ΔDriftQuality 遠低于對比模型,這證明其有效抑制了長視頻生成中的誤差累積。同時,該方法在單張 GPU 上達到了 16 fps 的生成速度,實現(xiàn)了實時生成,為交互式應(yīng)用奠定了基礎(chǔ)。
定性對比:多分鐘生成仍保持高保真度
![]()
在長視頻生成的定性比較中,Rolling Forcing 的優(yōu)勢更為直觀。在長達 2 分鐘的生成過程中,對比模型(如 SkyReels-V2, MAGI-1 等)出現(xiàn)了明顯的顏色偏移、細(xì)節(jié)退化或主體變形,而 Rolling Forcing 生成的內(nèi)容在細(xì)節(jié)、色彩和運動連貫性上均保持了高度穩(wěn)定。
交互式視頻生成:動態(tài)引導(dǎo)內(nèi)容創(chuàng)作
![]()
Rolling Forcing 的另一項能力是支持交互式視頻流生成。在視頻流生成過程中,用戶可以隨時改變文本提示詞,模型能夠動態(tài)地根據(jù)新指令調(diào)整后續(xù)生成內(nèi)容,實現(xiàn)內(nèi)容的無縫切換與引導(dǎo)。
![]()
總結(jié)與未來挑戰(zhàn)
Rolling Forcing 成功突破了實時長視頻生成的不可能三角,在保持 16 fps 實時生成速度的同時,顯著降低了長序列生成中的誤差累積,實現(xiàn)了分鐘級別的高質(zhì)量視頻流生成,為交互式世界模型、神經(jīng)游戲引擎等應(yīng)用提供了基礎(chǔ)。
盡管取得了突破性進展,以下方向仍值得進一步探索:
1. 記憶機制優(yōu)化:當(dāng)前方法僅保留初始幀和近期幀的上下文,生成過程中段的內(nèi)容會被丟棄。未來需要探索更高效的長程記憶機制,實現(xiàn)對視頻中段關(guān)鍵信息的動態(tài)保存與召回。
2. 訓(xùn)練效率提升:大窗口注意力與 DMD 損失計算導(dǎo)致訓(xùn)練成本較高。未來可以探索在不犧牲性能的前提下降低計算復(fù)雜度,將模型擴展到更大規(guī)模。
3. 交互延遲優(yōu)化:滾動窗口機制在提升質(zhì)量的同時會引入微量延遲。針對需要極低延遲的交互場景(如 VR/AR),需要開發(fā)更靈活的推理策略。





京公網(wǎng)安備 11011402013531號