讓AI生成視頻「又長又快」：Rolling Forcing實現(xiàn)分鐘級實時生成

IP屬地中國·北京 機器之心Pro 時間：2025-11-05 14:17:19

本工作由南洋理工大學(xué)與騰訊 ARC 實驗室聯(lián)合完成。本文的第一作者為南洋理工大學(xué)博士生劉坤昊。本文的通訊作者為 ARC 資深研究員胡文博和南洋理工大學(xué)教授 Shijian Lu。
AI 能實時拍長片了嗎？

想象一下，你正在玩一款開放世界游戲，角色在無縫銜接的世界中自由漫游，游戲引擎必須實時生成一條無限長的視頻流來呈現(xiàn)這個虛擬世界。或者，你戴著 AR 眼鏡在街頭行走，系統(tǒng)需要根據(jù)你的視線與動作，即時生成與你環(huán)境交互的畫面。無論是哪種場景，都對 AI 提出了同樣的要求：能實時生成高質(zhì)量、長時間連貫的視頻流。
然而，這正是當(dāng)前 AI 視頻生成的最大瓶頸。現(xiàn)有模型在幾秒鐘的短片中表現(xiàn)不錯，但當(dāng)生成持續(xù)延伸時，問題會像滾雪球一樣放大。這種現(xiàn)象被稱為誤差累積，就像「傳話游戲」中信息一層層失真，每一幀的微小誤差都會被下一幀繼承、放大，最終導(dǎo)致畫面崩壞 —— 顏色漂移、動作僵硬、主體變形…… 視頻越長，問題越嚴(yán)重。
來自南洋理工大學(xué)與騰訊 ARC 實驗室的研究者提出了一種新的實時視頻生成方法：Rolling Forcing。它通過三大創(chuàng)新設(shè)計 —— 滾動窗口聯(lián)合降噪、Attension Sink 機制、以及高效訓(xùn)練算法 —— 實現(xiàn)了「邊生成邊修正」，從而在單張 GPU 上實現(xiàn)分鐘級視頻的實時生成。

論文鏈接：https://arxiv.org/abs/2509.25161項目主頁：https://kunhao-liu.github.io/Rolling_Forcing_Webpage/代碼倉庫：https://github.com/TencentARC/RollingForcingHuggingface：https://huggingface.co/TencentARC/RollingForcing
研究背景：
實時長視頻生成的「不可能三角」

實時長視頻生成有一個「不可能三角」的困境：高質(zhì)量、一致性和實時性三者難以兼顧。其核心難點可分解為以下三個挑戰(zhàn)：
實時性要求模型順序生成：流式生成要求幀嚴(yán)格按時間順序輸出，且每幀延遲極低。這使規(guī)劃生成（Planning Generation）等非順序方法不適用于流式生成。盡管先預(yù)測關(guān)鍵幀再插值能減少誤差累積，但其亂序生成不適用于實時場景。消除誤差累積與保持一致性的兩難：在自回歸生成中，每一幀的微小誤差（如色彩或運動失真）會像滾雪球一樣被后續(xù)幀繼承放大，導(dǎo)致長期漂移。為緩解此問題，歷史腐蝕（History Corruption）通過噪聲注入降低對歷史的依賴，然而卻犧牲了幀間連貫性，會有幀間跳動和長期漂移的問題。自回歸逐幀生成的局限：Self Forcing 等方法雖滿足實時流式要求，但其逐幀生成的嚴(yán)格因果性使模型無法修正歷史錯誤，導(dǎo)致誤差隨視頻延長而累積，最終引發(fā)畫面崩壞。
方法核心：
Rolling Forcing如何實現(xiàn)「邊生成邊修正」
既然現(xiàn)有方法在高質(zhì)量、一致性和實時性這個困境中難以突破，Rolling Forcing 的動機就很明確：能否在嚴(yán)格遵守流式順序的前提下，賦予模型一種「前瞻性」的局部修正能力？其答案是一個巧妙的「滾動窗口」思想。
它將視頻生成從一種嚴(yán)格的串行因果過程，轉(zhuǎn)變?yōu)橐环N滑動窗口內(nèi)的并行協(xié)作過程。這好比是將傳統(tǒng)工業(yè)上一步接一步、誤差會逐級放大的串行流水線，升級為一個并行工作站，工作站內(nèi)的成員可以相互溝通、協(xié)同修正，從而在保持產(chǎn)出節(jié)奏的同時，顯著提升了成品的一致性與質(zhì)量。

具體而言，Rolling Forcing 通過三項關(guān)鍵設(shè)計實現(xiàn)了實時長視頻生成的突破：
1. 滾動窗口聯(lián)合降噪：Rolling Forcing 采用滑動窗口進行多幀聯(lián)合優(yōu)化。模型在單次前向傳播中同時處理一個包含多幀的窗口，窗口內(nèi)各幀通過雙向注意力機制進行相互校準(zhǔn)。每完成一次處理，窗口向前滑動：輸出首幀作為最終結(jié)果，并引入新噪聲幀作為窗口末端輸入，實現(xiàn)連續(xù)流式生成。
2.Attention Sink 機制保障長期一致性：為解決長視頻生成中的漂移問題，Rolling Forcing 引入了 Attention Sink 機制。該機制將初始生成幀作為全局錨點進行持久化緩存。在生成后續(xù)所有幀時，模型均能訪問這些初始錨點信息，從而有效維持視頻的長期視覺屬性（如色調(diào)、光照和主體外觀）的一致性。
3. 高效訓(xùn)練算法緩解曝光偏差：Rolling Forcing 設(shè)計了一種基于非重疊窗口的高效蒸餾訓(xùn)練算法。該算法在訓(xùn)練過程中使模型使用自身生成的歷史幀而非真實數(shù)據(jù)，有效模擬了推理時的真實場景。
實驗結(jié)果：
實現(xiàn)高質(zhì)量長視頻生成與交互控制

定量結(jié)果：顯著降低誤差累積，實現(xiàn)實時生成

如表所示，Rolling Forcing 在多項關(guān)鍵指標(biāo)上超越了現(xiàn)有主流方法。其最突出的優(yōu)勢體現(xiàn)在長期一致性上：衡量視頻質(zhì)量漂移的關(guān)鍵指標(biāo) ΔDriftQuality 遠低于對比模型，這證明其有效抑制了長視頻生成中的誤差累積。同時，該方法在單張 GPU 上達到了 16 fps 的生成速度，實現(xiàn)了實時生成，為交互式應(yīng)用奠定了基礎(chǔ)。
定性對比：多分鐘生成仍保持高保真度

在長視頻生成的定性比較中，Rolling Forcing 的優(yōu)勢更為直觀。在長達 2 分鐘的生成過程中，對比模型（如 SkyReels-V2, MAGI-1 等）出現(xiàn)了明顯的顏色偏移、細(xì)節(jié)退化或主體變形，而 Rolling Forcing 生成的內(nèi)容在細(xì)節(jié)、色彩和運動連貫性上均保持了高度穩(wěn)定。
交互式視頻生成：動態(tài)引導(dǎo)內(nèi)容創(chuàng)作

Rolling Forcing 的另一項能力是支持交互式視頻流生成。在視頻流生成過程中，用戶可以隨時改變文本提示詞，模型能夠動態(tài)地根據(jù)新指令調(diào)整后續(xù)生成內(nèi)容，實現(xiàn)內(nèi)容的無縫切換與引導(dǎo)。

總結(jié)與未來挑戰(zhàn)

Rolling Forcing 成功突破了實時長視頻生成的不可能三角，在保持 16 fps 實時生成速度的同時，顯著降低了長序列生成中的誤差累積，實現(xiàn)了分鐘級別的高質(zhì)量視頻流生成，為交互式世界模型、神經(jīng)游戲引擎等應(yīng)用提供了基礎(chǔ)。
盡管取得了突破性進展，以下方向仍值得進一步探索：
1. 記憶機制優(yōu)化：當(dāng)前方法僅保留初始幀和近期幀的上下文，生成過程中段的內(nèi)容會被丟棄。未來需要探索更高效的長程記憶機制，實現(xiàn)對視頻中段關(guān)鍵信息的動態(tài)保存與召回。
2. 訓(xùn)練效率提升：大窗口注意力與 DMD 損失計算導(dǎo)致訓(xùn)練成本較高。未來可以探索在不犧牲性能的前提下降低計算復(fù)雜度，將模型擴展到更大規(guī)模。
3. 交互延遲優(yōu)化：滾動窗口機制在提升質(zhì)量的同時會引入微量延遲。針對需要極低延遲的交互場景（如 VR/AR），需要開發(fā)更靈活的推理策略。

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

Windows 11任務(wù)欄至今仍無法自由移動！微軟終于給出原因：沒用舊代碼

東安動力首臺轉(zhuǎn)子發(fā)動機R05E點火成功，2027年量產(chǎn)

挑戰(zhàn)液態(tài)海洋共識：NASA研究稱土衛(wèi)六含太陽系最大“冰沙”

曝TikTok交易達成，美國和字節(jié)跳動各掌握一家公司

AI賦能流程神州數(shù)碼汽車行業(yè)AI 應(yīng)用落地研討會在滬舉辦

希迪智駕港交所上市，成港股首家商用車智能駕駛公司

全站最新

Windows 11任務(wù)欄至今仍無法自由移動！微軟終于給出原因：沒用舊代碼

東安動力首臺轉(zhuǎn)子發(fā)動機R05E點火成功，2027年量產(chǎn)

挑戰(zhàn)液態(tài)海洋共識：NASA研究稱土衛(wèi)六含太陽系最大“冰沙”

曝TikTok交易達成，美國和字節(jié)跳動各掌握一家公司

熱門推薦

基于阿里千問，烏干達打造本土大模型

比亞迪正式進入伊拉克市場，推出BYD SHARK 6

金沙酒業(yè)營銷負(fù)責(zé)人更迭，王維龍離職，韓玉國接棒

Windows 11任務(wù)欄至今仍無法自由移動！微軟終于給出原因：沒用舊代碼

東安動力首臺轉(zhuǎn)子發(fā)動機R05E點火成功，2027年量產(chǎn)

挑戰(zhàn)液態(tài)海洋共識：NASA研究稱土衛(wèi)六含太陽系最大“冰沙”

曝TikTok交易達成，美國和字節(jié)跳動各掌握一家公司

AI賦能流程神州數(shù)碼汽車行業(yè)AI 應(yīng)用落地研討會在滬舉辦

希迪智駕港交所上市，成港股首家商用車智能駕駛公司

千問App辟謠：全員大會集體吃豆包圖是AI生成的

你的“大廠經(jīng)驗”，在AI面前可能一文不值

科學(xué)與健康|改寫生命演化史！2025我國古生物學(xué)研究在多領(lǐng)域取得突破

他設(shè)計的手機賣了1.5億臺 | 我們的四分之一世紀(jì)

VEX機器人亞洲公開賽在京開幕，全球近30國青少年選手參賽

拼多多：趙佳臻獲任聯(lián)席董事長，與陳磊共同擔(dān)任集團聯(lián)席董事長兼聯(lián)席CEO