![]()
新智元報(bào)道
編輯:LRST
AI拍長(zhǎng)視頻不再是難事!LongLive通過(guò)實(shí)時(shí)交互生成流暢畫(huà)面,解決了傳統(tǒng)方法的卡頓、不連貫等痛點(diǎn),讓普通人都能輕松拍大片。無(wú)論是15秒短片還是240秒長(zhǎng)片,畫(huà)面連貫、節(jié)奏流暢,讓創(chuàng)作變得像打字一樣簡(jiǎn)單。
你還在為拍視頻頭疼嗎?
想象一下你正在寫(xiě)一個(gè)故事,主角從城市街頭一路打到未來(lái)太空,劇情越來(lái)越精彩,突然你靈光一閃——
「如果他這時(shí)候變身成反派,故事會(huì)不會(huì)更炸?」
以前,你得重新寫(xiě)劇本、找素材、剪輯、渲染……
現(xiàn)在,你只需要打一句話,AI實(shí)時(shí)生成新劇情,而且畫(huà)面連貫、節(jié)奏流暢,邊想邊出片,像電影一樣!
近日,NVIDIA聯(lián)合MIT等機(jī)構(gòu)重磅推出LongLive,把交互式視頻生成性能干到SOTA,最長(zhǎng)實(shí)現(xiàn)4分鐘,可以實(shí)時(shí)交互式長(zhǎng)視頻生成。
![]()
項(xiàng)目地址:https://nvlabs.github.io/LongLive/
論文鏈接:https://arxiv.org/abs/2509.22622
項(xiàng)目主頁(yè):https://nvlabs.github.io/LongLive/
視頻1:交互式視頻生成結(jié)果展示
LongLive的驚艷不止于實(shí)時(shí)交互,別家模型「跑長(zhǎng)跑就掉鞋」,我們把終點(diǎn)線直接拉到4分鐘——240秒一鏡到底,人物不崩、劇情不跳、鏡頭不晃。
視頻2:和其他模型在長(zhǎng)視頻生成上的視覺(jué)對(duì)比。LongLive生成速度快的同時(shí),還保持了視覺(jué)一致性和語(yǔ)義上的連貫
對(duì)比Sora2,由于Sora2每次只能生成10秒視頻,Sora2借助GPT-5對(duì)輸入進(jìn)行了優(yōu)化,盡可能地增加背景和上下文信息,來(lái)提示Sora2生成的連貫性。
視頻3:Sora2與LongLive在長(zhǎng)視頻生成上的對(duì)比。Sora2在視頻質(zhì)感、運(yùn)鏡以及物理規(guī)律模擬等方面非常強(qiáng)大,但難免會(huì)出現(xiàn)突變和不一致。LongLive連續(xù)性好且生成速度快
VBench-Long權(quán)威測(cè)評(píng)顯示,LongLive在長(zhǎng)視頻賽道拿下84.87總分,領(lǐng)先同量級(jí)選手近4分;背景一致性94.8、主角一致性94.0,全程零閃變,比SkyReels-V2快了41倍。
![]()
表1:LongLive和其他模型在長(zhǎng)視頻生成上的User Study對(duì)比
回到日常短視頻(15-30秒)場(chǎng)景,一樣「穩(wěn)又快」:20.7幀/秒生成速度,比播放速度還快;VBench短片段評(píng)分86.97,視覺(jué)效果依舊SOTA。
![]()
表2:LongLive在VBench 短視頻評(píng)測(cè)榜單上的性能比較
一句話,無(wú)論15秒爆款還是240分鐘大片,LongLive都給你影院級(jí)穩(wěn)感和絲滑產(chǎn)出
現(xiàn)在,很多擴(kuò)散模型的做法由于雙向注意力機(jī)制導(dǎo)致長(zhǎng)時(shí)域生成過(guò)慢。而另一些則是「把一段視頻一段視頻分別生成然后拼起來(lái)」,所以越長(zhǎng)越崩,人物形象完全錯(cuò)誤,還有一些方法由于訓(xùn)練階段使用短視頻,推理階段則推長(zhǎng)視頻導(dǎo)致訓(xùn)推不一致。
總結(jié)為:
不用KV-cache,時(shí)間太慢并且形象錯(cuò)亂。
使用KV-cache,實(shí)時(shí)交互困難。
訓(xùn)不動(dòng)長(zhǎng)視頻,推理則錯(cuò)誤累計(jì)。
而LongLive完美解決這些痛點(diǎn),一個(gè)真正面向長(zhǎng)視頻生成交互式的訓(xùn)練和推理算法。滾動(dòng)式窗口支持長(zhǎng)視頻訓(xùn)練,單張GPU實(shí)現(xiàn)240s實(shí)時(shí)交互生成。
視頻4:240s長(zhǎng)視頻生成效果
LongLive三板斧
LongLive的核心秘訣是「三把鑰匙」,專門解決「長(zhǎng)、順、快」不可能三角:
長(zhǎng)跑鑰匙——Streaming Long Tuning
專為「長(zhǎng)度」而生:訓(xùn)練時(shí)就讓模型自己跑完240秒,邊生成邊學(xué)習(xí),像陪練一樣陪它沖過(guò)終點(diǎn),從此不再「train-short-test-long」,越長(zhǎng)越穩(wěn)。
![]()
圖2:流式長(zhǎng)視頻微調(diào)流程圖。
劇情鑰匙——KV-Recache
換劇情時(shí),舊畫(huà)面不丟,新指令立刻生效。就像導(dǎo)演現(xiàn)場(chǎng)改劇本,演員自然接戲,不會(huì)「出戲」或「重來(lái)」。
![]()
圖3:不同策略對(duì)比來(lái)看,LongLive提出的KV re-cahce完美解決所有痛點(diǎn)
時(shí)間錨點(diǎn)和聚光燈注意力——frame Sink和Short-Window
把開(kāi)頭幾幀永久「釘」在記憶里,后面無(wú)論怎么拍,人物長(zhǎng)相、場(chǎng)景風(fēng)格都不會(huì)跑。相當(dāng)于給整部片上了「定妝鎖」。
![]()
圖4:LongLive提出的sink策略保持風(fēng)格一致
只看最近關(guān)鍵幾幀,算力減半,畫(huà)面反而更穩(wěn)。就像攝影師只追焦主角,背景再亂也不影響鏡頭清晰度。
![]()
圖5:LongLive提出的Shift Window策略極致的加速生成和降低算力消耗
三招齊下,才能讓你「邊聊邊拍」240 秒依舊不崩、不跳、不重來(lái),這才是 LongLive敢把「交互式長(zhǎng)視頻」做成「打字速度」的大秘訣。
LongLive把「寫(xiě)一句話」變成「拍一部大片」,長(zhǎng)視頻一鏡到底、隨時(shí)改戲、立等可取——從此,長(zhǎng)視頻不再是專業(yè)團(tuán)隊(duì)的專利,而是每個(gè)人隨手可得的創(chuàng)意游樂(lè)場(chǎng)。
真正的交互式視覺(jué)時(shí)代已悄然開(kāi)啟,AI的每個(gè)靈感都值得被實(shí)時(shí)看見(jiàn),被長(zhǎng)久記住。
參考資料:
https://arxiv.org/abs/2509.22622





京公網(wǎng)安備 11011402013531號(hào)