邊打字邊出片，交互式生成長(zhǎng)視頻！英偉達(dá)聯(lián)合MIT開(kāi)源新SOTA

IP屬地中國(guó)·北京 新智元 時(shí)間：2025-10-18 10:10:49

新智元報(bào)道
編輯：LRST
AI拍長(zhǎng)視頻不再是難事！LongLive通過(guò)實(shí)時(shí)交互生成流暢畫(huà)面，解決了傳統(tǒng)方法的卡頓、不連貫等痛點(diǎn)，讓普通人都能輕松拍大片。無(wú)論是15秒短片還是240秒長(zhǎng)片，畫(huà)面連貫、節(jié)奏流暢，讓創(chuàng)作變得像打字一樣簡(jiǎn)單。
你還在為拍視頻頭疼嗎？
想象一下你正在寫(xiě)一個(gè)故事，主角從城市街頭一路打到未來(lái)太空，劇情越來(lái)越精彩，突然你靈光一閃——
「如果他這時(shí)候變身成反派，故事會(huì)不會(huì)更炸？」
以前，你得重新寫(xiě)劇本、找素材、剪輯、渲染……
現(xiàn)在，你只需要打一句話，AI實(shí)時(shí)生成新劇情，而且畫(huà)面連貫、節(jié)奏流暢，邊想邊出片，像電影一樣！
近日，NVIDIA聯(lián)合MIT等機(jī)構(gòu)重磅推出LongLive，把交互式視頻生成性能干到SOTA，最長(zhǎng)實(shí)現(xiàn)4分鐘，可以實(shí)時(shí)交互式長(zhǎng)視頻生成。

項(xiàng)目地址：https://nvlabs.github.io/LongLive/
論文鏈接：https://arxiv.org/abs/2509.22622
項(xiàng)目主頁(yè)：https://nvlabs.github.io/LongLive/
視頻1：交互式視頻生成結(jié)果展示
LongLive的驚艷不止于實(shí)時(shí)交互，別家模型「跑長(zhǎng)跑就掉鞋」，我們把終點(diǎn)線直接拉到4分鐘——240秒一鏡到底，人物不崩、劇情不跳、鏡頭不晃。
視頻2：和其他模型在長(zhǎng)視頻生成上的視覺(jué)對(duì)比。LongLive生成速度快的同時(shí)，還保持了視覺(jué)一致性和語(yǔ)義上的連貫
對(duì)比Sora2，由于Sora2每次只能生成10秒視頻，Sora2借助GPT-5對(duì)輸入進(jìn)行了優(yōu)化，盡可能地增加背景和上下文信息，來(lái)提示Sora2生成的連貫性。
視頻3：Sora2與LongLive在長(zhǎng)視頻生成上的對(duì)比。Sora2在視頻質(zhì)感、運(yùn)鏡以及物理規(guī)律模擬等方面非常強(qiáng)大，但難免會(huì)出現(xiàn)突變和不一致。LongLive連續(xù)性好且生成速度快
VBench-Long權(quán)威測(cè)評(píng)顯示，LongLive在長(zhǎng)視頻賽道拿下84.87總分，領(lǐng)先同量級(jí)選手近4分；背景一致性94.8、主角一致性94.0，全程零閃變，比SkyReels-V2快了41倍。

表1：LongLive和其他模型在長(zhǎng)視頻生成上的User Study對(duì)比
回到日常短視頻（15-30秒）場(chǎng)景，一樣「穩(wěn)又快」：20.7幀/秒生成速度，比播放速度還快；VBench短片段評(píng)分86.97，視覺(jué)效果依舊SOTA。

表2：LongLive在VBench 短視頻評(píng)測(cè)榜單上的性能比較
一句話，無(wú)論15秒爆款還是240分鐘大片，LongLive都給你影院級(jí)穩(wěn)感和絲滑產(chǎn)出
現(xiàn)在，很多擴(kuò)散模型的做法由于雙向注意力機(jī)制導(dǎo)致長(zhǎng)時(shí)域生成過(guò)慢。而另一些則是「把一段視頻一段視頻分別生成然后拼起來(lái)」，所以越長(zhǎng)越崩，人物形象完全錯(cuò)誤，還有一些方法由于訓(xùn)練階段使用短視頻，推理階段則推長(zhǎng)視頻導(dǎo)致訓(xùn)推不一致。
總結(jié)為：
不用KV-cache，時(shí)間太慢并且形象錯(cuò)亂。
使用KV-cache，實(shí)時(shí)交互困難。
訓(xùn)不動(dòng)長(zhǎng)視頻，推理則錯(cuò)誤累計(jì)。

而LongLive完美解決這些痛點(diǎn)，一個(gè)真正面向長(zhǎng)視頻生成交互式的訓(xùn)練和推理算法。滾動(dòng)式窗口支持長(zhǎng)視頻訓(xùn)練，單張GPU實(shí)現(xiàn)240s實(shí)時(shí)交互生成。
視頻4：240s長(zhǎng)視頻生成效果
LongLive三板斧
LongLive的核心秘訣是「三把鑰匙」，專門解決「長(zhǎng)、順、快」不可能三角：
長(zhǎng)跑鑰匙——Streaming Long Tuning
專為「長(zhǎng)度」而生：訓(xùn)練時(shí)就讓模型自己跑完240秒，邊生成邊學(xué)習(xí)，像陪練一樣陪它沖過(guò)終點(diǎn)，從此不再「train-short-test-long」，越長(zhǎng)越穩(wěn)。

圖2：流式長(zhǎng)視頻微調(diào)流程圖。
劇情鑰匙——KV-Recache
換劇情時(shí)，舊畫(huà)面不丟，新指令立刻生效。就像導(dǎo)演現(xiàn)場(chǎng)改劇本，演員自然接戲，不會(huì)「出戲」或「重來(lái)」。

圖3：不同策略對(duì)比來(lái)看，LongLive提出的KV re-cahce完美解決所有痛點(diǎn)
時(shí)間錨點(diǎn)和聚光燈注意力——frame Sink和Short-Window
把開(kāi)頭幾幀永久「釘」在記憶里，后面無(wú)論怎么拍，人物長(zhǎng)相、場(chǎng)景風(fēng)格都不會(huì)跑。相當(dāng)于給整部片上了「定妝鎖」。

圖4：LongLive提出的sink策略保持風(fēng)格一致
只看最近關(guān)鍵幾幀，算力減半，畫(huà)面反而更穩(wěn)。就像攝影師只追焦主角，背景再亂也不影響鏡頭清晰度。

圖5：LongLive提出的Shift Window策略極致的加速生成和降低算力消耗
三招齊下，才能讓你「邊聊邊拍」240 秒依舊不崩、不跳、不重來(lái)，這才是 LongLive敢把「交互式長(zhǎng)視頻」做成「打字速度」的大秘訣。
LongLive把「寫(xiě)一句話」變成「拍一部大片」，長(zhǎng)視頻一鏡到底、隨時(shí)改戲、立等可取——從此，長(zhǎng)視頻不再是專業(yè)團(tuán)隊(duì)的專利，而是每個(gè)人隨手可得的創(chuàng)意游樂(lè)場(chǎng)。
真正的交互式視覺(jué)時(shí)代已悄然開(kāi)啟，AI的每個(gè)靈感都值得被實(shí)時(shí)看見(jiàn)，被長(zhǎng)久記住。
參考資料：
https://arxiv.org/abs/2509.22622

免責(zé)聲明：本網(wǎng)信息來(lái)自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

一屏多用：華為Mate X7 / XTs折疊屏手機(jī)“變身”智能手卡

美國(guó)一法院放行馬斯克原560億美元薪酬方案

京東七鮮石家莊首店開(kāi)業(yè)爆火，現(xiàn)烤花邊蛋撻單日售出超1萬(wàn)只！

「AI新世代」沖刺“全球大模型第一股”！智譜叩開(kāi)港股大門，大模型“淘金熱”進(jìn)入資本成色檢驗(yàn)時(shí)刻

歐洲刑警組織最新設(shè)想：2035年有可能爆發(fā)“機(jī)器人犯罪潮”

高德上線3D收費(fèi)站：全國(guó)164城全覆蓋，安全島輪廓精準(zhǔn)還原

全站最新

一屏多用：華為Mate X7 / XTs折疊屏手機(jī)“變身”智能手卡

美國(guó)一法院放行馬斯克原560億美元薪酬方案

京東七鮮石家莊首店開(kāi)業(yè)爆火，現(xiàn)烤花邊蛋撻單日售出超1萬(wàn)只！

「AI新世代」沖刺“全球大模型第一股”！智譜叩開(kāi)港股大門，大模型“淘金熱”進(jìn)入資本成色檢驗(yàn)時(shí)刻

熱門推薦

一屏多用：華為Mate X7 / XTs折疊屏手機(jī)“變身”智能手卡

美國(guó)一法院放行馬斯克原560億美元薪酬方案

京東七鮮石家莊首店開(kāi)業(yè)爆火，現(xiàn)烤花邊蛋撻單日售出超1萬(wàn)只！

「AI新世代」沖刺“全球大模型第一股”！智譜叩開(kāi)港股大門，大模型“淘金熱”進(jìn)入資本成色檢驗(yàn)時(shí)刻

歐洲刑警組織最新設(shè)想：2035年有可能爆發(fā)“機(jī)器人犯罪潮”

高德上線3D收費(fèi)站：全國(guó)164城全覆蓋，安全島輪廓精準(zhǔn)還原

廣汽能源：本月將推出機(jī)械臂式自動(dòng)充電，明年兆瓦超充陸續(xù)落地

事關(guān)互聯(lián)網(wǎng)平臺(tái)定價(jià)促銷等行為，新規(guī)更好保護(hù)消費(fèi)者和經(jīng)營(yíng)者

OPPO Reno 15 Pro Mini參數(shù)曝光：天璣8450+1.5K高刷小直屏

Ubiquant團(tuán)隊(duì)推出通用推理模型URM：讓AI像人類一樣循環(huán)思考

沒(méi)受輿論影響！俞敏洪曬東方甄選年會(huì)現(xiàn)場(chǎng)視頻，網(wǎng)友炸鍋了

小米HyperVL：讓手機(jī)也能擁有"火眼金睛"的AI大模型

清華大學(xué)開(kāi)創(chuàng)性突破：讓AI能像福爾摩斯一樣"破解"假視頻的秘密

合肥工業(yè)大學(xué)團(tuán)隊(duì)首創(chuàng)TIMAR：3D虛擬人實(shí)現(xiàn)真實(shí)對(duì)話交互

維也納大學(xué)團(tuán)隊(duì)破解超雙曲幾何在強(qiáng)化學(xué)習(xí)中的訓(xùn)練難題