![]()
這篇由meta FAIR實(shí)驗(yàn)室的韓曉創(chuàng)團(tuán)隊(duì)發(fā)表的研究論文,在2025年12月刊載于arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2512.05103v1),首次展示了一個(gè)能夠"邊思考邊生成"的視頻生成模型。有興趣深入了解的讀者可以通過該論文編號(hào)查詢完整論文。
我們都知道,人類在做決定的時(shí)候,往往會(huì)先在腦海中想一想,然后再付諸行動(dòng)。現(xiàn)在,人工智能也學(xué)會(huì)了這種思考模式。meta的研究團(tuán)隊(duì)開發(fā)了一個(gè)名為TV2TV的視頻生成模型,它的獨(dú)特之處在于能夠一邊用文字"思考"接下來應(yīng)該發(fā)生什么,一邊生成相應(yīng)的視頻畫面。這就好比一位導(dǎo)演在拍攝時(shí),一邊構(gòu)思劇情發(fā)展,一邊指揮攝像機(jī)拍攝。
傳統(tǒng)的視頻生成模型就像是一個(gè)只會(huì)機(jī)械工作的攝像師,只能根據(jù)初始指令直接生成視頻,常常在復(fù)雜場景中出現(xiàn)邏輯混亂。而TV2TV就像是一個(gè)智慧的導(dǎo)演,它會(huì)在生成過程中暫停下來思考:"接下來應(yīng)該發(fā)生什么?"然后用文字描述自己的想法,最后再生成對(duì)應(yīng)的視頻片段。這種交替進(jìn)行的"思考-行動(dòng)"模式,讓生成的視頻質(zhì)量和邏輯性都有了顯著提升。
在實(shí)際測試中,TV2TV在游戲視頻生成方面表現(xiàn)尤為出色,在人工評(píng)估中獲得了91%的好評(píng)率,遠(yuǎn)超傳統(tǒng)模型。更重要的是,這個(gè)模型具備了前所未有的可控性——用戶可以在視頻生成的任何時(shí)刻插入新的指令,就像在電影拍攝中隨時(shí)調(diào)整劇本一樣。研究團(tuán)隊(duì)還將這種技術(shù)擴(kuò)展到了真實(shí)世界的體育視頻生成,證明了其廣泛的應(yīng)用潛力。
一、從"直接拍攝"到"邊想邊拍"的技術(shù)革命
當(dāng)你用手機(jī)錄制視頻時(shí),通常是看到什么就拍什么,這種直接的拍攝方式雖然簡單,但很難拍出有邏輯性的精彩內(nèi)容。現(xiàn)在的大部分視頻生成模型也是這樣工作的——給它一個(gè)描述,它就直接生成視頻,就像一臺(tái)只會(huì)按指令工作的自動(dòng)攝像機(jī)。
但是,如果你想拍攝一個(gè)完整的故事,比如一場足球比賽的精彩片段,你需要的不僅僅是技術(shù),更需要思考和規(guī)劃。你需要預(yù)先想好:"先拍球員帶球的鏡頭,然后切換到射門的特寫,最后展現(xiàn)進(jìn)球后的慶祝場面。"這種"先思考,再執(zhí)行"的方式,正是TV2TV模型的核心創(chuàng)新。
TV2TV采用了一種全新的"Transfusion"架構(gòu),這個(gè)名字聽起來很高深,實(shí)際上可以理解為"文字思維和視覺創(chuàng)作的融合器"。它就像是在一個(gè)大腦中同時(shí)擁有了文字思考區(qū)域和視覺創(chuàng)作區(qū)域,兩個(gè)區(qū)域可以實(shí)時(shí)交流合作。當(dāng)需要生成視頻時(shí),文字思考區(qū)域先分析情況,提出想法,然后視覺創(chuàng)作區(qū)域根據(jù)這些文字指導(dǎo)生成相應(yīng)的畫面。
這種設(shè)計(jì)的巧妙之處在于充分利用了語言的力量。我們知道,語言是人類思維的重要工具,能夠幫助我們理清復(fù)雜的邏輯關(guān)系。TV2TV讓計(jì)算機(jī)也學(xué)會(huì)了用語言來"思考"視頻內(nèi)容,這樣就能處理更加復(fù)雜和有邏輯性的視頻生成任務(wù)。
研究團(tuán)隊(duì)采用了"混合變換器"(Mixture-of-Transformers)架構(gòu),這聽起來很專業(yè),但可以想象成一個(gè)有兩個(gè)專門部門的工作室。一個(gè)部門專門負(fù)責(zé)文字創(chuàng)作(就像編劇部門),另一個(gè)部門專門負(fù)責(zé)視覺制作(就像攝影部門)。這兩個(gè)部門雖然各有專長,但可以隨時(shí)溝通協(xié)調(diào),確保最終作品的質(zhì)量。
為了讓模型真正學(xué)會(huì)這種"邊想邊做"的能力,研究團(tuán)隊(duì)設(shè)計(jì)了一套特殊的訓(xùn)練方法。他們將文字描述和視頻片段按時(shí)間順序交替排列,就像制作一本圖文并茂的故事書,讓模型學(xué)習(xí)如何在文字思考和視覺創(chuàng)作之間自然切換。
二、用游戲世界驗(yàn)證"智能導(dǎo)演"的能力
為了測試TV2TV的實(shí)際效果,研究團(tuán)隊(duì)選擇了一個(gè)絕佳的試驗(yàn)場——《反恐精英:全球攻勢》(CS:GO)游戲世界。選擇游戲世界并非偶然,因?yàn)橛螒蛱峁┝艘粋€(gè)完美的對(duì)照環(huán)境:每一個(gè)操作動(dòng)作都有明確的記錄,每一個(gè)畫面變化都有清晰的因果關(guān)系。
在游戲中,玩家的每一次鼠標(biāo)點(diǎn)擊、鍵盤按鍵都會(huì)被記錄下來,比如"向左移動(dòng)"、"開火"、"裝彈"等等。這些操作記錄就像是詳細(xì)的劇本,準(zhǔn)確描述了每一刻應(yīng)該發(fā)生什么。研究團(tuán)隊(duì)將這些操作記錄轉(zhuǎn)換成文字描述,然后配上對(duì)應(yīng)的游戲畫面,制作成訓(xùn)練數(shù)據(jù)。
這就好比制作一本詳細(xì)的導(dǎo)演手冊(cè),左頁寫著"主角向左轉(zhuǎn)身,舉起武器瞄準(zhǔn)",右頁就是對(duì)應(yīng)的游戲畫面。TV2TV通過學(xué)習(xí)這樣的對(duì)應(yīng)關(guān)系,逐漸掌握了如何根據(jù)文字描述生成準(zhǔn)確的游戲視頻。
為了驗(yàn)證TV2TV的優(yōu)勢,研究團(tuán)隊(duì)設(shè)計(jì)了兩個(gè)對(duì)照實(shí)驗(yàn)。第一個(gè)是傳統(tǒng)的"直接生成"模型(T2V),它就像一個(gè)只會(huì)按初始指令工作的攝像師,給出任務(wù)后就直接開始拍攝,中間不會(huì)停下來思考。第二個(gè)是"先想后做"模型(Think2V),它會(huì)在開始前制定一個(gè)完整的計(jì)劃,然后按計(jì)劃執(zhí)行,但中途無法調(diào)整。
測試結(jié)果令人驚喜。在視覺質(zhì)量的對(duì)比中,TV2TV獲得了壓倒性優(yōu)勢,在短視頻測試中戰(zhàn)勝T2V的比例高達(dá)91%,在長視頻測試中表現(xiàn)更加出色。這就像是比較三個(gè)不同的導(dǎo)演拍攝同一個(gè)場景,有經(jīng)驗(yàn)的觀眾很容易就能看出哪個(gè)導(dǎo)演更專業(yè)。
更令人印象深刻的是TV2TV在可控性方面的表現(xiàn)。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的測試:在視頻生成過程中突然插入新指令,比如"向后移動(dòng)"、"射擊"、"跳躍"、"裝彈"等。結(jié)果顯示,TV2TV能夠準(zhǔn)確執(zhí)行78%的臨時(shí)指令,而對(duì)照模型只能達(dá)到59%。這就好比在拍攝過程中,導(dǎo)演突然喊"停!重新來一遍,這次加個(gè)特寫鏡頭",專業(yè)的攝制組能夠快速響應(yīng)并調(diào)整。
三、從虛擬游戲到真實(shí)世界的技術(shù)跨越
游戲世界雖然是一個(gè)很好的測試環(huán)境,但真正的挑戰(zhàn)在于將技術(shù)應(yīng)用到現(xiàn)實(shí)世界。現(xiàn)實(shí)世界的視頻沒有現(xiàn)成的"操作記錄",沒有人會(huì)為每個(gè)體育比賽編寫詳細(xì)的動(dòng)作腳本。面對(duì)這個(gè)挑戰(zhàn),研究團(tuán)隊(duì)開發(fā)了一套創(chuàng)新的數(shù)據(jù)制作流水線。
這個(gè)流水線就像是一個(gè)智能的視頻解說員制作工廠。首先,它會(huì)觀看體育視頻,識(shí)別出其中的精彩片段,就像一個(gè)經(jīng)驗(yàn)豐富的體育編輯在篩選高光時(shí)刻。然后,它會(huì)將這些片段分解成更小的段落,每個(gè)段落大約1-2秒鐘,確保每個(gè)段落都包含一個(gè)相對(duì)獨(dú)立的動(dòng)作或事件。
接下來是最關(guān)鍵的步驟:為每個(gè)視頻段落生成文字描述。研究團(tuán)隊(duì)使用了最先進(jìn)的視覺語言模型Qwen3-VL,這就像雇傭了一個(gè)專業(yè)的體育解說員。這個(gè)"解說員"會(huì)仔細(xì)觀察每個(gè)片段,然后用準(zhǔn)確的語言描述發(fā)生的事情。比如,"穿白色球衣的球員帶球向前沖,繞過了一名紅衣防守隊(duì)員",或者"守門員向左側(cè)撲救,試圖阻止射門"。
為了確保數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)還設(shè)計(jì)了多層過濾機(jī)制。他們使用了面部識(shí)別技術(shù)來排除那些主要是人物說話的視頻片段,因?yàn)檫@類視頻缺乏有意義的動(dòng)作內(nèi)容。他們還分析了視頻的運(yùn)動(dòng)強(qiáng)度,排除那些畫面靜止或運(yùn)動(dòng)幅度很小的片段。最后,他們甚至訓(xùn)練了一個(gè)專門的質(zhì)量評(píng)估模型來為視頻打分,只保留高質(zhì)量的內(nèi)容。
經(jīng)過這套嚴(yán)格的流水線處理,研究團(tuán)隊(duì)最終獲得了8000小時(shí)的高質(zhì)量體育視頻訓(xùn)練數(shù)據(jù)。這些數(shù)據(jù)就像是一本巨大的體育百科全書,詳細(xì)記錄了各種運(yùn)動(dòng)中的精彩瞬間和對(duì)應(yīng)的文字描述。
四、真實(shí)世界測試中的驚喜表現(xiàn)
當(dāng)TV2TV在真實(shí)體育視頻上進(jìn)行訓(xùn)練后,研究團(tuán)隊(duì)迫不及待地想知道它在現(xiàn)實(shí)世界中的表現(xiàn)如何。他們?cè)O(shè)計(jì)了一系列測試,將TV2TV與業(yè)界知名的視頻生成模型進(jìn)行了正面對(duì)比。
參與比較的模型包括了Cosmos-Predict2、MAGI-1、WAN-2.2等多個(gè)先進(jìn)模型,這些都是在視頻生成領(lǐng)域享有盛譽(yù)的"明星"產(chǎn)品。測試方法很直接:給每個(gè)模型相同的起始畫面和文字描述,讓它們分別生成視頻,然后請(qǐng)專業(yè)評(píng)估員進(jìn)行盲測評(píng)價(jià)。
評(píng)估員需要從四個(gè)維度對(duì)視頻進(jìn)行評(píng)分:內(nèi)容對(duì)齊度(生成的視頻是否符合文字描述)、視覺質(zhì)量(畫面是否清晰流暢)、真實(shí)度(是否符合現(xiàn)實(shí)世界的物理規(guī)律)、整體偏好(綜合評(píng)價(jià)更喜歡哪個(gè))。這就像是請(qǐng)美食評(píng)委品嘗不同廚師做的同一道菜,從色、香、味、形等多個(gè)角度進(jìn)行專業(yè)評(píng)判。
測試結(jié)果令人振奮。在內(nèi)容對(duì)齊度方面,TV2TV在與大部分競爭對(duì)手的對(duì)比中都占據(jù)優(yōu)勢,顯示出它在理解和執(zhí)行指令方面的強(qiáng)大能力。在真實(shí)度評(píng)測中,TV2TV幾乎在所有對(duì)比中都表現(xiàn)最佳,這意味著它生成的視頻更符合現(xiàn)實(shí)世界的運(yùn)動(dòng)規(guī)律。
最引人注目的是整體偏好評(píng)分。在與傳統(tǒng)T2V模型的對(duì)比中,TV2TV獲得了54%的支持率,而對(duì)手只有35%。在與Think2V模型的比較中,TV2TV獲得了53%的支持率,對(duì)手為41%。雖然優(yōu)勢不如在游戲數(shù)據(jù)上那么明顯,但考慮到真實(shí)世界數(shù)據(jù)的復(fù)雜性和挑戰(zhàn)性,這樣的結(jié)果已經(jīng)相當(dāng)令人滿意。
研究團(tuán)隊(duì)還展示了一些生成的視頻案例,比如足球比賽中球員運(yùn)球射門的完整過程,舉重運(yùn)動(dòng)員完成抓舉動(dòng)作的流暢表現(xiàn),以及沖浪者在海浪中展示技巧的精彩瞬間。每個(gè)視頻都配有詳細(xì)的文字解說,展現(xiàn)了TV2TV在處理復(fù)雜動(dòng)作序列時(shí)的出色能力。
五、用戶可控性:隨時(shí)調(diào)整的視頻創(chuàng)作體驗(yàn)
TV2TV最令人興奮的特性之一,就是它提供的前所未有的用戶控制能力。傳統(tǒng)的視頻生成就像是點(diǎn)一份外賣,你只能在下單時(shí)說明要求,一旦開始制作就無法更改。而TV2TV就像是在一個(gè)開放式廚房里與大廚互動(dòng),你可以隨時(shí)提出建議和修改。
這種控制能力的實(shí)現(xiàn)原理其實(shí)很巧妙。由于TV2TV在生成過程中會(huì)自動(dòng)產(chǎn)生文字描述,用戶就可以在任何時(shí)刻查看這些"內(nèi)心獨(dú)白",了解模型接下來打算做什么。如果用戶不滿意,可以直接修改這些文字描述,模型就會(huì)根據(jù)新的描述調(diào)整后續(xù)的視頻內(nèi)容。
研究團(tuán)隊(duì)展示了幾個(gè)有趣的控制案例。在一個(gè)高爾夫視頻中,模型原本計(jì)劃讓球手完成揮桿后鏡頭跟隨球的軌跡,但用戶在中途插入指令,要求鏡頭轉(zhuǎn)向追蹤球的飛行路徑。結(jié)果顯示,TV2TV能夠流暢地執(zhí)行這個(gè)臨時(shí)變更,生成的視頻就像是由專業(yè)攝影師重新規(guī)劃的鏡頭運(yùn)動(dòng)。
在另一個(gè)足球視頻案例中,模型最初生成了一個(gè)球員帶球向前的場景,但用戶突然想要展現(xiàn)防守場面,于是插入了"紅衣球員攔截皮球"的指令。TV2TV立即調(diào)整了劇情發(fā)展,生成了一個(gè)精彩的攔截動(dòng)作,整個(gè)過程毫無違和感。
這種控制能力為視頻創(chuàng)作開辟了全新的可能性。內(nèi)容創(chuàng)作者可以先讓模型生成一個(gè)基礎(chǔ)版本,然后根據(jù)需要進(jìn)行精細(xì)調(diào)整,就像使用一個(gè)智能的視頻編輯助手。教育工作者可以根據(jù)學(xué)生的反應(yīng)隨時(shí)調(diào)整教學(xué)視頻的內(nèi)容,讓課程更加生動(dòng)有趣。
更重要的是,這種交互式的創(chuàng)作過程大大降低了專業(yè)視頻制作的門檻。以前制作一個(gè)高質(zhì)量的解說視頻需要專業(yè)團(tuán)隊(duì)和昂貴設(shè)備,現(xiàn)在普通用戶只需要用自然語言描述自己的想法,就能獲得專業(yè)級(jí)的視頻內(nèi)容。
六、技術(shù)架構(gòu):文字大腦與視覺大腦的完美協(xié)作
要理解TV2TV為什么如此強(qiáng)大,我們需要深入了解它的"內(nèi)部構(gòu)造"。如果把傳統(tǒng)的視頻生成模型比作單一功能的機(jī)器,那么TV2TV就像是一個(gè)配備了兩個(gè)專業(yè)大腦的智能系統(tǒng)。
第一個(gè)大腦專門負(fù)責(zé)文字思維,它基于著名的Llama語言模型構(gòu)建,就像是雇傭了一位經(jīng)驗(yàn)豐富的編劇。這個(gè)"編劇大腦"擅長理解復(fù)雜的語言指令,能夠進(jìn)行邏輯推理,規(guī)劃故事發(fā)展,甚至可以創(chuàng)造性地填補(bǔ)情節(jié)空缺。
第二個(gè)大腦專門負(fù)責(zé)視覺創(chuàng)作,它采用了最新的視頻生成技術(shù),就像是一位技藝精湛的動(dòng)畫師。這個(gè)"動(dòng)畫師大腦"能夠?qū)⒊橄蟮奈淖置枋鲛D(zhuǎn)換成生動(dòng)的視覺畫面,處理復(fù)雜的運(yùn)動(dòng)軌跡,維持畫面的連貫性和真實(shí)感。
兩個(gè)大腦之間通過一個(gè)巧妙的"全局注意力機(jī)制"進(jìn)行實(shí)時(shí)溝通。這就像是在編劇和動(dòng)畫師之間建立了一條高速的信息通道,編劇可以隨時(shí)了解動(dòng)畫制作的進(jìn)度,動(dòng)畫師也可以及時(shí)獲得劇情的最新發(fā)展。這種緊密協(xié)作確保了最終作品的質(zhì)量和一致性。
在技術(shù)實(shí)現(xiàn)上,TV2TV使用了一種叫做"流匹配"的方法來生成視頻幀。這聽起來很復(fù)雜,但可以想象成一個(gè)漸進(jìn)式的雕刻過程。模型從一塊"噪聲原料"開始,逐步雕琢出清晰的畫面,就像雕塑家從粗糙的石塊中逐漸雕出精美的藝術(shù)品。
為了讓模型學(xué)會(huì)這種協(xié)作模式,研究團(tuán)隊(duì)設(shè)計(jì)了一套特殊的訓(xùn)練策略。他們將訓(xùn)練數(shù)據(jù)組織成"文字-視頻"的交替序列,就像制作一本詳細(xì)的分鏡頭腳本。模型需要學(xué)習(xí)如何在看到文字描述時(shí)生成對(duì)應(yīng)的視頻,同時(shí)也要學(xué)會(huì)在生成視頻時(shí)產(chǎn)生合適的文字解說。
這種訓(xùn)練方式的巧妙之處在于創(chuàng)造了一個(gè)自我強(qiáng)化的循環(huán)。文字描述幫助模型更好地理解視頻內(nèi)容,而視頻生成過程又反過來提高了模型的語言理解能力。經(jīng)過大量訓(xùn)練后,兩個(gè)大腦達(dá)到了完美的同步,就像是一對(duì)默契的舞蹈搭檔。
七、從實(shí)驗(yàn)室到應(yīng)用:廣闊的前景展望
TV2TV的成功不僅僅是一個(gè)技術(shù)突破,更重要的是它為視頻生成領(lǐng)域開辟了一條全新的發(fā)展道路。這種"思考-行動(dòng)"的模式可能會(huì)成為未來人工智能系統(tǒng)的標(biāo)準(zhǔn)配置,就像今天的智能手機(jī)都配備了攝像頭和觸屏一樣。
在教育領(lǐng)域,TV2TV可能會(huì)revolutionize在線學(xué)習(xí)體驗(yàn)。老師可以用簡單的文字描述創(chuàng)建動(dòng)態(tài)的教學(xué)視頻,學(xué)生可以根據(jù)自己的理解水平調(diào)整內(nèi)容的復(fù)雜度。復(fù)雜的科學(xué)概念、歷史事件、文學(xué)場景都可以通過生動(dòng)的視頻來展現(xiàn),讓學(xué)習(xí)變得更加直觀有趣。
在娛樂產(chǎn)業(yè),這項(xiàng)技術(shù)可能會(huì)改變內(nèi)容創(chuàng)作的模式。小型工作室甚至個(gè)人創(chuàng)作者都能制作出高質(zhì)量的動(dòng)畫和電影,創(chuàng)作門檻的降低將釋放更多的創(chuàng)意潛能。觀眾也可能參與到內(nèi)容創(chuàng)作中,通過文字指令實(shí)時(shí)調(diào)整劇情發(fā)展,創(chuàng)造出真正的互動(dòng)式娛樂體驗(yàn)。
在商業(yè)應(yīng)用方面,TV2TV為廣告制作、產(chǎn)品演示、培訓(xùn)視頻等領(lǐng)域提供了新的解決方案。企業(yè)可以快速制作定制化的宣傳內(nèi)容,根據(jù)不同的目標(biāo)受眾調(diào)整視頻的風(fēng)格和重點(diǎn)。這不僅能夠大幅降低制作成本,還能提高內(nèi)容的針對(duì)性和效果。
更遠(yuǎn)的未來,這種技術(shù)可能會(huì)與虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)技術(shù)結(jié)合,創(chuàng)造出更加沉浸式的體驗(yàn)。用戶可以用自然語言描述想要探索的虛擬世界,系統(tǒng)會(huì)實(shí)時(shí)生成相應(yīng)的環(huán)境和情節(jié),實(shí)現(xiàn)真正的"想象即現(xiàn)實(shí)"。
當(dāng)然,技術(shù)的發(fā)展也帶來了一些需要關(guān)注的問題。如何確保生成內(nèi)容的真實(shí)性和準(zhǔn)確性,如何防止技術(shù)被濫用于虛假信息傳播,如何保護(hù)創(chuàng)作者的知識(shí)產(chǎn)權(quán),這些都是需要在技術(shù)推廣過程中謹(jǐn)慎考慮的問題。
研究團(tuán)隊(duì)在論文中也坦誠地討論了當(dāng)前技術(shù)的局限性。雖然TV2TV在可控性和質(zhì)量方面有了顯著提升,但在處理某些復(fù)雜場景時(shí)仍然存在挑戰(zhàn)。特別是在真實(shí)世界數(shù)據(jù)上的表現(xiàn),雖然已經(jīng)相當(dāng)不錯(cuò),但與在游戲數(shù)據(jù)上的表現(xiàn)相比仍有差距。
展望未來,研究團(tuán)隊(duì)計(jì)劃在幾個(gè)方向上繼續(xù)改進(jìn)。首先是提高文字描述的質(zhì)量和密度,讓模型能夠獲得更加詳細(xì)和準(zhǔn)確的指導(dǎo)信息。其次是擴(kuò)展到更多的視頻類型和場景,不僅僅局限于游戲和體育,還要覆蓋日常生活、自然風(fēng)光、科學(xué)實(shí)驗(yàn)等各個(gè)領(lǐng)域。
說到底,TV2TV代表的不僅僅是一個(gè)技術(shù)進(jìn)步,更是人工智能向著更加智能、更加人性化方向發(fā)展的重要里程碑。它讓我們看到了一種可能:未來的人工智能不再是冷冰冰的工具,而是能夠思考、能夠創(chuàng)作、能夠與人類協(xié)作的智能伙伴。雖然我們現(xiàn)在看到的只是這個(gè)宏大愿景的一小部分,但正如所有偉大的發(fā)明一樣,今天的小小突破可能就是明天變革世界的起點(diǎn)。
Q&A
Q1:TV2TV模型是如何實(shí)現(xiàn)邊思考邊生成視頻的?
A:TV2TV采用了"文字大腦"和"視覺大腦"協(xié)作的架構(gòu)。在生成視頻時(shí),文字大腦先分析情況并用語言描述接下來應(yīng)該發(fā)生什么,然后視覺大腦根據(jù)這些文字指導(dǎo)生成對(duì)應(yīng)的畫面。這種交替進(jìn)行的"思考-行動(dòng)"模式讓視頻生成更有邏輯性,就像一個(gè)導(dǎo)演在拍攝時(shí)一邊構(gòu)思劇情一邊指揮攝像。
Q2:TV2TV在測試中的表現(xiàn)有多好?
A:在游戲視頻生成測試中,TV2TV在人工評(píng)估中獲得了91%的好評(píng)率,遠(yuǎn)超傳統(tǒng)模型。在可控性測試中,TV2TV能夠準(zhǔn)確執(zhí)行78%的臨時(shí)指令修改,而對(duì)照模型只能達(dá)到59%。在真實(shí)體育視頻生成中,TV2TV也在多項(xiàng)指標(biāo)上優(yōu)于現(xiàn)有的先進(jìn)模型。
Q3:普通用戶能否使用TV2TV技術(shù)制作視頻?
A:目前TV2TV還是研究階段的技術(shù),但它展現(xiàn)的可控性讓普通用戶參與視頻創(chuàng)作成為可能。用戶可以用自然語言描述想要的內(nèi)容,還能在生成過程中隨時(shí)插入新指令來調(diào)整視頻內(nèi)容。這大大降低了專業(yè)視頻制作的門檻,未來可能讓每個(gè)人都能制作高質(zhì)量的視頻內(nèi)容。





京公網(wǎng)安備 11011402013531號(hào)