當(dāng)前位置：首頁 ? 資訊 ? 新科技 ? 正文

人工智能學(xué)會(huì)看視頻做決策！Meta推出能邊思考邊生成的TV2TV模型

IP屬地中國·北京 科技行者 時(shí)間：2025-12-11 18:21:33

這篇由meta FAIR實(shí)驗(yàn)室的韓曉創(chuàng)團(tuán)隊(duì)發(fā)表的研究論文，在2025年12月刊載于arXiv預(yù)印本平臺(tái)（論文編號(hào)：arXiv:2512.05103v1），首次展示了一個(gè)能夠"邊思考邊生成"的視頻生成模型。有興趣深入了解的讀者可以通過該論文編號(hào)查詢完整論文。
我們都知道，人類在做決定的時(shí)候，往往會(huì)先在腦海中想一想，然后再付諸行動(dòng)。現(xiàn)在，人工智能也學(xué)會(huì)了這種思考模式。meta的研究團(tuán)隊(duì)開發(fā)了一個(gè)名為TV2TV的視頻生成模型，它的獨(dú)特之處在于能夠一邊用文字"思考"接下來應(yīng)該發(fā)生什么，一邊生成相應(yīng)的視頻畫面。這就好比一位導(dǎo)演在拍攝時(shí)，一邊構(gòu)思劇情發(fā)展，一邊指揮攝像機(jī)拍攝。
傳統(tǒng)的視頻生成模型就像是一個(gè)只會(huì)機(jī)械工作的攝像師，只能根據(jù)初始指令直接生成視頻，常常在復(fù)雜場景中出現(xiàn)邏輯混亂。而TV2TV就像是一個(gè)智慧的導(dǎo)演，它會(huì)在生成過程中暫停下來思考："接下來應(yīng)該發(fā)生什么？"然后用文字描述自己的想法，最后再生成對(duì)應(yīng)的視頻片段。這種交替進(jìn)行的"思考-行動(dòng)"模式，讓生成的視頻質(zhì)量和邏輯性都有了顯著提升。
在實(shí)際測試中，TV2TV在游戲視頻生成方面表現(xiàn)尤為出色，在人工評(píng)估中獲得了91%的好評(píng)率，遠(yuǎn)超傳統(tǒng)模型。更重要的是，這個(gè)模型具備了前所未有的可控性——用戶可以在視頻生成的任何時(shí)刻插入新的指令，就像在電影拍攝中隨時(shí)調(diào)整劇本一樣。研究團(tuán)隊(duì)還將這種技術(shù)擴(kuò)展到了真實(shí)世界的體育視頻生成，證明了其廣泛的應(yīng)用潛力。
一、從"直接拍攝"到"邊想邊拍"的技術(shù)革命
當(dāng)你用手機(jī)錄制視頻時(shí)，通常是看到什么就拍什么，這種直接的拍攝方式雖然簡單，但很難拍出有邏輯性的精彩內(nèi)容。現(xiàn)在的大部分視頻生成模型也是這樣工作的——給它一個(gè)描述，它就直接生成視頻，就像一臺(tái)只會(huì)按指令工作的自動(dòng)攝像機(jī)。
但是，如果你想拍攝一個(gè)完整的故事，比如一場足球比賽的精彩片段，你需要的不僅僅是技術(shù)，更需要思考和規(guī)劃。你需要預(yù)先想好："先拍球員帶球的鏡頭，然后切換到射門的特寫，最后展現(xiàn)進(jìn)球后的慶祝場面。"這種"先思考，再執(zhí)行"的方式，正是TV2TV模型的核心創(chuàng)新。
TV2TV采用了一種全新的"Transfusion"架構(gòu)，這個(gè)名字聽起來很高深，實(shí)際上可以理解為"文字思維和視覺創(chuàng)作的融合器"。它就像是在一個(gè)大腦中同時(shí)擁有了文字思考區(qū)域和視覺創(chuàng)作區(qū)域，兩個(gè)區(qū)域可以實(shí)時(shí)交流合作。當(dāng)需要生成視頻時(shí)，文字思考區(qū)域先分析情況，提出想法，然后視覺創(chuàng)作區(qū)域根據(jù)這些文字指導(dǎo)生成相應(yīng)的畫面。
這種設(shè)計(jì)的巧妙之處在于充分利用了語言的力量。我們知道，語言是人類思維的重要工具，能夠幫助我們理清復(fù)雜的邏輯關(guān)系。TV2TV讓計(jì)算機(jī)也學(xué)會(huì)了用語言來"思考"視頻內(nèi)容，這樣就能處理更加復(fù)雜和有邏輯性的視頻生成任務(wù)。
研究團(tuán)隊(duì)采用了"混合變換器"（Mixture-of-Transformers）架構(gòu)，這聽起來很專業(yè)，但可以想象成一個(gè)有兩個(gè)專門部門的工作室。一個(gè)部門專門負(fù)責(zé)文字創(chuàng)作（就像編劇部門），另一個(gè)部門專門負(fù)責(zé)視覺制作（就像攝影部門）。這兩個(gè)部門雖然各有專長，但可以隨時(shí)溝通協(xié)調(diào)，確保最終作品的質(zhì)量。
為了讓模型真正學(xué)會(huì)這種"邊想邊做"的能力，研究團(tuán)隊(duì)設(shè)計(jì)了一套特殊的訓(xùn)練方法。他們將文字描述和視頻片段按時(shí)間順序交替排列，就像制作一本圖文并茂的故事書，讓模型學(xué)習(xí)如何在文字思考和視覺創(chuàng)作之間自然切換。
二、用游戲世界驗(yàn)證"智能導(dǎo)演"的能力
為了測試TV2TV的實(shí)際效果，研究團(tuán)隊(duì)選擇了一個(gè)絕佳的試驗(yàn)場——《反恐精英：全球攻勢》（CS:GO）游戲世界。選擇游戲世界并非偶然，因?yàn)橛螒蛱峁┝艘粋€(gè)完美的對(duì)照環(huán)境：每一個(gè)操作動(dòng)作都有明確的記錄，每一個(gè)畫面變化都有清晰的因果關(guān)系。
在游戲中，玩家的每一次鼠標(biāo)點(diǎn)擊、鍵盤按鍵都會(huì)被記錄下來，比如"向左移動(dòng)"、"開火"、"裝彈"等等。這些操作記錄就像是詳細(xì)的劇本，準(zhǔn)確描述了每一刻應(yīng)該發(fā)生什么。研究團(tuán)隊(duì)將這些操作記錄轉(zhuǎn)換成文字描述，然后配上對(duì)應(yīng)的游戲畫面，制作成訓(xùn)練數(shù)據(jù)。
這就好比制作一本詳細(xì)的導(dǎo)演手冊(cè)，左頁寫著"主角向左轉(zhuǎn)身，舉起武器瞄準(zhǔn)"，右頁就是對(duì)應(yīng)的游戲畫面。TV2TV通過學(xué)習(xí)這樣的對(duì)應(yīng)關(guān)系，逐漸掌握了如何根據(jù)文字描述生成準(zhǔn)確的游戲視頻。
為了驗(yàn)證TV2TV的優(yōu)勢，研究團(tuán)隊(duì)設(shè)計(jì)了兩個(gè)對(duì)照實(shí)驗(yàn)。第一個(gè)是傳統(tǒng)的"直接生成"模型（T2V），它就像一個(gè)只會(huì)按初始指令工作的攝像師，給出任務(wù)后就直接開始拍攝，中間不會(huì)停下來思考。第二個(gè)是"先想后做"模型（Think2V），它會(huì)在開始前制定一個(gè)完整的計(jì)劃，然后按計(jì)劃執(zhí)行，但中途無法調(diào)整。
測試結(jié)果令人驚喜。在視覺質(zhì)量的對(duì)比中，TV2TV獲得了壓倒性優(yōu)勢，在短視頻測試中戰(zhàn)勝T2V的比例高達(dá)91%，在長視頻測試中表現(xiàn)更加出色。這就像是比較三個(gè)不同的導(dǎo)演拍攝同一個(gè)場景，有經(jīng)驗(yàn)的觀眾很容易就能看出哪個(gè)導(dǎo)演更專業(yè)。
更令人印象深刻的是TV2TV在可控性方面的表現(xiàn)。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的測試：在視頻生成過程中突然插入新指令，比如"向后移動(dòng)"、"射擊"、"跳躍"、"裝彈"等。結(jié)果顯示，TV2TV能夠準(zhǔn)確執(zhí)行78%的臨時(shí)指令，而對(duì)照模型只能達(dá)到59%。這就好比在拍攝過程中，導(dǎo)演突然喊"停！重新來一遍，這次加個(gè)特寫鏡頭"，專業(yè)的攝制組能夠快速響應(yīng)并調(diào)整。
三、從虛擬游戲到真實(shí)世界的技術(shù)跨越
游戲世界雖然是一個(gè)很好的測試環(huán)境，但真正的挑戰(zhàn)在于將技術(shù)應(yīng)用到現(xiàn)實(shí)世界。現(xiàn)實(shí)世界的視頻沒有現(xiàn)成的"操作記錄"，沒有人會(huì)為每個(gè)體育比賽編寫詳細(xì)的動(dòng)作腳本。面對(duì)這個(gè)挑戰(zhàn)，研究團(tuán)隊(duì)開發(fā)了一套創(chuàng)新的數(shù)據(jù)制作流水線。
這個(gè)流水線就像是一個(gè)智能的視頻解說員制作工廠。首先，它會(huì)觀看體育視頻，識(shí)別出其中的精彩片段，就像一個(gè)經(jīng)驗(yàn)豐富的體育編輯在篩選高光時(shí)刻。然后，它會(huì)將這些片段分解成更小的段落，每個(gè)段落大約1-2秒鐘，確保每個(gè)段落都包含一個(gè)相對(duì)獨(dú)立的動(dòng)作或事件。
接下來是最關(guān)鍵的步驟：為每個(gè)視頻段落生成文字描述。研究團(tuán)隊(duì)使用了最先進(jìn)的視覺語言模型Qwen3-VL，這就像雇傭了一個(gè)專業(yè)的體育解說員。這個(gè)"解說員"會(huì)仔細(xì)觀察每個(gè)片段，然后用準(zhǔn)確的語言描述發(fā)生的事情。比如，"穿白色球衣的球員帶球向前沖，繞過了一名紅衣防守隊(duì)員"，或者"守門員向左側(cè)撲救，試圖阻止射門"。
為了確保數(shù)據(jù)質(zhì)量，研究團(tuán)隊(duì)還設(shè)計(jì)了多層過濾機(jī)制。他們使用了面部識(shí)別技術(shù)來排除那些主要是人物說話的視頻片段，因?yàn)檫@類視頻缺乏有意義的動(dòng)作內(nèi)容。他們還分析了視頻的運(yùn)動(dòng)強(qiáng)度，排除那些畫面靜止或運(yùn)動(dòng)幅度很小的片段。最后，他們甚至訓(xùn)練了一個(gè)專門的質(zhì)量評(píng)估模型來為視頻打分，只保留高質(zhì)量的內(nèi)容。
經(jīng)過這套嚴(yán)格的流水線處理，研究團(tuán)隊(duì)最終獲得了8000小時(shí)的高質(zhì)量體育視頻訓(xùn)練數(shù)據(jù)。這些數(shù)據(jù)就像是一本巨大的體育百科全書，詳細(xì)記錄了各種運(yùn)動(dòng)中的精彩瞬間和對(duì)應(yīng)的文字描述。
四、真實(shí)世界測試中的驚喜表現(xiàn)
當(dāng)TV2TV在真實(shí)體育視頻上進(jìn)行訓(xùn)練后，研究團(tuán)隊(duì)迫不及待地想知道它在現(xiàn)實(shí)世界中的表現(xiàn)如何。他們?cè)O(shè)計(jì)了一系列測試，將TV2TV與業(yè)界知名的視頻生成模型進(jìn)行了正面對(duì)比。
參與比較的模型包括了Cosmos-Predict2、MAGI-1、WAN-2.2等多個(gè)先進(jìn)模型，這些都是在視頻生成領(lǐng)域享有盛譽(yù)的"明星"產(chǎn)品。測試方法很直接：給每個(gè)模型相同的起始畫面和文字描述，讓它們分別生成視頻，然后請(qǐng)專業(yè)評(píng)估員進(jìn)行盲測評(píng)價(jià)。
評(píng)估員需要從四個(gè)維度對(duì)視頻進(jìn)行評(píng)分：內(nèi)容對(duì)齊度（生成的視頻是否符合文字描述）、視覺質(zhì)量（畫面是否清晰流暢）、真實(shí)度（是否符合現(xiàn)實(shí)世界的物理規(guī)律）、整體偏好（綜合評(píng)價(jià)更喜歡哪個(gè)）。這就像是請(qǐng)美食評(píng)委品嘗不同廚師做的同一道菜，從色、香、味、形等多個(gè)角度進(jìn)行專業(yè)評(píng)判。
測試結(jié)果令人振奮。在內(nèi)容對(duì)齊度方面，TV2TV在與大部分競爭對(duì)手的對(duì)比中都占據(jù)優(yōu)勢，顯示出它在理解和執(zhí)行指令方面的強(qiáng)大能力。在真實(shí)度評(píng)測中，TV2TV幾乎在所有對(duì)比中都表現(xiàn)最佳，這意味著它生成的視頻更符合現(xiàn)實(shí)世界的運(yùn)動(dòng)規(guī)律。
最引人注目的是整體偏好評(píng)分。在與傳統(tǒng)T2V模型的對(duì)比中，TV2TV獲得了54%的支持率，而對(duì)手只有35%。在與Think2V模型的比較中，TV2TV獲得了53%的支持率，對(duì)手為41%。雖然優(yōu)勢不如在游戲數(shù)據(jù)上那么明顯，但考慮到真實(shí)世界數(shù)據(jù)的復(fù)雜性和挑戰(zhàn)性，這樣的結(jié)果已經(jīng)相當(dāng)令人滿意。
研究團(tuán)隊(duì)還展示了一些生成的視頻案例，比如足球比賽中球員運(yùn)球射門的完整過程，舉重運(yùn)動(dòng)員完成抓舉動(dòng)作的流暢表現(xiàn)，以及沖浪者在海浪中展示技巧的精彩瞬間。每個(gè)視頻都配有詳細(xì)的文字解說，展現(xiàn)了TV2TV在處理復(fù)雜動(dòng)作序列時(shí)的出色能力。
五、用戶可控性：隨時(shí)調(diào)整的視頻創(chuàng)作體驗(yàn)
TV2TV最令人興奮的特性之一，就是它提供的前所未有的用戶控制能力。傳統(tǒng)的視頻生成就像是點(diǎn)一份外賣，你只能在下單時(shí)說明要求，一旦開始制作就無法更改。而TV2TV就像是在一個(gè)開放式廚房里與大廚互動(dòng)，你可以隨時(shí)提出建議和修改。
這種控制能力的實(shí)現(xiàn)原理其實(shí)很巧妙。由于TV2TV在生成過程中會(huì)自動(dòng)產(chǎn)生文字描述，用戶就可以在任何時(shí)刻查看這些"內(nèi)心獨(dú)白"，了解模型接下來打算做什么。如果用戶不滿意，可以直接修改這些文字描述，模型就會(huì)根據(jù)新的描述調(diào)整后續(xù)的視頻內(nèi)容。
研究團(tuán)隊(duì)展示了幾個(gè)有趣的控制案例。在一個(gè)高爾夫視頻中，模型原本計(jì)劃讓球手完成揮桿后鏡頭跟隨球的軌跡，但用戶在中途插入指令，要求鏡頭轉(zhuǎn)向追蹤球的飛行路徑。結(jié)果顯示，TV2TV能夠流暢地執(zhí)行這個(gè)臨時(shí)變更，生成的視頻就像是由專業(yè)攝影師重新規(guī)劃的鏡頭運(yùn)動(dòng)。
在另一個(gè)足球視頻案例中，模型最初生成了一個(gè)球員帶球向前的場景，但用戶突然想要展現(xiàn)防守場面，于是插入了"紅衣球員攔截皮球"的指令。TV2TV立即調(diào)整了劇情發(fā)展，生成了一個(gè)精彩的攔截動(dòng)作，整個(gè)過程毫無違和感。
這種控制能力為視頻創(chuàng)作開辟了全新的可能性。內(nèi)容創(chuàng)作者可以先讓模型生成一個(gè)基礎(chǔ)版本，然后根據(jù)需要進(jìn)行精細(xì)調(diào)整，就像使用一個(gè)智能的視頻編輯助手。教育工作者可以根據(jù)學(xué)生的反應(yīng)隨時(shí)調(diào)整教學(xué)視頻的內(nèi)容，讓課程更加生動(dòng)有趣。
更重要的是，這種交互式的創(chuàng)作過程大大降低了專業(yè)視頻制作的門檻。以前制作一個(gè)高質(zhì)量的解說視頻需要專業(yè)團(tuán)隊(duì)和昂貴設(shè)備，現(xiàn)在普通用戶只需要用自然語言描述自己的想法，就能獲得專業(yè)級(jí)的視頻內(nèi)容。
六、技術(shù)架構(gòu)：文字大腦與視覺大腦的完美協(xié)作
要理解TV2TV為什么如此強(qiáng)大，我們需要深入了解它的"內(nèi)部構(gòu)造"。如果把傳統(tǒng)的視頻生成模型比作單一功能的機(jī)器，那么TV2TV就像是一個(gè)配備了兩個(gè)專業(yè)大腦的智能系統(tǒng)。
第一個(gè)大腦專門負(fù)責(zé)文字思維，它基于著名的Llama語言模型構(gòu)建，就像是雇傭了一位經(jīng)驗(yàn)豐富的編劇。這個(gè)"編劇大腦"擅長理解復(fù)雜的語言指令，能夠進(jìn)行邏輯推理，規(guī)劃故事發(fā)展，甚至可以創(chuàng)造性地填補(bǔ)情節(jié)空缺。
第二個(gè)大腦專門負(fù)責(zé)視覺創(chuàng)作，它采用了最新的視頻生成技術(shù)，就像是一位技藝精湛的動(dòng)畫師。這個(gè)"動(dòng)畫師大腦"能夠?qū)⒊橄蟮奈淖置枋鲛D(zhuǎn)換成生動(dòng)的視覺畫面，處理復(fù)雜的運(yùn)動(dòng)軌跡，維持畫面的連貫性和真實(shí)感。
兩個(gè)大腦之間通過一個(gè)巧妙的"全局注意力機(jī)制"進(jìn)行實(shí)時(shí)溝通。這就像是在編劇和動(dòng)畫師之間建立了一條高速的信息通道，編劇可以隨時(shí)了解動(dòng)畫制作的進(jìn)度，動(dòng)畫師也可以及時(shí)獲得劇情的最新發(fā)展。這種緊密協(xié)作確保了最終作品的質(zhì)量和一致性。
在技術(shù)實(shí)現(xiàn)上，TV2TV使用了一種叫做"流匹配"的方法來生成視頻幀。這聽起來很復(fù)雜，但可以想象成一個(gè)漸進(jìn)式的雕刻過程。模型從一塊"噪聲原料"開始，逐步雕琢出清晰的畫面，就像雕塑家從粗糙的石塊中逐漸雕出精美的藝術(shù)品。
為了讓模型學(xué)會(huì)這種協(xié)作模式，研究團(tuán)隊(duì)設(shè)計(jì)了一套特殊的訓(xùn)練策略。他們將訓(xùn)練數(shù)據(jù)組織成"文字-視頻"的交替序列，就像制作一本詳細(xì)的分鏡頭腳本。模型需要學(xué)習(xí)如何在看到文字描述時(shí)生成對(duì)應(yīng)的視頻，同時(shí)也要學(xué)會(huì)在生成視頻時(shí)產(chǎn)生合適的文字解說。
這種訓(xùn)練方式的巧妙之處在于創(chuàng)造了一個(gè)自我強(qiáng)化的循環(huán)。文字描述幫助模型更好地理解視頻內(nèi)容，而視頻生成過程又反過來提高了模型的語言理解能力。經(jīng)過大量訓(xùn)練后，兩個(gè)大腦達(dá)到了完美的同步，就像是一對(duì)默契的舞蹈搭檔。
七、從實(shí)驗(yàn)室到應(yīng)用：廣闊的前景展望
TV2TV的成功不僅僅是一個(gè)技術(shù)突破，更重要的是它為視頻生成領(lǐng)域開辟了一條全新的發(fā)展道路。這種"思考-行動(dòng)"的模式可能會(huì)成為未來人工智能系統(tǒng)的標(biāo)準(zhǔn)配置，就像今天的智能手機(jī)都配備了攝像頭和觸屏一樣。
在教育領(lǐng)域，TV2TV可能會(huì)revolutionize在線學(xué)習(xí)體驗(yàn)。老師可以用簡單的文字描述創(chuàng)建動(dòng)態(tài)的教學(xué)視頻，學(xué)生可以根據(jù)自己的理解水平調(diào)整內(nèi)容的復(fù)雜度。復(fù)雜的科學(xué)概念、歷史事件、文學(xué)場景都可以通過生動(dòng)的視頻來展現(xiàn)，讓學(xué)習(xí)變得更加直觀有趣。
在娛樂產(chǎn)業(yè)，這項(xiàng)技術(shù)可能會(huì)改變內(nèi)容創(chuàng)作的模式。小型工作室甚至個(gè)人創(chuàng)作者都能制作出高質(zhì)量的動(dòng)畫和電影，創(chuàng)作門檻的降低將釋放更多的創(chuàng)意潛能。觀眾也可能參與到內(nèi)容創(chuàng)作中，通過文字指令實(shí)時(shí)調(diào)整劇情發(fā)展，創(chuàng)造出真正的互動(dòng)式娛樂體驗(yàn)。
在商業(yè)應(yīng)用方面，TV2TV為廣告制作、產(chǎn)品演示、培訓(xùn)視頻等領(lǐng)域提供了新的解決方案。企業(yè)可以快速制作定制化的宣傳內(nèi)容，根據(jù)不同的目標(biāo)受眾調(diào)整視頻的風(fēng)格和重點(diǎn)。這不僅能夠大幅降低制作成本，還能提高內(nèi)容的針對(duì)性和效果。
更遠(yuǎn)的未來，這種技術(shù)可能會(huì)與虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)技術(shù)結(jié)合，創(chuàng)造出更加沉浸式的體驗(yàn)。用戶可以用自然語言描述想要探索的虛擬世界，系統(tǒng)會(huì)實(shí)時(shí)生成相應(yīng)的環(huán)境和情節(jié)，實(shí)現(xiàn)真正的"想象即現(xiàn)實(shí)"。
當(dāng)然，技術(shù)的發(fā)展也帶來了一些需要關(guān)注的問題。如何確保生成內(nèi)容的真實(shí)性和準(zhǔn)確性，如何防止技術(shù)被濫用于虛假信息傳播，如何保護(hù)創(chuàng)作者的知識(shí)產(chǎn)權(quán)，這些都是需要在技術(shù)推廣過程中謹(jǐn)慎考慮的問題。
研究團(tuán)隊(duì)在論文中也坦誠地討論了當(dāng)前技術(shù)的局限性。雖然TV2TV在可控性和質(zhì)量方面有了顯著提升，但在處理某些復(fù)雜場景時(shí)仍然存在挑戰(zhàn)。特別是在真實(shí)世界數(shù)據(jù)上的表現(xiàn)，雖然已經(jīng)相當(dāng)不錯(cuò)，但與在游戲數(shù)據(jù)上的表現(xiàn)相比仍有差距。
展望未來，研究團(tuán)隊(duì)計(jì)劃在幾個(gè)方向上繼續(xù)改進(jìn)。首先是提高文字描述的質(zhì)量和密度，讓模型能夠獲得更加詳細(xì)和準(zhǔn)確的指導(dǎo)信息。其次是擴(kuò)展到更多的視頻類型和場景，不僅僅局限于游戲和體育，還要覆蓋日常生活、自然風(fēng)光、科學(xué)實(shí)驗(yàn)等各個(gè)領(lǐng)域。
說到底，TV2TV代表的不僅僅是一個(gè)技術(shù)進(jìn)步，更是人工智能向著更加智能、更加人性化方向發(fā)展的重要里程碑。它讓我們看到了一種可能：未來的人工智能不再是冷冰冰的工具，而是能夠思考、能夠創(chuàng)作、能夠與人類協(xié)作的智能伙伴。雖然我們現(xiàn)在看到的只是這個(gè)宏大愿景的一小部分，但正如所有偉大的發(fā)明一樣，今天的小小突破可能就是明天變革世界的起點(diǎn)。
Q&A
Q1：TV2TV模型是如何實(shí)現(xiàn)邊思考邊生成視頻的？
A：TV2TV采用了"文字大腦"和"視覺大腦"協(xié)作的架構(gòu)。在生成視頻時(shí)，文字大腦先分析情況并用語言描述接下來應(yīng)該發(fā)生什么，然后視覺大腦根據(jù)這些文字指導(dǎo)生成對(duì)應(yīng)的畫面。這種交替進(jìn)行的"思考-行動(dòng)"模式讓視頻生成更有邏輯性，就像一個(gè)導(dǎo)演在拍攝時(shí)一邊構(gòu)思劇情一邊指揮攝像。
Q2：TV2TV在測試中的表現(xiàn)有多好？
A：在游戲視頻生成測試中，TV2TV在人工評(píng)估中獲得了91%的好評(píng)率，遠(yuǎn)超傳統(tǒng)模型。在可控性測試中，TV2TV能夠準(zhǔn)確執(zhí)行78%的臨時(shí)指令修改，而對(duì)照模型只能達(dá)到59%。在真實(shí)體育視頻生成中，TV2TV也在多項(xiàng)指標(biāo)上優(yōu)于現(xiàn)有的先進(jìn)模型。
Q3：普通用戶能否使用TV2TV技術(shù)制作視頻？
A：目前TV2TV還是研究階段的技術(shù)，但它展現(xiàn)的可控性讓普通用戶參與視頻創(chuàng)作成為可能。用戶可以用自然語言描述想要的內(nèi)容，還能在生成過程中隨時(shí)插入新指令來調(diào)整視頻內(nèi)容。這大大降低了專業(yè)視頻制作的門檻，未來可能讓每個(gè)人都能制作高質(zhì)量的視頻內(nèi)容。

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

華為云城市峰會(huì)在烏蘭察布召開，當(dāng)?shù)匾盐?7個(gè)數(shù)據(jù)中心項(xiàng)目

火山引擎的「火」，是怎么點(diǎn)起來的

馬斯克：非自動(dòng)駕駛?cè)加蛙嚱K將消亡最終的競爭力是智能化

XREAL 1S發(fā)布：3299元起，用一副眼鏡把500英寸巨幕“戴”在身上

歐洲頂尖神經(jīng)學(xué)家：中國為科學(xué)家提供“絕佳機(jī)遇”

“元寶AI自動(dòng)回復(fù)太像真人”引質(zhì)疑騰訊為其發(fā)聲

全站最新

華為云城市峰會(huì)在烏蘭察布召開，當(dāng)?shù)匾盐?7個(gè)數(shù)據(jù)中心項(xiàng)目

火山引擎的「火」，是怎么點(diǎn)起來的

馬斯克：非自動(dòng)駕駛?cè)加蛙嚱K將消亡最終的競爭力是智能化

XREAL 1S發(fā)布：3299元起，用一副眼鏡把500英寸巨幕“戴”在身上

熱門推薦

普路通收購標(biāo)的業(yè)績均顯下滑趨勢，停牌前提前大漲32%復(fù)牌上演“天地板”

追覓創(chuàng)始人俞浩擬22.8億元入主嘉美包裝，原股東方承諾5年業(yè)績“護(hù)航”要約

寒武紀(jì)增資至4.22億

大曉機(jī)器人正式發(fā)布行業(yè)首創(chuàng)的ACE具身研發(fā)范式

賽力斯公布車輛轉(zhuǎn)向防碰撞專利

邢自強(qiáng)：中國在人工智能上的投資十分有效

華為云城市峰會(huì)在烏蘭察布召開，當(dāng)?shù)匾盐?7個(gè)數(shù)據(jù)中心項(xiàng)目

火山引擎的「火」，是怎么點(diǎn)起來的

馬斯克：非自動(dòng)駕駛?cè)加蛙嚱K將消亡最終的競爭力是智能化

XREAL 1S發(fā)布：3299元起，用一副眼鏡把500英寸巨幕“戴”在身上

歐洲頂尖神經(jīng)學(xué)家：中國為科學(xué)家提供“絕佳機(jī)遇”

“元寶AI自動(dòng)回復(fù)太像真人”引質(zhì)疑騰訊為其發(fā)聲

2035年去月球“上班”！青年科學(xué)家蘇萌描繪未來圖景

中國氣象局：到2035年全面建成數(shù)值預(yù)報(bào)與人工智能優(yōu)勢互補(bǔ)、融合統(tǒng)一的地球系統(tǒng)預(yù)報(bào)體系

電動(dòng)巴士訂單排滿明年，比亞迪計(jì)劃在巴西擴(kuò)建