![]()
這是一個關于人工智能如何學會"聽話"的故事。想象你正在看一部視頻,突然想到:"要是能把這個場景變成日本動漫風格就好了"或者"能不能把這只黑狗換成白狐貍?"在過去,這樣的想法只能停留在腦子里,因為實現它需要專業的視頻編輯師花費數小時的工作。但現在,一個由螞蟻集團、香港科技大學、浙江大學和東北大學的研究團隊開發的新系統正在改變這一切。
這項研究由Qingyan Bai、Qiuyu Wang、Hao Ouyang等多位研究者共同完成,成果發表于2025年12月的arXiv預印本平臺(論文編號:arXiv:2510.15742v2)。研究團隊給他們的系統起了個有趣的名字——Ditto,這個詞在英文里有"完全相同"的意思,恰好反映了這個系統的核心目標:讓生成的視頻完全符合你的文字指令。
長期以來,雖然AI在靜止圖片的編輯上已經做得相當不錯,但視頻編輯一直是個難題。這不僅僅是因為視頻比圖片復雜,更關鍵的是一個根本性的障礙:沒有足夠的高質量訓練數據。你可以把這個問題想象成教一個學生學習某項技能——如果你只有幾本教科書,學生很難真正掌握這項技能;但如果你有一百萬個精心設計的練習題和答案,學生就能學得又快又好。
研究團隊意識到,要讓AI學會按照文字指令編輯視頻,首先需要解決這個數據荒漠的問題。他們投入了超過12000個GPU工作日(相當于一臺高性能計算機連續工作12000天),最終創造了一個名叫Ditto-1M的數據集——包含超過一百萬個視頻編輯樣本。這個數據集就像一所超大規模的"視頻編輯學校",里面有各種各樣的編輯任務和對應的文字指令。
基于這個龐大的數據集,他們訓練了一個名叫Editto的視頻編輯模型,這個模型在多項測試中都超越了現有的所有競爭對手。更重要的是,他們還開源了數據集、模型和代碼,這意味著全世界的研究者都可以在他們的基礎上繼續創新。
為什么這項研究如此重要呢?因為它觸及了一個更深層的問題:在AI時代,數據就是新的石油。一個好的數據集可以推動整個領域的進步。Ditto-1M不僅僅是一個數據集,它代表了一種全新的思路——如何高效地、大規模地生成高質量的AI訓練數據。
一、視頻編輯為什么這么難?
要理解這項研究的突破之處,我們首先需要明白為什么視頻編輯比圖片編輯難得多。
當你編輯一張靜止的照片時,你只需要改變這一張圖片。但視頻不同,它是一連串快速播放的圖片。如果你想改變視頻中的某樣東西,比如改變一個人穿的衣服顏色,你不能只改變第一幀,因為那樣的話,當視頻播放時,這個人的衣服顏色會在幾幀內突然變化,看起來非常不自然。你需要在視頻的每一幀中都做出一致的改變,同時還要確保整個過程看起來平滑自然,就像這個改變真的發生過一樣。
這就像是在修改一部電影。如果你想改變演員穿的衣服,你不能只改變一個鏡頭,你需要確保在整部電影中,這個演員穿的都是新衣服,而且改變要看起來自然,就像他一開始就穿的是這件衣服一樣。
除了這個"時間一致性"的問題,還有另一個挑戰。視頻中的物體在運動,背景也在變化。當你編輯視頻時,需要理解這些運動,并確保你的編輯隨著運動而變化。比如,如果你想給一個移動的球換個顏色,你不能只是簡單地把所有紅色像素都變成藍色,因為這樣會改變背景中可能也有的紅色物體。你需要理解哪個紅色物體是球,然后只改變它。
正因為這些復雜性,過去的視頻編輯AI系統要么質量很低,要么速度很慢。有些系統需要對每個視頻單獨進行優化,這就像是為每個學生單獨寫一套教材,效率極低。有些系統雖然速度快,但生成的視頻質量不好,充滿了閃爍和不自然的地方。
二、數據荒漠:為什么沒有足夠的訓練數據?
現在我們來談談為什么數據這么稀缺。
對于圖片編輯,研究者有個聰明的辦法。他們可以用大型語言模型(比如GPT)自動生成編輯指令,然后用文本到圖片的AI模型(比如Stable Diffusion)生成對應的編輯結果。這樣就可以自動創建大量的訓練數據,不需要人工標注。這個方法叫做"合成數據生成",已經被成功應用在圖片編輯領域。
但這個方法在視頻上就不那么有效了。雖然理論上你可以用同樣的方法生成視頻編輯數據,但實際上有兩個大問題。第一,生成高質量視頻需要大量的計算資源,成本非常高。第二,即使你生成了視頻,質量往往也不理想——可能充滿了閃爍、不連貫的地方,或者不能準確地遵循編輯指令。
這就像是你想要教一個學生,但你沒有好的教材。你可以快速地寫出很多教材,但質量很差;或者你可以精心編寫高質量的教材,但這樣做太慢了,成本太高。這正是視頻編輯領域面臨的困境。
三、Ditto的巧妙解決方案:三個關鍵突破
研究團隊提出了一個優雅的解決方案,它有三個核心部分,就像一個精心設計的食譜,每個步驟都相互配合。
第一個突破:借用圖片編輯的力量
團隊的第一個想法是:既然圖片編輯已經做得很好了,為什么不利用這一點呢?他們的做法是這樣的:對于每個要編輯的視頻,首先從視頻中選出一個關鍵幀(就是最重要的一幀)。然后,他們用一個先進的圖片編輯工具(Qwen-Image)來編輯這一幀,根據用戶的文字指令。這樣就得到了一個"目標圖片"——這是編輯后應該是什么樣子的參考。
接下來,他們用一個特殊的視頻生成模型(叫做VACE的"上下文視頻生成器")來生成整個視頻。這個模型會看著這個編輯后的參考幀,然后生成一個完整的視頻,使得視頻中的每一幀都符合這個參考幀的風格和內容。
這個方法的妙處在于,它把一個難的問題(直接從文字指令生成視頻)分解成兩個相對容易的問題(用文字指令編輯圖片,然后用圖片指導視頻生成)。這就像是在做一道復雜的菜肴時,先準備好所有的食材和調味料,然后按照步驟一步步來,而不是試圖一次性完成所有工作。
但這還不夠。為了確保生成的視頻在空間和時間上都是一致的,團隊還加入了另一個信息源:深度圖。深度圖是一種特殊的圖像,它記錄了視頻中每個像素到攝像機的距離。通過這個深度信息,模型可以理解視頻的三維結構和物體的運動,從而生成更加自然和一致的視頻。
第二個突破:解決成本和質量的矛盾
現在我們來談第二個挑戰。高質量的視頻生成需要大量的計算資源。研究團隊發現,用最好的模型生成一個視頻樣本需要大約50分鐘的GPU時間。如果要生成一百萬個樣本,這將是一個天文數字。
他們的解決方案是使用"模型蒸餾"和"量化"這兩種技術。簡單來說,模型蒸餾就像是把一個復雜的食譜簡化成一個更簡單的版本,但仍然能做出好吃的菜。量化則是一種壓縮技術,可以減少模型占用的內存和計算量。通過這兩種技術的結合,他們把生成一個視頻樣本所需的時間從50分鐘減少到了大約10分鐘,節省了80%的計算成本,同時還保持了視頻的質量。
但這還不是全部。他們還加入了一個"時間增強器",這是一個專門用來改善視頻時間一致性的工具。這就像是在做菜時加入了一個特殊的調料,能夠讓整道菜的味道更加協調。通過這個增強器,即使使用了更快的生成模型,生成的視頻仍然看起來很自然,沒有閃爍或不連貫的地方。
第三個突破:自動化的質量控制
現在我們來到了第三個關鍵部分:如何確保生成的數據質量足夠好?
如果要人工檢查一百萬個視頻樣本,這將需要一個巨大的團隊花費數年的時間。所以團隊想到了一個聰明的辦法:用另一個AI來檢查AI生成的數據。
具體來說,他們使用了一個視覺語言模型(VLM)——這是一種能夠理解圖像和文字的AI——來自動檢查每個生成的視頻樣本。這個模型會檢查四個方面:首先,編輯是否準確地遵循了文字指令;其次,編輯后的視頻是否保留了原始視頻的內容和運動;第三,視頻的視覺質量是否足夠好,沒有明顯的扭曲或偽影;最后,視頻的內容是否安全和合適,不包含暴力、色情或其他不當內容。
不符合這些標準的樣本會被自動刪除。這就像是一個質量檢查員在傳送帶上工作,自動篩選出不合格的產品。
除了這個過濾過程,團隊還使用了一個特殊的"去噪增強器"來進一步改善視頻質量。這個工具會對生成的視頻進行微調,去除細微的偽影,增強紋理細節,但不會改變視頻的語義內容。這就像是在一幅畫完成后進行最后的潤色,使其看起來更加精美。
四、Ditto-1M數據集:一百萬個視頻編輯的故事
通過上述三個突破,研究團隊最終創造了Ditto-1M數據集。這個數據集是如何構建的呢?
首先,他們從一個叫做Pexels的網站收集了超過20萬個高質量視頻。這些都是專業級別的視頻,不是從網絡上隨意爬取的,所以質量相對較高。然后,他們對這些視頻進行了嚴格的篩選。他們去除了重復的視頻,確保數據集中的每個視頻都是獨一無二的。他們還去除了那些沒有太多運動的視頻,比如固定攝像機拍攝的監控錄像或靜止的風景照片,因為這些視頻對于學習視頻編輯來說價值不大。
接下來,對于每個保留下來的視頻,他們使用一個強大的視覺語言模型(Qwen2.5 VL)來自動生成編輯指令。這個過程分為兩步。首先,模型會生成一個詳細的視頻描述,說明視頻中有什么、有哪些人物、什么樣的場景。然后,基于這個描述,模型會生成一個創意的編輯指令,告訴系統應該如何改變這個視頻。這些指令涵蓋了各種各樣的編輯任務,從全局的風格變換(比如改變整個視頻的藝術風格)到局部的對象修改(比如替換或移除特定的物體)。
最終的Ditto-1M數據集包含了大約一百萬個視頻編輯樣本。其中,大約70萬個涉及全局編輯,比如改變視頻的整體風格、改變環境或背景。另外30萬個涉及局部編輯,比如替換、添加或移除特定的對象。每個視頻的分辨率是1280x720,包含101幀,以每秒20幀的速度播放。
這個數據集的質量遠遠超過了之前的任何視頻編輯數據集。研究團隊強烈建議有興趣的人查看他們提供的視頻樣本,以直觀地感受這個數據集的質量。
五、Editto模型:從看圖到聽話
現在我們來談談如何用這個數據集來訓練一個實際可用的視頻編輯模型。
這里有一個有趣的問題。數據集是怎樣生成的呢?通過向模型提供三樣東西:文字指令、編輯后的參考圖像和深度圖。模型看著這三樣東西,然后生成編輯后的視頻。但在實際使用中,用戶只想提供文字指令,不想提供參考圖像。這就像是在教一個學生時,你先給他看答案,讓他學會如何做題,然后在考試時,你不再給他答案,他需要自己做出來。
為了解決這個問題,研究團隊提出了一個叫做"模態課程學習"的訓練策略。這個策略的核心思想是:在訓練的早期,模型既看到文字指令,也看到參考圖像。隨著訓練的進行,他們逐漸減少提供參考圖像的頻率,最終完全不提供參考圖像。這樣,模型就被迫學會從純文字指令中理解用戶的意圖,而不是依賴參考圖像。
這個過程就像是教一個孩子騎自行車。一開始,你扶著自行車,孩子可以專注于學習平衡。然后,你逐漸松開手,讓孩子自己保持平衡。最后,你完全放開,孩子就可以獨立騎行了。
在這個訓練過程中,他們使用了一種叫做"流匹配"的技術。簡單來說,這是一種現代的生成模型訓練方法,它比傳統的擴散模型更高效。他們在64個GPU上訓練了大約16000步,使用AdamW優化器,學習率為1e-4。為了保持原始模型的強大生成能力,他們只微調了模型中的某些部分(具體來說,是上下文塊中的線性投影層),而凍結了大部分預訓練的參數。
六、成果展示:Editto如何擊敗競爭對手
當研究團隊用Editto模型進行測試時,結果令人印象深刻。
他們用幾種不同的方法來評估模型的性能。首先是自動評估指標。他們使用了三個指標來衡量模型的表現。第一個叫做CLIP-T,它衡量的是生成的視頻有多好地遵循了文字指令。第二個叫做CLIP-F,它衡量的是視頻的時間一致性——也就是說,相鄰的幀有多相似,這反映了視頻看起來有多平滑自然。第三個叫做VLM評分,這是用另一個AI模型來評估編輯的有效性、語義保留程度和整體美學質量。
在這些自動評估指標上,Editto都顯著超越了所有的競爭對手。具體來說,在CLIP-T上,Editto得到了25.54分,而之前最好的方法(InsViE)只得到了23.56分。在CLIP-F上,Editto得到了99.03分,略高于InsViE的98.78分。在VLM評分上,Editto得到了8.10分,而InsViE只得到了7.35分。
但數字可能不夠直觀。研究團隊還進行了人工評估,邀請了1000名研究生和研究人員來評估不同模型生成的視頻。評估者被要求評估三個方面:編輯的準確性(模型是否準確地遵循了指令)、時間一致性(視頻看起來有多平滑自然)和整體質量。
在這個人工評估中,Editto也遠遠領先。在編輯準確性上,Editto得到了3.85分(滿分5分),而之前最好的方法InsViE只得到了2.28分。在時間一致性上,Editto得到了3.76分,而InsViE得到了2.30分。在整體質量上,Editto得到了3.86分,而InsViE得到了2.36分。
這些數字背后的意義是什么呢?這意味著,當人類評估者看著Editto生成的視頻時,他們認為這些視頻不僅更好地遵循了指令,而且看起來更加自然、更加美觀。
七、視覺對比:看看Editto能做什么
除了數字,研究團隊還展示了一些具體的例子,讓我們看看Editto實際上能做什么。
在一個例子中,用戶給出的指令是"用像素藝術風格渲染"。Editto生成的視頻成功地將原始視頻轉換成了像素藝術風格,看起來就像是一個復古的電子游戲。而競爭對手的模型生成的視頻要么模糊不清,要么風格不夠明顯。
在另一個例子中,指令是"把男人的衣服換成黑色西裝"。Editto精確地改變了男人衣服的顏色,同時保持了他的身份和背景的完整性。這對于局部編輯來說是特別困難的,因為模型需要理解哪個物體是衣服,然后只改變那個物體,而不影響其他的東西。競爭對手的模型在這個任務上表現得遠不如Editto。
還有一個特別有趣的例子。研究團隊展示了Editto的"合成到真實"的能力。他們用Editto來做一個反向的任務:把數據集中的風格化視頻轉換回原始的真實視頻。這表明,數據集中包含的信息非常豐富,足以讓模型學會在不同的視覺風格之間進行轉換。
八、消融研究:每個部分都很重要
為了確保他們提出的每個部分都是必要的,研究團隊進行了"消融研究"。這就像是在做一道菜時,逐個去掉某些食材,看看菜的味道會怎樣變化。
首先,他們測試了不同數據量對模型性能的影響。他們分別用60000、120000、250000和500000個樣本來訓練模型,然后看模型的性能如何變化。結果很清楚:隨著訓練數據的增加,模型的性能持續改善。這證實了他們的直覺——更多的高質量數據確實能幫助模型學得更好。
其次,他們測試了模態課程學習策略的重要性。他們比較了使用模態課程學習和不使用它的模型。結果顯示,沒有模態課程學習的模型往往無法完全理解指令的語義含義,生成的視頻質量明顯更差。這證明了模態課程學習策略對于橋接視覺條件和文字指令之間的差距是至關重要的。
九、Editto vs 數據生成器:訓練的力量
還有一個有趣的對比。研究團隊比較了他們訓練的Editto模型和用來生成數據的原始生成器的性能。
原始的數據生成器(VACE)是一個強大的模型,它能夠在給定參考圖像和深度圖的情況下生成高質量的視頻。但當面對一些新的、在訓練數據中沒有出現過的內容時,它的表現就不那么好了。比如,當被要求生成一個機器人手臂或鉛筆素描的視頻時,原始生成器就會失敗。
但經過在Ditto-1M上訓練的Editto模型就能處理這些新的、從未見過的內容。這說明了什么呢?這說明,通過在大規模、高質量的數據集上進行訓練,模型能夠學到更加通用和靈活的編輯能力,而不僅僅是復制訓練數據中的模式。
十、這一切對我們意味著什么?
現在讓我們回到開始的問題:為什么這項研究很重要?
首先,從技術的角度來看,這項研究解決了一個長期存在的問題:如何高效地生成大規模的高質量視頻編輯訓練數據。他們提出的方法——結合圖片編輯的力量、使用蒸餾和量化來降低成本、用自動化的質量控制來確保數據質量——可以被應用到其他類似的問題上。
其次,從實際應用的角度來看,Editto模型代表了視頻編輯技術的一個重大進步。現在,任何人都可以用簡單的文字指令來編輯視頻,而不需要學習復雜的視頻編輯軟件。這可能會改變內容創作的方式。想象一下,一個社交媒體創作者可以快速地生成多個視頻變體來測試哪個效果最好;一個營銷團隊可以快速地為不同的市場創建本地化的視頻版本;一個教育工作者可以快速地創建教學視頻。
第三,從開源的角度來看,研究團隊決定開源數據集、模型和代碼,這意味著全世界的研究者都可以在他們的基礎上繼續創新。這可能會加速整個領域的發展。
但這項研究也提出了一些值得思考的問題。隨著AI生成視頻的質量越來越好,我們如何確保這些技術被用于積極的目的,而不是被用來創建虛假信息或欺騙性的內容呢?這是一個社會和倫理層面的問題,需要整個社會來思考和解決。
總的來說,Ditto和Editto代表了AI在創意工具領域的一個重要進步。它們展示了如何通過巧妙的系統設計、大規模的數據生成和智能的模型訓練,來解決看似不可能的問題。在未來,我們可能會看到更多這樣的工具,讓創意工作變得更加民主化和可及。
Q&A
Q1:Ditto-1M數據集包含多少個視頻樣本,這些樣本是怎樣生成的?
A:Ditto-1M包含超過一百萬個高質量的視頻編輯樣本。這些樣本是通過一個三階段的管道自動生成的:首先從Pexels網站收集20多萬個專業級視頻并進行篩選,然后用圖片編輯工具和視頻生成模型生成編輯版本,最后通過VLM自動過濾和去噪增強來確保質量。整個過程耗費了超過12000個GPU工作日。
Q2:Editto模型與之前的視頻編輯方法相比有什么優勢?
A:Editto在多個方面都顯著超越了競爭對手。在自動評估指標上,它在指令遵循度、時間一致性和整體質量上都得分最高。在人工評估中,評估者認為Editto生成的視頻在編輯準確性、時間一致性和整體質量上都遠優于之前最好的方法InsViE,得分幾乎是其兩倍。
Q3:模態課程學習策略是什么,為什么它對Editto的訓練很重要?
A:模態課程學習是一種訓練策略,在訓練初期同時提供文字指令和參考圖像,然后逐步減少參考圖像的提供頻率,最終完全不提供參考圖像。這個策略很重要,因為它讓模型能夠從依賴視覺參考逐步過渡到僅依賴文字指令,從而學會理解和執行純文本的編輯指令。





京公網安備 11011402013531號