![]()
本文的作者分別來自浙江大學和字節跳動。第一作者何昊陽是來自浙江大學的博士生,研究方向聚焦于視頻生成與編輯。通訊作者為浙江大學謝磊教授。
亮點總結
作者提出了一個大規模、高質量、多類別的指令跟隨的視頻編輯數據集 OpenVE-3M,共包含 3M 樣本對,分為空間對齊和非空間對齊 2 大類別共 8 小類別。作者提出了穩定的高質量、多類別的指令跟隨視頻編輯數據構造管線,確保編輯質量的同時具有多樣性,促進社區研究。作者提出了一個高效且有效的指令跟隨視頻編輯模型 OpenVE-Edit,僅 5B 的參數量實現了 SoTA 并超過了現有開源 14B 模型效果。作者提出了一個通用的、多類別且充滿挑戰的指令跟隨視頻編輯評測集,它從 3 個關鍵維度評估模型在各個類別上的性能并與人類評價高度對齊。
![]()
論文標題:OpenVE-3M: A Large-Scale High-Quality Dataset for Instruction-Guided Video Editing論文鏈接:https://arxiv.org/abs/2512.07826項目主頁:https://lewandofskee.github.io/projects/OpenVE/
1. 研究動機
現有指令遵循的視頻編輯數據集如 InsViE-1M、Senorita-2M、Ditto-1M 主要存在數據集規模小、編輯類型少、編輯指令短和編輯質量差四個問題。表 1 展示了現有開源視頻編輯數據集的定量分析,其中盡管 VIVID 有 10M 的數據規模,但是其只提供了掩碼視頻而沒有編輯后視頻導致無法直接訓練。而 InsViE-1M、Senorita-2M、Ditto-1M 三個數據集只有 1 或 2M 的樣本數,并且編輯種類較少。
![]()
表 1: 與當前指令跟隨視頻編輯數據集的比較。Cat./Avg. Ins. Lgth 分別指類別 / 平均指令長度
圖 2 (a) 展示了編輯指令長度的分布,InsViE-1M、Senorita-2M 的平均編輯指令的單詞長度較少平均只有 4 個單詞,無法很好的提供準確的編輯指令信息影響編輯效果。為了判斷指令跟隨的視頻編輯數據集的質量,作者將原始視頻、編輯后視頻和編輯指令輸入至 Gemini 2.5 Pro 中并在 Consistency & Detail Fidelity, and Visual Quality & Stability 三個層面進行 1 到 5 打分,其中后兩者的得分不應該超過前者。將每個數據集中的每個類別隨機挑選 50 個編輯對進行評測,最終得分分布如圖 2 (b) 所示。
InsViE-1M、Senorita-2M 數據集盡管在 5 分也有較高的分布,但是其為 1 分的 bad case 占比也很高,導致數據集的平均質量得分偏低。Ditto 數據集也有著不錯的質量但是其主要編輯類型為風格的變換,編輯種類還不夠豐富。綜上所述,目前還缺少大規模、高質量、多種類的指令跟隨的視頻編輯數據集。
![]()
圖 2: OpenVE-3M 與當前開源視頻編輯數據集的視頻統計數據比較
因此,作者提出了一個大規模、高質量、多類別的指令跟隨視頻編輯數據集 OpenVE-3M。其共包含 3M 個樣本,分為空間對齊和非空間對齊兩類,其中空間對齊指的是編輯后視頻和原始視頻在空間和時序上具有一致的運動包括 Global Style, Background Change, Local Change, Local Remove, Local Add, and Subtitles Edit 共 6 類,非空間對齊指的是編輯后視頻和原始視頻在空間和時序上具有一致的主體但不一致的運動包括 Camera Multi-Shot Edit and Creative Edit 共 2 類。所有類別的可視化例子如圖 1 所示。此外 OpenVE-3M 還具有最長的平均指令長度 40.6,分布均勻的視頻幀數以及最高的視頻編輯質量總平均分 3.86。
![]()
圖 1: 在同一個視頻中演示來自所提出的 OpenVE-3M 數據集的八個不同類別
![]()
圖 3: OpenVE-3M 的類別和幀計數統計
2. OpenVE-3M 數據集構建
![]()
圖 4: 數據管道概述。第一階段:旨在構建視頻語料庫并執行各種預處理步驟,為第二階段做準備。第二階段:重點在于利用一系列模型和工具,為每個類別生成編輯對。第三階段:涉及對第二階段生成的所有編輯對進行細粒度過濾,以僅保留高質量樣本。
a. 第一階段:視頻預處理
![]()
圖 5: Stage1 視頻數據預處理管道
b. 第二階段:基于分類法的視頻編輯和指令生成
![]()
圖 6: Stage2 視頻編輯數據構建流程的詳細工作流程: Global Style, Local Change, Background Change, and Local Add
![]()
圖 7: Stage2 視頻編輯數據構建流程的詳細工作流程: Local Remove, Subtitles Edit, Camera Multi-shot Edit, and Creative Edit
c. 第三階段:高質量視頻編輯對過濾
對于所有類別的合成數據對作者針對每個類別精細設計了數據過濾管道。首先是每個類別視頻編輯提示詞的精細構建,共包含 3 大主要評測指標:指令遵循、Consistency & Detail Fidelity 和 Visual Quality & Stability,每個指標評分 1-5 分進行打分。
其中關鍵的是以指令遵循指標為得分上限,即后面兩個指標的得分不能超過指令遵循指標。因為有許多視頻編輯數據盡管視頻質量高但完全沒有被編輯,因此作者希望指令遵循是首要評判標準。隨后作者將編輯指令、編輯前視頻和編輯后視頻輸入到 VLMs 中進行打分。在此,作者人工挑選并打分了 300 個視頻編輯對并與 3 個 VLMs 模型打分結果進行對比。將視頻編輯對平均得分超過 3 分定義為正樣本、小于等于 3 分為負樣本。最終計算 Qwen3-VL-A3B 模型準確率為 61%,Intern3.5-VL-38B 模型準確率為 66%,Seed1.6-VL 準確率為 70%,Gemini2.5-Pro 準確率為 69%。但是受限于 Seed1.6-VL 和 Gemini2.5-Pro 的 API TPM 的限制,作者最終選用 Intern3.5-VL-38B 模型用于打分并過濾所有得分大于 3 分的視頻編輯對。
3. OpenVE-Edit 指令跟隨視頻編輯模型
![]()
圖 8: OpenVE-Edit 的整體架構。(a) OpenVE-Edit 的架構。(b) MoE-Connector 模塊的詳細結構。
OpenVE-Edit 創新點:
僅用 T5 特征只能得到字面意思的指令編輯表示而不能獲取更高維度的指令與視覺語義空間關系表示。因此,作者將輸入原始視頻和編輯指令一同輸入到多模態大模型中,這使模型能夠捕捉更高維度編輯指令和視覺特征之間的語義與空間關系。為了應對多樣化視頻編輯的各種不同需求,任務異質性在使用單一模型時會導致參數效率低下,因為共享參數會將易受干擾的表征內化,從而導致專業化程度不理想并增加參數數量。因此,基于多任務感知的 MoE-Connector 模塊被設計用于同時應對圖像和視頻不同編輯類型。由于現有的視頻生成模型都已經經過大規模的數據預訓練,而 MoE-Connector 在訓練開始時是隨機初始化的。如果它直接輸出一堆無意義的「噪聲」視覺特征給下游模型,很可能會嚴重干擾下游模型的穩定狀態,導致訓練崩潰或收斂緩慢。因此,為了降低訓練難度,提高訓練效率,受 ControlNet 工作的啟發,作者將 MoE-Connector 最后一個 MLP 層初始化權重為全零。并將其輸出的特征與原本編輯指令通過 T5 得到的特征在通道維度拼接起來。這樣,T5 特征在訓練的第 0 步完全不會被新加的模塊所影響。
4. OpenVE-Bench 指令跟隨視頻編輯評測
現在還沒有一個通用的并且與人類評價高度對齊的指令跟隨的視頻編輯評測。因此,作者提出了 OpenVE-Bench,一個人工精心挑選包含 8 類別共 431 條編輯對的評測集,并且對于每個類別均精心設計了 Instruction Consistency & Detail Fidelity, and Visual Quality & Stability 三個關鍵評測 prompt,最終將編輯指令、原始視頻、編輯后視頻共同輸入給 VLM 得到編輯分數。
5. 實驗結果
a. 定量結果
作者對比了目前所有的視頻編輯開源模型 VACE、OmniVideo、InsViE、ICVE、Lucy-Edit、DITTO 和閉源模型 Runway Aleph,在使用 80G 顯存 GPU 復現開源模型過程中。OmniVideo 僅能生成 640*352 分辨率,17 幀的視頻,其他分辨率和幀數都會導致視頻異常。ICVE 模型僅能在 480*768 分辨率生成最多 41 幀的視頻,更多幀數的生成會導致顯存爆炸,因此使用 384*240 以保證所有幀被編輯。其他的模型都按照其訓練的分辨率和輸入視頻的幀數對應進行生成。另外由于 Runway Aleph 費用的限制,作者在每類評測集上僅挑選 30 個樣本進行測試與評分。
表 2 和 3 展示了現在所有指令跟隨視頻編輯模型在 OpenVE-Bench 上的評測結果。閉源的 Runway Aleph 模型在 Seed1.6VL 和 Gemini 2.5 Pro 兩個評測模型上均取得了最出色的效果并且遠超現有開源模型。開源的 VACE、OmniVideo 和 InsViE 由于模型參數的限制或者數據集的限制結果較差。Lucy-Edit 在 5B 的參數量下取得了比較平均的效果。ICVE 在 13B 參數量下取得了不錯的效果,但高分辨率的編輯僅支持更少的幀數。DITTO 由于數據集主要為 global style 類型,因此其在這一指標上得分較高。作者的 OpenVE-Edit 僅 5B 的參數量取得了 2.41 的總指標,實現較小的參數量下超越了現有所有開源模型效果。
![]()
b. 定性結果
圖 9 展示了作者的方法和現有開源 SOTA 方法的定性對比。選取了當前開源模型里最好的三個模型做對比。在左邊的 Background Change 的例子里,Lucy-Edit 盡管實現了背景的變換,但是小狗沒有保持與原視頻一致。ICVE 錯誤的擦除了女人并且男人的長相也發生了變化。Ditto 錯把墻上的畫當作前景并且小狗的顏色變深。作者的方法能夠在前景所有主體保持一致性的同時背景按照編輯指令改變。右邊 Local Change 的例子中,Lucy-Edit 錯誤的將三個人的衣服全部編輯。ICVE 錯誤的對左邊兩個人編輯,并且人也發生了變化。Ditto 不僅編輯錯了對象還錯誤地將背景改變了。作者的方法只按照編輯指令改變了對應女人的衣服并且保持其他男人和背景的一致性。
![]()
圖 9: 與當前 SoTA 方法的定性比較結果,并舉例說明背景變化(左)和局部變化(右)。





京公網安備 11011402013531號