![]()
近年來,視頻生成技術,尤其是基于擴散模型(Diffusion Model)的技術,發展極為迅速,從文本到視頻(Text-to-Video,T2V)、圖像到視頻(Image-to-Video,I2V)等任務不斷取得突破。商業化系統(如 Sora、Veo3、Kling、Vidu)已經能生成媲美專業制作的視頻內容,極大提升了創作效率,同時降低了成本。
在此過程中,主體到視頻(Subject-to-Video, S2V)生成任務開始備受關注。S2V 的目標是:給定一個或多個參考圖像,生成主體外觀一致、背景可控的動態視頻。這種方法結合了文本生成的創造性和圖像生成的精準性,適合數字人、虛擬試穿、電商廣告、藝術創作等場景。
然而,現有開源 S2V 模型難以在多主體場景中保持主體一致性,也難以實現背景信息的有效解耦。
![]()
論文地址:https://arxiv.org/pdf/2510.18573
代碼地址:https://github.com/CriliasMiller/Kaleido
為應對這些挑戰,來自合肥工業大學、清華大學和智譜的研究團隊提出了開源多主體參考視頻生成框架——Kaleido,旨在讓開源模型在一致性與背景解耦方面達到最優水平。
![]()
圖|Kaleido的S2V生成,涵蓋單人和多人場景中的人物、物體及可控背景生成。
實驗表明,Kaleido 在一致性、保真度和泛化能力方面均優于先前的方法,代表了 S2V 生成領域的重要進展。
![]()
圖|S2V 評估(左)和用戶研究結果(右)。
研究框架
現有 S2V 方法在保持多主體一致性和處理背景解耦方面仍存在不足,在多圖像條件下,這通常會導致較低的參考保真度和語義漂移,可歸因于幾個因素:
訓練數據不足且質量不高:包括采樣覆蓋不足、低質量樣本污染,以及慣用的“視頻幀取圖”方式,使模型傾向于原封不動復制參考圖像內容,連不相關的背景都保留,難以泛化。
條件注入策略不佳:現有方法在將多參考圖像特征引入視頻生成時,容易出現主體信息混疊、空間位置沖突,導致生成視頻中多主體錯誤融合或丟失細節。
基于此,研究團隊提出新的數據構造流水線及對應的條件注入方案,創新點主要體現在三點:
1.高質量多樣化數據構建流水線
多類主體采樣與細顆粒度過濾(尺寸、模糊度、亮度、類別一致性)。
引入跨配樣本(Cross-Paired Data) 生成:將主體圖像與不相關視頻配對打亂背景信息,迫使模型學習主體與背景的解耦。
背景擦除與位姿動作增強:利用圖像修復與姿態變化擴展主體的表現形式。
2.Reference Rotary Positional Encoding (R-RoPE) 條件注入機制
將多參考圖像編碼后的 token 與視頻 token 序列拼接,但在空間–時間坐標上人為偏移,確保模型區分“視頻幀”與“參考圖片”。
避免多主體場景下的 token 混淆,使各主體在生成視頻中保持獨立與一致。
3.兩階段訓練策略
在 200 萬組數據上進行預訓練,建立通用生成能力。
之后在 50 萬組高質量數據上進行監督微調(SFT),提升主體一致性與背景解耦效果。
![]()
![]()
實驗結果與效果
在多個維度評測中,Kaleido 展現了強大的性能:
主體一致性(S2V Consistency):在測試集中達到 0.723,達到測試模型的最高水平。
背景解耦(S2V Decoupling):得分 0.319,顯著優于現有方法,幾乎消除了參考背景污染。
美學質量與視頻平滑度:在 VBench 框架下的美學質量在開源模型中排名第一,視頻中的運動平滑性接近閉源模型 Kling。
主觀評測:用戶調查中,Kaleido 在視頻質量、主體一致性、背景解耦等方面均獲最高平均分。
![]()
更具體地,消融實驗表明:
有了 Cross-Paired 數據,背景解耦能力顯著提升(+0.013 分)。
R-RoPE 同時在寬與高維度偏移時表現最好,避免了多主體場景下主體混淆。
在卡通、動物、復雜人群等多樣化場景中,Kaleido 生成的視頻均保持主體細節和動態動作合理。
![]()
![]()
不足與未來方向
雖然 Kaleido 在開源體系中表現突出,但仍存在一些局限性:
極端背景與多主體超載場景:在背景異常復雜或主體數量極多時,可能出現細節丟失或輕微身份混淆;
長視頻一致性:當前模型在長視頻中保持主體連續性仍有進一步提升空間。
未來探索方向包括:
研究更輕量的多參考條件融合機制,提高推理速度與可移植性;
針對長視頻生成優化時間一致性;
持續擴展開源數據集,使模型覆蓋更多風格與主體類型;
將 S2V 擴展到多任務統一框架(如視頻編輯、虛擬試穿、角色動畫),實現“一體化視頻生成”。
如需轉載,請直接在本文章評論區內留言





京公網安備 11011402013531號