![]()
火山引擎多媒體實驗室是字節跳動旗下的研究團隊,致力于探索多媒體領域的前沿技術,參與國際標準化工作,其眾多創新算法及軟硬件解決方案已經廣泛應用在抖音、西瓜視頻等產品的多媒體業務,并向火山引擎的企業級客戶提供技術服務。實驗室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數項國際級技術賽事冠軍、行業創新獎及最佳論文獎。
近日,AAAI 2026 公布了錄用結果,該會議是是人工智能領域極具影響力的國際頂級學術會議之一。據悉本次會議共有 23680 篇投稿進入審稿階段,最終 4167 篇論文被錄用,錄取率為 17.6%。
火山引擎多媒體實驗室和北京大學合作的論文《VQ-Insight: Teaching VLMs for AI-Generated Video Quality Understanding via Progressive Visual Reinforcement Learning》被選為本次會議口頭匯報文章。
![]()
VQ-Insight: https://arxiv.org/pdf/2506.18564
Q-Insight: https://arxiv.org/pdf/2503.22679
??訓練與推理代碼:https://github.com/bytedance/Q-Insight
開源模型:https://huggingface.co/ByteDance/Q-Insight
論文背景
隨著視頻生成模型的涌現,僅憑一句提示詞或一張圖片生成逼真、生動的高質感視頻正逐漸成為現實。隨著 AIGC 視頻技術加速演進,如何在后訓練階段進一步提升模型的生成質量變得尤為關鍵。可靠的質量評估與偏好選擇不僅是評價工具,更是后訓練的重要驅動力,它們能夠精確引導視頻生成模型向人眼感知對齊,從而顯著提升畫面質量與時序一致性。
此前,北京大學與火山引擎多媒體實驗室聯合提出了首個基于強化學習訓練的多模態大模型圖像畫質理解方案Q-Insight。該方法擺脫了對大規模文本標注的依賴,充分挖掘大模型的推理潛力,使其能夠深入思考圖像質量背后的本質因素。然而,將這一思路擴展到 AIGC 視頻評估仍面臨新的挑戰,即:1)如何更有效地激發大模型的時序感知能力與多維度畫質理解能力;2)如何建立評估模型與生成模型的反饋互動,使兩者在優化過程中獲得動態增強,相互促進。
漸進式視覺質量強化學習框架
圖像只捕捉視頻的一個切片,用戶真實的視頻觀看體驗還取決于時間維度,例如運動是否自然?色彩是否在動態中穩定?因此,我們把 Q-Insight 的 “推理式 + 強化學習” 思路,拓展到自然視頻和 AIGC 視頻中,提出了推理式 AIGC 視頻畫質理解大模型VQ-Insight。該方法使用漸進式的視覺質量強化學習框架,包括圖像打分預熱階段、任務驅動的通用時序學習階段以及與視頻生成模型的聯合微調階段。通過由易到難、由通用到具體的視頻質量打分學習,僅使用少量數據就能教會 AIGC 視頻偏好比較,AIGC 視頻多維度打分,自然視頻打分等多項任務,并最終建立和下游生成模型的專項評估能力。同時,該方法引入時序建模獎勵函數和長度控制獎勵函數,鼓勵大模型探索視頻幀間的相關性和連貫性,并提供對于視頻質量線索的豐富分析,增強偏好比較和分數回歸的準確性。
進一步,該方法提出了一種生成模型與質量評估模型 “共同進化” 的聯合訓練方式:生成模型每一輪都會產生一批新視頻,VQ-Insight 自動從中挑選出更好的和更差的樣本,構建高質量偏好數據;這些偏好數據既用于繼續優化視頻生成模型(如 DPO),也用于反向加強 VQ-Insight 的偏好理解能力,使其逐步適配并引導當前的生成模型。通過這種閉環式的協同優化,生成模型和評估模型會隨著迭代不斷變強,實現 “越生成越懂、越懂越能生” 的持續提升效果。
![]()
實驗結果
實驗結果充分驗證了 VQ-Insight 在 AIGC 視頻偏好比較,多維度打分和自然視頻打分任務中的卓越表現。
在 AIGC 偏好比較任務上,VQ-Insight 在多個公開數據集上的表現均超過當前最先進的方法,并能夠從視覺質量、時序一致性、動態程度和視頻真實性方面提供完整詳細的推理過程。
![]()
![]()
在 AIGC 多維度打分任務上,VQ-Insight 能夠在空間質量、時序質量和文本視頻一致性打分上都取得最優性能。
![]()
在自然視頻打分任務上,VQ-Insight 同樣表現出出色的分數擬合精確度,特別是在域外數據集上泛化能力突出。
![]()
![]()
VQ-Insight 強大的 AIGC 視頻偏好比較能力,可直接應用于視頻生成模型的直接偏好優化(DPO)。如圖所示,基于 VQ-Insight 的方案相比于生成模型基線和對比方法,有效地緩解了錯誤生成的問題,并有著更鮮艷的色彩和動態。
![]()
總結
VQ-Insight 將 “推理式 + 強化學習” 思路應用于 AIGC 視頻畫質理解任務中,在偏好比較、多維度畫質打分與自然視頻質量評估等任務上均取得了突破性表現。通過漸進式視覺質量強化學習框架與創新的時序獎勵機制,VQ-Insight 能夠以極少的數據實現強泛化和強解釋性,精準捕捉視頻的空間清晰度、動態一致性、內容真實性等多維度質量特征。更重要的是,VQ-Insight 已能直接用于生成模型的后訓練,成為生成視頻訓練的可插拔獎勵與偏好模塊,把 “看得準” 轉化為 “生成得更好”,為未來的視頻生成模型帶來更穩定、更符合人眼感知的畫面質量,為下一代 AIGC 視頻生成技術的發展奠定了關鍵基礎。





京公網安備 11011402013531號