![]()
當你在觀看一部兩小時的電影時,你的眼睛并不會平均分配注意力到每一個畫面。相反,你會在關鍵情節出現時聚精會神地觀看,在過渡場景時放松注意力。這種"有重點的觀看"能力,正是中山大學聯合阿里巴巴通義實驗室研究團隊想要賦予人工智能的核心能力。
這項由中山大學計算機科學與工程學院的傅圣豪、楊啟澤、李袁明等研究者,聯合阿里巴巴通義實驗室的魏西涵等專家共同完成的研究,發表于2025年9月的arXiv預印本平臺(論文編號:arXiv:2509.24786v1)。他們開發了一個名為LOVE-R1的視頻理解模型,這個模型最大的特點就是能夠像人類一樣,先粗略瀏覽整個視頻內容,然后根據問題需要"放大鏡式"地仔細觀察特定片段。
傳統的AI視頻理解就像用固定規格的網篩撈魚——要么網眼太大漏掉小魚,要么網眼太小裝不下太多魚。具體來說,當前的大型視頻語言模型面臨著一個根本性的矛盾:要理解長視頻的完整情節,就需要密集采樣更多畫面幀,但這會導致空間細節模糊;要保持畫面的清晰度和細節,就必須減少采樣幀數,這又會丟失時間線上的重要信息。這種"魚與熊掌不可兼得"的困境,讓AI在面對長視頻理解任務時表現不佳。
研究團隊通過分析發現了一個有趣的現象:在大多數視頻問答任務中,真正需要用到的關鍵幀其實很少。就像看一部偵探電影,雖然整部影片有兩小時,但破案的關鍵線索可能只出現在幾個重要場景中。具體的數據顯示,超過75%的問題只需要隨機選擇的32幀畫面就能回答,而90%的注意力權重都集中在僅僅5%的幀上。
基于這一洞察,LOVE-R1采用了一種"快慢結合"的視頻處理策略。這就像你用無人機俯瞰整個城市規劃路線,然后步行深入感興趣的具體街區進行詳細探索。模型首先以高幀率但低分辨率的方式快速瀏覽整個視頻,獲得全局時間線的理解。當遇到需要更多視覺細節的問題時,模型會智能地選擇特定時間段,用高分辨率的方式重新觀察這些片段。
整個推理過程被設計為一個三步驟的多輪對話。在第一步,模型評估當前掌握的視覺信息是否足夠回答問題,這像是學生在考試時先判斷自己是否已經掌握了答題所需的全部知識點。如果信息不夠,模型會進入第二步,基于問題內容和已有的全局理解,精確定位需要"放大觀察"的時間段。最后在第三步,結合全局視角和局部細節,給出最終答案。
為了訓練模型具備這種智能的"注意力分配"能力,研究團隊設計了一個三階段的訓練方案。第一階段是"模板適應訓練",讓模型熟悉這種新的視頻處理格式。這就像教會一個人使用新式的顯微鏡,需要先熟悉設備的操作方式。他們使用了約15.3萬個視頻指令樣本,其中包括FineVideo數據集和LLaVA-Video-178k中2-3分鐘的視頻片段,還加入了ET-Instruct數據集來增強時間定位能力。
第二階段是"思維鏈冷啟動",團隊精心構建了3.8萬個高質量的思維鏈數據。這些數據來自兩個經過精心篩選的視頻問答數據集:NExT-GQA和CG-Bench。每個數據樣本都包含了完整的推理過程,就像為學生提供了詳細的解題步驟示例。為了確保數據質量,他們使用了強大的專有推理模型Gemini 2.5 Pro來生成這些思維鏈,并通過嚴格的清洗和過濾流程確保每個樣本的準確性。
第三階段最具創新性,被稱為"解耦強化學習"。傳統的強化學習只看最終答案是否正確,這就像只根據考試總分來評價學生,無法了解具體哪道題做得好哪道題做得不好。研究團隊將這個多步驟推理過程拆解為獨立的單步推理,分別優化每一步的表現。特別是對于"放大觀察"這一步,他們設計了專門的獎勵機制:如果模型選擇的時間段與標準答案有重疊,就給予正向獎勵,否則給予負向獎勵。這種精細化的反饋讓模型能夠更準確地學會何時以及在哪里進行細節觀察。
在具體實現上,LOVE-R1基于Qwen2.5-VL 7B模型進行優化。對于"快速瀏覽"模式,模型最多采樣768幀畫面,每幀編碼為32個token(約168×168像素)。對于"放大觀察"模式,每個選定片段最多采樣32幀,每幀編碼為256個token(約448×448像素)。由于內存限制,推理過程最多允許3個步驟,總體上下文控制在1.6萬token左右。
在四個主要的長視頻理解基準測試中,LOVE-R1的表現相當出色。在LVBench上得分48.2%,在LongVideoBench上得分60.1%,在VideoMME上得分66.2%,在MLVU上得分67.4%。與基礎模型Qwen2.5-VL相比,平均提升了3.1個百分點,其中在LVBench上的提升最為顯著,達到了6.2個百分點。這些提升看似不大,但在AI視頻理解這個高難度領域,每一個百分點的提升都代表著技術的顯著進步。
研究團隊還進行了詳細的消融實驗來驗證各個組件的有效性。他們發現,相比于完全不使用"放大觀察"功能的版本,LOVE-R1的整體表現提升了5.3個百分點。當他們嘗試隨機選擇放大片段時,效果明顯不如智能選擇。這證明了模型確實學會了根據問題內容來判斷哪些視頻片段最值得仔細觀察。
在推理步數的實驗中,研究團隊發現使用2-3個推理步驟時效果最佳。只有1個步驟時,模型只能基于低分辨率的全局信息回答問題,準確率較低。超過3個步驟后,性能提升趨于飽和,這可能是因為訓練時的上下文長度限制。
為了證明性能提升確實來自于這種動態的注意力分配機制,而非單純的推理能力提升,研究團隊還對比了使用固定高分辨率幀和固定低分辨率幀的單步推理模型。結果顯示,使用128個高分辨率幀的模型在短視頻上表現較好但在長視頻上效果不佳,而使用768個低分辨率幀的模型則恰好相反。LOVE-R1通過動態平衡這兩種模式,在各種長度的視頻上都取得了最優表現。
研究團隊還提供了一些精彩的可視化案例。在一個關于烹飪視頻的問題中,當被問及"有多少瓣大蒜被加入到培根油中"時,模型首先基于全局信息判斷需要尋找添加大蒜的場景,然后精確定位到23-25秒的時間段進行放大觀察,最終從屏幕文字"GARLIC 4 CLOVES, MINCED"中找到了正確答案。在另一個關于電影角色的問題中,面對"哪個角色沒有在視頻中出現"的問題,模型分兩步分別定位到不同時間段,找到了Spider-Horse、Spider-Dinosaur和Spider-Cat,最終正確推斷出Spider-kangaroo是沒有出現的角色。
這項研究的技術創新點不僅僅在于提出了新的視頻處理策略,更重要的是為解決長視頻理解這一核心挑戰提供了一個全新的思路。傳統方法試圖通過更大的模型或更長的上下文來硬性解決問題,而LOVE-R1通過模仿人類的觀看習慣,用更智能的方式分配計算資源。
當然,這項研究也有一些局限性。由于計算資源的限制,模型的推理步數被限制在3步以內,上下文長度也控制在1.6萬token。研究團隊認為,如果能夠擴展到更長的上下文和更多的推理步驟,性能還有進一步提升的空間。同時,他們也指出,當前長視頻理解領域的性能很大程度上受限于訓練數據的質量,開源更多高質量的長視頻理解數據集將對整個領域產生重要推動作用。
這項研究的意義遠不止于技術層面的突破。在實際應用中,這種智能的視頻理解能力可以應用于視頻內容審核、智能視頻編輯、教育視頻分析、安防監控等多個領域。比如在教育場景中,AI可以自動識別課堂視頻中的重點講解片段;在安防領域,系統可以快速瀏覽監控錄像并自動標記可疑行為發生的時間段。
從更廣闊的角度來看,LOVE-R1代表了人工智能向更接近人類認知方式發展的重要一步。人類在處理復雜信息時,天然具備這種"先粗后細、重點關注"的能力。這項研究成功地將這種認知策略編碼到了AI系統中,為未來開發更智能、更高效的多模態AI系統提供了重要啟發。
說到底,LOVE-R1最大的價值在于證明了一個重要觀點:解決AI的復雜問題,有時候不需要更大的模型或更多的計算資源,而需要更聰明的策略。正如人類通過合理分配注意力來高效處理信息一樣,AI也可以通過學習這種智能的資源分配方式來提升性能。這種思路不僅適用于視頻理解,也為其他需要處理大量信息的AI任務提供了新的解決方案。隨著技術的進一步發展,我們有理由期待看到更多采用類似策略的AI系統,它們將更加智能、更加高效,也更加接近人類的認知方式。
Q&A
Q1:LOVE-R1的"放大鏡觀看"機制具體是怎么工作的?
A:LOVE-R1采用"快慢結合"的策略,首先用低分辨率高幀率的方式瀏覽整個視頻獲得全局理解,然后根據問題需要智能選擇特定時間段用高分辨率重新觀察。這個過程分三步:先判斷信息是否夠用,不夠就定位需要放大的片段,最后結合全局和局部信息給出答案。
Q2:為什么LOVE-R1比傳統視頻理解模型效果更好?
A:傳統模型要么用高分辨率但幀數少丟失時間信息,要么用低分辨率但幀數多丟失空間細節。LOVE-R1通過動態分配注意力解決了這個矛盾,在四個長視頻理解基準上平均提升3.1個百分點,其中LVBench提升6.2個百分點。
Q3:LOVE-R1的訓練過程有什么特別之處?
A:LOVE-R1采用三階段訓練:先適應新的視頻處理格式,然后用3.8萬個高質量思維鏈數據進行冷啟動,最后通過"解耦強化學習"分別優化每個推理步驟。特別是對"放大觀察"步驟設計了專門的獎勵機制,讓模型學會精確選擇觀察時間段。





京公網安備 11011402013531號