![]()
長視頻時代已經(jīng)到來,從抖音快手到B站YouTube,我們每天都在觀看著大量的視頻內(nèi)容。然而,當我們試圖讓人工智能也能像人類一樣理解這些視頻時,卻遇到了一個棘手的問題。這就好比讓一個人只能通過幾張照片來理解一部兩小時的電影情節(jié)一樣困難。
這項由清華大學的李佳洛和微軟亞洲研究院的李斌、李佳豪、陸燕等研究者共同完成的研究發(fā)表于2025年12月3日,論文編號為arXiv:2512.04000v1。研究團隊提出了一個名為DIG(DIvide, then Ground)的創(chuàng)新框架,專門用于解決大型多模態(tài)模型在長視頻理解方面的關(guān)鍵挑戰(zhàn)。
要理解這個問題的復(fù)雜性,不妨回到我們?nèi)粘I钪械囊粋€場景。當你看一部電影時,有些問題需要你了解整部電影的劇情走向,比如"這部電影的主題是什么?"而有些問題只需要你關(guān)注某個特定片段,比如"主角用什么武器打敗了反派?"人類在觀看時能夠自然地調(diào)整注意力焦點,但現(xiàn)有的AI系統(tǒng)卻很難做到這一點。
當前的大型多模態(tài)模型在處理長視頻時面臨著兩大核心挑戰(zhàn)。首先是計算資源的限制,就像試圖在一張小紙條上記錄一本厚厚字典的所有內(nèi)容一樣,模型的上下文長度有限,無法處理過多的視頻幀。其次是計算成本的問題,處理密集的視頻令牌需要消耗大量計算資源,這就好比用顯微鏡逐個檢查每一粒沙子來尋找鉆石一樣效率低下。
現(xiàn)有的解決方案主要采用查詢感知的幀選擇方法,即根據(jù)問題的內(nèi)容來智能選擇最相關(guān)的視頻幀。雖然這種方法在理論上很有前景,但在實踐中卻帶來了巨大的計算開銷。研究團隊發(fā)現(xiàn),并非所有類型的問題都需要如此復(fù)雜的搜索機制。
研究團隊通過大量實驗發(fā)現(xiàn)了一個重要規(guī)律:隨著輸入幀數(shù)量的增加,模型的性能并不總是單調(diào)遞增的。相反,性能會先上升然后下降,這個現(xiàn)象就像烹飪時調(diào)味料的使用一樣——適量能提升口感,過量反而會破壞整體效果。更重要的是,這種性能變化模式在不同類型的問題上表現(xiàn)出明顯差異。
基于這個發(fā)現(xiàn),研究團隊提出了一個關(guān)鍵的問題分類方法,將視頻問題分為兩大類:全局查詢和局部查詢。全局查詢就像是問"這道菜的整體風味如何?",需要對整個視頻有全面的理解;而局部查詢則像是問"廚師在第三分鐘時加了什么調(diào)料?",只需要關(guān)注特定的時間段或事件。
通過對多個數(shù)據(jù)集的深入分析,研究團隊發(fā)現(xiàn)了一個令人驚訝的現(xiàn)象:對于全局查詢,簡單的均勻采樣方法已經(jīng)能夠達到很好的效果,而復(fù)雜的查詢感知選擇方法并沒有帶來顯著提升。這就好比在觀賞一幅畫作時,如果你想了解整體的藝術(shù)風格,只需要均勻地掃視各個部分就足夠了,不需要用放大鏡仔細檢查每個細節(jié)。
相反,對于局部查詢,隨著輸入幀數(shù)量的增加,模型性能會顯著下降。這是因為大量無關(guān)的幀信息會像噪音一樣干擾模型對特定內(nèi)容的識別。這種情況下,查詢感知的幀選擇就變得至關(guān)重要,就像在嘈雜的音樂會現(xiàn)場,你需要專門的設(shè)備來捕捉特定樂器的聲音一樣。
基于這些深刻洞察,研究團隊開發(fā)了DIG框架,這是一個能夠根據(jù)問題類型自動調(diào)整策略的智能系統(tǒng)。DIG的工作流程可以比作一個經(jīng)驗豐富的圖書管理員,首先判斷讀者的需求類型,然后采用最適合的檢索策略。
DIG的第一步是問題類型識別,這個過程就像一個智能分診系統(tǒng)。當用戶輸入一個關(guān)于視頻的問題時,系統(tǒng)會使用大語言模型來分析問題的性質(zhì)。這個分析過程采用了鏈式思維的方法,就像一個偵探逐步分析線索一樣:首先理解問題的基本含義,然后推測視頻的可能類型,接著識別問題中的具體指向性元素,最后綜合判斷這是一個全局問題還是局部問題。
對于全局問題,DIG采用標準的均勻采樣策略,這就像用廣角鏡頭拍攝風景照一樣,確保畫面的各個部分都能被覆蓋到。這種方法不僅效率高,而且效果好,因為全局問題本身就需要對整個視頻有全面的了解。
對于局部問題,DIG啟動了一個專門設(shè)計的多階段處理流程。這個流程的第一步是內(nèi)容自適應(yīng)幀選擇,簡稱CAFS。傳統(tǒng)的方法往往采用固定的采樣策略,就像按照固定的時間間隔拍照一樣,這種方法的問題是無法適應(yīng)視頻內(nèi)容的變化。CAFS則更像一個聰明的攝影師,能夠根據(jù)場景的重要性來決定何時按下快門。
CAFS的工作原理基于視頻內(nèi)容的語義相似性分析。系統(tǒng)首先使用DINOv2這一先進的視覺特征提取器來分析視頻中每一幀的內(nèi)容,這個過程就像給每一幀照片貼上內(nèi)容標簽一樣。然后,系統(tǒng)計算相鄰幀之間的相似度差異,當差異顯著增大時,就意味著場景發(fā)生了重要變化,這些變化點就像是故事情節(jié)的轉(zhuǎn)折點。
通過識別這些關(guān)鍵的變化點,CAFS能夠?qū)⒄麄€視頻自然地分割成多個語義一致的片段,就像將一本小說按照章節(jié)來劃分一樣。在每個片段中,系統(tǒng)選擇最具代表性的幀作為"代表幀"(r-frame),這些代表幀就像是每個章節(jié)的重點摘要。
接下來是獎勵分配階段,這個階段的目的是評估每個代表幀與用戶問題的相關(guān)性。與傳統(tǒng)方法使用相對簡單的相似度計算不同,DIG采用了大型多模態(tài)模型本身來進行這種評估。這就像請一位經(jīng)驗豐富的電影評論家來判斷每個場景與特定主題的相關(guān)性一樣,能夠提供更加準確和深入的判斷。
評估過程采用了雙維度評分機制。系統(tǒng)不僅考慮當前幀對回答問題的直接用處,還會評估這一幀是否暗示相鄰幀可能包含重要的補充信息。這種設(shè)計非常巧妙,因為許多復(fù)雜問題的答案往往需要多個相關(guān)場景的信息來共同構(gòu)建,就像拼圖一樣,單獨的一片可能看不出全貌,但它能提示我們其他相關(guān)拼圖片的位置。
有了每個代表幀的相關(guān)性評分后,系統(tǒng)進入視頻細化階段。這個階段采用了一種創(chuàng)新的迭代篩選算法,而不是傳統(tǒng)的固定閾值Top-K選擇方法。算法會反復(fù)計算當前候選幀集合的平均分,然后保留高于平均分的幀,這個過程會持續(xù)到候選集合穩(wěn)定為止。這種方法就像是一個自適應(yīng)的篩選器,能夠根據(jù)具體情況自動調(diào)整篩選標準。
最后一步是片段組合,系統(tǒng)會將選中的代表幀及其周圍的時間窗口合并成一個精煉的視頻片段。這個過程考慮到了時間連續(xù)性的重要性,因為很多視頻理解任務(wù)需要連續(xù)的動作或?qū)υ捫畔ⅰ>拖裰谱麟娪邦A(yù)告片一樣,系統(tǒng)會保留最精彩和最相關(guān)的連續(xù)片段,而不是零散的單獨幀。
研究團隊在三個權(quán)威的長視頻理解基準測試上驗證了DIG的效果,這些測試包括MLVU、LongVideoBench和VideoMME。實驗結(jié)果顯示,DIG在幾乎所有設(shè)置下都顯著優(yōu)于現(xiàn)有的基準方法。特別值得注意的是,即使在極高的幀數(shù)設(shè)置下(比如256幀),DIG仍然能夠保持穩(wěn)定的性能提升,而其他方法的性能往往會開始下降。
在MLVU數(shù)據(jù)集上,使用32幀設(shè)置時,DIG在Qwen2.5-VL-7B模型上實現(xiàn)了7.68%的性能提升,在LongVideoBench上實現(xiàn)了4.51%的提升。這些提升在人工智能領(lǐng)域已經(jīng)是相當顯著的進步。更重要的是,DIG展現(xiàn)出了優(yōu)秀的可擴展性,當輸入幀數(shù)增加到256幀時,性能提升變得更加明顯。
研究團隊還進行了詳細的消融實驗來驗證各個組件的作用。結(jié)果顯示,CAFS方法在選擇代表幀方面明顯優(yōu)于傳統(tǒng)的均勻采樣,特別是對于較長的視頻,這種優(yōu)勢更加明顯。這是因為長視頻中的信息密度分布往往是不均勻的,簡單的均勻采樣可能會錯過重要信息或包含太多冗余內(nèi)容。
在獎勵分配方面,使用大型多模態(tài)模型進行相關(guān)性評估比傳統(tǒng)的CLIPScore方法表現(xiàn)更好。這個發(fā)現(xiàn)很有意義,因為它表明,更強大的模型不僅能夠提供更好的最終推理能力,也能夠提供更準確的中間判斷。這就像請一位專家既當顧問又當執(zhí)行者一樣,能夠確保整個過程的質(zhì)量。
時間窗口長度的選擇也經(jīng)過了仔細的優(yōu)化。實驗顯示,窗口長度為2時效果最佳,這個設(shè)置在保證信息完整性和避免噪音引入之間找到了最佳平衡點。太小的窗口可能會丟失重要的上下文信息,而太大的窗口則可能引入不相關(guān)的干擾信息。
從計算效率的角度來看,DIG雖然增加了一定的處理開銷,但這種開銷是合理的,特別是考慮到顯著的性能提升。與其他查詢感知方法相比,DIG的計算開銷要小得多。更重要的是,通過問題類型識別,系統(tǒng)能夠為全局問題選擇高效的均勻采樣策略,這樣就避免了不必要的計算浪費。
這項研究的意義遠超技術(shù)本身。隨著視頻內(nèi)容的爆發(fā)式增長,自動視頻理解技術(shù)變得越來越重要。無論是內(nèi)容推薦、自動字幕生成、還是視頻搜索,都需要AI系統(tǒng)能夠準確理解視頻內(nèi)容。DIG提供的這種問題感知的處理策略,為構(gòu)建更智能、更高效的視頻理解系統(tǒng)奠定了重要基礎(chǔ)。
研究團隊的工作還揭示了一個更深層的洞察:不同類型的任務(wù)可能需要完全不同的處理策略,而一刀切的方法往往不是最優(yōu)解。這個思路不僅適用于視頻理解,也可能啟發(fā)其他多模態(tài)理解任務(wù)的研究。
展望未來,這項技術(shù)可能會被廣泛應(yīng)用到各種實際場景中。比如,在教育領(lǐng)域,AI助手可以更好地理解教學視頻的內(nèi)容,為學生提供精準的知識點提取和問答服務(wù)。在娛樂領(lǐng)域,視頻平臺可以更準確地分析用戶觀看的內(nèi)容,提供更個性化的推薦。在安防領(lǐng)域,監(jiān)控系統(tǒng)可以更智能地識別和分析關(guān)鍵事件。
總的來說,這項由清華大學和微軟聯(lián)合完成的研究為長視頻理解這一重要問題提供了一個既實用又高效的解決方案。通過巧妙地將問題分類和自適應(yīng)處理相結(jié)合,DIG不僅提升了性能,還為未來的研究提供了新的思路。對于那些希望深入了解這項技術(shù)細節(jié)的讀者,可以通過論文編號arXiv:2512.04000v1查閱完整的研究論文。
Q&A
Q1:什么是DIG框架?
A:DIG是清華大學和微軟開發(fā)的長視頻理解框架,它能根據(jù)問題類型自動選擇最合適的處理策略。對于需要整體理解的問題,它使用簡單高效的均勻采樣;對于需要關(guān)注特定片段的問題,它會智能選擇最相關(guān)的視頻幀來處理。
Q2:DIG比現(xiàn)有方法好在哪里?
A:DIG的最大優(yōu)勢是能夠區(qū)分不同類型的問題并采用相應(yīng)策略。實驗顯示,在32幀設(shè)置下,DIG在主要測試數(shù)據(jù)集上的性能提升達到4-7%,而且即使在256幀的高密度輸入下仍能保持穩(wěn)定提升,這是其他方法難以做到的。
Q3:這項技術(shù)有什么實際應(yīng)用價值?
A:DIG技術(shù)可以廣泛應(yīng)用于視頻內(nèi)容分析、自動字幕生成、視頻搜索和推薦系統(tǒng)等領(lǐng)域。它能讓AI更準確地理解長視頻內(nèi)容,為教育、娛樂、安防等行業(yè)提供更智能的視頻處理能力,特別是在處理長時間視頻內(nèi)容時效果顯著。





京公網(wǎng)安備 11011402013531號