![]()
這項(xiàng)由Salesforce AI Research的王子陽和周洪露等研究人員,以及北卡羅來納大學(xué)教堂山分校的研究團(tuán)隊(duì)共同完成的研究,發(fā)表于2025年12月的arXiv預(yù)印本平臺(論文編號:arXiv:2512.05774v1)。對于那些希望深入了解技術(shù)細(xì)節(jié)的讀者,可以通過這個(gè)編號在學(xué)術(shù)數(shù)據(jù)庫中找到完整的研究論文。
當(dāng)你在看一部兩小時(shí)的電影時(shí),你的大腦并不會(huì)逐幀分析每個(gè)畫面。相反,你會(huì)根據(jù)劇情需要,有選擇地關(guān)注關(guān)鍵場景,跳過無關(guān)內(nèi)容,然后在腦海中拼湊出完整的故事線。這種"主動(dòng)觀察"的能力,正是人類理解長視頻的秘訣。
然而,目前的人工智能在處理長視頻時(shí),就像一個(gè)強(qiáng)迫癥患者,必須把每一幀都仔細(xì)看一遍,結(jié)果不僅耗費(fèi)大量計(jì)算資源,還容易在海量信息中迷失關(guān)鍵線索。設(shè)想你讓AI回答"視頻中德國女性在哪個(gè)時(shí)刻出現(xiàn)"這樣的問題,傳統(tǒng)方法會(huì)讓AI把整個(gè)視頻從頭到尾掃描一遍,生成大量文字描述,然后再從這些描述中尋找答案。這就像讓人背誦整本字典來回答一個(gè)簡單的詞匯問題一樣低效。
研究團(tuán)隊(duì)意識到,真正的突破在于讓AI學(xué)會(huì)像人類一樣"主動(dòng)觀察"。他們開發(fā)了一個(gè)叫做"主動(dòng)視頻感知"(Active Video Perception,簡稱AVP)的框架,教會(huì)AI如何有目標(biāo)地觀察視頻,而不是被動(dòng)地處理所有信息。
這個(gè)創(chuàng)新的核心在于將長視頻理解轉(zhuǎn)化為一個(gè)"探索游戲"。就像一個(gè)偵探在調(diào)查案件時(shí),會(huì)根據(jù)線索決定下一步該去哪里調(diào)查,該尋找什么證據(jù)一樣,AVP讓AI成為了一個(gè)視頻偵探。當(dāng)面臨一個(gè)問題時(shí),AI不再盲目搜索,而是制定觀察計(jì)劃,執(zhí)行有針對性的觀察,然后評估收集到的證據(jù)是否足夠回答問題。
研究團(tuán)隊(duì)在五個(gè)不同的長視頻理解基準(zhǔn)測試上驗(yàn)證了這個(gè)方法的效果。結(jié)果令人印象深刻:AVP不僅在準(zhǔn)確性上超越了現(xiàn)有最好的方法5.7%,更重要的是,它只需要現(xiàn)有方法18.4%的推理時(shí)間和12.4%的輸入數(shù)據(jù)量。這意味著AI可以用更少的資源做出更好的判斷,就像一個(gè)經(jīng)驗(yàn)豐富的醫(yī)生只需要幾個(gè)關(guān)鍵癥狀就能做出準(zhǔn)確診斷,而不需要進(jìn)行所有可能的檢查。
一、從被動(dòng)接收到主動(dòng)探索的轉(zhuǎn)變
傳統(tǒng)的AI視頻理解方法就像一個(gè)勤勉但缺乏策略的學(xué)生。當(dāng)老師給出一道關(guān)于課本某個(gè)章節(jié)的問題時(shí),這個(gè)學(xué)生會(huì)把整本教科書從第一頁開始逐字逐句地抄寫下來,然后再從這堆筆記中尋找答案。雖然最終可能找到正確答案,但這個(gè)過程既耗時(shí)又低效。
現(xiàn)有的智能視頻分析系統(tǒng)基本都采用這種"先全盤描述,再搜索答案"的策略。它們會(huì)使用專門的"視頻描述器"將視頻的每個(gè)片段都轉(zhuǎn)換成文字描述,形成一個(gè)龐大的"字幕數(shù)據(jù)庫",然后在這個(gè)數(shù)據(jù)庫中搜索與問題相關(guān)的信息。這種方法存在兩個(gè)根本性問題。
第一個(gè)問題是計(jì)算成本過高。當(dāng)處理一個(gè)小時(shí)長的視頻時(shí),系統(tǒng)需要為每個(gè)時(shí)間段生成詳細(xì)的文字描述,無論這些內(nèi)容是否與最終的問題相關(guān)。這就像讓人為整座圖書館的每本書寫摘要,只為了回答一個(gè)關(guān)于特定主題的簡單問題。大量的計(jì)算資源被浪費(fèi)在處理無關(guān)信息上。
第二個(gè)問題是信息精度損失。當(dāng)復(fù)雜的視覺信息被壓縮成簡單的文字描述時(shí),許多細(xì)微但重要的細(xì)節(jié)會(huì)丟失。比如,一個(gè)物體的確切位置、動(dòng)作的精確時(shí)機(jī)、表情的微妙變化等,這些信息在轉(zhuǎn)換過程中很容易被簡化或忽略。這就像通過電話傳話游戲傳遞消息,每次轉(zhuǎn)述都會(huì)損失一些原始信息的準(zhǔn)確性。
研究團(tuán)隊(duì)從人類的視覺認(rèn)知過程中獲得了靈感。當(dāng)人們觀看長視頻時(shí),他們的注意力會(huì)根據(jù)當(dāng)前的目標(biāo)和興趣動(dòng)態(tài)調(diào)整。如果你想知道電影中某個(gè)角色何時(shí)首次出現(xiàn),你的眼睛和大腦會(huì)自動(dòng)跳過無關(guān)的場景,專注于尋找那個(gè)角色的身影。一旦找到,你可能會(huì)更仔細(xì)地觀察那個(gè)片段,確認(rèn)細(xì)節(jié),然后停止進(jìn)一步的搜索。
這種"主動(dòng)感知"的理論在認(rèn)知科學(xué)領(lǐng)域已經(jīng)被廣泛研究。它的核心觀點(diǎn)是:一個(gè)智能系統(tǒng)應(yīng)該知道自己為什么要觀察,應(yīng)該選擇觀察什么,并且能夠決定何時(shí)、何地以及如何進(jìn)行觀察。換句話說,感知不應(yīng)該是一個(gè)被動(dòng)的信息接收過程,而應(yīng)該是一個(gè)主動(dòng)的、有目標(biāo)導(dǎo)向的探索活動(dòng)。
基于這個(gè)理念,研究團(tuán)隊(duì)重新定義了長視頻理解任務(wù)。他們不再把視頻看作一個(gè)需要完全處理的信息源,而是將其視為一個(gè)可以交互探索的環(huán)境。在這個(gè)環(huán)境中,AI系統(tǒng)扮演著一個(gè)主動(dòng)的探索者角色,它會(huì)根據(jù)問題的要求,有選擇性地"訪問"視頻的不同部分,收集相關(guān)證據(jù),并持續(xù)評估這些證據(jù)是否足以回答問題。
這種轉(zhuǎn)變的意義遠(yuǎn)不止提高效率那么簡單。它代表了AI視頻理解從"暴力窮舉"向"智能推理"的根本性轉(zhuǎn)變。就像從用放大鏡逐寸搜索整個(gè)房間,轉(zhuǎn)向根據(jù)線索有針對性地檢查特定區(qū)域一樣,這種方法更接近人類解決問題的自然方式。
二、三步循環(huán):計(jì)劃-觀察-反思的智能探索
AVP框架的核心是一個(gè)精心設(shè)計(jì)的三步循環(huán)過程,就像一個(gè)經(jīng)驗(yàn)豐富的私家偵探破案的標(biāo)準(zhǔn)流程。每當(dāng)接到一個(gè)新案件(問題)時(shí),偵探不會(huì)盲目地四處搜尋,而是會(huì)遵循一個(gè)系統(tǒng)化的調(diào)查方法:首先制定調(diào)查計(jì)劃,然后執(zhí)行實(shí)地觀察,最后評估收集到的證據(jù)是否足夠破案。
第一步是"計(jì)劃制定"階段。當(dāng)系統(tǒng)接收到一個(gè)關(guān)于視頻的問題時(shí),規(guī)劃器就像一個(gè)資深偵探在案件初期制定調(diào)查策略一樣工作。它需要回答三個(gè)關(guān)鍵問題:應(yīng)該尋找什么樣的證據(jù)("尋找目標(biāo)"),應(yīng)該在視頻的哪個(gè)時(shí)間段進(jìn)行搜索("搜索范圍"),以及應(yīng)該用什么樣的精度進(jìn)行觀察("觀察策略")。
對于"尋找目標(biāo)",規(guī)劃器會(huì)根據(jù)問題的性質(zhì)生成一個(gè)簡潔明確的觀察指令。比如,如果問題是"教練什么時(shí)候進(jìn)入房間",規(guī)劃器可能會(huì)生成"定位教練進(jìn)入的時(shí)刻"這樣的指令。如果是更復(fù)雜的多步推理問題,規(guī)劃器會(huì)專注于當(dāng)前輪次最需要解決的子問題,將復(fù)雜任務(wù)分解為可管理的小步驟。
對于"搜索范圍",規(guī)劃器會(huì)智能地確定目標(biāo)時(shí)間段。如果問題中明確提到了時(shí)間信息,比如"在1:00-1:30之間",規(guī)劃器會(huì)直接使用這個(gè)時(shí)間窗口。如果問題包含模糊的時(shí)間描述,比如"開場階段"或"結(jié)尾部分",規(guī)劃器會(huì)將其轉(zhuǎn)換為具體的時(shí)間范圍。當(dāng)完全沒有時(shí)間線索時(shí),規(guī)劃器會(huì)選擇以較低的精度快速掃描整個(gè)視頻,先獲得大致的方向再進(jìn)行精細(xì)搜索。
對于"觀察策略",規(guī)劃器會(huì)根據(jù)所需證據(jù)的復(fù)雜程度確定觀察的精細(xì)度。這包括每秒采樣多少幀(幀率設(shè)置)以及使用什么樣的空間分辨率。如果只需要粗略定位某個(gè)事件,規(guī)劃器可能選擇低幀率和低分辨率的快速掃描。如果需要捕捉細(xì)微的動(dòng)作或?qū)ο蠹?xì)節(jié),它會(huì)提高采樣密度以確保不遺漏重要信息。
第二步是"目標(biāo)觀察"階段。觀察器接收到規(guī)劃器制定的計(jì)劃后,就像一個(gè)專業(yè)攝影師按照拍攝方案執(zhí)行任務(wù)一樣,對視頻進(jìn)行有針對性的分析。與傳統(tǒng)方法不同,觀察器不會(huì)產(chǎn)生冗長的自由形式描述,而是生成結(jié)構(gòu)化的、帶時(shí)間戳的證據(jù)記錄。
這些證據(jù)記錄的格式非常標(biāo)準(zhǔn)化,每條記錄都包含一個(gè)時(shí)間區(qū)間和對該區(qū)間內(nèi)相關(guān)事件的簡潔描述。比如,對于"尋找教練進(jìn)入時(shí)刻"的任務(wù),觀察器可能會(huì)生成類似"[2:15-2:18]: 一位穿著藍(lán)色夾克的中年男性從左側(cè)門口進(jìn)入房間,手持戰(zhàn)術(shù)板"這樣的記錄。這種結(jié)構(gòu)化的記錄方式既保持了時(shí)間精確性,又避免了無關(guān)信息的干擾。
更重要的是,系統(tǒng)維護(hù)著一個(gè)累積的證據(jù)列表,每輪觀察都會(huì)向這個(gè)列表中添加新的證據(jù)。這就像偵探在案件調(diào)查過程中不斷補(bǔ)充案件檔案一樣,確保之前收集的所有有價(jià)值信息都被保留和利用。這種累積機(jī)制使得系統(tǒng)能夠在多輪觀察中建立起越來越完整的"證據(jù)鏈條"。
第三步是"證據(jù)反思"階段。反思器的作用就像法庭上的法官,需要評估現(xiàn)有證據(jù)是否足以支撐一個(gè)確鑿的結(jié)論。它會(huì)仔細(xì)審查累積的證據(jù)列表,判斷這些證據(jù)是否能夠充分回答原始問題。
反思器會(huì)產(chǎn)生兩個(gè)關(guān)鍵輸出:一個(gè)置信度分?jǐn)?shù)和一個(gè)詳細(xì)的判斷理由。置信度分?jǐn)?shù)量化了證據(jù)的充分程度,從0到1之間取值。判斷理由則說明了為什么認(rèn)為證據(jù)充分或不充分。如果置信度超過預(yù)設(shè)的閾值,反思器會(huì)從判斷理由中提取最終答案并結(jié)束整個(gè)過程。如果置信度不夠,它會(huì)明確指出還缺少什么信息,為下一輪觀察提供具體的指導(dǎo)。
當(dāng)需要進(jìn)行下一輪觀察時(shí),系統(tǒng)會(huì)更新歷史記錄,將當(dāng)前輪次的計(jì)劃、觀察結(jié)果和反思結(jié)論都添加到運(yùn)行歷史中。這個(gè)歷史記錄為規(guī)劃器提供了寶貴的上下文信息,使其能夠基于已有發(fā)現(xiàn)制定更精準(zhǔn)的下一步計(jì)劃。比如,如果前一輪在某個(gè)時(shí)間段沒有找到目標(biāo)事件,規(guī)劃器可能會(huì)調(diào)整搜索范圍或改變觀察精度。
這個(gè)循環(huán)過程會(huì)一直持續(xù),直到反思器確認(rèn)證據(jù)足夠充分,或者達(dá)到預(yù)設(shè)的最大觀察輪數(shù)限制。通過這種迭代的方式,系統(tǒng)能夠逐步縮小搜索范圍,提高證據(jù)質(zhì)量,最終達(dá)到既高效又準(zhǔn)確的視頻理解效果。
三、實(shí)戰(zhàn)驗(yàn)證:五大基準(zhǔn)測試的全面勝出
為了驗(yàn)證AVP框架的實(shí)際效果,研究團(tuán)隊(duì)選擇了五個(gè)在學(xué)術(shù)界廣泛認(rèn)可的長視頻理解基準(zhǔn)測試,這些測試就像不同類型的"考試科目",全面評估AI系統(tǒng)在各種視頻理解任務(wù)上的能力。
第一個(gè)測試是MINERVA,這是一個(gè)專門設(shè)計(jì)來挑戰(zhàn)復(fù)雜視頻推理能力的數(shù)據(jù)集。它包含1515個(gè)精心設(shè)計(jì)的問題,平均每個(gè)視頻長達(dá)12分鐘。這些問題往往需要跨越視頻的多個(gè)時(shí)間段尋找線索,然后進(jìn)行邏輯推理才能得出答案。比如,系統(tǒng)可能需要先找到某個(gè)角色在視頻開頭說過的話,然后結(jié)合視頻中段的行為,最后根據(jù)結(jié)尾的結(jié)果來判斷因果關(guān)系。這類似于讓AI閱讀一本懸疑小說,不僅要記住各個(gè)章節(jié)的細(xì)節(jié),還要理解它們之間的邏輯關(guān)聯(lián)。
第二個(gè)測試是LVBench,專門針對超長視頻設(shè)計(jì),包含103個(gè)每個(gè)長達(dá)1小時(shí)的視頻和1549個(gè)多選擇題。這個(gè)測試的挑戰(zhàn)在于視頻的極端長度,就像讓AI觀看完整的電影然后回答關(guān)于劇情細(xì)節(jié)的問題。在如此長的時(shí)間跨度內(nèi),有用的信息往往分散在各個(gè)角落,需要系統(tǒng)具備強(qiáng)大的長期記憶和信息檢索能力。
第三個(gè)測試是MLVU,這是一個(gè)多任務(wù)長視頻理解基準(zhǔn),包含2175個(gè)平均時(shí)長超過15分鐘的視頻問答樣本。它的特點(diǎn)是任務(wù)類型多樣化,既有簡單的事實(shí)性問題,也有復(fù)雜的推理性問題,全面測試系統(tǒng)的各項(xiàng)能力。
第四個(gè)測試是Video-MME,它是一個(gè)從短視頻到長視頻的綜合評估基準(zhǔn),包含2700個(gè)樣本,其中長視頻部分的平均時(shí)長為41分鐘。這個(gè)測試既考察感知能力(能否正確識別視頻中的對象和事件),也考察推理能力(能否理解事件之間的關(guān)系和因果邏輯)。
第五個(gè)測試是LongVideoBench,專注于需要長期上下文理解的推理問題,包含1337個(gè)視頻推理問題,其中長視頻部分包含533個(gè)時(shí)長在15-60分鐘之間的樣本。這個(gè)測試特別強(qiáng)調(diào)引用推理能力,即系統(tǒng)需要準(zhǔn)確定位和引用視頻中的特定片段來支撐其答案。
在所有這些測試中,AVP都表現(xiàn)出色。與目前最先進(jìn)的通用多模態(tài)大型語言模型相比,AVP使用Gemini-2.5-Pro作為基礎(chǔ)模型時(shí),在所有測試中都取得了最高分?jǐn)?shù)。更令人印象深刻的是,即使使用輕量級的Gemini-2.5-Flash模型,AVP的表現(xiàn)仍然超越了其基礎(chǔ)模型4.4%的平均準(zhǔn)確率。
在與其他智能視頻分析框架的比較中,AVP的優(yōu)勢更加明顯。研究團(tuán)隊(duì)將AVP與六個(gè)最新的智能視頻推理系統(tǒng)進(jìn)行了對比,包括VideoAgent、VideoTree、SiLVR、VideoLucy、LVAgent和DeepVideoDiscovery等。結(jié)果顯示,AVP在所有基準(zhǔn)測試中都達(dá)到了最佳或接近最佳的性能。特別值得注意的是,與最近發(fā)布的VideoLucy和DeepVideoDiscovery方法相比,AVP分別取得了10.5%和5.7%的平均準(zhǔn)確率提升。
更重要的是效率方面的突破。研究團(tuán)隊(duì)專門對AVP和目前表現(xiàn)最好的DeepVideoDiscovery方法進(jìn)行了詳細(xì)的效率對比分析。結(jié)果顯示,DeepVideoDiscovery處理一個(gè)視頻平均需要790.5秒,并且需要處理107萬個(gè)輸入數(shù)據(jù)單元。其中,僅僅是生成視頻描述這一個(gè)步驟就消耗了637.2秒和大約90萬個(gè)數(shù)據(jù)單元。
相比之下,AVP完全跳過了這個(gè)耗時(shí)的描述生成過程,直接進(jìn)行有針對性的推理。結(jié)果,AVP平均只需要145.3秒就能完成同樣的任務(wù),速度提升了5.44倍。同時(shí),它只需要處理13.25萬個(gè)輸入數(shù)據(jù)單元,僅為對比方法的12.4%。這就像原來需要寫一本書來回答一個(gè)問題,現(xiàn)在只需要寫幾頁紙就夠了,不僅節(jié)省了大量時(shí)間和資源,答案質(zhì)量還更高。
這些實(shí)驗(yàn)結(jié)果清楚地表明,主動(dòng)感知的策略不僅在理論上更合理,在實(shí)際應(yīng)用中也確實(shí)能夠?qū)崿F(xiàn)效率和準(zhǔn)確性的雙重提升。通過讓AI系統(tǒng)學(xué)會(huì)"思考后再觀察",而不是"觀察完再思考",可以顯著改善長視頻理解的整體性能。
四、深入剖析:成功要素的系統(tǒng)分析
為了更好地理解AVP為什么能夠取得如此顯著的性能提升,研究團(tuán)隊(duì)進(jìn)行了一系列精細(xì)的分析實(shí)驗(yàn),就像醫(yī)生在確診病因后還要弄清楚每種藥物的具體作用機(jī)制一樣。
首先,研究團(tuán)隊(duì)驗(yàn)證了AVP框架中每個(gè)組件的貢獻(xiàn)。他們設(shè)計(jì)了一個(gè)逐步添加組件的實(shí)驗(yàn),從最簡單的直接觀察開始,逐步加入規(guī)劃器和反思器,觀察性能如何變化。結(jié)果顯示,僅使用觀察器的基礎(chǔ)版本在MINERVA和LVBench上分別得到60.8%和67.4%的準(zhǔn)確率。當(dāng)加入規(guī)劃器后,性能顯著提升到63.9%和72.6%,這證明了有目標(biāo)的觀察策略比隨機(jī)觀察更有效。再加入反思器后,性能進(jìn)一步提升到65.6%和74.8%,這表明迭代評估和改進(jìn)對于復(fù)雜推理任務(wù)的重要性。
這個(gè)結(jié)果就像驗(yàn)證了一個(gè)團(tuán)隊(duì)協(xié)作的效果。如果只有一個(gè)人埋頭觀察(純觀察器),效果有限;如果有一個(gè)策劃者指導(dǎo)觀察方向(加入規(guī)劃器),效果會(huì)明顯改善;如果再有一個(gè)評估者來判斷工作質(zhì)量并指導(dǎo)改進(jìn)(加入反思器),整個(gè)團(tuán)隊(duì)的效果就會(huì)達(dá)到最佳狀態(tài)。
接下來,研究團(tuán)隊(duì)測試了不同模型組合對性能的影響。他們使用Gemini-2.5系列的不同版本(Flash和Pro)來分別擔(dān)任規(guī)劃器、觀察器和反思器的角色,就像在一個(gè)樂隊(duì)中嘗試不同樂手的組合一樣。實(shí)驗(yàn)發(fā)現(xiàn),所有組件都使用更強(qiáng)大模型時(shí)效果最好,但不同任務(wù)對不同組件的敏感度不同。
對于需要復(fù)雜多步推理的MINERVA任務(wù),規(guī)劃器和反思器的模型強(qiáng)度影響更大,因?yàn)檫@些組件需要進(jìn)行策略思考和邏輯評估。而對于包含超長視頻的LVBench任務(wù),觀察器的模型強(qiáng)度更為關(guān)鍵,因?yàn)樗枰邶嫶蟮臅r(shí)間跨度內(nèi)準(zhǔn)確定位和理解信息。這就像不同類型的工作需要不同的專業(yè)技能一樣。
研究團(tuán)隊(duì)還測試了觀察輪次數(shù)量對性能的影響。他們發(fā)現(xiàn),從一輪觀察增加到三輪觀察,性能會(huì)穩(wěn)步提升,但超過三輪后,改善就變得微乎其微了。這個(gè)發(fā)現(xiàn)很有實(shí)際意義,說明AVP能夠在較少的迭代中達(dá)到良好效果,不會(huì)因?yàn)檫^度循環(huán)而浪費(fèi)計(jì)算資源。這類似于學(xué)習(xí)過程中的規(guī)律:前幾次復(fù)習(xí)效果明顯,但過度復(fù)習(xí)的邊際收益會(huì)遞減。
另一個(gè)重要發(fā)現(xiàn)是證據(jù)結(jié)構(gòu)化的價(jià)值。研究團(tuán)隊(duì)比較了結(jié)構(gòu)化證據(jù)記錄和傳統(tǒng)的自由文本描述,發(fā)現(xiàn)結(jié)構(gòu)化的時(shí)間戳證據(jù)格式能夠帶來2-3%的性能提升。這看似微小的改進(jìn)實(shí)際上非常重要,因?yàn)樗C明了有組織的信息比雜亂的信息更有價(jià)值,就像整理好的筆記比散亂的草稿更容易復(fù)習(xí)和使用。
研究團(tuán)隊(duì)還測試了不同的置信度閾值對系統(tǒng)行為的影響。他們發(fā)現(xiàn),設(shè)置適中的置信度閾值(0.7左右)能夠平衡答案的準(zhǔn)確性和計(jì)算效率。過低的閾值會(huì)導(dǎo)致系統(tǒng)過早停止觀察,可能錯(cuò)過重要信息;過高的閾值則會(huì)導(dǎo)致不必要的額外觀察輪次,浪費(fèi)計(jì)算資源而不會(huì)顯著改善結(jié)果。
特別有趣的是,研究團(tuán)隊(duì)還分析了AVP在不同類型問題上的表現(xiàn)差異。對于事實(shí)性問題(如"誰出現(xiàn)在視頻中"),AVP的效率提升更為顯著,因?yàn)檫@類問題的答案相對明確,系統(tǒng)可以快速定位相關(guān)證據(jù)。對于需要復(fù)雜推理的問題(如"為什么會(huì)發(fā)生某件事"),雖然效率提升相對較小,但準(zhǔn)確性的改善更為明顯,這表明迭代觀察和反思對于深層理解的重要性。
最后,研究團(tuán)隊(duì)還驗(yàn)證了AVP在不同強(qiáng)度基礎(chǔ)模型上的可擴(kuò)展性。他們測試了從輕量級的Qwen3-VL-8B到強(qiáng)大的Gemini-2.5-Pro等不同模型,發(fā)現(xiàn)AVP的改進(jìn)效果在所有模型上都很明顯。這意味著主動(dòng)觀察的策略是一個(gè)通用性很強(qiáng)的改進(jìn)方法,不依賴于特定的模型架構(gòu),可以隨著底層技術(shù)的進(jìn)步而持續(xù)受益。
這些深入分析不僅驗(yàn)證了AVP設(shè)計(jì)的合理性,也為未來的改進(jìn)指明了方向。它們表明,通過精心設(shè)計(jì)的主動(dòng)觀察策略,AI系統(tǒng)確實(shí)可以實(shí)現(xiàn)更智能、更高效的視頻理解,而不是簡單地依靠更大的模型或更多的計(jì)算資源。
五、真實(shí)案例:從理論到實(shí)踐的生動(dòng)展示
為了讓讀者更直觀地理解AVP是如何工作的,研究團(tuán)隊(duì)提供了幾個(gè)詳細(xì)的案例分析,就像醫(yī)學(xué)教科書中的典型病例一樣,這些案例清晰地展示了整個(gè)系統(tǒng)的運(yùn)行過程。
第一個(gè)案例是一個(gè)關(guān)于空間定位的精確問題。問題是:"在德國女性被解說員介紹的片段中,墓碑紀(jì)念碑最初在屏幕上的哪個(gè)位置可以看到?"這個(gè)問題需要系統(tǒng)不僅要找到特定的時(shí)間點(diǎn),還要準(zhǔn)確描述空間位置信息。
在第一輪觀察中,AVP的規(guī)劃器制定了一個(gè)寬泛的搜索策略:以低幀率(0.5幀每秒)和低空間分辨率掃描整個(gè)視頻,尋找德國女性被介紹的場景。這就像先用廣角鏡頭快速瀏覽,尋找大致的目標(biāo)區(qū)域。觀察器執(zhí)行后發(fā)現(xiàn)了相關(guān)片段[1:00-1:10],并記錄下"解說員介紹德國夫婦,廣角鏡頭顯示牧場,可以看到墓碑紀(jì)念碑"。
但是,當(dāng)反思器評估這個(gè)證據(jù)時(shí),它給出了0.3的低置信度分?jǐn)?shù),判斷理由是"沒有直接線索表明墓碑紀(jì)念碑的位置"。這說明雖然找到了相關(guān)場景,但觀察精度不夠,無法回答關(guān)于具體位置的問題。
基于這個(gè)反饋,規(guī)劃器在第二輪制定了更精細(xì)的觀察計(jì)劃:專門針對[1:00-1:10]這個(gè)時(shí)間段,提高幀率到2幀每秒,使用中等空間分辨率進(jìn)行詳細(xì)觀察。這就像用放大鏡仔細(xì)檢查之前發(fā)現(xiàn)的重點(diǎn)區(qū)域。
第二輪觀察的結(jié)果令人滿意。觀察器詳細(xì)記錄道:"[1:04-1:09]:墓碑紀(jì)念碑作為一個(gè)小型圓錐形結(jié)構(gòu)出現(xiàn)在遠(yuǎn)處山丘上,位于屏幕的左上角背景中。德國夫婦站在中景位置。"
反思器評估這個(gè)新證據(jù)后,置信度提升到0.7,判斷理由是:"一個(gè)小型圓錐形石質(zhì)紀(jì)念碑在遠(yuǎn)距離的山丘上可見。這個(gè)紀(jì)念碑位于屏幕的左上角象限,在背景中。答案是D(左上角背景)。"由于置信度達(dá)到閾值,系統(tǒng)停止進(jìn)一步觀察并輸出最終答案。
這個(gè)案例完美展示了AVP的"由粗到細(xì)"的觀察策略。系統(tǒng)首先快速定位大致區(qū)域,然后根據(jù)需要提高觀察精度,最終獲得準(zhǔn)確的細(xì)節(jié)信息。
第二個(gè)案例展示了AVP處理復(fù)雜數(shù)值計(jì)算問題的能力。問題是:"將09:58時(shí)間戳顯示的紙張上的所有毫米總數(shù)相加,再加上視頻中路易斯安那松蛇幼體的平均長度,總共有多少毫米?"這是一個(gè)需要多步驟信息收集和數(shù)值計(jì)算的復(fù)合問題。
第一輪觀察中,規(guī)劃器聚焦于特定時(shí)間戳09:58附近,使用中等精度觀察紙張上的數(shù)據(jù)。觀察器成功讀取了紙張上列出的七個(gè)測量值:96.74、93.37、93.45、98.24、99.53、115.67和96.41毫米,總計(jì)693.41毫米。
但反思器意識到還缺少關(guān)鍵信息,置信度只有0.3,理由是"需要關(guān)于路易斯安那松蛇幼體平均長度的額外信息"。
第二輪觀察中,規(guī)劃器改變策略,以低幀率掃描整個(gè)視頻來尋找關(guān)于蛇類長度的信息。觀察器在[17:47-17:50]時(shí)間段發(fā)現(xiàn)解說員提到"路易斯安那松蛇通常長度在4到5英尺之間"。
反思器將兩輪觀察的信息整合,進(jìn)行了準(zhǔn)確的計(jì)算:將693.41毫米(紙張總數(shù))分別與4英尺(1219.2毫米)和5英尺(1524毫米)相加,得出總范圍是1912.61到2217.41毫米,對應(yīng)選項(xiàng)D。
這個(gè)案例展示了AVP處理需要信息整合和數(shù)值推理的復(fù)雜問題的能力。系統(tǒng)不僅能夠從不同來源收集信息,還能進(jìn)行邏輯推理和數(shù)值計(jì)算。
研究團(tuán)隊(duì)也誠實(shí)地展示了一個(gè)失敗案例,說明AVP的局限性。在一個(gè)關(guān)于籃球比賽中三分球計(jì)數(shù)的問題中,系統(tǒng)選擇了粗略的觀察策略(0.5幀每秒),結(jié)果遺漏了一個(gè)發(fā)生在00:20的三分球,導(dǎo)致最終計(jì)數(shù)錯(cuò)誤。
這個(gè)失敗案例揭示了一個(gè)重要的權(quán)衡:為了提高效率,系統(tǒng)有時(shí)會(huì)選擇較低的觀察精度,但這可能導(dǎo)致短暫或局部事件被遺漏。雖然AVP的整體策略是有效的,但在處理需要捕捉短暫關(guān)鍵事件的問題時(shí),仍然需要進(jìn)一步的優(yōu)化。
這些真實(shí)案例不僅展示了AVP的能力,也坦誠地承認(rèn)了其局限性,為未來的改進(jìn)提供了明確的方向。它們證明了主動(dòng)觀察策略在大多數(shù)情況下都是有效的,但也提醒我們需要根據(jù)具體任務(wù)特點(diǎn)來調(diào)整觀察策略。
六、技術(shù)細(xì)節(jié):讓復(fù)雜系統(tǒng)變得可操作
雖然AVP的核心理念相對簡單,但要讓它在實(shí)際中有效運(yùn)行,需要解決許多技術(shù)細(xì)節(jié)問題,就像設(shè)計(jì)一輛汽車不僅需要懂得基本的機(jī)械原理,還需要處理無數(shù)的工程細(xì)節(jié)一樣。
在模型選擇方面,研究團(tuán)隊(duì)選擇了Google的Gemini-2.5-Pro作為主要的AI引擎。這個(gè)選擇很有講究,因?yàn)椴煌腁I模型就像不同專長的專家,有些擅長理解語言,有些擅長分析圖像,而Gemini-2.5-Pro在處理多媒體內(nèi)容方面表現(xiàn)優(yōu)異。為了確保實(shí)驗(yàn)的公平性,團(tuán)隊(duì)將輸入數(shù)據(jù)量限制在12.8萬個(gè)標(biāo)準(zhǔn)單位以內(nèi),這就像給所有參賽者設(shè)定相同的材料限制一樣。
在視頻處理的技術(shù)參數(shù)設(shè)置上,研究團(tuán)隊(duì)需要在質(zhì)量和效率之間找到最佳平衡點(diǎn)。他們采用了Gemini的標(biāo)準(zhǔn)媒體分辨率設(shè)置,提供低、中、高三個(gè)等級選擇。低分辨率模式每幀只需要66個(gè)數(shù)據(jù)單位,而中分辨率需要258個(gè)單位。這就像照相機(jī)的畫質(zhì)設(shè)置一樣,高畫質(zhì)意味著更多細(xì)節(jié),但也需要更多存儲(chǔ)空間和處理時(shí)間。
系統(tǒng)的停止條件設(shè)置也很關(guān)鍵。研究團(tuán)隊(duì)將最大觀察輪數(shù)設(shè)定為3輪,置信度閾值設(shè)為0.7。這些參數(shù)是通過大量實(shí)驗(yàn)調(diào)試得出的最佳值,就像烹飪中需要掌握合適的火候和時(shí)間一樣。太少的觀察輪數(shù)可能收集不到足夠信息,太多則會(huì)浪費(fèi)資源;置信度閾值太低會(huì)導(dǎo)致匆忙下結(jié)論,太高則可能永遠(yuǎn)無法滿足停止條件。
為了讓AVP能夠準(zhǔn)確理解用戶問題并執(zhí)行觀察計(jì)劃,研究團(tuán)隊(duì)設(shè)計(jì)了詳細(xì)的指令模板。這些模板就像給AI助手編寫的工作手冊,告訴它在不同情況下應(yīng)該如何行動(dòng)。
對于規(guī)劃器,指令模板會(huì)教它如何解析問題中的時(shí)間信息。如果問題明確提到"07:15-07:18"這樣的時(shí)間范圍,對于事實(shí)性問題,系統(tǒng)會(huì)精確使用這個(gè)時(shí)間窗口;對于需要推理的問題,系統(tǒng)會(huì)在前后各加15-30秒的緩沖時(shí)間,以捕獲相關(guān)上下文。如果問題只提到單個(gè)時(shí)間點(diǎn)如"在02:15",系統(tǒng)會(huì)為事實(shí)性問題創(chuàng)建1秒的觀察窗口,為推理性問題創(chuàng)建30秒的上下文窗口。
當(dāng)問題中沒有明確時(shí)間信息時(shí),系統(tǒng)會(huì)使用啟發(fā)式規(guī)則。"開頭"或"開始"對應(yīng)前30秒,"結(jié)尾"或"結(jié)束"對應(yīng)最后30秒,"大約某時(shí)間"則在該時(shí)間點(diǎn)前后各加15秒。如果完全沒有時(shí)間線索,系統(tǒng)會(huì)進(jìn)行低精度的全視頻掃描作為起點(diǎn)。
對于觀察器,指令模板強(qiáng)調(diào)產(chǎn)生結(jié)構(gòu)化、帶時(shí)間戳的證據(jù)記錄。系統(tǒng)被明確告知要避免冗長的描述,而是專注于與問題直接相關(guān)的關(guān)鍵信息。時(shí)間戳?xí)灰?guī)范化為整數(shù)秒,確保精確性和一致性。
對于反思器,指令模板教它如何評估證據(jù)充分性。它需要產(chǎn)生0到1之間的置信度分?jǐn)?shù)和詳細(xì)的判斷理由。如果證據(jù)充分,判斷理由應(yīng)包含直接答案;如果不充分,則應(yīng)明確指出缺失的信息類型,為下一輪觀察提供指導(dǎo)。
在實(shí)際應(yīng)用中,這些技術(shù)細(xì)節(jié)的精心設(shè)計(jì)確保了系統(tǒng)的穩(wěn)定性和可靠性。研究團(tuán)隊(duì)還進(jìn)行了大量的邊界情況測試,確保系統(tǒng)在面臨各種異常輸入時(shí)都能合理處理。
比如,當(dāng)視頻時(shí)長超出模型的處理能力時(shí),系統(tǒng)會(huì)自動(dòng)調(diào)整采樣策略,確保在限制范圍內(nèi)獲得最有代表性的內(nèi)容。當(dāng)多個(gè)時(shí)間段同時(shí)需要觀察時(shí),系統(tǒng)會(huì)智能地安排觀察順序和資源分配。
這些看似微小的技術(shù)細(xì)節(jié)實(shí)際上對系統(tǒng)性能有著重大影響。正是通過對每個(gè)環(huán)節(jié)的精心設(shè)計(jì)和調(diào)優(yōu),AVP才能在保持高準(zhǔn)確性的同時(shí)顯著提高效率,實(shí)現(xiàn)從理論創(chuàng)新到實(shí)用系統(tǒng)的成功轉(zhuǎn)化。
七、影響與展望:開啟智能視頻理解新時(shí)代
AVP的成功不僅僅是一個(gè)技術(shù)突破,它更代表了AI系統(tǒng)設(shè)計(jì)思維的根本性轉(zhuǎn)變。這種從"被動(dòng)處理"到"主動(dòng)探索"的轉(zhuǎn)變,可能會(huì)影響整個(gè)人工智能領(lǐng)域的發(fā)展方向。
在實(shí)際應(yīng)用場景中,這項(xiàng)技術(shù)的潛在價(jià)值是巨大的。考慮安防監(jiān)控系統(tǒng),傳統(tǒng)方法需要對所有監(jiān)控視頻進(jìn)行全面分析,消耗大量計(jì)算資源。而采用AVP的思路,系統(tǒng)可以根據(jù)具體的安全事件查詢,有針對性地搜索相關(guān)時(shí)間段和區(qū)域,大大提高響應(yīng)速度和準(zhǔn)確性。
在內(nèi)容創(chuàng)作和媒體行業(yè),AVP可以幫助編輯快速從長時(shí)間的原始素材中找到特定場景或情節(jié),顯著提高后期制作的效率。體育賽事分析也是一個(gè)重要應(yīng)用領(lǐng)域,系統(tǒng)可以根據(jù)教練或分析師的具體問題,快速定位比賽中的關(guān)鍵時(shí)刻,而不需要觀看整場比賽的錄像。
教育領(lǐng)域同樣可以受益于這項(xiàng)技術(shù)。在線教育平臺可以使用AVP來幫助學(xué)生快速找到課程視頻中與特定問題相關(guān)的片段,提供更個(gè)性化的學(xué)習(xí)體驗(yàn)。醫(yī)學(xué)培訓(xùn)中,學(xué)生可以通過詢問特定的臨床問題來學(xué)習(xí)手術(shù)視頻中的關(guān)鍵步驟。
更深層的意義在于,AVP展示了一種新的AI系統(tǒng)設(shè)計(jì)范式。傳統(tǒng)的AI系統(tǒng)往往采用"一次性處理"的模式,即收集所有可能的信息,然后嘗試從中得出結(jié)論。而AVP展示的"迭代探索"模式更接近人類的認(rèn)知過程,通過不斷的假設(shè)、驗(yàn)證、調(diào)整來逐步逼近正確答案。
這種范式的轉(zhuǎn)變可能會(huì)影響其他AI應(yīng)用領(lǐng)域。在自然語言處理中,系統(tǒng)可以學(xué)會(huì)根據(jù)對話的發(fā)展動(dòng)態(tài)調(diào)整其理解策略。在機(jī)器人領(lǐng)域,這種主動(dòng)感知的思想可以幫助機(jī)器人更有效地探索和理解環(huán)境。在醫(yī)學(xué)診斷中,AI系統(tǒng)可以學(xué)會(huì)根據(jù)已有癥狀有針對性地詢問或檢查,而不是進(jìn)行所有可能的檢測。
當(dāng)然,AVP也存在一些局限性需要在未來的研究中解決。首先是對短暫關(guān)鍵事件的捕獲問題。如案例分析中所示,當(dāng)重要信息只在很短的時(shí)間內(nèi)出現(xiàn)時(shí),粗粒度的觀察策略可能會(huì)遺漏這些信息。未來的研究可能需要開發(fā)更智能的觀察策略選擇機(jī)制。
其次是實(shí)時(shí)處理的挑戰(zhàn)。目前的AVP主要針對離線視頻分析設(shè)計(jì),對于需要實(shí)時(shí)響應(yīng)的應(yīng)用場景,如何在保持準(zhǔn)確性的同時(shí)滿足時(shí)間約束,仍然是一個(gè)需要解決的問題。
另一個(gè)重要的發(fā)展方向是將AVP的思想擴(kuò)展到其他感知模態(tài)。目前的系統(tǒng)主要處理視覺信息,但同樣的主動(dòng)探索原理可以應(yīng)用于音頻分析、文本理解,甚至多模態(tài)融合任務(wù)中。
從更宏觀的角度看,AVP代表了AI系統(tǒng)從"暴力計(jì)算"向"智能推理"的進(jìn)化。這種進(jìn)化不僅提高了效率,更重要的是讓AI系統(tǒng)的行為更加可解釋和可控。當(dāng)系統(tǒng)明確地表達(dá)它在尋找什么、為什么尋找、以及找到了什么時(shí),人類用戶更容易理解和信任系統(tǒng)的決策過程。
隨著計(jì)算資源成本的不斷上升和環(huán)境保護(hù)意識的增強(qiáng),高效的AI算法變得越來越重要。AVP展示的"少即是多"的哲學(xué),即通過智能策略而非更大規(guī)模的計(jì)算來實(shí)現(xiàn)更好的性能,可能代表了未來AI發(fā)展的重要方向。
這項(xiàng)研究也為AI的民主化開辟了新的可能性。通過大幅減少計(jì)算需求,AVP使得先進(jìn)的視頻理解能力能夠在資源有限的設(shè)備上運(yùn)行,讓更多的用戶和應(yīng)用場景受益于AI技術(shù)的進(jìn)步。
最終,AVP不僅僅是一個(gè)技術(shù)創(chuàng)新,它更是對"什么是智能"這個(gè)根本問題的新思考。真正的智能不在于處理更多的信息,而在于知道什么時(shí)候需要什么樣的信息,以及如何高效地獲取這些信息。這種洞察可能會(huì)指導(dǎo)未來許多AI系統(tǒng)的設(shè)計(jì)和發(fā)展。
說到底,這項(xiàng)由Salesforce AI Research和北卡羅來納大學(xué)團(tuán)隊(duì)共同完成的研究,為我們展示了一個(gè)令人興奮的未來:AI系統(tǒng)不再是簡單的信息處理器,而是能夠像人類一樣思考、觀察和學(xué)習(xí)的智能伙伴。雖然我們距離這個(gè)目標(biāo)還有很長的路要走,但AVP已經(jīng)為我們指明了前進(jìn)的方向。對于想要了解這項(xiàng)技術(shù)完整細(xì)節(jié)的讀者,可以通過論文編號arXiv:2512.05774v1在學(xué)術(shù)數(shù)據(jù)庫中找到原始研究報(bào)告。
Q&A
Q1:AVP主動(dòng)視頻感知框架是什么?
A:AVP是Salesforce研發(fā)的智能視頻分析系統(tǒng),讓AI像人類一樣有選擇地觀看視頻。它采用"計(jì)劃-觀察-反思"的三步循環(huán),根據(jù)問題需要有針對性地分析視頻片段,而不是盲目處理所有內(nèi)容,從而大幅提高效率和準(zhǔn)確性。
Q2:AVP比傳統(tǒng)視頻分析方法好在哪里?
A:傳統(tǒng)方法需要為整個(gè)視頻生成詳細(xì)描述再搜索答案,而AVP直接針對問題觀察相關(guān)片段。實(shí)驗(yàn)顯示,AVP準(zhǔn)確率比最好的傳統(tǒng)方法高5.7%,但只需要18.4%的處理時(shí)間和12.4%的數(shù)據(jù)量,效率提升超過5倍。
Q3:AVP技術(shù)能用在哪些實(shí)際場景中?
A:AVP可以廣泛應(yīng)用于安防監(jiān)控快速定位可疑事件、影視制作從長素材中找特定鏡頭、體育分析定位關(guān)鍵比賽時(shí)刻、在線教育幫學(xué)生找課程重點(diǎn)片段等。任何需要從長視頻中快速準(zhǔn)確找到特定信息的場景都能受益。





京公網(wǎng)安備 11011402013531號