GVE團隊 投稿
量子位|公眾號 QbitAI
當前視頻檢索研究正陷入一個閉環困境:以MSRVTT為代表的窄域基準,長期主導模型在粗粒度文本查詢上的優化,導致訓練數據有偏、模型能力受限,難以應對真實世界中細粒度、長上下文、多模態組合等復雜檢索需求。
要突破這一瓶頸,亟需重構視頻檢索的范式——從“專用”走向“通用”。
在這一“大一統”愿景下,香港科技大學(廣州)聯合阿里巴巴通義實驗室展開系統性探索,首次提出通用視頻檢索概念,并構建了包含16個數據集、覆蓋多任務與多領域的綜合評測基準UVRB;合成了155萬條高質量、多模態、任務多樣化的視頻-語言訓練對;并為多模態大模型底座量身設計了任務金字塔課程訓練策略。
由此推出的通用視頻嵌入模型GVE(含3B與7B兩個版本),在嚴格零樣本設置下全面超越現有14個主流模型,展現出卓越的泛化能力。
這項工作不僅帶來了當前性能最強的視頻嵌入模型,更通過基準—數據—訓練的全鏈條創新,為視頻檢索的通用化奠定了方法論基礎。
![]()
問題動機:高分模型為何難以應對真實視頻檢索需求?
當前主流視頻檢索模型(如微軟的CLIP4Clip、上海AI Lab的InternVideo2和快手的Unite等)在MSRVTT等經典基準上表現優異,但其能力邊界往往局限于粗粒度的文本-視頻匹配任務。
這類基準通常使用簡短、泛化的文本描述(如“一個人在跳舞”),評估模型是否能從候選集中找到大致對應的視頻。然而,真實世界中的用戶需求遠比這復雜。
例如,用戶可能希望通過“文字 + 參考圖像”組合查詢特定視頻,用一段視頻片段作為示例進行相似性檢索,精確指定空間關系(如“畫面左側穿紅衣者”),時間動態(如“從跳躍到落地的連續動作”)或部分相關性(如“只要視頻中提及”無人機”即視為相關”)等等。
遺憾的是,現有模型和評測體系對這類多模態輸入和細粒度語義理解支持有限,根本原因在于:當前訓練數據多源自網絡爬取的噪聲標簽,任務設計高度單一,且評估指標未能反映模型在復雜場景下的魯棒性與泛化性。
相比之下,圖像檢索領域已逐步走向統一的多模態表征框架,能夠靈活支持文本、圖像乃至屬性等多種查詢形式。
這一趨勢表明,通用性(universality)正成為視覺檢索系統的核心目標。
受此啟發,團隊主張將視頻檢索從“針對特定任務優化”的范式,轉向支持多任務、多粒度、多域的通用建模。
團隊不僅關注模型在標準測試集上的性能,更致力于構建一個能真正編碼復雜視頻語義、適應多樣化檢索需求的系統性解決方案。
邁向視頻檢索通用化:評測-數據-模型三位一體的全新范式
UVR:通用視頻檢索概念定義
該工作系統性定義了Universal Video Retrieval(UVR),即通用視頻檢索,包含:
3 大任務類型:純文本(TXT)、圖文組合(CMP)、純視覺(VIS)3 大領域:粗粒度(CG)、細粒度(FG)、長上下文(LC);其中細粒度分為:空間(S)、時間(T)、部分相關(PR)
![]()
任務和領域的交叉便可以全面涵蓋真實視頻檢索的場景。
例如TXT+S,即空間文本視頻檢索是給定空間上物體和位置的描述來尋找對應的視頻(如“一對情侶溜一只狗的vlog”);或CMP+T,即時序組合視頻檢索是給定一張圖片及與圖片里內容變化的描述檢索相關的視頻(如“圖中人物走進遠處房子的片段”)。
UVRB:最全面的視頻檢索基準
該工作構建了 Universal Video Retrieval Benchmark (UVRB),包含16個數據集,交叉覆蓋了以上3種任務類型,3種領域,和3種細粒度子領域。
這一全面的基準要求一個模型在9種能力上均有優秀的表現;通過統一環境下的大規模的測試,該工作首次揭示現有模型的“偏科”問題,進一步印證了當前基準、數據和模型的不足之處,打破曾經由被“刷爆”的基準帶來的視頻檢索領域“飽和”的錯覺。
![]()
V-SynFlow合成的 UVRD:155 萬高質量多粒度多任務訓練數據
基于原始視頻檢索數據,團隊設計 V-SynFlow 流程進行三階段數據增強與合成:
多粒度質量過濾(去噪聲、保一致性);MLLM 驅動的多維度語義豐富化(生成空間/時間/主題等多風格描述);擴展合成圖文組合、幀-視頻、片段-視頻等復雜任務對。
數據覆蓋文本→視頻、圖像→視頻、圖文→視頻、視頻→視頻等多種模態組合。
![]()
設計 Modality Pyramid:任務金字塔課程學習
設計基于Qwen2.5-VL的通用視頻表征大模型
模型架構:以Qwen2.5-VL為基座,凍結視覺編碼器,僅用LoRA微調LLM部分;輸入融合:支持任意模態組合(文本/圖像/視頻),通過特殊 token 注入視覺特征;表征提取:取最后一個token的隱藏狀態,經L2歸一化后用于檢索;訓練目標:對稱InfoNCE損失 + 難負樣本挖掘;
-課程學習設計理念:基礎能力是高級能力的前提(如物體識別之于動作理解);提出自底向上的自適應課程調度策略:先學簡單任務(例如文本-圖像對齊),再逐步進階到復雜任務(例如圖文組合檢索);動態調整任務采樣概率,確保模型穩扎穩打、不偏科。
![]()
![]()
實驗結果:多任務多能力中全面領先
研究團隊在實驗中精心構建了一個高度可控且可復現的評估環境。將14個主流基線模型納入對比范圍,涵蓋從 8700 萬到 83 億參數不等的 CLIP 架構模型(如CLIP4Clip、InternVideo2)和新興的多模態大語言模型(MLLM)架構(如GME-7B、Unite-7B、B3-7B等)。
值得注意的是,部分基線模型可能在訓練中使用了與UVRB測試集(如MSRVTT、DiDeMo)同源的數據,而GVE模型則嚴格避免任何領域內數據接觸,完全在零樣本條件下進行評估。
此外,所有模型統一采用 8 幀均勻采樣的視頻輸入,僅使用原始視覺幀,排除音頻、語音和元數據干擾;表征向量均經歸一化處理,并統一使用余弦相似度進行檢索匹配,確保比較的公平性。對于不原生支持視頻輸入的模型,研究團隊設計了多圖像嵌入進行適配。
GVE-7B 全面領先,中小模型亦顯高效
在涵蓋16個數據集的UVRB基準上,GVE-7B模型以平均0.573的Recall@1(或相應指標)得分,顯著超越當前最強基線Unite-7B(0.538),領先幅度達6.5%。
研究發現,僅含38億參數的GVE-3B模型(平均分0.544) 甚至超過了參數量翻倍的Unite-7B,充分證明其性能優勢并非源于模型規模或數據泄露,而是來自更優的訓練數據與學習策略。
進一步按任務類型與領域維度分析(見表1),GVE-7B在所有關鍵能力上均取得領先。
尤其在對模型通用性更具判別力的“部分相關視頻檢索”(PR)任務中,GVE-7B以0.419的得分緊追最佳表現,展現出卓越的語義判別力。
![]()
消融試驗:創新訓練策略
為探究性能提升的根源,研究團隊開展了消融實驗。結果表明:
合成數據集UVRD的引入顯著提升了模型在組合推理等復雜任務上的能力,例如GVE-3B在CMP任務上相對提升達 27%;模態金字塔課程(Modality Pyramid Curriculum) 進一步優化了知識整合,使GVE-7B的整體能力從0.594提升至0.600。
兩項技術協同作用,共同貢獻了1.8%–3.1%的整體性能增益。
深度分析:解構視頻表征的能力
在模型性能數字的背后,研究首次系統性地揭示了當前多模態視頻嵌入模型在能力發展上的結構性盲區與進化路徑。通過對 UVRB 多維指標的交叉分析,研究團隊提煉出四項關鍵發現,有望重塑視頻理解領域的評估與設計范式。
![]()
![]()
發現一:傳統基準已“失靈”——MSRVTT 等數據集正在誤導研究方向
長久以來,MSRVTT、DiDeMo等數據集被視為視頻檢索的主要標準。但本研究發現,這些經典基準與模型在真實復雜場景下的綜合表現相關性僅為0.58——這意味著在MSRVTT上刷高分,很可能只是在“熟悉的考題”中死記硬背,而非真正理解視頻。
更令人警醒的是,一個曾被忽視的維度——“部分相關視頻檢索”(Partially Relevant Retrieval, PR)——卻展現出驚人的評估價值:它與整體能力的相關性高達0.97。
這說明,能否在語義模糊、邊界不清的場景中精準判別“相關但不完全匹配”的內容,是更能衡量模型嵌入質量的“試金石”之一。研究者呼吁:是時候將PR任務納入主流評估體系了。
發現二:時空理解的解耦性——模型會“看圖”卻不會“看動作”
想象一個模型能精準識別視頻中“一只貓坐在沙發上”,卻無法判斷“貓是從左邊跳上去的還是右邊走過去的”——這正是當前絕大多數模型的真實寫照。研究量化揭示:空間感知(S)與時間推理(T)能力幾乎完全脫節(相關性僅0.12)。
更關鍵的是,在對細粒度理解的決定上,時間能力幾乎一錘定音(與細粒度任務相關性達0.98),而空間信息貢獻微弱(僅0.39)。
這意味著,現有模型本質上仍是靜態圖像的堆疊,而非動態事件的理解。真正的視頻檢索智能,需要能同時編碼“在哪里”和“何時發生”——而當前模型對此明顯“偏科”。
發現三:架構決定命運——CLIP 與 MLLM 正走向兩條能力進化路徑
研究發現,模型架構深刻影響其能力基因。CLIP系模型在粗粒度空間任務上近乎完美(相關性0.99),卻在時間維度上先天不足;更令人意外的是,它們在組合語義理解越強,純視覺匹配反而越弱(負相關-0.71)。
而MLLM 架構則展現出更均衡、更集成的學習模式:不僅在語義判別(如PR與CG任務關聯度達0.98)上碾壓CLIP(僅0.70),還能將長上下文理解與時間建模有效耦合(相關性0.64 vs. CLIP 的-0.14)。
這解釋了為何MLLM正迅速成為視頻嵌入模型新范式——它不只是更大,而是更通用。
發現四:以語言為中心的表征大模型并未真正“看得更清”
在“越大越好”的浪潮下,一個反直覺的事實浮出水面:參數規模對基礎視覺感知能力幾乎無益。8700萬參數的CLIP4Clip在純視覺任務(VIS)上得分0.714,竟高于 80 億參數的頂尖模型Unite-7B(0.702)。
更值得深思的是,視覺檢索與綜合檢索能力之間相關性極低(僅0.26)。這意味著,即使模型能“看清”每一幀細節,若缺乏高層語義對齊能力,依然無法完成復雜檢索。
研究警告:盲目擴大模型未必能解決視頻理解的根本瓶頸,未來的突破點可能在于基于以語言為核心的多模態表征大模型的視覺底層像素編碼和高層語義抽象的折衷。
實驗總結
研究的實驗部分圍繞一個核心目標展開:驗證通用視頻檢索是否可以通過評估體系、訓練數據與學習策略的協同優化來實現。
為此,團隊構建了UVRB基準,首次將視頻檢索能力拆解為多個可測量的維度(如細粒度、長上下文、組合查詢等),并在此基礎上對14個代表性模型進行了統一、公平的零樣本評測。
結果表明,僅靠擴大模型規模或依賴現有噪聲數據,難以在復雜任務上取得一致提升。
相比之下,GVE通過在高質量合成數據UVRD上,采用模態金字塔課程進行訓練,顯著提升了在多個維度上的表現,尤其在對泛化能力要求更高的任務(如部分相關檢索、時間推理)中優勢明顯。
值得注意的是,GVE-3B的性能已超過多個參數量更大的基線,說明數據質量與訓練策略的優化,可能比單純增加模型規模更具性價比。
更進一步,基于UVRB的相關性分析揭示了當前視頻嵌入模型的能力結構:傳統基準與整體能力關聯較弱,時空知識的嵌入能力存在明顯解耦,不同架構在能力發展上呈現系統性差異。這些發現不僅解釋了GVE的優勢來源,也為后續研究提供了可復現的診斷工具與明確的改進方向。
結語:視頻檢索的現在與未來
視頻檢索正從“匹配標題”走向“理解內容”——但這一轉變需要新的評估標準、更豐富的訓練信號,以及對任務間依賴關系的顯式建模。
研究沒有追求單一指標的突破,而是嘗試構建一個可診斷、可擴展、可復現的通用視頻檢索研究框架。
通過UVRB基準,研究者可以清晰看到模型在哪些場景下表現穩健,在哪些維度上存在短板;通過V-SynFlow合成流程,高質量、多任務的訓練數據得以規模化生成;通過模態金字塔課程,模型能夠分階段習得從基礎感知到高階推理的能力。
三者結合,使得GVE在不依賴測試域數據的前提下,展現出更均衡、更魯棒的零樣本表現。
研究團隊已開源GVE系列模型及UVRB基準,推動社區從”刷榜競賽”轉向”能力診斷”與”可用性拓展”,并希望這項工作不僅帶來性能最強的視頻嵌入模型,更為視頻檢索從”窄域專用”邁向”通用智能”奠定方法論基礎。
論文鏈接:https://arxiv.org/abs/2510.27571
項目主頁:https://gzn00417.github.io/GVE/
模型和數據:https://huggingface.co/collections/Alibaba-NLP/gve





京公網安備 11011402013531號