UniME-V2團(tuán)隊 投稿
量子位 | 公眾號 QbitAI
統(tǒng)一多模態(tài)嵌入模型是眾多任務(wù)的技術(shù)基石。
當(dāng)前主流方法通常采用批內(nèi)負(fù)例挖掘策略,通過計算查詢-候選對的相似度進(jìn)行訓(xùn)練。
但這類方法存在明顯局限:難以捕捉候選樣本間細(xì)微的語義差異,負(fù)例樣本多樣性不足,且模型在區(qū)分錯誤負(fù)例與困難負(fù)例時的判別能力有限。
針對這些問題,團(tuán)隊提出全新解決方案——基于多模態(tài)大模型語義理解能力的統(tǒng)一多模態(tài)嵌入模型UniME-V2。
該方法首先通過全局檢索構(gòu)建潛在困難負(fù)例集,隨后創(chuàng)新性地引入“MLLM-as-a-Judge”機(jī)制:利用MLLM對查詢-候選對進(jìn)行語義對齊評估,生成軟語義匹配分?jǐn)?shù)。
這一設(shè)計帶來三重突破:
以匹配分?jǐn)?shù)為依據(jù)實現(xiàn)精準(zhǔn)困難負(fù)例挖掘,有效規(guī)避錯誤負(fù)例干擾確保篩選出的困難負(fù)例兼具多樣性與高質(zhì)量特性通過軟標(biāo)簽機(jī)制打破傳統(tǒng)一對一的剛性映射約束
![]()
通過將模型相似度矩陣與軟語義匹配分?jǐn)?shù)矩陣對齊,使模型真正學(xué)會辨析候選樣本間的語義差異,顯著提升判別能力。
為進(jìn)一步提升性能,團(tuán)隊基于挖掘的困難負(fù)例訓(xùn)練出重排序模型UniME-V2-Reranker,采用配對與列表聯(lián)合優(yōu)化策略。
![]()
圖1 UniME-V2與以往方法的本質(zhì)不同,在于巧妙利用了多模態(tài)大模型(MLLM)的深層語義理解能力。它不僅能用此能力精準(zhǔn)挖掘“困難負(fù)例”,更能生成一個軟語義匹配分?jǐn)?shù),如同一位資深導(dǎo)師,指導(dǎo)模型學(xué)會辨別候選樣本間微妙的語義差異。
方法
MLLM-as-a-Judge 困難負(fù)樣本挖掘
過去的研究主要依賴于批內(nèi)硬負(fù)樣本挖掘,其中計算查詢-候選嵌入相似性以采樣負(fù)樣本。
然而,這種方法通常受到負(fù)樣本多樣性有限和嵌入判別能力不足的困擾,難以有效區(qū)分錯誤和困難的負(fù)樣本。
為了克服這些挑戰(zhàn),如圖2所示,首先利用全局檢索構(gòu)建一個潛在的困難負(fù)樣本集。
之后,利用MLLM的強(qiáng)大理解能力來評估每個查詢-候選對的語義對齊性,并生成軟語義匹配分?jǐn)?shù)。
這個分?jǐn)?shù)指導(dǎo)了硬負(fù)樣本挖掘,使得能夠識別出多樣化和高質(zhì)量的困難負(fù)樣本,同時減少錯誤負(fù)樣本的影響。
![]()
圖2:基于MLLM-as-a-Judge的困難負(fù)樣本挖掘流程。我們首先利用現(xiàn)有的多模態(tài)嵌入模型進(jìn)行全局檢索,構(gòu)建一個潛在的困難負(fù)樣本集。然后,利用MLLM強(qiáng)大的理解能力根據(jù)語義對齊性對查詢-候選對進(jìn)行評分,從而精確識別困難負(fù)樣本。
潛在困難負(fù)樣本集合為了從全局樣本中提取更高質(zhì)量的困難負(fù)樣本,首先使用VLM2Vec為查詢和候選生成嵌入。
接著,為每個查詢檢索出50個最相關(guān)的候選。
為了應(yīng)對錯誤負(fù)樣本并增加多樣性,我們基于查詢-候選相似度分?jǐn)?shù)設(shè)定一個相似度閾值,并選擇前50名的候選作為潛在的困難負(fù)樣本集:
其中 是由VLM2Vec模型計算得出的查詢 與候選 的相似度分?jǐn)?shù)。
語義匹配分?jǐn)?shù)在構(gòu)建潛在的困難負(fù)樣本集后,我們使用MLLM作為評判,為中的每個查詢-候選對計算語義匹配分?jǐn)?shù),具體指令如下:
![]()
隨后,根據(jù)()和()標(biāo)記的logits計算語義匹配分?jǐn)?shù),其中。這里,表示查詢的數(shù)量。利用MLLMs的高級理解能力,語義匹配分?jǐn)?shù)有效地捕捉了查詢和候選之間的語義對齊程度。
困難負(fù)樣本采樣為了提高困難負(fù)樣本的質(zhì)量,利用語義匹配分?jǐn)?shù)對候選進(jìn)行精煉。
候選樣本的分?jǐn)?shù)超過閾值(其中表示正樣本,是控制閾值間隔的超參數(shù))則會當(dāng)作錯誤負(fù)樣本并排除。為保持多樣性,采用五步間隔的循環(huán)采樣策略。
如果精煉后的集合包含的候選少于十個,將重復(fù)選擇以確保至少有十個。
在極少數(shù)情況下(<1%),如果沒有候選符合條件,將從最初的五十個候選中隨機(jī)選擇10個,并給每個分配1.0的語義匹配分?jǐn)?shù)。
最后,對于每個查詢,我們獲得困難負(fù)樣本集及其相應(yīng)的語義匹配分?jǐn)?shù)。
![]()
圖3:基于MLLM判斷的訓(xùn)練框架結(jié)構(gòu)。UniME-V2使用軟語義匹配分?jǐn)?shù)作為監(jiān)督信號,以增強(qiáng)候選者間的語義區(qū)分學(xué)習(xí)。UniME-V2-Reranker采用pairwise和listwise聯(lián)合訓(xùn)練以提升重排序性能。
基于MLLM判斷的訓(xùn)練框架
UniME-V2為此提出了一個基于MLLM判斷的分布對齊框架,如圖3所示,利用軟語義匹配分?jǐn)?shù)作為監(jiān)督信號來提高表征性能。
具體來說,給定一個查詢及其候選集,將它們輸入到MLLM中,并提取最后一個標(biāo)記作為查詢和候選集的嵌入,其中是目標(biāo)候選的嵌入,是每個查詢的困難負(fù)樣本數(shù)。然后計算查詢嵌入與候選嵌入之間的關(guān)系得分矩陣如下:
基于語義匹配分?jǐn)?shù),計算由MLLM判斷得出的語義匹配分?jǐn)?shù)矩陣如下:
為了增強(qiáng)學(xué)習(xí)的穩(wěn)健性并確保矩陣對稱性,采用了JS-Divergence,這是KL-Divergence的一種對稱替代。最終的損失函數(shù)定義為:
除此之外,受前人工作啟發(fā),UniME-V2聯(lián)合pairwise和listwise訓(xùn)練了一個重排序模型UniME-V2-Reranker(如圖3所示)來提高基于初始嵌入的檢索精度。
在成對訓(xùn)練中,為每個查詢構(gòu)造兩對,一對與正候選結(jié)合,另一對與最困難的負(fù)候選結(jié)合。然后指導(dǎo)UniME-V2-Reranker對正候選輸出,對負(fù)候選輸出。成對損失使用交叉熵?fù)p失函數(shù)計算如下:
其中表示UniME-V2-Reranker的自回歸輸出過程。對于列表訓(xùn)練,基于語義匹配分?jǐn)?shù),從困難負(fù)候選中選擇前個候選,隨機(jī)插入目標(biāo)候選并獲取其索引。
然后提示UniME-V2-Reranker輸出真實位置,公式為:
最終的損失函數(shù)定義為。
![]()
表1:MMEB基準(zhǔn)測試結(jié)果。IND表示在分布內(nèi),OOD表示在分布外。分?jǐn)?shù)為補(bǔ)充材料中的平均精度結(jié)果。
實驗
多模態(tài)檢索
表1展示了在相同訓(xùn)練數(shù)據(jù)和配置下UniME-V2與現(xiàn)有基線模型在MMEB基準(zhǔn)上的性能對比。
UniME-V2在各種基礎(chǔ)模型上均有顯著的性能提升。
具體來說,UniME-V2在Qwen2-VL-2B和7B模型上分別比VLM2Vec高出3.5%和2.2%。
當(dāng)基于LLaVA-OneVision作為基礎(chǔ)時,UniME-V2比包括QQMM、LLaVE和UniME在內(nèi)的之前的最先進(jìn)模型提高了0.5%-0.9%。此外,UniME-V2在分布外數(shù)據(jù)集上的得分為66.7,凸顯其魯棒性和卓越的遷移能力。
![]()
表2:在短描述(Flickr30K, MS-COCO)、長描述(ShareGPT4V, Urban1K)和組合(SugarCrepe)數(shù)據(jù)集上的零樣本文本-圖像檢索結(jié)果。
跨模態(tài)檢索
如表2所示,在零樣本跨模態(tài)檢索任務(wù)上評估UniME-V2。對于短描述數(shù)據(jù)集,包括Flickr30K和MS-COCO,UniME-V2在圖像到文本檢索中比UniME表現(xiàn)出了2.2%-9.7%的性能提升。
在文本到圖像檢索中,其性能與UniME相當(dāng),這主要歸因于兩個因素:
(1)MMEB訓(xùn)練集中文本到圖像數(shù)據(jù)的比例有限;
(2)短描述中的語義信息不足。
對于長描述跨模態(tài)檢索任務(wù),UniME-V2在ShareGPT4V和Urban1K上取得了顯著改進(jìn),這得益于其增強(qiáng)的區(qū)分能力和詳細(xì)描述提供的豐富語義內(nèi)容。
值得注意的是,與EVA-CLIP-8B相比,UniME-V2展示了更為穩(wěn)健的檢索性能,這主要因為其通用多模態(tài)嵌入能顯著減少模態(tài)間的差距(如圖4所示)。
![]()
圖4:EVA-CLIP-8B與UniME-V2(LLaVA-OneVision-7B)之間的表示分布對比。
組合跨模態(tài)檢索
基于SugarCrepe評估UniME-V2模型區(qū)分困難負(fù)樣本的能力。
如表2所示,UniME-V2在所有評估指標(biāo)上均表現(xiàn)出卓越性能。
與UniME相比在使用Qwen2-VL-2B時性能提升了5.3%,6.0%,4.5%。當(dāng)模型從2B擴(kuò)展到7B后也實現(xiàn)了9.0%,9.2%,9.2%的性能提升。
此外,與EVA-CLIP-8B相比,UniME-V2還顯示出2.7%,3.4%,和3.8%的改進(jìn),凸顯其在區(qū)分困難負(fù)樣本上的強(qiáng)大能力。
![]()
表3:使用UniME-V2 (Qwen2-VL-7B) 和 UniME-V2 (Qwen2-VL-2B) 比較LamRA與UniME-V2-Reranker的重排序性能。
重排序?qū)Ρ?/h5>
在表3中基于top5檢索結(jié)果對比了LamRA與UniME-V2-Reranker的性能。為確保公平,使用與LamRA相同的訓(xùn)練參數(shù)和基礎(chǔ)模型(Qwen2.5-VL-7B)。
當(dāng)使用LamRA和UniME-V2-Reranker對UniME-V2 (Qwen2-VL-2B) 檢索結(jié)果進(jìn)行重排后在四個下游任務(wù)上均提升了性能。
UniME-V2-Reranker在只使用一半數(shù)據(jù)的情況下始終獲得更優(yōu)結(jié)果。類似地,使用UniME-V2 (Qwen2-VL-7B) 進(jìn)行檢索時,UniME-V2-Reranker的表現(xiàn)也超過了LamRA,在四個任務(wù)中分別獲得了0.5%,0.4%,0.3%,和7.4%的性能提升。
值得注意的是,UniME-V2-Reranker在組合理解檢索任務(wù)中展示了對LamRA的顯著優(yōu)勢,這歸功于其利用MLLM的理解能力提取多樣化和高質(zhì)量的困難樣本,有效增強(qiáng)了模型的區(qū)分能力。
論文:
https://arxiv.org/abs/2510.13515
GitHub:
https://github.com/GaryGuTC/UniME-v2





京公網(wǎng)安備 11011402013531號