![]()
這項由MiroMind AI、悉尼大學(xué)、帝國理工學(xué)院以及多個研究機構(gòu)聯(lián)合開展的研究發(fā)表于2025年10月15日的arXiv預(yù)印本平臺,編號為arXiv:2510.13515v1。研究團隊由顧天成、楊楷城、張楷宸等多位來自不同機構(gòu)的研究人員組成,其中張月怡和鄧建康擔(dān)任通訊作者。感興趣的讀者可以通過該論文編號在學(xué)術(shù)數(shù)據(jù)庫中查詢完整論文。
在人工智能領(lǐng)域,有一個看似簡單卻極其重要的任務(wù):教會機器理解圖片、文字、語音等不同類型信息之間的關(guān)系。就如同一個人能夠同時理解一張照片的內(nèi)容和對應(yīng)的文字描述一樣,AI系統(tǒng)也需要具備這種跨模態(tài)理解能力。這種能力被稱為"多模態(tài)嵌入學(xué)習(xí)",它是許多AI應(yīng)用的基礎(chǔ),從圖像搜索到智能問答系統(tǒng)都離不開它。
過去,研究人員主要依靠一種叫做"批內(nèi)負(fù)樣本挖掘"的方法來訓(xùn)練這類AI系統(tǒng)。可以把這個過程比作廚師學(xué)習(xí)搭配食材:系統(tǒng)會拿一道菜和一些配菜進行比較,看哪些搭配合理,哪些不合理。但這種方法存在明顯缺陷,就像廚師只能在有限的食材中選擇,無法真正理解食材之間的細(xì)微差別,也難以找到真正具有挑戰(zhàn)性的"錯誤搭配"來提升判斷能力。
研究團隊意識到,如果能讓更"聰明"的AI系統(tǒng)來擔(dān)任"美食評委",幫助判斷哪些搭配更合理,訓(xùn)練效果會大大提升。他們提出了一個創(chuàng)新想法:利用大型多模態(tài)語言模型(MLLM)的強大理解能力,讓它們充當(dāng)"法官"的角色,為不同的查詢-候選對進行語義匹配打分。這就像請米其林星級廚師來評判菜品搭配的合理性,顯然比普通人的判斷更加精準(zhǔn)和可靠。
一、讓AI"法官"來挑選訓(xùn)練素材
傳統(tǒng)的訓(xùn)練方法面臨兩個核心挑戰(zhàn)。第一個挑戰(zhàn)是"食材庫太小"的問題。以往的方法只能在一個批次內(nèi)的樣本中尋找負(fù)樣本,這就像廚師只能從今天購買的有限食材中選擇搭配,無法接觸到更豐富多樣的選擇。第二個問題是"判斷標(biāo)準(zhǔn)太粗糙",系統(tǒng)只能簡單地判斷兩個內(nèi)容是否匹配,無法理解它們之間更細(xì)致的語義差異。
為了解決這些問題,研究團隊設(shè)計了一個名為"MLLM-as-a-Judge"的機制。這個機制的工作原理可以用"三步法"來理解。首先,系統(tǒng)會從全局范圍內(nèi)檢索出可能具有挑戰(zhàn)性的候選樣本,就像從整個食材市場中挑選出那些看起來相似但實際不同的食材。接著,團隊讓經(jīng)過精心訓(xùn)練的大型多模態(tài)語言模型擔(dān)任"專業(yè)評委",對每一對查詢和候選樣本的語義匹配程度進行詳細(xì)評分。最后,基于這些評分,系統(tǒng)能夠篩選出真正高質(zhì)量的訓(xùn)練樣本,同時過濾掉那些可能誤導(dǎo)學(xué)習(xí)的"假負(fù)樣本"。
這種方法的巧妙之處在于,它能夠識別出那些看似不匹配但實際上存在某種關(guān)聯(lián)的樣本對。比如,當(dāng)查詢是"一只在雪地里的哈士奇"時,傳統(tǒng)方法可能簡單地將"一群不同顏色的八只哈士奇"標(biāo)記為負(fù)樣本。但MLLM"法官"能夠理解,雖然數(shù)量和顏色有差異,但兩者之間確實存在語義關(guān)聯(lián),因此會給出一個介于0和1之間的連續(xù)評分,而不是簡單的對錯判斷。
研究團隊通過詳細(xì)的指令來引導(dǎo)MLLM進行判斷。他們會告訴模型:"我將為你提供一個查詢和一個候選項,請評估候選項是否滿足查詢的要求。如果滿足,請回答'Yes';如果不滿足,請回答'No'。"然后,系統(tǒng)會根據(jù)模型輸出"Yes"和"No"的概率來計算語義匹配分?jǐn)?shù)。這種方法使得每個樣本對都能獲得一個精確的匹配度評分,為后續(xù)的訓(xùn)練優(yōu)化提供了更豐富的監(jiān)督信號。
二、基于軟標(biāo)簽的分布對齊訓(xùn)練框架
有了MLLM"法官"提供的精確評分后,研究團隊面臨的下一個挑戰(zhàn)是如何有效利用這些評分信息。傳統(tǒng)的對比學(xué)習(xí)方法采用的是"硬對齊"策略,要求系統(tǒng)嚴(yán)格區(qū)分正樣本和負(fù)樣本,就像考試中的是非題一樣,答案只能是對或錯。但現(xiàn)實世界中的語義關(guān)系往往更加復(fù)雜,存在著各種程度的相似性和關(guān)聯(lián)性。
為了解決這個問題,研究團隊提出了一個基于"軟標(biāo)簽"的分布對齊訓(xùn)練框架。這個框架的核心思想是讓系統(tǒng)學(xué)習(xí)更加細(xì)致的語義區(qū)分能力。具體來說,系統(tǒng)不再簡單地學(xué)習(xí)"這兩個內(nèi)容匹配還是不匹配",而是學(xué)習(xí)"這兩個內(nèi)容的匹配程度是多少"。
在這個框架中,系統(tǒng)會同時計算兩個概率分布:一個是基于嵌入相似性的分布,另一個是基于MLLM語義匹配分?jǐn)?shù)的分布。然后,訓(xùn)練的目標(biāo)是讓這兩個分布盡可能接近。這就像訓(xùn)練一個學(xué)生,不僅要讓他知道答案的對錯,還要讓他理解每個答案的合理程度,從而培養(yǎng)更加細(xì)致和準(zhǔn)確的判斷能力。
為了確保訓(xùn)練的穩(wěn)定性和對稱性,研究團隊采用了JS散度(Jensen-Shannon Divergence)作為損失函數(shù),而不是常用的KL散度。JS散度的優(yōu)勢在于它是對稱的,這意味著無論從哪個方向計算兩個分布的差異,結(jié)果都是一致的,這有助于模型訓(xùn)練的穩(wěn)定性。
三、聯(lián)合優(yōu)化的重排序模型
除了改進基礎(chǔ)的嵌入學(xué)習(xí)方法,研究團隊還開發(fā)了一個名為UniME-V2-Reranker的重排序模型。這個模型的作用就像一個"精細(xì)篩選器",在初步檢索結(jié)果的基礎(chǔ)上進行更精確的排序。
重排序模型采用了"成對訓(xùn)練"和"列表訓(xùn)練"相結(jié)合的優(yōu)化策略。成對訓(xùn)練類似于讓模型進行"二選一"的選擇題練習(xí),系統(tǒng)需要在正樣本和最難的負(fù)樣本之間做出正確選擇。而列表訓(xùn)練則更像是"多選排序題",系統(tǒng)需要從多個候選項中找出最合適的那一個,并給出正確的排序。
在成對訓(xùn)練中,研究團隊會為每個查詢構(gòu)造兩個配對:一個是查詢與正確候選項的配對,另一個是查詢與最難負(fù)樣本的配對。模型需要學(xué)會對第一個配對輸出"YES",對第二個配對輸出"NO"。而在列表訓(xùn)練中,系統(tǒng)會從挖掘到的困難負(fù)樣本中選擇若干個候選項,將正確答案隨機插入其中,然后要求模型輸出正確答案的位置。
這種雙重訓(xùn)練策略的好處是能夠從不同角度提升模型的判斷能力。成對訓(xùn)練注重培養(yǎng)模型的基礎(chǔ)判斷能力,而列表訓(xùn)練則進一步提升模型在復(fù)雜多選場景下的排序能力。兩種訓(xùn)練方式的結(jié)合使得重排序模型能夠在各種實際應(yīng)用場景中表現(xiàn)出色。
四、全面的實驗驗證與性能分析
為了驗證新方法的有效性,研究團隊在多個基準(zhǔn)測試上進行了廣泛的實驗評估。他們選擇了MMEB(大規(guī)模多模態(tài)嵌入基準(zhǔn))作為主要評測平臺,該基準(zhǔn)包含36個不同的數(shù)據(jù)集,涵蓋了分類、視覺問答、檢索和視覺定位四大類任務(wù)。
實驗結(jié)果顯示,UniME-V2在各項任務(wù)上都取得了顯著的性能提升。以Qwen2-VL-2B模型為例,與之前的最佳方法VLM2Vec相比,UniME-V2在整體性能上提升了3.0個百分點。更重要的是,在分布外(out-of-distribution)任務(wù)上,也就是模型沒有見過的新任務(wù)類型上,UniME-V2的性能提升更加明顯,達到了4.3個百分點。這說明新方法不僅能提升模型在已知任務(wù)上的表現(xiàn),還能增強模型的泛化能力。
在具體的檢索任務(wù)上,研究團隊測試了短描述檢索(如Flickr30K和MS-COCO數(shù)據(jù)集)、長描述檢索(如ShareGPT4V和Urban1K數(shù)據(jù)集)以及組合式檢索(SugarCrepe數(shù)據(jù)集)。結(jié)果表明,UniME-V2在長描述和組合式檢索任務(wù)上的表現(xiàn)尤其出色。這是因為這類任務(wù)需要模型理解更復(fù)雜的語義關(guān)系,而MLLM"法官"提供的細(xì)致評分正好能夠幫助模型學(xué)習(xí)這些復(fù)雜關(guān)系。
特別值得注意的是,在組合式檢索任務(wù)上,UniME-V2相比之前的方法取得了顯著提升。組合式檢索是一個特別具有挑戰(zhàn)性的任務(wù),它要求模型不僅理解物體的屬性,還要理解屬性之間的組合關(guān)系。比如,模型需要區(qū)分"紅色的汽車"和"汽車的紅色部分"這樣的細(xì)微差別。UniME-V2在這類任務(wù)上的優(yōu)異表現(xiàn)證明了其強大的語義理解能力。
五、深入的消融實驗與機制分析
為了更好地理解新方法中各個組件的作用,研究團隊進行了詳細(xì)的消融實驗。這些實驗就像拆解一臺精密機器,逐一檢驗每個零件的重要性。
首先,他們驗證了MLLM法官機制的有效性。實驗表明,僅僅使用困難負(fù)樣本挖掘(不使用軟分?jǐn)?shù))就能帶來1.5%的性能提升,而加入基于MLLM判斷的軟標(biāo)簽訓(xùn)練后,性能進一步提升了2.0%。這說明困難負(fù)樣本的多樣性和軟標(biāo)簽提供的細(xì)致監(jiān)督信號都對最終性能有重要貢獻。
接著,研究團隊比較了不同MLLM作為"法官"的效果。他們測試了Qwen2.5-VL-7B、InternVL3-8B和InternVL3-14B三個模型。結(jié)果顯示,Qwen2.5-VL-7B的表現(xiàn)最佳,這主要歸因于其在指令跟隨訓(xùn)練階段使用的數(shù)據(jù)分布與當(dāng)前任務(wù)更加匹配。
研究團隊還探索了困難負(fù)樣本數(shù)量對性能的影響。實驗表明,當(dāng)困難負(fù)樣本數(shù)量從4個增加到8個時,模型性能持續(xù)提升,但繼續(xù)增加到10個時性能開始下降。這是因為過多的負(fù)樣本會引入一些相對簡單的樣本,削弱了訓(xùn)練的有效性。這個發(fā)現(xiàn)為實際應(yīng)用中的參數(shù)設(shè)置提供了重要指導(dǎo)。
在溫度參數(shù)的選擇上,研究團隊發(fā)現(xiàn)0.02是最優(yōu)值。溫度參數(shù)控制著概率分布的尖銳程度,過低會使分布過于集中,過高則會使分布過于平滑,都不利于模型學(xué)習(xí)到準(zhǔn)確的語義區(qū)分能力。
六、重排序模型的優(yōu)勢與應(yīng)用效果
UniME-V2-Reranker在多個任務(wù)上都展現(xiàn)出了優(yōu)異的性能,特別是在與現(xiàn)有重排序方法LamRA的對比中。在相同的實驗設(shè)置下,UniME-V2-Reranker僅使用一半的訓(xùn)練數(shù)據(jù)就達到了更好的效果。這種效率優(yōu)勢主要來源于高質(zhì)量困難負(fù)樣本的使用,這些樣本為模型提供了更加有效的學(xué)習(xí)信號。
在組合理解任務(wù)上,UniME-V2-Reranker的優(yōu)勢尤為明顯。傳統(tǒng)的重排序方法往往難以處理復(fù)雜的語義組合關(guān)系,而新方法通過MLLM的理解能力挖掘出的困難樣本恰好涵蓋了這些復(fù)雜情況,從而顯著提升了模型的判別能力。
研究團隊還展示了一些具體的應(yīng)用案例。在圖像分類任務(wù)中,當(dāng)查詢是識別"棕熊"時,UniME-V2能夠準(zhǔn)確地將"棕熊"排在"黑熊"之前,展現(xiàn)出對細(xì)致語義差別的理解能力。在視覺問答任務(wù)中,面對"這個熊和地板有什么共同點"這樣的問題,模型能夠理解問題中隱含的顏色比較關(guān)系,給出準(zhǔn)確的答案。
實驗結(jié)果還顯示,UniME-V2在處理長文本描述時表現(xiàn)特別出色。這是因為MLLM"法官"能夠理解復(fù)雜的語言描述,為模型提供更準(zhǔn)確的訓(xùn)練信號。相比之下,傳統(tǒng)方法在處理長文本時往往會因為語義復(fù)雜性而產(chǎn)生錯誤的訓(xùn)練信號。
七、技術(shù)創(chuàng)新的深層價值與影響
這項研究的核心價值不僅在于性能的提升,更在于它開創(chuàng)了一種新的訓(xùn)練范式。通過讓更強大的AI系統(tǒng)指導(dǎo)相對簡單系統(tǒng)的學(xué)習(xí),這種"以強帶弱"的方法為AI訓(xùn)練開辟了新的可能性。這就像讓經(jīng)驗豐富的師傅指導(dǎo)學(xué)徒一樣,能夠傳遞更多微妙的經(jīng)驗和技巧。
從技術(shù)角度來看,軟標(biāo)簽的引入代表了從二元判斷向連續(xù)評分的重要轉(zhuǎn)變。這種轉(zhuǎn)變使得AI系統(tǒng)能夠?qū)W習(xí)到更加細(xì)致和準(zhǔn)確的語義理解能力,這對于構(gòu)建真正智能的多模態(tài)系統(tǒng)具有重要意義。
研究團隊通過可視化分析發(fā)現(xiàn),經(jīng)過新方法訓(xùn)練的模型在表示空間中展現(xiàn)出更好的聚類性質(zhì)。不同類別的樣本在嵌入空間中分離得更加清晰,而同一類別內(nèi)的樣本則聚集得更加緊密。這種空間結(jié)構(gòu)的改善直接轉(zhuǎn)化為了檢索和匹配任務(wù)上的性能提升。
該方法的另一個重要貢獻是提高了訓(xùn)練效率。通過更精確的困難樣本選擇和更有效的監(jiān)督信號,新方法能夠在相同的訓(xùn)練時間內(nèi)達到更好的效果,或者用更少的訓(xùn)練資源達到相同的性能水平。這對于資源有限的研究團隊和應(yīng)用場景具有重要的實用價值。
結(jié)論
歸根結(jié)底,這項研究展示了如何巧妙地利用AI系統(tǒng)的"內(nèi)在智慧"來改進AI訓(xùn)練過程。通過讓大型多模態(tài)語言模型充當(dāng)"智能評委",研究團隊解決了傳統(tǒng)訓(xùn)練方法在樣本多樣性和語義理解精度方面的核心問題。這種方法不僅在技術(shù)上具有創(chuàng)新性,在實際應(yīng)用中也展現(xiàn)出了顯著的效果提升。
UniME-V2的成功證明了一個重要觀點:AI系統(tǒng)的進步不僅來自于算法和架構(gòu)的改進,也來自于訓(xùn)練策略和數(shù)據(jù)利用方式的創(chuàng)新。當(dāng)我們能夠更智能地選擇訓(xùn)練樣本,更精確地設(shè)計監(jiān)督信號時,即使是相同的模型架構(gòu)也能達到更好的性能。
這項工作的影響可能會超越多模態(tài)嵌入學(xué)習(xí)這一具體領(lǐng)域。它提供的"強模型指導(dǎo)弱模型"的訓(xùn)練思路可以應(yīng)用到許多其他AI任務(wù)中,為整個AI研究社區(qū)提供了新的思考方向。同時,軟標(biāo)簽訓(xùn)練和困難樣本挖掘的結(jié)合也為對比學(xué)習(xí)等基礎(chǔ)技術(shù)的改進指明了方向。
對于普通用戶來說,這項研究意味著未來的AI應(yīng)用將能夠更準(zhǔn)確地理解用戶的多模態(tài)查詢需求,無論是通過圖片搜索文字,還是通過語音描述尋找視頻,系統(tǒng)的理解和匹配能力都將得到顯著提升。這將使得人機交互變得更加自然和高效,真正實現(xiàn)智能系統(tǒng)對人類意圖的深度理解。
有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過論文編號arXiv:2510.13515v1在相關(guān)學(xué)術(shù)數(shù)據(jù)庫中查詢完整論文,其中包含了更詳細(xì)的實驗數(shù)據(jù)和技術(shù)實現(xiàn)細(xì)節(jié)。
Q&A
Q1:UniME-V2中的MLLM-as-a-Judge機制具體是如何工作的?
A:MLLM-as-a-Judge機制就像請專業(yè)評委來打分一樣。系統(tǒng)首先從全局范圍內(nèi)挑選出可能具有挑戰(zhàn)性的候選樣本,然后讓訓(xùn)練好的大型多模態(tài)語言模型對每個查詢-候選對的語義匹配程度進行評分。模型會根據(jù)指令判斷候選項是否滿足查詢要求,輸出Yes或No,系統(tǒng)再根據(jù)這兩個回答的概率計算出0到1之間的連續(xù)評分,這個評分比傳統(tǒng)的簡單對錯判斷更加精確和有用。
Q2:為什么UniME-V2在組合式檢索任務(wù)上表現(xiàn)特別好?
A:組合式檢索需要理解復(fù)雜的語義組合關(guān)系,比如區(qū)分"紅色汽車"和"汽車的紅色部分"這樣的細(xì)微差別。UniME-V2使用的MLLM"法官"具有強大的語言理解能力,能夠準(zhǔn)確識別這些復(fù)雜的語義關(guān)系,為訓(xùn)練提供更精確的監(jiān)督信號。加上軟標(biāo)簽訓(xùn)練讓模型學(xué)會理解不同程度的匹配關(guān)系,而不是簡單的對錯判斷,這使得模型在處理復(fù)雜語義組合時表現(xiàn)出色。
Q3:普通用戶如何從UniME-V2技術(shù)中受益?
A:UniME-V2的改進將直接提升多模態(tài)AI應(yīng)用的用戶體驗。當(dāng)你用圖片搜索相關(guān)文字內(nèi)容,或者用語音描述尋找視頻時,系統(tǒng)的理解和匹配能力會更加準(zhǔn)確。特別是在處理復(fù)雜查詢時,比如"找一張下雪天里單獨一只哈士奇的照片",新技術(shù)能夠更精確地理解你的具體需求,過濾掉那些相似但不符合要求的結(jié)果,讓搜索和推薦更加精準(zhǔn)高效。





京公網(wǎng)安備 11011402013531號