![]()
這項(xiàng)由上海交通大學(xué)的胡曉興、北京理工大學(xué)和深度好奇科技公司等多家機(jī)構(gòu)聯(lián)合開展的研究,發(fā)表于2025年10月的arXiv預(yù)印本平臺(論文編號:arXiv:2510.18795v1),有興趣深入了解的讀者可以通過該編號查詢完整論文。這個研究團(tuán)隊(duì)開發(fā)出了一種名為ProCLIP的新方法,徹底解決了目前最流行的視覺語言模型CLIP在理解文本方面的重大限制。 CLIP就像是一個非常聰明的翻譯官,能夠同時(shí)理解圖片和文字,并且知道它們之間的關(guān)系。比如當(dāng)你給它看一張貓的照片,并輸入"一只可愛的橘貓"這幾個字,它就能準(zhǔn)確地知道圖片和文字說的是同一件事。這種能力讓CLIP在很多應(yīng)用中大放異彩,從圖片搜索到自動生成圖片描述,都有它的身影。 但是CLIP有個致命弱點(diǎn),就像一個只會說短句的翻譯官一樣,它最多只能理解77個詞的文本。這聽起來可能不算什么大問題,但想象一下,如果你想讓它理解一段詳細(xì)的圖片描述,比如"在夕陽西下的海邊,一位穿著白色連衣裙的女孩正在沙灘上追逐海浪,她的長發(fā)在海風(fēng)中飛舞,遠(yuǎn)處的燈塔靜靜地矗立在巖石上,幾只海鷗在天空中自由翱翔,整個畫面充滿了詩意和寧靜"——這樣的描述很快就會超過77個詞的限制。更要命的是,CLIP基本上只能理解英文,對于中文、日文、西班牙文等其他語言幾乎一竅不通。 研究團(tuán)隊(duì)意識到,這些限制就像給一個本來很有潛力的學(xué)生戴上了眼罩和耳塞,嚴(yán)重限制了它的發(fā)揮。于是他們想到了一個絕妙的解決方案:既然CLIP的文本理解能力有限,為什么不給它換一個更強(qiáng)大的"大腦"呢? 一、用大語言模型的力量重新武裝CLIP 研究團(tuán)隊(duì)的核心思路非常巧妙,就像給一個視力很好但聽力有限的人配上最先進(jìn)的助聽器一樣。他們決定用大語言模型(LLM)來替換CLIP原本的文本編碼器。大語言模型就是那些能夠理解和生成人類語言的超級AI,比如GPT這樣的模型,它們在理解長文本、多語言支持和精細(xì)語義理解方面都非常出色。 但是,這里面有個巨大的技術(shù)挑戰(zhàn)。就像兩個從未合作過的音樂家突然要一起演奏交響樂一樣,CLIP的圖像理解部分和大語言模型的文本理解部分原本是在完全不同的"訓(xùn)練環(huán)境"中成長的,它們的"語言"并不相通。如果簡單粗暴地把它們拼接在一起,就像強(qiáng)行讓兩個說不同語言的人對話,結(jié)果往往是一團(tuán)糟。 以往的研究方法就像是把兩個陌生人扔到一個房間里,然后期望他們能立即配合默契。這種"從零開始"的對齊方式不僅效率低下,還可能讓原本表現(xiàn)很好的CLIP圖像理解能力受到損害,就像一個原本跳舞很好的人突然要學(xué)習(xí)一種完全不同的舞蹈風(fēng)格,反而可能連原來的舞步都忘了。 二、漸進(jìn)式學(xué)習(xí):先當(dāng)學(xué)生,再做搭檔 ProCLIP的創(chuàng)新之處就在于采用了一種"漸進(jìn)式對齊"的策略,這個過程就像培養(yǎng)兩個人成為完美搭檔的科學(xué)方法。整個訓(xùn)練過程分為兩個精心設(shè)計(jì)的階段,每個階段都有明確的目標(biāo)和作用。 在第一個階段,研究團(tuán)隊(duì)讓大語言模型先向CLIP的文本編碼器學(xué)習(xí),就像一個新來的員工要先跟老員工學(xué)習(xí)公司的工作方式一樣。這個過程叫做"知識蒸餾",聽起來很高深,其實(shí)就像是讓大語言模型觀察CLIP是如何理解文本的,然后盡力模仿這種理解方式。 具體來說,研究團(tuán)隊(duì)設(shè)計(jì)了兩種學(xué)習(xí)機(jī)制。第一種叫做"實(shí)例語義對齊損失",這就像是讓大語言模型學(xué)習(xí)如何理解每個具體的詞匯或短語。比如當(dāng)看到"可愛的小貓"這個短語時(shí),CLIP會產(chǎn)生一種特定的理解方式,大語言模型就要學(xué)會產(chǎn)生類似的理解。第二種叫做"嵌入結(jié)構(gòu)對齊損失",這更像是學(xué)習(xí)整體的思維模式,不僅要理解具體的詞匯,還要理解不同概念之間的關(guān)系和結(jié)構(gòu)。 這個階段的巧妙之處在于,大語言模型在學(xué)習(xí)CLIP理解方式的同時(shí),實(shí)際上是在建立一座"橋梁",讓自己的強(qiáng)大語言能力能夠與CLIP的圖像理解能力相互溝通。就像學(xué)習(xí)一門新語言時(shí),你首先要掌握基本的詞匯和語法,然后才能進(jìn)行復(fù)雜的對話。 三、精細(xì)調(diào)優(yōu):在保持本色的基礎(chǔ)上完美合作 第二個階段更加精彩,這時(shí)候研究團(tuán)隊(duì)開始讓圖像理解和文本理解兩個部分進(jìn)行真正的合作訓(xùn)練。這個過程使用了對比學(xué)習(xí)的方法,就像讓兩個人通過不斷的練習(xí)來培養(yǎng)默契。 對比學(xué)習(xí)的原理可以用一個簡單的例子來解釋:給模型看一張貓的圖片和一堆文字描述,其中只有一個描述真正匹配這張圖片(比如"一只橘色的貓趴在沙發(fā)上"),其他的都是不相關(guān)的描述(比如"一輛紅色的汽車"或"一束鮮花")。模型要學(xué)會找出正確的匹配,就像玩配對游戲一樣。通過大量這樣的練習(xí),模型逐漸學(xué)會了理解圖片和文字之間的對應(yīng)關(guān)系。 但是這里有個風(fēng)險(xiǎn):在學(xué)習(xí)新技能的過程中,CLIP原本優(yōu)秀的圖像理解能力可能會受到干擾,就像一個原本很會畫畫的人在學(xué)習(xí)音樂時(shí)可能會暫時(shí)影響畫畫水平。為了解決這個問題,研究團(tuán)隊(duì)引入了一個非常聰明的"自我約束"機(jī)制。 這個機(jī)制就像給學(xué)習(xí)者設(shè)置了一個"記憶錨點(diǎn)"。他們創(chuàng)建了一個CLIP圖像編碼器的"影子版本",這個影子版本保持著原始的能力不變。在訓(xùn)練過程中,當(dāng)前正在學(xué)習(xí)的版本會時(shí)不時(shí)地"回頭看看"這個影子版本,確保自己沒有忘記原來的技能。這種方法叫做"自蒸餾正則化",聽起來復(fù)雜,實(shí)際上就是一種防止"學(xué)了新的忘了舊的"的保護(hù)機(jī)制。 四、實(shí)驗(yàn)驗(yàn)證:全方位的能力提升 研究團(tuán)隊(duì)對ProCLIP進(jìn)行了極其全面的測試,就像對一款新車進(jìn)行各種路況的試駕一樣。他們在多個不同的任務(wù)上測試了模型的表現(xiàn),結(jié)果令人印象深刻。 在零樣本分類任務(wù)中,ProCLIP展現(xiàn)出了顯著的優(yōu)勢。零樣本分類就像是讓一個人看從未見過的動物照片,然后僅憑照片就能說出這是什么動物。在這項(xiàng)測試中,ProCLIP比基線方法LLM2CLIP提升了6.8%到13.5%的準(zhǔn)確率。這個提升幅度相當(dāng)可觀,就像一個學(xué)生的考試成績從70分提升到了80多分。 在跨模態(tài)檢索任務(wù)中,ProCLIP同樣表現(xiàn)出色。跨模態(tài)檢索就像是在一個巨大的圖片庫中,根據(jù)文字描述找出對應(yīng)的圖片,或者反過來根據(jù)圖片找出相應(yīng)的文字描述。研究團(tuán)隊(duì)在六個不同的數(shù)據(jù)集上進(jìn)行了測試,包括處理短文本的Flickr30k和COCO數(shù)據(jù)集,以及處理長文本的ShareGPT4V、Urban-1k、DOCCI和DCI數(shù)據(jù)集。在所有這些測試中,ProCLIP都穩(wěn)定地超越了現(xiàn)有方法,平均提升在2-3個百分點(diǎn)左右。 特別值得注意的是多語言能力的提升。研究團(tuán)隊(duì)在XM3600多語言數(shù)據(jù)集上進(jìn)行了測試,這個數(shù)據(jù)集涵蓋了36種不同的語言,從阿拉伯語到中文,從西班牙語到日語。結(jié)果顯示,ProCLIP在幾乎所有語言上都取得了顯著的性能提升,這證明了大語言模型的多語言能力確實(shí)被成功地傳遞給了整個系統(tǒng)。 在魯棒性測試中,ProCLIP也展現(xiàn)出了強(qiáng)大的適應(yīng)能力。魯棒性測試就像是在各種極端條件下測試一款產(chǎn)品的穩(wěn)定性,比如在光線昏暗、圖像模糊或者存在干擾的情況下,模型是否還能保持良好的表現(xiàn)。在ImageNet的各種變體測試中,包括ImageNet-A(對抗樣本)、ImageNet-R(風(fēng)格化圖像)等具有挑戰(zhàn)性的數(shù)據(jù)集上,ProCLIP都保持了穩(wěn)定的性能優(yōu)勢。 五、精細(xì)理解能力的突破 除了基礎(chǔ)的圖像分類和檢索能力,ProCLIP在精細(xì)理解任務(wù)中也表現(xiàn)出了令人矚目的進(jìn)步。研究團(tuán)隊(duì)使用MMVP-VLM基準(zhǔn)測試了模型的精細(xì)視覺理解能力,這個測試專門設(shè)計(jì)來評估模型是否能理解圖像中的細(xì)微差別和復(fù)雜關(guān)系。 MMVP-VLM測試涵蓋了九種不同類型的視覺理解挑戰(zhàn),每一種都考驗(yàn)著模型的不同能力。比如方向和朝向的識別(判斷圖中的狗是朝哪個方向看的),特定特征的存在性判斷(圖中是否有某個特定的物體),狀態(tài)和條件的識別(旗幟是否在風(fēng)中飄揚(yáng)),數(shù)量和計(jì)數(shù)(圖中有幾只鳥),位置和關(guān)系理解(物體之間的空間關(guān)系),顏色和外觀(物體的具體顏色),結(jié)構(gòu)和物理特征(建筑物的結(jié)構(gòu)特點(diǎn)),文本識別(圖中的文字內(nèi)容),以及視角和透視(照片的拍攝角度)。 在這些復(fù)雜的測試中,ProCLIP相比于基線LLM2CLIP在不同數(shù)據(jù)規(guī)模下都取得了明顯的改善。特別是在30M數(shù)據(jù)規(guī)模下,性能提升達(dá)到了10.4%,這表明ProCLIP不僅在基礎(chǔ)任務(wù)上表現(xiàn)優(yōu)秀,在需要精細(xì)理解的復(fù)雜場景中也能展現(xiàn)出明顯的優(yōu)勢。 六、技術(shù)細(xì)節(jié)的深度剖析 ProCLIP的成功離不開一系列精心設(shè)計(jì)的技術(shù)細(xì)節(jié)。研究團(tuán)隊(duì)在損失函數(shù)的設(shè)計(jì)上特別用心,確保每一個組件都能發(fā)揮最大的作用。 在第一階段的知識蒸餾過程中,實(shí)例語義對齊損失確保了大語言模型能夠準(zhǔn)確地學(xué)習(xí)CLIP文本編碼器的表示方式。這個損失函數(shù)通過最小化大語言模型輸出和CLIP文本編碼器輸出之間的差異來實(shí)現(xiàn)知識傳遞。與此同時(shí),嵌入結(jié)構(gòu)對齊損失則關(guān)注的是更高層次的結(jié)構(gòu)信息,它通過比較樣本之間的距離關(guān)系來確保大語言模型不僅能理解單個概念,還能掌握概念之間的相互關(guān)系。 在第二階段的對比調(diào)優(yōu)中,研究團(tuán)隊(duì)使用了InfoNCE損失函數(shù),這是對比學(xué)習(xí)中的經(jīng)典選擇。但關(guān)鍵的創(chuàng)新在于自蒸餾正則化的引入。這個機(jī)制通過維護(hù)一個指數(shù)移動平均(EMA)更新的教師模型來約束訓(xùn)練過程,防止模型在學(xué)習(xí)新能力時(shí)丟失原有的知識。這種設(shè)計(jì)就像給學(xué)習(xí)者設(shè)置了一個智能的提醒系統(tǒng),時(shí)刻確保不忘初心。 研究團(tuán)隊(duì)還進(jìn)行了詳盡的消融實(shí)驗(yàn),系統(tǒng)地驗(yàn)證了每個組件的必要性。結(jié)果顯示,移除任何一個組件都會導(dǎo)致性能的明顯下降,這證明了整個框架設(shè)計(jì)的合理性和完整性。 七、與現(xiàn)有方法的全面比較 為了證明ProCLIP的優(yōu)越性,研究團(tuán)隊(duì)將其與多種現(xiàn)有方法進(jìn)行了詳細(xì)比較,包括FLAME、ShareLock、LIFT、SAIL、LiT等最新的相關(guān)工作。比較結(jié)果顯示,在相同或更低的訓(xùn)練成本下,ProCLIP在各種模型規(guī)模上都取得了顯著的性能優(yōu)勢。 特別值得關(guān)注的是,ProCLIP不僅在檢索任務(wù)上表現(xiàn)出色,在ImageNet分類任務(wù)上也取得了顯著的改善。這種全面的性能提升表明,ProCLIP成功地在增強(qiáng)語言理解能力的同時(shí),保持并提升了原有的視覺理解能力。 研究團(tuán)隊(duì)還測試了不同大語言模型嵌入器的效果,包括Qwen3-Embedding、GME、NV-Embedv2和Llama3-CC等。結(jié)果顯示,雖然不同的嵌入器在檢索性能上差異不大,但在ImageNet分類準(zhǔn)確率上存在顯著差異,這表明不同嵌入器與CLIP特征空間的對齊程度不同。 八、數(shù)據(jù)規(guī)模和模型規(guī)模的影響 研究團(tuán)隊(duì)深入探討了數(shù)據(jù)規(guī)模對ProCLIP性能的影響。他們使用了三種不同規(guī)模的訓(xùn)練數(shù)據(jù):3M(CC3M)、15M(CC3M + CC12M)和30M(CC3M + CC12M + YFCC15M)。結(jié)果顯示,隨著數(shù)據(jù)規(guī)模的增加,模型性能呈現(xiàn)穩(wěn)定的提升趨勢。 有趣的是,即使在相對較小的數(shù)據(jù)規(guī)模(1M樣本)下,ProCLIP仍然能夠取得與使用更大數(shù)據(jù)集訓(xùn)練的LLM2CLIP相當(dāng)甚至更好的性能。這表明ProCLIP具有良好的數(shù)據(jù)效率,能夠在有限的數(shù)據(jù)條件下發(fā)揮出色的性能。 在模型規(guī)模方面,研究團(tuán)隊(duì)還嘗試了將MLP層數(shù)從4層擴(kuò)展到12層,結(jié)果顯示這種簡單的參數(shù)擴(kuò)展仍然能夠帶來額外的性能提升,說明ProCLIP框架具有良好的可擴(kuò)展性。 九、應(yīng)用前景和實(shí)際價(jià)值 ProCLIP的成功為視覺語言模型的發(fā)展開辟了新的方向。這項(xiàng)技術(shù)的應(yīng)用前景極其廣闊,幾乎涵蓋了所有需要理解圖像和文本關(guān)系的場景。 在搜索引擎領(lǐng)域,ProCLIP能夠大大改善基于自然語言的圖像搜索體驗(yàn)。用戶可以使用更長、更詳細(xì)的描述來查找圖片,而不再受制于簡短關(guān)鍵詞的限制。比如搜索"在櫻花盛開的公園里,一個穿著藍(lán)色外套的小女孩正在喂鴿子"這樣具體的場景,ProCLIP都能準(zhǔn)確理解并找到相應(yīng)的圖片。 在內(nèi)容創(chuàng)作和編輯領(lǐng)域,ProCLIP可以幫助自動生成更準(zhǔn)確、更詳細(xì)的圖片標(biāo)題和描述,提高內(nèi)容的可發(fā)現(xiàn)性和可訪問性。對于視力障礙用戶來說,這種技術(shù)能夠提供更豐富、更準(zhǔn)確的圖像描述,大大改善他們的數(shù)字體驗(yàn)。 在電商和廣告行業(yè),ProCLIP可以實(shí)現(xiàn)更精準(zhǔn)的商品推薦和廣告投放。通過理解用戶的詳細(xì)需求描述,系統(tǒng)能夠找到最匹配的商品或廣告內(nèi)容,提高用戶滿意度和轉(zhuǎn)化率。 在教育領(lǐng)域,ProCLIP可以幫助創(chuàng)建更智能的教學(xué)輔助工具,能夠理解學(xué)生用自然語言提出的關(guān)于圖像內(nèi)容的復(fù)雜問題,并提供準(zhǔn)確的回答和解釋。 十、技術(shù)局限性和未來發(fā)展方向 盡管ProCLIP取得了顯著的成功,研究團(tuán)隊(duì)也誠實(shí)地指出了當(dāng)前方法的一些局限性。 在訓(xùn)練效率方面,ProCLIP的兩階段訓(xùn)練策略確實(shí)帶來了額外的計(jì)算開銷。第二階段需要解凍視覺編碼器進(jìn)行訓(xùn)練,加上在線自蒸餾的計(jì)算,使得訓(xùn)練速度約為基線方法的0.74倍。研究團(tuán)隊(duì)已經(jīng)提出了幾種可能的優(yōu)化方向,包括采用參數(shù)高效的微調(diào)方法、只訓(xùn)練視覺編碼器的部分參數(shù)、或者將在線蒸餾改為離線蒸餾等。 在視覺對齊的精細(xì)度方面,當(dāng)前的ProCLIP仍然基于全局語義的對比學(xué)習(xí),對于局部視覺區(qū)域與文本語義的精細(xì)對齊還有改進(jìn)空間。這種局部對齊能力對于開放詞匯的分割和檢測任務(wù)特別重要,是未來發(fā)展的一個重要方向。 研究團(tuán)隊(duì)還指出,除了替換文本編碼器,未來還可以考慮同時(shí)改進(jìn)視覺編碼器來解決CLIP在視覺表示方面的局限性,比如缺乏局部感知能力等問題。 最后,ProCLIP雖然在檢索和分類任務(wù)上表現(xiàn)出色,但在多模態(tài)大語言模型(MLLM)的下游基準(zhǔn)測試中,相比基線方法的優(yōu)勢并不顯著。這提示未來的研究需要更多關(guān)注如何將改進(jìn)的視覺語言對齊能力更好地轉(zhuǎn)化為復(fù)雜推理任務(wù)的性能提升。 說到底,ProCLIP代表了視覺語言模型發(fā)展的一個重要里程碑。它不僅解決了CLIP在文本長度和多語言支持方面的關(guān)鍵限制,更重要的是,它提供了一個系統(tǒng)性的解決方案來整合不同模態(tài)的預(yù)訓(xùn)練知識。這種漸進(jìn)式對齊的思路為未來多模態(tài)模型的發(fā)展提供了寶貴的經(jīng)驗(yàn)和啟示。隨著技術(shù)的不斷完善和應(yīng)用場景的不斷擴(kuò)展,我們有理由相信,這類能夠深度理解圖像和語言關(guān)系的AI系統(tǒng)將在未來發(fā)揮越來越重要的作用,真正實(shí)現(xiàn)人機(jī)交互的自然化和智能化。 Q&A Q1:ProCLIP是如何突破CLIP的77個詞限制的? A:ProCLIP用大語言模型替換了CLIP原本的文本編碼器。大語言模型本身就能處理很長的文本,所以替換后的系統(tǒng)自然就能理解超過77個詞的長文本描述,同時(shí)還獲得了多語言理解能力。 Q2:ProCLIP的漸進(jìn)式訓(xùn)練有什么特別之處? A:ProCLIP采用兩階段訓(xùn)練策略。第一階段讓大語言模型先學(xué)習(xí)CLIP的理解方式,建立初步對齊;第二階段再進(jìn)行圖像文本的聯(lián)合訓(xùn)練,并用自蒸餾機(jī)制防止遺忘原有能力。這比直接強(qiáng)行對齊更穩(wěn)定有效。 Q3:ProCLIP在實(shí)際應(yīng)用中有哪些優(yōu)勢? A:ProCLIP在圖像搜索、內(nèi)容描述、多語言理解等方面都有顯著提升。它能理解更詳細(xì)的圖像描述,支持36種語言,在分類準(zhǔn)確率上比現(xiàn)有方法提升6.8%-13.5%,特別適合需要精細(xì)理解圖文關(guān)系的應(yīng)用場景。





京公網(wǎng)安備 11011402013531號