![]()
多模態圖片檢索是計算機視覺和多模態機器學習領域很重要的一個任務。現在大家做多模態圖片檢索一般會用 CLIP/SigLIP 這種視覺語言大模型,因為他們經過了大規模的預訓練,所以 zero-shot 的能力比較強。
牛津 VGG ,港大,上交大團隊這篇論文旨在提供一種方法,能夠用學術界的資源來增強視覺語言大模型的預訓練 (Enhance Language-Image Pre-training),使得其可以更好地用于文字 - 圖片檢索。這篇論文被 IEEE 國際基于內容的多媒體索引大會(IEEE International Conference on Content-based Multimedia Indexing)接受,并被評選為最佳論文提名,大會近期在愛爾蘭都柏林召開。
![]()
關鍵詞:大模型;視覺語言模型;圖片檢索項目主頁:https://www.robots.ox.ac.uk/~vgg/research/elip/論文鏈接:https://www.robots.ox.ac.uk/~vgg/publications/2025/Zhan25a/zhan25a.pdf代碼倉庫:https://github.com/ypliubit/ELIP
方法概覽
下圖是這篇文章方法的預覽圖。ELIP 方法的核心思想是,先用傳統的 CLIP/SigLIP 對全體圖片做一次 ranking,然后選出 top-k candidate 再做一次 re-ranking。做 re-ranking 的時候,作者設計了一個簡單的 MLP mapping network,可以用文字的特征來定義一些視覺域中的 token,并把這些 token 插入到 image encoder 當中,使得 image encoder 在編碼圖片信息的時候可以感知到語言信息。這樣重新編碼之后的圖片信息和語言信息再做比對的時候,同一個語言 query 能得到更好的 ranking 結果。ELIP 可以應用到一系列大模型上,比如 CLIP/SigLIP/SigLIP-2/BLIP-2,作者稱之為 ELIP-C/ELIP-S/ELIP-S-2/ELIP-B。
![]()
學術界研究的挑戰
視覺語言大模型的預訓練,一般都是工業界做的事情,但作者提出的方法使得用學術界兩張 GPU 做訓練也變得可能。想法的創新點主要在模型架構和訓練數據上。
創新點:模型架構
模型架構上,龐大的圖片編碼器和文本編碼器的權重是固定的,只有作者涉及的由三層 linear + GeLU 構成的 MLP maping network 需要打開訓練。
下圖是 ELIP-C 和 ELIP-S 的訓練圖示。訓練的時候,一個 batch 的文本圖片對輸入模型,文本特征映射到視覺特征空間來引導圖片信息的編碼。對于 CLIP 沿用 InfonCE 損失函數,對于 SigLIP 沿用 Sigmoid 損失函數,來對齊文本特征和重新計算的圖片特征。
![]()
下圖是 ELIP-B 的訓練圖示。和 CLIP/SigLIP 類似,MLP mapping network 把文本特征映射到視覺特征空間。唯一不同的是,在這里由文本引導的圖片特征放進了 Q-Former 來和輸入的文本做 cross-attention,并最終由 ITM Head 來預測圖片和文本是否匹配。訓練的時候,ELIP-B 沿用 BLIP-2 的 BCE 損失函數。
![]()
創新點:訓練數據
訓練數據上,在學術界做大模型訓練要面臨的挑戰就是 GPU 數量不夠,沒法開很大的 batch size 訓練,這樣可能訓練出來的模型分辨能力就會下降。而 ELIP 卻是要去分辨 CLIP/SigLIP 排序出來的 hard sample,對模型分辨能力的要求就更高了。為了解決這樣的挑戰,作者在訓練的時候先算了一下每個訓練圖片和對應文字標題的 CLIP 特征,然后把相似特征的圖文對聚集在一起形成 hard sample training batch。下圖是作者聚合的訓練 batch 的例子。對于每一行,第一個 sample 被用來聚合其他 sample。第一行的 caption 從左往右分別是:'a wooden table with no base'; 'a wooden table with a couple of folding legs on it'; 'a table that has a metal base with an olive wood top'; 'small table outdoors sitting on top of the asphalt'。第二行的 caption 從左往右分別是:'a huge body of blue ice floats in a mountain stream'; 'the big chunk of glacier is falling off of the cliff'; 'there is a broken piece of glass that has been broken from the ground'; 'a body of water surrounded by a forest near a mountain'。
![]()
新的評測數據集
除了在標準測試集比如 COCO, Flickr 上做測試之外,作者還提出了兩個新的 OOD 測試集:Occluded COCO 和 ImageNet-R。對于 Occluded COCO,正樣本包含了文字中描述的物體(物體通常被遮擋);對于 ImageNet-R,正樣本中包含了文字中描述的物體,但是是來自一些不常見的領域的。負樣本中不含文字中描述的物體。下圖是一些例子,第一行是正樣本,第二行是負樣本。對于 Occluded COCO,正樣本中含有被遮擋的自行車,負樣本中不含自行車;對于 ImageNet-R,正樣本中含有金魚,負樣本中不含金魚。
![]()
實驗結果
文章的結果如下表。可以看到,應用了 ELIP 之后,CLIP/SigLIP/SigLIP-2 的圖片檢索表現都顯著增長,甚至于 SigLIP 系列模型達到了和 BLIP-2 接近的表現。ELIP-B 應用到 BLIP-2 上之后,也提升了 BLIP-2 的表現,超過了最新的 Q-Pert 方法。
![]()
在 OOD 的測試數據集上,ELIP-C/ELIP-S/ELIP-S-2/ELIP-B 都取得了 zero-shot 的泛化提升。如果我們在對應的 domain 上做一些 fine-tune,比如對于 Occluded COCO 我們在 COCO 數據集上 fine-tune,對于 ImageNet-R 數據集我們在 ImageNet 數據集上 fine-tune,可以得到更顯著的提升。這進一步說明了 ELIP 除了增強預訓練之外,還提供了一種高效的 adaptation 的方式。
![]()
作者進一步觀察了注意力圖,發現當 text query 和圖片相關時,ELIP 可以提高圖片信息提取 CLS token 對于文字描述的相關區域的注意力和信息提取。
![]()
更多細節詳見論文原文。





京公網安備 11011402013531號