![]()
最近,格靈深瞳公司靈感團(tuán)隊自研的視覺模型基座RICE(MVT v1.5)再次驚艷全場,刷榜多項視覺任務(wù)。
RICE 作為 MVT 系列的新模型,繼續(xù)延續(xù)前作 Unicom(MVT v1.0)和 MLCD(MVT v1.1)的視覺預(yù)訓(xùn)練理念,秉持著margin 表征代表語義的核心觀點,在頂級學(xué)術(shù)會議 ICCV25 上獲得 Highlight 榮譽。
![]()
代碼地址:https://github.com/deepglint/MVT論文地址:https://arxiv.org/abs/2507.20025模型地址:https://huggingface.co/DeepGlint-AI/rice-vit-large-patch14-560
MVT 系列作為靈感團(tuán)隊自研的視覺基座預(yù)訓(xùn)練方法,從 1.0 開始,就聚焦于如何讓視覺模型利用海量的數(shù)據(jù)集進(jìn)行更加準(zhǔn)確的視覺語義表征。MVT 系列靈感來自于格靈深瞳公司的頂尖技術(shù) —— 人臉識別算法,得益于在人臉識別領(lǐng)域積累的大量訓(xùn)練經(jīng)驗和視覺表征認(rèn)知。
團(tuán)隊深刻認(rèn)識到,視覺知識就像不同的人臉一樣,名字只是賦予的人為語義,只要能充分做到不同語義之間的差異化表征,即可做到讓各種下游任務(wù)以及 LLM 輕松識別這些差異化表征與人類認(rèn)知之間的對應(yīng)關(guān)系。
基于此思路,MVT v1.0 成功站在巨人的肩膀上,利用當(dāng)時最先進(jìn)的 CLIP 預(yù)訓(xùn)練模型為海量圖文數(shù)據(jù)進(jìn)行特征提取。再利用 kmeans 算法,將所有的特征聚類為一百萬個不同類別,并為圖片進(jìn)行打標(biāo)。MVT v1.0 在圖片分類、檢索等不同領(lǐng)域均獲得了 SOTA 級別的表現(xiàn)。
![]()
MVT v1.0 方法中的每個樣本的學(xué)習(xí)其實是基于超大規(guī)模的數(shù)據(jù)集總結(jié)出來的,超越了 CLIP 這類方法的 batch 類差異化學(xué)習(xí)的限制。
靈感團(tuán)隊繼續(xù)研究發(fā)現(xiàn)對圖像賦予單一的標(biāo)簽,可能會將一些其他正確的標(biāo)簽被當(dāng)成負(fù)樣本學(xué)習(xí) —— 人類對于事物的認(rèn)知是多樣的。基于此思想,團(tuán)隊推出 MVT v1.1 的工作,給每張圖像分配 top-k 個軟標(biāo)簽,進(jìn)一步提高視覺基座對圖像編碼的語義豐富性。
![]()
新一代視覺模型基座 ——RICE
本次的 MVT v1.5——RICE 是沿著前作思想,并進(jìn)一步洞悉圖像語義組成方式的又一力作。
團(tuán)隊研究發(fā)現(xiàn)一張圖片的信息往往是多種無 / 弱關(guān)聯(lián)視覺元素拼接而成,直接對圖片內(nèi)的不同視覺元素進(jìn)行監(jiān)督可能更加符合人類對于圖片信息的處理,也能進(jìn)一步成為目標(biāo)檢測、分割等下游任務(wù)更好的基座視覺模型。除此之外,圖片中存在的字符塊也被此框架所兼容,其字符本身即為該區(qū)域圖片的語義信息。
為此,團(tuán)隊使用 SAM 對潛在的區(qū)域級對象進(jìn)行了搜索,并對整個數(shù)據(jù)集中的區(qū)域級對象進(jìn)行特征提取和聚類,最終從 400M 的圖像中得到 2B 個圖像區(qū)域級對象,并聚類為一百萬個區(qū)域級語義類別標(biāo)簽。針對圖像字符塊,團(tuán)隊使用 PaddleOCR 從 50M 圖片中提取出 400M 的字符級別候選區(qū)域,使用字符直接作為類別標(biāo)簽。
![]()
在訓(xùn)練過程中,每張圖片有大約 10 個區(qū)域級對象需要進(jìn)行學(xué)習(xí),團(tuán)隊提出一種Region Attention Layer 模塊用于加速模型訓(xùn)練。模型主體部分 ——Encoder 使用經(jīng)典的 ViT 結(jié)構(gòu),對于最后一層的視覺特征圖則使用 mask 機(jī)制對屬于同一對象的視覺特征進(jìn)行提取,完整圖片的 class embedding 作為 Q 對區(qū)域級別的視覺特征進(jìn)行 QKV 注意力計算,得到該區(qū)域的 Region Class Embedding 作為區(qū)域類別語義進(jìn)行分類損失計算。
![]()
相比于 MVT v1.1 這類以全圖語義信息編碼的訓(xùn)練方法,RICE 在訓(xùn)練過程中,圖片內(nèi)部的視覺特征差異性得到了有效的提升。這表明隨著訓(xùn)練的進(jìn)行,視覺編碼器對于圖片內(nèi)部元素的語義表征變得更加豐富。
![]()
完備實驗驗證
RICE 作為新的視覺基座,在多種不同的下游任務(wù)上進(jìn)行了充分的實驗驗證。
檢測任務(wù)
RICE 不僅在經(jīng)典的 COCO 和 LVIS 任務(wù)上驗證了檢測任務(wù)上的 Linear Prob 能力,還在包含了 100 種不同場景檢測任務(wù)的 Roboflow100 上進(jìn)行了與其他先進(jìn)的視覺基座進(jìn)行了公平比較。針對區(qū)域級別語義學(xué)習(xí)的預(yù)訓(xùn)練方法,讓 RICE 在這類任務(wù)上有著得天獨厚的優(yōu)勢,在幾乎所有指標(biāo)上獲得了最好的結(jié)果。
![]()
多模態(tài)分割任務(wù)
多模態(tài)分割任務(wù)作為多模態(tài)領(lǐng)域重要的方向之一,RICE 使用經(jīng)典的 LLaVA 系列多模態(tài)框架,使用 LISA 方法進(jìn)行訓(xùn)練,在 refCOCO 系列的所有子集上均獲得了顯著的提升。
![]()
視頻追蹤任務(wù)
盡管 RICE 是基于圖片進(jìn)行訓(xùn)練的,但其 ROPE 的位置編碼方式以及跨圖片的區(qū)域級對象聚類方法,使得 RICE 可以接收不同尺寸的視頻輸入,并對于不同視頻幀中的相同目標(biāo)進(jìn)行持續(xù)追蹤。RICE 在 4 個不同的視頻追蹤相關(guān)任務(wù)上均獲得了領(lǐng)先表現(xiàn),從特征降采樣后的可視化效果來看,模型能夠很好的對不同幀中的同一類別物體進(jìn)行持續(xù)追蹤。
![]()
多模態(tài)問答任務(wù)
多模態(tài)模型是現(xiàn)在視覺基座模型的兵家必爭之地。在 LLaVA 系列的主流訓(xùn)練架構(gòu)中,使用 RICE 作為視覺編碼器在多個基準(zhǔn)測試上獲得了更好的效果。尤其是得益于其在預(yù)訓(xùn)練方法可以無縫兼容光學(xué)字符識別,使得基于 RICE 視覺基座的多模態(tài)模型在 OCR 相關(guān)任務(wù)上獲得了顯著的優(yōu)勢。下表源自 LLaVA- OneVision-1.5 技術(shù)報告:
![]()
最近,RICE 被作為 LLaVA-OneVision-1.5 的視覺編碼器,助力其成為和 Qwen2.5-VL 系列可比的全開源的卓越工作。
![]()
結(jié)論
RICE 作為格靈深瞳公司 MVT 系列的又一力作,在多個層面上展現(xiàn)了他們對于視覺預(yù)訓(xùn)練的深刻理解與洞察。RICE 的成功證明了:視覺語義信息在學(xué)習(xí)時應(yīng)當(dāng)注重差異化,可以保證不同下游任務(wù)輕松區(qū)分并快速識別不同的語義信息;圖片中的視覺元素很多的時候是無 / 弱關(guān)聯(lián),因此區(qū)域內(nèi)的視覺元素學(xué)習(xí)能夠更好的完整表征圖片信息。
下一步,MVT 系列即將開啟 v2.0—— 視頻編碼工作,圖像是對當(dāng)前場景的一個靜態(tài)幀,視頻則是對真實世界的直接記錄。視頻中有大量的信息可以挖掘,是通往 AGI 之路的金礦山。MVT 將繼續(xù)沿著前作的差異化語義表征的路線,開啟視頻編碼時代的下一個新 SOTA!





京公網(wǎng)安備 11011402013531號