格靈深瞳RICE模型狂刷榜單，讓AI「看懂」圖片的每個細(xì)節(jié)

IP屬地中國·北京 機(jī)器之心Pro 時間：2025-10-29 18:16:29

最近，格靈深瞳公司靈感團(tuán)隊自研的視覺模型基座RICE（MVT v1.5）再次驚艷全場，刷榜多項視覺任務(wù)。
RICE 作為 MVT 系列的新模型，繼續(xù)延續(xù)前作 Unicom（MVT v1.0）和 MLCD（MVT v1.1）的視覺預(yù)訓(xùn)練理念，秉持著margin 表征代表語義的核心觀點，在頂級學(xué)術(shù)會議 ICCV25 上獲得 Highlight 榮譽。

代碼地址：https://github.com/deepglint/MVT論文地址：https://arxiv.org/abs/2507.20025模型地址：https://huggingface.co/DeepGlint-AI/rice-vit-large-patch14-560
MVT 系列作為靈感團(tuán)隊自研的視覺基座預(yù)訓(xùn)練方法，從 1.0 開始，就聚焦于如何讓視覺模型利用海量的數(shù)據(jù)集進(jìn)行更加準(zhǔn)確的視覺語義表征。MVT 系列靈感來自于格靈深瞳公司的頂尖技術(shù) —— 人臉識別算法，得益于在人臉識別領(lǐng)域積累的大量訓(xùn)練經(jīng)驗和視覺表征認(rèn)知。
團(tuán)隊深刻認(rèn)識到，視覺知識就像不同的人臉一樣，名字只是賦予的人為語義，只要能充分做到不同語義之間的差異化表征，即可做到讓各種下游任務(wù)以及 LLM 輕松識別這些差異化表征與人類認(rèn)知之間的對應(yīng)關(guān)系。
基于此思路，MVT v1.0 成功站在巨人的肩膀上，利用當(dāng)時最先進(jìn)的 CLIP 預(yù)訓(xùn)練模型為海量圖文數(shù)據(jù)進(jìn)行特征提取。再利用 kmeans 算法，將所有的特征聚類為一百萬個不同類別，并為圖片進(jìn)行打標(biāo)。MVT v1.0 在圖片分類、檢索等不同領(lǐng)域均獲得了 SOTA 級別的表現(xiàn)。

MVT v1.0 方法中的每個樣本的學(xué)習(xí)其實是基于超大規(guī)模的數(shù)據(jù)集總結(jié)出來的，超越了 CLIP 這類方法的 batch 類差異化學(xué)習(xí)的限制。
靈感團(tuán)隊繼續(xù)研究發(fā)現(xiàn)對圖像賦予單一的標(biāo)簽，可能會將一些其他正確的標(biāo)簽被當(dāng)成負(fù)樣本學(xué)習(xí) —— 人類對于事物的認(rèn)知是多樣的。基于此思想，團(tuán)隊推出 MVT v1.1 的工作，給每張圖像分配 top-k 個軟標(biāo)簽，進(jìn)一步提高視覺基座對圖像編碼的語義豐富性。

新一代視覺模型基座 ——RICE
本次的 MVT v1.5——RICE 是沿著前作思想，并進(jìn)一步洞悉圖像語義組成方式的又一力作。
團(tuán)隊研究發(fā)現(xiàn)一張圖片的信息往往是多種無 / 弱關(guān)聯(lián)視覺元素拼接而成，直接對圖片內(nèi)的不同視覺元素進(jìn)行監(jiān)督可能更加符合人類對于圖片信息的處理，也能進(jìn)一步成為目標(biāo)檢測、分割等下游任務(wù)更好的基座視覺模型。除此之外，圖片中存在的字符塊也被此框架所兼容，其字符本身即為該區(qū)域圖片的語義信息。
為此，團(tuán)隊使用 SAM 對潛在的區(qū)域級對象進(jìn)行了搜索，并對整個數(shù)據(jù)集中的區(qū)域級對象進(jìn)行特征提取和聚類，最終從 400M 的圖像中得到 2B 個圖像區(qū)域級對象，并聚類為一百萬個區(qū)域級語義類別標(biāo)簽。針對圖像字符塊，團(tuán)隊使用 PaddleOCR 從 50M 圖片中提取出 400M 的字符級別候選區(qū)域，使用字符直接作為類別標(biāo)簽。

在訓(xùn)練過程中，每張圖片有大約 10 個區(qū)域級對象需要進(jìn)行學(xué)習(xí)，團(tuán)隊提出一種Region Attention Layer 模塊用于加速模型訓(xùn)練。模型主體部分 ——Encoder 使用經(jīng)典的 ViT 結(jié)構(gòu)，對于最后一層的視覺特征圖則使用 mask 機(jī)制對屬于同一對象的視覺特征進(jìn)行提取，完整圖片的 class embedding 作為 Q 對區(qū)域級別的視覺特征進(jìn)行 QKV 注意力計算，得到該區(qū)域的 Region Class Embedding 作為區(qū)域類別語義進(jìn)行分類損失計算。

相比于 MVT v1.1 這類以全圖語義信息編碼的訓(xùn)練方法，RICE 在訓(xùn)練過程中，圖片內(nèi)部的視覺特征差異性得到了有效的提升。這表明隨著訓(xùn)練的進(jìn)行，視覺編碼器對于圖片內(nèi)部元素的語義表征變得更加豐富。

完備實驗驗證
RICE 作為新的視覺基座，在多種不同的下游任務(wù)上進(jìn)行了充分的實驗驗證。
檢測任務(wù)
RICE 不僅在經(jīng)典的 COCO 和 LVIS 任務(wù)上驗證了檢測任務(wù)上的 Linear Prob 能力，還在包含了 100 種不同場景檢測任務(wù)的 Roboflow100 上進(jìn)行了與其他先進(jìn)的視覺基座進(jìn)行了公平比較。針對區(qū)域級別語義學(xué)習(xí)的預(yù)訓(xùn)練方法，讓 RICE 在這類任務(wù)上有著得天獨厚的優(yōu)勢，在幾乎所有指標(biāo)上獲得了最好的結(jié)果。

多模態(tài)分割任務(wù)
多模態(tài)分割任務(wù)作為多模態(tài)領(lǐng)域重要的方向之一，RICE 使用經(jīng)典的 LLaVA 系列多模態(tài)框架，使用 LISA 方法進(jìn)行訓(xùn)練，在 refCOCO 系列的所有子集上均獲得了顯著的提升。

視頻追蹤任務(wù)
盡管 RICE 是基于圖片進(jìn)行訓(xùn)練的，但其 ROPE 的位置編碼方式以及跨圖片的區(qū)域級對象聚類方法，使得 RICE 可以接收不同尺寸的視頻輸入，并對于不同視頻幀中的相同目標(biāo)進(jìn)行持續(xù)追蹤。RICE 在 4 個不同的視頻追蹤相關(guān)任務(wù)上均獲得了領(lǐng)先表現(xiàn)，從特征降采樣后的可視化效果來看，模型能夠很好的對不同幀中的同一類別物體進(jìn)行持續(xù)追蹤。

多模態(tài)問答任務(wù)
多模態(tài)模型是現(xiàn)在視覺基座模型的兵家必爭之地。在 LLaVA 系列的主流訓(xùn)練架構(gòu)中，使用 RICE 作為視覺編碼器在多個基準(zhǔn)測試上獲得了更好的效果。尤其是得益于其在預(yù)訓(xùn)練方法可以無縫兼容光學(xué)字符識別，使得基于 RICE 視覺基座的多模態(tài)模型在 OCR 相關(guān)任務(wù)上獲得了顯著的優(yōu)勢。下表源自 LLaVA- OneVision-1.5 技術(shù)報告：

最近，RICE 被作為 LLaVA-OneVision-1.5 的視覺編碼器，助力其成為和 Qwen2.5-VL 系列可比的全開源的卓越工作。

結(jié)論

RICE 作為格靈深瞳公司 MVT 系列的又一力作，在多個層面上展現(xiàn)了他們對于視覺預(yù)訓(xùn)練的深刻理解與洞察。RICE 的成功證明了：視覺語義信息在學(xué)習(xí)時應(yīng)當(dāng)注重差異化，可以保證不同下游任務(wù)輕松區(qū)分并快速識別不同的語義信息；圖片中的視覺元素很多的時候是無 / 弱關(guān)聯(lián)，因此區(qū)域內(nèi)的視覺元素學(xué)習(xí)能夠更好的完整表征圖片信息。
下一步，MVT 系列即將開啟 v2.0—— 視頻編碼工作，圖像是對當(dāng)前場景的一個靜態(tài)幀，視頻則是對真實世界的直接記錄。視頻中有大量的信息可以挖掘，是通往 AGI 之路的金礦山。MVT 將繼續(xù)沿著前作的差異化語義表征的路線，開啟視頻編碼時代的下一個新 SOTA！

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

設(shè)立“虛擬公司”，上海布局合成生物顛覆性技術(shù)項目｜跟著項目經(jīng)理看未來產(chǎn)業(yè)

越獄新曙光：iOS 26.2 Beta 1以下版本關(guān)鍵漏洞公開

AI巨頭擬500億美元入局AI基建

《汽車數(shù)據(jù)出境安全評估方法》團(tuán)體標(biāo)準(zhǔn)發(fā)布

蘋果2026 iPad路線圖曝光：三款新品齊發(fā)，mini迎來史詩級升級

100%國產(chǎn)化！國產(chǎn)機(jī)器人靈巧手突破“卡脖子”壁壘

全站最新

設(shè)立“虛擬公司”，上海布局合成生物顛覆性技術(shù)項目｜跟著項目經(jīng)理看未來產(chǎn)業(yè)

越獄新曙光：iOS 26.2 Beta 1以下版本關(guān)鍵漏洞公開

AI巨頭擬500億美元入局AI基建

《汽車數(shù)據(jù)出境安全評估方法》團(tuán)體標(biāo)準(zhǔn)發(fā)布

熱門推薦

設(shè)立“虛擬公司”，上海布局合成生物顛覆性技術(shù)項目｜跟著項目經(jīng)理看未來產(chǎn)業(yè)

越獄新曙光：iOS 26.2 Beta 1以下版本關(guān)鍵漏洞公開

AI巨頭擬500億美元入局AI基建

《汽車數(shù)據(jù)出境安全評估方法》團(tuán)體標(biāo)準(zhǔn)發(fā)布

蘋果2026 iPad路線圖曝光：三款新品齊發(fā)，mini迎來史詩級升級

100%國產(chǎn)化！國產(chǎn)機(jī)器人靈巧手突破“卡脖子”壁壘

廣汽能源聯(lián)動支付寶推出“碰一下”支付，AI支持選址、動態(tài)定價

機(jī)降突擊！陸航多型直升機(jī)沖向目標(biāo)地域

科學(xué)與健康｜月球也會“生銹”？嫦娥六號月背樣品中首次發(fā)現(xiàn)晶質(zhì)赤鐵礦

馬斯克最新訪談：目標(biāo)每年在太空部屬100吉瓦AI衛(wèi)星

未來的iPhone，想靠衛(wèi)星消滅無服務(wù)

2025中國國際石墨烯創(chuàng)新大會在溫州舉行多項關(guān)鍵技術(shù)取得突破

創(chuàng)新是走出低谷、完成突破的動力（親歷者說）

線下線上齊發(fā)力，渝貨出山有實招

觀察|全固態(tài)電池商業(yè)化時間表成爭議焦點，高成本或阻礙推廣