![]()
這項由新加坡南洋理工大學的張思越、高嗣源等研究人員聯(lián)合耶魯大學、紐約大學上海分校、上海交通大學和中科院大學共同完成的研究發(fā)表于2025年10月,論文編號為arXiv:2510.09510v1。想要深入了解這項研究的讀者可以通過該編號查詢完整論文。
當你在谷歌上搜索"頭痛的原因"時,搜索引擎能輕松找到相關網(wǎng)頁。但如果一位醫(yī)生想要尋找與某個復雜醫(yī)學影像相關的病例資料,或者工程師需要查找特定設計問題的解決方案時,現(xiàn)有的搜索技術就顯得力不從心了。這就好比你手里拿著一張復雜的藏寶圖,卻沒有合適的工具來解讀其中的線索。
這正是研究團隊要解決的核心問題。他們發(fā)現(xiàn),當前的多模態(tài)檢索系統(tǒng)就像是只會認字母卻不懂單詞含義的初學者,面對包含圖像和文字混合的專業(yè)文檔時,往往只能進行簡單的表面匹配,而無法進行深層的邏輯推理。比如,當系統(tǒng)看到一張顯微鏡下的組織切片圖像時,它可能能識別出這是一張醫(yī)學圖片,但卻無法理解這張圖片所反映的具體病理特征,更別說找到相關的診斷指南了。
為了突破這一瓶頸,研究團隊創(chuàng)造了MRMR這樣一個全新的測試平臺。這個平臺就像是為AI系統(tǒng)設計的"專業(yè)資格考試",涵蓋了從醫(yī)學診斷到工程設計,從藝術理論到商業(yè)分析等23個不同領域的1502個復雜查詢?nèi)蝿铡C總€任務都經(jīng)過了人類專家的精心驗證,確保其準確性和專業(yè)性。
這項研究的創(chuàng)新之處在于三個方面。首先,它要求AI系統(tǒng)不僅要能處理單一的圖像或文本,還要能理解圖像和文字交織在一起的復雜文檔,就像人類專家在閱讀學術論文或技術報告時一樣。其次,這些查詢?nèi)蝿招枰疃韧评恚皇呛唵蔚年P鍵詞匹配。最后,研究還首次引入了"矛盾檢索"的概念,要求AI系統(tǒng)能夠識別出與查詢內(nèi)容相沖突的信息,這對于專業(yè)領域的風險防控具有重要意義。
研究團隊對14種前沿模型進行了全面測試,結果令人深思。表現(xiàn)最好的竟然是傳統(tǒng)的文本檢索模型配合AI生成的圖像描述,達到了52.1分的成績。而那些看似更先進的多模態(tài)模型反而表現(xiàn)不佳,這就像是專門訓練的全能運動員在某些單項比賽中輸給了專項選手。更有趣的是,這些模型在不同專業(yè)領域的表現(xiàn)差異巨大,在藝術領域表現(xiàn)出色的模型在醫(yī)學領域可能就表現(xiàn)平平。
這項研究不僅揭示了當前AI技術的局限性,更為未來的發(fā)展指明了方向。它告訴我們,要讓AI真正成為專業(yè)領域的得力助手,僅僅提高識別能力還遠遠不夠,更重要的是要提升其推理和理解能力。
一、構建專業(yè)領域的"考試題庫":MRMR基準的設計理念
研究團隊面臨的第一個挑戰(zhàn)就像是為不同專業(yè)的學生設計統(tǒng)一的能力測試。他們需要創(chuàng)造一個既能覆蓋多個專業(yè)領域,又能真實反映專業(yè)工作復雜性的測試平臺。
MRMR基準就像是一個精心設計的圖書館,里面收藏著來自23個不同領域的"珍貴文獻"。這個圖書館不是簡單地按照學科分類,而是按照三種不同的"閱讀任務"來組織內(nèi)容。第一類任務叫做"知識檢索",就像是專業(yè)人士在遇到復雜問題時翻閱相關資料尋找答案。比如,當一位醫(yī)生看到一張復雜的醫(yī)學影像時,需要找到相關的診斷指南或類似病例。第二類任務叫做"定理檢索",專門針對需要數(shù)學或物理計算的問題,就像是工程師在解決技術難題時需要查找相關的公式和定理。第三類任務最為獨特,叫做"矛盾檢索",要求系統(tǒng)能夠找出與給定情況相沖突的規(guī)則或要求,這在風險管控和質量檢查中極為重要。
為了確保這些"考試題"的質量,研究團隊采用了非常嚴格的制作流程。他們從已有的多學科理解基準MMMU-Pro中精選出最具挑戰(zhàn)性的問題,這些問題即使對專業(yè)人士來說也需要仔細思考才能解答。然后,團隊邀請了來自各個領域的24位專家學者,就像是邀請各科的資深教授來審核試卷一樣,確保每個問題和答案都經(jīng)過了專業(yè)驗證。
這個過程就像是制作一道復雜的菜肴,需要精選食材、精心搭配、反復調味。研究團隊不僅要確保問題的專業(yè)性,還要保證答案文檔的準確性和相關性。他們開發(fā)了一套半自動化的流程,先由AI系統(tǒng)進行初步篩選和整理,再由人類專家進行最終的質量把關。這種人機協(xié)作的方式既提高了效率,又保證了質量。
特別值得注意的是,MRMR中的文檔不是簡單的純文本或單張圖片,而是像真實的專業(yè)文獻一樣,包含了圖像和文字的混合內(nèi)容。這就像是要求AI系統(tǒng)能夠閱讀一本圖文并茂的教科書,而不僅僅是看單獨的圖片或文字段落。這種設計更符合專業(yè)工作的實際場景,因為專業(yè)文檔往往需要通過圖表、示意圖等視覺元素來輔助文字說明。
二、三種檢索任務的深度解析:從知識查找到邏輯推理
研究團隊設計的三種檢索任務就像是三種不同難度級別的智力游戲,每一種都考察著AI系統(tǒng)的不同能力。
知識檢索任務就像是讓AI系統(tǒng)參加一場跨學科的專業(yè)知識競賽。當系統(tǒng)面對一個包含復雜圖像的專業(yè)問題時,它需要從龐大的文檔庫中找出能夠幫助解答這個問題的相關資料。這不是簡單的關鍵詞匹配,而是需要理解問題的本質,識別圖像中的關鍵信息,并將這些信息與文檔庫中的內(nèi)容進行深層關聯(lián)。
比如,當系統(tǒng)看到一張顯示胸部X光片的醫(yī)學圖像時,它不僅要識別出這是一張醫(yī)學影像,還要理解影像中可能存在的異常征象,然后找到相關的診斷指南、治療建議或類似病例。這就像是一位實習醫(yī)生在遇到復雜病例時,需要查閱大量醫(yī)學文獻來尋找診斷依據(jù)。
定理檢索任務則更像是數(shù)學或物理課上的應用題求解。當AI系統(tǒng)面對一個需要計算的問題時,它必須能夠識別出問題背后的數(shù)學或物理原理,然后找到相應的公式、定理或計算方法。這種任務特別考驗系統(tǒng)的抽象思維能力,因為它需要從具體的問題情境中提取出抽象的數(shù)學關系。
研究團隊為這類任務專門構建了一個包含約14000個定理和公式的數(shù)據(jù)庫,涵蓋數(shù)學、物理、工程和商業(yè)等多個領域。這個數(shù)據(jù)庫就像是一個巨大的"公式寶典",但關鍵在于AI系統(tǒng)能否在面對具體問題時,準確地找到適用的公式或定理。
最具創(chuàng)新性的矛盾檢索任務則完全是研究團隊的原創(chuàng)設計。這類任務要求AI系統(tǒng)具備一種特殊的"批判性思維"能力,能夠識別出與給定情況相沖突的規(guī)則、要求或標準。這在現(xiàn)實世界中具有重要的應用價值,比如質量檢查、風險評估和合規(guī)審核等場景。
研究團隊設計了三種不同類型的矛盾檢索測試。第一種是基于圖像的否定測試,就像是讓系統(tǒng)玩"找不同"游戲,要求它識別出文字描述中與圖像內(nèi)容相矛盾的信息。第二種是車輛設計合規(guī)檢查,系統(tǒng)需要判斷給定的車輛設計是否違反了相關的技術規(guī)范。第三種是交通違規(guī)識別,要求系統(tǒng)能夠識別出交通場景中違反道路交通規(guī)則的行為。
這些任務的設計充分體現(xiàn)了研究團隊對現(xiàn)實應用場景的深刻理解。在專業(yè)工作中,找出潛在的問題和沖突往往比找到正確答案更加重要,因為這直接關系到安全性和可靠性。
三、測試結果揭示的技術現(xiàn)狀:意料之外的發(fā)現(xiàn)
當研究團隊對14種不同的AI模型進行測試時,結果出現(xiàn)了許多意想不到的情況,就像是一場充滿懸念的科學實驗。
最令人意外的發(fā)現(xiàn)是,傳統(tǒng)的文本檢索模型配合AI生成的圖像描述,竟然取得了最好的成績。這就像是在一場高科技競賽中,使用傳統(tǒng)工具的參賽者反而獲得了冠軍。具體來說,Qwen3-Embedding模型配合大語言模型生成的圖像說明文字,達到了52.1分的nDCG@10得分,這個成績超過了所有專門設計的多模態(tài)模型。
這個結果背后的原因值得深思。研究團隊發(fā)現(xiàn),雖然AI生成的圖像描述可能會遺漏一些視覺細節(jié),但它們能夠提供豐富的上下文信息和背景知識,這對于專業(yè)領域的檢索任務來說反而更有幫助。這就像是一個經(jīng)驗豐富的解說員,即使他無法看到比賽的每一個細節(jié),但他豐富的背景知識和理解能力能夠幫助觀眾更好地理解比賽的進程。
相比之下,那些看似更先進的多模態(tài)模型卻表現(xiàn)不佳。最好的多模態(tài)模型Ops-MM-Embedding只獲得了45.4分,比最佳成績低了近7分。更令人關注的是,這些模型在不同類型任務上的表現(xiàn)差異巨大。在知識檢索任務中,Ops-MM-Embedding還能達到67.4分,但在定理檢索和矛盾檢索任務中,成績分別下降到30.1分和36.6分。
這種巨大的性能落差就像是一個在語文考試中表現(xiàn)優(yōu)秀的學生,在數(shù)學和邏輯推理題上卻表現(xiàn)平平。這說明當前的多模態(tài)模型雖然在語義匹配方面有一定能力,但在需要深度推理和邏輯分析的任務上還存在明顯不足。
研究團隊還發(fā)現(xiàn)了另一個有趣的現(xiàn)象:同一個模型在不同專業(yè)領域的表現(xiàn)差異很大。比如,MM-Embed模型在醫(yī)學領域的表現(xiàn)與Ops-MM-Embedding相當,但在藝術領域卻明顯落后。這就像是一個醫(yī)學專家在面對藝術作品時可能會感到困惑一樣,不同的AI模型也有自己的"專長領域"。
最令人擔憂的是,幾乎所有模型在矛盾檢索任務中的表現(xiàn)都很差,特別是在最基礎的否定測試中,所有模型的準確率都低于25%,這相當于隨機猜測的水平。這個結果表明,當前的AI系統(tǒng)在批判性思維和邏輯推理方面還有很大的提升空間。
這些發(fā)現(xiàn)對于AI技術的發(fā)展具有重要的指導意義。它們告訴我們,要讓AI系統(tǒng)真正勝任專業(yè)工作,僅僅提高識別精度是不夠的,更重要的是要增強其推理能力和批判思維能力。
四、深度分析:為什么多模態(tài)模型表現(xiàn)不如預期
研究團隊通過詳細的錯誤分析,揭示了當前多模態(tài)模型的兩個主要問題,這些發(fā)現(xiàn)就像是醫(yī)生通過病例分析找到了疾病的根源。
第一個問題是"視覺偏見勝過內(nèi)容相關性"。這就像是一個人在圖書館里找書時,只關注書的封面顏色而忽略了書的內(nèi)容。研究團隊發(fā)現(xiàn),多模態(tài)模型往往會被圖像的表面相似性誤導,而忽略了真正重要的語義關聯(lián)。
在一個農(nóng)業(yè)科學的案例中,系統(tǒng)需要識別土壤中的生物。正確答案的文檔詳細討論了土壤動物群落的分類和特征,這正是解答問題所需要的核心信息。但是系統(tǒng)卻選擇了一個包含線蟲顯微鏡照片的文檔,僅僅因為這個文檔中的線蟲圖像與問題中的蚯蚓在視覺上有相似性。這就像是一個學生在回答生物題時,看到昆蟲的圖片就選擇任何包含昆蟲圖片的選項,而不考慮選項內(nèi)容是否與問題相關。
類似的情況也出現(xiàn)在醫(yī)學影像分析中。系統(tǒng)會因為兩張眼部圖像在視覺上相似就認為它們相關,即使這兩張圖像分別來自不同的疾病案例。這種表面化的匹配方式顯然無法滿足專業(yè)應用的需求。
第二個更嚴重的問題是"高級推理能力的缺失"。在一個交通違規(guī)識別的案例中,系統(tǒng)需要判斷一輛車是否違反了"保持車道"的規(guī)定。雖然系統(tǒng)能夠識別出圖像中的車輛、隧道和車道標線等基本元素,但卻無法進行下一步的邏輯推理,即判斷車輛是否跨越了車道線。這就像是一個人能夠看到所有的棋子,卻無法理解當前的棋局形勢。
這種推理能力的缺失在專業(yè)領域尤為致命。專業(yè)工作往往需要基于觀察到的現(xiàn)象進行復雜的邏輯分析和判斷,而不僅僅是簡單的模式識別。一位醫(yī)生不僅要能識別X光片中的各種結構,還要能分析這些結構的異常變化并得出診斷結論。一位工程師不僅要能看懂設計圖紙,還要能判斷設計是否符合相關規(guī)范和標準。
研究團隊還發(fā)現(xiàn),即使在相對簡單的否定任務中,所有模型的表現(xiàn)都很糟糕。這些任務本質上就是讓系統(tǒng)識別出文字描述與圖像內(nèi)容的矛盾之處,類似于"找茬"游戲。但令人意外的是,即使是最先進的模型也無法很好地完成這樣的任務,準確率基本等同于隨機猜測。
這些發(fā)現(xiàn)揭示了一個深層問題:當前的多模態(tài)模型主要是通過大量數(shù)據(jù)的統(tǒng)計學習來工作的,它們?nèi)狈φ嬲睦斫夂屯评砟芰ΑK鼈兙拖袷怯洃浟芎玫狈λ伎寄芰Φ膶W生,能夠記住大量的知識點,卻無法靈活運用這些知識來解決新問題。
要解決這些問題,研究團隊認為需要在模型架構和訓練方法上進行根本性的改進,特別是要增強模型的邏輯推理能力和批判性思維能力。
五、推理增強:讓AI學會"深度思考"的新嘗試
面對多模態(tài)模型推理能力不足的問題,研究團隊探索了一種有趣的解決方案,就像是給AI系統(tǒng)配備了一個"思考助手"。
這種方法叫做"測試時推理擴展",基本思路是讓大語言模型在回答問題之前先進行一番"深度思考"。就像學生在考試時不是直接寫答案,而是先在草稿紙上分析問題、整理思路,然后再給出最終答案。
具體的操作過程就像是讓AI系統(tǒng)變成一個會自言自語的思考者。當面對一個復雜的多模態(tài)查詢時,系統(tǒng)首先會生成一段詳細的推理過程,包括對問題的理解、對圖像內(nèi)容的分析、相關知識的回顧,以及逐步的邏輯推導。然后,系統(tǒng)再基于這個詳細的推理過程來進行檢索和匹配。
研究團隊使用兩種不同規(guī)模的大語言模型來生成這種推理過程:一個是參數(shù)量較小的Qwen2-VL-2B模型,另一個是更大更強的Qwen2.5-VL-72B模型。結果顯示,這種方法帶來了顯著的性能提升。使用小模型生成推理過程時,檢索性能提升了16.5分;使用大模型時,提升幅度更是達到了26.5分。
這種提升效果就像是給一個匆忙的學生更多的思考時間,讓他能夠仔細分析問題而不是急著給答案。更有趣的是,大模型不僅生成了更詳細的推理過程,其推理文本的長度比小模型多出20%到60%,這表明更充分的思考過程確實有助于提高問題解決的質量。
但這種方法也有其代價。生成詳細的推理過程需要額外的計算時間和資源,這就像是為了得到更準確的答案而需要投入更多的思考時間。在實際應用中,需要在準確性和效率之間找到合適的平衡點。
研究團隊還發(fā)現(xiàn),這種推理擴展方法在不同類型的任務上效果不同。在知識檢索任務中,效果非常明顯,因為這類任務需要廣泛的背景知識和上下文理解。但在定理檢索任務中,效果相對有限,可能是因為這類任務更多依賴于精確的數(shù)學推理而不是語言描述。
這個發(fā)現(xiàn)啟發(fā)了一個重要的思考:也許我們不應該期待一個通用的AI系統(tǒng)能夠在所有任務上都表現(xiàn)完美。就像人類專家一樣,不同的AI系統(tǒng)可能需要在不同的領域發(fā)揮各自的專長,通過協(xié)作來解決復雜問題。
這種推理增強的方法也為未來的研究指出了一個有前途的方向。如果我們能夠讓AI系統(tǒng)學會更好的推理和思考,而不僅僅是識別和匹配,那么它們在專業(yè)領域的應用潛力將會大大增強。
六、跨領域性能差異:AI的"偏科"現(xiàn)象
研究團隊在分析結果時發(fā)現(xiàn)了一個非常有趣的現(xiàn)象,那就是不同的AI模型在各個專業(yè)領域的表現(xiàn)差異很大,就像是學生們都有自己擅長和不擅長的科目。
這種"偏科"現(xiàn)象在MRMR基準測試中表現(xiàn)得尤為明顯。同一個模型可能在某個領域表現(xiàn)出色,在另一個領域卻表現(xiàn)平平。比如,MM-Embed模型在臨床醫(yī)學和診斷學領域的表現(xiàn)能夠與最好的Ops-MM-Embedding模型相提并論,但在藝術相關任務中卻明顯落后。這就像是一個醫(yī)學天才在面對藝術史問題時可能會感到困惑。
更深入的分析顯示,這種差異背后有著復雜的原因。在藝術領域,AI系統(tǒng)往往能夠通過尋找視覺上相似的藝術作品來獲得不錯的成績。比如,當查詢涉及某種特定風格的繪畫時,系統(tǒng)可以相對容易地找到風格相近的作品。這種任務更多依賴于視覺特征的匹配,這正是當前多模態(tài)模型比較擅長的能力。
但在醫(yī)學影像分析中,情況就完全不同了。兩張看起來相似的醫(yī)學圖像可能代表著完全不同的疾病或癥狀。系統(tǒng)需要理解的不是表面的視覺相似性,而是深層的病理學意義。這就像是要求一個人不僅要能看出兩張照片在構圖上的相似性,還要理解照片背后的醫(yī)學含義。
研究團隊還發(fā)現(xiàn),即使是同一個專業(yè)領域內(nèi)部,不同子領域的任務難度也有很大差異。在知識檢索任務中,不同學科的平均得分從最低的27.3分到最高的70.4分,差異巨大。這反映出各個專業(yè)領域的知識結構和推理模式存在本質區(qū)別。
這種差異性實際上也反映了人類專業(yè)知識的特點。即使是受過高等教育的人,也很難在所有專業(yè)領域都表現(xiàn)出色。每個領域都有其獨特的知識體系、思維方式和分析方法。比如,醫(yī)學強調基于癥狀的診斷推理,工程學注重基于物理原理的設計分析,而藝術史則更多涉及文化背景和風格演進的理解。
對于AI技術的發(fā)展來說,這個發(fā)現(xiàn)具有重要的啟示意義。它告訴我們,也許我們不應該追求一個在所有領域都完美的通用AI系統(tǒng),而是應該開發(fā)在特定領域具有專業(yè)優(yōu)勢的專門化系統(tǒng)。這就像是醫(yī)院里有各科專家,每個專家都在自己的領域內(nèi)提供最專業(yè)的服務。
同時,這也提醒我們在評估AI系統(tǒng)性能時需要更加細致和全面。僅僅看整體的平均得分是不夠的,我們需要了解系統(tǒng)在不同領域和不同任務類型上的具體表現(xiàn),這樣才能更準確地判斷系統(tǒng)的適用范圍和應用價值。
這種跨領域的性能分析為未來的AI系統(tǒng)開發(fā)提供了重要的指導。開發(fā)者可以根據(jù)目標應用領域的特點來優(yōu)化模型,而不是試圖創(chuàng)造一個在所有方面都表現(xiàn)平均的通用系統(tǒng)。
說到底,這項研究為我們揭示了AI技術發(fā)展的一個重要現(xiàn)狀:雖然當前的多模態(tài)AI系統(tǒng)在某些方面已經(jīng)取得了令人矚目的進展,但要真正勝任專業(yè)領域的復雜任務,特別是那些需要深度推理和批判性思維的任務,還有很長的路要走。
研究結果表明,簡單地增加模型參數(shù)或訓練數(shù)據(jù)并不能直接解決推理能力不足的問題。更重要的是要在模型架構、訓練方法和評估標準等多個層面進行系統(tǒng)性的改進。MRMR基準的提出為這種改進提供了一個重要的評估工具和發(fā)展方向。
對于普通人來說,這項研究的意義在于讓我們更清楚地認識到AI技術的現(xiàn)狀和局限性。雖然AI在很多方面已經(jīng)表現(xiàn)得很出色,但在需要專業(yè)知識和復雜推理的任務上,人類專家仍然具有不可替代的價值。未來的AI系統(tǒng)更可能是作為專業(yè)人士的助手和工具,而不是完全的替代者。
這個研究也為AI技術的發(fā)展指出了一個清晰的方向:要讓AI真正成為各個專業(yè)領域的得力助手,我們需要更加關注其推理能力、批判思維能力和跨模態(tài)理解能力的提升。這不僅需要技術上的突破,也需要對人類專業(yè)工作模式的深入理解和借鑒。隨著這些技術的不斷發(fā)展和完善,我們有理由相信,AI系統(tǒng)將在未來為各個專業(yè)領域提供更加智能和有效的支持。
Q&A
Q1:MRMR基準與現(xiàn)有的AI測試有什么不同?
A:MRMR是首個專門針對專家級多學科多模態(tài)檢索的基準測試。與現(xiàn)有測試不同,它涵蓋23個專業(yè)領域的1502個復雜查詢,每個任務都需要深度推理而非簡單匹配。更重要的是,它引入了全新的"矛盾檢索"任務,要求AI識別沖突信息,這在風險防控中極為重要。
Q2:為什么傳統(tǒng)文本檢索模型表現(xiàn)比多模態(tài)模型更好?
A:研究發(fā)現(xiàn),傳統(tǒng)文本檢索模型配合AI生成的圖像描述能提供豐富的上下文信息和背景知識,這對專業(yè)檢索更有幫助。而多模態(tài)模型容易被表面視覺相似性誤導,缺乏深層推理能力。這就像經(jīng)驗豐富的解說員雖然看不到所有細節(jié),但豐富的背景知識反而更有價值。
Q3:這項研究對未來AI發(fā)展有什么啟示?
A:研究揭示了當前AI系統(tǒng)的兩大局限:過度依賴視覺相似性而忽視內(nèi)容相關性,以及缺乏高級推理能力。這提示我們需要開發(fā)專業(yè)領域的專門化AI系統(tǒng),而非追求通用完美系統(tǒng)。同時,推理增強技術顯示了讓AI學會"深度思考"的潛力,為專業(yè)應用指明了方向。





京公網(wǎng)安備 11011402013531號