![]()
這項由約翰霍普金斯大學、MIT等多家知名研究機構聯合開展的開創性研究發表于2025年10月,研究團隊包括來自約翰霍普金斯大學的Lukas Selch、跨學科轉型大學奧地利分校的Yufang Hou、MIT計算機科學與人工智能實驗室的M. Jehanzeb Mirza和James Glass等多位專家。這項研究首次系統性地測試了大型多模態模型(也就是那些能同時理解文字和圖像的AI)在閱讀科學論文時的表現,結果令人大跌眼鏡。研究成果已發布為PRISMM-Bench基準測試集,有興趣深入了解的讀者可以通過論文編號arXiv:2510.16505v2查詢完整論文。 當我們談論人工智能的未來時,很多人會憧憬AI成為科學研究的得力助手,幫助研究者分析文獻、發現錯誤、提出新見解。畢竟,現在的AI已經能寫詩作畫、下棋編程,看起來無所不能。然而,這項研究卻像一盆冷水,讓我們清醒地認識到:即使是最先進的AI模型,在面對真正的科學文獻時,表現得就像一個粗心大意的學生,經常看走眼、理解錯誤,甚至完全搞不清楚圖表和文字之間的關系。 研究團隊的發現相當驚人。他們測試了21個當前最強大的AI模型,包括GPT-5、Gemini 2.5 Pro這樣的頂級商業模型,以及GLM-4.5V、InternVL3等大型開源模型。結果顯示,即使是表現最好的模型,準確率也只有54.2%,而表現較差的模型準確率甚至低至26.1%。這意味著,當AI模型試圖理解科學論文中的圖表與文字是否一致時,它們基本上在瞎猜,成功率還不如拋硬幣。 這個問題的嚴重性遠超我們的想象。科學研究的可信度建立在嚴謹和準確的基礎上,論文中的每一個數據、每一張圖表都必須與文字描述完美匹配。如果AI模型連基本的圖文一致性都無法準確判斷,那么指望它們成為科學研究的可靠助手簡直是天方夜譚。更令人擔憂的是,研究發現這些AI模型往往過分依賴語言線索和表面模式,而非真正理解內容的深層含義。 研究團隊采用了一種極其巧妙的方法來構建這個測試基準。他們沒有人為制造假的錯誤,而是從真實的同行評審過程中挖掘出那些被審稿人發現的真實不一致問題。這就像是收集了一本"科學論文常見錯誤大全",每一個例子都是研究者在實際工作中真正犯過的錯誤。通過分析2025年提交給ICLR(國際學習表征會議)的12366篇論文評審意見,他們最終篩選出262個確實存在的圖文不一致問題,覆蓋了242篇不同的論文。 整個數據收集過程就像考古挖掘一樣精細。研究團隊首先使用AI系統對大量評審意見進行初步篩選,尋找那些明確指出圖表與文字不符的評論。然后,專業研究人員逐一驗證這些發現,確保每個不一致都是真實存在且可以被明確定位的。這種"真實世界"的數據收集方式確保了測試的authenticity和實用性,避免了人工構造測試案例可能帶來的偏差。 在深入分析這些不一致問題時,研究團隊發現了13種不同類型的錯誤模式。最常見的是圖表與文字描述不符,占24.4%,以及圖表內部元素之間的矛盾,占24.0%。這些錯誤看似微小,但在科學研究中卻可能產生嚴重后果。比如,一篇關于道路網絡分析的論文中,文字聲稱生成的網絡完美匹配真實道路結構,但圖表中卻明顯缺少了一些連接線。又比如,某個實驗結果的柱狀圖顯示錯誤條延伸到負值區域,而這在邏輯上是不可能的,因為測量的指標本身不能為負數。 為了全面評估AI模型的能力,研究團隊設計了三個不同層次的任務。第一個任務是"發現問題",要求AI模型能夠識別出論文中存在的不一致之處。第二個任務是"解決問題",不僅要發現錯誤,還要提出具體的修改建議。第三個任務是"配對匹配",給出論文中的一個元素,要求AI找出與之矛盾的另一個元素。這三個任務從簡單到復雜,全面測試了AI模型在科學文獻理解方面的各種能力。 研究過程中還有一個意外發現,揭示了AI模型的另一個重大缺陷。當研究人員發現某些AI模型在多選題中表現異常良好時,進一步調查發現這些模型實際上在"作弊"——它們并沒有真正理解問題內容,而是在利用選項的語言特征和表達模式來猜測答案。這就像一個學生不看題目,只根據選項的長短和用詞風格來選擇答案一樣。為了解決這個問題,研究團隊創新性地引入了結構化的JSON格式答案,有效消除了這種語言偏見,讓測試結果更加真實可靠。 當我們把AI模型與人類專家進行對比時,差距就更加明顯了。研究團隊邀請了8位具有博士學位的計算機科學研究人員參與同樣的測試。結果顯示,人類專家的平均準確率達到77.5%(在有背景信息的情況下),而即使是最強的AI模型也只能達到54.2%。更重要的是,人類專家在沒有任何背景信息時的表現接近隨機水平(27.5%),說明他們確實在依靠對內容的理解來做判斷,而不是猜測。相比之下,AI模型即使在沒有背景信息時仍能保持較高的準確率,這恰恰暴露了它們過度依賴語言模式而非真正理解的問題。 研究結果對不同類型的AI模型也展現出有趣的差異。商業模型如GPT-5和Gemini 2.5 Pro整體表現最佳,而開源模型中表現最好的GLM-4.5V在某些任務上也能接近商業模型的水平。令人意外的是,模型參數量的大小并不是決定性因素——一些較小但經過特殊訓練的模型表現往往比簡單放大參數的模型更好。這提示我們,解決這個問題需要的不僅僅是更大的模型,而是更好的訓練方法和架構設計。 在測試不同難度的任務時,研究發現所有模型都表現出一個共同趨勢:當需要處理的信息量增加時,它們的表現會急劇下降。在只需要關注論文中特定片段的"聚焦"任務中,模型表現相對較好;但當要求它們分析整頁內容時,準確率明顯下降;而面對需要跨頁面理解的完整文檔時,大多數模型的表現幾乎跌至隨機水平。這就像一個學生能夠回答單句理解題,但面對長篇閱讀理解就完全摸不著頭腦。 另一個重要發現涉及AI模型的"推理"能力。一些聲稱具有推理功能的模型確實表現更好,比如InternVL3.5-8B雖然參數量相對較小,但由于具備推理能力,其表現超過了許多參數量大得多的模型。當研究人員關閉這些模型的推理功能時,它們的準確率平均下降了16-34%,清楚地證明了逐步推理對于這類復雜任務的重要性。 這項研究的意義遠遠超出了學術范疇。隨著AI技術在科學研究中的應用越來越廣泛,確保這些系統能夠準確理解和分析科學文獻變得至關重要。目前的發現表明,我們還遠未達到可以完全信任AI進行科學文獻分析的程度。無論是在藥物研發、氣候研究還是其他任何科學領域,依賴有缺陷的AI系統都可能導致嚴重的后果。 研究團隊也為AI社區指明了未來的改進方向。首先,需要開發更好的多模態融合技術,讓AI能夠真正理解圖像和文字之間的深層聯系,而不是僅僅識別表面特征。其次,需要改進訓練方法,讓模型學會進行系統性的邏輯推理,而不是依賴統計相關性進行猜測。最后,需要建立更好的評估機制,確保AI系統的能力評估反映真實的理解水平,而不是被語言技巧誤導。 有趣的是,研究還揭示了不同類型錯誤的難易程度。一些看似簡單的錯誤,如圖表標簽與說明文字不符,AI模型相對容易發現;但涉及邏輯推理的錯誤,如實驗條件與結果之間的矛盾,則極具挑戰性。這種模式化的錯誤分布為未來的改進工作提供了明確的優先級——應該首先解決那些對科學可信度影響最大的錯誤類型。 研究團隊的工作還開創了一個重要先例:使用真實的同行評審數據來構建AI評估基準。這種方法不僅確保了測試案例的真實性,還為其他研究領域提供了可借鑒的經驗。通過持續收集和分析同行評審意見,可以建立動態更新的基準測試集,跟上科學研究和AI技術的發展步伐。 當前AI模型在科學文獻理解方面的局限性也反映了人工智能發展的一個更深層問題:真正的理解與表面的模式匹配之間的巨大差異。雖然現代AI模型在許多任務上表現出色,但它們往往缺乏人類那種深入理解、邏輯推理和批判性思維的能力。在科學研究這樣要求極高精確性和邏輯一致性的領域,這種局限性變得尤為明顯。 展望未來,這項研究為AI在科學研究中的應用設定了一個重要的基準線。它提醒我們,在AI技術真正成熟之前,人類專家的監督和驗證仍然不可或缺。同時,它也為AI研究者指明了一個明確的目標:開發能夠真正理解科學內容、進行可靠推理的AI系統。 說到底,這項研究最重要的貢獻可能不在于揭示了AI的不足,而在于為整個AI社區提供了一個清晰的改進路線圖。通過建立這樣一個嚴格、真實的評估基準,研究團隊為推動AI在科學研究中的可靠應用奠定了重要基礎。雖然當前的結果可能令人失望,但正是這種嚴格的評估才能推動技術的真正進步。 歸根結底,這項研究傳達的核心信息是:AI技術雖然潛力巨大,但在成為科學研究的可靠伙伴之前,還有很長的路要走。對于普通人來說,這意味著在看到AI在科學領域的應用時,應該保持適當的謹慎和批判性思維。對于研究者來說,這項工作提供了寶貴的工具和洞察,幫助他們更好地理解和改進AI系統。最重要的是,它提醒我們科學研究的嚴謹性不容妥協,任何想要在這個領域發揮作用的AI系統都必須達到最高的準確性和可靠性標準。 Q&A Q1:PRISMM-Bench是什么? A:PRISMM-Bench是首個基于真實同行評審數據的AI評估基準,專門測試大型多模態AI模型理解科學論文的能力。它收集了262個真實的圖文不一致問題,來自242篇提交給ICLR 2025的論文,用于評估AI是否能準確發現和理解科學文獻中的錯誤。 Q2:為什么AI模型在科學論文理解上表現這么差? A:主要原因包括三個方面:AI模型過度依賴語言表面特征而非真正理解內容深意;缺乏系統性邏輯推理能力,無法處理復雜的圖文關系;在面對大量信息時容易"迷失",無法保持長距離的注意力和連貫性理解。 Q3:這項研究對普通人有什么意義? A:這項研究提醒我們在AI輔助科學研究時要保持謹慎。雖然AI在很多領域表現出色,但在需要高精度理解和邏輯推理的科學文獻分析中仍有重大局限。這意味著人類專家的監督仍然不可或缺,我們不應過度依賴AI進行重要的科學決策。





京公網安備 11011402013531號