亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

約翰霍普金斯大學等研究揭示:AI閱讀科學論文存在重大缺陷

IP屬地 中國·北京 科技行者 時間:2025-12-15 22:12:51


這項由約翰霍普金斯大學、MIT等多家知名研究機構聯合開展的開創性研究發表于2025年10月,研究團隊包括來自約翰霍普金斯大學的Lukas Selch、跨學科轉型大學奧地利分校的Yufang Hou、MIT計算機科學與人工智能實驗室的M. Jehanzeb Mirza和James Glass等多位專家。這項研究首次系統性地測試了大型多模態模型(也就是那些能同時理解文字和圖像的AI)在閱讀科學論文時的表現,結果令人大跌眼鏡。研究成果已發布為PRISMM-Bench基準測試集,有興趣深入了解的讀者可以通過論文編號arXiv:2510.16505v2查詢完整論文。 當我們談論人工智能的未來時,很多人會憧憬AI成為科學研究的得力助手,幫助研究者分析文獻、發現錯誤、提出新見解。畢竟,現在的AI已經能寫詩作畫、下棋編程,看起來無所不能。然而,這項研究卻像一盆冷水,讓我們清醒地認識到:即使是最先進的AI模型,在面對真正的科學文獻時,表現得就像一個粗心大意的學生,經常看走眼、理解錯誤,甚至完全搞不清楚圖表和文字之間的關系。 研究團隊的發現相當驚人。他們測試了21個當前最強大的AI模型,包括GPT-5、Gemini 2.5 Pro這樣的頂級商業模型,以及GLM-4.5V、InternVL3等大型開源模型。結果顯示,即使是表現最好的模型,準確率也只有54.2%,而表現較差的模型準確率甚至低至26.1%。這意味著,當AI模型試圖理解科學論文中的圖表與文字是否一致時,它們基本上在瞎猜,成功率還不如拋硬幣。 這個問題的嚴重性遠超我們的想象。科學研究的可信度建立在嚴謹和準確的基礎上,論文中的每一個數據、每一張圖表都必須與文字描述完美匹配。如果AI模型連基本的圖文一致性都無法準確判斷,那么指望它們成為科學研究的可靠助手簡直是天方夜譚。更令人擔憂的是,研究發現這些AI模型往往過分依賴語言線索和表面模式,而非真正理解內容的深層含義。 研究團隊采用了一種極其巧妙的方法來構建這個測試基準。他們沒有人為制造假的錯誤,而是從真實的同行評審過程中挖掘出那些被審稿人發現的真實不一致問題。這就像是收集了一本"科學論文常見錯誤大全",每一個例子都是研究者在實際工作中真正犯過的錯誤。通過分析2025年提交給ICLR(國際學習表征會議)的12366篇論文評審意見,他們最終篩選出262個確實存在的圖文不一致問題,覆蓋了242篇不同的論文。 整個數據收集過程就像考古挖掘一樣精細。研究團隊首先使用AI系統對大量評審意見進行初步篩選,尋找那些明確指出圖表與文字不符的評論。然后,專業研究人員逐一驗證這些發現,確保每個不一致都是真實存在且可以被明確定位的。這種"真實世界"的數據收集方式確保了測試的authenticity和實用性,避免了人工構造測試案例可能帶來的偏差。 在深入分析這些不一致問題時,研究團隊發現了13種不同類型的錯誤模式。最常見的是圖表與文字描述不符,占24.4%,以及圖表內部元素之間的矛盾,占24.0%。這些錯誤看似微小,但在科學研究中卻可能產生嚴重后果。比如,一篇關于道路網絡分析的論文中,文字聲稱生成的網絡完美匹配真實道路結構,但圖表中卻明顯缺少了一些連接線。又比如,某個實驗結果的柱狀圖顯示錯誤條延伸到負值區域,而這在邏輯上是不可能的,因為測量的指標本身不能為負數。 為了全面評估AI模型的能力,研究團隊設計了三個不同層次的任務。第一個任務是"發現問題",要求AI模型能夠識別出論文中存在的不一致之處。第二個任務是"解決問題",不僅要發現錯誤,還要提出具體的修改建議。第三個任務是"配對匹配",給出論文中的一個元素,要求AI找出與之矛盾的另一個元素。這三個任務從簡單到復雜,全面測試了AI模型在科學文獻理解方面的各種能力。 研究過程中還有一個意外發現,揭示了AI模型的另一個重大缺陷。當研究人員發現某些AI模型在多選題中表現異常良好時,進一步調查發現這些模型實際上在"作弊"——它們并沒有真正理解問題內容,而是在利用選項的語言特征和表達模式來猜測答案。這就像一個學生不看題目,只根據選項的長短和用詞風格來選擇答案一樣。為了解決這個問題,研究團隊創新性地引入了結構化的JSON格式答案,有效消除了這種語言偏見,讓測試結果更加真實可靠。 當我們把AI模型與人類專家進行對比時,差距就更加明顯了。研究團隊邀請了8位具有博士學位的計算機科學研究人員參與同樣的測試。結果顯示,人類專家的平均準確率達到77.5%(在有背景信息的情況下),而即使是最強的AI模型也只能達到54.2%。更重要的是,人類專家在沒有任何背景信息時的表現接近隨機水平(27.5%),說明他們確實在依靠對內容的理解來做判斷,而不是猜測。相比之下,AI模型即使在沒有背景信息時仍能保持較高的準確率,這恰恰暴露了它們過度依賴語言模式而非真正理解的問題。 研究結果對不同類型的AI模型也展現出有趣的差異。商業模型如GPT-5和Gemini 2.5 Pro整體表現最佳,而開源模型中表現最好的GLM-4.5V在某些任務上也能接近商業模型的水平。令人意外的是,模型參數量的大小并不是決定性因素——一些較小但經過特殊訓練的模型表現往往比簡單放大參數的模型更好。這提示我們,解決這個問題需要的不僅僅是更大的模型,而是更好的訓練方法和架構設計。 在測試不同難度的任務時,研究發現所有模型都表現出一個共同趨勢:當需要處理的信息量增加時,它們的表現會急劇下降。在只需要關注論文中特定片段的"聚焦"任務中,模型表現相對較好;但當要求它們分析整頁內容時,準確率明顯下降;而面對需要跨頁面理解的完整文檔時,大多數模型的表現幾乎跌至隨機水平。這就像一個學生能夠回答單句理解題,但面對長篇閱讀理解就完全摸不著頭腦。 另一個重要發現涉及AI模型的"推理"能力。一些聲稱具有推理功能的模型確實表現更好,比如InternVL3.5-8B雖然參數量相對較小,但由于具備推理能力,其表現超過了許多參數量大得多的模型。當研究人員關閉這些模型的推理功能時,它們的準確率平均下降了16-34%,清楚地證明了逐步推理對于這類復雜任務的重要性。 這項研究的意義遠遠超出了學術范疇。隨著AI技術在科學研究中的應用越來越廣泛,確保這些系統能夠準確理解和分析科學文獻變得至關重要。目前的發現表明,我們還遠未達到可以完全信任AI進行科學文獻分析的程度。無論是在藥物研發、氣候研究還是其他任何科學領域,依賴有缺陷的AI系統都可能導致嚴重的后果。 研究團隊也為AI社區指明了未來的改進方向。首先,需要開發更好的多模態融合技術,讓AI能夠真正理解圖像和文字之間的深層聯系,而不是僅僅識別表面特征。其次,需要改進訓練方法,讓模型學會進行系統性的邏輯推理,而不是依賴統計相關性進行猜測。最后,需要建立更好的評估機制,確保AI系統的能力評估反映真實的理解水平,而不是被語言技巧誤導。 有趣的是,研究還揭示了不同類型錯誤的難易程度。一些看似簡單的錯誤,如圖表標簽與說明文字不符,AI模型相對容易發現;但涉及邏輯推理的錯誤,如實驗條件與結果之間的矛盾,則極具挑戰性。這種模式化的錯誤分布為未來的改進工作提供了明確的優先級——應該首先解決那些對科學可信度影響最大的錯誤類型。 研究團隊的工作還開創了一個重要先例:使用真實的同行評審數據來構建AI評估基準。這種方法不僅確保了測試案例的真實性,還為其他研究領域提供了可借鑒的經驗。通過持續收集和分析同行評審意見,可以建立動態更新的基準測試集,跟上科學研究和AI技術的發展步伐。 當前AI模型在科學文獻理解方面的局限性也反映了人工智能發展的一個更深層問題:真正的理解與表面的模式匹配之間的巨大差異。雖然現代AI模型在許多任務上表現出色,但它們往往缺乏人類那種深入理解、邏輯推理和批判性思維的能力。在科學研究這樣要求極高精確性和邏輯一致性的領域,這種局限性變得尤為明顯。 展望未來,這項研究為AI在科學研究中的應用設定了一個重要的基準線。它提醒我們,在AI技術真正成熟之前,人類專家的監督和驗證仍然不可或缺。同時,它也為AI研究者指明了一個明確的目標:開發能夠真正理解科學內容、進行可靠推理的AI系統。 說到底,這項研究最重要的貢獻可能不在于揭示了AI的不足,而在于為整個AI社區提供了一個清晰的改進路線圖。通過建立這樣一個嚴格、真實的評估基準,研究團隊為推動AI在科學研究中的可靠應用奠定了重要基礎。雖然當前的結果可能令人失望,但正是這種嚴格的評估才能推動技術的真正進步。 歸根結底,這項研究傳達的核心信息是:AI技術雖然潛力巨大,但在成為科學研究的可靠伙伴之前,還有很長的路要走。對于普通人來說,這意味著在看到AI在科學領域的應用時,應該保持適當的謹慎和批判性思維。對于研究者來說,這項工作提供了寶貴的工具和洞察,幫助他們更好地理解和改進AI系統。最重要的是,它提醒我們科學研究的嚴謹性不容妥協,任何想要在這個領域發揮作用的AI系統都必須達到最高的準確性和可靠性標準。 Q&A Q1:PRISMM-Bench是什么? A:PRISMM-Bench是首個基于真實同行評審數據的AI評估基準,專門測試大型多模態AI模型理解科學論文的能力。它收集了262個真實的圖文不一致問題,來自242篇提交給ICLR 2025的論文,用于評估AI是否能準確發現和理解科學文獻中的錯誤。 Q2:為什么AI模型在科學論文理解上表現這么差? A:主要原因包括三個方面:AI模型過度依賴語言表面特征而非真正理解內容深意;缺乏系統性邏輯推理能力,無法處理復雜的圖文關系;在面對大量信息時容易"迷失",無法保持長距離的注意力和連貫性理解。 Q3:這項研究對普通人有什么意義? A:這項研究提醒我們在AI輔助科學研究時要保持謹慎。雖然AI在很多領域表現出色,但在需要高精度理解和邏輯推理的科學文獻分析中仍有重大局限。這意味著人類專家的監督仍然不可或缺,我們不應過度依賴AI進行重要的科學決策。

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

午夜亚洲国产au精品一区二区| 亚洲天堂2016| 亚洲情趣在线观看| 精品国产三级a在线观看| 久久免费少妇高潮久久精品99| 极品尤物一区二区三区| 日本免费观看网站| 欧美黄色aaa| 日韩av在线发布| 亚洲国产一区二区三区青草影视| 亚洲美女性生活视频| 国产日韩欧美夫妻视频在线观看| 各处沟厕大尺度偷拍女厕嘘嘘| 午夜成人亚洲理伦片在线观看| 久久在线精品| 色噜噜久久综合| 97av在线视频| 日本三级免费观看| 国产精品xxxx喷水欧美| 国产成人亚洲精品狼色在线| 制服丝袜中文字幕一区| 国产欧美亚洲精品| 不卡中文字幕在线观看| 在线不卡免费视频| 一区二区三区四区在线播放 | 一区二区三区四区在线播放| 在线日韩av观看| 亚洲乱码一区二区三区三上悠亚| 三上悠亚影音先锋| 六月丁香婷婷久久| 在线电影国产精品| 国产区日韩欧美| 亚洲国产精品自拍视频| 美女视频免费一区| 欧美一级xxx| 久久国产精品 国产精品| 亚洲成人日韩在线| 国产精品538一区二区在线| 日韩精品中文字幕一区 | 欧美极品少妇与黑人| 久久综合久久久久| 国产一级片毛片| 亚洲欧洲99久久| 国内自拍欧美激情| 狠狠干狠狠操视频| 三级视频在线看| 51精品视频一区二区三区| 国产精品麻豆免费版| 这里只有久久精品| av成人老司机| 免费成人高清视频| 欧美 日韩 国产 激情| 亚洲av无码乱码国产精品久久| 在线观看日韩电影| 精品在线视频一区二区三区| sm捆绑调教视频| 欧美韩国日本综合| 欧洲美女7788成人免费视频| 中文字幕无人区二| 色屁屁影院www国产高清麻豆| 美女视频久久久| 久久一区二区视频| 精品亚洲一区二区三区| 日本一区二区三区久久久久久久久不| 国产日韩精品综合网站| av官网在线观看| 成人免费网站在线观看| 天天舔天天干天天操| 国产精品xxx视频| 精品国产伦一区二区三| 亚洲精品电影网在线观看| 69174成人网| 国产成人精品无码免费看夜聊软件| 日本一区二区三区免费乱视频| 国产欧美在线观看一区| 中文国产亚洲喷潮| 麻豆成人免费视频| 午夜精品成人在线视频| 国产毛片久久久久久国产毛片| 国产一区二区女| 亚洲在线第一页| 国产午夜精品福利视频| 久久久久久国产| 久久精品国产精品亚洲红杏| 午夜激情在线观看视频| 精品免费视频一区二区| 亚洲人视频在线| 99re热视频这里只精品 | 中国a一片一级一片| 欧美精品一区二区三区蜜桃视频| 日韩中文理论片| 视频一区二区三区免费观看| 国产亚洲精品超碰| 国产精品久久..4399| 99久久精品免费看国产免费软件| 日韩av电影在线观看| 精品www久久久久奶水| 中文字幕一区二区三区精华液 | 亚洲精品成人少妇| 伊人在线视频观看| 精品国产拍在线观看| 一级黄色性视频| 欧美高清性hdvideosex| 国产探花一区二区三区| 欧洲中文字幕精品| 国产成人综合亚洲| av男人的天堂av| www.成人三级视频| 日本伊人色综合网| 国产在线拍揄自揄视频不卡99| 午夜影院在线视频| 天天综合天天做天天综合| 免费国偷自产拍精品视频| 在线成人一区二区| 综合激情成人伊人| 日本免费一区视频| 91香蕉视频污版| 久久视频在线观看免费| 免费看黄色一级视频| 在线看日韩av| 一级特黄aaa大片| 久久久久久国产免费| 中文字幕在线观看免费视频| 中文字幕亚洲不卡| 国产一区不卡在线观看| 岛国精品视频在线播放| 黄色av片三级三级三级免费看| 色av成人天堂桃色av| 色婷婷国产精品免| 亚洲视频视频在线| 亚洲天堂成人av| 在线日韩av观看| 狠狠色2019综合网| 免费人成在线观看| 黄色一级片播放| 国产一区日韩二区欧美三区| 久草视频手机在线| 欧美成人午夜免费视在线看片| 五月婷婷在线观看视频| 日本不卡一区二区三区视频| 亚洲人成网站影音先锋播放| 精品无码在线观看| 亚洲成人在线观看视频| 免费亚洲一区二区| 日本韩国一区二区三区视频| 亚洲一级特黄毛片| 久久一区二区精品| 日韩午夜在线观看视频| 国产一区二区在线播放视频| 亚洲韩国精品一区| 国产高清第一页| 日韩黄色影视| 欧美一区在线视频| 久久精品麻豆| 粉嫩av一区二区三区天美传媒 | 欧美久久久久久蜜桃| 久草免费在线观看视频| 国产精选久久久久久| 92久久精品一区二区| 真人做人试看60分钟免费| 国产精品欧美一区二区| 欧美黑人又粗大| 日韩国产在线看| 夜夜操天天操亚洲| 成人sese在线| 四虎国产精品成人免费入口| 亚洲国产欧美一区二区丝袜黑人| 后入内射欧美99二区视频| 国产片侵犯亲女视频播放| 日韩一区二区av| 精品深夜av无码一区二区老年| 日本精品va在线观看| 亚洲午夜日本在线观看| 日本aⅴ亚洲精品中文乱码| 亚洲在线观看一区| 亚洲毛片在线观看| 综合久久久久久| 狠狠色噜噜狠狠狠狠色吗综合| 欧美精品乱码久久久久久按摩| 成人听书哪个软件好| 1级黄色大片儿| 在线免费看av网站| 男女黄床上色视频| 亚洲人人夜夜澡人人爽| 97成人在线观看视频| 国产一区二区不卡视频在线观看| 欧美一级高清片在线观看| 成人午夜免费影院| 亚洲精品电影在线一区| 亚洲另类图片色| 最新不卡av在线| 久久福利小视频| 97婷婷涩涩精品一区| 久久久久久久久免费| 成人免费视频一区| 国产绳艺sm调教室论坛| 可以看的av网址| 亚洲制服欧美久久| 亚洲国产精品麻豆| 一区二区成人免费视频| a级大片免费看| 特级西西444| 一区二区三区四区五区精品| 日韩电影大全在线观看| 日韩欧美在线电影| 亚洲综合视频一区| 国产精品黄页免费高清在线观看| 日韩精品一区二区在线观看| 国产美女一区二区| 国产三级精品三级在线观看| 91禁外国网站| 亚洲免费福利视频| 首页欧美精品中文字幕| 永久免费黄色片| 五月天中文字幕在线| 在线成人性视频| 国产欧美最新羞羞视频在线观看| 日韩中文字幕久久| 欧美人伦禁忌dvd放荡欲情| 日韩欧美综合视频| 爱爱免费小视频| 91精品视频国产| 午夜影院免费观看视频| 国产高清av片| 波多野结衣办公室33分钟| 欲求不满的岳中文字幕| 欧美三级黄色大片| 超碰手机在线观看| 欧洲金发美女大战黑人| 日韩在线视频网站| 99精品黄色片免费大全| 草草影院第一页| 中文字幕剧情在线观看| www日韩在线观看| 亚洲五月激情网| 日韩欧美国产免费| 国产噜噜噜噜噜久久久久久久久| 26uuu亚洲伊人春色| 国产在线拍揄自揄视频不卡99| 欧美激情国产日韩精品一区18| 国产精品久久久久91| 狠狠色噜噜狠狠色综合久 | www.色就是色.com| 国产一级做a爰片久久| 插我舔内射18免费视频| 丁香花五月婷婷| 网爆门在线观看| 日产欧产va高清| 美女100%无挡| 哪个网站能看毛片| 亚洲成人午夜在线| 91美女高潮出水| 精品产品国产在线不卡| 国产一区二区香蕉| 日韩在线视频网站| 色婷婷一区二区三区四区| 激情久久久久久久久久久久久久久久| 精品无码m3u8在线观看| 99九九99九九九99九他书对| 亚洲熟妇无码一区二区三区| 国产91xxx| 手机在线成人av| 三级黄色片播放| 欧美bbbbbbbbbbbb精品| 久久久久在线视频| 日本一区二区综合亚洲| 亚洲аv电影天堂网| 精品国产一区二区三区免费| 91网址在线观看精品| 亚洲黄色小说图片| 国产精品久久久久久免费播放 | 欧美激情成人在线视频| 久久久久久久久国产| 91精品国产综合久久久久久久久| 一区二区三区四区免费视频| 国产精品永久免费观看| 欧美国产在线视频| 久久久国产视频91| 在线免费看av不卡| 中文字幕在线看视频国产欧美在线看完整 | 欧美性xxxx18| 国产视频在线观看一区| 长河落日免费高清观看| www.亚洲免费av| 精品免费国产一区二区三区四区| 久久躁狠狠躁夜夜爽| 97视频免费在线看| 免费看欧美黑人毛片| 天堂av网手机版| 蜜臀av国产精品久久久久| 亚洲动漫第一页| 亚洲激情视频网站| 在线播放日韩欧美| 久久6免费高清热精品| 8x拔播拔播x8国产精品| 91成人福利在线| 国产视色精品亚洲一区二区| 欧美一区二区福利| 国产免费久久av| 中文字幕在线中文| 欧美不卡视频在线观看| 日本特黄久久久高潮| 欧美三级三级三级| 亚洲精品日韩丝袜精品| 成人在线视频福利| 丰满人妻一区二区三区大胸 | 国产精品一区二区视频| 国产成人综合在线播放| xnxx国产精品| 亚洲综合色丁香婷婷六月图片| 北条麻妃视频在线| 日韩av一区二区三区在线| 久久久久亚洲av无码网站| 激情欧美日韩一区二区| 香港成人在线视频| 插插插亚洲综合网| 青草网在线观看| 国产精品51麻豆cm传媒| 亚洲情趣在线观看| 久久午夜a级毛片| 日本在线高清视频一区| 在线看的片片片免费| 亚洲视频免费观看| 亚洲aaa激情| 播金莲一级淫片aaaaaaa| 男人操女人的视频在线观看欧美| fc2成人免费人成在线观看播放| 永久免费看mv网站入口亚洲| 欧美久久久久久久久久久久久久| 精品欧美一区二区久久久久| 久久精品国产亚洲a| 久久这里只有精品99| 国产一级精品aaaaa看| 一级黄色大片视频| 在线播放/欧美激情| 六月婷婷激情网| 国产精品一区2区| 久久精品国产一区二区电影| 日批视频在线看| 国产成人精品免费一区二区| xxx欧美精品| 国产麻豆电影在线观看| 亚洲欧美另类综合| 精品88久久久久88久久久| 黄色av网址在线播放| 麻豆91在线播放免费| 欧美日韩激情美女| 国产成人精品999| 色婷婷一区二区三区在线观看| 天天干天天插天天射| 亚洲日本在线a| 国产精品xxx视频| 亚洲一区日韩精品| 国产精品人人做人人爽人人添| 国产在线观看不卡| 97超碰人人草| 天天综合网 天天综合色| 无遮挡亚洲一区| 亚洲中文字幕在线观看| 欧美成人免费播放| 国产高清在线免费| 欧美一区二区三区电影在线观看| 婷婷久久久久久| 国产日韩一区欧美| 成人午夜电影小说| 免费电影一区| 色婷婷av一区二区三区之红樱桃 | 国产欧美一区二区精品仙草咪| 欧美亚洲国产视频小说| 永久免费看片视频教学| 日韩欧美黄色动漫| 女同性恋一区二区三区| 国产精品欧美一区喷水| 91精品久久久久久久久久久久久久| 538精品在线视频| 欧美日韩亚洲系列| 凹凸日日摸日日碰夜夜爽1| 天天爽夜夜爽夜夜爽精品视频| 成人短视频在线观看免费| 成人av在线资源网站| 成人黄色午夜影院| 国产亚洲精品码| 日韩欧美综合在线| 日本五十肥熟交尾| 亚洲免费电影在线观看| 日韩高清一二三区| 欧美日韩成人综合在线一区二区| 国产免费无码一区二区| 国产视频精品久久久| 亚洲一级理论片| 久久综合九色综合97婷婷女人 | 久久久一本精品99久久精品| 国产一区二区三区综合| 久久久综合亚洲91久久98| 久久99精品国产麻豆不卡| 欧美在线视频免费播放| 天天干天天色天天| 久久精品福利视频| 国产精品久久久久久久成人午夜| 日本欧美精品在线| 久久精品99北条麻妃| 91a在线视频| avove在线播放| 亚洲天堂av网| 最近中文字幕在线观看视频| 日韩亚洲欧美中文在线| 国产乱子伦精品无码码专区| 久久99久久久久久| 亚洲天堂视频在线观看| 久久久久久91亚洲精品中文字幕|