谷歌推出基準測試檢驗AI是否“靠譜”：Gemini 3 Pro準確率僅69%

IP屬地中國·北京 編輯：李娜 IT之家 時間：2025-12-13 18:09:15

IT之家 12 月 13 日消息，據《商業內幕》今日報道，谷歌 DeepMind 本周發布了 FACTS 基準測試，用來檢驗 AI 在事實準確性方面到底靠不靠譜。
這一測試從四個維度評估模型能力，包括是否能憑自身知識準確回答事實問題、能否正確使用網絡搜索、是否能在長文檔中扎實引用信息，以及對圖像內容的理解水平。在參測模型中，谷歌的 Gemini 3 Pro 表現最好，準確率為 69%，其他主流模型則明顯落后。
這一成績對企業同樣是個警鐘。雖然 AI 在生成速度和語言流暢度上優勢明顯，但在事實可靠性方面仍然遠低于人類標準，特別是在需要專業細分知識、復雜推理或嚴格基于原始材料的場景中。
在金融、醫療和法律等高風險行業，即便細小的事實錯誤，也可能放大成嚴重后果。報道以《商業內幕》員工梅莉亞?拉塞爾為例，其本周梳理了律師事務所如何應對 AI 逐漸被當作法律事實來源的現實，結果并不樂觀。她提到，有律師事務所的員工使用 ChatGPT 起草法律文件，結果文件中充斥虛假判例，最終律所直接解雇了該員工。
報道指出，谷歌希望通過明確模型出錯的位置和方式，加快 AI 的改進速度。但眼下可以得出的結論非常清楚，AI 確實在進步，然而仍有大約三分之一的時間會犯錯。

標簽：事實法律谷歌員工文件模型方面語言企業商業圖像結果 梅莉亞 水平內幕細小 高風險 細分專業信息現實金融來源律師 事務所 場景基準人類醫療內容行業速度成

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

“駐華使節科技行——AI中國·千問世界”活動在北京舉辦

亞馬遜AGI負責人離職，強化學習大佬Pieter Abbeel接任

小城，何以勃勃生機｜年輕人正涌入長豐唯一“千億鎮”

羅永浩炮轟電信寬帶縮水：再不解決，就要在網上發瘋了

100小時極寒挑戰，董明珠圖啥？

太空“4S店”要開張：Starfish驗證“單眼”衛星交會PRO操作

全站最新

“駐華使節科技行——AI中國·千問世界”活動在北京舉辦

亞馬遜AGI負責人離職，強化學習大佬Pieter Abbeel接任

小城，何以勃勃生機｜年輕人正涌入長豐唯一“千億鎮”

羅永浩炮轟電信寬帶縮水：再不解決，就要在網上發瘋了

熱門推薦

“駐華使節科技行——AI中國·千問世界”活動在北京舉辦

亞馬遜AGI負責人離職，強化學習大佬Pieter Abbeel接任

小城，何以勃勃生機｜年輕人正涌入長豐唯一“千億鎮”

羅永浩炮轟電信寬帶縮水：再不解決，就要在網上發瘋了

首款可折疊iPhone預計在2026年秋季發布，電子ETF（159997）成交額超1200萬元，芯片ETF天弘（159310）盤中溢價

100小時極寒挑戰，董明珠圖啥？

太空“4S店”要開張：Starfish驗證“單眼”衛星交會PRO操作

太狠了！奧特曼親手「干掉」GPT-5.2，OpenAI祭出最強編程AI

AI時代，尋找超級創業者！徐匯區發布政策扶持一個人賽過一群人的“大牛”

小米澎湃OS 3上線2026年元旦限定水印，三種版式自由選擇

郭臺銘，關鍵時刻，還是靠了祖國大陸

港股無人礦卡第一股誕生！大疆教父李澤湘敲鐘，紅杉百度聯手押注

科技范兒·在現場｜“AI+智能座艙”讓每次出發都是“懂你的陪伴”

一份報告，勾勒AI邁向2049之路

消息稱納德拉整頓微軟管理層：不適應AI高壓節奏就走人