IT之家 12 月 13 日消息,據《商業內幕》今日報道,谷歌 DeepMind 本周發布了 FACTS 基準測試,用來檢驗 AI 在事實準確性方面到底靠不靠譜。
這一測試從四個維度評估模型能力,包括是否能憑自身知識準確回答事實問題、能否正確使用網絡搜索、是否能在長文檔中扎實引用信息,以及對圖像內容的理解水平。在參測模型中,谷歌的 Gemini 3 Pro 表現最好,準確率為 69%,其他主流模型則明顯落后。
這一成績對企業同樣是個警鐘。雖然 AI 在生成速度和語言流暢度上優勢明顯,但在事實可靠性方面仍然遠低于人類標準,特別是在需要專業細分知識、復雜推理或嚴格基于原始材料的場景中。
在金融、醫療和法律等高風險行業,即便細小的事實錯誤,也可能放大成嚴重后果。報道以《商業內幕》員工梅莉亞?拉塞爾為例,其本周梳理了律師事務所如何應對 AI 逐漸被當作法律事實來源的現實,結果并不樂觀。她提到,有律師事務所的員工使用 ChatGPT 起草法律文件,結果文件中充斥虛假判例,最終律所直接解雇了該員工。
報道指出,谷歌希望通過明確模型出錯的位置和方式,加快 AI 的改進速度。但眼下可以得出的結論非常清楚,AI 確實在進步,然而仍有大約三分之一的時間會犯錯。





京公網安備 11011402013531號