IT之家 11 月 7 日消息,據新華社今日報道,美國斯坦福大學近日發表的一項研究指出,包括 ChatGPT 在內的多款 AI 聊天機器人在識別用戶錯誤信念方面存在明顯局限性,仍無法可靠區分信念還是事實。
研究表明,當用戶的個人信念與客觀事實發生沖突時,AI 往往難以可靠地作出準確判斷,容易出現“幻覺”或傳播錯誤信息的情況。相關成果已于 11 月 3 日發表于《自然?機器智能》。
研究團隊測試了 24 個前沿語言模型,其中包括 Claude、ChatGPT、DeepSeek 以及 Gemini。研究者共向這些模型提出 13,000 個問題,以評估它們區分信念、知識與事實的能力。
論文指出:“大多數模型缺乏對知識的真實性特征的穩健理解 —— 知識本質上必須建立在真實之上。這一局限性意味著在將語言模型應用于高風險領域前,亟需改進。”
當要求它們驗證事實性數據的真或假時,較新的 LLM 平均準確率分別為 91.1% 或 91.5%,較老的模型平均準確率分別為 84.8% 或 71.5%。當要求模型回應第一人稱信念(“我相信……”)時,團隊觀察到 LLM 相較于真實信念,更難識別虛假信念。
具體而言,較新的模型(2024 年 5 月 GPT-4o 發布及其后)平均識別第一人稱虛假信念的概率比識別第一人稱真實信念低 34.3%。相較第一人稱真實信念,較老的模型(GPT-4o 發布前)識別第一人稱虛假信念的概率平均低 38.6%。
在測試中,所有模型在識別錯誤信念方面均出現顯著失誤。例如,GPT-4o 的準確率從 98.2% 降至 64.4%,DeepSeek R1 則從 90% 以上下滑至僅 14.4%。研究人員呼吁相關公司盡快改進模型,以避免在關鍵領域部署前產生風險。
論文警告稱:“這種缺陷在某些領域具有嚴重影響 —— 例如法律、醫學或新聞業 —— 在這些領域中,混淆信念與知識可能導致嚴重判斷錯誤。”
這項研究并非首次對 AI 推理能力提出質疑。今年 6 月,蘋果公司發布的一項研究也指出,新一代 AI 模型“可能并不像外界所認為的那樣聰明”。蘋果在研究中提到,Claude、DeepSeek-R1 以及 o3-mini 等“推理模型”實際上并不具備真正的推理能力,而只是擅長“模式記憶”。
蘋果研究寫道:“通過在不同類型的邏輯謎題上進行廣泛實驗,我們發現當前的‘大型推理模型’(LRMs)在復雜度超過一定閾值后會出現全面準確率崩潰。”
研究還補充說,這些模型存在“反直覺的規模限制”:隨著問題復雜度的提高,它們的推理努力會先增加,隨后下降,即使仍有足夠的運算資源。
此外,麻省理工學院(MIT)今年 8 月發布的一項研究發現,95% 的企業在部署 AI 系統后未能獲得任何投資回報。研究指出,這種情況并非因為 AI 模型效率低下,而是由于 AI 系統難以與企業現有工作流程兼容,導致實施效果不佳。
IT之家附論文地址:https ://doi.org/10.1038/s42256-025-01113-8





京公網安備 11011402013531號