ChatGPT的性能還在持續進化。但用戶很快發現這類AI有時會給出錯誤答案,甚至能一本正經地編造看似合理的內容。
經過技術迭代,如今ChatGPT及其競品已能提供部分信息來源,尤其在聯網搜索場景中。不過很多人的使用習慣始終未變——堅持要求AI為每個結論標注有效鏈接,發現錯誤立即糾正。雖然未來更先進的模型可能解決"幻覺"問題,但當前最新發布的ChatGPT o3和o4-mini反而呈現出更明顯的編造傾向,這成為AI發展路上耐人尋味的現象。

OpenAI官方數據顯示,在專門檢測幻覺的PersonQA測試中,o4-mini準確率低于前代o1和o3,編造頻率更是o1的三倍。而性能更強的o3雖然整體準確率提升,其編造概率卻比o1高出兩倍。研發團隊坦言,即便為模型加入圖像分析和聯網檢索能力,仍無法解釋為何升級后的產品更容易"信口開河"。
有趣的是,這些新模型確實展現出驚人潛力:通過照片定位拍攝地點,深度解析網頁信息,甚至構建復雜的思維鏈條。但就像不受控的想象力,它們總會在推理過程中夾雜虛構內容。OpenAI工程師至今未能破解這個技術困局。
實際使用中,o4-mini有時會過早給出結論,這或許暗示著信息加工過程中存在失真。可以預見的是,在未來相當長時間里,保持對AI輸出的審慎核查仍是必要動作。畢竟在追求智能的道路上,真實與幻象往往只有一線之隔。





京公網安備 11011402013531號