OpenAI官方數據：ChatGPT o3編造能力比o1高兩倍

IP屬地中國·北京 編輯：顧雨柔手機中國 時間：2025-05-16 17:04:10

ChatGPT的性能還在持續進化。但用戶很快發現這類AI有時會給出錯誤答案，甚至能一本正經地編造看似合理的內容。
經過技術迭代，如今ChatGPT及其競品已能提供部分信息來源，尤其在聯網搜索場景中。不過很多人的使用習慣始終未變——堅持要求AI為每個結論標注有效鏈接，發現錯誤立即糾正。雖然未來更先進的模型可能解決"幻覺"問題，但當前最新發布的ChatGPT o3和o4-mini反而呈現出更明顯的編造傾向，這成為AI發展路上耐人尋味的現象。
OpenAI官方數據顯示，在專門檢測幻覺的PersonQA測試中，o4-mini準確率低于前代o1和o3，編造頻率更是o1的三倍。而性能更強的o3雖然整體準確率提升，其編造概率卻比o1高出兩倍。研發團隊坦言，即便為模型加入圖像分析和聯網檢索能力，仍無法解釋為何升級后的產品更容易"信口開河"。
有趣的是，這些新模型確實展現出驚人潛力：通過照片定位拍攝地點，深度解析網頁信息，甚至構建復雜的思維鏈條。但就像不受控的想象力，它們總會在推理過程中夾雜虛構內容。OpenAI工程師至今未能破解這個技術困局。
實際使用中，o4-mini有時會過早給出結論，這或許暗示著信息加工過程中存在失真。可以預見的是，在未來相當長時間里，保持對AI輸出的審慎核查仍是必要動作。畢竟在追求智能的道路上，真實與幻象往往只有一線之隔。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

大模型進展專欄第七期｜人工智能賦能科研范式重塑中國科學院 “磐石·科學基礎大模型”

博通發布Jericho4芯片：臺積電3nm工藝，可連接超100萬顆處理器

中山醫院獲批國家人工智能應用中試基地建設項目，將打造醫療AI創新策源地

“人工智能場景化應用創新與產業落地論壇”在哈爾濱舉行多領域創新成果集中亮相

以科技引領產業，繪人工智能發展新篇

向新而行｜人工智能的“頭雁”效應

全站最新

標本制作“神仙打架”！中國動物標本大賽首次在滬舉辦

今日頭條劇透新風向！AI內容過剩時代，“深度”反而更稀缺

今天“世界冥想日”，在這樣的亭子里，AI來幫人類“智造”情緒價值

馬斯克點贊宇樹機器人伴舞視頻

熱門推薦

中東人工智能金融科技公司Alaan獲4800萬美元融資，助力企業智能化管理！

大模型進展專欄第七期｜人工智能賦能科研范式重塑中國科學院 “磐石·科學基礎大模型”

博通發布Jericho4芯片：臺積電3nm工藝，可連接超100萬顆處理器

美國證券交易委員會成立人工智能專責小組助力創新與效率提升

伊利諾伊州立法禁止人工智能提供心理健康服務

中山醫院獲批國家人工智能應用中試基地建設項目，將打造醫療AI創新策源地

“人工智能場景化應用創新與產業落地論壇”在哈爾濱舉行多領域創新成果集中亮相

國家安全部：警惕人工智能“數據投毒”

“人工智能+”覆蓋12個領域張家口人工智能應用場景加速落地

推動區域人工智能技術應用中科聞歌人工智能研發中心啟用

以科技引領產業，繪人工智能發展新篇

向新而行｜人工智能的“頭雁”效應

警惕人工智能數據污染：0.01%虛假文本可使有害輸出增11.2%

庫克：從未對蘋果的產品規劃感到如此興奮

獨家對話中國聯通趙亞暉，AI時代的“數據燃料”是如何煉成的？ | 浪潮對話