OpenAI十周年，火速發布GPT-5.2，奧特曼：十年后將構建出超級智能

IP屬地中國·北京 澎湃新聞 時間：2025-12-12 12:21:06

面對谷歌等競爭對手帶來的壓力，在紅色緊急狀態下的OpenAI，在十周年之際火速發布GPT-5.2。
當地時間12月11日，OpenAI正式推出最新模型GPT-5.2，據官方介紹，該模型適用于專業工作和長時運行智能體，是迄今為止適用于專業知識工作的最強模型系列，在通用智能、長上下文理解、智能體化工具調用和視覺方面得到顯著改進，在執行端到端的復雜現實世界任務方面優于以往的模型。
GPT?5.2共有Instant、Thinking和Pro三個版本，將從今天開始向付費計劃用戶逐步推出，在 ChatGPT 中，GPT?5.1將繼續對付費用戶可用三個月，之后將停止支持。在API（應用接口）中，已對所有開發者開放。
OpenAI CEO山姆·奧特曼（Sam Altman）發文表示：“即使沒有諸如輸出精美文件這類新功能，GPT-5.2也感覺像是我們許久以來獲得的最大升級。?”
據介紹，GPT-5.2在多數基準測試中都達到了新的先進水平，在GDPval測試中（GDPval是OpenAI推出的AI評估基準，旨在衡量前沿模型在真實經濟價值任務中的表現，以彌補學術測試與實際應用間的差距），在涵蓋44個職業、定義明確的知識工作任務上，表現優于行業專業人士。

GPT-5.2在GDPval測試中的表現，Thinking版在70.9%的比較中擊敗或持平頂尖行業專業人士。
編碼能力方面，GPT-5.2在SWE-Bench Pro（一項對現實世界軟件工程進行的嚴格評估，測試四種語言，旨在更具抗污染性、挑戰性、多樣性和行業相關性）上，Thinking版取得了 55.6%的最高成績，在SWE-bench Verified上，Thinking版取得了80%的高分。

OpenAI表示，對于日常專業使用而言，這意味著模型能夠更可靠地調試生產代碼、實現功能請求、重構大型代碼庫，并以更少的人工干預端到端地發布修復。
GPT?5.2 Thinking在前端軟件工程方面也優于GPT?5.1 Thinking。早期測試者發現它在前端開發和復雜或非傳統的 UI 工作（尤其是涉及 3D 元素的工作）方面明顯更強，比如制作海洋波浪模擬、假日賀卡制作器、打字游戲等。
據介紹，GPT?5.2 Thinking的事實準確性、長上下文、視覺以及工具調用性能都迎來大幅提升。比GPT?5.1 Thinking的幻覺更少，在一組匿名查詢中，包含錯誤的回答相對減少了30%；在4-needle MRCR 變體（長達 256k token）任務上實現接近100%準確率，同時，對于需要思考超出最大上下文窗口的任務，GPT?5.2 Thinking與OpenAI新的Responses /compact端點兼容，擴展了模型的有效上下文窗口；視覺方面，GPT?5.2 Thinking成為OpenAI迄今為止最強的視覺模型，在圖表推理和軟件界面理解方面的錯誤率大約降低了一半，還能更好地理解圖像中元素的定位；工具調用性能方面，GPT?5.2 Thinking在Tau2-bench Telecom測試上實現了98.7%的得分，對于延遲敏感的使用場景，其在reasoning.effort='none'（無推理）設置下的表現也遠優于GPT?5.1和GPT?4.1。

GPT?5.2與GPT-5.1的視覺能力對比。
在科學與數學能力方面。在 GPQA Diamond（研究生級別的、防谷歌的問答基準）測試上，GPT?5.2 Pro達到93.2%，GPT?5.2 Thinkin達到92.4%。
OpenAI表示，在最近與GPT?5.2 Pro合作的研究中，研究人員探索了統計學習理論中的一個開放性問題。在特定、明確界定的設定下，模型提出了一個證明，隨后得到了作者的驗證，并與外部專家一起進行了審查，這證明了前沿模型已經在人類的密切監督下協助數學研究。
同時，在ARC-AGI 1（衡量通用推理能力的基準）測試上，GPT?5.2 Pro成為第一個突破90%閾值的模型，相比去年o3?preview的87%有所提高，同時將實現該性能的成本降低了約390倍。
在難度更高、更能隔離流體推理能力的 ARC-AGI-2基準測試上，GPT?5.2 Thinking在思維鏈模型中得分為 52.9%，GPT?5.2 Pro更是達到 54.2%，模型的推理新穎性、抽象問題的能力進一步提升。
值得一提的是，當天還是OpenAI成立十周年，奧特曼發布了題為《十年》的博客，回顧了OpenAI成立十年來的突破、經驗教訓以及有關AGI的思考。
他表示，OpenAI取得的成就超出了他最大膽的夢想，“我們當初設定了一個瘋狂、不太可能且史無前例的目標。從極度不確定的開端起步，盡管希望渺茫，但通過持續努力，現在看來，我們似乎有望實現我們的使命”。
奧特曼表示，當他回顧早期的照片時，首先震驚于每個人看起來都那么年輕。接著，又震驚于每個人看起來都異常樂觀，而且那么快樂。“那是一段瘋狂而快樂的時光：盡管我們被嚴重誤解，但我們懷著堅定的信念，覺得這件事意義重大，即使成功機會渺茫也值得為之付出巨大努力，我們擁有非常有才華的人，并且目標明確”。

OpenAI在十周年視頻中發布的創業早期照片。
他表示，三年前推出ChatGPT時，世界注意到了，而當推出 GPT-4 時，反響更是熱烈；突然間，考慮通用人工智能（AGI）不再是件瘋狂的事。“過去的三年極其緊張，充滿了壓力和重大的責任；這項技術以前所未有的規模和速度融入了世界。這需要我們以極高的執行力來完成，而且我們不得不立即為此建立一種全新的能力。在這段時間里，從一無所有成長為一家龐大的公司絕非易事，需要我們每周做出成百上千個決策。我為團隊做出的許多正確決策感到自豪，而那些錯誤的決策，則大多是我的責任”。
奧特曼表示從未對OpenAI的研究、產品路線圖以及整體上通向使命的路徑感到如此樂觀。再過十年，幾乎可以肯定OpenAI將構建出超級智能。“我預計未來會讓人感到奇妙；從某種意義上說，日常生活和我們最關心的事情變化會非常小，我敢肯定，我們將繼續更關注其他人的行為，而非機器的行為。但從另一種意義上說，2035年的人們將能夠做到一些我認為我們現在難以輕易想象的事情”。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

消息稱某廠新機將全系搭載1216雙揚聲器等，或為榮耀WIN

閃電快訊｜摩爾線程GPU技術路線圖首次公開，展示全棧技術成果

香港創科局張曼莉最新發聲！

「真還傳」后，首次開講科技春晚，羅永浩要祭出什么大招？

字節跳動與手機廠商合作，AI手機的“鴻蒙智行”時代要來了？

消息稱蘋果為iPhone Fold嘗試UFG玻璃，技術難點待解

全站最新

消息稱某廠新機將全系搭載1216雙揚聲器等，或為榮耀WIN

閃電快訊｜摩爾線程GPU技術路線圖首次公開，展示全棧技術成果

香港創科局張曼莉最新發聲！

「真還傳」后，首次開講科技春晚，羅永浩要祭出什么大招？

熱門推薦

消息稱某廠新機將全系搭載1216雙揚聲器等，或為榮耀WIN

Altman直面1.4萬億美元質疑：只要算力還短缺，OpenAI就必須繼續燒錢

閃電快訊｜摩爾線程GPU技術路線圖首次公開，展示全棧技術成果

奧爾特曼腦機公司分拆獨立，要用超聲波“聽”你的想法

谷歌仍是最大威脅！奧爾特曼坦言OpenAI將常態化AI紅色警報

香港創科局張曼莉最新發聲！

「真還傳」后，首次開講科技春晚，羅永浩要祭出什么大招？

字節跳動與手機廠商合作，AI手機的“鴻蒙智行”時代要來了？

消息稱蘋果為iPhone Fold嘗試UFG玻璃，技術難點待解

QCY N20耳機開啟新品預約，129元享大動圈與50dB降噪

摩爾線程發布新一代GPU架構，打造MUSA生態對標英偉達CUDA

預售價9999元，摩爾線程發布AI算力筆記本

國產算力邁入“萬卡”時代：摩爾線程發布新一代GPU架構，中科曙光發布萬卡超集群

全球首臺商用超臨界二氧化碳發電機組成功商運

ESG戰略升級：AI與綠色金融賦能從成本壓力到全球競爭力