面對谷歌等競爭對手帶來的壓力,在紅色緊急狀態下的OpenAI,在十周年之際火速發布GPT-5.2。
當地時間12月11日,OpenAI正式推出最新模型GPT-5.2,據官方介紹,該模型適用于專業工作和長時運行智能體,是迄今為止適用于專業知識工作的最強模型系列,在通用智能、長上下文理解、智能體化工具調用和視覺方面得到顯著改進,在執行端到端的復雜現實世界任務方面優于以往的模型。
GPT?5.2共有Instant、Thinking和Pro三個版本,將從今天開始向付費計劃用戶逐步推出,在 ChatGPT 中,GPT?5.1將繼續對付費用戶可用三個月,之后將停止支持。在API(應用接口)中,已對所有開發者開放。
OpenAI CEO山姆·奧特曼(Sam Altman)發文表示:“即使沒有諸如輸出精美文件這類新功能,GPT-5.2也感覺像是我們許久以來獲得的最大升級。?”
據介紹,GPT-5.2在多數基準測試中都達到了新的先進水平,在GDPval測試中(GDPval是OpenAI推出的AI評估基準,旨在衡量前沿模型在真實經濟價值任務中的表現,以彌補學術測試與實際應用間的差距),在涵蓋44個職業、定義明確的知識工作任務上,表現優于行業專業人士。
![]()
GPT-5.2在GDPval測試中的表現,Thinking版在70.9%的比較中擊敗或持平頂尖行業專業人士。
編碼能力方面,GPT-5.2在SWE-Bench Pro(一項對現實世界軟件工程進行的嚴格評估,測試四種語言,旨在更具抗污染性、挑戰性、多樣性和行業相關性)上,Thinking版取得了 55.6%的最高成績,在SWE-bench Verified上,Thinking版取得了80%的高分。
![]()
OpenAI表示,對于日常專業使用而言,這意味著模型能夠更可靠地調試生產代碼、實現功能請求、重構大型代碼庫,并以更少的人工干預端到端地發布修復。
GPT?5.2 Thinking在前端軟件工程方面也優于GPT?5.1 Thinking。早期測試者發現它在前端開發和復雜或非傳統的 UI 工作(尤其是涉及 3D 元素的工作)方面明顯更強,比如制作海洋波浪模擬、假日賀卡制作器、打字游戲等。
據介紹,GPT?5.2 Thinking的事實準確性、長上下文、視覺以及工具調用性能都迎來大幅提升。比GPT?5.1 Thinking的幻覺更少,在一組匿名查詢中,包含錯誤的回答相對減少了30%;在4-needle MRCR 變體(長達 256k token)任務上實現接近100%準確率,同時,對于需要思考超出最大上下文窗口的任務,GPT?5.2 Thinking與OpenAI新的Responses /compact端點兼容,擴展了模型的有效上下文窗口;視覺方面,GPT?5.2 Thinking成為OpenAI迄今為止最強的視覺模型,在圖表推理和軟件界面理解方面的錯誤率大約降低了一半,還能更好地理解圖像中元素的定位;工具調用性能方面,GPT?5.2 Thinking在Tau2-bench Telecom測試上實現了98.7%的得分,對于延遲敏感的使用場景,其在reasoning.effort='none'(無推理)設置下的表現也遠優于GPT?5.1和GPT?4.1。
![]()
GPT?5.2與GPT-5.1的視覺能力對比。
在科學與數學能力方面。在 GPQA Diamond(研究生級別的、防谷歌的問答基準)測試上,GPT?5.2 Pro達到93.2%,GPT?5.2 Thinkin達到92.4%。
OpenAI表示,在最近與GPT?5.2 Pro合作的研究中,研究人員探索了統計學習理論中的一個開放性問題。在特定、明確界定的設定下,模型提出了一個證明,隨后得到了作者的驗證,并與外部專家一起進行了審查,這證明了前沿模型已經在人類的密切監督下協助數學研究。
同時,在ARC-AGI 1(衡量通用推理能力的基準)測試上,GPT?5.2 Pro成為第一個突破90%閾值的模型,相比去年o3?preview的87%有所提高,同時將實現該性能的成本降低了約390倍。
在難度更高、更能隔離流體推理能力的 ARC-AGI-2基準測試上,GPT?5.2 Thinking在思維鏈模型中得分為 52.9%,GPT?5.2 Pro更是達到 54.2%,模型的推理新穎性、抽象問題的能力進一步提升。
值得一提的是,當天還是OpenAI成立十周年,奧特曼發布了題為《十年》的博客,回顧了OpenAI成立十年來的突破、經驗教訓以及有關AGI的思考。
他表示,OpenAI取得的成就超出了他最大膽的夢想,“我們當初設定了一個瘋狂、不太可能且史無前例的目標。從極度不確定的開端起步,盡管希望渺茫,但通過持續努力,現在看來,我們似乎有望實現我們的使命”。
奧特曼表示,當他回顧早期的照片時,首先震驚于每個人看起來都那么年輕。接著,又震驚于每個人看起來都異常樂觀,而且那么快樂。“那是一段瘋狂而快樂的時光:盡管我們被嚴重誤解,但我們懷著堅定的信念,覺得這件事意義重大,即使成功機會渺茫也值得為之付出巨大努力,我們擁有非常有才華的人,并且目標明確”。
![]()
OpenAI在十周年視頻中發布的創業早期照片。
他表示,三年前推出ChatGPT時,世界注意到了,而當推出 GPT-4 時,反響更是熱烈;突然間,考慮通用人工智能(AGI)不再是件瘋狂的事。“過去的三年極其緊張,充滿了壓力和重大的責任;這項技術以前所未有的規模和速度融入了世界。這需要我們以極高的執行力來完成,而且我們不得不立即為此建立一種全新的能力。在這段時間里,從一無所有成長為一家龐大的公司絕非易事,需要我們每周做出成百上千個決策。我為團隊做出的許多正確決策感到自豪,而那些錯誤的決策,則大多是我的責任”。
奧特曼表示從未對OpenAI的研究、產品路線圖以及整體上通向使命的路徑感到如此樂觀。再過十年,幾乎可以肯定OpenAI將構建出超級智能。“我預計未來會讓人感到奇妙;從某種意義上說,日常生活和我們最關心的事情變化會非常小,我敢肯定,我們將繼續更關注其他人的行為,而非機器的行為。但從另一種意義上說,2035年的人們將能夠做到一些我認為我們現在難以輕易想象的事情”。





京公網安備 11011402013531號