OpenAI周四正式發布GPT-5.2系列模型,打響了迎戰谷歌Gemini 3的第一槍。CEO Sam Altman淡化Gemini 3帶來的沖擊,預計明年1月就可以解除所謂“紅色警報”的狀態,以非常強勁的姿態重回常態
GPT-5.2是OpenAI迄今最先進的人工智能(AI)模型,針對專業工作場景進行了全面優化,創多個基準測試的行業記錄,其中的GPT-5.2 Thinking刷新了SWE編碼能力測試的歷史最高分,也是OpenAI首個性能達到或超過人類專家水平的模型。
OpenAI應用業務的CEO Fidji Simo表示,GPT-5.2在創建電子表格、制作演示文稿、圖像識別、代碼編寫和長文本理解等方面均優于前代產品,旨在"為人們創造更多經濟價值"。OpenAI的研究副總Adain Clark稱,GPT-5.2在數學推理方面的進步意味著它能更好地處理金融建模、預測和數據分析等任務。
![]()
OpenAI宣布,周四當天GPT5.2就在ChatGPT上線,面向Plus,、Pro、Go、Business和 Enterprise這些付費套餐的用戶, 共推出Instant、Thinking和Pro三個版本,API也同步開放給所有開發者。
在ChatGPT中,付費用戶可使用三個版本的GPT-5.2,且在未來三個月內仍可繼續使用GPT-5.1。在API平臺,GPT-5.2定價為每百萬輸入token 1.75美元、每百萬輸出token 14美元,緩存輸入可享受90%折扣。雖然單token價格高于GPT-5.1,但OpenAI表示,由于模型效率更高,達到相同質量水平的總成本反而更低。
![]()
新模型發布是OpenAI對Gemini 3掀起又一輪競爭的正式回應。本周稍早媒體稱OpenAI的CEO Sam Altman最近發布內部"紅色警報"備忘錄,要求公司將資源集中用于改進ChatGPT。幾周前,谷歌推出的Gemini 3因其推理和編碼能力廣受好評,迅速登上LMArena和Humanity's Last Exam等權威排行榜榜首,給OpenAI帶來壓力。
評論認為,GPT-5.2 與其說是重新發明,不如說是對OpenAI最近兩次升級的整合。8月發布的 GPT-5 是一次重置,為統一系統奠定了基礎,它可以在快速默認模型和更深入的“思考”模式之間切換。11月發布的 GPT-5.1專注于使該系統更加友好、更具對話性,并更適合智能體和編碼任務。GPT-5.2似乎進一步提升了所有這些進步,使其成為生產應用更可靠的基礎。
三個版本GPT5.2分別主打快速、深度、智能可靠
對于周四提供的三個版本GPT 5.2,OpenAI分別介紹稱,Instant是快速高效的日常工作和學習助手,在信息查詢、操作指南、技術寫作和翻譯方面均有顯著提升。,并延續了 GPT-5.1 Instant 中更親切的對話風格。早期測試者尤其注意到,GPT-5.2 的解釋更加清晰,能夠直接呈現關鍵信息。
Thinking 專為深度工作而設計,能夠幫助用戶更高效地完成更復雜的任務,尤其是在編碼、總結長篇文檔、回答有關上傳文件的問題、逐步進行數學和邏輯運算、以更清晰的框架和更有用的細節輔助規劃和決策方面。
Pro是需要高質量回答難題時“最智能、最可靠”的選擇。早期測試表明,它在編程等復雜領域表現更出色,且重大錯誤更少。
性能全面領先,多項基準測試創新高
GPT-5.2在多個關鍵基準測試中刷新了行業紀錄。在GDPval測試中,該模型在涵蓋44個職業的知識工作任務上,有70.9%的表現達到或超過行業專家水平。OpenAI稱,GPT-5.2 Thinking完成這些任務的速度是專家的11倍以上,成本不到專家的1%。
![]()
在編碼能力方面,GPT-5.2 Thinking在SWE-Bench Pro上取得55.6%的成績,在SWE-bench Verified上更是達到80%的新高。這一基準測試真實世界軟件工程任務,涵蓋四種編程語言。OpenAI的產品負責人Max Schwarzer表示,GPT-5.2在代碼生成和調試方面取得重大進步,Windsurf和CharlieCode等編碼初創公司報告稱該模型實現了"最先進的智能體編碼性能"。
![]()
OpenAI聲稱GPT-5.2 Thinking是"世界上最好的視覺模型",在圖表推理和軟件界面理解方面的錯誤率降低了約一半。在長文本處理上,該模型在OpenAI MRCRv2測試中率先在25.6萬token范圍內實現近100%的準確率,使其特別適合深度文檔分析和多源信息工作流。
在科學研究領域,GPT-5.2 Pro在GPQA Diamond測試中達到93.2%的準確率,GPT-5.2 Thinking緊隨其后為92.4%。在專家級數學測試FrontierMath上,GPT-5.2 Thinking解決了40.3%的問題,創下新紀錄。OpenAI稱GPT-5.2 Pro和GPT-5.2 Thinking是"世界上最好的科學家助手模型"。
![]()
Altman稱Gemini 3影響沒擔心的大
面對Gemini 3帶來的競爭壓力,Altman周四接受媒體采訪時表示:“Gemini 3對我們指標的影響可能沒有我們擔心的大。”他預計,OpenAI將在明年1月前以“非常強勢的地位”退出紅色警報模式。
關于紅色警報的原因,Simo在記者會上解釋稱:"我們宣布紅色警報是為了向公司發出信號,表明我們希望將資源集中在某個特定領域,這是明確優先事項和可降級事項的方式。" 她強調,雖然ChatGPT獲得了更多資源投入,但GPT-5.2的發布已籌備多月,并非因紅色警報而匆忙推出。
雖然Altman據稱在內部備忘錄中將圖像生成列為優先事項,但此次OpenAI的新品發布并未包含新的圖像生成器。據報道,OpenAI計劃在明年1月發布另一款新模型,將提供更好的圖像生成、更快的速度和更強的個性化能力,但公司周四未確認這一計劃。
OpenAI還宣布推出年齡預測軟件,以便為18歲以下用戶提供內容保護。Simo透露,公司將在明年第一季度推出"成人模式",Altman此前表示該模式可能允許"為經過驗證的成年人提供情色內容"等用途。
企業客戶成為爭奪焦點
GPT-5.2的發布明確瞄準企業市場。OpenAI本周早些時候發布的新數據顯示,過去一年其AI工具的企業使用量大幅飆升。公司稱,ChatGPT Enterprise平均用戶表示AI每天為他們節省40至60分鐘,重度用戶每周節省超過10小時。
Notion、Box、Shopify、Harvey和Zoom等企業客戶觀察到,GPT-5.2展示了最先進的長周期推理和工具調用性能。Databricks、Hex和Triple Whale發現該模型在智能體數據科學和文檔分析任務上表現出色。Cognition、Warp、Charlie Labs、JetBrains和Augment Code則表示GPT-5.2提供了最先進的智能體編碼性能。
在工具調用方面,GPT-5.2 Thinking在Tau2-bench Telecom測試中達到98.7%的準確率,展示了其在長時間、多輪次任務中可靠使用工具的能力。在一個涉及航班延誤、轉機失敗和醫療座位需求的復雜客戶服務案例中,GPT-5.2成功協調了重新預訂、特殊協助座位和補償等全部流程。
![]()
這一戰略轉向正值關鍵時刻。OpenAI已承諾在未來幾年投入超過1萬億美元用于AI基礎設施建設,但如今谷歌正在迎頭趕上。據報道,OpenAI的推理計算支出大部分以現金支付而非使用云積分,表明公司的計算成本已超出合作伙伴關系和積分所能補貼的范圍。對推理模型的加倍投入可能形成惡性循環:為贏得排行榜而增加計算支出,然后為大規模運行這些高成本模型而進一步增加支出。
在定價策略上,雖然ChatGPT訂閱價格保持不變,但API中的GPT-5.2單token價格高于GPT-5.1,不過仍低于其他前沿模型。OpenAI目前沒有棄用GPT-5.1、GPT-5或GPT-4.1的計劃,并承諾會提前充分通知開發者任何棄用計劃。





京公網安備 11011402013531號