拉響“紅色警報”應對谷歌競爭后,當地時間12月11日,OpenAI推出了GPT-5.2,包含GPT-5.2 Instant、Thinking和Pro模式,此時距離OpenAI更新GPT-5.1只過去了一個月。
此次發布GPT-5.2,被外界視為OpenAI應對谷歌挑戰的一次反擊。上個月谷歌發布Gemini 3后,在硅谷掀起一場AI權力的重新分配,OpenAI作為大模型霸主的地位受到挑戰。
![]()
不同于GPT-5.1著重強調具有“情緒價值”、能與人愉快交談,此次應對挑戰,OpenAI拿出了更多“真槍實彈”。GPT-5.2推出了更多智能上的更新,也放出了基準測試的分數。可以看到一些基準測試分數提升明顯。
例如,在知識型工作任務GDPval測試中,GPT-5.2Thinking的分數為70.9%,明顯超過GPT-5.1的38.8%,在抽象推理ARC-AGI-2基準測試中,GPT-5.2Thinking的分數為52.9%,明顯超過GPT-5.1的17.6%。另一些基準測試分數也有提升,在軟件工程SWE-Bench Pro、科學問題GPQA Diamond、科學圖表類問題CharXiv推理、數學競賽HMMT測試中,GPT-5.2Thinking的分數為55.6%、92.4%、88.7%、99.4%,GPT-5.1為50.8%、88.1%、80.3%、96.3%。
基于這些能力提升,OpenAI稱為專業知識型工作打造的GPT-5.2是公司至今最強的模型,“GPT-5.2在眾多基準測試中都刷新了行業水平,例如GDPval測試中,這款模型在涵蓋44個職業的明確知識型工作任務中表現超過了行業專家。”
谷歌發布的Gemini 3 Pro此前在基準測試榜單中“屠榜”,OpenAI此次在基準測試榜單中終于扳回一局。
據此前谷歌放出的數據,在ARC-AGI-2測試中,Gemini 3 Pro分數為31.1%,遠超GPT-5.1的17.6%,GPQA Diamond測試中,Gemini 3 Pro分數為91.9%,超過GPT-5.1的88.1%,這種明顯的能力提升當時引來業內人士預言“未來6個月內很難有公司能超越這一成績”。此次GPT-5.2在上述兩項基準測試中得分終于超過了Gemini 3 Pro。不過,記者留意到,當時谷歌放出的一些分數明顯超過OpenAI的基準測試,例如Humanity’s Last Exam,此次GPT-5.2并未放出。
OpenAI此次也強調了新模型在專業工作中的可用性,稱基準測試得分體現了GPT-5.2在制作演示文稿、電子表格等方面的表現優于或與專業人士持平,生成的電子表格和幻燈片在復雜度和格式呈現上相比前一代有明顯提升。不過,用戶要使用新的電子表格和演示文稿功能,需要訂閱付費套餐。長上下文能力使新模型能處理報告、合同、研究論文等文件。而在編碼任務中,GPT-5.2能更可靠地調試生產環境代碼、以更少的人工干預完成修復交付。
OpenAI演示了一些編碼方面的案例,例如,只需要一個提示,GPT-5.2就能生成一個海浪模擬器、一個節日賀卡生成器。其中,海浪模擬器可以拉動數值,改變風速和海浪高度。OpenAI還強調了GPT-5.2 Thinking的幻覺率低于前一代,在一組去標識的查詢中,新模型錯誤回答的頻率比GPT-5.1 Thinking減少了38%。OpenAI稱,這意味著在寫作、研究、分析和決策中模型犯的錯誤更少,GPT-5.2 Thinking在圖表推理和軟件界面理解方面的錯誤率減少了大約一半。此外,OpenAI稱,GPT-5.2 Pro和GPT-5.2 Thinking還是目前最有助于加快科研進展的模型。
![]()
GPT-5.2Instant、Thinking和Pro周四在ChatGPT中陸續推出,付費套餐用戶將能率先體驗。不過,OpenAI應對谷歌等競爭而拉響的“紅色警報”,并未隨著GPT-5.2的發布而解除。
此前OpenAI CEO山姆·奧爾特曼(Sam Altman)在內部備忘錄中承認,隨著谷歌等競爭對手的快速進步,公司正面臨“氛圍緊張”和“經濟逆風”的雙重挑戰。
此次OpenAI則表示,拉響“紅色警報”是為了集中資源,是一種明確優先級的方式,公司確實增加了更多與ChatGPT相關的資源。奧爾特曼表示,谷歌發布的Gemini 3對公司的一些指標的影響,比原本預計的更小,但當競爭對手的威脅出現時,應該專注并迅速應對,OpenAI預計在明年1月之前結束“紅色警報”狀態。
GPT-5.2將不是OpenAI應對競爭拋出的唯一產品,奧爾特曼在社交媒體上表示,下周OpenAI還將送出一些“小小的圣誕禮物”。





京公網安備 11011402013531號