GPT-5.2部分基準測試分數超過谷歌，但OpenAI“紅色警報”尚未解除

IP屬地中國·北京 第一財經資訊 時間：2025-12-12 12:18:15

拉響“紅色警報”應對谷歌競爭后，當地時間12月11日，OpenAI推出了GPT-5.2，包含GPT-5.2 Instant、Thinking和Pro模式，此時距離OpenAI更新GPT-5.1只過去了一個月。
此次發布GPT-5.2，被外界視為OpenAI應對谷歌挑戰的一次反擊。上個月谷歌發布Gemini 3后，在硅谷掀起一場AI權力的重新分配，OpenAI作為大模型霸主的地位受到挑戰。

不同于GPT-5.1著重強調具有“情緒價值”、能與人愉快交談，此次應對挑戰，OpenAI拿出了更多“真槍實彈”。GPT-5.2推出了更多智能上的更新，也放出了基準測試的分數。可以看到一些基準測試分數提升明顯。
例如，在知識型工作任務GDPval測試中，GPT-5.2Thinking的分數為70.9%，明顯超過GPT-5.1的38.8%，在抽象推理ARC-AGI-2基準測試中，GPT-5.2Thinking的分數為52.9%，明顯超過GPT-5.1的17.6%。另一些基準測試分數也有提升，在軟件工程SWE-Bench Pro、科學問題GPQA Diamond、科學圖表類問題CharXiv推理、數學競賽HMMT測試中，GPT-5.2Thinking的分數為55.6%、92.4%、88.7%、99.4%，GPT-5.1為50.8%、88.1%、80.3%、96.3%。
基于這些能力提升，OpenAI稱為專業知識型工作打造的GPT-5.2是公司至今最強的模型，“GPT-5.2在眾多基準測試中都刷新了行業水平，例如GDPval測試中，這款模型在涵蓋44個職業的明確知識型工作任務中表現超過了行業專家。”
谷歌發布的Gemini 3 Pro此前在基準測試榜單中“屠榜”，OpenAI此次在基準測試榜單中終于扳回一局。
據此前谷歌放出的數據，在ARC-AGI-2測試中，Gemini 3 Pro分數為31.1%，遠超GPT-5.1的17.6%，GPQA Diamond測試中，Gemini 3 Pro分數為91.9%，超過GPT-5.1的88.1%，這種明顯的能力提升當時引來業內人士預言“未來6個月內很難有公司能超越這一成績”。此次GPT-5.2在上述兩項基準測試中得分終于超過了Gemini 3 Pro。不過，記者留意到，當時谷歌放出的一些分數明顯超過OpenAI的基準測試，例如Humanity’s Last Exam，此次GPT-5.2并未放出。
OpenAI此次也強調了新模型在專業工作中的可用性，稱基準測試得分體現了GPT-5.2在制作演示文稿、電子表格等方面的表現優于或與專業人士持平，生成的電子表格和幻燈片在復雜度和格式呈現上相比前一代有明顯提升。不過，用戶要使用新的電子表格和演示文稿功能，需要訂閱付費套餐。長上下文能力使新模型能處理報告、合同、研究論文等文件。而在編碼任務中，GPT-5.2能更可靠地調試生產環境代碼、以更少的人工干預完成修復交付。
OpenAI演示了一些編碼方面的案例，例如，只需要一個提示，GPT-5.2就能生成一個海浪模擬器、一個節日賀卡生成器。其中，海浪模擬器可以拉動數值，改變風速和海浪高度。OpenAI還強調了GPT-5.2 Thinking的幻覺率低于前一代，在一組去標識的查詢中，新模型錯誤回答的頻率比GPT-5.1 Thinking減少了38%。OpenAI稱，這意味著在寫作、研究、分析和決策中模型犯的錯誤更少，GPT-5.2 Thinking在圖表推理和軟件界面理解方面的錯誤率減少了大約一半。此外，OpenAI稱，GPT-5.2 Pro和GPT-5.2 Thinking還是目前最有助于加快科研進展的模型。

GPT-5.2Instant、Thinking和Pro周四在ChatGPT中陸續推出，付費套餐用戶將能率先體驗。不過，OpenAI應對谷歌等競爭而拉響的“紅色警報”，并未隨著GPT-5.2的發布而解除。
此前OpenAI CEO山姆·奧爾特曼（Sam Altman）在內部備忘錄中承認，隨著谷歌等競爭對手的快速進步，公司正面臨“氛圍緊張”和“經濟逆風”的雙重挑戰。
此次OpenAI則表示，拉響“紅色警報”是為了集中資源，是一種明確優先級的方式，公司確實增加了更多與ChatGPT相關的資源。奧爾特曼表示，谷歌發布的Gemini 3對公司的一些指標的影響，比原本預計的更小，但當競爭對手的威脅出現時，應該專注并迅速應對，OpenAI預計在明年1月之前結束“紅色警報”狀態。
GPT-5.2將不是OpenAI應對競爭拋出的唯一產品，奧爾特曼在社交媒體上表示，下周OpenAI還將送出一些“小小的圣誕禮物”。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

AI投入再加碼，消息稱理想汽車在硅谷成立新研發中心

湖南電信與華為打造全國首個2.1GHz 8T8R 45MHz連片覆蓋5G網

曝蔚來推行新渠道合作模式：用戶開店、不涉及授權，派人現場賣車

對話火山引擎譚待：多數人低估了火山拿下 AI 云的決心

理論應用 | 知識經濟遇上AI變革（上）

“天才少女”羅福莉亮相背后：曾被雷軍親自點將，能成小米新王牌？

全站最新

AI投入再加碼，消息稱理想汽車在硅谷成立新研發中心

湖南電信與華為打造全國首個2.1GHz 8T8R 45MHz連片覆蓋5G網

曝蔚來推行新渠道合作模式：用戶開店、不涉及授權，派人現場賣車

對話火山引擎譚待：多數人低估了火山拿下 AI 云的決心

熱門推薦

2026春節出境游是門“情緒經濟學”

還在關店的保時捷，開始琢磨漲價

金字火腿鄭慶昇，匆匆扶子上位

保健酒換道：從“中老年專屬”到“少女偏愛”

港交所延長交易時間呼聲再起，如何看待其中利弊？

熱水沖不開的困局! 傳統沖泡飲品是否集體失寵？

砸40萬開店月虧上萬，餐飲創業這個坑，很多人都踩過……

休閑零食的困局，當“網紅”浪潮退去后…

排隊6小時也要吃，韓國料理，又行了？

贏得產業資本支持的英特爾，按下“瘦身”暫停鍵

沖刺IPO的華龍證券月內再有股權遭法拍，不久前剛敲定銀行背景“新掌門人”

蘋果回應iPhone內存用完就壞了：建議及時清理空間

AI投入再加碼，消息稱理想汽車在硅谷成立新研發中心

湖南電信與華為打造全國首個2.1GHz 8T8R 45MHz連片覆蓋5G網

曝蔚來推行新渠道合作模式：用戶開店、不涉及授權，派人現場賣車