當(dāng)前位置：首頁 ? 資訊 ? 新科技 ? 正文

GPT-5.2性能爆表，但紅色警報(bào)沒有解除

IP屬地中國·北京 編輯：王婷直面AI 時(shí)間：2025-12-12 10:11:35

就在剛剛，ChatGPT-5.2發(fā)布了。
這是OpenAI成立以來，首次發(fā)布紅色警報(bào)（Code Red）后的第一款產(chǎn)品。
雖然在時(shí)間上，GPT-5.2只跟5.1相隔了一個(gè)月。但是從公布的性能數(shù)據(jù)來看，GPT-5.2較上一代提升巨大，而且遠(yuǎn)超谷歌和Anthropic的同期產(chǎn)品。
然而OpenAI的紅色警報(bào)并未因此解除，這家公司仍處于危機(jī)之中。
究其原因，現(xiàn)在的市場已經(jīng)逐漸開始對(duì)OpenAI祛魅，而是更冷靜地審視每一分算力背后的投入產(chǎn)出比。在這種前所未有的環(huán)境之下，OpenAI不僅需要證明自己是最強(qiáng)的，還需要證明自己不可被替代。
01
首先要說的，就是GPT-5.2的數(shù)學(xué)能力。
長期以來，業(yè)界普遍認(rèn)為大語言模型雖然能寫代碼、能聊天，但在嚴(yán)格的數(shù)學(xué)推理上總是差強(qiáng)人意。這次GPT-5.2 Thinking在AIME 2025數(shù)學(xué)競賽中拿到了100%的滿分。
AIME是美國數(shù)學(xué)邀請賽，題目難度遠(yuǎn)超普通高中數(shù)學(xué)，需要扎實(shí)的數(shù)學(xué)功底和靈活的解題思路。GPT-5.2能在這樣的測試中全部答對(duì)，說明它在數(shù)學(xué)推理上已經(jīng)達(dá)到了相當(dāng)高的水平。
在更高難度的FrontierMath測試中，GPT-5.2 Thinking解決了40.3%的專家級(jí)數(shù)學(xué)難題。這個(gè)測試專門針對(duì)前沿?cái)?shù)學(xué)研究設(shè)計(jì)，許多題目連專業(yè)數(shù)學(xué)家都需要花費(fèi)大量時(shí)間思考。能解決其中40%的問題，已經(jīng)展現(xiàn)出在輔助科學(xué)研究方面的潛力。
除了推理和數(shù)學(xué)，GPT-5.2在專業(yè)工作領(lǐng)域也表現(xiàn)突出。
在OpenAI新推出的GDPval基準(zhǔn)測試中，GPT-5.2 Thinking在涵蓋44種職業(yè)的知識(shí)工作任務(wù)上，有70.9%的情況下?lián)魯』虼蚱搅隧敿庑袠I(yè)專家。
這些任務(wù)包括制作演示文稿、構(gòu)建復(fù)雜的財(cái)務(wù)模型、撰寫專業(yè)文檔等。OpenAI表示，它完成這些任務(wù)的速度是人類專家的11倍以上，成本卻不到1%。
在軟件工程方面，GPT-5.2 Thinking在SWE-Bench Pro上達(dá)到55.6%的準(zhǔn)確率，在SWE-bench Verified上達(dá)到80%。這些測試評(píng)估的是模型在真實(shí)代碼庫中修復(fù)bug、實(shí)現(xiàn)新功能的能力。
早期測試者反饋，它在前端開發(fā)和復(fù)雜UI實(shí)現(xiàn)上尤其出色，甚至能夠根據(jù)一條提示就生成包含3D效果和物理模擬的完整應(yīng)用。
GPT-5.2在長文檔理解上也有明顯進(jìn)步。在OpenAI的MRCRv2測試中，它成為首個(gè)在256k token長度下，針對(duì)4-needle變體任務(wù)達(dá)到近乎100%準(zhǔn)確率的模型。
這意味著用戶可以上傳數(shù)百頁的報(bào)告、合同或研究論文，模型仍能準(zhǔn)確理解分散在不同位置的相關(guān)信息，并進(jìn)行綜合分析。
在視覺理解方面，GPT-5.2的錯(cuò)誤率在圖表推理和軟件界面理解任務(wù)上幾乎減半。它對(duì)圖像中物體的空間位置有了更準(zhǔn)確的把握。
OpenAI展示了一個(gè)例子：即使輸入一張模糊的主板照片，GPT-5.2也能準(zhǔn)確識(shí)別出各個(gè)組件的位置并標(biāo)注邊界框，而前代模型只能識(shí)別出少數(shù)部分且位置偏差較大。
此次發(fā)布包含三個(gè)版本。GPT-5.2 Instant定位為日常工作的快速助手，適合信息查詢、技術(shù)寫作和翻譯等任務(wù)。GPT-5.2 Thinking專注于深度推理，在編程、數(shù)據(jù)分析和復(fù)雜文檔處理上表現(xiàn)最佳，是專業(yè)工作的首選。GPT-5.2 Pro則是最智能的版本，適合那些值得等待高質(zhì)量答案的高難度問題。
同時(shí)這次發(fā)布最引人注目的，不僅是模型本身的能力提升，更是一個(gè)令人驚訝的效率數(shù)據(jù)：在ARC-AGI-1測試中，GPT-5.2 Pro實(shí)現(xiàn)了約390倍的效率改進(jìn)。
一年前，OpenAI曾驗(yàn)證過一個(gè)未發(fā)布的o3預(yù)覽版本，在ARC-AGI-1測試中達(dá)到88%的準(zhǔn)確率，但每個(gè)任務(wù)的成本約為4500美元。如今，GPT-5.2 Pro不僅將準(zhǔn)確率提升至90.5%，還將單任務(wù)成本降至11.64美元。這種量級(jí)的效率提升，意味著原本只能在實(shí)驗(yàn)室中演示的能力，現(xiàn)在有可能真正走向?qū)嶋H應(yīng)用。
ARC-AGI測試被設(shè)計(jì)用來衡量抽象推理能力，它要求模型在面對(duì)從未見過的模式時(shí)，仍能找出規(guī)律并給出答案。這種能力接近人類所謂的“舉一反三”。
GPT-5.2 Pro在ARC-AGI-1驗(yàn)證集上的表現(xiàn)，使其成為首個(gè)突破90%門檻的模型。在難度更高的ARC-AGI-2上，GPT-5.2 Thinking也達(dá)到了52.9%的準(zhǔn)確率，創(chuàng)下了鏈?zhǔn)剿季S模型的新紀(jì)錄。
02
GPT-5.2是奧特曼啟動(dòng)Code Red后的一次強(qiáng)有力證明，但競爭的結(jié)果不會(huì)由單一基準(zhǔn)測試決定。真正的較量在于誰能更好地理解用戶需求，誰能在保持技術(shù)領(lǐng)先的同時(shí)控制成本，誰能在不同應(yīng)用場景中提供更可靠的服務(wù)。
一個(gè)來自GitHub的開源基準(zhǔn)測試給出了答案。在lechmazur維護(hù)的NYT Connections測試中，GPT-5.2的表現(xiàn)并不如預(yù)期。
NYT Connections是《紐約時(shí)報(bào)》推出的一個(gè)文字游戲，要求玩家從16個(gè)詞語中找出四組相關(guān)的詞匯。這個(gè)測試被設(shè)計(jì)成了一個(gè)LLM基準(zhǔn)，通過加入額外的干擾詞來增加難度，目前包含759個(gè)謎題。這種測試考察的是模型對(duì)語言的細(xì)微理解、聯(lián)想能力和分類推理。
在這個(gè)排行榜上，Gemini 3 Pro Preview以96.8%的準(zhǔn)確率位居第一。緊隨其后的是xAI的Grok 4.1 Fast Reasoning，準(zhǔn)確率為93.5%。OpenAI的模型中，表現(xiàn)最好的是GPT-5 Pro，準(zhǔn)確率為83.9%，排在第八位。GPT-5.2在高推理模式下的準(zhǔn)確率為77.9%，排名第11位。
這個(gè)結(jié)果多少有些出人意料。GPT-5.2在數(shù)學(xué)競賽中能拿滿分，在專業(yè)工作任務(wù)中能超越人類專家，但在這個(gè)看似簡單的文字游戲上，卻落后于競爭對(duì)手近20個(gè)百分點(diǎn)。
深入分析會(huì)發(fā)現(xiàn)，這并不是簡單的性能問題。NYT Connections測試的是模型對(duì)語言文化背景的理解，對(duì)詞語之間隱含關(guān)聯(lián)的把握，以及在多個(gè)可能性中做出合理選擇的能力。
比如BANK、INTEREST、RATE、LOAN可能組成金融類別，也可能BANK與SHORE、BEACH、COAST組成河岸類別。
模型需要同時(shí)考慮多個(gè)維度的關(guān)聯(lián)，并找到最合理的分組方式。
Gemini 3 Pro在這個(gè)測試上的領(lǐng)先，說明谷歌在語言理解的某些維度上確實(shí)有獨(dú)到之處。Grok系列模型的表現(xiàn)也值得注意，xAI雖然起步較晚，但在特定任務(wù)上已經(jīng)展現(xiàn)出競爭力。
有趣的是，測試數(shù)據(jù)還顯示，在最新的100個(gè)謎題中，各模型的排名基本保持一致，這說明訓(xùn)練數(shù)據(jù)污染的可能性不大。模型之間的差距是實(shí)質(zhì)性的，而非來自對(duì)題目的記憶。
這個(gè)測試的存在，給AI社區(qū)提供了一個(gè)更全面的視角。模型能力的評(píng)估不應(yīng)該只看幾個(gè)主流基準(zhǔn)測試，也需要關(guān)注那些看似邊緣但實(shí)則反映深層能力的測試。
NYT Connections考察的聯(lián)想和分類能力，在實(shí)際應(yīng)用中同樣重要，比如在信息檢索、內(nèi)容推薦、知識(shí)圖譜構(gòu)建等場景中。
從這個(gè)角度看，奧特曼的Code Red警報(bào)確實(shí)還不能解除。雖然GPT-5.2在很多領(lǐng)域表現(xiàn)出色，但它并沒有在所有維度上都取得領(lǐng)先。競爭對(duì)手在某些方向上依然保持著優(yōu)勢，甚至在擴(kuò)大差距。
03
技術(shù)競爭最終要落到商業(yè)層面。OpenAI在市場上的處境，比技術(shù)指標(biāo)的對(duì)比要復(fù)雜得多。
從定價(jià)策略來看，GPT-5.2在API層面的價(jià)格定在每百萬輸入token 1.75美元，每百萬輸出token 14美元，比前代GPT-5.1分別貴了40%。
GPT-5.2 Pro價(jià)格也提高了，每百萬輸入token 21美元，每百萬輸出token 168美元。
這個(gè)漲價(jià)幅度不小，OpenAI的解釋是新模型能力更強(qiáng)，性價(jià)比實(shí)際上更高。但對(duì)于大量調(diào)用API的開發(fā)者來說，成本的增加是實(shí)實(shí)在在的。
相較之下，Gemini 3 Pro的核心型號(hào)為gemini-3-pro-preview，其token定價(jià)按上下文窗口長度區(qū)分，提示詞≤20 萬 token 時(shí)，輸入每百萬token 2美元、輸出每百萬token 12美元，提示詞＞20萬token時(shí)，輸入和輸出價(jià)格分別翻倍至每百萬token 4美元和18美元。
Claude 方面，最新的 Opus 4.5定價(jià)大幅下調(diào)，輸入每百萬token 5美元、輸出每百萬token 25美元，相比前代降幅約2/3，上下文窗口為200K token，且無長上下文加價(jià)情況。
當(dāng)競爭對(duì)手們?nèi)鏕emini和Claude都在通過大幅降價(jià)，試圖讓AI變成像水電一樣廉價(jià)的基礎(chǔ)設(shè)施時(shí)，OpenAI 卻反其道而行之，不僅沒有參與價(jià)格戰(zhàn)，反而坦然地掛出了高昂的價(jià)格標(biāo)簽。這只能說明一件事：奧特曼正在試圖把 GPT 變成一件“奢侈品”。
在商業(yè)邏輯中，奢侈品的定義往往不在于“有用”，而在于“稀缺”和“極致”。OpenAI 正在賭，賭這個(gè)世界上存在一部分最高端的智力需求，它們對(duì)價(jià)格不敏感，但對(duì)質(zhì)量有著近乎偏執(zhí)的要求。
對(duì)于這部分用戶，只要能提供那個(gè)唯一的、最正確的答案，168美元的價(jià)格不僅不貴，反而是一種身份和能力的篩選。
這或許才是“紅色警報(bào)”在商業(yè)層面的真正回響。它不再是擔(dān)心落后，而是擔(dān)心平庸。
OpenAI正在進(jìn)行一場危險(xiǎn)的博弈：它試圖通過高價(jià)策略，將自己與“普通 AI”徹底區(qū)隔開來，建立起類似愛馬仕或蘋果那樣的品牌護(hù)城河。
但這也意味著，它從此失去了“差不多就行”的容錯(cuò)空間。可問題就在于一旦這件昂貴的“奢侈品”在實(shí)際體驗(yàn)中無法提供碾壓式的優(yōu)越感，那么用戶轉(zhuǎn)身離開的速度。
況且，能挽救OpenAI的遠(yuǎn)不止一個(gè)高性能的模型那么簡單，奧特曼現(xiàn)在需要的，是一個(gè)足夠動(dòng)人的新故事。

標(biāo)簽：模型能力 任務(wù) 專業(yè) 題目 數(shù)學(xué) 語言人類 領(lǐng)先 奢侈品 答案 商業(yè) 準(zhǔn)確率 專家層面蘋果證明 基準(zhǔn) 方面性能成本 紅色警報(bào) 競爭對(duì)手 實(shí)際 圖譜 內(nèi)容 大量代碼長度策略 花費(fèi) 效

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

賣舊手機(jī)、舊電腦怕隱私泄露？“新國標(biāo)”來了！

OpenAI宣布：蘋果Apple Music即將與ChatGPT集成

馬斯克反擊“藍(lán)鳥行動(dòng)”：X堅(jiān)稱從未放棄Twitter商標(biāo)

代碼顯示蘋果HomePod mini 2沿用聯(lián)發(fā)科方案，無緣自研N1芯片

蘋果iPhone Fold設(shè)計(jì)細(xì)節(jié)曝光：內(nèi)屏寬大于高

無需拆卸多個(gè)組件，蘋果簡化14英寸M5 MacBook Pro電池更換流程

全站最新

賣舊手機(jī)、舊電腦怕隱私泄露？“新國標(biāo)”來了！

OpenAI宣布：蘋果Apple Music即將與ChatGPT集成

馬斯克反擊“藍(lán)鳥行動(dòng)”：X堅(jiān)稱從未放棄Twitter商標(biāo)

代碼顯示蘋果HomePod mini 2沿用聯(lián)發(fā)科方案，無緣自研N1芯片

熱門推薦

需求增長遇上“心臟”梗阻全球航空產(chǎn)業(yè)鏈修復(fù)路漫漫

從人物榜單讀懂開放創(chuàng)新（縱橫）

2026年新能源汽車銷量有望達(dá)到2000萬輛

vivo S50系列發(fā)布，售價(jià)2999元起

林伯強(qiáng)：以互促循環(huán)打造AI時(shí)代能源強(qiáng)國

賣舊手機(jī)、舊電腦怕隱私泄露？“新國標(biāo)”來了！

OpenAI宣布：蘋果Apple Music即將與ChatGPT集成

馬斯克反擊“藍(lán)鳥行動(dòng)”：X堅(jiān)稱從未放棄Twitter商標(biāo)

魏建國：謀定先手棋，助中國科技勇立潮頭

代碼顯示蘋果HomePod mini 2沿用聯(lián)發(fā)科方案，無緣自研N1芯片

特斯拉(TSLA.US)計(jì)劃2027年在德投產(chǎn)電池加碼歐洲制造布局

蘋果iPhone Fold設(shè)計(jì)細(xì)節(jié)曝光：內(nèi)屏寬大于高

進(jìn)化吧，稚暉君

無需拆卸多個(gè)組件，蘋果簡化14英寸M5 MacBook Pro電池更換流程

經(jīng)緯早班車｜國際油價(jià)大跌；歐盟計(jì)劃放寬2035年燃油車禁令