剛剛，OpenAI神秘新模型斬獲IMO 2025金牌！攻克奧數(shù)巔峰，硅谷沸騰

IP屬地中國(guó)·北京 編輯：鐘景軒新智元 時(shí)間：2025-07-19 20:15:46

新智元報(bào)道
編輯：編輯部
OpenAI的神秘通用推理模型，竟然攻克IMO 2025的5道難題，成功摘金了？這個(gè)消息，讓Greg Brockman等一眾大佬激動(dòng)轉(zhuǎn)發(fā)。也就是說(shuō)，OpenAI很可能已經(jīng)研發(fā)出顛覆性的推理技術(shù)，徹底告別CoT。還有一個(gè)炸裂消息：GPT-5也要來(lái)了。
就在昨天，
然而，就在剛剛，OpenAI 投下了一枚重磅炸彈——他們用一款全新的「通用推理模型」，成功奪下了IMO 2025的金牌！
6道題，解出5道，狂攬35分！
要知道，此前表現(xiàn)最好的Gemini 2.5 Pro，也只得了13分。

聯(lián)創(chuàng)Greg Brockman、負(fù)責(zé)人Alexander Wei，以及OpenAI的各路研究員，紛紛在推上激動(dòng)宣布了這一里程碑式的成就！

對(duì)此，德?lián)渲窷oam Brown表示，這個(gè)成績(jī)的意義甚至超越了「AI攻克IMO」本身。

左右滑動(dòng)查看
消息一出，整個(gè)硅谷為之沸騰！
人們紛紛猜測(cè)，OpenAI這次很可能祭出了一種顛覆性的推理技術(shù)，徹底告別了傳統(tǒng)的CoT思維鏈。
這，不僅僅是一個(gè)模型的勝利，更是一個(gè)全新時(shí)代的開(kāi)端！
更令人震驚的是，OpenAI宣布，這個(gè)創(chuàng)造了歷史的模型，并非傳聞中的GPT-5，而是一個(gè)全新的、實(shí)驗(yàn)性的模型！
而這個(gè)模型完全不會(huì)被發(fā)布，簡(jiǎn)直太神秘了！
神秘模型，拿下IMO金牌
Alexander Wei和他的團(tuán)隊(duì)，讓模型在與人類(lèi)完全相同的條件下進(jìn)行比賽：
兩個(gè)4.5小時(shí)的考試時(shí)段，沒(méi)有工具，沒(méi)有網(wǎng)絡(luò)，僅憑對(duì)題目的理解，用自然語(yǔ)言寫(xiě)下完整的證明過(guò)程。
然后，由三位前IMO獎(jiǎng)牌得主嚴(yán)格評(píng)分。
最終，模型以35/42的驚人高分，達(dá)到了金牌的水平。

相比之下，無(wú)論是在圍棋、Dota還是其他復(fù)雜任務(wù)，過(guò)去的AI想要獲得勝利，往往都要在特定領(lǐng)域進(jìn)行專(zhuān)門(mén)的訓(xùn)練。
但這一次，OpenAI打破了這條鐵律——新模型不僅不是IMO「特供」，而且還能進(jìn)行長(zhǎng)達(dá)數(shù)小時(shí)的思考。
相比之下，我們熟知的o1模型是以秒計(jì)算，Deep Research也不過(guò)是以分鐘計(jì)算。
這種深度的、持久的創(chuàng)造性思維能力，正是以往AI難以逾越的天塹！

這意味著什么？是否達(dá)到了AGI水平？拿下IMO有何特殊？
首先，與以往的基準(zhǔn)相比，IMO問(wèn)題需要更高水平的持續(xù)創(chuàng)造性思維。
在推理時(shí)間范圍方面，現(xiàn)在已經(jīng)一路攀升：GSM8K（頂級(jí)人類(lèi)約需0.1分鐘）→MATH基準(zhǔn)（約1分鐘）→AIME（約10分鐘）→IMO（約100分鐘）。
其次，IMO的提交內(nèi)容是難以驗(yàn)證的多頁(yè)證明。
在此領(lǐng)域取得進(jìn)展需要超越具有明確、可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)范式。
通過(guò)這樣做，OpenAI研究團(tuán)隊(duì)獲得了一個(gè)能夠在人類(lèi)數(shù)學(xué)家層面構(gòu)建復(fù)雜且無(wú)懈可擊論點(diǎn)的模型。
此外該模型并非通過(guò)在「特定任務(wù)（IMO）」訓(xùn)練達(dá)到這一能力水平，而是在通用強(qiáng)化學(xué)習(xí)和測(cè)試時(shí)計(jì)算擴(kuò)展方面實(shí)現(xiàn)了新的突破。

所以，昨晚被曝光的o3-alpha，難道只是前戲？
原來(lái)，這才是OpenAI真正憋著的大招！
完整解題過(guò)程
如果你有興趣，可以看看OpenAI新鮮放出的2025年IMO賽題解答。
模型解出了第一題到第五題（P1-P5），但沒(méi)能解出第六題（P6）。果然如傳聞所說(shuō)，這次的第六題難度極高，全球僅有6人破解。

倉(cāng)庫(kù)地址：https://github.com/aw31/openai-imo-2025-proofs/blob/main/README.md
下面我們來(lái)看看，這個(gè)新模型對(duì)于前五道題的具體解題過(guò)程。
第一題，是一道解析幾何題。

可以看出，解答這道題的關(guān)鍵點(diǎn)，就是要找出覆蓋點(diǎn)的n條線，以及陽(yáng)光線的可能數(shù)量。

模型采用了獨(dú)特的方法，確定了所有滿足條件的非負(fù)整數(shù)k。
引理：當(dāng)n≥4時(shí)，任何覆蓋P_n的n條直線必須使用三角形的一條邊。
對(duì)n=3的情況進(jìn)行精確分析。
對(duì)于一般的n≥3，證明對(duì)于每個(gè)n存在k=0、1、3的配置。
利用歸約引理完成主要結(jié)論的證明。

第二道題，是一道平面幾何題。

示意圖如下。

大神網(wǎng)友放出的解答中，想要直接證明過(guò)點(diǎn)H且平行于AP的直線與三角形BER的外接圓相切，是很困難的。
不過(guò)，這個(gè)問(wèn)題可以換成另一種表述：定義X為不包含B的一側(cè)的EF的中點(diǎn)，如果能夠證明HX與EF平行，基本上就可以證明這個(gè)結(jié)論了。
另一方面，如果這條線的切線，那么它必須在中點(diǎn)處接觸圓。
因此，只要證明這兩點(diǎn)就足夠了。

而模型在證明過(guò)程中，主要完成了以下四步：
解析設(shè)定和參數(shù)。設(shè)P為三角形ACD的外心。連接AP與兩個(gè)圓Ω、Γ的交點(diǎn)分別為點(diǎn)E、F。求過(guò)點(diǎn)B、E、F的外接圓方程。

第三道題，是一道函數(shù)題。

在人類(lèi)選手的解法中，這道題的關(guān)鍵是證明下圖中黃色的不等式。

模型對(duì)于這道題的解法，分為以下四步。
考慮bonza類(lèi)型的函數(shù)，即滿足性質(zhì)P_f的函數(shù)。
當(dāng)函數(shù)在某個(gè)素?cái)?shù)處取值大于1時(shí)，考慮模素?cái)?shù)意義下的同余關(guān)系。
推論：如果某個(gè)奇素?cái)?shù)p滿足f>1，那么整個(gè)函數(shù)f必須是恒等函數(shù)。
進(jìn)入主要的結(jié)構(gòu)性引理：分析在非恒等函數(shù)的情況下，函數(shù)的結(jié)構(gòu)。

第四道題，是一道數(shù)論問(wèn)題。

它的解題關(guān)鍵步驟可以化為如下形式。

模型在解答過(guò)程中，也采用了類(lèi)似思路。

第五道題，考察的是博弈論。

這道題的解法，包含以下三部分。

模型在解題過(guò)程中，則是討論了以下三種情況。
當(dāng) λ ≥ c（無(wú)防御）時(shí)，Alice總是獲勝。
當(dāng) λ > c 時(shí)，Alice獲勝。
當(dāng) λ < c（c = 1/√2）時(shí)，Bazza獲勝。

第六道題，涉及到了圖形的組合數(shù)學(xué)。

這道公認(rèn)的難題，人類(lèi)參賽者也只有6人可以做出，o3、o4-mini、Gemini 2.5 Pro、Grok-4、DeepSeek-R1六個(gè)大模型也全員零分，即使是OpenAI的這個(gè)超強(qiáng)模型，也同樣折戟了。
目前看來(lái)，世界上還不存在能解出第六題的大模型。
一個(gè)彩蛋
Alexander Wei宣布這個(gè)消息時(shí)，使用了「草莓」的形象。
「Strawberry」是OpenAI當(dāng)初在內(nèi)部研發(fā)時(shí)使用的代號(hào)，用于推動(dòng)一項(xiàng)全新的推理模型項(xiàng)目，就是我們現(xiàn)在熟悉的「o」系列模型。

作者介紹

Alex Wei是OpenAI的研究科學(xué)家，主要研究方向?yàn)榇笳Z(yǔ)言模型和推理。之前也曾研究過(guò)機(jī)器學(xué)習(xí)、博弈論和算法的交叉領(lǐng)域。
他在加州大學(xué)伯克利分校獲得計(jì)算機(jī)科學(xué)博士學(xué)位，師從Nika Haghtalab、Michael I. Jordan和Jacob Steinhardt；在哈佛大學(xué)獲得學(xué)士學(xué)位和碩士學(xué)位，師從 Jelani Nelson 和 Scott Kominers。
他曾是FAIR團(tuán)隊(duì)的一員，參與構(gòu)建了首個(gè)在《外交》（Diplomacy）游戲中達(dá)到人類(lèi)水平的人工智能——CICERO。該成果在2022年發(fā)表于《科學(xué)》雜志。
參考資料：
https://x.com/alexwei_/status/1946477742855532918

免責(zé)聲明：本網(wǎng)信息來(lái)自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類(lèi)資訊

SGLang原生支持昇騰，新模型一鍵拉起無(wú)需改代碼

摩爾線程的野心，不藏了

AI生成操作系統(tǒng)新突破！上海交大提出文件系統(tǒng)開(kāi)發(fā)新范式

OPPO Watch X3智能手表入網(wǎng)，預(yù)計(jì)和OPPO Find N6一起發(fā)布

機(jī)器人從比硬件轉(zhuǎn)向比大腦，商湯發(fā)布開(kāi)悟世界模型3.0

上交團(tuán)隊(duì)實(shí)現(xiàn)新一代光計(jì)算芯片突破，開(kāi)辟算力芯片新路徑

全站最新

SGLang原生支持昇騰，新模型一鍵拉起無(wú)需改代碼

摩爾線程的野心，不藏了

AI生成操作系統(tǒng)新突破！上海交大提出文件系統(tǒng)開(kāi)發(fā)新范式

OPPO Watch X3智能手表入網(wǎng)，預(yù)計(jì)和OPPO Find N6一起發(fā)布

熱門(mén)推薦

SGLang原生支持昇騰，新模型一鍵拉起無(wú)需改代碼

摩爾線程的野心，不藏了

AI生成操作系統(tǒng)新突破！上海交大提出文件系統(tǒng)開(kāi)發(fā)新范式

OPPO Watch X3智能手表入網(wǎng)，預(yù)計(jì)和OPPO Find N6一起發(fā)布

降息，突傳大消息！突然跳水，超8.8萬(wàn)人爆倉(cāng)

機(jī)器人從比硬件轉(zhuǎn)向比大腦，商湯發(fā)布開(kāi)悟世界模型3.0

上交團(tuán)隊(duì)實(shí)現(xiàn)新一代光計(jì)算芯片突破，開(kāi)辟算力芯片新路徑

用iPhone級(jí)價(jià)格造出個(gè)人超算，清華博士創(chuàng)業(yè)拓展個(gè)人計(jì)算能力邊界

賺了幾倍：玩家僅花60元就淘到一塊GTX 1660S

“完美伴侶”是串代碼，男子因沉迷AI聊天就醫(yī)

特斯拉Model Y用戶(hù)手冊(cè)更新，將支持查看視頻錄制時(shí)擋位等

步入深水區(qū)，智能金融迎模型迭代等多重挑戰(zhàn)

商用車(chē)綠色智能轉(zhuǎn)型步入關(guān)鍵節(jié)點(diǎn)，福田汽車(chē)發(fā)布多款新車(chē)精準(zhǔn)卡位

當(dāng)人工智能深度介入創(chuàng)作這場(chǎng)跨界沙龍共話視覺(jué)敘事的邊界與可能

火線解析MiniMax招股書(shū)！全球領(lǐng)先大模型成本只有OpenAI 1%