![]()
新智元報(bào)道
編輯:桃子 KingHZ
AI界奧數(shù)杯,重啟了!OpenAI o3首次殺入賽場(chǎng),在算力拉滿的情況下,直接以最高47分的逆天成績(jī)炸翻全場(chǎng)。值得一提的是,前五模型合并得分僅與o3差5分,開(kāi)源與閉源差距再次縮小。
「AI奧數(shù)」第二屆大賽,英偉達(dá)團(tuán)隊(duì)(NemoSkills)曾奪下第一!
這一次,AIMO2組委會(huì)再次重啟賽題,OpenAI o3首次參賽,就拿下了最亮眼的成績(jī)。
陶哲軒激動(dòng)表示,過(guò)去,這個(gè)比賽僅限于開(kāi)源模型,計(jì)算資源也卡得比較緊。
![]()
慶幸的是,AIMO第二輪比賽中,NemoSkills和清華微軟imagination research、以及o3同時(shí)參賽。
測(cè)試分為兩種條件:一種給差不多的計(jì)算資源,另一種是放開(kāi)算力隨便跑。
結(jié)果也在意料之中,算力給得越足,模型表現(xiàn)越好。
在算力管夠的情況下,OpenAI o3成績(jī)直接飆到了47分(滿分50分)。甚至,每道題給兩次機(jī)會(huì)的話,還能沖滿分。
另一個(gè)有意思的情況是,在計(jì)算資源相同的情況下,開(kāi)源模型和商業(yè)模型的差異其實(shí)并不大。
今天,這份完整的研究測(cè)試報(bào)告正式放出。
![]()
報(bào)告地址:https://aimoprize.com/updates/2025-09-05-the-gap-is-shrinking
一起來(lái)看看,o3在具體實(shí)測(cè)中的表現(xiàn)。
奧數(shù)級(jí)難題,AI扛把子
對(duì)于科學(xué)可復(fù)現(xiàn)性,確保開(kāi)源模型廣泛可得至關(guān)重要。但開(kāi)源模型與閉源模型之間的性能差距到底有多大?
在數(shù)學(xué)推理情境下,這次的測(cè)評(píng)提供了更細(xì)致的理解:
在奧數(shù)難度的數(shù)學(xué)推理上,商用和開(kāi)源AI的差距在縮小。
開(kāi)源即將追上商用模型。
![]()
去年,Epoch AI估計(jì):當(dāng)今最好的開(kāi)源模型在性能和訓(xùn)練算力方面與封閉模型相當(dāng),但存在大約一年的差距
人工智能數(shù)學(xué)奧林匹克(AIMO)創(chuàng)立于2023年,旨在推動(dòng)開(kāi)源AI模型在高階數(shù)學(xué)推理的的發(fā)展。
![]()
比賽傳送門(mén):https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-2/overview
2025年4月,。
本階段題目難度進(jìn)一步提升,主要圍繞各國(guó)奧賽級(jí)別(如英國(guó)數(shù)學(xué)奧林匹克BMO、美國(guó)數(shù)學(xué)奧林匹克USAMO)。
![]()
AIMO2私榜的前五名隊(duì)伍及其成績(jī)?nèi)缦拢ɡㄌ?hào)內(nèi)為公榜成績(jī)):
NemoSkills:34/50(公榜:33/50)
imagination-research:31/50(公榜:34/50)
Aliev:30/50(公榜:28/50)
sravn:29/50(公榜:25/50)
usernam:29/50(公榜:25/50)
Kaggle的「公榜」在賽事全程向參賽者可見(jiàn),為了避免數(shù)據(jù)泄露,并不會(huì)公開(kāi)數(shù)據(jù)。
由于在單一榜單上反復(fù)評(píng)測(cè)(即便題目不公開(kāi))也可能間接泄露信息,Kaggle還會(huì)提供一個(gè)包含相似難度題目的「私榜」,僅在賽末對(duì)模型進(jìn)行一次性評(píng)估,以確定最終名次。
考慮到相較AIMO1題目難度顯著上升,這樣的成績(jī)相當(dāng)亮眼。
不過(guò),一個(gè)有趣而關(guān)鍵的問(wèn)題仍待回答:當(dāng)閉源AI模型「上場(chǎng)」解AIMO的競(jìng)賽題時(shí),會(huì)交出怎樣的答卷?
對(duì)比,AIMO與OpenAI等合作開(kāi)展了一項(xiàng)實(shí)驗(yàn),將OpenAI的o3模型未發(fā)布的版本o3-preview,應(yīng)用于AIMO2公共排行榜中50道奧林匹克競(jìng)賽級(jí)數(shù)學(xué)題。
這次對(duì)比了通用型模型o3-preview,和開(kāi)源的AIMO2競(jìng)賽中針對(duì)數(shù)學(xué)專門(mén)優(yōu)化的Top 2模型。
此外,這次還引入「AIMO2-combined」這一參照系:
將參賽的2000多支Kaggle隊(duì)伍中各自最優(yōu)模型的解題結(jié)果合并,只要有至少一個(gè)模型解出某題,即計(jì)為該題被解決。
從絕對(duì)意義上看,不考慮由算力成本帶來(lái)的限制,AIMO基準(zhǔn)上,o3-preview高算力版本接近達(dá)到「飽和」,即便它是通用模型、并未專門(mén)針對(duì)數(shù)學(xué)進(jìn)行優(yōu)化。
這一成績(jī)令人印象深刻,超乎預(yù)期。
這表明在推理性能方面,最強(qiáng)的開(kāi)源模型與最強(qiáng)的閉源模型之間,仍存在顯著差距。
但如果把算力成本納入考量,差距會(huì)顯著縮小。
在50題基準(zhǔn)上,o3-preview低算力版本單次運(yùn)行的平均成本為每題略低于1美元。
這一成本高于在自有的8×H100機(jī)器上運(yùn)行全部五個(gè)獲勝模型的成本,并與在商業(yè)租賃的8×H100 GPU上運(yùn)行單個(gè)獲勝模型的成本大致相當(dāng);雖然難以進(jìn)行精確的價(jià)格對(duì)比,但成本的數(shù)量級(jí)相近。
AIMO2原始前五模型的合并分為38/50,較o3-preview低算力版本落后5分,這表明在僅就算力進(jìn)行調(diào)整、限定于50道題的前提下,推理性能大致相近。
接下來(lái),將依次概述o3-preview的表現(xiàn)、冠亞軍隊(duì)伍的表現(xiàn),以及AIMO2-combined的整體表現(xiàn)。
算力足夠,o3一次拿近滿分
AIMO在三種不同的參數(shù)設(shè)置下運(yùn)行o3-preview:低算力、中等算力、高算力。
這些設(shè)置既影響o3-preview的內(nèi)部思考與推理層次,也帶來(lái)不同的硬件成本。
需要說(shuō)明的是,低算力與中等算力版本在概念上,對(duì)應(yīng)為同一個(gè)基礎(chǔ)模型在兩種參數(shù)下運(yùn)行。
而高算力版本,還使用了一個(gè)學(xué)習(xí)得到的打分函數(shù)來(lái)挑選最佳答案。
這種在固定采樣率下進(jìn)行的「采樣-排序」(sample-and-rank)機(jī)制帶來(lái)更好的表現(xiàn)。
與Kaggle競(jìng)賽相同,測(cè)試在嚴(yán)格條件下進(jìn)行,確保公開(kāi)榜測(cè)試集保持無(wú)數(shù)據(jù)污染且沒(méi)有信息泄露。
每道題僅嘗試一次。
低算力與中等算力版本各返回一個(gè)答案;而采用采樣-排序機(jī)制的高算力版本會(huì)返回若干答案,并附帶一個(gè)評(píng)分。
根據(jù)算力版本不同,OpenAI模型的得分如下:
o3-preview(高算力版本,計(jì)入排名第一與排名第二的答案):50/50
o3-preview(高算力版本,僅計(jì)入排名第一的答案):47/50
o3-preview(中等算力版本):46/50
o3-preview(低算力版本):43/50
![]()
即便將NemoSkills的AIMO2冠軍模型,遷移到比Kaggle更強(qiáng)的硬件上運(yùn)行,o3-preview的低算力版本仍然多解出7題。
中等算力版本解出了與低算力版本相同的題目,并額外多解出3題,總計(jì)46/50。
高算力版本在僅計(jì)入排名第一答案時(shí)得分47/50;若同時(shí)計(jì)入排名第二的答案則為50/50。
這表明,o3-preview在原則上,具備為全部50道題產(chǎn)生正確答案的能力。
這一結(jié)果與AIMO2中,全部2k+支Kaggle參賽隊(duì)伍的最佳模型組合分相當(dāng)——后者總計(jì)也解出47/50。
8塊H100,英偉達(dá)AI僅提1分
此前,拿下第一和第二名的團(tuán)隊(duì)——NemoSkills和imagination-research,再次參與了重估。
為了更好了解模型的全部潛力,團(tuán)隊(duì)獲準(zhǔn)訪問(wèn)一臺(tái)8×H100 GPU,總計(jì)640GB顯存的機(jī)器。
在AIMO2中,為了讓模型能在Kaggle平臺(tái)上運(yùn)行,賽事對(duì)參賽隊(duì)伍施加了資源限制:
每支隊(duì)伍提供4塊L4 GPU,總計(jì)96 GB 顯存(VRAM)。
在本次評(píng)測(cè)中,組委會(huì)移除了各隊(duì)為適配Kaggle資源限制,讓模型得以在50道公開(kāi)榜題目上充分發(fā)揮其全部能力。
最終結(jié)果如何?
· NemoSkills得分35/50,較其在Kaggle公開(kāi)榜的33/50有所提升;
· imagination-research也得到35/50,較其在Kaggle公開(kāi)榜的34/50提升。
開(kāi)源與閉源,差距再次縮小
不過(guò),在報(bào)告與比較分?jǐn)?shù)時(shí)需要謹(jǐn)慎。
AIMO2-combined的47/50分大致類似于一種「pass@2k+」類型的分?jǐn)?shù)(亦即「多樣本通過(guò)率」):
在每題2k+次嘗試中,只要至少有一次解答正確即可計(jì)為通過(guò),且不再進(jìn)行其他排序。
更一般地,常用的「pass@n」類型分?jǐn)?shù)指某個(gè)(固定黑箱的)模型被查詢n次,只要正確解包含在這n個(gè)輸出中,就據(jù)此報(bào)告該分?jǐn)?shù)(即使模型內(nèi)部還能運(yùn)行更多次)。
多次查詢之間不允許保留模型狀態(tài)。
當(dāng)然,2k+次提交對(duì)應(yīng)的模型并不相同;而嚴(yán)格講,pass@n要求底層是同一個(gè)模型,因此pass@2k+只是一個(gè)近似分?jǐn)?shù)。
o3-preview的低算力與中等算力分?jǐn)?shù),以及高算力版本的47/50,均屬于pass@1類型分?jǐn)?shù)。
在這三個(gè)算力級(jí)別中,o3-preview低算力版本未能解出的7道數(shù)學(xué)題包括:2道幾何、2道代數(shù)和3道組合。
盡管o3-preview表現(xiàn)非常強(qiáng),但有一道名為「RUNNER」(見(jiàn)下方圖表)的問(wèn)題尤為突出:
該題被NemoSkills解出,但o3-preview的低算力與中等算力版本未能解出,而在高算力版本中其正確答案僅排名第二。
![]()
相反,另一道題「EIGHTS」在高算力版本中以排名第一的答案被解出。
該題未被AIMO2前五名模型解出,卻被若干其他排名較低的AIMO2模型解出。
![]()
以上這些結(jié)果,皆具魯棒性。
原因在于:題目數(shù)量多且難度高,多數(shù)達(dá)到國(guó)家數(shù)學(xué)奧賽水平,少部分略易或略難,接近IMO難度級(jí)別。
對(duì)所有o3-preview版本的評(píng)測(cè),都在一個(gè)很短的時(shí)間窗口內(nèi)(數(shù)小時(shí))完成。
并且AIMO獲得了原始API輸出的訪問(wèn)權(quán)限,便于復(fù)核與分析。
這些結(jié)果代表了基于AI的推理,在極具挑戰(zhàn)性的領(lǐng)域邁出的一個(gè)里程碑式進(jìn)展。
順便提一句,AIMO Progress Prize 3(AIMO3)將于2025年秋季啟動(dòng)。
難度等級(jí)將再次提升,題目將以國(guó)際數(shù)學(xué)奧林匹克(IMO)水平為中心。關(guān)于時(shí)間安排、獎(jiǎng)金池以及改進(jìn)后的競(jìng)賽形式的完整細(xì)節(jié)將適時(shí)公布。
參考資料:
https://aimoprize.com/updates/2025-09-05-the-gap-is-shrinking
![]()



京公網(wǎng)安備 11011402013531號(hào)