Gemini再攬金牌，力壓大學(xué)學(xué)霸，AI數(shù)學(xué)推理時代來了！

IP屬地中國·北京 編輯：陸辰風(fēng) 新智元 時間：2025-08-09 18:19:04

新智元報道
編輯：元宇 KingHZ
Gemini奧數(shù)金牌，實至名歸！ETH Zurich博士在大學(xué)生國際數(shù)學(xué)競賽（IMC）中，測試了Gemini的三種模式，表現(xiàn)遠高于前8%的金牌門檻，遠超普通大學(xué)生。
大學(xué)生數(shù)學(xué)不如AI？
近日，在MathArena上，蘇黎世聯(lián)邦理工學(xué)院SRI實驗室博士生Jasper Dekoninck，啟動了一項新比賽：大學(xué)生國際數(shù)學(xué)競賽（IMC）。
剛剛，他公布了測試結(jié)果：

最終，LLM以高分勝出：語言模型在國際數(shù)學(xué)競賽中拔得頭籌。

Gemini遠超普通大學(xué)生水平
國際數(shù)學(xué)奧林匹克競賽（IMO）一直被研究人員視為AI系統(tǒng)數(shù)學(xué)推理能力的試金石。
前不久，在剛剛舉行的IMO競賽中，谷歌、OpenAI等相繼宣布其旗下LLM獲得IMO金牌級成績。
但由于獲獎的AI系統(tǒng)不透明以及在結(jié)果上可解釋性有限，這些金牌引發(fā)廣泛的質(zhì)疑和關(guān)注。
這次在MathArena上，首次評估了AI本科生數(shù)學(xué)競賽上的表現(xiàn)，不僅僅為了證明AI的確有能力拿下IMO金牌，也為了驗證AI在高中級別競賽（如IMO）中的出色表現(xiàn)是否能夠轉(zhuǎn)化為在大學(xué)級別競賽中的成功。
此次測試一共評估了三個系統(tǒng)：Gemini Deep Think IMO（IMO 2025金牌得主）、Gemini-2.5-Pro，以及Gemini-2.5-Pro Best-of-32基線。
由于OpenAI獲得金牌的模型尚未發(fā)布，無法對其進行評估。
測試結(jié)果顯示，三個系統(tǒng)均獲得了極高的分?jǐn)?shù)，遠超前8%的金牌門檻。
Gemini Deep Think和Gemini Agent均成功解決了所有問題，僅出現(xiàn)了少量小錯誤。這些錯誤通常是由于中間步驟的論證不完整或?qū)σ阎ɡ淼囊貌徽_造成的。
有趣的是，Gemini Best-of-32的表現(xiàn)遠比在IMO 2025上的表現(xiàn)好，僅在一道題目（P5）上犯了一個重大錯誤。這可能因為IMC的知識密集度更高，而大型AI模型往往在這種環(huán)境下表現(xiàn)出色。

這次得出了三大結(jié)論：
結(jié)論1：三個模型在IMC比賽中均獲得高分，Gemini Deep Think和Gemini Agent在所有問題中都給出了大部分正確的答案。它們的得分足以媲美人類優(yōu)等大學(xué)生參賽者。
結(jié)論2：綜合考慮證明質(zhì)量和清晰度，評委們對模型的排名如下：Gemini Deep Think>Gemini Agent>Gemini Best-of-32。
結(jié)論3：對結(jié)果進行的定性分析表明，Gemini Deep Think表現(xiàn)尤為出色，它給出的證明比其他模型清晰有趣得多。它有時會提出真正有趣的方法，而其他自主系統(tǒng)通常使用計算密集型的方法。
但由于這次評估是臨時增加的，所以評估規(guī)模稍小，每個模型在每個問題上只被評估一次，并且只有一個裁判。
IMC金牌，含金量如何？
國際大學(xué)生數(shù)學(xué)競賽IMC由英國倫敦大學(xué)學(xué)院主辦，保加利亞美國大學(xué)承辦，比賽將在2025年7月28日至8月3日于保加利亞的布拉戈耶夫格勒舉行。
本次競賽面向正在攻讀大學(xué)本科階段（1至4年級）的學(xué)生，參賽者年齡上限為23歲，特殊情況可酌情考慮。不設(shè)最低年齡限制。
試題涵蓋的領(lǐng)域包括代數(shù)、分析（實分析與復(fù)分析）、幾何與組合數(shù)學(xué)。比賽語言為英文。

IMC為期兩天，每天有5道題目，每題10分。

IMC競程:https://www.imc-math.org.uk/?year=2025&item=problems

這次采用了類似于下列2025年美國數(shù)學(xué)奧林匹克競賽評估的方法，只進行了少許調(diào)整。

論文鏈接：https://arxiv.org/abs/2503.21934
招募了兩名經(jīng)驗豐富的評委來評估模型提交的作品。
為了避免污染，評分工作在公布IMC 2025題目后立即開始。每位評委獨立為題目制定了評分標(biāo)準(zhǔn)，并對匿名提交的作品進行了評分，滿分10分。
每個模型都使用相同的評分標(biāo)準(zhǔn)對全部問題進行了單獨評估。
解題時長決定著算力和大模型的使用成本。為此，Jasper Dekoninck回答了三個系統(tǒng)各自耗時情況。

由于時間有限，暫時不會對其他模型進行測評，但這些模型也很可能會在這場比賽中取得優(yōu)異成績。

新的評估對于真正測試模型的能力至關(guān)重要，有網(wǎng)友已經(jīng)迫不及待想要看到o3-Pro、Claude、Kimi K2在IMC考試中的表現(xiàn)。
結(jié)果分析
除了量化評分，研究人員還從模型的輸出中提取了許多定性的觀察與見解，幫助更全面地理解各模型在數(shù)學(xué)推理任務(wù)中的表現(xiàn)。
Gemini Deep Think：清晰性最強的證明者
對于數(shù)學(xué)推理而言，表達清晰不僅是評審者打分的依據(jù)，也反映了模型對問題理解的深度。雖然Gemini Best-of-32的很多解答在技術(shù)上是正確的，但表達往往混亂，結(jié)構(gòu)不清，缺乏有效的邏輯組織，令人難以跟進其思路。
相比之下，Gemini Agent的邏輯性更好，但它的證明往往過于冗長、密集。這種啰嗦的風(fēng)格可能源于其「自驗證反饋機制」（self-verifying feedback loop），即模型傾向于對每一步驟過度解釋。
而Gemini Deep Think的表現(xiàn)則更為出色：它提供的證明語言簡練、結(jié)構(gòu)清晰、步驟合理，能夠針對每一步安排恰當(dāng)?shù)脑敿?xì)程度，使讀者更容易理解其推理過程。
Gemini Deep Think：展現(xiàn)了真正的原創(chuàng)思維
AI模型常見的做法是依賴「暴力運算」（bashing），即用繁復(fù)的代數(shù)操作代替數(shù)學(xué)洞察力。這一點在Gemini Agent和Gemini Best-of-32的解答中表現(xiàn)尤為明顯，特別是在第9題上。
而Gemini Deep Think的策略更加優(yōu)雅與創(chuàng)新：
第7題的證明也因其高度的簡潔性與美感而脫穎而出，遠勝其他模型；在第9題中，它給出了一個比官方解更為簡潔且更具啟發(fā)性的思路；在第10題中，它更是運用了更為高級的數(shù)學(xué)工具，對某個關(guān)鍵變量給出了更強的上界。不過，它也因為跳過了若干推理細(xì)節(jié)，導(dǎo)致該題只得到了7分（滿分10分）。

官方相關(guān)解答：https://www.imc-math.org.uk/imc2025/imc2025-day2-solutions.pdf
高階數(shù)學(xué)知識的調(diào)動能力
模型在第5題上的表現(xiàn)也值得關(guān)注。該題涉及一個函數(shù)的不等式證明，雖然題干并未給出函數(shù)名稱，但實際上是著名的Landau函數(shù)。
令人驚喜的是，三個模型都能準(zhǔn)確識別出該函數(shù)，并調(diào)用其已知性質(zhì)構(gòu)建完整證明，體現(xiàn)了它們在知識調(diào)用方面的深度與準(zhǔn)確性。

網(wǎng)友：o3只要10分鐘就能交卷
關(guān)于IMC題目的難易程度，Jasper Dekoninck認(rèn)為IMC的題目中最難的問題難度，與本科期間遇到的最難問題相當(dāng)。

網(wǎng)友Dmitry Rybin表現(xiàn)出了對測試的極大熱情：「太好了，本來我想把題目發(fā)給你，但你已經(jīng)做了」。

他還用o3測試了IMC2025年全部試題，大約十分鐘它就搞定了10道題目。

但網(wǎng)友Jasper Dekoninck認(rèn)為o3輸出的第5題答案似乎有些瑕疵，可能會被扣分。
與IMO相比，IMC題目通常需要更高級的數(shù)學(xué)知識和形式化技巧。然而，IMO往往更注重創(chuàng)造力和獨創(chuàng)性，尤其是在解題方法方面。
連Jasper Dekoninck自己也認(rèn)為IMC這些更側(cè)重知識的競賽題目似乎太簡單了。

網(wǎng)友Acer對此亦有同感。

他認(rèn)為目前IMO（國際數(shù)學(xué)奧林匹克競賽）、Putnam（普特南數(shù)學(xué)競賽，美國大學(xué)生數(shù)學(xué)競賽）、Miklós Schweitzer（施魏策爾·米克洛什數(shù)學(xué)競賽，匈牙利大學(xué)生本科數(shù)學(xué)競賽）的難度比較適合，但模型仍能解決其中大部分問題。
AI數(shù)學(xué)推理，已無法忽視
盡管IMC可能更多依賴數(shù)學(xué)知識，但AI日益強大的數(shù)學(xué)推理能力，已經(jīng)令人無法忽視。
比如，Dmitry Rybin提出了一個困難但已知的線性代數(shù)結(jié)果：
如果AB - BA的秩為1，那么矩陣A和B有共同的特征向量。
Deep Think 使用Shemesh定理給出了一個Dmitry Rybin以前從未見過的證明。

與數(shù)學(xué)關(guān)系密切的信息學(xué)競賽上，AI表現(xiàn)非常奪目。
在玻利維亞第37屆國際信息學(xué)奧林匹克競賽（IOI 2025），ryanbAI在與其他人類選手完全相同的條件下參賽，以第七名的成績位列總榜。

隨著更多AI在國際性數(shù)學(xué)競賽中脫穎而出，它們可以挑戰(zhàn)越來越難的數(shù)學(xué)競賽，甚至可以給出新的證明思路，這些均表明AI在數(shù)學(xué)推理能力上日益強大。
而且AI相比較人類，在計算和數(shù)據(jù)處理方面能力更強，也更不容易出錯誤。網(wǎng)友Jason Lee表示，找到AI的錯誤非常困難。

參考資料：
https://x.com/j_dekoninck/status/1952335201431937445
https://matharena.ai/imc/

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

消息稱某廠新機將全系搭載1216雙揚聲器等，或為榮耀WIN

閃電快訊｜摩爾線程GPU技術(shù)路線圖首次公開，展示全棧技術(shù)成果

香港創(chuàng)科局張曼莉最新發(fā)聲！

「真還傳」后，首次開講科技春晚，羅永浩要祭出什么大招？

字節(jié)跳動與手機廠商合作，AI手機的“鴻蒙智行”時代要來了？

消息稱蘋果為iPhone Fold嘗試UFG玻璃，技術(shù)難點待解

全站最新

消息稱某廠新機將全系搭載1216雙揚聲器等，或為榮耀WIN

閃電快訊｜摩爾線程GPU技術(shù)路線圖首次公開，展示全棧技術(shù)成果

香港創(chuàng)科局張曼莉最新發(fā)聲！

「真還傳」后，首次開講科技春晚，羅永浩要祭出什么大招？

熱門推薦

消息稱某廠新機將全系搭載1216雙揚聲器等，或為榮耀WIN

Altman直面1.4萬億美元質(zhì)疑：只要算力還短缺，OpenAI就必須繼續(xù)燒錢

閃電快訊｜摩爾線程GPU技術(shù)路線圖首次公開，展示全棧技術(shù)成果

奧爾特曼腦機公司分拆獨立，要用超聲波“聽”你的想法

谷歌仍是最大威脅！奧爾特曼坦言O(shè)penAI將常態(tài)化AI紅色警報

香港創(chuàng)科局張曼莉最新發(fā)聲！

「真還傳」后，首次開講科技春晚，羅永浩要祭出什么大招？

字節(jié)跳動與手機廠商合作，AI手機的“鴻蒙智行”時代要來了？

消息稱蘋果為iPhone Fold嘗試UFG玻璃，技術(shù)難點待解

QCY N20耳機開啟新品預(yù)約，129元享大動圈與50dB降噪

摩爾線程發(fā)布新一代GPU架構(gòu)，打造MUSA生態(tài)對標(biāo)英偉達CUDA

預(yù)售價9999元，摩爾線程發(fā)布AI算力筆記本

國產(chǎn)算力邁入“萬卡”時代：摩爾線程發(fā)布新一代GPU架構(gòu)，中科曙光發(fā)布萬卡超集群

全球首臺商用超臨界二氧化碳發(fā)電機組成功商運

ESG戰(zhàn)略升級：AI與綠色金融賦能從成本壓力到全球競爭力