亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當(dāng)前位置: 首頁 ? 資訊 ? 新科技 ? 正文

Gemini再攬金牌,力壓大學(xué)學(xué)霸,AI數(shù)學(xué)推理時代來了!

IP屬地 中國·北京 編輯:陸辰風(fēng) 新智元 時間:2025-08-09 18:19:04


新智元報道

編輯:元宇 KingHZ

Gemini奧數(shù)金牌,實至名歸!ETH Zurich博士在大學(xué)生國際數(shù)學(xué)競賽(IMC)中,測試了Gemini的三種模式,表現(xiàn)遠高于前8%的金牌門檻,遠超普通大學(xué)生。

大學(xué)生數(shù)學(xué)不如AI?

近日,在MathArena上,蘇黎世聯(lián)邦理工學(xué)院SRI實驗室博士生Jasper Dekoninck,啟動了一項新比賽:大學(xué)生國際數(shù)學(xué)競賽(IMC)。

剛剛,他公布了測試結(jié)果:


最終,LLM以高分勝出:語言模型在國際數(shù)學(xué)競賽中拔得頭籌。


Gemini遠超普通大學(xué)生水平

國際數(shù)學(xué)奧林匹克競賽(IMO)一直被研究人員視為AI系統(tǒng)數(shù)學(xué)推理能力的試金石。

前不久,在剛剛舉行的IMO競賽中,谷歌、OpenAI等相繼宣布其旗下LLM獲得IMO金牌級成績。

但由于獲獎的AI系統(tǒng)不透明以及在結(jié)果上可解釋性有限,這些金牌引發(fā)廣泛的質(zhì)疑和關(guān)注。

這次在MathArena上,首次評估了AI本科生數(shù)學(xué)競賽上的表現(xiàn),不僅僅為了證明AI的確有能力拿下IMO金牌,也為了驗證AI在高中級別競賽(如IMO)中的出色表現(xiàn)是否能夠轉(zhuǎn)化為在大學(xué)級別競賽中的成功。

此次測試一共評估了三個系統(tǒng):Gemini Deep Think IMO(IMO 2025金牌得主)、Gemini-2.5-Pro,以及Gemini-2.5-Pro Best-of-32基線

由于OpenAI獲得金牌的模型尚未發(fā)布,無法對其進行評估。

測試結(jié)果顯示,三個系統(tǒng)均獲得了極高的分?jǐn)?shù),遠超前8%的金牌門檻。

Gemini Deep Think和Gemini Agent均成功解決了所有問題,僅出現(xiàn)了少量小錯誤。這些錯誤通常是由于中間步驟的論證不完整或?qū)σ阎ɡ淼囊貌徽_造成的。

有趣的是,Gemini Best-of-32的表現(xiàn)遠比在IMO 2025上的表現(xiàn)好,僅在一道題目(P5)上犯了一個重大錯誤。這可能因為IMC的知識密集度更高,而大型AI模型往往在這種環(huán)境下表現(xiàn)出色。


這次得出了三大結(jié)論:

結(jié)論1:三個模型在IMC比賽中均獲得高分,Gemini Deep Think和Gemini Agent在所有問題中都給出了大部分正確的答案。它們的得分足以媲美人類優(yōu)等大學(xué)生參賽者。

結(jié)論2:綜合考慮證明質(zhì)量和清晰度,評委們對模型的排名如下:Gemini Deep Think>Gemini Agent>Gemini Best-of-32。

結(jié)論3:對結(jié)果進行的定性分析表明,Gemini Deep Think表現(xiàn)尤為出色,它給出的證明比其他模型清晰有趣得多。它有時會提出真正有趣的方法,而其他自主系統(tǒng)通常使用計算密集型的方法。

但由于這次評估是臨時增加的,所以評估規(guī)模稍小,每個模型在每個問題上只被評估一次,并且只有一個裁判。

IMC金牌,含金量如何?

國際大學(xué)生數(shù)學(xué)競賽IMC由英國倫敦大學(xué)學(xué)院主辦,保加利亞美國大學(xué)承辦,比賽將在2025年7月28日至8月3日于保加利亞的布拉戈耶夫格勒舉行。

本次競賽面向正在攻讀大學(xué)本科階段(1至4年級)的學(xué)生,參賽者年齡上限為23歲,特殊情況可酌情考慮。不設(shè)最低年齡限制。

試題涵蓋的領(lǐng)域包括代數(shù)、分析(實分析與復(fù)分析)、幾何與組合數(shù)學(xué)。比賽語言為英文。


IMC為期兩天,每天有5道題目,每題10分。


IMC競程:https://www.imc-math.org.uk/?year=2025&item=problems


這次采用了類似于下列2025年美國數(shù)學(xué)奧林匹克競賽評估的方法,只進行了少許調(diào)整。


論文鏈接:https://arxiv.org/abs/2503.21934

招募了兩名經(jīng)驗豐富的評委來評估模型提交的作品。

為了避免污染,評分工作在公布IMC 2025題目后立即開始。每位評委獨立為題目制定了評分標(biāo)準(zhǔn),并對匿名提交的作品進行了評分,滿分10分。

每個模型都使用相同的評分標(biāo)準(zhǔn)對全部問題進行了單獨評估。

解題時長決定著算力和大模型的使用成本。為此,Jasper Dekoninck回答了三個系統(tǒng)各自耗時情況。


由于時間有限,暫時不會對其他模型進行測評,但這些模型也很可能會在這場比賽中取得優(yōu)異成績。


新的評估對于真正測試模型的能力至關(guān)重要,有網(wǎng)友已經(jīng)迫不及待想要看到o3-Pro、Claude、Kimi K2在IMC考試中的表現(xiàn)。

結(jié)果分析

除了量化評分,研究人員還從模型的輸出中提取了許多定性的觀察與見解,幫助更全面地理解各模型在數(shù)學(xué)推理任務(wù)中的表現(xiàn)。

Gemini Deep Think:清晰性最強的證明者

對于數(shù)學(xué)推理而言,表達清晰不僅是評審者打分的依據(jù),也反映了模型對問題理解的深度。雖然Gemini Best-of-32的很多解答在技術(shù)上是正確的,但表達往往混亂,結(jié)構(gòu)不清,缺乏有效的邏輯組織,令人難以跟進其思路。

相比之下,Gemini Agent的邏輯性更好,但它的證明往往過于冗長、密集。這種啰嗦的風(fēng)格可能源于其「自驗證反饋機制」(self-verifying feedback loop),即模型傾向于對每一步驟過度解釋。

而Gemini Deep Think的表現(xiàn)則更為出色:它提供的證明語言簡練、結(jié)構(gòu)清晰、步驟合理,能夠針對每一步安排恰當(dāng)?shù)脑敿?xì)程度,使讀者更容易理解其推理過程。

Gemini Deep Think:展現(xiàn)了真正的原創(chuàng)思維

AI模型常見的做法是依賴「暴力運算」(bashing),即用繁復(fù)的代數(shù)操作代替數(shù)學(xué)洞察力。這一點在Gemini Agent和Gemini Best-of-32的解答中表現(xiàn)尤為明顯,特別是在第9題上。

而Gemini Deep Think的策略更加優(yōu)雅與創(chuàng)新:

第7題的證明也因其高度的簡潔性與美感而脫穎而出,遠勝其他模型; 在第9題中,它給出了一個比官方解更為簡潔且更具啟發(fā)性的思路; 在第10題中,它更是運用了更為高級的數(shù)學(xué)工具,對某個關(guān)鍵變量給出了更強的上界。不過,它也因為跳過了若干推理細(xì)節(jié),導(dǎo)致該題只得到了7分(滿分10分)。


官方相關(guān)解答:https://www.imc-math.org.uk/imc2025/imc2025-day2-solutions.pdf

高階數(shù)學(xué)知識的調(diào)動能力

模型在第5題上的表現(xiàn)也值得關(guān)注。該題涉及一個函數(shù)的不等式證明,雖然題干并未給出函數(shù)名稱,但實際上是著名的Landau函數(shù)。

令人驚喜的是,三個模型都能準(zhǔn)確識別出該函數(shù),并調(diào)用其已知性質(zhì)構(gòu)建完整證明,體現(xiàn)了它們在知識調(diào)用方面的深度與準(zhǔn)確性。


網(wǎng)友:o3只要10分鐘就能交卷

關(guān)于IMC題目的難易程度,Jasper Dekoninck認(rèn)為IMC的題目中最難的問題難度,與本科期間遇到的最難問題相當(dāng)。


網(wǎng)友Dmitry Rybin表現(xiàn)出了對測試的極大熱情:「太好了,本來我想把題目發(fā)給你,但你已經(jīng)做了」。


他還用o3測試了IMC2025年全部試題,大約十分鐘它就搞定了10道題目。



但網(wǎng)友Jasper Dekoninck認(rèn)為o3輸出的第5題答案似乎有些瑕疵,可能會被扣分。

與IMO相比,IMC題目通常需要更高級的數(shù)學(xué)知識和形式化技巧。然而,IMO往往更注重創(chuàng)造力和獨創(chuàng)性,尤其是在解題方法方面。

連Jasper Dekoninck自己也認(rèn)為IMC這些更側(cè)重知識的競賽題目似乎太簡單了。


網(wǎng)友Acer對此亦有同感。


他認(rèn)為目前IMO(國際數(shù)學(xué)奧林匹克競賽)、Putnam(普特南數(shù)學(xué)競賽,美國大學(xué)生數(shù)學(xué)競賽)、Miklós Schweitzer(施魏策爾·米克洛什數(shù)學(xué)競賽,匈牙利大學(xué)生本科數(shù)學(xué)競賽)的難度比較適合,但模型仍能解決其中大部分問題。

AI數(shù)學(xué)推理,已無法忽視

盡管IMC可能更多依賴數(shù)學(xué)知識,但AI日益強大的數(shù)學(xué)推理能力,已經(jīng)令人無法忽視。

比如,Dmitry Rybin提出了一個困難但已知的線性代數(shù)結(jié)果:

如果AB - BA的秩為1,那么矩陣A和B有共同的特征向量。

Deep Think 使用Shemesh定理給出了一個Dmitry Rybin以前從未見過的證明。


與數(shù)學(xué)關(guān)系密切的信息學(xué)競賽上,AI表現(xiàn)非常奪目。

在玻利維亞第37屆國際信息學(xué)奧林匹克競賽(IOI 2025),ryanbAI在與其他人類選手完全相同的條件下參賽,以第七名的成績位列總榜。


隨著更多AI在國際性數(shù)學(xué)競賽中脫穎而出,它們可以挑戰(zhàn)越來越難的數(shù)學(xué)競賽,甚至可以給出新的證明思路,這些均表明AI在數(shù)學(xué)推理能力上日益強大。

而且AI相比較人類,在計算和數(shù)據(jù)處理方面能力更強,也更不容易出錯誤。網(wǎng)友Jason Lee表示,找到AI的錯誤非常困難。


參考資料:

https://x.com/j_dekoninck/status/1952335201431937445

https://matharena.ai/imc/


免責(zé)聲明:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。

全站最新
免费看日本毛片| 人妻精品一区二区三区| 国产一区二区无遮挡| 中文字幕的久久| 色屁屁草草影院ccyy.com| 欧美中文字幕在线观看| 国产欧美日韩在线| 小早川怜子一区二区的演员表| 91免费国产网站| 欧美日韩性视频| 免费在线观看a级片| 亚洲一区二区中文| 日本福利一区二区| 中文字幕人妻精品一区| 国产精品入口芒果| 亚洲美女中文字幕| 国产.精品.日韩.另类.中文.在线.播放 | 最近中文字幕免费在线观看| 一区二区欧美日韩| 亚洲天堂av高清| 99亚偷拍自图区亚洲| 免费观看av网站| 国产精品高潮呻吟久久av野狼| 中日韩av电影| 亚洲精品77777| 男女啪啪免费观看| 欧美乱大交做爰xxxⅹ性3| 国产午夜精品福利| 日本少妇在线观看| 可以在线看黄的网站| 久久夜色撩人精品| 亚洲午夜私人影院| 夜夜嗨aⅴ一区二区三区| 五月婷婷丁香色| 日韩av电影手机在线观看| 亚洲va在线va天堂| 日本成人在线一区| 日韩一区二区中文字幕| 久久丫精品久久丫| 可以免费观看av毛片| 国外成人在线直播| 都市激情亚洲色图| 日本vs亚洲vs韩国一区三区二区 | 99久久99久久综合| 日韩在线视频免费播放| 国产一区二区在线观看免费视频| av在线不卡观看| 亚洲片av在线| 一区二区三区.www| 国产精品成人一区二区艾草| 日本午夜在线观看| 女同性恋一区二区| 日本一区二区三区在线播放| 欧美一二三在线| 久久亚洲私人国产精品va媚药| 国产一区二区三区在线观看| 黄色性生活一级片| 国产人妻互换一区二区| 国产精品免费视频xxxx| 日韩精品中文字幕有码专区| 亚洲国产精品尤物yw在线观看| 韩日av一区二区| 国产美女激情视频| 微拍福利一区二区| 美女在线视频一区二区| 色综合久久久久久久久五月| 久久久这里只有精品视频| 亚洲大胆人体视频| 精品日本高清在线播放| 欧美国产日韩在线观看| 亚洲精品97久久中文字幕| 五月天婷婷色综合| 国产1区2区在线| 亚洲国产精品毛片| 亚洲综合社区网| 日本精品视频在线| 超碰91人人草人人干| 久久黄色精品视频| 青草视频在线观看视频| 国产欧美在线播放| 欧美激情一级精品国产| 亚洲国产又黄又爽女人高潮的| 一本色道久久加勒比精品 | 亚洲综合123| 极品粉嫩国产18尤物| 艳色歌舞团一区二区三区| 国产精品免费一区二区三区都可以 | 自拍偷拍一区二区三区| 欧美一区二区影视| 久久亚洲精品欧美| 精品在线视频一区二区| 亚洲a在线观看| 久久久精品电影| 亚洲黄页视频免费观看| 91精品在线免费观看| 欧美午夜精品免费| 偷拍一区二区三区四区| 欧美国产日韩一二三区| 国产精品激情偷乱一区二区∴| 久久综合久久99| 国产毛片精品国产一区二区三区| 亚洲精品一区二区三区蜜桃| 姑娘第5集在线观看免费好剧| 天堂网一区二区| 国产主播在线播放| 伊人久久久久久久久久久久| 亚洲国产精一区二区三区性色| 91导航在线观看| 国产黄a三级三级| 国产精品二区在线| 欧美一级视频在线观看| 欧美一级淫片丝袜脚交| 欧美一区二区三区免费观看| 欧美专区中文字幕| 国产91免费看片| 国产精品爱久久久久久久| 91久久久在线| 韩国成人一区| 亚洲精品自在在线观看| 综合操久久久| 欧美色图另类小说| 欧美在线一区视频| 色国产在线视频| 蜜桃精品成人影片| 日韩av一区二区在线播放| 一级黄色片免费| 蜜臀av一区二区三区| 成人夜色视频网站在线观看| 国产乱人伦精品一区二区在线观看| 91美女在线观看| 91在线视频播放| 不卡的av网站| 国产一区二区三区直播精品电影| 热门国产精品亚洲第一区在线| 91九色极品视频| 国产精品入口日韩视频大尺度| 精品国产91亚洲一区二区三区www 精品国产_亚洲人成在线 | 国产精品三区www17con| 欧美一级艳片视频免费观看| 亚洲国产精品自拍| 精品福利一二区| 91av在线视频观看| 久久久久欧美| 男女男精品视频站| 欧美人禽zoz0强交| av资源免费看| 97精品久久久午夜一区二区三区 | 亚洲图片 自拍偷拍| 国产天堂av在线| 亚洲日本香蕉视频| 亚洲日本乱码在线观看| 8v天堂国产在线一区二区| 777国产偷窥盗摄精品视频| 欧美久久在线| 日本一级片在线播放| 精品国产免费观看| 国产综合成人久久大片91| 色欧美88888久久久久久影院| 亚洲午夜av电影| 91九色精品视频| a√天堂在线观看| 激情五月婷婷在线| 精品一区精品二区高清| 欧美视频二区36p| 国外视频精品毛片| 亚洲人成绝费网站色www| 91精品国产色综合久久不卡蜜臀 | 亚洲卡通动漫在线| 日韩在线视频免费观看高清中文| 国产成人女人毛片视频在线| 久久久久亚洲av片无码v| 日本少妇性生活| 97aⅴ精品视频一二三区| 欧美色成人综合| 91色视频在线导航| 91 在线视频观看| 97人妻精品一区二区三区动漫| 久久r这里只有精品| 亚洲乱码在线观看| 日本黄色一区二区| 国产欧美一区二区三区四区| 国内自拍偷拍视频| 日本午夜精品视频在线观看| 欧美日韩国产首页| 国产欧美丝袜| 看黄色录像一级片| 久久看人人爽人人| 不卡伊人av在线播放| www.国产在线视频| www.国产高清| 一区二区三区不卡视频| 热99久久精品| 大肉大捧一进一出好爽视频| 国产aⅴ爽av久久久久成人| 欧美性猛交xxxx富婆弯腰| 欧美日韩欧美一区二区| 91精品国产91久久久久福利| 肉色超薄丝袜脚交| 久久aⅴ国产欧美74aaa| 欧美日本国产视频| 亚洲一卡二卡三卡| 亚洲在线免费观看视频| 精品视频一区二区三区免费| 日韩精品久久久毛片一区二区| 亚洲激情视频一区| 中文字幕亚洲视频| 久久久女人电视剧免费播放下载 | 久久人91精品久久久久久不卡 | 欧美一区二区播放| 亚洲 自拍 另类小说综合图区 | 一区二区视频在线免费| 国产乱淫a∨片免费观看| 精品欧美一区二区三区| 蜜桃传媒视频麻豆第一区免费观看 | 91精品欧美福利在线观看| 欧美久久久久久久| 91麻豆成人精品国产| 亚洲国产高清高潮精品美女| 日韩中文字幕免费在线| 国产精品伊人色| 欧美亚洲激情视频| 性色av蜜臀av浪潮av老女人| 全部免费毛片在线播放一个| 亚洲国产日韩欧美在线图片 | 亚洲丁香婷深爱综合| 两女双腿交缠激烈磨豆腐| 欧美极品少妇xxxxⅹ高跟鞋| 日本在线观看天堂男亚洲 | 久久精品视频在线| 制服丝袜第一页在线观看| 中文字幕成人av| 国产一区二区三区高清| 欧美啪啪免费视频| 999精品国产| 日韩在线视频免费观看| 大地资源二中文在线影视观看| 亚洲一区二区精品3399| 亚洲 日韩 国产第一区| 日韩精品一区第一页| 国产91av在线| 欧美一区二区三区不卡视频| 欧美一区二区在线观看| 亚洲精品国产久| 亚洲精品国产视频| 四虎4hu永久免费入口| 国产91精品免费| 明星裸体视频一区二区| 久久精品女人天堂| 成人精品视频99在线观看免费| 亚洲精品视频在线观看免费视频| 日韩av一二三| 欧美人成在线视频| 国产大片中文字幕在线观看| 日韩精品一区国产麻豆| 丰满人妻一区二区三区免费视频棣| 精品久久久久久中文字幕一区奶水| 日本精品一区在线观看| 99久久国产综合精品麻豆| 欧美黄色直播| 欧美成人aaa片一区国产精品| 国产丝袜一区视频在线观看| 在线观看日本黄色| 欧美成人国产一区二区| 美国黑人一级大黄| 中文字幕久久午夜不卡| 欧美成人亚洲成人| 综合久久中文字幕| 国产精品久久网| 手机av免费在线观看| 99理论电影网| 成人三级伦理片| www污在线观看| 国产精品国产精品国产专区不蜜 | 精品国产一区二区三区久久影院 | 亚洲自拍欧美精品| 在线观看免费视频高清游戏推荐 | 丁香花五月激情| 蜜臀av性久久久久蜜臀aⅴ| 国模吧一区二区三区| 国产人妻精品一区二区三| 国产精品视频中文字幕91| 美国三级日本三级久久99| 日韩wuma| 亚洲精品老司机| 先锋资源av在线| 亚洲一区第一页| 国产精品久久久久久久成人午夜| 国产欧美一区二区白浆黑人| 高清久久久久久| 欧美激情视频一区二区三区不卡| 中文字幕在线观看视频免费| 国产色视频一区| 99精品欧美一区二区三区小说| 色狠狠久久av五月综合|| 亚洲精品日韩综合观看成人91| 亚洲激情 欧美| 久久久精品国产网站| 亚洲精品久久久久久动漫器材一区| 成人免费在线视频网站| 97se亚洲国产综合自在线| www.xxx亚洲| 亚洲毛片在线观看| 免费av一级片| 亚洲爆乳无码精品aaa片蜜桃| 欧美综合色免费| 日本污视频在线观看| 成人在线一区二区| 国产精品久久久久婷婷二区次| 亚洲成a人无码| 久久久999成人| 天天色天天操天天射| 人妻少妇精品无码专区二区| 天天插天天操天天干| 国产精品10p综合二区| 亚洲一区二区美女| 久久久久久激情| 精品91免费| 91成人免费在线| 91久久国语露脸精品国产高跟| 超碰成人在线免费观看| 欧美性猛交xxxxxxxx| 国产理论视频在线观看| 亚洲a∨一区二区三区| 欧美一区二区视频观看视频| 国产激情视频在线播放 | 在线不卡的av| 午夜一区在线观看| 校园春色 亚洲色图| 九色精品免费永久在线| 国产成人午夜视频| 国产精品jizz| 国产91aaa| 欧美精品久久99久久在免费线| 免费黄色特级片| 久久久精品视频在线观看| 91亚洲国产成人精品一区二三| 国产免费嫩草影院| 日韩高清三级| 亚洲新声在线观看| 91在线看国产| 免费无码毛片一区二区app| 亚洲图片在线观看| 中国日韩欧美久久久久久久久| 久久99精品久久久久久| 免费成年人高清视频| 欧美精品九九久久| 亚洲欧美日韩国产成人精品影院| 亚洲成人av网址| 免费视频爱爱太爽了| 美女精品在线 | 亚洲三级电影网站| 亚洲天堂avav| 亚洲a级黄色片| 国产精品电影在线观看| 精品动漫一区二区三区| 亚洲 国产 欧美 日韩| 国产欧美激情视频| 国产精品我不卡| 国产亚洲精品91在线| www国产成人| 一区二区乱子伦在线播放| 91视频国产高清| 亚洲欧美精品一区二区| 国产精品久久久久久久裸模 | 国产伦精品一区二区三区视频青涩 | 狠狠热免费视频| 久久久久久久久久久成人| 亚洲国产va精品久久久不卡综合 | 激情文学亚洲色图| 国产精品视频26uuu| 亚洲精品国偷自产在线99热| 中文字幕1区2区| 国产伊人精品在线| 亚洲欧美日韩一区二区在线 | 久久精品免视看| 精品久久在线观看| 女~淫辱の触手3d动漫| 少妇高潮大叫好爽喷水| 国产精品日韩av| 亚洲天堂男人天堂女人天堂| 午夜影院在线观看欧美| 成人综合在线观看| 性欧美8khd高清极品| 亚洲精品卡一卡二| 亚洲一级av无码毛片精品| 成人h在线播放| 欧美一区二区三区视频免费播放 | 久久伊人一区二区| 欧美极品少妇xxxxⅹ喷水| 欧美mv日韩mv| 黑人巨大精品欧美一区二区三区 | 91国在线视频| 四虎永久免费地址| 色姑娘综合天天| 日韩专区第三页| 色七七影院综合| 久久久www成人免费毛片麻豆| 免费观看黄色一级视频| 国产九色在线播放九色| 亚洲网中文字幕| 黑人中文字幕一区二区三区| 亚洲高清一二三区| 亚洲少妇屁股交4| 91中文字幕在线视频| 欧美色图色综合| 91av国产在线| 欧美视频在线看| 久久99精品视频| 在线观看一二三区| 日韩精品电影一区二区三区|