OpenAI IMO金牌團(tuán)隊爆料：AI拒絕作答第六題

IP屬地中國·北京 編輯：顧青青機(jī)器之心Pro 時間：2025-08-04 16:20:46

機(jī)器之心報道
編輯：張倩
讓 OpenAI 拿到 IMO 金牌的模型，背后居然只有三個核心開發(fā)者？這是 OpenAI IMO 團(tuán)隊最近接受媒體采訪披露的信息。
這三個人分別是：項目負(fù)責(zé)人 Alexander Wei、研究工程師 Sheryl Hsu 和高級研究科學(xué)家 Noam Brown。其中，Sheryl Hsu 直到今年 3 月才入職。

他們還透露，這個項目是用兩三個月的時間突擊趕出來的，結(jié)果令所有人都很意外。
大型語言模型在 IMO 中拿到金牌被視為一個重要的里程碑，不僅意味著模型數(shù)學(xué)能力的增強(qiáng)，還體現(xiàn)了其在處理難以驗(yàn)證任務(wù)的通用技術(shù)上的進(jìn)步。
那么，這個模型背后有哪些值得關(guān)注的點(diǎn)？該團(tuán)隊下一步有什么計劃？我們一起來看一下采訪內(nèi)容。
視頻鏈接：https://www.youtube.com/watch?v=EEIPtofVe2Q
1、項目是什么時候啟動的？
贏得 IMO 金牌一直是 AI 領(lǐng)域，尤其是 OpenAI 內(nèi)部，一個長期追求的目標(biāo)，相關(guān)的討論最早可以追溯到 2021 年。
盡管相關(guān)的強(qiáng)化學(xué)習(xí)算法和底層思路已經(jīng)醞釀了大約六個月，但真正為了這次突破而進(jìn)行的集中攻關(guān)，實(shí)際上只在 IMO 競賽前的兩三個月才開始。
2、項目團(tuán)隊有多大？
核心團(tuán)隊僅由 Alex、Cheryl 和 Noam 三人組成，其中 Alex 負(fù)責(zé)主要的技術(shù)開發(fā)。Alex 最初提出這項新技術(shù)時也曾面臨質(zhì)疑，但隨著他展示出強(qiáng)有力的證據(jù)，尤其是在處理那些「難以驗(yàn)證的任務(wù)」上取得了顯著的進(jìn)步后，他的方案逐漸贏得了團(tuán)隊和公司的支持。
3、模型的證明風(fēng)格是怎樣的？
團(tuán)隊坦誠地描述，AI 模型生成的數(shù)學(xué)證明在風(fēng)格上非常獨(dú)特，甚至可以說是「atrocious」（糟糕的）或「creative」（有創(chuàng)意的）。這些證明充滿了機(jī)器的邏輯，對于人類來說很難讀懂。但為了透明起見，OpenAI 并沒有為人類的可讀性進(jìn)行優(yōu)化，而是將這些由 AI 生成的、最原始的證明直接發(fā)布在了 GitHub 上，供全世界查閱。
4、模型在「第六題」上失分，說明了什么？
IMO 的第三題或第六題是傳統(tǒng)上最困難的題。模型在面對第六題時，最終選擇「不作答」。但團(tuán)隊并未將此視為失敗，反而認(rèn)為這是一個非常積極的信號。這說明它清楚地知道自己能力的邊界，在無法解決問題時選擇了放棄，而不是像過去的 AI 模型那樣，會「一本正經(jīng)地胡說八道」（hallucinating），編造一個錯誤的答案。如果模型選擇編造，人類要非常仔細(xì)地檢查才能發(fā)現(xiàn)。
Alex 分析說，像第六題這樣的組合數(shù)學(xué)問題對 AI 來說尤其困難，因?yàn)樗鼈兏橄蟆⒕S度更高，需要「信念的飛躍或洞察力的閃現(xiàn)」，而這正是當(dāng)前 AI 的弱項。AI 更擅長通過大量、微小的、連續(xù)的步驟來解決問題。
5、我們離解決「千禧年大獎難題」還有多遠(yuǎn)？
當(dāng)被問及 AI 是否能在明年解決「千禧年大獎難題」時，Alex 明確表示，這些難題仍然「非常遙遠(yuǎn)」。他通過一個量化的對比來闡述這個差距：AI 解決問題的能力從處理只需幾秒鐘的小學(xué)數(shù)學(xué)題（GSM8K），躍升到了能解決頂尖人類學(xué)生平均需要一個半小時的 IMO 難題。然而，真正的研究級數(shù)學(xué)可能需要這些天才成長為研究員后，花費(fèi) 1500 個小時才能取得突破。而千禧年大獎難題的難度則更高，它們耗費(fèi)了整個領(lǐng)域?qū)W者們一生的思考時間，但進(jìn)展甚微。因此，團(tuán)隊一方面為已取得的進(jìn)展感到非常興奮，另一方面也對未來的挑戰(zhàn)感到「謙卑」，因?yàn)閺慕鉀Q一個半小時的問題到攻克需要數(shù)萬甚至數(shù)十萬小時人類思考時間的難題，還有極其漫長的路要走。
注：千禧年大獎難題是七條由美國的克雷數(shù)學(xué)研究所于 2000 年公布的數(shù)學(xué)難題，解題總獎金 700 萬美元。這些難題旨在呼應(yīng) 1900 年德國數(shù)學(xué)家大衛(wèi)?希爾伯特在巴黎提出的 23 個歷史性數(shù)學(xué)難題。而千禧年大獎難題的破解，極有可能為密碼學(xué)、航天、通訊等領(lǐng)域帶來突破性進(jìn)展。迄今為止，在七條問題中，龐加萊猜想是唯一已解決的，而其它六道難題（包括黎曼猜想、P vs NP 問題、納維 - 斯托克斯方程、楊 - 米爾斯理論、霍奇猜想和 BSD 猜想）仍有待研究者探索。
6、讓模型思考更長時間存在哪些挑戰(zhàn)？
Noam 指出，當(dāng)模型「思考」的時間變得非常長時（比如 1500 小時），評估（evaluation）本身就成了一個巨大的瓶頸。運(yùn)行一個需要模型思考一個月的測試，就需要花費(fèi)一個月的時間才能看到結(jié)果。這會極大地拖慢研究迭代的速度。目前，思考 1.5 小時還是可控的，但未來這將是必須解決的難題。
7、multi-agents 系統(tǒng)在這個項目中扮演了什么角色？
據(jù) Noam Brown 介紹，除了讓模型能長時間思考并處理難以驗(yàn)證的任務(wù)外，項目還涉及「擴(kuò)展并行計算」（scaling up parallel compute），而這其中就包含了多智能體的部分，不過他表示無法透露過多具體的技術(shù)細(xì)節(jié)，但這確實(shí)是他們用來擴(kuò)展模型在測試時計算能力的一種方式。
緊接著，Noam 強(qiáng)調(diào)，在應(yīng)用這些技術(shù)時，團(tuán)隊非常優(yōu)先考慮「通用性」（generality）。他將此與過去的項目做對比，例如他曾研究過的撲克 AI 以及和 Alex 共同參與過的《外交》游戲 AI（Cicero 項目）。雖然那些項目成果斐然，但它們都屬于耗費(fèi)數(shù)年時間開發(fā)的、只能完成單一任務(wù)的「定制系統(tǒng)」。在人工智能飛速發(fā)展的今天，花費(fèi)大量時間構(gòu)建這樣的專用系統(tǒng)已不是最佳選擇。因此，團(tuán)隊在此次研究中有意識地優(yōu)先采用了通用技術(shù) 。最終，無論是用于擴(kuò)展思考時間、處理難驗(yàn)證任務(wù)，還是用于并行計算的技術(shù)，全都是通用的，團(tuán)隊計劃或已經(jīng)將這些技術(shù)應(yīng)用于其他系統(tǒng)，以全面提升模型的推理能力。
8、為什么不使用 Lean（一種形式化證明工具）？
團(tuán)隊解釋說，Lean 對于數(shù)學(xué)家來說是一個有價值的工具，但它有其局限性。OpenAI 的首要任務(wù)是發(fā)展「通用的推理能力」，而可以被自然語言方法處理的現(xiàn)實(shí)世界問題，遠(yuǎn)比可以被嚴(yán)格形式化的要多。因此他們選擇優(yōu)先發(fā)展自然語言推理。
不過，Noam Brown 也強(qiáng)調(diào)：「我不認(rèn)為專用 AI 有什么問題」。他認(rèn)為，專用 AI 可以非常高效，并且在特定領(lǐng)域顯然能夠遠(yuǎn)遠(yuǎn)超越通用 AI 。通用 AI 與專用系統(tǒng)（如形式化驗(yàn)證工具 Lean）的關(guān)系并非二選一，人類數(shù)學(xué)家也會發(fā)現(xiàn)并使用 Lean 這類專用工具來獲取價值。因此，他認(rèn)為通用 AI 與更專注于特定領(lǐng)域的專用系統(tǒng)是兼容的，并且相信兩者的結(jié)合會因?yàn)榛パa(bǔ)而變得更強(qiáng)大。
9、這個項目用到的基礎(chǔ)設(shè)施是什么樣的？
Cheryl 證實(shí)，這個項目是在與其他近期發(fā)布的 OpenAI 產(chǎn)品非常相似的基礎(chǔ)設(shè)施上構(gòu)建的。這再次印證了其方法的通用性，沒有任何東西是專門為 IMO「定制」的。團(tuán)隊的期望是，這些由 Alex 開發(fā)出的、關(guān)于處理不可驗(yàn)證任務(wù)和擴(kuò)展計算時間的技術(shù)，能夠被應(yīng)用于推理的其他領(lǐng)域，從而持續(xù)改進(jìn) ChatGPT 等所有模型。
10、「提出問題」將成為 AI 面臨的新挑戰(zhàn)？
主持人提到，「提出有趣的問題」本身就是最難的事情。團(tuán)隊成員表示認(rèn)同，并認(rèn)為讓模型學(xué)會提出新穎的、有價值的問題（例如創(chuàng)造一個 IMO 級別的新題目），是繼解決問題之后，AI 需要克服的下一個巨大障礙。
11、物理奧賽題是不是比數(shù)學(xué)更難？
Alex 表示，物理奧賽「絕對更難」，因?yàn)樗艘粋€需要動手操作的「實(shí)驗(yàn)部分」，這需要先解決機(jī)器人技術(shù)領(lǐng)域的難題。
12、模型未來會開放給大家使用嗎？
團(tuán)隊表示希望將其提供給數(shù)學(xué)家使用，但如何實(shí)現(xiàn)的具體細(xì)節(jié)仍在研究中。他們非常期待看到數(shù)學(xué)家們能用這個強(qiáng)大的新工具來挑戰(zhàn)哪些難題。
Noam 分享了一個持續(xù)了一年的故事。一位斯坦福大學(xué)的數(shù)學(xué)教授會定期發(fā)郵件，用一個非常難的問題來測試 OpenAI 的最新模型。雖然最新的 IMO 模型依然無法解決這個問題，但它首次明確地「認(rèn)識到自己無法解決」，這被認(rèn)為是一個重要的進(jìn)步。

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

2025年流星雨迎來謝幕演出小熊座流星雨22日極大

鴻蒙正奔騰！解碼中國自主操作系統(tǒng)的生態(tài)成熟好用的極限突圍

我國成功發(fā)射通信技術(shù)試驗(yàn)衛(wèi)星二十三號

寶馬3系全球產(chǎn)量突破1800萬輛，50年傳奇仍在繼續(xù)

給AI一雙眼睛：XR眼鏡正在重塑下一代智能終端

摩爾線程技術(shù)路線圖全面公開！刷新國產(chǎn)GPU推理天花板，新架構(gòu)能效飆10倍

全站最新

2025年流星雨迎來謝幕演出小熊座流星雨22日極大

鴻蒙正奔騰！解碼中國自主操作系統(tǒng)的生態(tài)成熟好用的極限突圍

我國成功發(fā)射通信技術(shù)試驗(yàn)衛(wèi)星二十三號

寶馬3系全球產(chǎn)量突破1800萬輛，50年傳奇仍在繼續(xù)

熱門推薦

上饒農(nóng)商行被罰240萬，上饒銀行被罰170萬

2025年流星雨迎來謝幕演出小熊座流星雨22日極大

雷軍轉(zhuǎn)發(fā)！小米汽車又獲獎再引發(fā)輿論安全追問

鴻蒙正奔騰！解碼中國自主操作系統(tǒng)的生態(tài)成熟好用的極限突圍

我國成功發(fā)射通信技術(shù)試驗(yàn)衛(wèi)星二十三號

寶馬3系全球產(chǎn)量突破1800萬輛，50年傳奇仍在繼續(xù)

降息，突發(fā)！集體拉升，近8萬人爆倉！

給AI一雙眼睛：XR眼鏡正在重塑下一代智能終端

摩爾線程技術(shù)路線圖全面公開！刷新國產(chǎn)GPU推理天花板，新架構(gòu)能效飆10倍

中科大造出首個紫外光譜成像芯片，成本有望直降99%

將RNA的自毀密碼寫入塑料：科學(xué)家實(shí)現(xiàn)高分子材料的可編程降解

摩爾線程重磅發(fā)布：新一代GPU架構(gòu)“花港”能效提升10倍，系列芯片明年量產(chǎn)上市，推出AI算力筆記本

長安汽車獲得首塊L3級自動駕駛專用正式號牌

供應(yīng)鏈金融助力發(fā)展！2025大宗商品國際化發(fā)展大會平行活動舉行

中國網(wǎng)絡(luò)空間安全協(xié)會盧衛(wèi)：AI治理應(yīng)分類，嚴(yán)管高風(fēng)險場景