機(jī)器之心報道
編輯:張倩
讓 OpenAI 拿到 IMO 金牌的模型,背后居然只有三個核心開發(fā)者?這是 OpenAI IMO 團(tuán)隊最近接受媒體采訪披露的信息。
這三個人分別是:項目負(fù)責(zé)人 Alexander Wei、研究工程師 Sheryl Hsu 和高級研究科學(xué)家 Noam Brown。其中,Sheryl Hsu 直到今年 3 月才入職。
![]()
他們還透露,這個項目是用兩三個月的時間突擊趕出來的,結(jié)果令所有人都很意外。
大型語言模型在 IMO 中拿到金牌被視為一個重要的里程碑,不僅意味著模型數(shù)學(xué)能力的增強(qiáng),還體現(xiàn)了其在處理難以驗(yàn)證任務(wù)的通用技術(shù)上的進(jìn)步。
那么,這個模型背后有哪些值得關(guān)注的點(diǎn)?該團(tuán)隊下一步有什么計劃?我們一起來看一下采訪內(nèi)容。
視頻鏈接:https://www.youtube.com/watch?v=EEIPtofVe2Q
1、項目是什么時候啟動的?
贏得 IMO 金牌一直是 AI 領(lǐng)域,尤其是 OpenAI 內(nèi)部,一個長期追求的目標(biāo),相關(guān)的討論最早可以追溯到 2021 年。
盡管相關(guān)的強(qiáng)化學(xué)習(xí)算法和底層思路已經(jīng)醞釀了大約六個月,但真正為了這次突破而進(jìn)行的集中攻關(guān),實(shí)際上只在 IMO 競賽前的兩三個月才開始。
2、項目團(tuán)隊有多大?
核心團(tuán)隊僅由 Alex、Cheryl 和 Noam 三人組成, 其中 Alex 負(fù)責(zé)主要的技術(shù)開發(fā)。Alex 最初提出這項新技術(shù)時也曾面臨質(zhì)疑,但隨著他展示出強(qiáng)有力的證據(jù),尤其是在處理那些「難以驗(yàn)證的任務(wù)」上取得了顯著的進(jìn)步后,他的方案逐漸贏得了團(tuán)隊和公司的支持。
3、模型的證明風(fēng)格是怎樣的?
團(tuán)隊坦誠地描述,AI 模型生成的數(shù)學(xué)證明在風(fēng)格上非常獨(dú)特,甚至可以說是「atrocious」(糟糕的)或「creative」(有創(chuàng)意的)。這些證明充滿了機(jī)器的邏輯,對于人類來說很難讀懂。但為了透明起見,OpenAI 并沒有為人類的可讀性進(jìn)行優(yōu)化,而是將這些由 AI 生成的、最原始的證明直接發(fā)布在了 GitHub 上,供全世界查閱。
4、模型在「第六題」上失分,說明了什么?
IMO 的第三題或第六題是傳統(tǒng)上最困難的題。模型在面對第六題時,最終選擇「不作答」。但團(tuán)隊并未將此視為失敗,反而認(rèn)為這是一個非常積極的信號。這說明它清楚地知道自己能力的邊界,在無法解決問題時選擇了放棄,而不是像過去的 AI 模型那樣,會「一本正經(jīng)地胡說八道」(hallucinating),編造一個錯誤的答案。如果模型選擇編造,人類要非常仔細(xì)地檢查才能發(fā)現(xiàn)。
Alex 分析說,像第六題這樣的組合數(shù)學(xué)問題對 AI 來說尤其困難,因?yàn)樗鼈兏橄蟆⒕S度更高,需要「信念的飛躍或洞察力的閃現(xiàn)」,而這正是當(dāng)前 AI 的弱項。AI 更擅長通過大量、微小的、連續(xù)的步驟來解決問題。
5、我們離解決「千禧年大獎難題」還有多遠(yuǎn)?
當(dāng)被問及 AI 是否能在明年解決「千禧年大獎難題」時,Alex 明確表示,這些難題仍然「非常遙遠(yuǎn)」。他通過一個量化的對比來闡述這個差距:AI 解決問題的能力從處理只需幾秒鐘的小學(xué)數(shù)學(xué)題(GSM8K),躍升到了能解決頂尖人類學(xué)生平均需要一個半小時的 IMO 難題 。然而,真正的研究級數(shù)學(xué)可能需要這些天才成長為研究員后,花費(fèi) 1500 個小時才能取得突破 。而千禧年大獎難題的難度則更高,它們耗費(fèi)了整個領(lǐng)域?qū)W者們一生的思考時間,但進(jìn)展甚微 。因此,團(tuán)隊一方面為已取得的進(jìn)展感到非常興奮,另一方面也對未來的挑戰(zhàn)感到「謙卑」,因?yàn)閺慕鉀Q一個半小時的問題到攻克需要數(shù)萬甚至數(shù)十萬小時人類思考時間的難題,還有極其漫長的路要走 。
注:千禧年大獎難題是七條由美國的克雷數(shù)學(xué)研究所于 2000 年公布的數(shù)學(xué)難題,解題總獎金 700 萬美元。這些難題旨在呼應(yīng) 1900 年德國數(shù)學(xué)家大衛(wèi)?希爾伯特在巴黎提出的 23 個歷史性數(shù)學(xué)難題。而千禧年大獎難題的破解,極有可能為密碼學(xué)、航天、通訊等領(lǐng)域帶來突破性進(jìn)展。迄今為止,在七條問題中,龐加萊猜想是唯一已解決的,而其它六道難題(包括黎曼猜想、P vs NP 問題、納維 - 斯托克斯方程、楊 - 米爾斯理論、霍奇猜想和 BSD 猜想)仍有待研究者探索。
6、讓模型思考更長時間存在哪些挑戰(zhàn)?
Noam 指出,當(dāng)模型「思考」的時間變得非常長時(比如 1500 小時),評估(evaluation)本身就成了一個巨大的瓶頸。運(yùn)行一個需要模型思考一個月的測試,就需要花費(fèi)一個月的時間才能看到結(jié)果。這會極大地拖慢研究迭代的速度。目前,思考 1.5 小時還是可控的,但未來這將是必須解決的難題 。
7、multi-agents 系統(tǒng)在這個項目中扮演了什么角色?
據(jù) Noam Brown 介紹,除了讓模型能長時間思考并處理難以驗(yàn)證的任務(wù)外,項目還涉及「擴(kuò)展并行計算」(scaling up parallel compute),而這其中就包含了多智能體的部分,不過他表示無法透露過多具體的技術(shù)細(xì)節(jié),但這確實(shí)是他們用來擴(kuò)展模型在測試時計算能力的一種方式。
緊接著,Noam 強(qiáng)調(diào),在應(yīng)用這些技術(shù)時,團(tuán)隊非常優(yōu)先考慮「通用性」(generality)。他將此與過去的項目做對比,例如他曾研究過的撲克 AI 以及和 Alex 共同參與過的《外交》游戲 AI(Cicero 項目)。雖然那些項目成果斐然,但它們都屬于耗費(fèi)數(shù)年時間開發(fā)的、只能完成單一任務(wù)的「定制系統(tǒng)」 。在人工智能飛速發(fā)展的今天,花費(fèi)大量時間構(gòu)建這樣的專用系統(tǒng)已不是最佳選擇。因此,團(tuán)隊在此次研究中有意識地優(yōu)先采用了通用技術(shù) 。最終,無論是用于擴(kuò)展思考時間、處理難驗(yàn)證任務(wù),還是用于并行計算的技術(shù),全都是通用的,團(tuán)隊計劃或已經(jīng)將這些技術(shù)應(yīng)用于其他系統(tǒng),以全面提升模型的推理能力 。
8、為什么不使用 Lean(一種形式化證明工具)?
團(tuán)隊解釋說,Lean 對于數(shù)學(xué)家來說是一個有價值的工具,但它有其局限性。OpenAI 的首要任務(wù)是發(fā)展「通用的推理能力」,而可以被自然語言方法處理的現(xiàn)實(shí)世界問題,遠(yuǎn)比可以被嚴(yán)格形式化的要多。因此他們選擇優(yōu)先發(fā)展自然語言推理。
不過,Noam Brown 也強(qiáng)調(diào):「我不認(rèn)為專用 AI 有什么問題」 。他認(rèn)為,專用 AI 可以非常高效,并且在特定領(lǐng)域顯然能夠遠(yuǎn)遠(yuǎn)超越通用 AI 。通用 AI 與專用系統(tǒng)(如形式化驗(yàn)證工具 Lean)的關(guān)系并非二選一,人類數(shù)學(xué)家也會發(fā)現(xiàn)并使用 Lean 這類專用工具來獲取價值。因此,他認(rèn)為通用 AI 與更專注于特定領(lǐng)域的專用系統(tǒng)是兼容的,并且相信兩者的結(jié)合會因?yàn)榛パa(bǔ)而變得更強(qiáng)大 。
9、這個項目用到的基礎(chǔ)設(shè)施是什么樣的?
Cheryl 證實(shí),這個項目是在與其他近期發(fā)布的 OpenAI 產(chǎn)品非常相似的基礎(chǔ)設(shè)施上構(gòu)建的 。這再次印證了其方法的通用性,沒有任何東西是專門為 IMO「定制」的 。團(tuán)隊的期望是,這些由 Alex 開發(fā)出的、關(guān)于處理不可驗(yàn)證任務(wù)和擴(kuò)展計算時間的技術(shù),能夠被應(yīng)用于推理的其他領(lǐng)域,從而持續(xù)改進(jìn) ChatGPT 等所有模型。
10、「提出問題」將成為 AI 面臨的新挑戰(zhàn)?
主持人提到,「提出有趣的問題」本身就是最難的事情 。團(tuán)隊成員表示認(rèn)同,并認(rèn)為讓模型學(xué)會提出新穎的、有價值的問題(例如創(chuàng)造一個 IMO 級別的新題目),是繼解決問題之后,AI 需要克服的下一個巨大障礙 。
11、物理奧賽題是不是比數(shù)學(xué)更難?
Alex 表示,物理奧賽「絕對更難」,因?yàn)樗艘粋€需要動手操作的「實(shí)驗(yàn)部分」,這需要先解決機(jī)器人技術(shù)領(lǐng)域的難題 。
12、模型未來會開放給大家使用嗎?
團(tuán)隊表示希望將其提供給數(shù)學(xué)家使用,但如何實(shí)現(xiàn)的具體細(xì)節(jié)仍在研究中。他們非常期待看到數(shù)學(xué)家們能用這個強(qiáng)大的新工具來挑戰(zhàn)哪些難題。
Noam 分享了一個持續(xù)了一年的故事。一位斯坦福大學(xué)的數(shù)學(xué)教授會定期發(fā)郵件,用一個非常難的問題來測試 OpenAI 的最新模型。雖然最新的 IMO 模型依然無法解決這個問題,但它首次明確地「認(rèn)識到自己無法解決」,這被認(rèn)為是一個重要的進(jìn)步 。





京公網(wǎng)安備 11011402013531號