編輯:張倩
讓 OpenAI 拿到 IMO 金牌的模型,背后居然只有三個核心開發者?這是 OpenAI IMO 團隊最近接受媒體采訪披露的信息。
這三個人分別是:項目負責人 Alexander Wei、研究工程師 Sheryl Hsu 和高級研究科學家 Noam Brown。其中,Sheryl Hsu 直到今年 3 月才入職。

他們還透露,這個項目是用兩三個月的時間突擊趕出來的,結果令所有人都很意外。
大型語言模型在 IMO 中拿到金牌被視為一個重要的里程碑,不僅意味著模型數學能力的增強,還體現了其在處理難以驗證任務的通用技術上的進步。
那么,這個模型背后有哪些值得關注的點?該團隊下一步有什么計劃?我們一起來看一下采訪內容。
視頻鏈接:https://www.youtube.com/watch?v=EEIPtofVe2Q
1、項目是什么時候啟動的?
贏得 IMO 金牌一直是 AI 領域,尤其是 OpenAI 內部,一個長期追求的目標,相關的討論最早可以追溯到 2021 年。
盡管相關的強化學習算法和底層思路已經醞釀了大約六個月,但真正為了這次突破而進行的集中攻關,實際上只在 IMO 競賽前的兩三個月才開始。
2、項目團隊有多大?
核心團隊僅由 Alex、Cheryl 和 Noam 三人組成, 其中 Alex 負責主要的技術開發。Alex 最初提出這項新技術時也曾面臨質疑,但隨著他展示出強有力的證據,尤其是在處理那些「難以驗證的任務」上取得了顯著的進步后,他的方案逐漸贏得了團隊和公司的支持。
3、模型的證明風格是怎樣的?
團隊坦誠地描述,AI 模型生成的數學證明在風格上非常獨特,甚至可以說是「atrocious」(糟糕的)或「creative」(有創意的)。這些證明充滿了機器的邏輯,對于人類來說很難讀懂。但為了透明起見,OpenAI 并沒有為人類的可讀性進行優化,而是將這些由 AI 生成的、最原始的證明直接發布在了 GitHub 上,供全世界查閱。
4、模型在「第六題」上失分,說明了什么?
IMO 的第三題或第六題是傳統上最困難的題。模型在面對第六題時,最終選擇「不作答」。但團隊并未將此視為失敗,反而認為這是一個非常積極的信號。這說明它清楚地知道自己能力的邊界,在無法解決問題時選擇了放棄,而不是像過去的 AI 模型那樣,會「一本正經地胡說八道」(hallucinating),編造一個錯誤的答案。如果模型選擇編造,人類要非常仔細地檢查才能發現。
Alex 分析說,像第六題這樣的組合數學問題對 AI 來說尤其困難,因為它們更抽象、維度更高,需要「信念的飛躍或洞察力的閃現」,而這正是當前 AI 的弱項。AI 更擅長通過大量、微小的、連續的步驟來解決問題。
5、我們離解決「千禧年大獎難題」還有多遠?
當被問及 AI 是否能在明年解決「千禧年大獎難題」時,Alex 明確表示,這些難題仍然「非常遙遠」。他通過一個量化的對比來闡述這個差距:AI 解決問題的能力從處理只需幾秒鐘的小學數學題(GSM8K),躍升到了能解決頂尖人類學生平均需要一個半小時的 IMO 難題 。然而,真正的研究級數學可能需要這些天才成長為研究員后,花費 1500 個小時才能取得突破 。而千禧年大獎難題的難度則更高,它們耗費了整個領域學者們一生的思考時間,但進展甚微 。因此,團隊一方面為已取得的進展感到非常興奮,另一方面也對未來的挑戰感到「謙卑」,因為從解決一個半小時的問題到攻克需要數萬甚至數十萬小時人類思考時間的難題,還有極其漫長的路要走 。
注:千禧年大獎難題是七條由美國的克雷數學研究所于 2000 年公布的數學難題,解題總獎金 700 萬美元。這些難題旨在呼應 1900 年德國數學家大衛?希爾伯特在巴黎提出的 23 個歷史性數學難題。而千禧年大獎難題的破解,極有可能為密碼學、航天、通訊等領域帶來突破性進展。迄今為止,在七條問題中,龐加萊猜想是唯一已解決的,而其它六道難題(包括黎曼猜想、P vs NP 問題、納維 - 斯托克斯方程、楊 - 米爾斯理論、霍奇猜想和 BSD 猜想)仍有待研究者探索。
6、讓模型思考更長時間存在哪些挑戰?
Noam 指出,當模型「思考」的時間變得非常長時(比如 1500 小時),評估(evaluation)本身就成了一個巨大的瓶頸。運行一個需要模型思考一個月的測試,就需要花費一個月的時間才能看到結果。這會極大地拖慢研究迭代的速度。目前,思考 1.5 小時還是可控的,但未來這將是必須解決的難題 。
7、multi-agents 系統在這個項目中扮演了什么角色?
據 Noam Brown 介紹,除了讓模型能長時間思考并處理難以驗證的任務外,項目還涉及「擴展并行計算」(scaling up parallel compute),而這其中就包含了多智能體的部分,不過他表示無法透露過多具體的技術細節,但這確實是他們用來擴展模型在測試時計算能力的一種方式。
緊接著,Noam 強調,在應用這些技術時,團隊非常優先考慮「通用性」(generality)。他將此與過去的項目做對比,例如他曾研究過的撲克 AI 以及和 Alex 共同參與過的《外交》游戲 AI(Cicero 項目)。雖然那些項目成果斐然,但它們都屬于耗費數年時間開發的、只能完成單一任務的「定制系統」 。在人工智能飛速發展的今天,花費大量時間構建這樣的專用系統已不是最佳選擇。因此,團隊在此次研究中有意識地優先采用了通用技術 。最終,無論是用于擴展思考時間、處理難驗證任務,還是用于并行計算的技術,全都是通用的,團隊計劃或已經將這些技術應用于其他系統,以全面提升模型的推理能力 。
8、為什么不使用 Lean(一種形式化證明工具)?
團隊解釋說,Lean 對于數學家來說是一個有價值的工具,但它有其局限性。OpenAI 的首要任務是發展「通用的推理能力」,而可以被自然語言方法處理的現實世界問題,遠比可以被嚴格形式化的要多。因此他們選擇優先發展自然語言推理。
不過,Noam Brown 也強調:「我不認為專用 AI 有什么問題」 。他認為,專用 AI 可以非常高效,并且在特定領域顯然能夠遠遠超越通用 AI 。通用 AI 與專用系統(如形式化驗證工具 Lean)的關系并非二選一,人類數學家也會發現并使用 Lean 這類專用工具來獲取價值。因此,他認為通用 AI 與更專注于特定領域的專用系統是兼容的,并且相信兩者的結合會因為互補而變得更強大 。
9、這個項目用到的基礎設施是什么樣的?
Cheryl 證實,這個項目是在與其他近期發布的 OpenAI 產品非常相似的基礎設施上構建的 。這再次印證了其方法的通用性,沒有任何東西是專門為 IMO「定制」的 。團隊的期望是,這些由 Alex 開發出的、關于處理不可驗證任務和擴展計算時間的技術,能夠被應用于推理的其他領域,從而持續改進 ChatGPT 等所有模型。
10、「提出問題」將成為 AI 面臨的新挑戰?
主持人提到,「提出有趣的問題」本身就是最難的事情 。團隊成員表示認同,并認為讓模型學會提出新穎的、有價值的問題(例如創造一個 IMO 級別的新題目),是繼解決問題之后,AI 需要克服的下一個巨大障礙 。
11、物理奧賽題是不是比數學更難?
Alex 表示,物理奧賽「絕對更難」,因為它包含了一個需要動手操作的「實驗部分」,這需要先解決機器人技術領域的難題 。
12、模型未來會開放給大家使用嗎?
團隊表示希望將其提供給數學家使用,但如何實現的具體細節仍在研究中。他們非常期待看到數學家們能用這個強大的新工具來挑戰哪些難題。
Noam 分享了一個持續了一年的故事。一位斯坦福大學的數學教授會定期發郵件,用一個非常難的問題來測試 OpenAI 的最新模型。雖然最新的 IMO 模型依然無法解決這個問題,但它首次明確地「認識到自己無法解決」,這被認為是一個重要的進步 。
© THE END





京公網安備 11011402013531號