
報道
編輯:桃子 LRS
o1推理代表著推理的未來。菲爾茲獎得主陶哲軒在OpenAI最新訪談中表示,AI可以幫助從頭開始重新設計數(shù)學,以前所未有的規(guī)模處理數(shù)學問題,引領著一個全新的發(fā)現(xiàn)時代。
這周,OpenAI連更兩彈,又將o1模型推向全網最高潮。
就連奧特曼本人激動地預告,「迫不及待期待著下周的Day 3發(fā)布,感覺周一是那么地遙遠」。
首更第一天,放出的滿血版o1,相較于之前的o1-preview在數(shù)學、代碼能力上大幅提升,分別暴漲了27%。o1 Pro版數(shù)學性能更是飆升36%。

作為o1早期的訪問者,菲爾茲獎得主陶哲軒在OpenAI研究高級副總Mark Chen訪談中,暢聊了o1推理的數(shù)學未來。

OpenAI科學政策與合作負責人James Donovan主持這場采訪
這場對談以1小時的討論開始,然后是30分鐘的問答環(huán)節(jié),含金量就不用多說了。
9月o1-preview發(fā)布之后,大西洋月刊曾寫道,陶哲軒描述了一種前所未有的、由AI驅動的「工業(yè)級數(shù)學」。
至少在近期,AI并非獨立的創(chuàng)造性合作者,而更像是數(shù)學家假設和方法的潤滑劑。
簡言之,AI還僅僅是一種輔助的工具。
這種新的數(shù)學協(xié)作模式,可以揭開知識的神秘面紗,保持人類創(chuàng)造力的核心地位。

不知這次,天才數(shù)學家又是如何看待o1的?
一個全新的發(fā)現(xiàn)時代,正式開啟
陶哲軒稱,我認為這可能開啟一個新的發(fā)現(xiàn)時代。
當前,數(shù)學家們一次只能專注單個問題,花費數(shù)月時間解決完一個問題后,再去攻克下一個問題。
但有了這些工具,我們可能同時處理數(shù)百個,甚至數(shù)千個問題,同時開展完全不同類型的數(shù)學研究。一想到這種可能性,讓他異常地非常興奮。

Mark Chen肯定道,「太酷了。沒錯,在過去一年中,我們的主要關注點之一是推理能力。自GPT-4發(fā)布以來,團隊稍微轉移了研究的重點」。
GPT-4學習了很多世界知識,是一個非常智能的模型。但不得不承認地是,它在很多方面也表現(xiàn)得很愚蠢,會在簡單的謎題上犯錯,而且經常過度依賴先驗知識。
比如,如果它對某個謎題應該如何發(fā)展有某種先驗認知,它往往會陷入相同的模式匹配錯誤。
正是這些問題,向OpenAI團隊指出了模型在深度推理能力方面的不足。
因此,我們才看到了O系列模型的誕生。它們更像是System 2的慢思考者,而非System 1快思考者。在給出回應之前,模型需要花費一定時間去反思問題。
有傳言稱,在OpenAI總部有一個o1實例已經持續(xù)運行/思考了6個月之久.....
AI解耦數(shù)學任務,開啟全新協(xié)作模式
主持人James Donovan接著問道,「你所描述的『工業(yè)級數(shù)學』是一個怎樣的未來,包括數(shù)學合作的不同方式,能否具體展開描述下」?
陶哲軒稱,數(shù)學一直以來被認為是一項非常困難的活動。
原因之一是,它依賴于一個人,或者可能是少部分人來完成許多不同的任務,去實現(xiàn)一個復雜的目標。
如果你想在數(shù)學上取得進步,必須首先提出一個好問題,然后再找到解決它的工具。
再之后,還得學習各種文獻,嘗試一些論點,還得進行計算、檢查算法。
如果結果是正確的,你還必須以一種可解釋的方式寫下來等等,集合了不同的技能。
在其他行業(yè)中,我們有勞動分工,就像制作一部電影一樣,需要不同的人同時負責制片、剪輯、演出和融資等所有工作。
陶哲軒表示,在數(shù)學領域,直到最近我們才找到一種解耦這些任務的方法。

原則上。可以實現(xiàn)這樣的協(xié)作:一個人負責構想,一個人或AI負責計算,另一個工具負責寫論文等。這樣就不需要一個人在所有方面都成為專家。
我認為,很多人不敢從事數(shù)學研究,是因為他們看到了成為一個優(yōu)秀數(shù)學家所需要完成的所有事項清單。這確實令人望而生畏。
不過AI工具能夠讓一些重復性工作被解耦,變得更加模塊化。
一些任務由AI完成,一些由人類完成,有些任務可能需要預先協(xié)助,有時甚至可以由普通大眾來完成。
Mark Chen好奇問道,不考慮AI的情況下,迄今為止,最大規(guī)模的數(shù)學合作項目中,能夠同時合作的人數(shù)上限是多少?
陶哲軒表示,在真正的實踐中,限制大約是5-6人。超過了這一閾值,就真的很難了,因為你必須互相檢查彼此的工作,還要考慮把所有人召集在同一個房間等問題。
確實有少數(shù)項目有很多作者,比如證明形式化項目,大約有20-30個作者,這是數(shù)學領域中為數(shù)不多的。
目前,已經的如何眾包任務方式之一是,將其放在GitHub上,都使用Lean這樣的形式化語言,所有的貢獻都可以被驗證。

主持人James Donovan問道,當你解釋這些時,聽起來你的默認假設是人類仍將分配任務,他們仍將對整個過程有足夠的理解來決定誰在哪里做什么。你是否認為數(shù)學家角色是否會分化,是否會出現(xiàn)新的專業(yè)方向?
陶哲軒表示,我認為軟件工程可能是數(shù)學未來發(fā)展的一個可借鑒的模板。
過去,可能有一個英雄式的程序員包攬一切,就像現(xiàn)在的數(shù)學家那樣。但現(xiàn)在,我們有項目經理、程序員和質量保證團隊等等。我們可以想象現(xiàn)在就這樣做。
他稱,我目前參與的幾個協(xié)作項目就同時包含理論數(shù)學部分和形式化證明部分。人們還在運行各種代碼算法等。而且正如我所預期的那樣,已經開始出現(xiàn)專業(yè)化分工。
有些人可能不懂數(shù)學,但他們非常擅長形式化定理,對他們來說這就像解謎題一樣。
還有一些人擅長管理GitHub和做項目管理,確保所有后端工作順利進行。

還有人負責數(shù)據(jù)可視化等工作。我們都在協(xié)調合作。到目前為止,主要還是人類在工作,使用的是更傳統(tǒng)的AI工具,比如改進器(improvers),通常就是運行Python代碼之類的。
「但我認為,一旦AI足夠強大,它會很自然地融入這個范式中」。
Mark Chen同樣表示,對我來說也是這樣的。在很多方面,我?guī)缀醢袮I當作同事看待。有些我不擅長的事情,我可以交給AI去做。
雖然我不是數(shù)學家,但就AI在幫助解決數(shù)學問題方面的優(yōu)勢而言,首先可能就是模式識別。機器在這方面相當擅長,特別是在需要處理大量數(shù)據(jù)或信息的時候。從識別模式開始,就可以形成推測。我認為AI在這方面可能有獨特的優(yōu)勢。

針對制定證明策略,我認為現(xiàn)在人類可能在判斷正確步驟方面仍有更好的直覺。但也許在某個特定步驟上,人類也可能會有盲點。
此外,在驗證方面,模型能夠驗證某些你認為正確,但想要再次確認的步驟。
還有就是生成反例,比如當你想要考慮很多可能使定理失效的情況時,模型可能比你更有效率地窮盡這些可能性。
主持人再次問道,可以說,你們都認為改進器在進行數(shù)學研究和使用LLM或類似技術之間,必要的中間層嗎?
陶哲軒表示,基本上是這樣的。
數(shù)學證明的特點是,如果一個證明有100個步驟,其中一個出錯了,整個證明就可能完全崩塌。而AI,我們知道它會犯各種錯誤。在某些類型的數(shù)學科學中,一定的錯誤率是可以接受的。
就像Mark所說的,比如在模式識別、形成猜想時,即使AI只有50%的正確率也是可以接受的,只要你有其他方法去驗證。
特別是當它試圖輸出論證時,強制AI使用類似Lean形式化語言輸出是很自然的協(xié)同方式。如果能編譯通過就很好,如果不能,它會返回錯誤信息。
當前,人們已經實現(xiàn)了這點,他們可以用這種迭代技術證明一些本科作業(yè)級別的簡短證明。當然,現(xiàn)在還不能直接問一個高層次的數(shù)學問題,就期待它輸出一個龐大的證明。
接下來,陶哲軒提到了,雖然Alphaproof可以用3天的計算時間做到,但這種方法無法擴展。
對于一些可以接受正向錯誤率的簡單問題,你不需要形式化證明助手。但對于任何錯誤可能會傳播的復雜問題,形式化證明助手基本上是不可或缺的。
人類數(shù)學美學,AI難以復刻
數(shù)學,也有自己的美學。
陶哲軒表示,就像關注抽象概念一樣,我認為人類對數(shù)學有一種特殊的美學感覺,這種感覺與數(shù)學的核心是緊密相連的。
因為這種美學感受是由人類來判斷的,所以AI模型在定義問題和品味方面可能會更難模仿這一點。
不過,陶哲軒還認為,AI在數(shù)學領域的應用將帶來一種 「不同的美」,計算機生成的證明將有別于人類生成的證明,具有自己的一種優(yōu)雅。
數(shù)學和AI合作未來
接下來,James Donovan提出三連問,「你對年輕數(shù)學家有什么建議嗎?他們應該把重點放在哪里?應該解決什么樣的問題?」
陶哲軒認為,年輕數(shù)學家必須保持靈活性,因為數(shù)學已經逐漸變成了一個技術性學科,越來越考驗協(xié)作性。
50年前,數(shù)學家還可以獨立解決某個子問題,但現(xiàn)在幾乎行不通了,不過對于數(shù)學來說,也算是良性發(fā)展了,通過利用AI,數(shù)學家們可以進行更廣泛的合作,幫助互相補齊知識。
但需要注意的是,這些工具也有局限性,不能盲目,要用自己作為人類的聰明才智來馴服、監(jiān)督AI,而不是把AI當作一根魔法棒。

James Donovan表示,OpenAI也不鼓勵人們盲目相信AI,如果沒有足夠的專業(yè)知識,就會陷入另一個技術陷阱。
為了更好地利用AI工具,Mark Chen建議現(xiàn)在的學生認真學好各自領域內的技術知識,然后參與一點人工智能相關的研究,至少要了解神經網絡的基礎知識,比如如何訓練模型,底層運行機制,以及局限性。
人們越是對AI的能力保持懷疑,越是會提升自己與AI工具的協(xié)作效率。
1%最難數(shù)學題,AI還未取得突破
針對「谷歌DeepMind拿下IMO奧數(shù)銀牌」一事,James Donovan詢問陶哲軒是否對這一進展感到出乎意料。
陶哲軒表示,確實相當超出預期,過去幾年中一直有很多相關工作,比如DeepMind在IMO數(shù)據(jù)中合成了很多證明過程,但大部分都是錯誤的,所以普遍觀點是這條路并不可行,但現(xiàn)在卻一下子實現(xiàn)了。
還有一個問題是,目前的AI還只停留在數(shù)據(jù)階段,并沒有想象中的那么有用,只是解決了2000萬個小的數(shù)學問題,理想中的AI系統(tǒng)是能夠解決一個大問題。
目前數(shù)學項目里的問題,99%都可以通過傳統(tǒng)的暴力搜索解決,但還有1%是相當困難,且需要人為干預的,而正是這1%的問題最具挑戰(zhàn)性,直擊AI技術的本質,目前的突破不算特別有意義。
James Donovan則提出疑問,現(xiàn)在的工作主要是教模型以一種特定的方式進行推理,那思路應該一個模型,多種類型推理;還是多個模型來應對多種推理?進一步,需要什么樣的推理才能讓AI解鎖這些有難度的小問題?

Mark Chen的思路是大道至簡,并不需要單獨設計多個模型,簡單也是開發(fā)AI產品的關鍵咒語。但在連接復雜系統(tǒng)的時候,可以由人來建立結構,讓AI模型以某種方式進行合作。
增加數(shù)據(jù),比如一萬個類似的樣本,讓模型學習推理模式,未來或許從這方面探索一下。
陶哲軒則認為,AI的問題解決和人類是非常互補的,AI主要以數(shù)據(jù)驅動的解決問題的方式,對于某些任務,AI實際上比人類更重要,但人類需要做的是,重新校準對某些問題的難度感知,或許只是因為之前沒有嘗試使用數(shù)據(jù)驅動的方法來解決那些經典問題。
數(shù)學中,有些問題真的很難,甚至都無法被確定,也沒有大量的可用數(shù)據(jù)來學習,甚至無法繼續(xù)證明這些問題無法被證明,而這些問題正是人類擅長,而AI不擅長的事。
如果僅僅以智力作為唯一評估尺度,可能是不夠的,所以AI和人類進行互補或許才是終極解決方案。
Mark Chen則打趣道,我希望我們的研究計劃能成功,構造一個非常高效的數(shù)據(jù)推理器,然后證明你是錯的。
陶哲軒則表示,我也很希望被證明我是錯的!
AI在數(shù)學定理發(fā)現(xiàn)和檢索方面的潛力
在做數(shù)學研究時,一個最讓人崩潰的事,莫過于其他人搶占了先機,而你自己并不知道。
比如在試圖證明一個小引理時,就算你心里知道肯定有100個人證明過了,可能是在代數(shù)、幾何,還是社區(qū)代數(shù)、群論、Pds等領域,但就是很難找到答案。

對于問題「是否在不久的將來,人們可以很輕松地檢索到某些數(shù)學定理?」,陶哲軒表示,把數(shù)學計算機化,并支持檢索,是一個很棒的想法。
OpenAI的o1模型實際上已經開始做了一點點,比如對于某個定理,你大概知道是什么,但不記得名字了,所以沒辦法用搜索引擎,或者從大量論文中檢索某個定理,這些都是很關鍵的使用場景。
AI可解釋性的理論滯后
AI經常會有幻覺問題,生成的答案可能是不正確的,人工檢查非常關鍵。
比如ChatGPT說周六下午兩點有一場歌劇,去了以后發(fā)現(xiàn)并沒有,這種問題帶來的損失還算比較小,并且可驗證,但在科研領域,比如AI輔助藥物開發(fā),用戶也不知道真正的答案,也無從驗證,還會帶來長遠的影響。
對于這個問題,Mark Chen鼓勵用戶在使用大模型時結合搜索結果,模型會引用特定的網站或特定的來源來反映真實情況,未來模型也會更精確,用戶可以到網站上自行檢查結論。
需要注意的是,o1目前還不具備搜索能力。
反哺數(shù)學
歷史上,總是先有數(shù)學或數(shù)學理論,再有其他如物理學、化學等進行理論應用。
隨著AI的進步,比如物理學,已經有人開始使用機器學習來模擬像Pds的計算解和傳統(tǒng)方法無法解決的問題,數(shù)學是否也從其他領域獲得了理論上的新思路?還是說只是生成了更多數(shù)據(jù)?
陶哲軒回應說,數(shù)學是一條非常寬的雙向車道,比如物理學家可能已經發(fā)現(xiàn)了數(shù)學原理,但沒有解釋,然后還需要再回過頭發(fā)展數(shù)學理論。

比如狄拉克發(fā)明了狄拉克δ函數(shù)的東西,根據(jù)正統(tǒng)數(shù)學,它并不是一個函數(shù),所以我們還需要擴大對函數(shù)的概念,所以理論發(fā)現(xiàn)永遠是雙向的。
可以想象到,一個非常實用的、科學驅動的應用程序,可能由于人工智能發(fā)現(xiàn)一些新現(xiàn)象而無法解釋,或許是經驗上的發(fā)現(xiàn),然后促使科研人員利用數(shù)學工具去尋找理論解釋。
演講者介紹
陶哲軒是加州大學洛杉磯分校的數(shù)學教授,研究領域包括調和分析、偏微分方程、組合學和數(shù)論。
他曾獲得了多項大獎,包括2006年菲爾茲獎。

Mark Chen是OpenAI研究高級副總裁,負責監(jiān)督高級人工智能計劃,推動語言模型、強化學習、多模態(tài)模型和人工智能對齊方面的創(chuàng)新。

James Donovan領導GA的科學政策和合作伙伴關系,專注于如何最好地使用模型來加速科學研究和商業(yè)化。
他加入OpenAI之前,曾是Convergent Research的創(chuàng)始人、風險投資人和合伙人;在那里,他幫助創(chuàng)辦了多個「登月」科學組織,包括Lean Fro(一種復雜數(shù)學的自動定理證明器)。

參考資料:
https://x.com/apples_jimmy/status/1864191140842623375/photo/1





京公網安備 11011402013531號