![]()
前幾天,OpenAI 遭到了大量「口誅筆伐」,起因是一些人認為OpenAI「搶發(fā)」 今年國際數(shù)學(xué)奧林匹克競賽(IMO)成績,用「AI 斬獲金牌」搶學(xué)生風(fēng)頭。
盡管如此,單從技術(shù)突破的角度來看,OpenAI 這一未公開的實驗性大模型也值得期待。
據(jù) OpenAI 介紹,他們的模型僅在 4.5 小時內(nèi)便獨立完成今年 IMO 的 6 道證明題,且未使用網(wǎng)絡(luò)或計算器輔助,成績達到了全球僅不到 9% 人類參賽者能達到的金牌標準。
更值得一提的是,OpenAI 稱此次成功并非依賴特定任務(wù)的狹隘方法,而是通過通用推理能力實現(xiàn)的。
那么,這一神秘模型是如何做到輕松超越大部分人類選手、斬獲金牌的?OpenAI 在背后做了哪些努力?他們所稱的“通用技術(shù)”又預(yù)示了怎樣的未來?
日前,OpenAI 研究員Alex Wei、Sheryl Hsu 和 Noam Brown 在做客Training Data節(jié)目時,分享了這一歷史性成果背后的故事:
從長期以來對IMO 金牌的關(guān)注,到僅兩個月的全力沖刺;從采用通用強化學(xué)習(xí)技術(shù),而非形式化驗證工具的獨特方法,到模型展現(xiàn)出的驚人自我意識——在面對第六題這一難題時,能意識到并承認自己無法解決。
他們表示,這一突破不僅在于出色的數(shù)學(xué)能力,更在于其底層架構(gòu)所包含的通用技術(shù),可擴展測試時計算、處理遠超競賽數(shù)學(xué)范圍的難以驗證任務(wù)。
他們也談及了當前成果與真正數(shù)學(xué)研究突破之間的差距,以及未來將通用技術(shù)應(yīng)用于更多領(lǐng)域、解決更復(fù)雜問題的愿景。
![]()
學(xué)術(shù)頭條在不改變原文大意的前提下,對訪談內(nèi)容做了適當?shù)木幒蛣h減。如下:
Sonya Huang:Alex、Sheryl、Noam,非常感謝你們今天做客節(jié)目。我們請到的是 OpenAI 首次獲得 IMO 金牌的團隊。祝賀你們所有人,這是一項重大成就。
合:謝謝。
Sonya Huang:我很想了解一下這件事的故事。IMO 金牌一直是人工智能領(lǐng)域所有人長期追逐但又難以企及的目標。我記得 2021 年Sam 向我們做演示時,幻燈片上就有這個目標,當時我還想:“啊,這看起來還很遙遠。”我很想了解一下,就這項具體的成果而言,更直接的起源是什么。你們是什么時候開始考慮這件事的,又是怎么實現(xiàn)的呢?
Alex Wei:我覺得這是我們長期以來一直在思考的事情。我記得在我剛加入 OpenAI 的第一周,Noam 就問我,你覺得這個模型什么時候能拿到IMO 金牌?我當時覺得,2025 年能實現(xiàn)的可能性不大。但就像你說的,這一直是我們心中的一個目標。但就這項具體的工作而言,我覺得,我們真正開始為今年的IMO 做最后的沖刺,大概也就幾個月的時間。當然,我們一直在改進我們的強化學(xué)習(xí)算法。
Sonya Huang:太不可思議了。參與的團隊有多大規(guī)模呢?
Alex Wei:我們顯然是在 OpenAI 很多人的研究基礎(chǔ)上進行的,沒有推理部門、規(guī)模化團隊的同事,還有負責(zé)預(yù)訓(xùn)練和強化學(xué)習(xí)訓(xùn)練的人員的大量幫助,這一切都不可能實現(xiàn)。但核心人員其實就我們?nèi)齻€人。
Sonya Huang:太不可思議了,只有你們?nèi)齻€人。
Noam Brown:而且主要是 Alex 在做,Alex 研究這項技術(shù)已經(jīng)有一段時間了,我和Sheryl 在臨近IMO 的時候才開始幫忙,因為我們越來越接近讓這件事成為現(xiàn)實。
Sonya Huang:太厲害了。那這一切是怎么推進的呢?比如,是你們自己決定要爭取拿下 IMO 金牌,然后朝著這個目標努力嗎?你們是怎么主動提出要做這樣一件事的呢?
Alex Wei:是因為我們覺得或許有可能,如果我們在這幾個月里再加把勁,也許就能成功。
Noam Brown:OpenAI 的優(yōu)點之一是,研究人員能自主開展他們認為有影響力的研究。所以 Alex 就提出,他有一項新技術(shù),可能會很有幫助。說實話,當時有不少人持懷疑態(tài)度,當然也有人支持,但大家都覺得應(yīng)該給我們探索和嘗試的自由。后來,研究開始顯現(xiàn)出一些積極的跡象,雖然還有人持懷疑態(tài)度,但越來越多的人開始對此感到興奮,最終這件事變得越來越重要,現(xiàn)在大家顯然都對它非常興奮。
Sonya Huang:能再具體說說那些積極的跡象嗎?比如你們看到了哪些早期信號,讓你們決定全力以赴?
Alex Wei:我覺得是在難以驗證的任務(wù)上取得的進展。以前,我們更多關(guān)注的是如果有可驗證的結(jié)果,我們能做些什么。而在這些更難驗證的任務(wù)上看到了更多改進,這讓我們很受鼓舞。
Sonya Huang:或許從這個角度來說,你們是如何驗證結(jié)果的正確性的呢?我知道你們在 GitHub 上發(fā)布了證明過程,但能再說說你們是如何確定已經(jīng)找到正確答案的嗎?因為我了解到,模型的解題方式和人類不太一樣。
Alex Wei:是啊。我確實認為模型輸出的風(fēng)格有點糟糕。
Sonya Huang:“糟糕”這個詞我可不會用。應(yīng)該說很有創(chuàng)意,像一種外星語言。
Alex Wei:是啊,所以我覺得,因為我們?nèi)撕苌伲晕覀儧]有太注重優(yōu)化輸出結(jié)果的可讀性,但我們是有能力做到的,就像 ChatGPT 的輸出就很容易理解,我們也能讓模型做到這一點。
Sonya Huang:你們覺得有必要優(yōu)化輸出結(jié)果的可讀性嗎?這很重要嗎?
Noam Brown:我覺得如果要展示給人類看,他們肯定更希望結(jié)果通俗易懂。我們其實討論過,我們拿到證明后,發(fā)現(xiàn)其實可以讓 ChatGPT 把它改得更易讀一些,而且證明的正確性不會受影響,只是可讀性稍微增強了一點。我們當時在想,當我們在網(wǎng)上發(fā)布這些內(nèi)容時,是發(fā)布經(jīng)過 ChatGPT 優(yōu)化的更易讀的版本,還是發(fā)布原始版本?最后我們決定,為了完全透明,還是發(fā)布原始版本,大家應(yīng)該能看懂。
Sonya Huang:OpenAI 的員工里有很多 IMO 獎牌得主和參賽者,對吧?你們會在業(yè)余時間給模型生成的答案評分嗎?
Alex Wei:在測試期間,我們確實看了很多樣本。但為了給這些結(jié)果評分,我們專門聘請了外部的前 IMO 獎牌得主。每個證明都由三位獎牌得主評分,而且他們對每個證明的正確性都達成了一致意見。
Noam Brown:我不知道 Sheryl 怎么樣,反正對我來說,這些證明已經(jīng)超出了我的理解能力。我雖然是數(shù)學(xué)專業(yè)出身,但從來沒參加過數(shù)學(xué)競賽,這個模型寫出的東西,我已經(jīng)無法評判了。
Sheryl Hsu:是啊,我也是。我覺得這更能體現(xiàn)出這個模型有多厲害。
Sonya Huang:沒錯。那第六題呢?為什么所有模型都沒能解出今年 IMO 的第六題,你們的模型甚至都沒有嘗試解答,能詳細解釋一下這個問題的原因嗎?一般來說,第六題總是IMO 中最難的。
Alex Wei:是的,我通常認為是第三題或第六題。
Sonya Huang:能說說是什么讓這道題與眾不同嗎?以及你從其中學(xué)到了什么?而且我記得你在推特上說,模型知道自己解不出第六題,能再說說嗎?
Alex Wei:對于第六題,我覺得它真的是一個非常棘手的問題。就算給我?guī)讉€月的時間去思考,甚至給我一個關(guān)于解題主要思路的提示,我也解不出來。這道題太難了,有太多種可能的思路,但找到正確的證明路徑卻非常狹窄。我覺得,數(shù)學(xué)本身就是很難的事之一。
Sheryl Hsu:是的。我們在第六題上投入了大量的計算資源,但看到模型沒有試圖去編造答案,而是直接說解不出來,這其實是件好事。當然,當你覺得模型付出了這么多努力,最后卻只說解不出來,確實有點令人失望,但模型能承認這一點,還是很好的。
Sonya Huang:這體現(xiàn)了一種驚人的自我認知,知道自己的能力上限。因為我記得就在幾年前,這些模型總是會努力給出答案,哪怕是編造一個,對吧?所以現(xiàn)在能看到模型有這樣的表現(xiàn),真的是一種驚人的自我認知。
Noam Brown:我們發(fā)布推理模型的時候,我和一些數(shù)學(xué)家、計算機科學(xué)家交流,問他們是否覺得這些模型有價值。答案通常是肯定的,但他們抱怨的一點是,如果問模型一個它不知道答案的問題,它會輸出一個聽起來非常令人信服但實際上錯誤的答案,他們必須仔細檢查才能發(fā)現(xiàn)問題,比如是不是模型偷偷改了一個不等式什么的。所以看到這個模型在不知道答案的時候,至少能更頻繁地承認自己不知道,這很好。
Sonya Huang:我想知道,在內(nèi)部,你們有沒有打賭,比如在預(yù)測市場上押注今年能否拿到 IMO 金牌,當時內(nèi)部的氛圍是怎樣的?
Alex Wei:我覺得我們有很大的機會,但也不是十拿九穩(wěn)。有些類型的題目,模型可能比人類更吃力,但還有一些類型的題目,模型會表現(xiàn)得非常出色。今年的題目難度適中,像第六題,以目前最先進的模型水平來說還是難以攻克。而且我覺得,像第六題這樣的組合數(shù)學(xué)難題,通常更有挑戰(zhàn)性,這也是模型目前還在攻克的難點。
Sonya Huang:組合數(shù)學(xué)和你們擅長的幾何等領(lǐng)域相比,難在哪里呢?
Alex Wei:我覺得組合數(shù)學(xué)可能更抽象,維度更高。而且很多時候,組合數(shù)學(xué)問題需要靈光一閃的洞察力,這正是模型不擅長的。我認為模型更擅長解決那些需要一系列小步驟的問題。
Sonya Huang:從你們的角度來看,當時內(nèi)部對拿到金牌是樂觀還是不樂觀呢?
Sheryl Hsu:我覺得情況不是特別樂觀。大家當然知道有可能實現(xiàn),但我覺得就算在一兩個月前,大家也覺得還需要很大的改進才能做到,不過我們確實做到了。
Noam Brown:我記得大概在比賽前兩個月,我和 OpenAI 的另一位研究員聊天,我們說:“好吧,如果要打賭的話,我是愿意打賭的人,我很樂意賭一把。”我當時問他:“你愿意冒多大的險?”因為我愿意打賭我們能拿到金牌。然后他說:“根本不可能。”而且,他說他很樂意以二比一的賠率賭模型贏不了,也就是說,模型贏的概率不到三分之一。但他不想和我們打賭,因為他覺得和團隊打賭不吉利,所以最后他沒有和我們打賭。
Sonya Huang:那你有沒有從他那里贏點零花錢?
Noam Brown:我希望能啊,我希望能。
Sonya Huang:因為我記得你們在 15 個月前,在 Amy 上的預(yù)測是 12%,對吧?所以盡管你永遠不想和 OpenAI 的規(guī)模化發(fā)展打賭,但你們?nèi)〉玫某删瓦€是非常驚人的。
Noam Brown:我認為數(shù)學(xué)進步的速度真的非常快,Alex 也在推特上提到過這一點。要知道就在幾年前,這些模型在小學(xué)數(shù)學(xué)問題上都很吃力。我記得,甚至在2024 年,GSM8K 數(shù)據(jù)集還被當作大家發(fā)布模型時的標準評估基準,之后短暫地變成了MATH,接著是AMIE,再后來是IMO。它的發(fā)展速度突破了所有這些數(shù)學(xué)基準,這真是令人震驚。
Sheryl Hsu:我還記得兩年前我訓(xùn)練的模型是基于 GSM8K 的。
Sonya Huang:是啊,那些日子已經(jīng)過去了,對吧?評估基準已經(jīng)飽和了。接下來會是什么呢?你覺得,到明年這個時候,我們能解決千禧年大獎難題嗎?
Alex Wei:我覺得還很遙遠。一方面,想想從 GSM8K 以來,數(shù)學(xué)領(lǐng)域取得的進步,就在兩年前,GSM8K 還是大家努力突破的標準,這進步速度確實驚人。但另一方面,想想人類解決這些問題需要的時間,GSM8K 的題目就像是小學(xué)水平,數(shù)學(xué)好的人幾秒鐘就能解決。而現(xiàn)在,我們已經(jīng)從幾秒鐘的解題時間,進步到了平均每道題像那些優(yōu)秀學(xué)生也需要一個半小時的時間,而研究級別的數(shù)學(xué)問題可能需要 1500 個小時才能解決,這是上千倍的思考時間。千禧年大獎難題更是耗費了整個領(lǐng)域的人畢生的精力,而且大多數(shù)問題至今仍沒有太大進展。所以,一方面,我們?nèi)〉昧巳绱舜蟮倪M步,令人興奮;另一方面,我們還有很長的路要走,從一個半小時到數(shù)萬、數(shù)十萬小時的人類思考時間,這也讓人感到自己的渺小。
Sonya Huang:完全同意。Noam,我覺得你在這方面很有前瞻性。我記得在你加入 OpenAI 之前,你就和我們聊過游戲領(lǐng)域的研究成果,以及如果讓模型思考數(shù)小時甚至數(shù)十小時會發(fā)生什么,你真的很有遠見。
Noam Brown:謝謝。是啊,能看到這些成為現(xiàn)實,很令人興奮。
Sonya Huang:那么,當把計算時間、推理時間從 0.1 分鐘級擴展到 100 分鐘級時,會遇到哪些困難呢?我想從一個較高的層面來了解,因為我們的聽眾大多不是人工智能研究人員,那么在保證模型正常運行方面,會遇到哪些難題呢?
Noam Brown:有一個很明顯的挑戰(zhàn)是,如果讓模型思考 1500 小時,那么為了評估它,也需要讓它思考 1500 小時,這樣模型的評估就會成為阻礙進度的一大障礙。目前我們還沒到那個階段,讓模型思考一個半小時不成問題,我們可以進行測試。但如果要進行一個需要模型思考一個月的測試,那就得等一個月才能出結(jié)果。如果要等這樣的結(jié)果,進展的速度就會大打折扣。
Sonya Huang:我覺得你們都在多智能體(multi-agent)團隊工作。能幫我理解一下multi-agent system在這其中扮演了什么角色嗎?
Noam Brown:除了讓模型長時間思考,在難以驗證的任務(wù)上取得較大進展,這還涉及到擴展并行計算,這其中就有multi-agent 的成分。具體的技術(shù)細節(jié)我們可能不便多說,但這確實是我們能夠為 IMO 擴展測試時計算的一種方式。順便說一下,關(guān)于multi-agent 和可擴展并行計算,我們在這方面的技術(shù)非常注重通用性。比如,我研究過撲克人工智能,Alex 和我都研究過外交人工智能,Alex 還是“西塞羅”團隊的成員。那些項目我都很自豪,但我們也花了好幾年才取得成果。而人工智能的發(fā)展速度如此之快,花時間開發(fā)一個只能完成單一任務(wù)的定制系統(tǒng),似乎不是最佳選擇。所以我們都非常注重通用技術(shù)。我們在擴展思考時間、處理難以驗證的任務(wù)以及并行計算方面使用的技術(shù),都是通用技術(shù),我們計劃或?qū)⑦@些技術(shù)應(yīng)用到其他系統(tǒng)中。
Sonya Huang:這就是你們沒有選擇用 Lean 的原因嗎?我的理解是,今年 IMO 的官方人工智能賽道要求用 Lean 來解題。這就是你們不選擇用 Lean 的原因嗎?
Noam Brown:是的。我覺得 Lean 作為一個工具當然有其價值,比如數(shù)學(xué)家們覺得它很有用。但對于我們來說,我們的重點是通用推理能力,而 Lean 有其局限性,所以我們更傾向于使用自然語言。
Sonya Huang:以我這個外行人的理解,Lean 是一種形式化驗證工具。那么你們的成果是不是意味著,隨著規(guī)模的擴大,非形式化驗證能達到甚至超越形式化驗證的水平?這樣理解對嗎?
Sonya Huang:我不這么認為,我不覺得這是正確的結(jié)論。Alex 怎么看?
Alex Wei:我覺得這是兩個不同的方面。我們覺得非形式化數(shù)學(xué)是一個有趣的問題,因為它體現(xiàn)了在擴展測試時計算、處理難以驗證任務(wù)方面的核心難點,而這些難點在我們關(guān)注的眾多通用任務(wù)中都存在。我覺得 Lean 的應(yīng)用范圍有點狹窄,因為世界上很多問題都可以通過非形式化推理來解決,而不是都能形式化。
Noam Brown:我覺得專用人工智能沒什么不好,在某些領(lǐng)域,專用人工智能顯然遠超通用人工智能。我覺得正確的理解是,就像人類數(shù)學(xué)家能從 Lean 中獲益一樣,通用人工智能也能與專注于形式化數(shù)學(xué)的專用系統(tǒng)相輔相成,兩者結(jié)合會更好。
Sonya Huang:我在推特上看到很多 OpenAI 的朋友提到,我想你們也提到過這一點。這個系統(tǒng)的構(gòu)建方法和基礎(chǔ)設(shè)施,與 OpenAI 最近發(fā)布的很多產(chǎn)品相似,比如上周我們請到了 ChatGPT Agent 團隊的Isa Fulford 等人做客節(jié)目。能再說說這種相似的基礎(chǔ)和方法是什么嗎?
Sheryl Hsu:從基礎(chǔ)設(shè)施角度來說,我們都使用相同的基礎(chǔ)設(shè)施。但這個問題的核心是,就像 Noam 說的,這里沒有任何專門為IMO 定制的東西。我們希望能將Alex在非驗證任務(wù)和擴展測試時計算方面的研究技術(shù),應(yīng)用到其他推理領(lǐng)域或提升模型的整體能力上,從而構(gòu)建更強大的模型,不斷改進agent、改進ChatGPT 等所有產(chǎn)品。
Sonya Huang:能說說 IMO 比賽當天的具體情況嗎?那是什么樣的體驗?
Noam Brown:我們一直在等題目公布,因為一旦參賽者考完試后,題目就會公布。我們大概在凌晨一點左右把題目輸入模型,說實話,我當時就去睡覺了,因為已經(jīng)凌晨一點了,我不想熬四個半小時等著看結(jié)果,早上醒來再看就行。但我覺得他們倆應(yīng)該熬夜了,看著模型并實時關(guān)注進展。
Sheryl Hsu:是啊,非常有趣。
Sonya Huang:有人想打電話嗎,說 “醒醒,醒醒,我們成功了”?
Noam Brown:有幾次 Alex 實在太累了,他決定小睡一會兒,我們告訴他,“好吧,確保手機開著聲音,萬一我們需要叫醒你,可以打電話給你。”有一次我們確實不得不給他打電話,但我覺得他沒醒。
Sonya Huang:太有意思了。那一定非常激動人心,尤其是在那個時候。你們凌晨一點開始,那大概早上九點就知道結(jié)果了吧?
Sheryl Hsu:哦,是四個半小時。
Sonya Huang:第一部分要四個半小時。
Sheryl Hsu:是啊,我也說不準。我們能看到題目出來,我主要是確保系統(tǒng)穩(wěn)定運行,Alex 則在一旁閱讀并查看模型的進展。
Sonya Huang:所以你是在現(xiàn)場人工驗證證明過程,看看是否正確嗎?
Alex Wei:我當然對結(jié)果非常焦慮,所以我會查看模型取得的部分進展,我們能觀察到這些。而且我也會手動檢查,雖然我們會把這些交給評分員,但我自己也很想手動檢查一下。
Sonya Huang:好吧,下次有這種事一定要叫上我,我也想?yún)⑴c,就算熬夜也愿意。聽起來太棒了。
Noam Brown:這些模型有個很酷的地方,就是雖然我看不懂證明過程,但當模型在思考時,它會用自然語言表達自己的不確定或自信,在整個過程中,它會說一些話,暗示它的狀態(tài)。比如,如果它非常確定自己找到了答案,就會經(jīng)常說 “很好”,如果不確定,就會用很多問號。所以雖然我不能確定它是否正確,但能跟著感受它的進展,這很有趣。
Sheryl Hsu:是啊,你會看到令人頭疼的“似乎很難”。第六題就出現(xiàn)了這個。出現(xiàn)了很多次。“沒有進展,很難。”“似乎很難。”“太糟糕了。”
Sonya Huang:太棒了。那展望未來,你們已經(jīng)在競賽數(shù)學(xué)中取得了最高成就。或許明年可以去參加普特南數(shù)學(xué)競賽,但基本上已經(jīng)站在頂端了,那接下來會做什么呢?
Alex Wei:是啊。其實對于普特南數(shù)學(xué)競賽的題目,我覺得因為每道題的時間比 IMO 短,而且更注重知識儲備,我們在評估中發(fā)現(xiàn)模型其實很擅長解普特南的題目,甚至比解 IMO 的題目更擅長。所以我覺得,現(xiàn)在的前沿已經(jīng)不再是這些有時間限制的競賽題,而是那些需要更長時間、更深入思考才能解決的問題。
Sonya Huang:這真的很酷。那你們接下來要開始證明新的定理了嗎?
Alex Wei:不過我覺得,有時間限制的競賽題和真正的研究突破之間,存在著巨大的差距,真正的研究突破可能需要一年的時間,也就是大約 1500 個小時,而不是 1.5 個小時。
Sonya Huang:是啊,完全同意。我最近聽了 Demis 的播客,他提到最難的其實是提出值得解決的有趣問題。我很好奇你們是否同意這個觀點。
Noam Brown:我覺得有一定道理,這些模型現(xiàn)在確實很擅長解決問題,而提出問題仍然是一個挑戰(zhàn)。但我也想說,我們正見證著驚人的進步速度,而且總會有下一個挑戰(zhàn)。最初語言模型出現(xiàn)時,問題是如何讓它們進行推理;然后我們做到了讓它們推理,但接著又面臨如何讓它們對難以驗證的任務(wù)進行推理的問題;現(xiàn)在它們已經(jīng)能做到這一點了。我覺得下一個挑戰(zhàn)將是如何讓它們提出新的問題。要知道,即便是出一道 IMO 的題目都很有挑戰(zhàn)性,需要很多數(shù)學(xué)家付出大量努力。但我認為,沒有什么根本性的障礙能阻止我們實現(xiàn)這一目標。
Sonya Huang:我很喜歡這個觀點。那你們在數(shù)學(xué)方面的成果,是否能完全推廣到其他領(lǐng)域呢?比如,在科學(xué)推理、一般推理方面也會更出色,也就是說,在競賽數(shù)學(xué)中表現(xiàn)出色,是否意味著在其他所有方面都能表現(xiàn)出色?
Alex Wei:我覺得我們的目標并不是要在競賽數(shù)學(xué)中表現(xiàn)出色,而是專注于開發(fā)通用技術(shù),來改進我們的強化學(xué)習(xí)。我們非常期待能將這些技術(shù)應(yīng)用到數(shù)學(xué)之外的其他領(lǐng)域,希望能讓模型在日常使用中更有用。
Noam Brown:這是一個最新的成果,說實話,即使是 OpenAI 內(nèi)部的人也感到很驚訝。下一步是將其更廣泛地融入我們的模型中,全面提升推理能力。但這個過程需要時間,才能部署到實際應(yīng)用中。所以我覺得這一天會到來,但還需要一點時間。
Sonya Huang:對于這些模型來說,解 IMO 的題目和物理奧林匹克競賽的題目,哪個更難?
Alex Wei:我覺得肯定是物理奧林匹克競賽,因為它有一個實驗部分。
Sonya Huang:我們首先需要解決機器人技術(shù)的問題。我之前沒意識到這一點。我以為也只是在紙上答題。
Alex Wei:是啊,所以我覺得模型在筆試部分可能會表現(xiàn)不錯,但要完成實驗部分,還需要一段時間。
Sonya Huang:畢竟還沒有完善的世界模型,好的。那你們會發(fā)布這個模型讓用戶使用嗎?
Noam Brown:我們希望能讓數(shù)學(xué)家們用上這個模型,目前還在研究具體的實現(xiàn)方式。但我覺得我們開發(fā)出了一個在數(shù)學(xué)方面非常出色的系統(tǒng),很想看看數(shù)學(xué)家們能用它來做些什么。其實我已經(jīng)和斯坦福大學(xué)的一位數(shù)學(xué)教授通過郵件了,大約一年前,在我們發(fā)布相關(guān)成果之前,他就通過郵件問我,要不要合作解決一些難的數(shù)學(xué)問題。我當時告訴他,我覺得我們只要提升通用推理能力,最終就能幫他解決那些難的數(shù)學(xué)問題,這也是最有希望的途徑。他當時有點懷疑,但每次我們發(fā)布新的推理模型,他都會通過郵件跟進,問這個模型能不能解決那個問題。我會把問題輸入模型,然后把輸出結(jié)果回復(fù)給他,他說還是不對。這次他又發(fā)郵件問同一個問題,問現(xiàn)在這個模型能不能解決。雖然還是不能解決,但至少這次模型意識到自己解決不了,我覺得這是一個很大的進步。我們也很想知道,數(shù)學(xué)家們還有其他問題想挑戰(zhàn)這個模型,看看它能不能解決。
Sonya Huang:太棒了,祝賀你們所有人。我覺得這是整個領(lǐng)域期待已久的重大成果,而且事實上是由三個人在兩個月內(nèi)完成的,這真是太了不起了。
訪談鏈接:
https://www.youtube.com/watch?v=EEIPtofVe2Q&ab_channel=SequoiaCapital
整理:小瑜
如需轉(zhuǎn)載或投稿,請直接在公眾號內(nèi)留言





京公網(wǎng)安備 11011402013531號