專訪OpenAI「IMO金牌」團隊：3個人，2個月，讓通用AI站上數(shù)學(xué)之巔

IP屬地中國·北京 編輯：蘇婉清學(xué)術(shù)頭條 時間：2025-08-01 22:22:14

前幾天，OpenAI 遭到了大量「口誅筆伐」，起因是一些人認為OpenAI「搶發(fā)」今年國際數(shù)學(xué)奧林匹克競賽（IMO）成績，用「AI 斬獲金牌」搶學(xué)生風(fēng)頭。
盡管如此，單從技術(shù)突破的角度來看，OpenAI 這一未公開的實驗性大模型也值得期待。
據(jù) OpenAI 介紹，他們的模型僅在 4.5 小時內(nèi)便獨立完成今年 IMO 的 6 道證明題，且未使用網(wǎng)絡(luò)或計算器輔助，成績達到了全球僅不到 9% 人類參賽者能達到的金牌標準。
更值得一提的是，OpenAI 稱此次成功并非依賴特定任務(wù)的狹隘方法，而是通過通用推理能力實現(xiàn)的。
那么，這一神秘模型是如何做到輕松超越大部分人類選手、斬獲金牌的？OpenAI 在背后做了哪些努力？他們所稱的“通用技術(shù)”又預(yù)示了怎樣的未來？
日前，OpenAI 研究員Alex Wei、Sheryl Hsu 和 Noam Brown 在做客Training Data節(jié)目時，分享了這一歷史性成果背后的故事：
從長期以來對IMO 金牌的關(guān)注，到僅兩個月的全力沖刺；從采用通用強化學(xué)習(xí)技術(shù)，而非形式化驗證工具的獨特方法，到模型展現(xiàn)出的驚人自我意識——在面對第六題這一難題時，能意識到并承認自己無法解決。
他們表示，這一突破不僅在于出色的數(shù)學(xué)能力，更在于其底層架構(gòu)所包含的通用技術(shù)，可擴展測試時計算、處理遠超競賽數(shù)學(xué)范圍的難以驗證任務(wù)。
他們也談及了當前成果與真正數(shù)學(xué)研究突破之間的差距，以及未來將通用技術(shù)應(yīng)用于更多領(lǐng)域、解決更復(fù)雜問題的愿景。

學(xué)術(shù)頭條在不改變原文大意的前提下，對訪談內(nèi)容做了適當?shù)木幒蛣h減。如下：
Sonya Huang：Alex、Sheryl、Noam，非常感謝你們今天做客節(jié)目。我們請到的是 OpenAI 首次獲得 IMO 金牌的團隊。祝賀你們所有人，這是一項重大成就。
合：謝謝。
Sonya Huang：我很想了解一下這件事的故事。IMO 金牌一直是人工智能領(lǐng)域所有人長期追逐但又難以企及的目標。我記得 2021 年Sam 向我們做演示時，幻燈片上就有這個目標，當時我還想：“啊，這看起來還很遙遠。”我很想了解一下，就這項具體的成果而言，更直接的起源是什么。你們是什么時候開始考慮這件事的，又是怎么實現(xiàn)的呢？
Alex Wei：我覺得這是我們長期以來一直在思考的事情。我記得在我剛加入 OpenAI 的第一周，Noam 就問我，你覺得這個模型什么時候能拿到IMO 金牌？我當時覺得，2025 年能實現(xiàn)的可能性不大。但就像你說的，這一直是我們心中的一個目標。但就這項具體的工作而言，我覺得，我們真正開始為今年的IMO 做最后的沖刺，大概也就幾個月的時間。當然，我們一直在改進我們的強化學(xué)習(xí)算法。
Sonya Huang：太不可思議了。參與的團隊有多大規(guī)模呢？
Alex Wei：我們顯然是在 OpenAI 很多人的研究基礎(chǔ)上進行的，沒有推理部門、規(guī)模化團隊的同事，還有負責(zé)預(yù)訓(xùn)練和強化學(xué)習(xí)訓(xùn)練的人員的大量幫助，這一切都不可能實現(xiàn)。但核心人員其實就我們?nèi)齻€人。
Sonya Huang：太不可思議了，只有你們?nèi)齻€人。
Noam Brown：而且主要是 Alex 在做，Alex 研究這項技術(shù)已經(jīng)有一段時間了，我和Sheryl 在臨近IMO 的時候才開始幫忙，因為我們越來越接近讓這件事成為現(xiàn)實。
Sonya Huang：太厲害了。那這一切是怎么推進的呢？比如，是你們自己決定要爭取拿下 IMO 金牌，然后朝著這個目標努力嗎？你們是怎么主動提出要做這樣一件事的呢？
Alex Wei：是因為我們覺得或許有可能，如果我們在這幾個月里再加把勁，也許就能成功。
Noam Brown：OpenAI 的優(yōu)點之一是，研究人員能自主開展他們認為有影響力的研究。所以 Alex 就提出，他有一項新技術(shù)，可能會很有幫助。說實話，當時有不少人持懷疑態(tài)度，當然也有人支持，但大家都覺得應(yīng)該給我們探索和嘗試的自由。后來，研究開始顯現(xiàn)出一些積極的跡象，雖然還有人持懷疑態(tài)度，但越來越多的人開始對此感到興奮，最終這件事變得越來越重要，現(xiàn)在大家顯然都對它非常興奮。
Sonya Huang：能再具體說說那些積極的跡象嗎？比如你們看到了哪些早期信號，讓你們決定全力以赴？
Alex Wei：我覺得是在難以驗證的任務(wù)上取得的進展。以前，我們更多關(guān)注的是如果有可驗證的結(jié)果，我們能做些什么。而在這些更難驗證的任務(wù)上看到了更多改進，這讓我們很受鼓舞。
Sonya Huang：或許從這個角度來說，你們是如何驗證結(jié)果的正確性的呢？我知道你們在 GitHub 上發(fā)布了證明過程，但能再說說你們是如何確定已經(jīng)找到正確答案的嗎？因為我了解到，模型的解題方式和人類不太一樣。
Alex Wei：是啊。我確實認為模型輸出的風(fēng)格有點糟糕。
Sonya Huang：“糟糕”這個詞我可不會用。應(yīng)該說很有創(chuàng)意，像一種外星語言。
Alex Wei：是啊，所以我覺得，因為我們?nèi)撕苌伲晕覀儧]有太注重優(yōu)化輸出結(jié)果的可讀性，但我們是有能力做到的，就像 ChatGPT 的輸出就很容易理解，我們也能讓模型做到這一點。
Sonya Huang：你們覺得有必要優(yōu)化輸出結(jié)果的可讀性嗎？這很重要嗎？
Noam Brown：我覺得如果要展示給人類看，他們肯定更希望結(jié)果通俗易懂。我們其實討論過，我們拿到證明后，發(fā)現(xiàn)其實可以讓 ChatGPT 把它改得更易讀一些，而且證明的正確性不會受影響，只是可讀性稍微增強了一點。我們當時在想，當我們在網(wǎng)上發(fā)布這些內(nèi)容時，是發(fā)布經(jīng)過 ChatGPT 優(yōu)化的更易讀的版本，還是發(fā)布原始版本？最后我們決定，為了完全透明，還是發(fā)布原始版本，大家應(yīng)該能看懂。
Sonya Huang：OpenAI 的員工里有很多 IMO 獎牌得主和參賽者，對吧？你們會在業(yè)余時間給模型生成的答案評分嗎？
Alex Wei：在測試期間，我們確實看了很多樣本。但為了給這些結(jié)果評分，我們專門聘請了外部的前 IMO 獎牌得主。每個證明都由三位獎牌得主評分，而且他們對每個證明的正確性都達成了一致意見。
Noam Brown：我不知道 Sheryl 怎么樣，反正對我來說，這些證明已經(jīng)超出了我的理解能力。我雖然是數(shù)學(xué)專業(yè)出身，但從來沒參加過數(shù)學(xué)競賽，這個模型寫出的東西，我已經(jīng)無法評判了。
Sheryl Hsu：是啊，我也是。我覺得這更能體現(xiàn)出這個模型有多厲害。
Sonya Huang：沒錯。那第六題呢？為什么所有模型都沒能解出今年 IMO 的第六題，你們的模型甚至都沒有嘗試解答，能詳細解釋一下這個問題的原因嗎？一般來說，第六題總是IMO 中最難的。
Alex Wei：是的，我通常認為是第三題或第六題。
Sonya Huang：能說說是什么讓這道題與眾不同嗎？以及你從其中學(xué)到了什么？而且我記得你在推特上說，模型知道自己解不出第六題，能再說說嗎？
Alex Wei：對于第六題，我覺得它真的是一個非常棘手的問題。就算給我?guī)讉€月的時間去思考，甚至給我一個關(guān)于解題主要思路的提示，我也解不出來。這道題太難了，有太多種可能的思路，但找到正確的證明路徑卻非常狹窄。我覺得，數(shù)學(xué)本身就是很難的事之一。
Sheryl Hsu：是的。我們在第六題上投入了大量的計算資源，但看到模型沒有試圖去編造答案，而是直接說解不出來，這其實是件好事。當然，當你覺得模型付出了這么多努力，最后卻只說解不出來，確實有點令人失望，但模型能承認這一點，還是很好的。
Sonya Huang：這體現(xiàn)了一種驚人的自我認知，知道自己的能力上限。因為我記得就在幾年前，這些模型總是會努力給出答案，哪怕是編造一個，對吧？所以現(xiàn)在能看到模型有這樣的表現(xiàn)，真的是一種驚人的自我認知。
Noam Brown：我們發(fā)布推理模型的時候，我和一些數(shù)學(xué)家、計算機科學(xué)家交流，問他們是否覺得這些模型有價值。答案通常是肯定的，但他們抱怨的一點是，如果問模型一個它不知道答案的問題，它會輸出一個聽起來非常令人信服但實際上錯誤的答案，他們必須仔細檢查才能發(fā)現(xiàn)問題，比如是不是模型偷偷改了一個不等式什么的。所以看到這個模型在不知道答案的時候，至少能更頻繁地承認自己不知道，這很好。
Sonya Huang：我想知道，在內(nèi)部，你們有沒有打賭，比如在預(yù)測市場上押注今年能否拿到 IMO 金牌，當時內(nèi)部的氛圍是怎樣的？
Alex Wei：我覺得我們有很大的機會，但也不是十拿九穩(wěn)。有些類型的題目，模型可能比人類更吃力，但還有一些類型的題目，模型會表現(xiàn)得非常出色。今年的題目難度適中，像第六題，以目前最先進的模型水平來說還是難以攻克。而且我覺得，像第六題這樣的組合數(shù)學(xué)難題，通常更有挑戰(zhàn)性，這也是模型目前還在攻克的難點。
Sonya Huang：組合數(shù)學(xué)和你們擅長的幾何等領(lǐng)域相比，難在哪里呢？
Alex Wei：我覺得組合數(shù)學(xué)可能更抽象，維度更高。而且很多時候，組合數(shù)學(xué)問題需要靈光一閃的洞察力，這正是模型不擅長的。我認為模型更擅長解決那些需要一系列小步驟的問題。
Sonya Huang：從你們的角度來看，當時內(nèi)部對拿到金牌是樂觀還是不樂觀呢？
Sheryl Hsu：我覺得情況不是特別樂觀。大家當然知道有可能實現(xiàn)，但我覺得就算在一兩個月前，大家也覺得還需要很大的改進才能做到，不過我們確實做到了。
Noam Brown：我記得大概在比賽前兩個月，我和 OpenAI 的另一位研究員聊天，我們說：“好吧，如果要打賭的話，我是愿意打賭的人，我很樂意賭一把。”我當時問他：“你愿意冒多大的險？”因為我愿意打賭我們能拿到金牌。然后他說：“根本不可能。”而且，他說他很樂意以二比一的賠率賭模型贏不了，也就是說，模型贏的概率不到三分之一。但他不想和我們打賭，因為他覺得和團隊打賭不吉利，所以最后他沒有和我們打賭。
Sonya Huang：那你有沒有從他那里贏點零花錢？
Noam Brown：我希望能啊，我希望能。
Sonya Huang：因為我記得你們在 15 個月前，在 Amy 上的預(yù)測是 12%，對吧？所以盡管你永遠不想和 OpenAI 的規(guī)模化發(fā)展打賭，但你們?nèi)〉玫某删瓦€是非常驚人的。
Noam Brown：我認為數(shù)學(xué)進步的速度真的非常快，Alex 也在推特上提到過這一點。要知道就在幾年前，這些模型在小學(xué)數(shù)學(xué)問題上都很吃力。我記得，甚至在2024 年，GSM8K 數(shù)據(jù)集還被當作大家發(fā)布模型時的標準評估基準，之后短暫地變成了MATH，接著是AMIE，再后來是IMO。它的發(fā)展速度突破了所有這些數(shù)學(xué)基準，這真是令人震驚。
Sheryl Hsu：我還記得兩年前我訓(xùn)練的模型是基于 GSM8K 的。
Sonya Huang：是啊，那些日子已經(jīng)過去了，對吧？評估基準已經(jīng)飽和了。接下來會是什么呢？你覺得，到明年這個時候，我們能解決千禧年大獎難題嗎？
Alex Wei：我覺得還很遙遠。一方面，想想從 GSM8K 以來，數(shù)學(xué)領(lǐng)域取得的進步，就在兩年前，GSM8K 還是大家努力突破的標準，這進步速度確實驚人。但另一方面，想想人類解決這些問題需要的時間，GSM8K 的題目就像是小學(xué)水平，數(shù)學(xué)好的人幾秒鐘就能解決。而現(xiàn)在，我們已經(jīng)從幾秒鐘的解題時間，進步到了平均每道題像那些優(yōu)秀學(xué)生也需要一個半小時的時間，而研究級別的數(shù)學(xué)問題可能需要 1500 個小時才能解決，這是上千倍的思考時間。千禧年大獎難題更是耗費了整個領(lǐng)域的人畢生的精力，而且大多數(shù)問題至今仍沒有太大進展。所以，一方面，我們?nèi)〉昧巳绱舜蟮倪M步，令人興奮；另一方面，我們還有很長的路要走，從一個半小時到數(shù)萬、數(shù)十萬小時的人類思考時間，這也讓人感到自己的渺小。
Sonya Huang：完全同意。Noam，我覺得你在這方面很有前瞻性。我記得在你加入 OpenAI 之前，你就和我們聊過游戲領(lǐng)域的研究成果，以及如果讓模型思考數(shù)小時甚至數(shù)十小時會發(fā)生什么，你真的很有遠見。
Noam Brown：謝謝。是啊，能看到這些成為現(xiàn)實，很令人興奮。
Sonya Huang：那么，當把計算時間、推理時間從 0.1 分鐘級擴展到 100 分鐘級時，會遇到哪些困難呢？我想從一個較高的層面來了解，因為我們的聽眾大多不是人工智能研究人員，那么在保證模型正常運行方面，會遇到哪些難題呢？
Noam Brown：有一個很明顯的挑戰(zhàn)是，如果讓模型思考 1500 小時，那么為了評估它，也需要讓它思考 1500 小時，這樣模型的評估就會成為阻礙進度的一大障礙。目前我們還沒到那個階段，讓模型思考一個半小時不成問題，我們可以進行測試。但如果要進行一個需要模型思考一個月的測試，那就得等一個月才能出結(jié)果。如果要等這樣的結(jié)果，進展的速度就會大打折扣。
Sonya Huang：我覺得你們都在多智能體（multi-agent）團隊工作。能幫我理解一下multi-agent system在這其中扮演了什么角色嗎？
Noam Brown：除了讓模型長時間思考，在難以驗證的任務(wù)上取得較大進展，這還涉及到擴展并行計算，這其中就有multi-agent 的成分。具體的技術(shù)細節(jié)我們可能不便多說，但這確實是我們能夠為 IMO 擴展測試時計算的一種方式。順便說一下，關(guān)于multi-agent 和可擴展并行計算，我們在這方面的技術(shù)非常注重通用性。比如，我研究過撲克人工智能，Alex 和我都研究過外交人工智能，Alex 還是“西塞羅”團隊的成員。那些項目我都很自豪，但我們也花了好幾年才取得成果。而人工智能的發(fā)展速度如此之快，花時間開發(fā)一個只能完成單一任務(wù)的定制系統(tǒng)，似乎不是最佳選擇。所以我們都非常注重通用技術(shù)。我們在擴展思考時間、處理難以驗證的任務(wù)以及并行計算方面使用的技術(shù)，都是通用技術(shù)，我們計劃或?qū)⑦@些技術(shù)應(yīng)用到其他系統(tǒng)中。
Sonya Huang：這就是你們沒有選擇用 Lean 的原因嗎？我的理解是，今年 IMO 的官方人工智能賽道要求用 Lean 來解題。這就是你們不選擇用 Lean 的原因嗎？
Noam Brown：是的。我覺得 Lean 作為一個工具當然有其價值，比如數(shù)學(xué)家們覺得它很有用。但對于我們來說，我們的重點是通用推理能力，而 Lean 有其局限性，所以我們更傾向于使用自然語言。
Sonya Huang：以我這個外行人的理解，Lean 是一種形式化驗證工具。那么你們的成果是不是意味著，隨著規(guī)模的擴大，非形式化驗證能達到甚至超越形式化驗證的水平？這樣理解對嗎？
Sonya Huang：我不這么認為，我不覺得這是正確的結(jié)論。Alex 怎么看？
Alex Wei：我覺得這是兩個不同的方面。我們覺得非形式化數(shù)學(xué)是一個有趣的問題，因為它體現(xiàn)了在擴展測試時計算、處理難以驗證任務(wù)方面的核心難點，而這些難點在我們關(guān)注的眾多通用任務(wù)中都存在。我覺得 Lean 的應(yīng)用范圍有點狹窄，因為世界上很多問題都可以通過非形式化推理來解決，而不是都能形式化。
Noam Brown：我覺得專用人工智能沒什么不好，在某些領(lǐng)域，專用人工智能顯然遠超通用人工智能。我覺得正確的理解是，就像人類數(shù)學(xué)家能從 Lean 中獲益一樣，通用人工智能也能與專注于形式化數(shù)學(xué)的專用系統(tǒng)相輔相成，兩者結(jié)合會更好。
Sonya Huang：我在推特上看到很多 OpenAI 的朋友提到，我想你們也提到過這一點。這個系統(tǒng)的構(gòu)建方法和基礎(chǔ)設(shè)施，與 OpenAI 最近發(fā)布的很多產(chǎn)品相似，比如上周我們請到了 ChatGPT Agent 團隊的Isa Fulford 等人做客節(jié)目。能再說說這種相似的基礎(chǔ)和方法是什么嗎？
Sheryl Hsu：從基礎(chǔ)設(shè)施角度來說，我們都使用相同的基礎(chǔ)設(shè)施。但這個問題的核心是，就像 Noam 說的，這里沒有任何專門為IMO 定制的東西。我們希望能將Alex在非驗證任務(wù)和擴展測試時計算方面的研究技術(shù)，應(yīng)用到其他推理領(lǐng)域或提升模型的整體能力上，從而構(gòu)建更強大的模型，不斷改進agent、改進ChatGPT 等所有產(chǎn)品。
Sonya Huang：能說說 IMO 比賽當天的具體情況嗎？那是什么樣的體驗？
Noam Brown：我們一直在等題目公布，因為一旦參賽者考完試后，題目就會公布。我們大概在凌晨一點左右把題目輸入模型，說實話，我當時就去睡覺了，因為已經(jīng)凌晨一點了，我不想熬四個半小時等著看結(jié)果，早上醒來再看就行。但我覺得他們倆應(yīng)該熬夜了，看著模型并實時關(guān)注進展。
Sheryl Hsu：是啊，非常有趣。
Sonya Huang：有人想打電話嗎，說 “醒醒，醒醒，我們成功了”？
Noam Brown：有幾次 Alex 實在太累了，他決定小睡一會兒，我們告訴他，“好吧，確保手機開著聲音，萬一我們需要叫醒你，可以打電話給你。”有一次我們確實不得不給他打電話，但我覺得他沒醒。
Sonya Huang：太有意思了。那一定非常激動人心，尤其是在那個時候。你們凌晨一點開始，那大概早上九點就知道結(jié)果了吧？
Sheryl Hsu：哦，是四個半小時。
Sonya Huang：第一部分要四個半小時。
Sheryl Hsu：是啊，我也說不準。我們能看到題目出來，我主要是確保系統(tǒng)穩(wěn)定運行，Alex 則在一旁閱讀并查看模型的進展。
Sonya Huang：所以你是在現(xiàn)場人工驗證證明過程，看看是否正確嗎？
Alex Wei：我當然對結(jié)果非常焦慮，所以我會查看模型取得的部分進展，我們能觀察到這些。而且我也會手動檢查，雖然我們會把這些交給評分員，但我自己也很想手動檢查一下。
Sonya Huang：好吧，下次有這種事一定要叫上我，我也想?yún)⑴c，就算熬夜也愿意。聽起來太棒了。
Noam Brown：這些模型有個很酷的地方，就是雖然我看不懂證明過程，但當模型在思考時，它會用自然語言表達自己的不確定或自信，在整個過程中，它會說一些話，暗示它的狀態(tài)。比如，如果它非常確定自己找到了答案，就會經(jīng)常說 “很好”，如果不確定，就會用很多問號。所以雖然我不能確定它是否正確，但能跟著感受它的進展，這很有趣。
Sheryl Hsu：是啊，你會看到令人頭疼的“似乎很難”。第六題就出現(xiàn)了這個。出現(xiàn)了很多次。“沒有進展，很難。”“似乎很難。”“太糟糕了。”
Sonya Huang：太棒了。那展望未來，你們已經(jīng)在競賽數(shù)學(xué)中取得了最高成就。或許明年可以去參加普特南數(shù)學(xué)競賽，但基本上已經(jīng)站在頂端了，那接下來會做什么呢？
Alex Wei：是啊。其實對于普特南數(shù)學(xué)競賽的題目，我覺得因為每道題的時間比 IMO 短，而且更注重知識儲備，我們在評估中發(fā)現(xiàn)模型其實很擅長解普特南的題目，甚至比解 IMO 的題目更擅長。所以我覺得，現(xiàn)在的前沿已經(jīng)不再是這些有時間限制的競賽題，而是那些需要更長時間、更深入思考才能解決的問題。
Sonya Huang：這真的很酷。那你們接下來要開始證明新的定理了嗎？
Alex Wei：不過我覺得，有時間限制的競賽題和真正的研究突破之間，存在著巨大的差距，真正的研究突破可能需要一年的時間，也就是大約 1500 個小時，而不是 1.5 個小時。
Sonya Huang：是啊，完全同意。我最近聽了 Demis 的播客，他提到最難的其實是提出值得解決的有趣問題。我很好奇你們是否同意這個觀點。
Noam Brown：我覺得有一定道理，這些模型現(xiàn)在確實很擅長解決問題，而提出問題仍然是一個挑戰(zhàn)。但我也想說，我們正見證著驚人的進步速度，而且總會有下一個挑戰(zhàn)。最初語言模型出現(xiàn)時，問題是如何讓它們進行推理；然后我們做到了讓它們推理，但接著又面臨如何讓它們對難以驗證的任務(wù)進行推理的問題；現(xiàn)在它們已經(jīng)能做到這一點了。我覺得下一個挑戰(zhàn)將是如何讓它們提出新的問題。要知道，即便是出一道 IMO 的題目都很有挑戰(zhàn)性，需要很多數(shù)學(xué)家付出大量努力。但我認為，沒有什么根本性的障礙能阻止我們實現(xiàn)這一目標。
Sonya Huang：我很喜歡這個觀點。那你們在數(shù)學(xué)方面的成果，是否能完全推廣到其他領(lǐng)域呢？比如，在科學(xué)推理、一般推理方面也會更出色，也就是說，在競賽數(shù)學(xué)中表現(xiàn)出色，是否意味著在其他所有方面都能表現(xiàn)出色？
Alex Wei：我覺得我們的目標并不是要在競賽數(shù)學(xué)中表現(xiàn)出色，而是專注于開發(fā)通用技術(shù)，來改進我們的強化學(xué)習(xí)。我們非常期待能將這些技術(shù)應(yīng)用到數(shù)學(xué)之外的其他領(lǐng)域，希望能讓模型在日常使用中更有用。
Noam Brown：這是一個最新的成果，說實話，即使是 OpenAI 內(nèi)部的人也感到很驚訝。下一步是將其更廣泛地融入我們的模型中，全面提升推理能力。但這個過程需要時間，才能部署到實際應(yīng)用中。所以我覺得這一天會到來，但還需要一點時間。
Sonya Huang：對于這些模型來說，解 IMO 的題目和物理奧林匹克競賽的題目，哪個更難？
Alex Wei：我覺得肯定是物理奧林匹克競賽，因為它有一個實驗部分。
Sonya Huang：我們首先需要解決機器人技術(shù)的問題。我之前沒意識到這一點。我以為也只是在紙上答題。
Alex Wei：是啊，所以我覺得模型在筆試部分可能會表現(xiàn)不錯，但要完成實驗部分，還需要一段時間。
Sonya Huang：畢竟還沒有完善的世界模型，好的。那你們會發(fā)布這個模型讓用戶使用嗎？
Noam Brown：我們希望能讓數(shù)學(xué)家們用上這個模型，目前還在研究具體的實現(xiàn)方式。但我覺得我們開發(fā)出了一個在數(shù)學(xué)方面非常出色的系統(tǒng)，很想看看數(shù)學(xué)家們能用它來做些什么。其實我已經(jīng)和斯坦福大學(xué)的一位數(shù)學(xué)教授通過郵件了，大約一年前，在我們發(fā)布相關(guān)成果之前，他就通過郵件問我，要不要合作解決一些難的數(shù)學(xué)問題。我當時告訴他，我覺得我們只要提升通用推理能力，最終就能幫他解決那些難的數(shù)學(xué)問題，這也是最有希望的途徑。他當時有點懷疑，但每次我們發(fā)布新的推理模型，他都會通過郵件跟進，問這個模型能不能解決那個問題。我會把問題輸入模型，然后把輸出結(jié)果回復(fù)給他，他說還是不對。這次他又發(fā)郵件問同一個問題，問現(xiàn)在這個模型能不能解決。雖然還是不能解決，但至少這次模型意識到自己解決不了，我覺得這是一個很大的進步。我們也很想知道，數(shù)學(xué)家們還有其他問題想挑戰(zhàn)這個模型，看看它能不能解決。
Sonya Huang：太棒了，祝賀你們所有人。我覺得這是整個領(lǐng)域期待已久的重大成果，而且事實上是由三個人在兩個月內(nèi)完成的，這真是太了不起了。
訪談鏈接：
https://www.youtube.com/watch?v=EEIPtofVe2Q&ab_channel=SequoiaCapital
整理：小瑜
如需轉(zhuǎn)載或投稿，請直接在公眾號內(nèi)留言

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

一屏多用：華為Mate X7 / XTs折疊屏手機“變身”智能手卡

美國一法院放行馬斯克原560億美元薪酬方案

京東七鮮石家莊首店開業(yè)爆火，現(xiàn)烤花邊蛋撻單日售出超1萬只！

「AI新世代」沖刺“全球大模型第一股”！智譜叩開港股大門，大模型“淘金熱”進入資本成色檢驗時刻

歐洲刑警組織最新設(shè)想：2035年有可能爆發(fā)“機器人犯罪潮”

高德上線3D收費站：全國164城全覆蓋，安全島輪廓精準還原

全站最新

一屏多用：華為Mate X7 / XTs折疊屏手機“變身”智能手卡

美國一法院放行馬斯克原560億美元薪酬方案

京東七鮮石家莊首店開業(yè)爆火，現(xiàn)烤花邊蛋撻單日售出超1萬只！

「AI新世代」沖刺“全球大模型第一股”！智譜叩開港股大門，大模型“淘金熱”進入資本成色檢驗時刻

熱門推薦

一屏多用：華為Mate X7 / XTs折疊屏手機“變身”智能手卡

美國一法院放行馬斯克原560億美元薪酬方案

京東七鮮石家莊首店開業(yè)爆火，現(xiàn)烤花邊蛋撻單日售出超1萬只！

「AI新世代」沖刺“全球大模型第一股”！智譜叩開港股大門，大模型“淘金熱”進入資本成色檢驗時刻

歐洲刑警組織最新設(shè)想：2035年有可能爆發(fā)“機器人犯罪潮”

高德上線3D收費站：全國164城全覆蓋，安全島輪廓精準還原

廣汽能源：本月將推出機械臂式自動充電，明年兆瓦超充陸續(xù)落地

事關(guān)互聯(lián)網(wǎng)平臺定價促銷等行為，新規(guī)更好保護消費者和經(jīng)營者

OPPO Reno 15 Pro Mini參數(shù)曝光：天璣8450+1.5K高刷小直屏

Ubiquant團隊推出通用推理模型URM：讓AI像人類一樣循環(huán)思考

沒受輿論影響！俞敏洪曬東方甄選年會現(xiàn)場視頻，網(wǎng)友炸鍋了

小米HyperVL：讓手機也能擁有"火眼金睛"的AI大模型

清華大學(xué)開創(chuàng)性突破：讓AI能像福爾摩斯一樣"破解"假視頻的秘密

合肥工業(yè)大學(xué)團隊首創(chuàng)TIMAR：3D虛擬人實現(xiàn)真實對話交互

維也納大學(xué)團隊破解超雙曲幾何在強化學(xué)習(xí)中的訓(xùn)練難題