當(dāng)全世界都在為ChatGPT的橫空出世而狂歡時,你可能不知道,這只是OpenAI一次“無心插柳”的驚喜。科技媒體Techcrunch一篇最新的深度文章揭示了,OpenAI從數(shù)學(xué)競賽走向“通用AI智能體”(AI Agents)的宏大愿景。這背后,是一個長達(dá)數(shù)年的深思熟慮的布局,以及其對AI“推理”能力的終極探索。
意外的起點(diǎn):數(shù)學(xué)
很多人以為OpenAI的成功故事是從ChatGPT開始的,但真正的顛覆性力量,卻源于一個看似與大眾應(yīng)用相去較遠(yuǎn)的地方——數(shù)學(xué)。
2022年,當(dāng)研究員亨特·萊特曼(Hunter Lightman)加入OpenAI時,他的同事們正在為ChatGPT的發(fā)布而忙碌。這款產(chǎn)品后來火遍全球,成為現(xiàn)象級的消費(fèi)應(yīng)用。但與此同時,萊特曼卻在一個不起眼的團(tuán)隊(duì)“MathGen”里,默默地教AI模型如何解答高中數(shù)學(xué)競賽題。
“我們當(dāng)時正努力讓模型在數(shù)學(xué)推理上做得更好”,Lightman回憶道。而這場看似偏離主線的探索,恰恰是OpenAI發(fā)展推理模型的起點(diǎn)。
為什么是數(shù)學(xué)?因?yàn)閿?shù)學(xué)是純粹邏輯和推理的試金石。如果一個模型能真正理解并解決復(fù)雜的數(shù)學(xué)問題,意味著它開始具備了初步的推理能力。
回過頭看,ChatGPT的成功更像一個“美麗的意外”——用內(nèi)部的話說,這是一個低調(diào)的研究預(yù)覽版,卻意外引爆了消費(fèi)市場。
但OpenAI的CEO山姆·奧特曼(Sam Altman)的目光,早已投向了更遠(yuǎn)的地方。在2023年的首屆開發(fā)者大會上,他清晰地描繪了未來:
最終,你只需告訴計算機(jī)你需要什么,它就會為你完成所有這些任務(wù)。這些能力,在AI領(lǐng)域通常被稱為智能體(Agents)。其帶來的好處將是巨大的。
而那項(xiàng)在當(dāng)年略顯“低調(diào)”的工作,成果斐然。近期,OpenAI的一個模型在國際數(shù)學(xué)奧林匹克競賽(IMO)中摘得金牌,這是全球頂尖高中生的智慧競技場。
OpenAI堅信,這種在數(shù)學(xué)領(lǐng)域磨練出的推理能力,完全可以遷移到其他領(lǐng)域,并最終驅(qū)動他們夢寐以求的通用AI智能體。
“草莓”計劃:引爆推理革命的關(guān)鍵突破
早期的GPT模型擅長處理文本,但在基礎(chǔ)數(shù)學(xué)面前卻常常“犯糊涂”。
從基礎(chǔ)的語言處理到復(fù)雜的邏輯推理,OpenAI是如何跨越這道鴻溝的?轉(zhuǎn)機(jī)發(fā)生在2023年,OpenAI通過一種創(chuàng)新的方法,實(shí)現(xiàn)了推理能力的飛躍。這一突破最初的內(nèi)部代號為“Q*”,后又被稱為“Strawberry”(草莓)。
其核心,是將三種技術(shù)進(jìn)行了前所未有的結(jié)合:
大語言模型(LLM):提供海量的知識基礎(chǔ)和語言能力。
強(qiáng)化學(xué)習(xí)(RL):在模擬環(huán)境中,通過“獎懲”機(jī)制(即反饋答案是否正確)來訓(xùn)練模型做出更優(yōu)選擇。這與當(dāng)年AlphaGo擊敗李世石的技術(shù)同源。
測試時計算(Test-time computation):給予模型更多的時間和算力去“思考”,在給出最終答案前,反復(fù)規(guī)劃、驗(yàn)證和檢查自己的步驟。
這個組合拳催生了一種全新的方法——“思考鏈”(Chain-of-Thought, CoT)。模型不再是直接給出答案,而是像人一樣,會展現(xiàn)出完整的解題思路。研究員埃爾·基什基(El Kishky)在描述當(dāng)時的場景時難掩興奮:
我能看到模型開始推理了。它會注意到錯誤并回溯,它會感到沮喪。這真的就像在閱讀一個人的思想。
這項(xiàng)突破直接促成了2024年秋天o1推理模型的問世。o1的出現(xiàn)震驚了世界,也讓其背后的21名核心研究員成為了硅谷最炙手可熱的人才。meta的扎克伯格不惜開出上億美元的薪酬包,挖走了其中五位,以組建其專注于超級智能的新部門。
探索AI“推理”的本質(zhì)
AI真的在“推理”嗎?還是只是更高級的模仿?
面對這個問題,OpenAI的研究員們表現(xiàn)得相當(dāng)務(wù)實(shí)。El Kishky從計算機(jī)科學(xué)的角度解釋:“我們正在教模型如何有效地消耗算力來得到答案。如果這樣定義,那它就是推理。”
另一位研究員Lightman則更關(guān)注結(jié)果:“如果模型能完成困難的任務(wù),那么它就在進(jìn)行某種必要的、近似于推理的過程。我們可以稱之為推理,但這只是為了創(chuàng)造出強(qiáng)大、有用工具的一種說法。”
非營利組織AI2的研究員Nathan Lambert用了一個絕妙的比喻:AI推理之于人類思考,就像飛機(jī)之于鳥類飛行。飛機(jī)并非通過模仿鳥類扇動翅膀來實(shí)現(xiàn)飛行,但它同樣征服了天空。AI的“推理”機(jī)制與人腦不同,但這并不妨礙它實(shí)現(xiàn)相似甚至更強(qiáng)大的結(jié)果。
這種對終極目標(biāo)的專注,而非拘泥于形式,恰恰是OpenAI文化的核心。據(jù)前員工透露,公司“一切研究都是自下而上的”,只要團(tuán)隊(duì)能證明其想法的突破性,公司就會傾斜寶貴的GPU和人才資源。正是這種對AGI(通用人工智能)使命的執(zhí)著,而非短期產(chǎn)品利益的追求,才讓OpenAI敢于在推理模型上進(jìn)行如此巨大的投入,并最終搶占先機(jī)。
下一個前沿:從客觀編碼到主觀任務(wù)
如今,AI智能體在一些定義明確、可驗(yàn)證的領(lǐng)域已經(jīng)初顯身手,例如幫助程序員完成編碼任務(wù)。但當(dāng)人們嘗試讓它處理更復(fù)雜、更主觀的任務(wù),比如“幫我找一個性價比最高的長期停車位”或“幫我規(guī)劃一次完美的家庭旅行”時,它們往往會犯一些低級錯誤,或者耗時過長。
這背后的核心瓶頸是什么?Lightman一針見血地指出:“和機(jī)器學(xué)習(xí)中的許多問題一樣,這是一個數(shù)據(jù)問題。”
如何訓(xùn)練模型處理那些沒有標(biāo)準(zhǔn)答案、更偏主觀的任務(wù),是當(dāng)前研究的前沿。OpenAI研究員Noam Brown透露,他們已經(jīng)掌握了新的通用強(qiáng)化學(xué)習(xí)技術(shù),可以訓(xùn)練模型學(xué)習(xí)那些不易驗(yàn)證的技能,IMO金牌模型就是基于此誕生的。該模型能生成多個“智能體分身”,同時探索不同解題路徑,最后選出最優(yōu)解。
這預(yù)示著AI的未來演進(jìn)方向:從單一模型到多智能體協(xié)作,從處理客觀事實(shí)到理解主觀意圖。
OpenAI的終極藍(lán)圖,是打造一個能為你處理互聯(lián)網(wǎng)上任何事情、并能心領(lǐng)神會你的偏好的超級智能體。這與今天的ChatGPT形態(tài)迥異,但其所有的研究,都堅定地指向這個方向。
毫無疑問,OpenAI曾是AI行業(yè)的絕對引領(lǐng)者,但如今,它面臨著來自Google、Anthropic、xAI和meta等一眾強(qiáng)勁對手的圍剿。問題已經(jīng)不再是OpenAI能否實(shí)現(xiàn)其“智能體未來”,而是它能否在被對手超越之前,率先抵達(dá)終點(diǎn)。這場關(guān)乎未來的競賽,才剛剛開始。





京公網(wǎng)安備 11011402013531號