導(dǎo)讀:LLM逼近上限?圖靈獎得主Yann LeCun和Richard Sutton聯(lián)手唱衰,卻被Transformer之父Kaiser回擊!
AI沒有寒冬,只有資本與算力的熱浪!
Transformer的火種已燃燒七年。如今,推理模型(Reasoning Models)正點燃第二輪革命。
Transformer共同作者、OpenAI研究員?ukasz Kaiser預(yù)判:
未來一兩年,AI會極速躍升——瓶頸不在算法,而在GPU與能源。
推理模型正改寫規(guī)則,錢與電,才是決定勝負的「硬通貨」。

2017年,Transformer架構(gòu)橫空出世,八位共同作者載入AI史冊
值得關(guān)注的是,在ChatGPT問世前加盟OpenAI,?ukasz Kaiser此后一直專注研究推理模型——他認為這是繼2017年Transformer之后最重大的突破。
最近,他公開表示「推理模型」只是開端,還遠未到定義AI的終局時刻。但這也許正是最值得興奮的地方。
我們終于有了一種能思考的機器。現(xiàn)在該讓它少些花哨,多去把事情做完。
萬億美元的AI路線之爭
這是一場價值萬億美元的AI觀念之爭。
「通用人工智能」,已成為業(yè)界多數(shù)人追逐的目標——真正具備人類認知水平的通用智能體。
OpenAI一路燒錢燒資源,不斷Scaling,讓硅谷陷入「AGI狂熱」:LLM+數(shù)據(jù)+GPU+能源就是AGI!
OpenAI發(fā)布o3之時,經(jīng)濟學家Tyler Cowen認為AGI已誕生,2025年4月16日就是AGI日。

即便是Karpathy表示「AGI還需再等10年」,在美國灣區(qū)都會被認為對AI的前途太過悲觀。
但不是沒人唱反調(diào):
叫它沉沒成本也行,叫它包袱偏見也行,千萬別叫它智能。

硅谷的10萬億美元幻覺
強化學習之父、2024年圖靈獎得主、《苦澀的教訓》的作者Richard Sutton斷言,大語言模型已走入死胡同。
在他看來,語言大模型并沒有吸取任何「苦澀的教訓」。

換言之,他指出大語言模型存在關(guān)鍵缺陷:其改進能力存在極限,而這個極限遠比眾所周知的要近得多。
圖靈獎得主Yann LeCun多年來支持類似的觀點。

Ndea人工智能實驗室聯(lián)創(chuàng)、開源深度學習框架Keras之父François Chollet也這樣認為。
LLM是對AGI而言是斷頭路,所以他聯(lián)合他人發(fā)起百萬美元AI獎項ARC Prize,只為讓大家重新回到通向AGI的正確道路。

最近,?ukasz Kaiser公開反駁了「LLM是死胡同」這一觀點。
他雖不確定Sutton是否針對的推理型LLM,但推理模型存在著根本性突破:它們所需訓練數(shù)據(jù)量比傳統(tǒng)模型少幾個數(shù)量級。
這類模型能真正加速科研進程,本可以并行開展更多實驗,只是我們目前缺乏足夠的算力支撐。
歸根結(jié)底是算力瓶頸,關(guān)鍵在于GPU和能源。這才是根本性制約,目前所有實驗室都面臨同樣處境。這就是為何奧特曼為何瘋狂融資的原因。
推理革命
LLM推理正引起AI領(lǐng)域重大的范式轉(zhuǎn)移。
普通用戶很可能從未接觸過真正的推理型大語言模型。
即便使用過,也是通過GPT-5的路由系統(tǒng)間接調(diào)用,而他們對此并不知情。
推理模型具備以下能力:
能夠自我反思并發(fā)現(xiàn)自身思維鏈輸出中的錯誤,從而及時調(diào)整推理路徑;
當接收到解決復(fù)雜問題的指令時,可通過「深度思考」動態(tài)分配更多計算資源;
在推理過程中,直接調(diào)用外部工具執(zhí)行操作;
生成多條備選推理路徑,并自主篩選最優(yōu)解。
這已完全不同于GPT-4這類純自回歸大語言模型的時代。

而且推理模型(Reasoning Models)問世尚不足一年,遠未達到潛力上限。
在絕大多數(shù)推理密集型任務(wù)中,OpenAI的首個推理模型o1顯著優(yōu)于當時最強的通用模型GPT-4o。

它們不急著開口,會先在腦中「打個草稿」——推理、檢索、調(diào)用工具,像人類在回答問題前的那幾秒猶豫。
在這種模式下,AI不僅能接上對話,還能「搞定一件事」:寫完一份報告、排查一段代碼、核對數(shù)據(jù)庫。
?ukasz Kaiser把這看作一次靜悄悄的范式更替。「這就像從對話生成器,變成真正的思考者,」他說。
更讓他興奮的是,推理模型對數(shù)據(jù)的渴求小得多,卻能解決更難的問題。
在數(shù)學、程序分析這類結(jié)構(gòu)化任務(wù)上,效果尤其明顯。
16歲遇見AGI之父,AI日新月異
說來有趣,16歲時,?ukasz Kaiser的第一份有償工作就是為Ben Goertzel編程。

在2001年前后,Ben Goertzel正式使用并普及了「Artificial General Intelligence」(通用人工智能)這一術(shù)語,用以區(qū)別于當時的「Narrow AI」(狹義人工智能)。
而現(xiàn)在AGI卻被理解為完成人類能做的所有任務(wù)。
但現(xiàn)實是,AI與人類智能存在本質(zhì)差異。
它在某些領(lǐng)域(如游戲、數(shù)學題解答)已超越大多數(shù)人,但在物理世界相關(guān)事務(wù)上仍無能為力——
現(xiàn)在的機器人,依舊笨拙不堪。
這種差異化發(fā)展或許才是技術(shù)演進的常態(tài)。
因此,?ukasz Kaiser認為未來發(fā)展路徑將是:
AI能力會持續(xù)增強。但至少短期內(nèi),在物理世界相關(guān)領(lǐng)域仍將存在人類不可替代的工作,無論是技術(shù)上還是經(jīng)濟成本上。
比起概念爭論,現(xiàn)階段更值得關(guān)注的是推理模型帶來的變革。
過去一年最大的突破在于,AI已能真正勝任職場中的某些工作任務(wù),并且完成得相當出色——
不僅是秒級響應(yīng),更能持續(xù)工作數(shù)小時產(chǎn)出有價值成果。
這意味著我們可以將待辦事項交由AI處理,從而提升整體效率。無論是否稱之為AGI,AI正在變得越來越強大是不爭的事實。
編程領(lǐng)域就是最佳例證:自從AI開發(fā)者開始聚焦這個方向,進展令人震驚。
無論是Anthropic的Claude還是OpenAI的Codex,現(xiàn)在都能根據(jù)需求生成完整程序,耗時僅數(shù)小時。
它們擅長理解大型代碼庫、進行代碼審查、發(fā)現(xiàn)漏洞甚至安全威脅——這些能力在一年前還難以想象。
回想Claude 3.5約一年前發(fā)布時已是劃時代突破,當時SWE-Bench基準測試通過率約30%,如今已達75%。

三個月前,代碼模型還只是輔助工具,但現(xiàn)在卻能真正處理復(fù)雜代碼庫。這種指數(shù)級進步意味著什么,不言而喻。
AI發(fā)展如此之快,但有些人開始擔心我們正在進入另一個AI冬天。
?ukasz Kaiser卻相對樂觀。
AI的新范式:推理剛剛開始
過去,確實存在過Transformer范式,當時靠Transformer+Scaling,創(chuàng)造了ChatGPT。
當然,這種自回歸范式,即預(yù)測下一個詞,并在越來越多數(shù)據(jù)上訓練越來越大的模型,這樣已持續(xù)多年了。
通用的互聯(lián)網(wǎng)數(shù)據(jù),基本上已經(jīng)被使用完了。它已經(jīng)在所有這些數(shù)據(jù)上訓練過了。誰也無法輕易獲得比這多得多的(數(shù)據(jù))。

但新的推理范式,才剛剛開始。
?ukasz Kaiser覺得這個范式如此年輕,以至于它僅僅處在一個非常陡峭的上升路徑的起點。
就它未來的能力而言,我們已經(jīng)走了一小段路。所以,我們知道它已經(jīng)能做驚人的事情。
但我們還沒有真正地充分利用它。我們把它擴大了一點規(guī)模,但還可以有更多的擴展。有更多的研究方法可以讓它變得更好。所以,在這個新范式中,我們正處在一個陡峭的上升路徑上。

我們正見證新范式的上升趨勢,但它需要進一步深入研究:有些研究效果很好,有些則一般,你永遠不知道——這就是研究令人興奮的部分。
如果你把新舊范式兩者結(jié)合起來,那么你就需要開始準備——
AI冬天不會即將來臨,甚至在未來一兩年內(nèi)改進可能非常猛烈。
之后,世界將翻天覆地——這幾乎有點讓人害怕。
推理的突破真的非常大。
這不是偶然。GPT-4之前,OpenAI就開始研究推理模型,因為人們清楚地看到,僅僅純粹的Scaling在經(jīng)濟上不可行,我們需要一個新的范式。
?ukasz Kaiser認為現(xiàn)在的推理模型有點像早期的「RNN」,思考仍然是一步一步的。
未來,它們需要「多線并行思考」——
GPT-5 Pro已經(jīng)初步實現(xiàn)了這一點:同時運行多個思維鏈(chains of thought),然后讓它們「討論」并選出最佳答案。
這種方法可能帶來更快、更強的推理能力。
當前的重點:從任意數(shù)據(jù)中學習
當前推理模型最值得關(guān)注的突破點,?ukasz Kaiser認為是「從任意數(shù)據(jù)中學習」的能力。這是他最近研究的重點。
現(xiàn)行訓練方法需要標注數(shù)據(jù)正確與否,但現(xiàn)實世界的數(shù)據(jù)大多不像考試題目那樣非對即錯。
閱讀書籍時,人們不會糾結(jié)下一段文字是否正確,而是直接理解吸收。這種自然的學習方式才是更理想的范式。
GPT模型主要使用的是文字信息訓練。但OpenAI多模態(tài)訓練現(xiàn)在進展如何?
目前,ChatGPT確實已經(jīng)在進行多模態(tài)模型訓練了。
神經(jīng)網(wǎng)絡(luò)把音頻編碼成離散的音頻token(audio tokens),圖像也被編碼成圖像token(image tokens)——不是整張圖變成一個token,而是分成多個圖像塊。
然后模型通過預(yù)測下一個token來進行訓練。通過這種方式,它就能生成音頻、生成圖像。

而且這套方法有效到讓人驚訝。
總體來看,多模態(tài)訓練確實取得了成功。
早期,生成的圖片人物總是有六根手指,圖像文字更是慘不忍睹。
后來,大家增加了訓練數(shù)據(jù)、調(diào)整了編碼器結(jié)構(gòu)。雖然核心的Transformer序列模型架構(gòu)沒變,但AI生成效果已經(jīng)突飛猛進。
現(xiàn)在,AI不僅能生成報紙版面的完整文字,音頻也能唱歌、耳語、模仿各國口音。雖然偶爾還有瑕疵,但整體效果已經(jīng)令人驚嘆。
如果轉(zhuǎn)向音頻和視頻訓練,數(shù)據(jù)集規(guī)模將實現(xiàn)數(shù)量級增長——畢竟視頻包含的信息量極其龐大。
但?ukasz Kaiser提醒,視頻雖然數(shù)據(jù)量巨大,但大部分只是顏色、紋理等細節(jié),對推理和理解世界幫助有限。
AI需要學會「挑重點」,只提取有意義的部分(例如運動、因果、變化)。
文字讓模型理解「抽象世界」(邏輯、語言、思維),視頻訓練則讓它理解「現(xiàn)實世界」(物體、空間、動作、物理規(guī)律)。
語言模型已經(jīng)掌握了對抽象世界的建模,反而最欠缺的是人類最熟悉的物理世界的理解。
填補這個空白至關(guān)重要——這不僅能解決許多潛在問題,更是實現(xiàn)實用機器人的關(guān)鍵突破。
谷歌的Gemini 1.5 Robotics,已開始結(jié)合推理與視覺。

機器人會有「快反應(yīng)系統(tǒng)」(動作)+「慢思考系統(tǒng)」(推理)。
隨著視頻理解成熟,「機器人有大腦」 將真正成真。
OpenAI唯一的Transformer發(fā)明者
?ukasz Kaiser是OpenAI 研究員、Transformer 架構(gòu)創(chuàng)始人之一,此前曾任職于谷歌大腦團隊。

他專注于深度學習與自然語言處理的基礎(chǔ)研究,共同發(fā)明了Transformer架構(gòu)、推理模型及其他神經(jīng)序列模型,并參與開發(fā)了TensorFlow系統(tǒng)、Tensor2Tensor與Trax庫。

在投身機器學習領(lǐng)域之前,他曾任法國國家科學研究中心(CNRS)終身教職研究員,致力于邏輯學與自動機理論的研究。
他曾運用可滿足性求解器及其他符號化方法開發(fā)游戲?qū)?zhàn)系統(tǒng),并從事程序綜合研究。在理論探索方面,他完成了復(fù)雜性、博弈論和自動機領(lǐng)域的定理證明,解決了多個長期懸而未決的學術(shù)難題。
他于2008年獲得德國亞琛工業(yè)大學博士學位,本科及碩士階段畢業(yè)于波蘭弗羅茨瓦夫大學。





京公網(wǎng)安備 11011402013531號