![]()
新智元報道
編輯:KingHZ
LLM逼近上限?圖靈獎得主Yann LeCun和Richard Sutton聯手唱衰,卻被Transformer之父Kaiser回擊!
AI沒有寒冬,只有資本與算力的熱浪!
Transformer的火種已燃燒七年。如今,推理模型(Reasoning Models)正點燃第二輪革命。
Transformer共同作者、OpenAI研究員?ukasz Kaiser預判:
未來一兩年,AI會極速躍升——瓶頸不在算法,而在GPU與能源。
推理模型正改寫規則,錢與電,才是決定勝負的「硬通貨」。
![]()
2017年,Transformer架構橫空出世,八位共同作者載入AI史冊
值得關注的是,在ChatGPT問世前加盟OpenAI,?ukasz Kaiser此后一直專注研究推理模型——他認為這是繼2017年Transformer之后最重大的突破。
最近,他公開表示「推理模型」只是開端,還遠未到定義AI的終局時刻。但這也許正是最值得興奮的地方。
我們終于有了一種能思考的機器。現在該讓它少些花哨,多去把事情做完。
萬億美元的AI路線之爭
這是一場價值萬億美元的AI觀念之爭。
「通用人工智能」,已成為業界多數人追逐的目標——真正具備人類認知水平的通用智能體。
OpenAI一路燒錢燒資源,不斷Scaling,讓硅谷陷入「AGI狂熱」:LLM+數據+GPU+能源就是AGI!
OpenAI發布o3之時,經濟學家Tyler Cowen認為AGI已誕生,2025年4月16日就是AGI日。
![]()
即便是Karpathy表示「AGI還需再等10年」,
但不是沒人唱反調:
叫它沉沒成本也行,叫它包袱偏見也行,千萬別叫它智能。
![]()
硅谷的10萬億美元幻覺
強化學習之父、2024年圖靈獎得主、《苦澀的教訓》的作者Richard Sutton斷言,。
在他看來,語言大模型并沒有吸取任何「苦澀的教訓」。
![]()
換言之,他指出大語言模型存在關鍵缺陷:其改進能力存在極限,而這個極限遠比眾所周知的要近得多。
圖靈獎得主。
![]()
Ndea人工智能實驗室聯創、開源深度學習框架Keras之父Fran?ois Chollet也這樣認為。
LLM是對AGI而言是斷頭路,所以他聯合他人發起百萬美元AI獎項ARC Prize,只為讓大家重新回到通向AGI的正確道路。
![]()
最近,?ukasz Kaiser公開反駁了「LLM是死胡同」這一觀點。
他雖不確定Sutton是否針對的推理型LLM,但推理模型存在著根本性突破:它們所需訓練數據量比傳統模型少幾個數量級。
這類模型能真正加速科研進程,本可以并行開展更多實驗,只是我們目前缺乏足夠的算力支撐。
歸根結底是算力瓶頸,關鍵在于GPU和能源。這才是根本性制約,目前所有實驗室都面臨同樣處境。這就是為何奧特曼為何瘋狂融資的原因。
推理革命
LLM推理正引起AI領域重大的范式轉移。
普通用戶很可能從未接觸過真正的推理型大語言模型。
即便使用過,也是通過GPT-5的路由系統間接調用,而他們對此并不知情。
推理模型具備以下能力:
能夠自我反思并發現自身思維鏈輸出中的錯誤,從而及時調整推理路徑;
當接收到解決復雜問題的指令時,可通過「深度思考」動態分配更多計算資源;
在推理過程中,直接調用外部工具執行操作;
生成多條備選推理路徑,并自主篩選最優解。
這已完全不同于GPT-4這類純自回歸大語言模型的時代。
![]()
而且推理模型(Reasoning Models)問世尚不足一年,遠未達到潛力上限。
在絕大多數推理密集型任務中,OpenAI的首個推理模型o1顯著優于當時最強的通用模型GPT-4o。
![]()
它們不急著開口,會先在腦中「打個草稿」——推理、檢索、調用工具,像人類在回答問題前的那幾秒猶豫。
在這種模式下,AI不僅能接上對話,還能「搞定一件事」:寫完一份報告、排查一段代碼、核對數據庫。
?ukasz Kaiser把這看作一次靜悄悄的范式更替。「這就像從對話生成器,變成真正的思考者,」他說。
更讓他興奮的是,推理模型對數據的渴求小得多,卻能解決更難的問題。
在數學、程序分析這類結構化任務上,效果尤其明顯。
16歲遇見AGI之父,AI日新月異
說來有趣,16歲時,?ukasz Kaiser的第一份有償工作就是為Ben Goertzel編程。
![]()
在2001年前后,Ben Goertzel正式使用并普及了「Artificial General Intelligence」(通用人工智能)這一術語,用以區別于當時的「Narrow AI」(狹義人工智能)。
而現在AGI卻被理解為完成人類能做的所有任務。
但現實是,AI與人類智能存在本質差異。
它在某些領域(如游戲、數學題解答)已超越大多數人,但在物理世界相關事務上仍無能為力——
現在的機器人,依舊笨拙不堪。
這種差異化發展或許才是技術演進的常態。
因此,?ukasz Kaiser認為未來發展路徑將是:
AI能力會持續增強。但至少短期內,在物理世界相關領域仍將存在人類不可替代的工作,無論是技術上還是經濟成本上。
比起概念爭論,現階段更值得關注的是推理模型帶來的變革。
過去一年最大的突破在于,AI已能真正勝任職場中的某些工作任務,并且完成得相當出色——
不僅是秒級響應,更能持續工作數小時產出有價值成果。
這意味著我們可以將待辦事項交由AI處理,從而提升整體效率。無論是否稱之為AGI,AI正在變得越來越強大是不爭的事實。
編程領域就是最佳例證:自從AI開發者開始聚焦這個方向,進展令人震驚。
無論是Anthropic的Claude還是OpenAI的Codex,現在都能根據需求生成完整程序,耗時僅數小時。
它們擅長理解大型代碼庫、進行代碼審查、發現漏洞甚至安全威脅——這些能力在一年前還難以想象。
回想Claude 3.5約一年前發布時已是劃時代突破,當時SWE-Bench基準測試通過率約30%,如今已達75%。
![]()
三個月前,代碼模型還只是輔助工具,但現在卻能真正處理復雜代碼庫。這種指數級進步意味著什么,不言而喻。
AI發展如此之快,但有些人開始擔心我們正在進入另一個AI冬天。
?ukasz Kaiser卻相對樂觀。
AI的新范式:推理剛剛開始
過去,確實存在過Transformer范式,當時靠Transformer+Scaling,創造了ChatGPT。
當然,這種自回歸范式,即預測下一個詞,并在越來越多數據上訓練越來越大的模型,這樣已持續多年了。
通用的互聯網數據,基本上已經被使用完了。它已經在所有這些數據上訓練過了。誰也無法輕易獲得比這多得多的(數據)。
![]()
但新的推理范式,才剛剛開始。
?ukasz Kaiser覺得這個范式如此年輕,以至于它僅僅處在一個非常陡峭的上升路徑的起點。
就它未來的能力而言,我們已經走了一小段路。所以,我們知道它已經能做驚人的事情。
但我們還沒有真正地充分利用它。我們把它擴大了一點規模,但還可以有更多的擴展。有更多的研究方法可以讓它變得更好。所以,在這個新范式中,我們正處在一個陡峭的上升路徑上。
![]()
我們正見證新范式的上升趨勢,但它需要進一步深入研究:有些研究效果很好,有些則一般,你永遠不知道——這就是研究令人興奮的部分。
如果你把新舊范式兩者結合起來,那么你就需要開始準備——
AI冬天不會即將來臨,甚至在未來一兩年內改進可能非常猛烈。
之后,世界將翻天覆地——這幾乎有點讓人害怕。
推理的突破真的非常大。
這不是偶然。GPT-4之前,OpenAI就開始研究推理模型,因為人們清楚地看到,僅僅純粹的Scaling在經濟上不可行,我們需要一個新的范式。
?ukasz Kaiser認為現在的推理模型有點像早期的「RNN」,思考仍然是一步一步的。
未來,它們需要「多線并行思考」——
GPT-5 Pro已經初步實現了這一點:同時運行多個思維鏈(chains of thought),然后讓它們「討論」并選出最佳答案。
這種方法可能帶來更快、更強的推理能力。
當前的重點:從任意數據中學習
當前推理模型最值得關注的突破點,?ukasz Kaiser認為是「從任意數據中學習」的能力。這是他最近研究的重點。
現行訓練方法需要標注數據正確與否,但現實世界的數據大多不像考試題目那樣非對即錯。
閱讀書籍時,人們不會糾結下一段文字是否正確,而是直接理解吸收。這種自然的學習方式才是更理想的范式。
GPT模型主要使用的是文字信息訓練。但OpenAI多模態訓練現在進展如何?
目前,ChatGPT確實已經在進行多模態模型訓練了。
神經網絡把音頻編碼成離散的音頻token(audio tokens),圖像也被編碼成圖像token(image tokens)——不是整張圖變成一個token,而是分成多個圖像塊。
然后模型通過預測下一個token來進行訓練。通過這種方式,它就能生成音頻、生成圖像。
![]()
而且這套方法有效到讓人驚訝。
總體來看,多模態訓練確實取得了成功。
早期,生成的圖片人物總是有六根手指,圖像文字更是慘不忍睹。
后來,大家增加了訓練數據、調整了編碼器結構。雖然核心的Transformer序列模型架構沒變,但AI生成效果已經突飛猛進。
現在,AI不僅能生成報紙版面的完整文字,音頻也能唱歌、耳語、模仿各國口音。雖然偶爾還有瑕疵,但整體效果已經令人驚嘆。
如果轉向音頻和視頻訓練,數據集規模將實現數量級增長——畢竟視頻包含的信息量極其龐大。
但?ukasz Kaiser提醒,視頻雖然數據量巨大,但大部分只是顏色、紋理等細節,對推理和理解世界幫助有限。
AI需要學會「挑重點」,只提取有意義的部分(例如運動、因果、變化)。
文字讓模型理解「抽象世界」(邏輯、語言、思維),視頻訓練則讓它理解「現實世界」(物體、空間、動作、物理規律)。
語言模型已經掌握了對抽象世界的建模,反而最欠缺的是人類最熟悉的物理世界的理解。
填補這個空白至關重要——這不僅能解決許多潛在問題,更是實現實用機器人的關鍵突破。
谷歌的Gemini 1.5 Robotics,已開始結合推理與視覺。
![]()
機器人會有「快反應系統」(動作)+「慢思考系統」(推理)。
隨著視頻理解成熟,「機器人有大腦」將真正成真。
OpenAI唯一的Transformer發明者
?ukasz Kaiser是OpenAI 研究員、Transformer 架構創始人之一,此前曾任職于谷歌大腦團隊。
![]()
他專注于深度學習與自然語言處理的基礎研究,共同發明了Transformer架構、推理模型及其他神經序列模型,并參與開發了TensorFlow系統、Tensor2Tensor與Trax庫。
![]()
在投身機器學習領域之前,他曾任法國國家科學研究中心(CNRS)終身教職研究員,致力于邏輯學與自動機理論的研究。
他曾運用可滿足性求解器及其他符號化方法開發游戲對戰系統,并從事程序綜合研究。在理論探索方面,他完成了復雜性、博弈論和自動機領域的定理證明,解決了多個長期懸而未決的學術難題。
他于2008年獲得德國亞琛工業大學博士學位,本科及碩士階段畢業于波蘭弗羅茨瓦夫大學。
參考資料:
https://www.youtube.com/watch?v=gdPMNZo4Vb8
https://www.youtube.com/watch?v=ILRrrntPwj0
https://www.freethink.com/robots-ai/arc-prize-agi





京公網安備 11011402013531號