編輯|冷貓
大模型的通用性和泛化性越來越強大了。
雖說一些新模型,比如說「差評如潮」的 GPT-5.2,在專業任務和智能水平已經達到了非常出色的水平,但離我們所認知的 AGI 依舊十分遙遠。
![]()
不過,這也說明了大家對 AGI 仍然充滿熱情和信心,說不定下一款重磅的大模型就能夠初步實現 AGI 的構想呢?
但是,近期卡耐基梅隆大學教授,AI2 研究科學家 Tim Dettmers發布了一篇長文博客,標題為《Why AGI Will Not Happen》,認為由于物理原因,我們無法實現 AGI,也無法實現任何有意義的超級智能
這篇文章著實給大家對 AGI 的熱情潑上了一盆冰水,引發了廣泛嘩然。
![]()
為什么 AGI 不會發生
這篇文章涉及到了硬件改進、通用人工智能(AGI)、超級智能、規模法則、人工智能泡沫以及相關話題。
![]()
博客鏈接:https://timdettmers.com/2025/12/10/why-agi-will-not-happen/
計算是物理的
許多思考 AGI、超級智能、縮放定律以及硬件進步的人,往往把這些概念當作抽象理念來看待,像哲學思想實驗一樣加以討論。這一切都建立在對 AI 與規模化的一個根本性誤解之上:計算是物理的。
要實現高效計算,你需要在兩件事情之間取得平衡:其一,把全局信息移動到局部鄰域;其二,將多份局部信息匯聚起來,把舊信息轉化為新信息。雖然局部計算的復雜性幾乎保持恒定 —— 更小的晶體管能夠大大加速這一過程,但移動到局部計算單元的距離呈平方級增長 —— 雖然也受益于更小的晶體管,但由于內存訪問模式的平方特性,改進效果很快變得次線性。
有兩個要點需要記住:第一,緩存越大,速度越慢。第二,隨著晶體管尺寸不斷縮小,計算變得越來越便宜,而內存在相對意義上卻變得越來越昂貴
如今計算單元在芯片中的占比已經微不足道,幾乎所有面積都被用來做內存。若在一塊芯片上實現 10 exaflops 的算力,但無法為它提供足夠的內存服務,于是這些 FLOPS 就成了 「無效算力」。
正因如此,像 Transformer 這樣的 AI 架構在本質上是物理的。我們的架構并非可以隨意構思、隨意拋出的抽象想法,而是對信息處理單元進行的物理層面的優化。
要有意義地處理信息,你需要做兩件事:一是計算局部關聯(MLP),二是將更遠處的關聯匯聚到局部鄰域中(注意力機制)。這是因為,僅靠局部信息只能幫助你區分高度相近的內容,而匯聚遠程信息則能讓你形成更復雜的關聯,用以對比或補充局部細節。
Transformer 架構以最簡單的方式結合了局部計算與全局信息匯聚,已經非常接近物理最優
計算是物理的,這一點對生物系統同樣成立。所有動物的計算能力都受限于其生態位中可獲得的熱量攝入。若大腦再大,人類將無法繁衍,因為無法提供足夠的能量。這使得我們當前的智能水平成為一個由于能量限制而無法跨越的物理邊界。
我們接近了數字計算的邊界。
線性進步需要指數級資源
這里同時存在兩種現實:一種是物理現實,另一種是觀念空間中的現實。
在物理現實中,如果你需要在時間和空間上聚集資源來產生某種結果,那么出于物流和組織的原因,想要在線性尺度上產出效果,往往就需要線性規模的資源投入。但由于物理性的限制,這些資源在空間或時間上會產生競爭,使得資源的匯聚速度必然越來越慢。
在觀念空間中,也存在著類似但不那么顯而易見的現象。如果兩個想法彼此完全獨立,它們疊加后的效果可能比任何一個單獨想法大上十倍。但如果這些想法彼此相關,那么由于邊際收益遞減,其總體影響就會受到限制。如果一個想法建立在另一個之上,它所能帶來的改進幅度是有限的。很多時候,只要存在依賴關系,其中一個想法就只是對另一個的細化或打磨。而這種 「精修式」 的想法,即便極富創造性,也只能帶來漸進式的改進。
當一個領域足夠龐大時,即便你刻意去研究看起來非常不同的思路,它們仍然與既有想法高度相關。比如,狀態模型和 Transformer 看似是兩種非常不同的注意力機制路線,但它們其實都在解決同一個問題。通過以這種方式改造注意力機制,所能獲得的收益都非常有限。
這種關系在物理學中表現得尤為明顯。曾經,物理學的進展可以由個體完成 —— 如今基本不再可能。
觀念空間的核心困境在于:如果你的想法仍然處在同一個子領域中,那么幾乎不可能產生有意義的創新,因為大多數東西早已被思考過了。因此,理論物理學家實際上只剩下兩條有意義的路可走:要么對現有思想進行漸進式的修補與細化,其結果是影響微乎其微;要么嘗試打破規則、提出非傳統的想法,這些想法或許很有趣,但卻很難對物理理論產生明確影響。
實驗物理則直觀地展示了物理層面的限制。為了檢驗越來越基礎的物理定律和基本粒子 —— 也就是標準模型 —— 實驗的成本正變得越來越高。標準模型并不完整,但我們并不知道該如何修補它。大型強子對撞機在更高能量下的實驗,只帶來了更多不確定的結果,以及對更多理論的否定。盡管我們建造了耗資數十億美元、日益復雜的實驗裝置,但我們依然不知道暗能量和暗物質究竟是什么。
如果你想獲得線性的改進,就必須付出指數級的資源。
GPU 不再進步了
我看到的最常見誤解之一是:人們默認硬件會一直不斷進步。幾乎所有 AI 的創新,都由 GPU 的效率提升所驅動。
AlexNet 之所以成為可能,是因為人們開發了最早的一批 CUDA 實現,使得卷積能夠在多張 GPU 上并行計算。此后的大多數創新,也主要依賴于更強的 GPU 以及更多 GPU 的使用。幾乎所有人都觀察到了這種模式 ——GPU 變強,AI 性能提升 —— 于是很自然地認為 GPU 還會繼續變強,并持續推動 AI 的進步。
實際上,GPU 已經不會再有實質性的提升了。我們基本已經見證了最后一代真正重要的 GPU 改進。GPU 在 「性能 / 成本」 這一指標上大約在 2018 年左右達到了峰值,此后加入的只是一些很快就會被消耗殆盡的一次性特性。
這些一次性特性包括:16 位精度、Tensor Core(或等價方案)、高帶寬內存(HBM)、TMA(或等價機制)、8 位精度、4 位精度。而現在,無論是在物理層面還是在觀念空間中,我們都已經走到了盡頭。我在論文中已經展示過 k-bit 推理縮放定律 :在特定塊大小和計算布局下,哪些數據類型是最優的。這些結論已經被硬件廠商采納。
任何進一步的改進,都不再是「純收益」,而只會變成權衡:要么用更低的計算效率換取更好的內存占用,要么用更高的內存占用換取更高的計算吞吐。即便還能繼續創新 —— 而因為線性進步需要指數級資源 —— 這些改進也將是微不足道的,無法帶來任何有意義的躍遷。
雖然 GPU 本身已經無法再顯著改進,但機架級(rack-level)的優化依然至關重要。
高效地搬運 KV cache 是當前 AI 基礎設施中最重要的問題之一。不過,這個問題的現有解決方案其實也相當直接。因為在這個問題上,基本只存在一種最優架構。實現起來當然復雜,但更多依賴的是清晰的思路,以及大量艱苦、耗時的工程工作,而不是新穎的系統設計。
無論是 OpenAI 還是其他前沿實驗室,在推理和基礎設施棧上都不存在根本性的優勢。唯一可能形成優勢的方式,是在機架級硬件優化或數據中心級硬件優化上略勝一籌。但這些紅利同樣會很快耗盡 —— 也許是 2026 年,也許是 2027 年。
為什么「規模化」并不足夠
我相信縮放定律,我也相信規模化確實能夠提升性能,像 Gemini 這樣的模型顯然是優秀的模型。
問題在于:過去,為了獲得線性改進,我們恰好擁有 GPU 指數級增長這一 「對沖因素」,它抵消了規模化所需的指數級資源成本。換句話說,以前我們投入大致線性的成本,就能獲得線性的回報;而現在,這已經變成了指數級成本
它意味著一個清晰且迅速逼近的物理極限。我們可能只剩下一年,最多兩年的規模化空間,因為再往后,改進將變得在物理上不可行。2025 年的規模化收益并不亮眼;2026 年和 2027 年的規模化,最好能真正奏效。
盡管成本呈指數級增長,目前的基礎設施建設在一定程度上仍然是合理的,尤其是在推理需求不斷增長的背景下。但這依然形成了一種非常脆弱的平衡。最大的問題在于:如果規模化帶來的收益不明顯優于研究或軟件層面的創新,那么硬件就會從「資產」 變成 「負債」。
像 MoonshotAI、Z.ai 這樣的中小型玩家已經證明,他們并不需要大量資源就能達到前沿性能。如果這些公司在 「超越規模化」 的方向上持續創新,它們完全有可能做出最好的模型。
規模化基礎設施面臨的另一個重大威脅在于:目前,大模型推理效率與龐大的用戶基數高度相關,這源于網絡層面的規模效應。要實現高效的大模型部署,需要足夠多的 GPU,才能在計算、網絡通信以及 KV-cache 分段之間實現有效重疊。這類部署在技術上極其高效,但必須依賴龐大的用戶規模才能實現充分利用,從而具備成本優勢。這也是為什么開源權重模型至今沒有產生人們預期中的影響 —— 因為大規模部署的基礎設施成本,要求必須有足夠大的用戶群體。
目前,vLLM 和 SGLang 主要在優化大規模部署,但它們并不能在小規模場景下提供同樣的效率。如果有一套超越 vLLM / SGLang 的推理棧,人們就可以用與 OpenAI 或 Anthropic 部署前沿模型幾乎相同的效率,來部署一個約 3000 億參數的模型。一旦較小模型變得更強(我們已經在 GLM 4.6 上看到了這一趨勢),或者 AI 應用變得更加垂直和專用,前沿實驗室的基礎設施優勢可能會在一夜之間消失。軟件復雜性會迅速蒸發,而開源、開權重的部署方案,可能在計算效率和信息處理效率上都接近物理最優。這對前沿玩家而言,是一個巨大的風險。
在規模化放緩的背景下,以下三種因素中的任何一個,都可能迅速而顯著地削弱 AI 基礎設施的價值:
(1)研究與軟件層面的創新;
(2)強大的開源權重推理棧;
(3)向其他硬件平臺的遷移。
從當前趨勢來看,這對前沿實驗室并不是一個樂觀的局面。
前沿 AI 路徑與理念
美國和中國在 AI 上采取了兩種截然不同的路徑。美國遵循的是一種「贏家通吃」的思路 —— 誰先構建出超級智能,誰就贏了。其核心信念是:把模型做到最大、最強,人自然會來。
中國的理念則不同。他們認為,模型能力本身并沒有應用重要。真正重要的是你如何使用 AI,這個模型是否實用、是否能以合理的成本帶來生產力提升。如果一種新方案比舊方案更高效,它就會被采用;但為了略微更好的效果而進行極端優化,往往并不劃算。在絕大多數情況下,「足夠好」 反而能帶來最大的生產力提升。
我認為,美國的這種理念是短視且問題重重的—— 尤其是在模型能力增速放緩的情況下。相比之下,中國的思路更加長期、更加務實。
AI 的核心價值在于:它是否有用,是否提升生產力。正因如此,它才是有益的。就像計算機和互聯網一樣,AI 顯然會被用到各個角落。這使得 AI 在全社會范圍內的經濟整合 對其有效性至關重要。
AGI 不會發生,超級智能是一種幻想
我注意到一個反復出現的模式:當你問硅谷的人 AGI 什么時候會到來,他們總會說 「再過幾年」,而且會帶來巨大沖擊。但當你進一步問他們 AGI 到底是什么,他們的定義里既不包含任何物理任務,也不考慮資源投入。
真正的 AGI—— 能夠做人類能做的一切 —— 必須具備執行物理任務的能力。簡而言之,AGI 必須包括能夠在現實世界中完成具有經濟意義工作的實體機器人或機器。
然而,盡管家用機器人或許能幫你把洗碗機里的碗拿出來,但你不會看到它們取代工廠里的專用系統。工廠中的專用機器人效率更高、精度更強。中國已經證明,「黑燈工廠」—— 完全自動化的工廠 —— 是可行的。在受控環境中,大多數機器人問題其實已經被解決。而那些尚未解決的機器人問題,往往在經濟上也并不劃算。比如,把 T 恤的袖子縫上去仍是一個未完全解決的機器人問題,但在大多數情境下,這件事并沒有多大的經濟意義。
機器人領域的根本問題在于:學習同樣遵循與語言模型相似的縮放定律。而物理世界的數據收集成本極其高昂,且現實世界的細節復雜到難以處理。
超級智能的根本謬誤
超級智能這一概念建立在一個錯誤前提之上:一旦出現與人類同等甚至更強的智能(即 AGI),這種智能就可以自我改進,從而引發失控式的爆炸增長。我認為這是一個對整個領域有害的、根本性錯誤的觀念。
其核心問題在于:它把智能視為一種純抽象的東西,而不是扎根于物理現實的系統。要改進任何系統,都需要資源。即便超級智能在利用資源方面比人類高效,它依然受制于我前面提到的縮放規律 —— 線性改進需要指數級資源。
因此,所謂超級智能,更像是在填補能力空白,而不是推動能力邊界外擴。填補空白是有用的,但它不會引發失控式增長,只會帶來漸進式改進
在我看來,任何以 「追求超級智能」為主要目標的組織,最終都會遭遇巨大困難,并被那些真正推動 AI 經濟擴散的參與者所取代。
是的,AGI 完全能夠發生
看了 Tim Dettmers 的博客心涼了半截,雖說有理有據,Dettmers 認為將 AGI 的發展建立在物理和成本限制的基礎上的觀點自然是正確的,規模擴大并不是魔法,智能的進化仍需要高昂的成本。
但我總覺得這個觀點有些偏激和悲觀。或許 AGI 并不等同于指數增加的算力,軟硬件發展或許仍有空間。
加州大學圣地亞哥分校助理教授 Dan Fu 對于 Dettmers 的博客持反對意見,他認為 Tim Dettmers 的分析遺漏了關于目前效率以及如何充分利用系統的關鍵信息,現在的系統仍有巨大的發展空間,目前還不存在實際意義上的限制。
![]()
這篇博客將論證當今的人工智能系統在軟件和硬件效率方面還有很大的提升空間,并概述幾條前進的道路。并將論證我們目前擁有的人工智能系統已經非常實用,即使它們不符合每個人對 AGI 的定義。
![]()
博客鏈接:https://danfu.org/notes/agi/
當今的人工智能系統被嚴重低估
Tim 的文章中一個核心論點是:當今的 AI 系統正在接近 「數字計算的極限」。這一論點隱含了兩個前提假設:其一,當下的模型(主要是 Transformer)已經極其高效;其二,GPU 的進步正在停滯 —— 因此,我們不應再期待通往 AGI 的進展能夠以同樣的方式繼續下去。
但如果你更仔細地審視實際的數據,就會發現情況并非如此。我們可以從訓練和推理兩個角度更深入地分析,這將揭示出截然不同的前景和潛在的前進方向。
訓練:當前的訓練效率遠未達到上限
今天最先進模型的訓練效率,其實比它 「本可以做到的」 要低得多 —— 我們之所以知道這一點,是因為它甚至比幾年前的效率還要低。一個觀察這一問題的方式,是看訓練過程中的 MFU(Mean FLOP Utilization,平均 FLOP 利用率)。這個指標衡量的是計算效率:你到底用了 GPU 理論算力的多少。
舉例來說,DeepSeek-V3 和 Llama-4 的訓練在 FP8 精度下只達到了大約 20% 的 MFU(。相比之下,像 BLOOM 這樣的開源訓練項目,早在 2022 年就已經達到了 50% 的 MFU。
這種效率差距主要來自幾個因素,其中一個重要原因是:DeepSeek-V3 和 Llama-4 都是 混合專家(MoE)模型。MoE 層在算術強度上不如稠密 GEMM(矩陣乘)—— 它們需要更多權重加載的 I/O、更小規模的矩陣乘操作,因此更難達到高 FLOP 利用率。結果就是:相對于計算量,它們需要更多通信。換句話說,當下的模型設計并不是為了在 GPU 上實現最高的訓練 FLOP 利用率。
此外,這些訓練本身也已經是在上一代硬件上完成的。Blackwell 架構芯片的 FP8 吞吐量是 Hopper 的 2.2 倍,并且還支持原生 FP4 Tensor Core。再加上像 GB200 這樣的機架級方案,以及通過 kernel 設計來實現計算與通信重疊,都可以緩解當前模型中的通信瓶頸。如果我們能實現高效、高質量、且 MFU 很高的 FP4 訓練,理論上可用的 FLOPs 將提升到 最多 9 倍。
推理:效率問題甚至更嚴重
在推理階段,情況實際上更糟。最優化的推理實現(例如 megakernel)甚至不再使用 MFU 作為指標,而是關注 MBU(Maximum Bandwidth Utilization,最大帶寬利用率)。
原因在于:自回歸語言模型的瓶頸通常并不在計算,而在于從 GPU 內存(HBM)把權重加載到片上存儲(SRAM / 寄存器 / 張量內存)。最頂級的優化實現,目標是盡可能隱藏這種延遲,目前大約能做到~70% 的 MBU。
但如果你把視角切換回 MFU,你會發現 FLOP 利用率往往是個位數(<5%)。
這并不是物理或硬件層面的根本極限。僅僅因為我們最早規模化的是自回歸架構(因此遇到了這些限制),并不意味著它們是唯一可行、也必須用來構建通用 AI 的架構。這個領域還很新,而我們幾乎可以控制所有變量 —— 無論是軟件(模型架構、kernel 設計等),還是硬件。
前進方向:還有大量可挖掘的空間
一旦你真正理解了當前所處的位置,就會發現有幾條非常清晰的前進路徑,可以讓我們更充分地利用硬件。這些方向并不輕松,但也并非天方夜譚 —— 事實上,每一條路徑上都已經有實際進展正在發生:
1. 訓練高效的架構協同設計(co-design)
設計能更好利用硬件的機器學習架構。這方面已經有大量優秀工作。例如,Simran Arora 關于硬件感知架構的研究,以及 Songlin Yang 關于高效注意力機制的工作,它們表明:
Transformer 并非只有一種形態,很多變體都能保持高質量;我們完全可以設計出在硬件利用率上更高、且能良好擴展的架構。
2. 高質量、 高效率的 FP4 訓練
如果能夠在 FP4 下完成訓練,我們就能獲得 2 倍的可用 FLOPs(推理側已經開始看到 FP4 帶來的加速)。目前已經有論文沿著這一方向展開探索,其中包括 Albert Tseng 和 NVIDIA 的一些非常出色的工作。
3. 推理高效的模型設計
如果我們能設計出在推理階段使用更多 FLOPs 的模型架構,就有可能顯著提升硬件利用率。這里值得關注的方向包括:
Inception Labs 和 Radical Numerics 的擴散式語言模型(diffusion LMs);Ted Zadouri 關于 「推理感知注意力機制」 的研究。巨大但尚未被充分利用的算力分布在全國乃至全球的手機和筆記本電腦上的計算資源 —— 能否找到辦法,把這些算力用于推理?
當下的 AI 訓練和推理范式中,仍然存在大量未被利用的余量。上述每一條研究方向,都是在嘗試填補這些空隙,讓我們用更高的硬件利用率訓練出高質量模型。
模型是硬件的滯后指標
第二個重要觀點是:模型的發布與能力水平,本質上是已經啟動的硬件建設以及新硬件特性的滯后反映。
這一點從第一性原理出發其實并不難理解 —— 從一個新集群上線,到有人在其上完成預訓練,再到后訓練結束、模型真正能夠通過 API 被使用,中間必然存在時間滯后。
集群規模(Cluster Size)
這里我再次以 DeepSeek-V3 為例 —— 我們非常清楚它使用了多少硬件、訓練了多長時間。DeepSeek-V3 的預訓練發生在 2024 年末,只使用了 2048 張 H800 GPU。即便在一年之后,它依然是開源模型生態中的重要參與者。
而我們也清楚,今天正在進行的集群建設規模要大得多:從初創公司部署的 4 萬卡集群,到前沿實驗室正在建設的 10 萬卡以上集群。僅從純粹的集群規模來看,這意味著高達 50 倍的算力建設正在發生。
新的硬件特性(New Hardware Features)
我們今天使用的大多數模型,在某種意義上也都是老模型,因為它們是在上一代硬件上訓練的。而新一代硬件帶來了新的特性,模型需要圍繞這些特性進行(重新)設計。
FP4 訓練,如果可行,是一個非常明確的突破方向;
GB200 的機架級通信域(NVL72 通過高速 NVlink 將 72 張 GPU 連接在一起)也是另一個極其清晰的突破點 —— 它們既能緩解第一點中提到的低 FLOP 利用率問題,也為探索全新的模型設計提供了杠桿。
我們目前仍然處在 Blackwell 硬件周期的非常早期階段。就在最近發布的 GPT-5.2,是最早一批使用 GB200 訓練的模型之一(盡管它似乎也同時使用了 H100 和 H200)。
此外,還有一些不那么顯眼、但同樣關鍵的硬件改進。一個例子是:在 B200 上,注意力計算是受限的,但瓶頸并不在 Tensor Core,而是在指數運算上。原因其實很簡單 ——Tensor Core 在代際升級中快了 2.2 倍,但超越函數單元(transcendental units)的數量或速度卻沒有同比增長。好消息是,這類問題相對容易解決。B300 將超越函數單元數量翻倍,這在一定程度上可以緩解這一瓶頸。
這些硬件改進當然需要工程投入,但再次強調 —— 這并不是什么火箭科學。這里存在大量唾手可得的低垂果實。
前進路徑
在理解了上述背景之后,我們可以給出一些具體且現實的前進方向,來進一步提升驅動頂級模型的有效算力:
1. 「加速等待」
在很大程度上,我們當前仍然是在觀察那些基于上一代集群預訓練的模型表現。而一些團隊已經完成或正在完成新一代超大規模集群的建設。這很可能只是一個等待模型發布的階段性問題。
2. 面向硬件的專項優化
還有大量工作可以圍繞新一代硬件特性展開:例如我們前面提到的 FP4;再如圍繞完整的機架級通信域來設計模型;或者針對 B200 / B300 上指數運算瓶頸的特性,對注意力機制進行適配和重構。
3. 新硬件與新的算力來源
最后,還有大量新硬件平臺正在涌現,以及配套的軟件棧,使它們能夠被 AI 所使用。如今的新硬件平臺幾乎層出不窮,許多都專注于推理場景,這里我不點名任何具體方案。但只要其中任何一個真正產生重大影響,整個局面都會被徹底改寫。
距離有用的 AGI 到底還有多遠?
最后一個觀點,關注點已經不再主要是系統層面或算力層面的 AI,而是 AGI 究竟意味著什么,以及要產生真實、可觀的影響究竟需要什么。
理解這一部分的一個角度是:即便世界上所有系統層面和效率層面的進步都突然停滯,那么距離 「有用的、類似 AGI 的能力」 真正落地,我們還差多遠?
如果你把 AGI 理解為一種 「魔法棒」—— 可以揮一揮就完成地球上任何一個人能做的任何事情 —— 那顯然我們還遠遠沒有到達那個階段。
但如果換一種更務實的定義:一套在某些任務上比大多數人做得更好、并能產生巨大經濟影響的通用工具體系,那我們或許并沒有想象中那么遙遠。
在這里,我認為有必要回頭看看僅僅兩三年前的狀態。無論是開源模型還是前沿模型,今天所能做到的許多事情,在當時幾乎都像是魔法。就我個人而言,像 Claude Code、Cursor Composer 這樣的工具,已經越過了一個關鍵閾值 —— 我寫的大多數代碼,已經是由模型生成的(這篇博客本身我倒還是用 「傳統方式」 寫的)。
在 GPU 內核工程這個領域,大模型帶來的影響,有幾點尤其讓我感到驚訝:
在人類參與的前提下,這些模型已經非常擅長編寫 GPU 內核代碼。它們還沒到完全零樣本(zero-shot)的程度,但只要提供足夠的上下文和引導,就可以實現跨越棧中多個部分的復雜功能。這本身就是一種極具挑戰性、且在現實中非常稀缺的工程能力,即便對資深程序員來說也是如此。這些模型在編寫工具鏈和構建可視化方面表現極佳,幫助我們理解下一步性能優化該往哪里推進 —— 從日志系統,到工作負載模擬,再到性能瓶頸的可視化分析。即便只在現有能力基礎上小幅前進,也不難想象模型能接管更大比例的技術棧,尤其是在人類參與的控制模式下。事實上,這一代模型已經好用得離譜了。
即使假設我們無法獲得任何更高效的新算法或新硬件,我們可能已經掌握了一種方法,可以構建在特定領域中解決或加速 95% 問題的通用 AI 智能體或模型
至少可以肯定的是,我們已經擁有了一整套工具,只要配合合適的數據收集方式(例如 RLHF、構建強化學習環境)以及領域專家知識,就能被遷移到各種不同問題中。編程之所以最先被攻克,一個很自然的原因是:幾乎所有 AI 研究者都會寫代碼,而它本身又具有極高的經濟價值。
當然,這里也正是 AI 研究的 「主戰場」。在上述約束條件下,我們仍然可以設想多種推進 「有用 AI 工具」 的方式:
1. 新的后訓練范式(Post-training formulas)
今天我們所說的后訓練,既新也舊 —— 新在具體實踐方式(大規模 RLHF、構建環境測試模型等),舊在其核心思想本身。市面上之所以會出現諸如 Tinker 以及各種微調 API 平臺,并非偶然。
2. 更好的樣本效率(Sample complexity)
構建在更少數據、更少樣本下也能學得更好的訓練系統,或者設計更優的數據篩選算法,以提升樣本效率。總體而言,「以數據為中心的 AI(data-centric AI)」這一研究群體,正持續在改善這一局面。
3. 傳統意義上的 「硬功夫」和領域經驗
最后,即便我們自縛雙手,假設模型能力完全不再提升 —— 仍然有大量應用場景和垂直領域,今天的 AI 模型就已經可以產生巨大影響。即使模型質量被凍結,系統層面的效率改進,也足以讓許多高影響力應用真正落地。
我們仍然處在理解和構建這項新技術的非常早期階段。從如何將其用于真實世界的影響,到如何讓它更好地為人類服務,還有大量工作要做。這是一個令人興奮的時代。
結論:通往 AGI 的多條道路
這篇博客的核心觀點是:當前的 AI 系統仍然存在巨大的提升空間,而通往更強 AI 的道路也遠不止一條。只要仔細觀察,你會發現通向至少一個數量級(10×)算力提升的具體路徑和研究議程。
回到這篇文章最初的動機:我非常欣賞 Tim 那篇博客的一點在于,它愿意直面從今天走向未來所必須跨越的具體障礙。我們可以共同設計更好地利用現有和未來硬件的新模型,也可以沿著多條路徑推進,構建更強、更有用的模型。而將潛在路障如此清晰地攤開討論,本身就為 「接下來該做什么、如何去做」 提供了一張路線圖。
三點總結
1. 當前 AI 系統對硬件的利用率極低。通過更好的模型–硬件協同設計,我們可以實現更高的 FLOP 利用率,獲得更多 「有用的 FLOPs」。
2. 當前模型是硬件建設的滯后指標 —— 無論是 GPU 的絕對數量,還是新硬件特性的利用程度。
3. 即便不依賴系統層面的進一步改進,我們仍然可以通過更好的算法,讓今天的模型在更廣泛的領域中變得極其有用。事實上,今天的模型已經非常有價值了。
當然,前方一定會有技術挑戰。但我個人非常歡迎這些挑戰,也期待看到研究者和工程師們接下來會給出怎樣的答案。從事 AI 與系統研究,從未有過比現在更好的時代,也從未如此令人興奮。
完整內容,請參閱原始博客。





京公網安備 11011402013531號