Andrej Karpathy 年度總結：Nano Banana最為震撼，指向下一代 AI GUI 的雛形

IP屬地中國·北京 AI寒武紀 時間：2025-12-20 10:14:09

↑閱讀之前記得關注+星標??，，每天才能第一時間接收到更新
AK的年終總結來了，這是不可錯過的好文，全文分享給大家

2025 年是大型語言模型（LLM）領域蓬勃發展、大事頻發的一年。以下是我個人認為最值得關注且略感意外的“范式轉變”清單——這些變化改變了行業格局，并在理念上讓我深受觸動
1. 基于可驗證獎勵的強化學習（RLVR）
在 2025 年初，各大實驗室的 LLM 生產流程大體如下：
預訓練（Pretraining，約 2020 年的 GPT-2/3）
指令微調（Supervised Finetuning，約 2022 年的 InstructGPT）
基于人類反饋的強化學習（RLHF，約 2022 年）
長期以來，這一直是訓練生產級 LLM 的成熟穩定配方。而到了 2025 年，基于可驗證獎勵的強化學習（RLVR） 成了這一組合中事實上的新成員。通過針對一系列可自動驗證獎勵的環境（例如數學題或代碼謎題）進行訓練，LLM 會自發地演化出在人類看來類似于“推理”的策略——它們學會了將問題拆解為中間計算步驟，并學會了多種來回嘗試、推導解決問題的策略（參見 DeepSeek R1 論文中的示例）。在之前的范式中，這些策略很難實現，因為人類并不清楚 LLM 最優的推理路徑和糾錯過程應該是怎樣的——模型必須通過針對獎勵的優化，自己找到行之有效的方法。
與 SFT 和 RLHF 這類計算量較小的“輕量級”微調階段不同，RLVR 針對的是客觀（不可作弊）的獎勵函數，這使得進行更長周期的優化成為可能。事實證明，運行 RLVR 具有極高的“能力/成本比”，它吞噬了原本計劃用于預訓練的算力。因此，2025 年的大部分能力提升，都源于各大實驗室在消化這一新階段帶來的“算力積壓”，總體上我們看到的模型參數規模變動不大，但 RL 運行的時間要長得多。同樣，這一新階段還帶了一個全新的調節旋鈕（以及相關的縮放定律）：我們可以通過生成更長的推理路徑、增加“思考時間”，來控制模型在推理時的能力表現。OpenAI 的 o1（2024 年底）是 RLVR 模型的首次展示，但 o3 的發布（2025 年初）才是明顯的拐點，讓你能直觀感受到這種差異。
2. 幽靈 vs. 動物 / 鋸齒狀智能
2025 年，我（以及我認為整個行業也是如此）開始從直覺上內化 LLM 智能的“形態”。我們并不是在“進化或培養動物”，而是在“召喚幽靈”。LLM 技術棧的一切（神經架構、訓練數據、訓練算法，尤其是優化壓力）都完全不同，因此產生出完全不同于生物智能的實體也就不足為奇了，用觀察動物的視角來看待它們是不恰當的。
從監督信息的比特位來看，人類神經網絡是為了在叢林部落中生存而優化的；而 LLM 神經網絡是為了模仿人類文本、在數學題中獲取獎勵、以及在 LM Arena 榜單上獲得人類點贊而優化的。隨著可驗證領域的出現，RLVR 使得 LLM 在這些領域附近的能力出現“激增”，整體表現出一種有趣的**“鋸齒狀”性能特征**：它們既是博學的天才，又像是個思維混亂、有認知障礙的小學生，前一秒還在解難題，后一秒就可能被簡單的提示詞破解（Jailbreak）從而泄露你的數據。

與此相關的是，我在 2025 年對各種基準測試（Benchmarks）產生了普遍的審美疲勞和信任危機。核心問題在于，基準測試從定義上幾乎就是“可驗證環境”，因此極易受到 RLVR 或更弱形式的合成數據生成的攻擊。在典型的“刷榜（benchmaxxing）”過程中，實驗室團隊不可避免地在測試集周圍構建環境，長出“鋸齒”來覆蓋這些區域。“面向測試集訓練”已經成了一種新的藝術形式。
如果一個模型刷爆了所有榜單，卻依然沒能實現通用人工智能（AGI），那會是怎樣的景象？
3. Cursor / 新一代 LLM 應用層
關于 Cursor，最令我觸目的（除了它今年的彗星般崛起）是它令人信服地揭示了“LLM 應用”的新層級——人們開始討論各行各業的“Cursor 版”。正如我在今年的 Y Combinator 演講中所強調的，像 Cursor 這樣的 LLM 應用為特定垂直領域封裝并編排了 LLM 調用：
它們處理“上下文工程”
它們在底層編排多個 LLM 調用，將其串聯成日益復雜的有向無環圖（DAG），精細平衡性能和成本
它們為人類參與提供特定應用的圖形界面（GUI）。
它們提供了一個“自主程度調節滑塊”
2025 年有很多關于這個新應用層究竟會有多“厚”的討論。LLM 實驗室會通吃所有應用，還是會給垂直應用留下肥沃的草原？我個人懷疑，LLM 實驗室傾向于培養出能力全面的“大學生”，而 LLM 應用則會通過提供私有數據、傳感器、執行器和反饋閉環，來組織、微調并真正驅動這些“大學生”團隊，使之成為特定領域的專業從業者。
4. Claude Code / 住在你電腦里的 AI
Claude Code (CC) 的出現，是 LLM 智能體（Agent）的第一次令人信服的展示——它能以循環往復的方式串聯工具調用和推理，進行長時間的問題解決。此外，CC 令我關注的一點是，它運行在你的電腦上，使用你的私有環境、數據和上下文。我認為 OpenAI 在這方面走偏了，因為他們把 Codex/智能體的重心放在了云端容器，通過 ChatGPT 編排，而不是放在 localhost（本地）。雖然云端運行的智能體集群感覺像是“AGI 的終局”，但我們生活在一個能力參差不齊、技術緩慢起步的過渡世界，直接在電腦上運行智能體，與開發者及其具體配置手拉手工作，反而更有意義。CC 抓住了這個優先順序，并將其打包成一個精美、極簡、令人信服的命令行（CLI）形態，改變了 AI 的樣貌——它不再是一個像 Google 那樣你主動訪問的網站，而是一個“住”在你電腦里的靈體/幽靈。這是一種全新的、獨特的 AI 交互范式
5. Vibe coding
2025 年，AI 跨越了一個能力閾值，使得人們僅憑英語就能構建各種令人驚嘆的程序，甚至完全忘記了代碼的存在。有趣的是，“Vibe coding”這個詞是我在一條淋浴時的胡思亂想推文里偶然創造的，完全沒料到它會流傳這么廣。
有了Vibe coding，編程不再是受過高度訓練的專業人士的專利，而是任何人都能做的事。在這方面，它再次印證了我之前在《權力歸于人民》中所寫的：LLM 如何反轉了技術擴散的腳本——與以往所有技術不同，普通人從 LLM 中獲益遠多于專業人士、企業和政府。不僅普通人能嘗試編程，受過訓練的專業人士也能寫出更多（氛圍編碼產生的）原本根本不會去寫的軟件。在開發 nanochat 時，我用 Rust 氛圍編碼了我自己的高效 BPE 分詞器，而不需要去尋找現有庫或在那個深度學習 Rust。今年我氛圍編碼了許多項目，作為我想要存在的東西的快速 Demo。我甚至為了找一個 Bug 氛圍編碼了整個臨時應用——因為代碼突然變得免費、瞬時、可塑，用完即棄。氛圍編碼將重塑軟件生態，并改變職業定義。
6. Nano Banana / LLM 圖形界面
Google Gemini Nano Banana 是 2025 年最令人震撼、最具范式轉移意義的模型之一。在我的世界觀里，LLM 是繼 1970、80 年代計算機之后的下一次重大計算范式。因此，我們將看到基于類似邏輯的類似創新：我們將看到個人計算的等價物、微控制器的等價物（認知核心）、互聯網的等價物（智能體網絡）等等。
特別是在 UI/UX 方面，與 LLM 對話有點像在 80 年代向電腦控制臺輸入命令。文本是計算機（和 LLM）偏好的原始數據表示，但它并不是人類偏好的格式，尤其是在輸入端。人類其實不喜歡讀長篇大論——這很慢且費勁。相反，人類喜歡以視覺和空間方式消耗信息，這就是傳統計算中 GUI 被發明的原因。同理，LLM 也應該以我們偏好的格式與我們交流——通過圖像、信息圖、幻燈片、白板、動畫/視頻、網頁應用等。
這種模式的早期和現狀當然是 Emoji 和 Markdown，它們是裝飾和排版文本的方式。但誰來真正構建“LLM GUI”呢？在這種視角下，Nano Banana 是這種可能性的早期雛形。重要的是，它的顯著特征不僅在于圖像生成本身，而在于由文本生成、圖像生成和世界知識在模型權重中交織而成的聯合能力。
簡而言之： 2025 年是 LLM 領域激動人心且略帶意外的一年。LLM 正在演變成一種新型智能，它比我預期的要聰明得多，同時也比我預期的要笨得多。無論如何，它們都極其有用，我認為即便以目前的能力，整個行業實現出的潛力還不到 10%。與此同時，還有太多的想法值得嘗試，從概念上講，這個領域依然大有可為。正如我今年早些時候在 Dwarkesh 的播客中所說：我同時相信（表面上看似矛盾）我們會看到持續且飛速的進展，但依然有大量艱苦的工作等待完成。
坐穩了，好戲才剛開始。
source：
https://x.com/karpathy/status/2002118205729562949
--end--
最后記得??我，每天都在更新：歡迎點贊轉發推薦評論，別忘了關注我

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

羅永浩錘子軟件在上海成立分公司

豆包視頻生成大升級，網友們的腦洞終于自帶音效了

字節跳動被傳全年利潤500億美元創新高知情人士回應：數據不實偏差較大

大疆的“印鈔機”，被手機廠商盯上了

特斯拉專利給攝像頭裝“電動墨鏡”提升自動駕駛可靠性

獨家丨山姆系高管入職京東數月「閃退」，其負責的自有品牌事業部接連調整

全站最新

羅永浩錘子軟件在上海成立分公司

豆包視頻生成大升級，網友們的腦洞終于自帶音效了

字節跳動被傳全年利潤500億美元創新高知情人士回應：數據不實偏差較大

大疆的“印鈔機”，被手機廠商盯上了

熱門推薦

羅永浩錘子軟件在上海成立分公司

豆包視頻生成大升級，網友們的腦洞終于自帶音效了

字節跳動被傳全年利潤500億美元創新高知情人士回應：數據不實偏差較大

大疆的“印鈔機”，被手機廠商盯上了

特斯拉專利給攝像頭裝“電動墨鏡”提升自動駕駛可靠性

獨家丨山姆系高管入職京東數月「閃退」，其負責的自有品牌事業部接連調整

笑瘋了！AI開小賣部被人類騙到破產，PS5竟然0元送

「一腦多形」圓桌：世界模型、空間智能在具身智能出現了哪些具體進展？丨GAIR 2025

奧動新能源港股IPO：“報表優化”后的盈利迷霧

Karpathy2025年AI終極復盤：我們還沒發揮出LLM潛力的10%

百人會張永偉：2026年車市2%微增長，行業出清將加速

為船舶配備“AI 護航員” 我國首套全國產化VTS系統落地大連

說句話就能改文檔！微軟Copilot新增語音實時編輯功能

保時捷718純電版被拍到開啟第四輪冬測，研發周期破紀錄

維基百科聯合創始人：馬斯克的Grokipedia受到批評，我并不感到驚訝

首頁

資訊

財經號

智能車

專題

電商資訊

人物資訊

滾動資訊

首頁

新科技

新金融

新零售

智能車

房地產

科技探索

人物資訊

網絡游戲

人工智能

Andrej Karpathy 年度總結：Nano Banana最為震撼，指向下一代 AI GUI 的雛形

首頁

資訊

財經號

智能車

專題

電商資訊

人物資訊

滾動資訊

Andrej Karpathy 年度總結：Nano Banana最為震撼， 指向下一代 AI GUI 的雛形

同類資訊

Andrej Karpathy 年度總結：Nano Banana最為震撼，指向下一代 AI GUI 的雛形