AI 大神 Karpathy 2025 年度總結刷屏：AI 既是天才也是智障，這 6 個轉折最關鍵

IP屬地中國·北京 愛范兒 時間：2025-12-20 14:09:31

最近各種年度回顧陸續上線， OpenAI 的前聯合創始人 Andrej Karpathy 也交出了自己對大模型的年度總結
就在今年早些時候，他在 YC 的一場演講刷爆了全網，提出了不少新的觀點：
軟件 3.0 已來：從最初的人寫代碼（1.0），到喂數據訓練模型（2.0），現在我們進入了直接對模型「念咒語」（prompt）的 3.0 時代。LLM 是新操作系統：它不是像自來水一樣的普通商品，而是一個負責調度內存（Context Window）和 CPU（推理算力）的復雜 OS。Agent 的十年：別指望 AI Agent 一年就成熟，從 99% 到 99.999% 的可靠性，我們需要走上十年。
Karpathy 今天這篇《2025 年度總結》，他再次向我我們剖析了這一年 AI 究竟長出了什么樣的「腦子」。
以下是對 Karpathy 年度總結的精譯，APPSO 在不改變原意的基礎上做了更多通俗解讀。
如果想看原文可以點擊 https://karpathy.bearblog.dev/year-in-review-2025/
2025 年是 LLM（大語言模型）發展強勁且充滿變數的一年。以下是我列出的幾點個人認為值得注意且稍感意外的「范式轉變」——這些變化不僅重塑了行業版圖，更在概念層面上狠狠地沖擊了我的認知。
太長不看版：
2025 年既讓人興奮，又有點讓人措手不及。
LLM 正在作為一種新型智能涌現，它同時比我預期的要聰明得多，也比我預期的要笨得多。
無論如何，它們極其有用。我認為即使以目前的能力，行業甚至還沒挖掘出其潛力的 10%。同時，還有太多的想法可以嘗試，從概念上講，這個領域感覺依然廣闊。正如我今年早些時候提到的，我同時（表面上矛盾地）相信：我們將看到持續快速的進步，但前方仍有大量艱苦的工作要做。
系好安全帶，我們要發車了。
1. RLVR：教 AI 像做奧數題一樣「思考」
在解釋這個復雜的基礎概念之前，先看看以前是大模型訓練是怎么做的？
在 2025 年初，各大實驗室訓練 LLM 的「老三樣」配方非常穩定：
1. 預訓練（Pretraining）：像 GPT-3 那樣，讓 AI 讀遍全網文章，學會說話。
2. 監督微調（SFT）：找人寫好標準答案，教 AI 怎么回答問題。
3. 人類反饋強化學習（RLHF）：讓 AI 生成幾個答案，人來打分，教它討人喜歡。
現在發生了什么變化？
2025 年，我們在這個配方里加了一味猛藥：RLVR（從可驗證獎勵中進行強化學習）。
這是什么意思？
簡單來說，就是不再讓人來打分（人太慢且主觀），而是讓 AI 去做那些「有標準答案」的任務，比如數學題或寫代碼。對就是對，錯就是錯，機器能自動驗證。
在數百萬次的自我博弈和試錯中，模型自發地演化出了看似「推理」的策略。它們學會了先把大問題拆解成小步驟，甚至學會了「回過頭來檢查」這種高級技巧（參考 DeepSeek R1 論文）。
核心對比：
舊范式（RLHF）：像是教小孩寫作文。因為沒有標準答案，AI 很難知道自己哪一步想錯了，只能模仿人類的語氣。新范式（RLVR）：像是把 AI 關進奧數訓練營。不用教它具體怎么想，只要給它足夠多的題和對錯反饋，它自己就能摸索出解題套路。
這一招太好用了，以至于 2025 年大部分算力都被這只「吞金獸」吃掉了。結果就是：模型并沒有變大，但訓練時間變長了。我們還獲得了一個新旋鈕：讓 AI 思考得久一點。OpenAI 的 o1 是開端，而 o3 則是真正的拐點。
2. 幽靈 vs 動物：AI 不是「電子寵物」
2025 年，我和整個行業終于從直覺上理解了 LLM 智能的「形狀」。
一個驚悚的比喻：我們不是在像養寵物一樣「進化/養育動物」，我們是在「召喚幽靈」。
為什么這么說？
因為 AI 的一切都和生物不同。人類的大腦是為了在叢林里活下來、為了繁衍后代而優化的；而 LLM 的大腦是為了模仿人類文字、在數學題里拿分、在競技場里騙贊而優化的。
參差不齊的智能（Jagged Intelligence）：
正是因為 RLVR（可驗證獎勵）的存在，AI 的能力在某些領域（如數學、編程）會突然飆升成刺狀。這就導致了一種極其滑稽的現象：
它同時是一個絕世天才（秒解高數題）；又是一個智障小學生（會被簡單的邏輯陷阱騙得團團轉）。

▲這里 Karpathy 引用了一張梗圖：人類智能是圓潤的藍色圓圈，AI 智能是像海膽一樣滿是尖刺的紅色圖形。這很形象.
這也解釋了為什么我對現在的「跑分榜單」（Benchmarks）失去了信任。
什么是「刷榜」的本質？
既然榜單是可驗證的，那就可以用 RLVR 針對性訓練。現在的實驗室都在搞「應試教育」，把 AI 的能力尖刺專門往考題上長。「在測試集上訓練」已經不僅僅是作弊，而成了一門新的藝術形式。
3. Cursor：不僅是編輯器，更是「包工頭」

Cursor 今年的爆火，揭示了一個新真相：LLM 應用層比我們想象的要厚。
大家開始談論「醫療界的 Cursor」、「法律界的 Cursor」。這些應用到底做了什么？
「上下文工程師」：幫你整理好所有背景資料喂給 AI。「工頭」：在后臺偷偷指揮多個 LLM 干活，把復雜任務拆解，還要幫你省錢。「遙控器」：給你一個調節「自主性」的滑塊，決定放手讓 AI 干多少。
預測：大模型實驗室（如 OpenAI）會負責培養「全科大學生」；而應用開發商（如 Cursor）則負責給這些學生提供私有數據和工具，把他們組建成「專業施工隊」。
4. Claude Code：住在你電腦里的「賽博幽靈」

Claude Code (CC) 的出現讓我眼前一亮。它不僅僅是一個能寫代碼的 Agent（智能體），更重要的是：它活在你的電腦里。
對比來看，我認為OpenAI 搞錯了方向。
OpenAI 早期的 Agent 都在云端跑（ChatGPT），離你的真實環境太遠。雖然云端智能體聽起來像是 AGI 的終局，但在當前這個「參差不齊」的過渡階段，本地才是王道。
為什么本地很重要？
因為你的代碼、你的配置、你的密鑰、你的混亂環境，都在本地。Anthropic（Claude 的母公司）搞對了優先級，他們把 AI 塞進了一個小小的命令行界面（CLI）里。
它不再是你瀏覽器里的一個網頁（像 Google 那樣），它變成了一個寄宿在你電腦里的「賽博幽靈」，隨時準備幫你干活。這才是未來 AI 交互的樣子。
5. Vibe Coding
什么是 Vibe Coding？
這是我在推特上隨口造的一個詞（居然火了）：意思是寫代碼不再需要你真的懂語法，你只需要用英語描述你的「意圖」和「感覺」，剩下的交給 AI。
這帶來了什么改變？
對于普通人：編程的門檻徹底消失了。對于專家：代碼變得像紙巾一樣「廉價、一次性、用完即棄」。
舉個例子，我為了找一個 Bug，可能會讓 AI 現場寫一個專門的 App 來測試，測完就刪。放在以前，為了找個 Bug 專門寫個 App？瘋了吧！但在 2025 年，代碼是免費的。
Vibe Coding 將會徹底重塑軟件行業，也會改寫程序員的招聘 JD。
6. Nano Banana：AI 終于有了自己的「臉」

為什么現在的 AI 交互很反人類？
不管是 ChatGPT 還是 Claude，我們還在用「打字」跟它們聊天。這就像 80 年代還在用 DOS 命令行的黑底白字。
事實是：計算機喜歡文本，但人類討厭讀文本。人類是視覺動物，我們喜歡看圖、看表、看視頻。
Google Gemini Nano banana（這是一個虛構的模型代號，指代某種多模態交互模型）是 2025 年的另一個范式轉變。它暗示了未來的 LLM GUI（圖形界面）是什么樣子的。
未來的 AI 不應該給你吐一堆字，它應該直接給你畫一張圖、生成一個網頁、彈出一個交互面板。這不僅僅是「畫圖」，而是將文本生成、邏輯推理和視覺表達糾纏在一起的混合能力。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

一屏多用：華為Mate X7 / XTs折疊屏手機“變身”智能手卡

美國一法院放行馬斯克原560億美元薪酬方案

京東七鮮石家莊首店開業爆火，現烤花邊蛋撻單日售出超1萬只！

「AI新世代」沖刺“全球大模型第一股”！智譜叩開港股大門，大模型“淘金熱”進入資本成色檢驗時刻

歐洲刑警組織最新設想：2035年有可能爆發“機器人犯罪潮”

高德上線3D收費站：全國164城全覆蓋，安全島輪廓精準還原

全站最新

一屏多用：華為Mate X7 / XTs折疊屏手機“變身”智能手卡

美國一法院放行馬斯克原560億美元薪酬方案

京東七鮮石家莊首店開業爆火，現烤花邊蛋撻單日售出超1萬只！

「AI新世代」沖刺“全球大模型第一股”！智譜叩開港股大門，大模型“淘金熱”進入資本成色檢驗時刻

熱門推薦

一屏多用：華為Mate X7 / XTs折疊屏手機“變身”智能手卡

美國一法院放行馬斯克原560億美元薪酬方案

京東七鮮石家莊首店開業爆火，現烤花邊蛋撻單日售出超1萬只！

「AI新世代」沖刺“全球大模型第一股”！智譜叩開港股大門，大模型“淘金熱”進入資本成色檢驗時刻

歐洲刑警組織最新設想：2035年有可能爆發“機器人犯罪潮”

高德上線3D收費站：全國164城全覆蓋，安全島輪廓精準還原

廣汽能源：本月將推出機械臂式自動充電，明年兆瓦超充陸續落地

事關互聯網平臺定價促銷等行為，新規更好保護消費者和經營者

OPPO Reno 15 Pro Mini參數曝光：天璣8450+1.5K高刷小直屏

Ubiquant團隊推出通用推理模型URM：讓AI像人類一樣循環思考

沒受輿論影響！俞敏洪曬東方甄選年會現場視頻，網友炸鍋了

小米HyperVL：讓手機也能擁有"火眼金睛"的AI大模型

清華大學開創性突破：讓AI能像福爾摩斯一樣"破解"假視頻的秘密

合肥工業大學團隊首創TIMAR：3D虛擬人實現真實對話交互

維也納大學團隊破解超雙曲幾何在強化學習中的訓練難題