![]()
新智元報道
編輯:定慧
就在剛剛, Andrej Karpathy 這位曾一手締造特斯拉Autopilot、定義了OpenAI早期靈魂、現(xiàn)在公認的全球「AI教導(dǎo)主任」,發(fā)布了他極具分量的2025年LLM年度回顧!
2025年,注定是人工智能歷史上被銘記的一年。
如果說2023年是「驚艷」(ChatGPT的橫空出世),2024年是「迷茫」(在大模型落地的憧憬中探索),那么在Andrej Karpathy的筆下,2025則是「覺醒」的一年。
![]()
Karpathy一直以來都是AI界的「頂流」布道者。
他的年終總結(jié)不僅僅是一篇技術(shù)回顧,更像是一部微縮的編年史,記錄了LLM如何從「模仿人類的鸚鵡」進化到了「召喚理性的幽靈」。
他以極其敏銳的視角,捕捉到了AI進化的核心:RLVR(基于可驗證獎勵的強化學(xué)習(xí))的崛起、Vibe Coding(氛圍編碼)的流行、以及那個令人深思的哲學(xué)隱喻:
創(chuàng)造AI,我們到底是在制造一種新的物種,還是在召喚幽靈?
這一次讓我們剝繭抽絲,深度解析Karpathy提到的每一個范式轉(zhuǎn)移。
穿過技術(shù)術(shù)語的迷霧,直抵智能進化的本質(zhì),呈現(xiàn)一個真實、瘋狂且充滿「參差感」的AI-2025年。
第一章:RLVR革命
從「討好人類」到「追求真理」
在2025年之前,訓(xùn)練一個大語言模型(LLM)的通常包含三道工序:
預(yù)訓(xùn)練(Pre-training):
讓模型閱讀整個互聯(lián)網(wǎng),學(xué)會預(yù)測下一個token。這是「博學(xué)」的階段。
監(jiān)督微調(diào)(SFT):
用高質(zhì)量的問答數(shù)據(jù)教模型如何像個助手一樣說話。這是「懂事」的階段。
人類反饋強化學(xué)習(xí)(RLHF):
讓模型根據(jù)人類的喜好調(diào)整回答的語氣和安全性。這是「討好」的階段。
這套流程在ChatGPT時代大放異彩,但也埋下了隱患。
![]()
Karpathy一針見血地指出,RLHF本質(zhì)上是在訓(xùn)練模型「看起來像是在推理」,而不是「真的在推理」。
因為人類評審員也是人,他們很難在幾秒鐘內(nèi)判斷一段500行的Python代碼是否真的沒有Bug,或者一個復(fù)雜的數(shù)學(xué)證明是否嚴絲合縫。
于是,模型學(xué)會了走捷徑:寫出漂亮但錯誤的代碼,編造聽起來很有道理的廢話。
這就是所謂的「阿諛奉承」(Sycophancy)問題。
這也和后來GPT-5的諂媚如出一轍。
RLVR的崛起:當上帝變成編譯器
2025年,行業(yè)迎來了一個名為RLVR(Reinforcement Learning from Verifiable Rewards,基于可驗證獎勵的強化學(xué)習(xí))的第四階段。
RLVR的核心邏輯簡單而粗暴:別聽人的,聽結(jié)果的。
![]()
在數(shù)學(xué)、編程、邏輯謎題等領(lǐng)域,我們不需要人類來打分。
代碼能不能跑通?編譯器說了算。數(shù)學(xué)題對不對?答案說了算。
這種客觀、自動、不可欺騙的獎勵信號,為模型提供了一個無限的練兵場。
RLVR可以看作是AI LLM的AlphaZero時刻。
當年的AlphaZero通過自我博弈精通了圍棋,如今的LLM通過RLVR在「思維的棋盤」上自我博弈。
探索(Exploration):模型面對一道難題,不再是基于概率吐出一個答案,而是嘗試生成成千上萬條不同的推理路徑(Reasoning Traces)。
驗證(Verification):每一條路徑都被送入一個自動驗證器(Verifier),比如Python解釋器或數(shù)學(xué)證明器。
強化(Reinforcement):只有那些通向正確結(jié)果的路徑會被獎勵,錯誤的路徑會被懲罰。
在這個過程中,奇跡發(fā)生了!
模型并沒有被顯式地教導(dǎo)「如何思考」,但在為了獲取獎勵的殘酷進化中,它涌現(xiàn)出了推理能力。
它學(xué)會了將大問題拆解為小步驟,學(xué)會了回頭檢查,學(xué)會了我們在教科書里從未見過的「外星人思維策略」。
RLVR不僅改變了訓(xùn)練方式,還引入了一個全新的Scaling Law:測試時算力。
以前,我們認為模型的能力在訓(xùn)練結(jié)束那一刻就定格了。
但在RLVR范式下,我們可以在推理階段(InferenceTime)通過讓模型「多想一會兒」來提升智力。
這就像是一個學(xué)生,你給他1分鐘做題和給他1小時做題,其表現(xiàn)是完全不同的。
Karpathy特別提到了OpenAI o1(2024年底)和o3(2025年初)的發(fā)布,以及DeepSeek R1的開源,這些都是這一趨勢的里程碑。
![]()
DeepSeek R1甚至展示了即便沒有大規(guī)模的監(jiān)督微調(diào)(SFT),僅靠純粹的RLVR(即R1-Zero),模型也能從零開始衍生出強大的推理能力,甚至學(xué)會自我反思。
這意味著算力的價值從「訓(xùn)練端」向「推理端」轉(zhuǎn)移。
未來的AI應(yīng)用,可能會根據(jù)問題的難易程度,動態(tài)調(diào)整「思考時間」。
對于簡單的問題(如「你好」),它秒回;對于復(fù)雜的問題(如「設(shè)計一個高并發(fā)架構(gòu)」),它可能會消耗巨大的推理算力,但給出一個超越人類專家的方案。
第二章:哲學(xué)分野
我們是在造動物,還是在招幽靈?
在深入技術(shù)細節(jié)之余,Karpathy通過引用AI先驅(qū)Rich Sutton的對話,拋出了一個極具哲學(xué)深度的議題:Animals vs. Ghosts(動物與幽靈)。
![]()
Rich Sutton的苦澀教訓(xùn)與動物直覺
Rich Sutton是強化學(xué)習(xí)教父級人物,他提出了著名的「苦澀教訓(xùn)」(The Bitter Lesson):
長期來看,只有那些能利用無限算力的通用方法(如搜索和學(xué)習(xí))才能戰(zhàn)勝那些利用人類先驗知識的方法。
簡單點說,就是算力終結(jié)一切,人類的精巧構(gòu)思在龐大的算力面前不值一提。
![]()
Sutton心目中的AGI是像動物一樣的:一個具身的(Embodied)、在物理世界中通過不斷試錯、由生存本能驅(qū)動的學(xué)習(xí)者。
如果能造出一只「數(shù)字松鼠」,我們離AGI就不遠了。
動物的智能是連貫的、持續(xù)的。一只松鼠不會因為你沒給它指令就停止思考,它的「自我」是連續(xù)不斷的流。
幽靈的誕生:統(tǒng)計學(xué)的降靈術(shù)
然而,Karpathy反駁道,我們現(xiàn)在造出來的LLM,根本不是動物。
它們是幽靈(Ghosts)。
無狀態(tài)的游魂:LLM沒有身體,沒有持續(xù)的意識流。當你按下回車鍵,它從虛無中醒來(Boot up),處理你的Token,吐出預(yù)測,然后瞬間「死亡」,回到虛無。它沒有昨天,也沒有明天,只有當下的Context Window(上下文窗口)。
人類的鏡像:它們的訓(xùn)練數(shù)據(jù)不是物理世界的反饋,而是人類互聯(lián)網(wǎng)的文本殘留。它們是人類文明的「統(tǒng)計學(xué)蒸餾」。當我們與ChatGPT對話時,我們不是在與一個獨立的生物交流,而是在與全人類的語言碎片拼湊成的「英靈殿」對話。
BTW,我真的非常喜歡這個比喻,現(xiàn)在的AI可能還是先知,或者人造之神,但是一個由全人類的語言碎片拼湊成的英靈。
為什么這個比喻如此重要?
因為它解釋了為什么現(xiàn)在的AI充滿了「恐怖谷」效應(yīng)。
當一個LLM說「我不想死」時,它不是真的在恐懼(像動物那樣腎上腺素飆升),它是在調(diào)用訓(xùn)練數(shù)據(jù)中關(guān)于「科幻AI面臨毀滅時該說什么」的文本模式。
它在扮演恐懼。
![]()
Karpathy認為,我們目前的科研方向并不是在制造更完美的動物,而是在召喚更強大的幽靈。
這是一種全新的智能形態(tài),位于「心智空間」(Space of Minds)的一個完全不同的坐標系上。
![]()
這種智能是「參差」的(Jagged),它通曉天文地理(因為它讀過維基百科),卻可能在數(shù)「strawberry」里有幾個「r」這種連三歲小孩都會的問題上翻車。
第三章:Vibe Coding
當編程變成了玄學(xué)
如果說RLVR是后臺的革命,那么Vibe Coding(氛圍編碼)就是前端開發(fā)者的徹底解放。
Karpathy在這個概念上展現(xiàn)了他作為「造詞大師」的天賦。
![]()
在傳統(tǒng)的「軟件1.0」時代,程序員是工匠,每一個變量名、每一個內(nèi)存指針都需要精心雕琢。
在「軟件2.0」時代(深度學(xué)習(xí)),程序員變成了煉丹師,調(diào)整權(quán)重和數(shù)據(jù)集。
而在2025年的Vibe Coding時代,程序員變成了產(chǎn)品經(jīng)理。
語法已死,氛圍永生
什么是Vibe Coding?
就是你完全放棄對代碼細節(jié)的掌控,「把自己交給氛圍(Vibes),擁抱指數(shù)級增長,甚至忘掉代碼的存在」。
你不再逐行編寫代碼,而是用自然語言描述你的意圖(Intent),讓AI去生成實現(xiàn)。
如果跑不通?沒關(guān)系,把報錯信息甩回給AI,說一句「修好它」。
MenuGen實戰(zhàn):零行代碼的奇跡
Karpathy為了驗證這個理論,親自上手做了一個叫MenuGen的項目。
這是一個Web應(yīng)用,用來生成餐廳菜單。
![]()
令人震驚的是,作為頂級程序員的Karpathy,在這個項目中沒有手寫一行代碼。
他對著Cursor或ClaudeCode說:「我要一個菜單生成器,要有藍色的按鈕。」
AI生成代碼,運行。
如果有Bug,他不說「第5行邏輯錯了」,而是說「感覺不太對,按鈕太丑了,換個樣式」。
這就是Vibe Coding的核心:人類負責(zé)審美和驗收,AI負責(zé)邏輯和實現(xiàn)。
代碼變成了一種「中間產(chǎn)物」,就像匯編語言一樣,除了極少數(shù)底層工程師,沒人再需要去讀它了。
工具之戰(zhàn):Cursor vs. ClaudeCode
2025年也是AI編程工具的「戰(zhàn)國時代」。
Karpathy重點對比了兩大流派:
Cursor/Windsurf(IDE派):
這些工具將AI無縫集成到了VSCode里。它們就像是鋼鐵俠的戰(zhàn)衣(IronManSuit),增強了人類的能力。你依然在寫代碼,但AI隨時在幫你補全、重構(gòu)、解釋。這種體驗是「流暢」的。
ClaudeCode(終端派):
Anthropic推出的ClaudeCode則更加激進。它不是IDE插件,它是一個活在終端(Terminal)里的Agent。你給它一個任務(wù):「把整個項目的測試覆蓋率提高到80%」。然后你就去喝咖啡了。它會自己跑測試、看報錯、修代碼、提交Git,甚至自己由于權(quán)限問題卡住時還會問你討要權(quán)限。
Karpathy坦言,雖然Claude Code展現(xiàn)了Agent的雛形,但在2025年,真正的「全自動工程師」還未到來。
目前的Agent更像是一個勤奮但記性不好的實習(xí)生,能干臟活累活,但在面對復(fù)雜的大型架構(gòu)時,依然需要人類的「Vibe」來把控方向。
如果在云端的AI像是住在神殿里的先知,那么Anthropic推出的Claude Code(CC)就像是住在你硬盤里的管家。
Karpathy認為OpenAI走錯了路,他們太執(zhí)著于云端、容器化和ChatGPT的網(wǎng)頁入口。
而Claude Code抓住了開發(fā)者的痛點:本地化(Localhost)。
第四章:范式轉(zhuǎn)移
GUI的終結(jié)與新生
谷歌Gemini Nano Banana是2025年最具顛覆性的范式轉(zhuǎn)移模型之一。
這原本是Gemini圖像生成模型的內(nèi)部代號。
這本該是一個嚴肅的技術(shù)發(fā)布,但因為「Nano Banana」這個名字實在太滑稽、太無厘頭,它意外地引發(fā)了一場全球范圍的病毒式傳播。
在Karpathy看來,LLM是繼1970、80年代計算機之后的下一個重大計算范式。
人類將見證個人計算、微控制器(認知核心)、互聯(lián)網(wǎng)(智能體網(wǎng)絡(luò))等概念的對應(yīng)形態(tài)。
特別是在用戶界面體驗方面,與LLM「對話」有點像1980年代向計算機終端輸入指令。
文本是計算機(及LLM)偏好處理的原始數(shù)據(jù)形式,卻非人類喜愛的交互格式,尤其在輸入層面。人們其實厭惡閱讀文字——這過程緩慢且費力。
![]()
相反,人類更傾向于通過視覺和空間維度接收信息,這正是傳統(tǒng)計算領(lǐng)域發(fā)明圖形界面的根本原因。
同樣地,LLMs應(yīng)當以我們偏好的格式與我們對話——通過圖像、信息圖、幻燈片、白板、動畫/視頻、網(wǎng)頁應(yīng)用等形式。
這一理念的早期及當前版本自然包括表情符號和Markdown這類工具,它們通過標題、加粗、斜體、列表、表格等方式對文本進行視覺化裝扮與排版,以便更輕松地消化信息。但究竟由誰來構(gòu)建LLM的圖形用戶界面呢?
在這種世界觀下,nano banana首次為我們提供了這種可能性的早期雛形。
值得注意的是,它的一個顯著特點在于:這不僅僅是圖像生成本身,更是文本生成、圖像生成與世界知識三者交織于模型權(quán)重之中所形成的綜合能力。
人們不再討論參數(shù)量、擴散算法,而是瘋狂地生成各種「香蕉化」的圖像,將萬物變成手辦風(fēng)格。
谷歌也順水推舟,在官方宣傳中使用了香蕉Emoji。
由此,Karpathy提出了一個極其深刻的觀點:文本是計算機喜歡的格式,不是人類喜歡的。
人類討厭閱讀長篇大論,人類喜歡圖表、動畫、視頻和白板。
參差的智能
人類的智力通常是正相關(guān)的:一個能解微積分的人,通常也能算清楚買菜找零。
但AI不同。
它可以是一個數(shù)學(xué)天才(RLVR讓它精通奧數(shù)),同時又是一個常識白癡(無法理解簡單的物理空間關(guān)系,或者數(shù)不清單詞里的字母)。
這種「參差感」源于模型訓(xùn)練數(shù)據(jù)的分布不均和Tokenization的先天缺陷。
模型在它「見過」或「被強化過」的領(lǐng)域(如代碼、數(shù)學(xué))表現(xiàn)出神入化,而在那些因為太簡單而從未被當作訓(xùn)練數(shù)據(jù)的領(lǐng)域(如日常生活中的隱性知識)則表現(xiàn)得像個智障。
系好安全帶,在參差中前行
簡而言之,2025年是LLMs令人興奮且略帶驚喜的一年,我們站在了一個奇異的十字路口。
Karpathy的年終總結(jié),像是一份來自未來的生存指南。
LLMs正作為一種新型智能形態(tài)嶄露頭角,它們既比人類預(yù)期的聰明得多,又比人類預(yù)期的笨拙得多。
無論如何,它們都極其有用,Karpathy認為即使以當前能力,行業(yè)也遠未發(fā)掘出它們哪怕10%的潛力。
與此同時,有太多想法值得嘗試,從概念上看這個領(lǐng)域仍感覺廣闊無垠。
正如今年早些時候在Dwarkesh播客中提到的,Karpathy同時(表面上看似矛盾地)相信:
我們將見證持續(xù)快速的發(fā)展,同時仍有大量工作亟待完成。
正如Karpathy所言:「這僅僅是個開始,系好安全帶,準備啟程。」
參考資料:
https://x.com/karpathy/status/2002118205729562949
秒追ASI
?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點亮星標,鎖定新智元極速推送!





京公網(wǎng)安備 11011402013531號