近日,在麻省理工學院生成式 AI 影響力聯盟(MIT Generative Al Impact Consortium)研討會的開幕演講中,meta 首席 AI 科學家、紐約大學教授 Yann LeCun 再次展現了他一貫的“離經叛道”。這位 2018 年圖靈獎得主又重申了他此前認為大模型是“死胡同”的觀點,堅稱它們“永遠無法達到人類水平的智能”,同時,他也毫不客氣地潑了一盆冷水給當前的人形機器人熱潮:“這個行業的大秘密是,這些公司都不知道如何讓機器人足夠聰明以至于有用。”
![]()
(Youtube)
![]()
四十年前的“愚蠢”選擇
1987 年,當 AI 學界還在追逐專家系統的熱潮時,年輕的 LeCun 在巴黎完成了他關于“連接主義學習模型”的博士論文。那篇論文奠定了神經網絡反向傳播算法的基礎,卻在當時顯得格格不入。
![]()
圖丨相關論文(Research Gate)
“也許是出于天真或無知吧,”LeCun 回憶起那段經歷時略帶自嘲,“我在本科時就偶然發現,五六十年代包括 MIT 在內的一些研究者,曾經思考過自組織這個問題。”他被這個想法深深吸引——在自然界中,一切生命都具備適應能力,一切擁有神經系統的生物都能學習。“也許我不夠聰明,或者說人類整體還不夠聰明,無法直接設計出一個智能系統。智能系統必須自己建造自己。”
這個信念讓他在一個不受歡迎的領域堅持了下來。當時的 AI 主流方向是專家系統——將人類專家的知識轉錄成規則和事實,希望機器能以此運作。“我們今天在大語言模型上遇到的問題其實類似,”LeCun 指出,“只不過現在這種知識轉錄是通過學習完成的,但本質上仍然是把人類知識搬到機器里,這依然是個瓶頸。”
找 PhD 導師成了一道難關。最終他遇到了一位“非常好心的紳士”(也就是 Maurice Milgram),對方說:“你看起來夠聰明,我幫不了你什么技術上的忙,但我可以簽文件。”就這樣,LeCun 開始了他的研究之路。
![]()
蛋糕理論:自監督學習的預言
2016 年,在 NeurIPS 大會上,LeCun 提出了那個著名的“蛋糕理論”——如果把人工智能比作一個蛋糕,那么蛋糕的主體應該是自監督學習(Self-Supervised Learning),糖霜是監督學習(Supervised Learning),而櫻桃則是強化學習(Reinforcement Learning)。
“當時研究界很多人,特別是 DeepMind,完全投入到強化學習中,”LeCun 說,“他們相信通往更強大 AI 系統的路徑是通過強化學習。但我從來不相信這個,因為強化學習在試錯次數上極其低效。”他主張應該盡可能少地使用強化學習,“你當然別無選擇,最終需要某種自我糾正的方式,但這應該是最后的手段。”
十年前,LeCun 就在鼓吹一個理念:讓機器學習捕捉數據的內在依賴關系,而不用針對任何特定任務進行訓練,從而讓系統能夠表征世界。“然后在此基礎上,利用這些學到的表征來訓練系統完成特定任務。整個過程只需要從未標注的數據中觀察。”
這套想法在 2000 年代中期就開始低調研發。他們嘗試將其應用于視頻預測——輸入一段視頻,訓練系統預測接下來會發生什么。結果慘淡。但同樣的方法用在自然語言理解上,卻超出了所有人的預期。“拿一串符號序列,讓系統預測下一個符號,這個方法奇跡般地有效。”
為什么文本可以而視頻不行?答案在于:一個句子后面可能跟隨的詞是有限的,你可以預測一個覆蓋詞典中所有可能詞匯的分布。“但當你要預測視頻的未來,可能的未來實在太多了,根本無法表征所有這些可能性。”
LeCun 舉了個例子:假設給這個會議室拍段視頻,然后平移鏡頭,在某處停下來讓系統補全剩余畫面。“系統不可能知道這里每個人長什么樣,也無法確定房間大小和座位數量,更別提預測地面的紋理細節。有些東西就是完全不可預測的。如果你強迫系統去預測所有這些細節,基本上就是在扼殺它。”
五年前,他們意識到傳統方法永遠不會奏效,必須發明新技術。
![]()
三千億美元的豪賭與一個四歲孩子
2022 年底 ChatGPT 的橫空出世改變了整個世界。2023 年初 meta 推出 Llama,如今 meta AI 基于 Llama 技術的月活用戶已超過 10 億,Llama 的下載量也突破 10 億次。
![]()
圖丨相關論文(arXiv)
不過 LeCun 卻撇清了自己和 Llama 的關系,他聲稱自己在技術層面并未深度參與項目。“第一代 Llama 其實是 meta 內部一個有點‘海盜’(Pirate Project)性質的項目,”他說,“2022 年中期,巴黎的一小群人,大約十來個,決定要做一個輕量高效的語言模型,就這么干起來了。”這個項目后來在 2023 年初成為 meta 的工作主力,促使扎克伯格創建了 GenAI 組織(現在叫超級智能實驗室)來將其產品化。
盡管今年行業巨頭在 AI 基礎設施上的資本支出將達到 3,230 億美元,meta 也是其中之一,LeCun 依然認為大語言模型是通往人類級別智能的“死胡同”。
他用一組數字進行了說明。以 Llama 3 為例,訓練使用了大約 30 萬億個 token(代表文本的基本單位),也就是 3×10^13。一個 token 通常是 3 個字節,總共約 10^14 字節。“我們任何一個人要讀完這些材料,大概需要 40 萬年或 50 萬年。這基本上是互聯網上所有公開可得的文本。”
現在對比一下,一個四歲孩子的視覺皮層在生命最初四年接收到多少信息?一個四歲孩子清醒的時間總共約 16,000 小時。通過視神經每根纖維,每秒約有 1 字節的信息流向我們的視覺皮層,而我們有 200 萬根纖維。“也就是每秒約 2 兆字節,乘以 16,000 小時,大約是 10^14 字節。一個四歲孩子通過視覺看到的數據量,相當于最大的語言模型在全部公開文本上訓練的數據量。”
這個對比揭示了什么?“首先,我們顯然漏掉了什么重要的東西。AI 系統需要從像視頻這樣的自然高帶寬感官數據中學習。僅僅在文本上訓練,我們永遠達不到人類級別的智能。”
LeCun 毫不客氣地說:“盡管硅谷某些加入了“邪教”的人會告訴你,明年我們就能在一個數據中心里擁有一個國家天才的智能水平。我很不客氣地說:這根本不會發生。”
“你可能會得到一些有用的工具,能幫助人們的日常生活,甚至感覺像是擁有博士學位的智能,因為它們會反芻訓練過的內容。但這些系統不會擁有我們期待的真正智能——不僅是人類的智能,甚至連你家貓的智能都達不到。”
家貓只有 28 億個神經元,并不算多。但它們對物理世界的理解令人驚嘆,能進行復雜的動作規劃,而我們連這個都遠未達到。“這就是我感興趣的方向:如何彌合這個鴻溝?如何讓系統學習物理世界的模型?這需要非生成式的新架構。”
![]()
JEPA:不重建像素,只預測表征
當業界都在生成式模型上狂飆突進時,LeCun 和他的團隊在過去五年一直在研究另一條路——JEPA(Joint Embedding Predictive Architecture,聯合嵌入預測架構)。
![]()
圖丨JEPA(2024 年 Yann LeCun 在哈佛的演講)
2022 年,他在 OpenReview 上發表了一篇長文,題為《通向自主機器智能之路》,為未來十年的 AI 研究勾勒了藍圖。此后,他與 meta 和紐約大學的同事們一直朝著這個方向推進。“如果你在 Google Scholar 上搜索‘Joint Embedding Predictive Architectures’,加引號,會得到大約 750 條結果。所以有很多人在研究這個,主要在學術界。”
LeCun 不滿于業界對學術貢獻的輕視:“人們很快就說所有 AI 研究都在工業界手里了,這是錯的。”他強調,學術界往往在研究下一代技術,而這些技術在五到十年后會對產業產生重大影響。
那么 JEPA 和生成式架構有什么本質區別?
在生成式架構中,基本思路是這樣的:拿一段文本,用某種方式破壞它——比如隨機刪除一些詞,然后訓練神經網絡把缺失的詞補回來。這就是在教機器理解語言的結構和含義。
GPT 架構更巧妙——它不需要顯式地破壞文本,因為架構本身是因果性的。在預測某個詞時,系統只能看到它左邊的詞,所以當你訓練系統在輸出端重建輸入序列時,隱式地就是在訓練它預測下一個 token。“這很高效,可以并行化處理。”
這種方法之所以有效,是因為 token 是離散的,數量有限,你可以訓練系統輸出一個覆蓋所有可能 token 的分布。然后就可以進行自回歸預測——預測下一個 token,把它挪到輸入端,再預測第二個 token,如此循環。
“但我認為這在視頻上行不通,”LeCun 說,“因為即使你拍了一段很好的視頻,仍然有很多東西無法預測——各種細節,比如這里每個人的長相,你就是預測不了。”
JEPA 的理念是:把視頻編碼到一個表征空間,在這個空間里很多細節被消除了。然后之前在輸入空間做的自回歸預測,現在在這個表征空間進行。“訣竅在于,同時訓練編碼器和預測器非常棘手。”原因是預測器很容易強迫編碼器什么都不做——忽略輸入,產生一個恒定的輸出表征,這樣預測問題就變得平凡了,但這不是好的解決方案。
“所以你必須想辦法誘導系統在表征中承載盡可能多的輸入信息,但同時消除那些無法預測的細節。”系統需要在這兩者之間找到平衡:既承載足夠的輸入信息,又只保留可預測的部分。“這就是 JEPA 的基本概念。”
在架構層面,它有一個與語言模型不同的編碼器。真正的技巧在于找到好的訓練算法或程序,讓系統學到有趣的表征。
直到最近,還不清楚這種聯合嵌入方法學習自然數據(如圖像和視頻)的表征,是否最終會優于那些在像素級別進行重建訓練的技術。但在 meta 的 FAIR 實驗室,他們進行了一次直接對比。一個大團隊在做 MAE(Masked Auto-Encoder,掩碼自編碼器)項目和它的視頻版本——拿一張圖像或視頻,破壞它,然后訓練一個巨大的神經網絡重建完整的圖像或視頻。“結果不太理想。”
MIT 的何愷明教授是這個項目的核心人物之一,對結果有些失望。他后來重新調整了研究方向,離開 FAIR 加入 MIT 擔任副教授。與此同時,另一些并行項目嘗試訓練非重建的架構——非生成式架構,結果表現好得多。“這是明確的實證證據,表明對于自然感官數據,你就是不該用生成式架構。”現在他們還有數據顯示,這些系統在圖像任務上的性能甚至超過了監督模型,而在一年前這還做不到。
![]()
Dino、V-JEPA 與機器人的世界模型
目前哪些應用開始展現出早期的希望?
LeCun 提到了他巴黎同事們源的一個系統 Dino。這是第三版,幾個月前剛發布。“這基本上是一個通用的自監督視覺編碼器、圖像編碼器,可以用于各種下游應用。”已經有數百篇論文使用 Dino 的歷代版本,應用范圍涵蓋醫學圖像分析、生物圖像分析、天文學,以及日常計算機視覺任務。“我認為自監督學習模型花了很長時間,但最終在圖像和視頻表征領域贏得了這場戰斗。”
![]()
圖丨Dino 架構(meta)
另一個項目叫 V-JEPA(Video JEPA,視頻聯合嵌入預測架構),由蒙特利爾、巴黎和紐約的研究者共同完成,LeCun 適度參與其中。這個系統從視頻中訓練——拿一段視頻,通過掩碼遮擋一大塊,然后訓練架構。完整視頻和部分被掩蓋的視頻分別通過兩個基本相同的編碼器,同時訓練一個預測器,從部分視頻的表征預測完整視頻的表征。
“我們用大約一個世紀的視頻量來訓練這個系統。這是個瘋狂的數量。”雖然效率不如四歲孩子,但這些系統基本上學到了一點常識。“如果你給它看一段視頻,其中發生了一些不可能的事情——比如物體突然消失或改變形狀——預測誤差會飆升。系統會告訴你:發生了非常不尋常的事情,我理解不了。”這是自監督學習系統獲得一點常識的第一個跡象。
在機器人領域已經看到一些早期成功。訓練的第二階段可以微調一個條件于動作的預測器。這樣你就得到了一個世界模型(World Model)。
什么是世界模型?“給定 t 時刻世界狀態的表征,以及智能體想象要采取的一個動作,你能預測采取這個動作后的世界狀態嗎?”如果系統擁有這樣的世界模型,就可以用它來規劃。你可以想象一連串動作,用世界模型預測這串動作的結果,然后用一個代價函數衡量特定任務的完成程度——比如是否煮好了咖啡。接著用優化方法,搜索一串能優化、即最小化這個目標函數的動作序列。
“這就是經典的規劃和最優控制。區別在于,我們使用的環境動力學模型是通過自監督學習獲得的,而不是像傳統機器人學或最優控制那樣,寫成一堆方程式。這就是我們真正追求的。”
他們已經證明,可以使用從 Dino 等系統派生出來的世界狀態表征,或者從頭學習或在其之上學習的表征,讓機器人零樣本完成任務——不需要任何針對特定任務的訓練,沒有強化學習。“訓練完全是自監督的,”LeCun 強調,“最終系統的世界模型足夠好,可以想象如何完成一個從未被訓練過的任務。”
有個例子中,機器人在 62 小時內自主訓練某個任務——但這 62 小時的訓練不是針對特定任務的,而是基礎的世界模型訓練:這是 t 時刻的世界狀態,這是一個動作,這是采取這個動作后世界的樣子。“你可以用模擬數據,用機器人模擬器,或者用真實數據,讓機器人手臂四處移動,記錄實際采取的動作。”
世界模型的概念,LeCun 早在 2016 年的主題演講中就提到過。“我認為它會成為未來 AI 系統的關鍵組件。我的預測是——這讓我在硅谷某些角落不太受歡迎,包括在 meta 內部——在三到五年內,這會成為 AI 架構的主導模式。沒有人會再用我們今天這種類型的語言模型。”
“這會推動未來十年成為機器人的十年,”主持人說。
“對,但關于這一點,”LeCun 話鋒一轉,“過去幾年創立了大量機器人公司,你知道的,在造人形機器人。好吧,這個行業的大秘密是:沒有一家公司知道如何讓這些機器人足夠聰明以至于有用——或者我應該說,足夠聰明以至于具有通用用途。”
我們可以訓練這些機器人完成特定任務,也許在制造業之類的場景。“但你的家用機器人?還需要一些 AI 領域的關鍵突破才能實現。所以很多這些公司的未來,本質上取決于我們能否在世界模型、規劃這類架構上取得重大進展。”
![]()
目標驅動的 AI 與護欄設計
與許多 AI 領域的悲觀論者不同,LeCun 對 AI 安全持相對樂觀的態度。他提倡的架構是“目標驅動的”:系統擁有世界的心智模型,規劃一系列動作來滿足目標、完成任務。“從構造上講,這樣的系統除了產生優化該目標的動作序列之外,什么都做不了,”他說。
關鍵在于,可以在目標函數中硬編碼護欄。LeCun 用家用機器人舉例:"比如你有一個新的家用助手機器人,你說'給我拿咖啡'。它走到咖啡機前,有人站在前面。你不希望機器人為了拿咖啡就把那個人砍倒吧?"
這個例子曾被 AI 安全研究者 Stuart Russell 用來說明如何可能制造出危險的機器。“我一直駁斥這個論點,Russell 總是認為我很愚蠢,在一些采訪中公開叫我愚蠢,”LeCun 略帶自嘲地說,“很多人習慣于攻擊我,我已經習慣了”。
![]()
圖丨 Stuart Russell(Wikipedia)
但他的邏輯是:如果在目標函數中硬編碼護欄,系統在構造上就無法逃脫這些護欄。"這些護欄可以是非常底層的。比如你有一個會做飯的家用機器人,你可以有一個非常底層的護欄說:如果周圍有人且你手里拿著刀,不要揮動你的手臂,諸如此類的事情。"
LeCun 將這個問題類比于人類社會的法律系統:“我們習慣于對人類這樣做。法律基本上是改變你可以采取的行動景觀的目標函數,每個行動的成本。我們制定法律來使人類行為與公共利益保持一致。我們甚至對叫做公司的超人實體這樣做,盡管成功有限。”他強調,人類已經處理這類問題數千年了。
“設計這些護欄不是一個簡單的任務,但這不是一個比設計能安全地將你運送到世界另一端的噴氣式飛機更復雜和更具挑戰性的問題。”
![]()
給年輕學生的建議:學量子力學,別學 App 編程
在訪談接近尾聲時,主持人問了一個經典問題:如果 LeCun 現在是 MIT 的博士生,他會研究什么?
“這個問題我經常被問到,”LeCun 說,“我認為,在過去 40 到 50 年里,探索人類智能的奧秘一直是最吸引人的問題。MIT 非常注重工程,而我自己也是工程師,我認為理解某個東西的最好方式就是建造它。”他引用了物理學家費曼的話——雖然費曼說的不是建造物理實物,而是指自己推導想法、理解概念。
在 LeCun 看來,對于有抱負的年輕科學家或工程師來說,有三個大問題值得研究:“宇宙是由什么構成的?生命是怎么回事?大腦如何工作?”而第三個問題的工程方面就是:如何建造智能機器?智能的本質組成部分是什么?
“如果你是本科生,人們會問這樣的問題:AI 將會出現,會在底層做各種事情,我們可能不需要再學某些東西了。”LeCun 認為,有些東西的確不需要再學了,那些“保質期很短”的技能。
“我開玩笑說,如果你在學計算機科學或某種工程,你可以選擇一門教授當前流行技術的課程——比如移動應用編程或 LLM 提示工程之類的——在移動編程和量子力學之間,選量子力學,即使你是計算機科學家。”
他的理由是:量子力學會讓你學到路徑積分等通用方法和概念,這些抽象概念適用于各種各樣的情況。“比如,如何最好地解碼語音識別系統中最可能的詞序列?實際上就是路徑積分。它是離散的,但基本上是相同的概念。”
LeCun 鼓勵學生選擇那些具有挑戰性的課程,學習能將你置于正確道路上的理論概念,而讓未來的 AI 助手處理底層細節。“想象一下你是一個博士導師,有一群博士生。大秘密是學生教導導師,而不是相反。”他預言學生未來會有一支虛擬員工隊伍——AI 助手為你工作,你可以將自己的抽象層次提升幾個級別。
“過去你可以通過測序 DNA 獲得博士學位,現在不再需要了,我們有機器來做這個。曾經你可以作為數學家計算對數表和三角函數表來謀生,不再需要了,我們有計算器和計算機。這只是技術進步的自然延續,人類在層級階梯上向上移動,把底層的東西留給機器。”
參考資料:
https://www.youtube.com/watch?v=kN38CNAQRuc
運營/排版:何晨龍





京公網安備 11011402013531號