![]()
新智元報道
編輯:元宇
就在Yann LeCun即將離職meta創業的消息在AI圈刷屏時,他的一篇關于自監督學習的新論文也在arXiv上線。該論文提出了一種新框架LeJEPA,為解決當前JEPA方法中存在的多種失效模式提供了新路徑。
11月11日,meta首席AI科學家Yann LeCun在arXiv上提交了他與Randall Balestriero合作的一篇新論文。
前Stability AI研究負責人Tanishq Mathew Abraham,在X平臺上推薦了這篇論文,并調侃說這可能是LeCun在meta發表的最后一篇論文之一。
![]()
因為就在這篇論文提交的同一天,媒體也曝出了LeCun即將在未來幾個月離開meta創業的消息。
Abraham評論道,這是一篇很有意思的論文。
它提出了一種新框架LeJEPA,可以解決當前JEPA方法中所存在的多種失效模式,僅需約50行代碼即可實現。
![]()
論文地址:https://arxiv.org/pdf/2511.08544
對于LeCun這篇論文也頗具特殊意義——
既是為他在meta FAIR實驗室十多年的研究工作劃下句點,同時也向外界傳遞出他下一步創業的新方向。
有網友評論這意味著LeCun回歸初心,追求以優雅的力量取代大模型的暴力擴展。
![]()
![]()
為JEPA理論研究奠基
聯合嵌入預測架構(Joint-Embedding Predictive Architectures,JEPAs),由于缺乏明確的實踐指南和系統理論,目前相關研究大多是臨時性探索。
論文給出了一套完整的JEPA理論,并將其具體落地為LeJEPA,這是一種輕量、可擴展且有堅實理論基礎的訓練目標。
研究人員證明,若要最小化下游任務的預測風險,JEPA的嵌入理想情況下應服從各向同性高斯分布。
為此,他們提出一個新的目標函數Sketched Isotropic Gaussian Regularization(SIGReg,隨機草圖各向同性高斯正則化),用于約束嵌入向該理想分布收斂。
LeJEPA融合了JEPA和SIGReg思想,兼具多方面的理論和實踐優勢:
只需要一個權衡超參數;
時間與內存復雜度均為線性;
在超參數、架構(ResNet、ViT、ConvNet)以及不同領域之間表現穩定;
不依賴啟發式技巧,以及適合分布式訓練的實現,僅需約50行代碼。
![]()
如圖1所示,在使用ImageNet-1K進行預訓練并對凍結骨干網絡做線性評估的設定下,LeJEPA在ViT-H/14上可達到79%的精度。
提出新路徑
在AI領域,一個長期存在的核心問題,是讓模型學會對世界及其變化形成可用于實際決策和動作的表征(可操作表征)。
無論是圖像識別、機器人,還是物理學、太空探索,都會面臨一個共同的問題:
如何僅憑觀測數據,學習到一個結構清晰、便于操作的高維嵌入空間?
這里的「高維嵌入空間」,是指所有對象都被映射成高維向量,這些向量所在的數學空間。
使用深度網絡(參數化為非線性算子)將觀測映射到嵌入,是破解這道難題的標準第一步。
第二步,也是目前尚未標準化的部分,是如何訓練。
JEPAs提出一種路徑:通過最大化語義相關視圖的嵌入之間的一致性預測來訓練。
這里的「視圖」可以以兩種形式出現:變換或擾動。
它們可以包括掩碼、裁剪、模糊、時間或空間平移、幾何或光照變換、視角變化、來自不同傳感器模態的視圖等操作。
有監督形式下,則會引入人工構造的配對,例如圖像–文本對、文本–代碼對等。
無論采用哪種形式,這些視圖都被假定在語義上存在一定關聯,從而讓預測任務能夠將的嵌入對齊到數據中潛在的知識結構上。
![]()
然而,JEPA的預測任務存在一些失敗模式,例如表征崩潰:將所有輸入映射到幾乎相同的嵌入(完全崩潰),或者只落在一個低維子空間上(維度崩潰)。
而有關JEPAs的理論基礎研究在很大程度上仍處于空白狀態,研究人員通過重新審視支撐JEPAs的若干基礎設計原則來打破這一循環。
這種審視首先源于一個問題:JEPAs至少應該滿足哪些必要條件?由此,研究人員提煉出一種全新且精簡的JEPA「原則」:
解決預測任務,同時強制嵌入服從各向同性高斯分布。
研究人員證明,為了在任意下游任務上最小化經驗風險,Enc() 應該服從各向同性高斯分布。
研究人員首先通過分析線性探針(linear probe)來確定的嵌入的最優分布,這是評估凍結編碼器時最常用的方法之一。
為了對預訓練編碼器進行更靈活的評估,研究人員還分析了兩類廣泛使用的非線性方法:
一種是基于半徑的k-NN方法,該方法因其簡單性而經常被采用;另一種是核方法,因其良好的理論可解析性而常用。
![]()
上圖展示了各向異性嵌入如何比各向同性嵌入產生更高的方差估計值(左圖)。
研究人員對二分類任務抽取了100個訓練點,并擬合邏輯回歸模型——在多個訓練集樣本上重復此過程。每次抽樣都會產生一個決策邊界(紫色)。
SIGReg
高維空間中可靠的各向同性高斯正則化
在證明各向同性高斯分布是最優嵌入分布之后,研究人員引入了SIGReg。
這是一個同時具有可微性、可擴展性、理論可證明性以及可解釋性的分布匹配目標函數。
它建立在三個關鍵創新之上。
首先,研究人員將分布匹配表述為在原假設=下的統計假設檢驗;
其次,構造了一類檢驗,在保持線性復雜度和高效多GPU擴展的同時,保證梯度和曲率均有界。
第三,SIGReg避免了維度災難,從而徹底消除了退化的捷徑解(collapsed shortcut solutions)。
![]()
圖4展示了具有不同Sobolev平滑系數α的球面上分布示例。
由于目標密度(各向同性高斯分布)是平滑的,嵌入的α系數會迅速增長,從而使SIGReg不受維度災難的影響。
研究人員證明,SIGReg繪制Epps-Pulley測試圖是穩定且可擴展的。
![]()
圖5顯示了構建的數據密度圖。其「X」分布的邊緣分布為標準高斯分布,協方差為單位矩陣(左側密度圖)。
![]()
圖6展示了從一個1024維標準高斯分布中抽取100個樣本(N=100),并改變前兩個坐標以生成圖5(最左列)中的「X」分布。
對于每個統計量(所有其他列),研究人員對樣本執行梯度下降以最小化其值,在每次迭代步驟中,使用10個隨機方向的樣本(M=10)來評估SIGReg。
結果表明,盡管這是一個高維分布且樣本數量有限,但SIGReg能夠捕獲退化子空間并相應地調整數據以匹配各向同性高斯分布。
LeJEPA
穩定且可擴展的實現
在確定各向同性高斯分布是基礎模型的最佳嵌入分布,并引入SIGReg來實現該分布之后,研究人員推出了完整的LeJEPA框架,并通過全面的實驗來驗證其有效性。
![]()
圖9展示了使用LeJEPA開箱即用的ImageNet-10預訓練和凍結骨干網絡線性評估方法在timm模型上的應用。
研究人員對學習率和權重衰減進行了交叉驗證。
雖然最佳模型和最差模型之間存在細微差異,但在涵蓋8個模型系列的50個模型中,LeJEPA能夠生成非平凡的表示,從而以SOTA水平解決下游任務。
跨架構穩定性,LeJEPA是關鍵優勢之一。
大多數現代自監督學習方法都針對Vision Transformer進行了優化,而LeJEPA無需修改,即可在各種不同的架構系列中運行。
為了驗證這一結論,研究人員使用ImageNet-10數據集預訓練了來自8個不同架構系列的約50個模型,這些模型均來自timm庫,且參數量均小于2000萬。
所有模型均能學習到高質量的表征,在凍結骨干線性探測的情況下,Top-1準確率達到了91.5%到95%。
結果表明,在監督學習環境中表現良好的模型,例如ResNet和Vision Transformer,也同樣適用于LeJEPA。
自監督學習的一個關鍵優勢在于學習能夠跨任務和領域泛化的通用表征。
然而,當前前沿的基礎模型(如DINOv2/v3、I-JEPA)都是在自然圖像上進行預訓練的,這迫使特定領域的從業者需要收集大量的標簽來進行監督式微調。
事實上,大多數前沿模型無法直接在這些領域進行訓練,因為樣本數量可能很少,而且重新搜索超參數會非常耗時。
![]()
圖12展示了使用凍結骨干網絡或完全微調(列)以及不同類別樣本數(x軸)的LeJEPA在小型架構(Galaxy10)上的域內預訓練,并結合線性探針評估。
研究人員將其與最先進的基礎模型(DINOv2/v3、I-JEPA)在3個不同的隨機種子上進行了比較。
結果表明,LeJEPA能夠開箱即用地在不同架構上進行域內預訓練,并且性能優于目前最先進的基礎模型。
![]()
圖13展示了基于最后一層閾值的涌現式目標分割,LeJEPA無需顯式監督即可自然地學習分割和跟蹤顯著目標(如每個視頻右側的注意力圖所示)。
![]()
圖14展示了LeJEPA通過自監督學習習得豐富的語義表征。
在沒有任何監督的情況下,LeJEPA自發地構建出語義豐富的表征:暖色(紅色/品紅色/粉色)始終用于表示前景物體(鸚鵡的身體、狗的臉),而冷色(青色/綠色/黃色)則用于表示背景和樹葉。
這種涌現的物體-背景分離和感知分組,完全基于未標記的數據,揭示了世界的視覺結構。
研究人員在多個領域、超過60種架構上驗證了LeJEPA,其中包括參數規模高達18億的巨型模型版本。
結果證明,盡管其核心設計非常簡單,LeJEPA的核心實現代碼不足50行,但仍能夠達到當前最先進方法的性能,該方法填補了長期以來在自監督學習理論基礎研究領域的空白。
作者簡介
Yann LeCun
![]()
Yann LeCun是法國計算機科學家、深度學習先驅,紐約大學終身教授,曾任meta首席人工智能科學家。
他于20世紀90年代提出并工程化了卷積神經網絡(LeNet),推動了深度學習在圖像識別等領域的實際落地,因此與Geoffrey Hinton、Yoshua Bengio一同被稱為「深度學習三巨頭」。
2018年,他因在神經網絡與深度學習方面的開創性貢獻獲得圖靈獎。
近年來,LeCun主要關注自監督學習、世界模型和能量基模型等方向,對當前大模型通往AGI的前景持審慎甚至批評態度,同時強烈支持開源與開放科研。
參考資料:
https://arxiv.org/abs/2511.08544%20
https://x.com/iScienceLuvr/status/1988560605133812119?s=20





京公網安備 11011402013531號