henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
《LeJEPA:無需啟發(fā)式的可證明且可擴(kuò)展的自監(jiān)督學(xué)習(xí)》
“這可能是LeCun以meta身份發(fā)表的最后一篇論文了。”
![]()
沒錯(cuò),這篇帶“Le”的論文,介紹了一種自監(jiān)督學(xué)習(xí)方法,于11月11日在arXiv提交,是LeCun的最新公開成果。
也是在這一天,他離職meta的消息被曝光。
如果說LeCun在2013年加入開啟了meta AI研究的一個(gè)時(shí)代,那么LeJEPA就是他在meta的告別之作。
LeJEPA究竟是怎樣的“最后一舞”?
LeJEPA:基于各向同性高斯嵌入的自監(jiān)督學(xué)習(xí)方法
LeJEPA核心是提出了一種基于各向同性高斯嵌入的自監(jiān)督學(xué)習(xí)方法,通過引入SIGReg正則化,有效解決了表示崩潰問題,并顯著提升了模型的泛化能力。
在傳統(tǒng)的JEPA框架中,預(yù)測任務(wù)常面臨表示崩潰的問題。
這意味著,在訓(xùn)練過程中,模型可能將所有輸入映射到單一的點(diǎn)或低維空間,導(dǎo)致嵌入空間中的樣本不可區(qū)分,從而無法有效捕捉樣本間的語義差異。
針對這一問題,現(xiàn)有方法依賴啟發(fā)式技術(shù),如停止梯度、非對稱視圖生成和教師-學(xué)生網(wǎng)絡(luò),但這些方法由于缺乏對JEPA基礎(chǔ)理論的探索,被視為替代方案。
基于以上背景,研究提出一種新的JEPA框架——潛在歐幾里得JEPA(Latent-Euclidean Joint Embedding PredictiveArchitecture,LeJEPA),其核心是使嵌入空間遵循特定的統(tǒng)計(jì)分布,從而提升模型的預(yù)測性能。
嵌入分布的影響
首先,研究通過最小二乘回歸(OLS)分析了嵌入分布對偏差和方差的影響。
結(jié)果表明,等向高斯分布能夠最小化訓(xùn)練過程中的偏差和方差。
特別地,在總方差相同的情況下,非等向分布會導(dǎo)致更高的偏差和方差,而等向高斯分布則能夠有效地保證最小的偏差和方差,從而提高下游任務(wù)的穩(wěn)定性和準(zhǔn)確性。
通過在非線性探測和幾何直覺方面的實(shí)驗(yàn),研究進(jìn)一步驗(yàn)證了等向高斯分布的優(yōu)越性。
實(shí)驗(yàn)表明,無論是在回歸任務(wù)還是分類任務(wù)中,等向高斯分布都能保持最小的誤差,而非等向分布則表現(xiàn)出較高的方差。
![]()
研究表明,各向同性高斯分布是嵌入空間的最佳分布,它可以在沒有任務(wù)信息的情況下,保證最小化偏差和方差,從而提高下游任務(wù)的表現(xiàn)。
SIGReg:實(shí)現(xiàn)高斯分布的正則化
為實(shí)現(xiàn)上述分布匹配,研究提出了草圖化各向同性高斯正則化(Sketched Isotropic Gaussian Regularization,SIGReg),這是一種可處理、可證明正確的正則化方法。
SIGReg的創(chuàng)新點(diǎn)在于:
將分布匹配問題轉(zhuǎn)化為統(tǒng)計(jì)假設(shè)檢驗(yàn),通過零假設(shè)與目標(biāo)分布的匹配來實(shí)現(xiàn)提供了一種測試方法,保證在多GPU訓(xùn)練時(shí)的高效性,并確保梯度和曲率有界解決了高維空間中的維度災(zāi)難問題。
SIGReg通過單變量方向檢驗(yàn),結(jié)合Epps-Pulley測試來判斷嵌入分布與目標(biāo)分布(等向高斯分布)的匹配程度。
它將分布匹配轉(zhuǎn)化為零假設(shè)與備擇假設(shè)的檢驗(yàn),并通過統(tǒng)計(jì)量判斷是否拒絕零假設(shè),從而確認(rèn)分布是否匹配。
高維問題的解決
SIGReg還通過兩條機(jī)制解決了高維空間中的計(jì)算挑戰(zhàn):
平滑性:嵌入函數(shù)的Sobolev平滑性保證了在僅需O(K)個(gè)方向切片的情況下即可有效約束整個(gè)空間,進(jìn)行有效的統(tǒng)計(jì)檢驗(yàn)。SGD迭代特性:訓(xùn)練過程中方向的重復(fù)采樣累積效應(yīng)使得即使方向數(shù)量很少(如M=16),也能迅速收斂到各向同性分布,優(yōu)于固定方向集。
在實(shí)現(xiàn)方面,LeJEPA結(jié)合了SIGReg和預(yù)測損失兩部分,通過Epps-Pulley統(tǒng)計(jì)量實(shí)現(xiàn)分布匹配,并通過小批次訓(xùn)練保證計(jì)算效率和穩(wěn)定性。最終的總損失是SIGReg損失和預(yù)測損失的加權(quán)和。
SIGReg損失:通過Epps-Pulley統(tǒng)計(jì)量計(jì)算,確保訓(xùn)練過程中梯度有界,并通過積分近似提升計(jì)算效率。小批次訓(xùn)練引入的偏差對訓(xùn)練影響較小。預(yù)測損失:與DINO方法相似,通過計(jì)算所有視圖預(yù)測全局視圖的差異。LeJEPA總損失:是SIGReg損失和預(yù)測損失的加權(quán)和,其中一個(gè)超參數(shù)λ用于平衡這兩部分的權(quán)重。
實(shí)驗(yàn)驗(yàn)證與結(jié)果
為了驗(yàn)證LeJEPA的可靠性,研究在多個(gè)大型架構(gòu)上進(jìn)行實(shí)驗(yàn),包括ViT、ConvNeXt、ResNet、MaxViT和Swin Transformer等,模型規(guī)模接近10億參數(shù)。
![]()
實(shí)驗(yàn)結(jié)果顯示,LeJEPA在這些架構(gòu)上表現(xiàn)超越現(xiàn)有方法,且保持了訓(xùn)練的簡便性和魯棒性。
特別地,在領(lǐng)域特定的數(shù)據(jù)集(如Galaxy10、Food101)上,LeJEPA在直接在目標(biāo)數(shù)據(jù)上預(yù)訓(xùn)練時(shí)超越了基于DINOv2的遷移學(xué)習(xí)方法。
![]()
總的來說,LeJEPA延續(xù)了之前JEPA的探索,重新確立了自監(jiān)督學(xué)習(xí)作為AI研究的核心方法。
LeJEPA通過提供一個(gè)簡單且理論上有支持的框架,使得從數(shù)據(jù)中學(xué)習(xí)表示變得更加高效,并在多個(gè)任務(wù)中展示了優(yōu)越的性能。
JEPA世界模型
自LeCun于2022年在《A Path Towards Autonomous Machine Intelligence》中首次提出JEPA以來,基于JEPA的架構(gòu)已經(jīng)發(fā)展了整整三年。
![]()
JEPA(Joint-Embedding Predictive Architecture)是一種自監(jiān)督學(xué)習(xí)框架,旨在通過基于嵌入空間的聯(lián)合預(yù)測方法來提升模型的表達(dá)能力和推理能力。
與生成式模型不同,它并不能簡單地用于從x預(yù)測y,它僅捕捉x和y之間的依賴關(guān)系而無需顯式生成y的預(yù)測。
![]()
此外,為了應(yīng)對長期規(guī)劃問題,JEPA還可以進(jìn)一步通過分層架構(gòu)(即H-JEPA)來增強(qiáng)其抽象能力。
在H-JEPA中,低層表示處理短期預(yù)測任務(wù),而高層表示則用于長期預(yù)測。
這種分層結(jié)構(gòu)使得模型在進(jìn)行長期規(guī)劃時(shí),可以在不同的抽象層次上進(jìn)行操作,從而提高可預(yù)測性和減少信息損失。
![]()
值得一提的是,JEPA架構(gòu)通常與世界模型密切相關(guān),只不過其與一般意義上的世界模型仍有區(qū)別。
傳統(tǒng)的世界模型一般指能夠模擬環(huán)境或系統(tǒng)的模型,其主要目的是通過預(yù)測未來狀態(tài)來實(shí)現(xiàn)長期規(guī)劃和決策(如強(qiáng)化學(xué)習(xí))。
而JEPA則是一種通過聯(lián)合嵌入空間學(xué)習(xí)狀態(tài)與動作轉(zhuǎn)移的架構(gòu),重點(diǎn)在于結(jié)合表示學(xué)習(xí)和自監(jiān)督學(xué)習(xí)來完成預(yù)測和規(guī)劃任務(wù)。
![]()
在JEPA中,世界模型的目的是預(yù)測世界狀態(tài)的未來表現(xiàn)形式。
具體而言,JEPA通過學(xué)習(xí)狀態(tài)與動作的轉(zhuǎn)移來訓(xùn)練世界模型,其核心在于從當(dāng)前狀態(tài)的表示推斷未來狀態(tài)的表示,這一過程是在聯(lián)合嵌入空間中完成的。該空間通過最小化預(yù)測誤差來學(xué)習(xí)狀態(tài)表示與動作之間的關(guān)系。
盡管最初的JEPA論文呈現(xiàn)出一種對生成式AI的反思,描述了人工智能未來的愿景,并指出這一愿景可能需要數(shù)十年的時(shí)間才能實(shí)現(xiàn)。
但自2022年夏季發(fā)布以來,在LeCun的推動下,JEPA架構(gòu)已經(jīng)取得了一些顯著進(jìn)展。
I-JEPA: Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture
![]()
與其他圖像SSL方法相比,I-JEPA充分利用了Transformer架構(gòu)的靈活性。
在I-JEPA中,上下文編碼器是一個(gè)ViT,它僅處理可見的上下文塊。
預(yù)測器接收上下文編碼器的輸出,并根據(jù)位置標(biāo)記(以顏色顯示)預(yù)測特定位置的目標(biāo)塊表示。
目標(biāo)表示對應(yīng)于目標(biāo)編碼器的輸出,權(quán)重在每次迭代中通過上下文編碼器權(quán)重的指數(shù)滑動平均進(jìn)行更新。
V-JEPA: Revisiting Feature Prediction for Learning Visual Representations from Video
![]()
V-JEPA是I-JEPA在視頻領(lǐng)域的擴(kuò)展,它通過將視頻視為3D圖像來實(shí)現(xiàn)這一點(diǎn)。
訓(xùn)練過程基于一個(gè)包含T幀的視頻片段,空間分辨率為H×W,并將其展平成一個(gè)L個(gè)token的序列。
首先通過從視頻片段中去除一些tokens來獲得x-encoder的輸入。
接著,x-encoder處理被屏蔽的視頻序列,并為每個(gè)輸入token輸出一個(gè)嵌入向量。
然后,x-encoder的輸出與一組可學(xué)習(xí)的mask tokens進(jìn)行拼接,這些mask tokens包含了被屏蔽的時(shí)空補(bǔ)丁的位置信息嵌入。
預(yù)測網(wǎng)絡(luò)處理拼接后的token序列,并為每個(gè)mask token輸出一個(gè)嵌入向量。
最后,預(yù)測網(wǎng)絡(luò)的輸出通過 L1 損失回歸到預(yù)測目標(biāo)。預(yù)測目標(biāo)對應(yīng)于y-encoder的輸出。
今年7月,LeCun團(tuán)隊(duì)又進(jìn)一步發(fā)布了V-JEPA 2
![]()
V -JEPA 2基于V-JEPA,進(jìn)一步提升了動作預(yù)測和世界建模能力,使機(jī)器人能夠與陌生物體和環(huán)境進(jìn)行交互,從而完成任務(wù)。
MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised Learning of Motion and Content Features
![]()
MC-JEPA是JEPA 的擴(kuò)展,使其能夠包含運(yùn)動信息。
架構(gòu)通過在視頻中使用光流估計(jì)學(xué)習(xí)運(yùn)動,并通過圖像視角的聯(lián)合嵌入學(xué)習(xí)內(nèi)容,以多任務(wù)方式共享編碼器。其光流估計(jì)架構(gòu)基于PWC-Net。
光流估計(jì)采用粗到精的方式,先估算初步的光流,再逐層精細(xì)化,最終通過圖像重建損失來優(yōu)化。
整個(gè)過程中,前向-反向光流的一致性通過循環(huán)一致性損失得到強(qiáng)化。為了避免訓(xùn)練不穩(wěn)定,模型在每個(gè)特征層使用方差-協(xié)方差正則化。
除上述工作以外,LeCun及其團(tuán)隊(duì)還進(jìn)一步圍繞JEPA發(fā)表了JEPAsLLM-JEAP等工作。
總的來說,盡管JEPA架構(gòu)相較于傳統(tǒng)監(jiān)督學(xué)習(xí)方法提供了一條新路徑,但其自發(fā)布以來就毀譽(yù)參半。
比如,有人批評JEPA架構(gòu)過于抽象,難以應(yīng)用到最前沿的主流模型中,其與生成式AI的背離也讓不少網(wǎng)友將meta的失利歸咎于LeCun的學(xué)術(shù)取向。
甚至有meta AI員工表示:Fair尚未證明自己是DeepMind等研究機(jī)構(gòu)的真正競爭對手。
而最新發(fā)布的LeJEPA也徹底在LeCun和meta之間劃上了句號。
![]()
不過,LeJEPA雖然可能LeCun在meta的研究終點(diǎn),但肯定不是JEPA發(fā)展的終結(jié)。
據(jù)消息稱,LeCun已經(jīng)在籌集資金,創(chuàng)辦初創(chuàng)公司,繼續(xù)推進(jìn)他在世界模型方面的工作。
而在AI熱辣滾燙之下,這位65歲圖靈獎(jiǎng)得主、AI三巨頭之一的教父級人物,創(chuàng)業(yè)又豈會缺資源?
唯一的問題,只可能是LeCun一直以來給人過于“學(xué)術(shù)”的風(fēng)格和印象,擔(dān)憂他在嚴(yán)格計(jì)算ROI的商業(yè)世界里,再次遭遇meta生涯末期里的分歧和困境。
One more thing
雖然LeCun與meta的“分手”說不上體面,但在meta的這十多年也許是LeCun生涯中最順的時(shí)期——
深度學(xué)習(xí)爆發(fā)、加入紐大、建立FAIR、辦頂會(ICLR)、拿圖靈獎(jiǎng)、出自傳(《科學(xué)之路》)、發(fā)paper,帶學(xué)生。
![]()
自2013年加入meta以來,LeCun的個(gè)人被引飆升,約為次,占總數(shù)的93%
雖然光三巨頭合寫的《深度學(xué)習(xí)》綜述就貢獻(xiàn)了10萬多次,但也足見LeCun學(xué)術(shù)影響力的飆升。
![]()
這段黃金時(shí)期不僅見證了LeCun個(gè)人事業(yè)的巔峰,更推動了整個(gè)AI領(lǐng)域的發(fā)展。
江湖上至今流傳著扎克伯格當(dāng)年現(xiàn)身NIPS時(shí)的轟動,并且都在認(rèn)為他會帶走一票AI天才……
扎克伯格與約書亞·本吉奧在NIPS 2013
![]()
但最后扎克伯格只是請來了LeCun,一人勝過千軍萬馬。
LeCun成就了Facebookmeta的AI轉(zhuǎn)型之名,成為了金字招牌;meta也一度給過LeCun足夠自由的研究待遇和環(huán)境。
![]()
只是最后結(jié)局前的波瀾,令人唏噓~
好在,65歲的Yann LeCun,依舊是闖的年紀(jì)~~
[1]https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/
[2]https://arxiv.org/abs/2511.08544
[3]https://arxiv.org/abs/2301.08243
[4]https://malcolmlett.medium.com/critical-review-of-lecuns-introductory-jepa-paper-fabe5783134e
[5]https://github.com/GihhArwtw





京公網(wǎng)安備 11011402013531號