推特吵架吵出篇論文！謝賽寧團(tuán)隊(duì)新作iREPA只要3行代碼

IP屬地中國·北京 量子位 時(shí)間：2025-12-16 16:15:33

henry 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI
要說真學(xué)術(shù)，還得看推特。
剛剛，謝賽寧自曝團(tuán)隊(duì)新作iREPA其實(shí)來自4個(gè)多月前的，一次與網(wǎng)友的辯論。

這場短暫的線上辯論雖然以謝賽寧被網(wǎng)友說服告終，但在3個(gè)多月后，居然有了意料之外的后續(xù)——
多個(gè)團(tuán)隊(duì)合作，沿著這一思路寫出了一篇完整的論文，而且核心框架僅需3行代碼。

致謝部分還感謝了當(dāng)時(shí)參與討論的網(wǎng)友。

一篇推特引發(fā)的學(xué)術(shù)論文
事情是這樣的。
一位網(wǎng)友在8月份表示：
別再癡迷于ImageNet-1K的分類分?jǐn)?shù)了！自監(jiān)督學(xué)習(xí)（SSL）模型應(yīng)該專門為稠密任務(wù)（如REPA、VLM等）進(jìn)行訓(xùn)練，因?yàn)檫@些任務(wù)真正依賴的是patch tokens中的空間和局部信息，而不是[CLS]token所代表的全局分類性能。

（注：稠密任務(wù)就是要求模型對圖像中的“每一個(gè)像素”或“每一個(gè)局部區(qū)域”都做出預(yù)測的計(jì)算機(jī)視覺任務(wù)，這類任務(wù)需要精確的空間和局部細(xì)節(jié)信息，而不僅僅是全局分類標(biāo)簽）
對于網(wǎng)友的觀點(diǎn)，謝賽寧表示：
不，使用patch token并不意味著就是在做稠密任務(wù)。VLM和REPA的性能與它們在IN1K上的得分高度相關(guān)，而與patch級別的對應(yīng)關(guān)系只有很弱的關(guān)聯(lián)。這并不是[CLS]token的問題，而是高層語義與低層像素相似性之間的差別。

對于謝賽寧的反駁，網(wǎng)友舉出了SigLIPv2和PE-core優(yōu)于DINOv2 for REPA的例子。

與此同時(shí)，另一位網(wǎng)友也加入了戰(zhàn)斗：
這是個(gè)合理的問題。為了做直接對比，在沒有DINOv3早期checkpoint的情況下，或許可以用REPA來比較PEspatial和PEcore。其中，PEspatial可以理解為：將PEcore的Gram-anchor對齊到更早的網(wǎng)絡(luò)層，并結(jié)合SAM2.1。

對此，謝賽寧表示：
非常好！感謝你的指路/提示。我很喜歡這個(gè)方案。否則干擾因素會(huì)太多了。兩個(gè)checkpoint都已經(jīng)有了（G/14，448 分辨率），希望我們很快就能拿到一些結(jié)果。

3個(gè)多月后，謝賽寧表示自己之前的判斷站不住腳，而且這次的論文反而帶來了更深入的理解。
還有貼心小貼士，提示網(wǎng)友可以看看致謝部分。

對于自己在致謝中被提到，參與討論的網(wǎng)友之一表示很有意思：
也謝謝你一路跟進(jìn)！被致謝提到我也很受寵若驚。

謝賽寧還表示，這次討論本身就是一次小實(shí)驗(yàn)——他想看看，一種新的“線上茶水間效應(yīng)”是否真的能夠發(fā)生。
他很享受這種狀態(tài)：先有分歧、有爭論，再通過真正的實(shí)驗(yàn)和投入，把直覺拉回到可被驗(yàn)證的科學(xué)結(jié)論上。
不得不說，這樣開放、即時(shí)、可糾錯(cuò)的學(xué)術(shù)討論，確實(shí)值得多來一些。
接下來，我們就一起來看看由此催生的最新論文。
空間結(jié)構(gòu)才是驅(qū)動(dòng)目標(biāo)表征生成性能的主要因素
承接上面的討論，這篇最新論文探討了一個(gè)核心的基礎(chǔ)問題：
在用預(yù)訓(xùn)練視覺編碼器表征來指導(dǎo)生成模型時(shí)，究竟是表征的哪一部分在決定生成質(zhì)量？
是其全局語義信息（ImageNet-1K上的分類準(zhǔn)確率）還是其空間結(jié)構(gòu)（即補(bǔ)丁tokens之間的成對余弦相似度）？
論文給出的結(jié)論是：更好的全局語義信息并不等于更好的生成，空間結(jié)構(gòu)（而非全局語義）才是表征生成性能的驅(qū)動(dòng)力。
傳統(tǒng)觀念（包括謝賽寧本人）認(rèn)為具有更強(qiáng)全局語義性能的表征會(huì)帶來更好的生成效果，但研究卻表明更大的視覺編碼器反而可能帶來更差的生成性能
其中，線性檢測準(zhǔn)確率只有約20%的視覺編碼器，反而可以超過準(zhǔn)確率>80%的編碼器。
而且，如果試圖通過CLS token向patch token注入更多全局語義，生成性能還會(huì)被拉低。

與此同時(shí)，研究還發(fā)現(xiàn)生成效果更好的表征，往往具有更強(qiáng)的空間結(jié)構(gòu)（可通過空間自相似性指標(biāo)來衡量）
也就是說，圖像中某一部分的token會(huì)如何關(guān)注圖像中其他區(qū)域的token。

在具體的研究方法上，研究通過一次大規(guī)模的定量相關(guān)性分析對這一觀察進(jìn)行了細(xì)化驗(yàn)證：分析覆蓋了27 種不同的視覺編碼器（包括 DINOv2、v3、Perceptual Encoders、WebSSL、SigLIP 等）以及3種模型規(guī)模（B、L、XL）。

而在進(jìn)一步的評測中，空間信息的重要性被進(jìn)一步拔高：即便是像SIFT、HOG這樣的經(jīng)典空間特征，也能帶來與PE-G等現(xiàn)代、更大規(guī)模視覺編碼器相當(dāng)、具有競爭力的提升。

在測試得出結(jié)論后，論文又基于現(xiàn)有的表征對齊（REPA）框架進(jìn)行分析和修改，提出了iREPA。
投影層改進(jìn)：將REPA中標(biāo)準(zhǔn)的MLP投影層替換為一個(gè)簡單的卷積層。空間規(guī)范化：為外部表征引入一個(gè)空間規(guī)范化層。

這些簡單的修改（如在DeCo框架下的實(shí)現(xiàn)）旨在保留并強(qiáng)化空間結(jié)構(gòu)信息，相比原始的REPA方法能顯著提升性能。
值得一提的是iREPA，只需3行代碼即可添加到任何表示對齊方法中，并且在各種訓(xùn)練方案（如REPA、REPA-E、Meanflow 以及最近推出的 JiT）中都能實(shí)現(xiàn)持續(xù)更快的收斂。

[1]https://x.com/YouJiacheng/status/1957073253769380258
[2]https://arxiv.org/abs/2512.10794
[3]https://x.com/sainingxie/status/2000709656491286870
[4]https://x.com/1jaskiratsingh/status/2000701128431034736

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

不賣「工具」賣生產(chǎn)力，百融云創(chuàng)如何用硅基員工打破AI落地僵局？

假圖騙取電商退款，洗腦馴化大模型，南都報(bào)告揭秘AI灰產(chǎn)

千余款“黑科技”閃耀鵬城，引領(lǐng)全球藥械創(chuàng)新浪潮

深度機(jī)智「情境數(shù)采」殺手锏,具身智能的通用性天花板要被捅破了?

Vidu Agent 掀桌子！一張圖直出 4A 廣告大片，拿來直接投放

接入高德，千問打通“AI干活”最后一公里

全站最新

不賣「工具」賣生產(chǎn)力，百融云創(chuàng)如何用硅基員工打破AI落地僵局？

假圖騙取電商退款，洗腦馴化大模型，南都報(bào)告揭秘AI灰產(chǎn)

千余款“黑科技”閃耀鵬城，引領(lǐng)全球藥械創(chuàng)新浪潮

深度機(jī)智「情境數(shù)采」殺手锏,具身智能的通用性天花板要被捅破了?

熱門推薦

恒大汽車：股票繼續(xù)停牌

微言 | 沉迷AI聊天到進(jìn)醫(yī)院：真陪伴，技術(shù)給不了！

不賣「工具」賣生產(chǎn)力，百融云創(chuàng)如何用硅基員工打破AI落地僵局？

假圖騙取電商退款，洗腦馴化大模型，南都報(bào)告揭秘AI灰產(chǎn)

千余款“黑科技”閃耀鵬城，引領(lǐng)全球藥械創(chuàng)新浪潮

深度機(jī)智「情境數(shù)采」殺手锏,具身智能的通用性天花板要被捅破了?

火山引擎相關(guān)人士回應(yīng)“豆包比價(jià)”是否會(huì)提高字節(jié)產(chǎn)品權(quán)重：不會(huì)

Vidu Agent 掀桌子！一張圖直出 4A 廣告大片，拿來直接投放

接入高德，千問打通“AI干活”最后一公里

順網(wǎng)科技：攜英特爾發(fā)布重磅新品，云服務(wù)生態(tài)賦能千行百業(yè)

HAIC2025 AI開放計(jì)算成果與規(guī)劃全景呈現(xiàn)

新一代小猿學(xué)練機(jī)S6首推“掌握度模型”，破解家庭學(xué)習(xí)“黑箱”

國產(chǎn)電視機(jī)五大品牌集體布局速賣通

上汽華為聯(lián)手的尚界H5刷新智能車交付速度

因?yàn)橹袊嚕瑲W盟“慌”了？