henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
要說真學(xué)術(shù),還得看推特。
剛剛,謝賽寧自曝團(tuán)隊(duì)新作iREPA其實(shí)來自4個(gè)多月前的,一次與網(wǎng)友的辯論。
![]()
這場短暫的線上辯論雖然以謝賽寧被網(wǎng)友說服告終,但在3個(gè)多月后,居然有了意料之外的后續(xù)——
多個(gè)團(tuán)隊(duì)合作,沿著這一思路寫出了一篇完整的論文,而且核心框架僅需3行代碼。
![]()
致謝部分還感謝了當(dāng)時(shí)參與討論的網(wǎng)友。
![]()
一篇推特引發(fā)的學(xué)術(shù)論文
事情是這樣的。
一位網(wǎng)友在8月份表示:
別再癡迷于ImageNet-1K的分類分?jǐn)?shù)了!自監(jiān)督學(xué)習(xí)(SSL)模型應(yīng)該專門為稠密任務(wù)(如REPA、VLM等)進(jìn)行訓(xùn)練,因?yàn)檫@些任務(wù)真正依賴的是patch tokens中的空間和局部信息,而不是[CLS]token所代表的全局分類性能。
![]()
(注:稠密任務(wù)就是要求模型對圖像中的“每一個(gè)像素”或“每一個(gè)局部區(qū)域”都做出預(yù)測的計(jì)算機(jī)視覺任務(wù),這類任務(wù)需要精確的空間和局部細(xì)節(jié)信息,而不僅僅是全局分類標(biāo)簽)
對于網(wǎng)友的觀點(diǎn),謝賽寧表示:
不,使用patch token并不意味著就是在做稠密任務(wù)。VLM和REPA的性能與它們在IN1K上的得分高度相關(guān),而與patch級別的對應(yīng)關(guān)系只有很弱的關(guān)聯(lián)。這并不是[CLS]token的問題,而是高層語義與低層像素相似性之間的差別。
![]()
對于謝賽寧的反駁,網(wǎng)友舉出了SigLIPv2和PE-core優(yōu)于DINOv2 for REPA的例子。
![]()
與此同時(shí),另一位網(wǎng)友也加入了戰(zhàn)斗:
這是個(gè)合理的問題。為了做直接對比,在沒有DINOv3早期checkpoint的情況下,或許可以用REPA來比較PEspatial和PEcore。其中,PEspatial可以理解為:將PEcore的Gram-anchor對齊到更早的網(wǎng)絡(luò)層,并結(jié)合SAM2.1。
![]()
對此,謝賽寧表示:
非常好!感謝你的指路/提示。我很喜歡這個(gè)方案。否則干擾因素會(huì)太多了。兩個(gè)checkpoint都已經(jīng)有了(G/14,448 分辨率),希望我們很快就能拿到一些結(jié)果。
![]()
3個(gè)多月后,謝賽寧表示自己之前的判斷站不住腳,而且這次的論文反而帶來了更深入的理解。
還有貼心小貼士,提示網(wǎng)友可以看看致謝部分。
![]()
對于自己在致謝中被提到,參與討論的網(wǎng)友之一表示很有意思:
也謝謝你一路跟進(jìn)!被致謝提到我也很受寵若驚。
![]()
謝賽寧還表示,這次討論本身就是一次小實(shí)驗(yàn)——他想看看,一種新的“線上茶水間效應(yīng)”是否真的能夠發(fā)生。
他很享受這種狀態(tài):先有分歧、有爭論,再通過真正的實(shí)驗(yàn)和投入,把直覺拉回到可被驗(yàn)證的科學(xué)結(jié)論上。
不得不說,這樣開放、即時(shí)、可糾錯(cuò)的學(xué)術(shù)討論,確實(shí)值得多來一些。
接下來,我們就一起來看看由此催生的最新論文。
空間結(jié)構(gòu)才是驅(qū)動(dòng)目標(biāo)表征生成性能的主要因素
承接上面的討論,這篇最新論文探討了一個(gè)核心的基礎(chǔ)問題:
在用預(yù)訓(xùn)練視覺編碼器表征來指導(dǎo)生成模型時(shí),究竟是表征的哪一部分在決定生成質(zhì)量?
是其全局語義信息(ImageNet-1K上的分類準(zhǔn)確率)還是其空間結(jié)構(gòu)(即補(bǔ)丁tokens之間的成對余弦相似度)?
論文給出的結(jié)論是:更好的全局語義信息并不等于更好的生成,空間結(jié)構(gòu)(而非全局語義)才是表征生成性能的驅(qū)動(dòng)力。
傳統(tǒng)觀念(包括謝賽寧本人)認(rèn)為具有更強(qiáng)全局語義性能的表征會(huì)帶來更好的生成效果,但研究卻表明更大的視覺編碼器反而可能帶來更差的生成性能
其中,線性檢測準(zhǔn)確率只有約20%的視覺編碼器,反而可以超過準(zhǔn)確率>80%的編碼器。
而且,如果試圖通過CLS token向patch token注入更多全局語義,生成性能還會(huì)被拉低。
![]()
與此同時(shí),研究還發(fā)現(xiàn)生成效果更好的表征,往往具有更強(qiáng)的空間結(jié)構(gòu)(可通過空間自相似性指標(biāo)來衡量)
也就是說,圖像中某一部分的token會(huì)如何關(guān)注圖像中其他區(qū)域的token。
![]()
在具體的研究方法上,研究通過一次大規(guī)模的定量相關(guān)性分析對這一觀察進(jìn)行了細(xì)化驗(yàn)證:分析覆蓋了27 種不同的視覺編碼器(包括 DINOv2、v3、Perceptual Encoders、WebSSL、SigLIP 等)以及3種模型規(guī)模(B、L、XL)。
![]()
而在進(jìn)一步的評測中,空間信息的重要性被進(jìn)一步拔高:即便是像SIFT、HOG這樣的經(jīng)典空間特征,也能帶來與PE-G等現(xiàn)代、更大規(guī)模視覺編碼器相當(dāng)、具有競爭力的提升。
![]()
在測試得出結(jié)論后,論文又基于現(xiàn)有的表征對齊(REPA)框架進(jìn)行分析和修改,提出了iREPA。
投影層改進(jìn): 將REPA中標(biāo)準(zhǔn)的MLP投影層替換為一個(gè)簡單的卷積層。空間規(guī)范化: 為外部表征引入一個(gè)空間規(guī)范化層。
![]()
這些簡單的修改(如在DeCo框架下的實(shí)現(xiàn))旨在保留并強(qiáng)化空間結(jié)構(gòu)信息,相比原始的REPA方法能顯著提升性能。
值得一提的是iREPA,只需3行代碼即可添加到任何表示對齊方法中,并且在各種訓(xùn)練方案(如REPA、REPA-E、Meanflow 以及最近推出的 JiT)中都能實(shí)現(xiàn)持續(xù)更快的收斂。
![]()
[1]https://x.com/YouJiacheng/status/1957073253769380258
[2]https://arxiv.org/abs/2512.10794
[3]https://x.com/sainingxie/status/2000709656491286870
[4]https://x.com/1jaskiratsingh/status/2000701128431034736





京公網(wǎng)安備 11011402013531號(hào)