![]()
本文共同第一作者為陳寅杰、顏?zhàn)御i,相關(guān)研究工作于香港大學(xué)科研實(shí)習(xí)期間完成;通訊作者 Andrew F. Luo 為香港大學(xué)助理教授。該工作已經(jīng)被 NeurIPS 2025 會(huì)議接受為 Spotlight。
在視覺處理任務(wù)中,Vision Transformers(ViTs)已發(fā)展成為主流架構(gòu)。然而,近期研究表明,ViT 模型的密集特征中會(huì)出現(xiàn)部分與局部語義不一致的偽影(artifact),進(jìn)而削弱模型在精細(xì)定位類任務(wù)中的性能表現(xiàn)。因此,如何在不耗費(fèi)大量計(jì)算資源的前提下,保留 ViT 模型預(yù)訓(xùn)練核心信息并消除密集特征中的偽影?
香港大學(xué)團(tuán)隊(duì)提出一種無需數(shù)據(jù)標(biāo)記的 ViT 密集表征增強(qiáng)方法 PH-Reg(Post Hoc Registers),為該挑戰(zhàn)提供了全新且高效的解決方法。該方法融合測(cè)試時(shí)增強(qiáng)(test-time augmentation)的去噪策略,去除教師模型密集特征中的偽影;并通過自蒸餾方法,在無需額外數(shù)據(jù)標(biāo)記的條件下,得到能夠輸出無偽影密集特征的學(xué)生模型。
PH-Reg 具備良好的架構(gòu)適配性,可靈活應(yīng)用于 CLIP、DINOv2 等不同模型架構(gòu),能夠高效去除密集特征的偽影,以此顯著提升模型在下游任務(wù)中的性能表現(xiàn)。
![]()
論文標(biāo)題:Vision Transformers with Self-Distilled Registers論文地址:https://arxiv.org/abs/2505.21501代碼地址:https://github.com/0raiser0/PH-Reg
偽影破壞模型密集特征的語義一致性
盡管當(dāng)前 ViT 模型基于數(shù)據(jù)驅(qū)動(dòng)的注意力機(jī)制具備強(qiáng)大表示能力,但模型密集特征中存在的偽影往往會(huì)破壞其精細(xì)定位能力,而該能力對(duì)于語義分割等需高空間精度的任務(wù)而言至關(guān)重要。傳統(tǒng)的優(yōu)化方法,如在模型架構(gòu)中添加 register tokens 并從頭開始訓(xùn)練,需要消耗大量的計(jì)算資源,導(dǎo)致現(xiàn)有模型的性能提升既昂貴又耗時(shí)。
為解決上述問題,該論文提出一種高效的 PH-Reg 自蒸餾框架。該框架無需數(shù)據(jù)標(biāo)記,且不再依賴 “從頭開始” 的全量訓(xùn)練,而是通過巧妙結(jié)合測(cè)試時(shí)(test-time)密集特征增強(qiáng)和自蒸餾策略,僅優(yōu)化學(xué)生模型中少量解鎖的權(quán)重參數(shù),即可實(shí)現(xiàn)無偽影的密集特征增強(qiáng)。
![]()
自蒸餾框架結(jié)合免訓(xùn)練實(shí)現(xiàn)去除偽影,無需數(shù)據(jù)標(biāo)記實(shí)現(xiàn)無偽影的密集特征
1. 免訓(xùn)練去噪算法
研究發(fā)現(xiàn),偽影并非相對(duì)于圖像內(nèi)容保持靜態(tài),因此當(dāng)圖像經(jīng)過增強(qiáng)處理(如隨機(jī)偏移、水平翻轉(zhuǎn)等)時(shí),密集特征中的偽影并不會(huì)以相同方式或幅度同步偏移。受此啟發(fā),此算法在無需梯度反向傳播的情況下,能夠生成去噪且無偽影的密集特征。
2. 自蒸餾框架
PH-Reg 采用自蒸餾策略,無需依賴數(shù)據(jù)標(biāo)記,僅通過引入 register tokens,以最小侵入性方式對(duì)學(xué)生模型架構(gòu)進(jìn)行增強(qiáng)。在蒸餾過程中,僅對(duì) register tokens、卷積層、位置嵌入(positional embeddings)及最后一個(gè) Transformer 模塊進(jìn)行針對(duì)性更新,既最大限度保留了 ViT 模型預(yù)訓(xùn)練權(quán)重的核心信息,又顯著節(jié)省了計(jì)算資源。
實(shí)驗(yàn)結(jié)果
本文應(yīng)用該方法對(duì)多個(gè) ViT 主干模型在多種密集特征預(yù)測(cè)任務(wù)上進(jìn)行了系統(tǒng)驗(yàn)證,實(shí)現(xiàn)結(jié)果表明在不同模型與任務(wù)類型下均展現(xiàn)出一致且穩(wěn)定的替身效果,體現(xiàn)了該方法的魯棒性的廣泛適用性。主要實(shí)驗(yàn)結(jié)果如下:
1. 開放詞匯語義分割任務(wù)
在 VOC、COCO、ADE20K 等八個(gè)開放詞匯語義分割基準(zhǔn)數(shù)據(jù)集上,PH-Reg 在其中七個(gè)數(shù)據(jù)集上的性能超越了 MaskCLIP、SCLIP、NACLIP、ClearCLIP 等主流方法。此外,與 DVT 這一相似去噪方法相比,PH-Reg 能為 MaskCLIP 與 NACLIP 帶來更加顯著的性能提升。
![]()
2. 線性探測(cè)任務(wù)
在語義分割任務(wù)中,該方法為所有 ViT 骨干模型帶來了實(shí)質(zhì)性性能增益。特別對(duì)于 CLIP 模型,其在 VOC21 數(shù)據(jù)集上的 mIoU 顯著提升 5.04%,在 ADE20k 數(shù)據(jù)集上的 mIoU 提升 3.64%。在深度估計(jì)任務(wù)中,該方法同樣為預(yù)訓(xùn)練 ViT 骨干模型帶來了穩(wěn)定的性能提升,且僅通過引入 register tokens,便在參數(shù)量增加可忽略不計(jì)的前提下,取得了更優(yōu)結(jié)果。
![]()
3. 高效的蒸餾過程
該方法的核心優(yōu)勢(shì)在于無需依賴基于梯度的神經(jīng)場學(xué)習(xí),因此采用單階段蒸餾方式訓(xùn)練學(xué)生模型,與 DVT 相比,訓(xùn)練時(shí)間節(jié)省超 58.9%。此外,DVT 在訓(xùn)練過程中需存儲(chǔ) 1.4 TB 的神經(jīng)場特征數(shù)據(jù),而該方法可實(shí)時(shí)計(jì)算所有蒸餾目標(biāo),全程無需額外存儲(chǔ)空間。
![]()
總結(jié)與展望
PH-Reg 框架包含了一種無需重訓(xùn)、即插即用的 ViT 模型去噪方案,在無需數(shù)據(jù)標(biāo)記的條件下,通過自蒸餾能夠高效修復(fù) CLIP、DINOv2 等現(xiàn)有預(yù)訓(xùn)練模型中的偽影問題。
該研究不僅有效提升了 ViT 主干模型中密集特征的語義一致性,更為未來大規(guī)模視覺模型的快速微調(diào)與蒸餾機(jī)制探索提供了全新思路與研究方向。
![]()





京公網(wǎng)安備 11011402013531號(hào)