![]()
機(jī)器之心報(bào)道
編輯:張倩
模型架構(gòu)的重要性可能遠(yuǎn)超我們之前的認(rèn)知。
最近,約翰斯?霍普金斯大學(xué)的一項(xiàng)研究發(fā)現(xiàn):1100 多個(gè)不同的神經(jīng)網(wǎng)絡(luò),即使在完全不同的數(shù)據(jù)集上訓(xùn)練、用不同的初始化和超參數(shù),最終學(xué)到的權(quán)重都會(huì)收斂到一個(gè)共享的低維子空間。
這似乎是說(shuō)明:存在一個(gè)「先驗(yàn)的」數(shù)學(xué)結(jié)構(gòu),所有神經(jīng)網(wǎng)絡(luò)都在逼近它。訓(xùn)練不是在「創(chuàng)造」什么,而是在「發(fā)現(xiàn)」一個(gè)早已存在的幾何形式。換句話說(shuō),神經(jīng)網(wǎng)絡(luò)「想學(xué)的東西」似乎高度一致,架構(gòu)決定了它能學(xué)什么,比數(shù)據(jù)影響更大。
![]()
這一發(fā)現(xiàn)有助于解釋很多「神秘」現(xiàn)象,比如為什么過(guò)參數(shù)化的模型(參數(shù)遠(yuǎn)多于訓(xùn)練樣本)還能泛化?為什么不同初始化最終學(xué)到相似的表示?為什么 LoRA、權(quán)重共享這些技術(shù)能 work?如果神經(jīng)網(wǎng)絡(luò)確實(shí)在共享子空間內(nèi)學(xué)習(xí),這將為隱式正則化、可遷移性以及稀疏訓(xùn)練方法的有效性提供支持性解釋?zhuān)瑫r(shí)也為諸如高效合并、新的優(yōu)化技術(shù)、更快更高效的學(xué)習(xí)和推理等應(yīng)用開(kāi)辟道路。
![]()
論文標(biāo)題:THE UNIVERSAL WEIGHT SUBSPACE HYPOTHESIS論文鏈接:https://www.arxiv.org/pdf/2512.05117
這篇論文在 Alphaxiv、X 等平臺(tái)上吸引了很多關(guān)注,一度攀升到 Alphaxiv 榜一的位置。
![]()
有人說(shuō),柏拉圖又贏了一回。(注:柏拉圖的理念論認(rèn)為:我們看到的具體事物(桌子、馬、圓形)都只是「理念」(Forms/Ideas)的不完美投影。真正的、完美的圓存在于一個(gè)抽象的理念世界,現(xiàn)實(shí)中的圓只是對(duì)它的模仿。其核心主張是:抽象結(jié)構(gòu)先于具體實(shí)例。)
![]()
也有人從中讀出了一些令人擔(dān)憂(yōu)的信號(hào):如果所有模型都收斂到同一個(gè)子空間,那意味著當(dāng)前架構(gòu)存在內(nèi)在的天花板,再多的數(shù)據(jù)和算力也只是在同一個(gè)「盆地」里打轉(zhuǎn)。
![]()
論文概覽
在具體研究中,作者首先聚焦于 LoRA 適配器,因其易于訓(xùn)練且能大量收集,在 Mistral-7B 模型的約 500 個(gè)適配器中觀察到了通用子空間的涌現(xiàn)。隨后,研究擴(kuò)展到完整權(quán)重空間,從約 500 個(gè) Vision Transformer 和 50 個(gè) LLaMA3-8B 模型中提取出相似的低秩通用子空間,這些模型各自使用不同數(shù)據(jù)集和初始化方式訓(xùn)練。
![]()
此前已有多條線索暗示這一現(xiàn)象:神經(jīng)正切核理論表明,在無(wú)限寬度極限下,網(wǎng)絡(luò)訓(xùn)練動(dòng)態(tài)由一個(gè)與具體任務(wù)基本無(wú)關(guān)的核函數(shù)主導(dǎo);機(jī)制可解釋性研究在視覺(jué)網(wǎng)絡(luò)的特定層中發(fā)現(xiàn)了反復(fù)出現(xiàn)的電路模式;彩票假說(shuō)和模式連通性也指向可復(fù)用的低維結(jié)構(gòu);早在 2012 年就有人觀察到,卷積網(wǎng)絡(luò)第一層在各種視覺(jué)任務(wù)中都會(huì)學(xué)到類(lèi) Gabor 濾波器。但這些工作要么聚焦于表示層面,要么未涉及不同模型間參數(shù)性質(zhì)的收斂。
這項(xiàng)研究的獨(dú)特之處在于:首次在權(quán)重層面提供了具體證據(jù)和明確通用假設(shè),為深度神經(jīng)網(wǎng)絡(luò)參數(shù)空間中 「通用性」的存在提供了最為嚴(yán)謹(jǐn)?shù)膶?shí)證證據(jù)。
盡管這種通用性的根本成因仍有待探索,但即便是初步理解也具有深遠(yuǎn)意義。共享子空間有望實(shí)現(xiàn):大規(guī)模模型壓縮(只需存儲(chǔ)子空間系數(shù)而非完整權(quán)重)、在已學(xué)習(xí)子空間內(nèi)快速適應(yīng)新任務(wù)、對(duì)泛化邊界和優(yōu)化景觀的理論洞察,以及通過(guò)減少訓(xùn)練和推理計(jì)算需求帶來(lái)的環(huán)境效益。此外,這種幾何通用性也為研究泛化、頓悟(grokking)、災(zāi)難性遺忘和數(shù)據(jù)效率等基本問(wèn)題提供了新視角。
作者也坦承了若干開(kāi)放問(wèn)題:不同架構(gòu)的通用子空間如何相互區(qū)別?能否通過(guò)顯式設(shè)計(jì)架構(gòu)來(lái)優(yōu)化子空間的幾何結(jié)構(gòu)?更根本的是,如果所有網(wǎng)絡(luò)都坍縮到同一子空間,它們就會(huì)繼承共同的偏見(jiàn)、能力邊界和失效模式 —— 這種多樣性的缺失本身是否構(gòu)成了一個(gè)根本瓶頸?是否應(yīng)該開(kāi)發(fā)專(zhuān)門(mén)用于打破這種收斂的方法?
方法與結(jié)果概覽
作者證明,與架構(gòu)相關(guān)、逐層分布的通用子空間在各類(lèi)神經(jīng)模型中持續(xù)涌現(xiàn)。無(wú)論模型是從頭訓(xùn)練、完全微調(diào)還是通過(guò)低秩方法適配,對(duì)通用子空間假說(shuō)的遵循都表現(xiàn)穩(wěn)健,未見(jiàn)顯著偏離。這一現(xiàn)象在不同的初始化策略、模態(tài)、數(shù)據(jù)格式和數(shù)據(jù)集內(nèi)容之間保持不變。
值得注意的是,所提取子空間的精度與可用模型的數(shù)量和質(zhì)量相關(guān)。基于此,作者推測(cè)每種架構(gòu)內(nèi)在地存在一個(gè)「理想」通用子空間,各個(gè)模型實(shí)例都在向其收斂。作者假設(shè),更優(yōu)的算法、更干凈的數(shù)據(jù)和更有效的優(yōu)化策略能使模型更接近這一理想狀態(tài)。盡管本文未正式驗(yàn)證「理想通用子空間」假說(shuō),但作者認(rèn)為這一子空間代表了當(dāng)代反向傳播訓(xùn)練的神經(jīng)網(wǎng)絡(luò)最穩(wěn)定的配置,因此這一規(guī)則的例外情況可能為進(jìn)一步的研究提供沃土。
分析方法
由于目前尚無(wú)方法能夠比較不同架構(gòu)模型的子空間,作者聚焦于在同一架構(gòu)上訓(xùn)練的大量模型,對(duì) LoRA 適配器以及 Transformer 和 CNN 的經(jīng)典權(quán)重進(jìn)行分析。除非另有說(shuō)明,所有實(shí)驗(yàn)僅執(zhí)行 1-2 階的高階奇異值分解(HOSVD),以確保方法在最簡(jiǎn)單情況下也能奏效。譜分析依賴(lài)高效的譜分解庫(kù),甚至可在 CPU 上運(yùn)行,作者的所有分析和實(shí)驗(yàn)均在單塊 Nvidia A5000 GPU 上完成。通過(guò)對(duì)數(shù)千個(gè)公開(kāi)可用模型進(jìn)行分析,作者無(wú)需任何訓(xùn)練成本即可提取通用子空間。
以下是作者所實(shí)現(xiàn)的算法:
![]()
聯(lián)合子空間分析結(jié)果
在 CNN 實(shí)驗(yàn)中,作者從隨機(jī)初始化開(kāi)始,在五個(gè)互不重疊的數(shù)據(jù)集(CIFAR-10、CIFAR-100、ImageNet、Oxford-IIIT Pets 和 EuroSAT)上訓(xùn)練 ResNet-50 進(jìn)行圖像分類(lèi)。盡管理論分析表明少量模型可能導(dǎo)致對(duì)聯(lián)合通用子空間的欠近似,但從頭訓(xùn)練 CNN 的規(guī)模限制了可納入研究的模型數(shù)量。
即便如此,對(duì) ResNet-50 所有層的平均解釋方差(圖 2b)分析揭示了一個(gè)跨越這些不相交任務(wù)的獨(dú)特共享低秩結(jié)構(gòu):大部分信息僅存在于 16 個(gè)(或更少)不同的子空間方向中。此外,將模型投影到這一子空間以獲得低秩 ResNet-50(從而減少參數(shù))后,其性能相對(duì)于完全微調(diào)仍具競(jìng)爭(zhēng)力,進(jìn)一步支持了聯(lián)合子空間的存在和實(shí)用性(圖 2a)。
![]()
為進(jìn)行更大規(guī)模的真實(shí)世界實(shí)驗(yàn),作者選擇對(duì) LoRA 模型進(jìn)行子空間分析,因?yàn)樗鼈冊(cè)诠差I(lǐng)域大量存在。鑒于 LoRA 模型明確捕獲任務(wù)特定方向且與原始權(quán)重對(duì)齊較弱,它們是驗(yàn)證假說(shuō)的良好替代。
在首個(gè)實(shí)驗(yàn)中,作者使用基于 Mistral-7B-Instruct-v0.2 訓(xùn)練的 500 個(gè)自然指令任務(wù)的 LoRA 模型,每個(gè) LoRA 單獨(dú)至少為 16 秩。分析結(jié)果(圖 3)顯示,所有 500 個(gè)模型的參數(shù)都可被一個(gè)有限的低秩子空間良好近似,且這一模式在所有層中一致存在。
![]()
為測(cè)試通用子空間的表達(dá)能力,作者通過(guò)將隨機(jī)選擇的已見(jiàn)(IID)和未見(jiàn)(OOD)任務(wù)的 LoRA 參數(shù)投影到通用子空間來(lái)解析重構(gòu)它們,結(jié)果(圖 4)表明通用子空間模型在兩種情況下都表現(xiàn)穩(wěn)健。作為對(duì)照,使用譜分解剩余分量(稱(chēng)為次級(jí)子空間)重做實(shí)驗(yàn)時(shí),性能大幅落后。值得一提的是,通用子空間模型的內(nèi)存效率提升了 19 倍,因?yàn)椴辉傩枰4嫒?500 個(gè) LoRA。
![]()
接下來(lái),作者進(jìn)一步將分析擴(kuò)展到使用 Stable Diffusion-XL 的文生圖任務(wù)。從 HuggingFace 上公開(kāi)可用的 LoRA 中提取通用子空間后,將單個(gè) LoRA 投影到該子空間,生成的圖像保持了視覺(jué)質(zhì)量和風(fēng)格(圖 5)。
![]()
基于 CLIP 的評(píng)估顯示,通用子空間在某些情況下甚至優(yōu)于單個(gè) LoRA,這可能歸因于先前研究中觀察到的去噪效應(yīng)。
![]()
為測(cè)試將多個(gè)模型壓縮到單一通用子空間的能力,作者將其方法與最先進(jìn)的模型合并方法進(jìn)行比較,包括 RegMean、Task Arithmetic、TIES、DARE-TIES、KnOTS-TIES 和 KnOTS-DARE-TIES。這些基線方法通常需要調(diào)整縮放系數(shù)、剪枝閾值或在驗(yàn)證集上進(jìn)行迭代調(diào)優(yōu)。
相比之下,通用子空間方法僅基于跨模型識(shí)別的共享低秩子空間的幾何結(jié)構(gòu)來(lái)解析計(jì)算合并系數(shù),無(wú)需迭代調(diào)優(yōu)或驗(yàn)證數(shù)據(jù)。由于子空間本質(zhì)上是低秩的,合并后的模型參數(shù)顯著少于任何單個(gè)模型。實(shí)驗(yàn)結(jié)果(表 2)表明,該方法在降低參數(shù)數(shù)量的同時(shí)取得了更高的平均準(zhǔn)確率,實(shí)現(xiàn)了無(wú)需啟發(fā)式剪枝或驗(yàn)證開(kāi)銷(xiāo)的可擴(kuò)展、穩(wěn)健的模型合并。
![]()
總而言之,這四組實(shí)驗(yàn)為通用子空間假說(shuō)提供了強(qiáng)有力的實(shí)證支持,并展示了其在內(nèi)存效率、模型合并、模型可復(fù)用性以及跨任務(wù)跨模態(tài)可擴(kuò)展部署方面的實(shí)際優(yōu)勢(shì)。
不過(guò),也有人提醒說(shuō),這篇論文雖然有價(jià)值,但結(jié)論需要經(jīng)過(guò)更加嚴(yán)格的驗(yàn)證。首先,任務(wù)多樣性不夠真實(shí),研究沒(méi)有在真正異質(zhì)的任務(wù)(如 MIDI 生成、英語(yǔ)文本、MNIST 像素生成)之間尋找共享子空間,所以發(fā)現(xiàn)的可能只是「任務(wù)子宇宙特定的子空間」而非真正的通用子空間;二是沒(méi)有跨架構(gòu)比較的方法,無(wú)法聲稱(chēng) ViT 和 LLaMA3 擁有相同子空間。
![]()
為什么通用子空間會(huì)涌現(xiàn)?
在論文中,作者對(duì)于通用子空間涌現(xiàn)的原因也給出了自己的推論。他們認(rèn)為,若干理論因素可能促成了這些共享結(jié)構(gòu)的出現(xiàn)。
首先,神經(jīng)網(wǎng)絡(luò)已知表現(xiàn)出對(duì)低頻函數(shù)的譜偏好,產(chǎn)生特征值的多項(xiàng)式衰減,從而將學(xué)習(xí)動(dòng)態(tài)集中到少數(shù)主導(dǎo)方向上。其次,現(xiàn)代架構(gòu)施加了強(qiáng)烈的歸納偏置,約束了解空間:卷積結(jié)構(gòu)天然偏好局部的、類(lèi) Gabor 模式,而注意力機(jī)制則優(yōu)先處理反復(fù)出現(xiàn)的關(guān)系回路。第三,基于梯度的優(yōu)化方法的普遍性 —— 在無(wú)限寬度極限下由與具體任務(wù)基本無(wú)關(guān)的核函數(shù)主導(dǎo) —— 內(nèi)在地偏好平滑解,將多樣的學(xué)習(xí)軌跡引導(dǎo)向共享的幾何流形。
如果這些假說(shuō)成立,通用子空間很可能捕獲了超越特定任務(wù)的基本計(jì)算模式,這或許能解釋遷移學(xué)習(xí)的有效性,以及為何多樣化的問(wèn)題往往能從相似的架構(gòu)改進(jìn)中受益。





京公網(wǎng)安備 11011402013531號(hào)