![]()
論文發表于EMNLP2025主會,核心作者為北京通用人工智能研究院(通研院)研究工程師白駿、劉洋,以及通計劃武漢大學聯培一年級博士生童銘顥,通訊作者為通研院語言交互實驗室研究員賈子夏,實驗室主任鄭子隆。
MoE 遇上機制可解釋性:
鮮為人知的探索之旅
在大模型研究領域,做混合專家模型(MoE)的團隊很多,但專注機制可解釋性(Mechanistic Interpretability)的卻寥寥無幾 —— 而將二者深度結合,從底層機制理解復雜推理過程的工作,更是鳳毛麟角。
這條路為何少有人走?原因不難理解:
實用性存疑—— 可解釋性研究常被質疑缺乏應用價值;技術門檻高—— 要穿透表層解釋(如 CoT),理解模型內部的“暗箱操作”,本就極具挑戰;加入 MoE 的路由機制后,因果追蹤和歸因分析的難度陡增;非主流共識—— 相比之下,強化學習和監督微調等黑箱訓練方法正大行其道,其成果相對來得更快更穩。
但即便如此,這片未開墾的大陸仍值得探索。當這些問題逐漸被揭開,我們不僅能解釋 MoE 的行為,更能設計、干預、優化它的思維結構,讓我們從“調參煉丹”走向“理解與創造”。
于是,本文針對性地提出了面向稀疏模型的機制可解釋性方法「Router Lens & CEFT」,聚焦于語言模型的上下文忠實性(Context Faithfulness)問題。目前,該研究已被EMNLP 2025接收。受 MoE 中專家特化現象的啟發,我們提出了Router Lens(路由透鏡),用于識別那些真正善于利用上下文信息的專家。研究發現,這些專家能夠逐步放大對關鍵信息的關注,并引導模型做出正確的決策。
更令人興奮的是,基于這一機制洞察,我們開發了CEFT(上下文忠實專家微調)方法 —— 僅對識別出的關鍵專家進行輕量化微調。實驗表明,CEFT 在多個基準測試中能以更高效率達到甚至超越全參數微調的效果,同時顯著緩解了模型訓練中常見的災難性遺忘問題。
這是一次將對 MoE 的機制理解轉化為實際收益的嘗試。讓我們一起看看,當可解釋性不再只是“知其然”,而是指向“用其然”時,會發生什么。
![]()
論文標題:
Understanding and Leveraging the Expert Specialization of Context Faithfulness in Mixture-of-Experts LLMs
論文地址:
https://arxiv.org/abs/2508.19594
代碼地址:
https://github.com/bigai-nlco/RouterLens
什么是上下文忠實性?
在依賴上下文的任務中,如檢索增強生成,模型生成的回答有多靠譜,往往取決于它是否真正依賴提供給它的上下文信息。如圖1所示,所謂上下文忠實性,就是指模型在生成回復時,嚴格以給定上下文為依據,不產生與上下文無關的幻覺信息。
![]()
圖1. 忠于上下文的 LLM 回復示例。
MoE 中是否存在上下文忠實專家?
近年來,MoE逐漸成為大模型的主流架構選擇。與傳統的稠密激活模型不同,MoE 通過路由網絡(Router)動態選擇部分專家網絡(Expert)參與計算,不僅大幅提升了參數利用效率,同時也為模型的模塊化訓練與能力分化開辟了新的空間。
已有研究發現,經過充分訓練的 MoE 模型會分化出擅長不同任務的專家網絡,這一現象被稱為專家特化(Expert Specialization)。由此,我們想進一步探究:在這些專家之中,是否存在擅長利用上下文信息的專家(圖2)?即上下文忠實專家(Context-Faithful Experts)?
![]()
圖2. MoE 中的部分專家可能更擅長利用上下文信息。
為解決這一問題,本文提出 MoE 特定專家的探測方法 RouterLens。我們假設:在上下文依賴任務中被更頻繁激活的專家更善于利用上下文信息。然而,MoE 預訓練中的負載均衡約束削弱了路由行為與專家特化能力間的可解釋性,使得僅憑激活頻率難以準確識別特定能力的專家。
為此,RouterLens 先在上下文依賴任務上進行輕量級路由微調(Router Tuning),以校正路由行為,使專家激活能更真實地反映不同專家的上下文利用能力差異。隨后,統計各專家的激活次數,并認定 Top-K 專家為上下文忠實專家(圖 3 )。
![]()
圖3. RouterLens 鑒定專家的過程
結論 1:MoE 中確實存在上下文忠實專家
本文在 SQuAD、NQ 等上下文依賴任務上驗證了 MoE 模型中上下文忠實專家的存在性。表 1 顯示,經過路由微調后,模型在所有任務上的表現均顯著提升,這說明僅調整專家激活行為即可增強上下文利用能力,證明了上下文忠實專家的存在。
![]()
表1 MoE 模型在路由微調(Router Tuning)前后的表現對比
結論 2:RouterLens 鑒定出的確為上下文忠實專家
那么,RouterLens 鑒定出的專家是否具備更強的上下文忠實性?為驗證這一點,我們還進行了屏蔽干預實驗:在模型推理時屏蔽 RouterLens 鑒定的專家(CE masked),并與屏蔽原始路由激活的專家(OE masked)進行對比。
如圖 4 所示,屏蔽 RouterLens 識別的專家后,模型性能顯著下降,甚至低于未微調的基礎模型,證明這些專家在上下文任務中的關鍵作用。相比之下,屏蔽原始激活專家的性能下降較小,進一步表明負載均衡訓練削弱了路由與專家真實能力的對應關系。
![]()
圖4. 基礎模型(base)、路由微調模型(RT),以及在路由微調模型上分別屏蔽原始激活專家(RT w/ OE masked)與屏蔽 RouterLens 鑒定專家(RT w/ CE masked)后的性能對比。
結論 3:不同任務下的上下文忠實專家各不相同。
本文還分析了上下文忠實專家在不同任務間的分布特征,將各樣本在所有層中專家激活頻率拼接成特征向量并經 t-SNE 可視化。結果(圖 5)顯示,不同任務形成明顯聚類,說明模型能根據任務需求自適應激活不同的上下文忠實專家。
![]()
圖5. MoE 模型中上下文忠實專家激活模式的t-SNE可視化結果。
雖然上下文忠實專家是任務特定的,但調優后的路由網絡能否泛化至新任務呢?論文將某數據集上調優的路由網絡應用于其他數據集。結果(圖 6)顯示,模型在未見任務上仍顯著優于原始模型,表明路由調優學到了具備泛化性的上下文忠實專家激活能力。
![]()
圖6. 微調后路由網絡的跨任務遷移性能。每個單元格表示相對于基準模型的 EM 得分絕對提升值,其中模型在第i行對應的數據集上訓練,并在第 j 列對應的數據集上進行評估。
上下文忠實專家是如何工作的?
那么,上下文忠實專家是如何幫助 MoE 利用上下文的呢?直觀上它們像一個信息樞紐,負責捕捉并整合輸入中的上下文,從而提升下游推理與生成的效果。但要驗證這一點,還需更細致地分析它們在計算流中的具體作用。
結論 4:上下文忠實專家能夠增強對上下文信息的注意力
通常,自注意力被認為決定模型對上下文的感知。本文通過上下文注意力增益和答案注意力增益評估上下文忠實專家的作用。結果(圖 7)顯示,路由微調后的模型在中、深層顯著增強了對上下文和答案 Token 的注意力。
![]()
圖7. 在 NQ-Swap 測試集上,路由微調模型相較于基礎模型在各層上的上下文注意力增益(CAG)和答案注意力增益(AAG)的變化趨勢。
這種逐層的注意力增強現象反映出一種逐步思考的過程。如圖8所示,中層的上下文忠實專家幫助模型首先在整個上下文中擴大注意力范圍(相當于對信息進行“掃描”),以識別潛在的相關內容;而在更深層中,模型則會逐步收縮注意力焦點,集中關注于上下文中最關鍵的片段(即答案 “1964”)。
![]()
圖8. OLMoE-1B-7B 模型在 NQ-Swap 測試樣本上由上下文忠實專家帶來的注意力增益。
結論 5:上下文專家能夠逐步校正模型的內在決策路徑
此外,我們還使用答案概率增益來分析上下文忠實專家對模型決策的影響。結果(圖 9)顯示,路由微調后模型在深層對正確答案的預測概率顯著提升,表明這些專家通過強化對關鍵上下文與答案 Token 的注意力,提升了模型的信息整合與判斷能力。
![]()
圖9. 在 NQ-Swap 測試集上,路由微調模型相較于基礎模型在各層答案概率增益(APG)的變化趨勢。
我們該如何利用上下文忠實專家?
在明確上下文忠實專家的作用機制后,我們進一步提出利用它們提升模型性能的思路:將有限計算資源優先分配給上下文忠實專家,而非訓練所有參數,從而實現高效優化。基于此,提出上下文忠實專家微調(CEFT),首先通過 RouterLens 識別各層的上下文忠實專家,然后僅微調這些專家,保持其余參數的凍結(算法 1)。
![]()
算法1. 上下文忠實專家微調
結論 6:僅微調上下文忠實專家能夠匹配甚至超越全量微調
如表2所示,對比了 CEFT 與全量微調(FFT)的表現。可以觀察到,在所有 MoE 模型和基準上,CEFT 一致地表現出與 FFT 持平甚至更優的表現,顯示了其在利用上下文信息提升任務表現的有效性。
![]()
表2. 全量微調(FFT)與上下文忠實專家微調(CEFT)的表現對比。
值得注意的是,該表現是在顯著減少訓練參數量的情況下實現的。如圖10所示,OLMoE-1B-7B 模型在全量微調下需要訓練 69 億參數,而 CEFT 僅需5億參數,實現了13.8倍的縮減。
![]()
圖10. 全量微調(FFT)與上下文忠實專家微調(CEFT)的可訓練參數量對比。
參數量顯著減少不僅提升計算效率,也減輕了災難性遺忘。表 3 顯示,在 MMLU 上,路由微調(RT)、全量微調(FFT)和上下文忠實專家微調(CEFT)的性能下降與可訓練參數量大致成正比,而 CEFT 對遺忘的抗性明顯優于 FFT。
![]()
表3. MoE 模型在經過不同訓練之后在 MMLU 基準上的表現。
展望
隨著 MoE 模型的廣泛應用,RouterLens 還可被用于更多的研究。
首先,RouterLens 可用于識別與分析更多類型的專家,如推理、證明或編程專家。
其次,它還能定位表現不佳或易誤導的專家,實現 MoE 的 “Debugging”。
最后,將 RouterLens 與 SAE 等機制可解釋性技術結合,可深入理解專家行為與知識分布,提升模型的可解釋性與可控性。





京公網安備 11011402013531號