Pos2Distill團隊 投稿
量子位 | 公眾號 QbitAI
語言模型遭遇嚴重的位置偏見,即模型對不同上下?位置的敏感度不?致。模型傾向于過度關注輸?序列中的特定位置,嚴重制約了它們在復雜推理、??本理解以及模型評估等關鍵任務上的表現。
例如,在對?兩個候選答案時,模型常因偏好?個選項?損害其作為評估器的公正性與可靠性。
![]()
針對這?挑戰,論?提出了 Pos2Distill,?個創新的“位置到位置”蒸餾框架。該框架旨在將模型在優勢位置的強?能?遷移?劣勢位置,從?有效緩解位置偏?。
其核?思想恰如古語所云:“解鈴還須系鈴?”,利?模型??已習得的知識,來糾正其??的系統性偏差。
其基本原理可以概括為:利?位置本?造成的性能不均衡,來對抗位置偏差這?問題。
團隊發現,位置偏差在“檢索”和“推理”這兩類任務中誘發的表現不同,因此基于上述核?原理,團隊分別設計了兩種專?的實現?案:Pos2Distill-R1和Pos2Distill-R2。
采?Pos2Distill?法后,模型在??本檢索和推理任務中的所有位置上都表現出更好的?致性,這兩個專?設計的系統不僅在各?對應的任務上表現優異,彼此之間還表現出很強的跨任務泛化能?。
![]()
已有的工作:在信息豐富的場景中,例如檢索增強?成、?上下?推理以及將?語?模型(LLM)?作評判者等,位置偏差構成了重?障礙。當關鍵信息被任意分布在輸?的各個位置時,LLM 常常?法有效識別和整合這些核 ?內容,最終導致其在各種應?中出現意外的失敗。為緩解PB問題:
一類工作試圖通過修改與上下?敏感度不均相關的關鍵架構組件或內部表示來進?減輕位置偏見。然?,盡管近期在縮?性能差距??取得了?些進展,模型在“優勢位置”和“劣勢位置”之間的信息利?率依然存在巨?差異。
另?類研究?法則采?了密集的上下?感知訓練,通過合成具有細粒度信息感知的訓練數據來提升模型性能。但是,這類數據驅動的?法通常在數據合成和計算資源??都需付出?昂的成本。
因此,學術界和?業界迫切需要?種能夠克服這些局限、既有效??效的策略來緩解PB。
方法
先導實驗:分析揭示,PB在“檢索”和“推理”這兩種不同的任務范式下表現出不同的?為。
Natural PB for Retrieval:在檢索任務 (retrieval)中,PB主要表現為“詞元偏移”(token-shifting),即在黃金文檔所處位置不同,大部分的response具有相似的前綴,只在關鍵的生成位置發生分歧,由此誘發retrieval的失敗。 一旦這些錯誤的token能夠被修正,模型又可以輸出正確的答案;
Compound PB for Reasoning:在推理任務中,PB 既體現在檢索過程中的變化,也體現在推理過程中發生的改變,最終導致思維鏈條的偏移(thought shifting)。因此,至關重要的是通過整合真正相關的信息與推理鏈來重塑整體的響應軌跡。
![]()
針對這兩種情況相應地開發了兩個系統:Pos2Distill-R1 和 Pos2Distill-R2。Pos2Distill-R1 通過引? KL 散度(Kullback-Leibler divergence)損失來提供細粒度的糾正信號,從?緩解檢索任務中的“詞元偏移”。
Pos2Distill-R2 則通過蒸餾來?優勢位置輸?的優質CoT響應,來指導和糾正劣勢位置的推理軌跡,從?解決推理任務中的“思維偏移”。
![]()
算法設計(Pos2Distill-R1 for Retrieval):
該框架由兩個核心模塊組成:如圖 4a 所示的平凡位置激活和優勢位置錨定。前者促進將高表現的優勢位置中的有效處理能力遷移至利用不足的無效位置;后者確保優勢位置已建立性能的保持,從而縮小無效位置與優勢位置之間的差距。
平凡位置激活:為糾正 token shifting 行為,在每個生成步驟中利用 KL 散度作為細粒度的對齊信號。
![]()
位置感知的對齊:PB引發的優勢位置與不同平凡位置之間的對齊難度具有位置依賴性,因此具有高對齊難度的位置應該優先實施梯度更新。
![]()
因此激活平凡位置的損失為:
![]()
優勢位置的錨定:在蒸餾過程中,模型會意識到關鍵信息可能出現在上下文窗口的任意位置,這可能會削弱對優勢位置(sink position)的顯著注意力,從而潛在地損害在多樣下游任務中的整體能力。為防止這一問題引入錨定損失,以保持優勢位置的有效性。
![]()
訓練目標損失:融合了激活損失(activation loss)和錨定損失(anchoring loss),形式化表示為:
![]()
算法設計(Pos2Distill-R2 for Reasoning):
首先從優勢位置 采樣鏈式思維(CoT)推理軌跡。類似于檢索任務的過程,為每組位置構建 (K) 個不同的平凡提示。隨后使用交叉熵(CE)損失函數對提示及其對應的推理軌跡 (Cadv) 進行優化,以有效捕獲推理模式。形式化地表示為:
![]()
實驗
Pos2Distill-R1實驗結果:Pos2Distill-R1 表現出魯棒且?致的性能,?論???檔的位置如何,都顯著減少了由位置引起的性能差異。例如,在 WebQ 數據集,Pos2Distill-R1 使 Llama-3-8B 在20個位置上實現了 56.7%的平均準確率。該性能與 dgold 位于最佳“匯聚位置”(sink position)時達到的 57.9% 相當,這說明從優勢到劣勢位置的知識遷移是成功的,?這正是 Pos2Distill-R1 的核?原理。
![]()
可解釋性結果:由于PB源自于大語言模型的架構與參數,希望通過分析Pos2Distill-R1的內部動態機制來揭示其作用原理并提供可解釋性說明。記錄當黃金文檔從1移動到20時,對20個文檔的注意力分布。Pos2Distill-R1通過動態地將注意力焦點持續對齊到相關文檔上,從而強化了上下文一致性,促進了更為準確的檢索。
![]()
Pos2Distill-R2實驗結果:?論是在域內性能還是在域外泛化??,Pos2Distill-R2 都超越了現有的?我訓練?法。如表2,在 MusiQue 數據集上訓練時,Pos2Distill-R2 實現了 42.8 的精確匹配(EM)得分,優于所有領先的基線。此外,本?法表現出強?的跨領域泛化能?;例如,在 HotpotQA 數據集上,它達到了 58.3 的EM 得分,?最強的基線模型為50.9。研究結果表明,與傳統的逐實例訓練相?,訓練?語?模型在多樣化、分散的???檔位置上進?推理,可能更有效地增強其?上下?推理能?。這?洞?為提升復雜?上下?任務中的推理能?提供了新視?。
![]()
關于兩個系統的討論:
兩個系統都表現出對其相互任務的顯著泛化能?。具體??,主要為檢索任務優化的 Pos2Distill-R1 證明了其增強的上下?檢索能?也改善了?上下?推理,在 MusiQue 任務上產?了 3.3% 的增?。相反,為推理任務優化的 Pos2Distill-R2 表明,其所獲得的在?上下?中的推理熟練度也增強了上下?感知,從?有益于檢索性能。
盡管存在這種跨任務泛化,但每個系統在其主要領域都表現卓越:
Pos2Distill-R2 在復雜的?上下?推理任務上取得了更優性能,? Pos2Distill-R1 在這些任務上表現滯后,在檢索任務上則反之亦然。
這表明緩解位置偏差(PB)存在著不同的底層動態,并可能受到思維鏈(CoT)存在或缺失的影響。因此,開發這兩種專?化的 Pos2Distill 設計被證明是既必要?有效的。
![]()
論文地址:
https://arxiv.org/abs/2508.15709
開源地址:
https://github.com/AMAP-ML/Pos2Distill





京公網安備 11011402013531號