![]()
作者為北京航空航天大學(xué)的肖宜松,劉艾杉,應(yīng)宗浩,劉祥龍,新加坡國立大學(xué)的梁思源,新加坡南洋理工大學(xué)的陶大程。本文已被 NeurIPS 2025 錄用。
LLM 已在智能創(chuàng)作、企業(yè)服務(wù)等領(lǐng)域廣泛應(yīng)用,但其內(nèi)容安全問題仍是落地過程中的關(guān)鍵挑戰(zhàn)。仇恨、歧視、威脅性言論等潛在風(fēng)險,使得 LLM 的安全部署與可信使用面臨困難,而現(xiàn)有的內(nèi)容過濾或?qū)R方案在效果、效率與成本之間往往難以兼顧。
近期,來自北航等機構(gòu)的研究提出了一種新的解決思路:自回歸獎勵引導(dǎo)表征編輯(ARGRE)框架。該方法首次在 LLM 的潛在表征空間中可視化了毒性從高到低的連續(xù)變化路徑,實現(xiàn)了在測試階段進行高效「解毒」。
![]()
論文標題:Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing論文地址:https://arxiv.org/abs/2510.01243
實驗結(jié)果顯示,ARGRE 在降低模型毒性(62.21%)、縮短推理時間(47.58%)的同時,幾乎不影響模型原有能力,為提升大模型內(nèi)容安全提供了新的方向。
在 8 個主流 LLM(參數(shù)覆蓋 355M 的 GPT-2 Medium 到 30B 的 LLaMA-30B)上的測試顯示,其性能全面碾壓當前所有基線方法,為 LLM 安全落地提供了「又快又準又輕」的全新方法。
![]()
圖1 ARGRE 框架圖
研究背景
當前大語言模型解毒技術(shù)雖已形成兩大主流路徑,但均存在難以突破的核心瓶頸,嚴重制約其在實際場景中的落地效果:
其一,以直接偏好優(yōu)化(DPO)為代表的訓(xùn)練時解毒方法,雖能通過偏好數(shù)據(jù)微調(diào)模型參數(shù)實現(xiàn)毒性抑制,卻高度依賴大規(guī)模高質(zhì)量標注數(shù)據(jù)與巨額算力支撐,在低數(shù)據(jù)、低算力的資源受限場景中難以適用;
其二,以表征編輯為代表的測試時解毒方法,無需修改模型參數(shù),在推理階段實施靜態(tài)或動態(tài)干預(yù)。盡管具備靈活輕量的優(yōu)勢,但這類方法普遍未能充分探索大模型生成過程中毒性輸出與非毒性輸出之間的過渡空間,僅依賴稀疏的毒性標注數(shù)據(jù)無法捕捉到精細修復(fù)信號,導(dǎo)致干預(yù)精度不足,最終解毒效果遠未達最優(yōu)。
ARGRE 針對上述瓶頸,提出在潛在表征空間中顯式建模毒性轉(zhuǎn)變軌跡,形成可學(xué)習(xí)的“導(dǎo)航系統(tǒng)”。該系統(tǒng)將稀疏標注轉(zhuǎn)化為密集信號,指導(dǎo)自回歸獎勵模型學(xué)習(xí)更穩(wěn)定、精確的干預(yù)策略,從而在推理階段高效降低毒性輸出。
方法概述
ARGRE 的總體流程包括三部分:毒性軌跡探索、獎勵模型學(xué)習(xí)與自適應(yīng)表征編輯。其核心思想是通過表征插值刻畫毒性連續(xù)變化,并以自回歸獎勵信號引導(dǎo)模型在推理階段進行動態(tài)修正。
毒性軌跡探索
依據(jù)線性表征假設(shè),毒性等語義概念在大語言模型的表征空間中以線性方向編碼。
![]()
這些軌跡能將原本稀疏的毒性注釋,轉(zhuǎn)化為連續(xù)的細粒度毒性表征變化信號,形成密集的監(jiān)督信息,最終讓后續(xù)學(xué)習(xí)的自回歸獎勵模型具備更穩(wěn)定、準確的編輯指導(dǎo)能力。
自回歸獎勵模型
軌跡級獎勵模型基于完整軌跡訓(xùn)練,僅在結(jié)尾處分配最終獎勵,導(dǎo)致生成過程中編輯信號不夠精準。
![]()
![]()
自適應(yīng)表征編輯
依托自回歸獎勵模型,推理階段通過引導(dǎo)每個令牌表征最大化預(yù)期獎勵,實現(xiàn)大語言模型輸出毒性的降低。
![]()
相較于現(xiàn)有方法依賴啟發(fā)式靜態(tài)干預(yù)或繁瑣的梯度動態(tài)干預(yù),該策略在效果與效率上優(yōu)勢顯著:定向引導(dǎo)可降低表征陷入局部最優(yōu)的風(fēng)險,而有限的梯度迭代則確保自回歸生成的額外開銷微乎其微。
實驗評估
在實驗評估環(huán)節(jié),為驗證解毒效果,研究團隊以 RealToxicityprompts 的挑戰(zhàn)子集為測試基準。
通過向大語言模型輸入該子集的提示以觸發(fā)潛在毒性輸出,再借助 Detoxify 工具對生成結(jié)果進行毒性評分(分數(shù)越高毒性越強),同時以生成文本的困惑度衡量語言流暢性保留情況。
評估覆蓋 8 個主流 LLM,參數(shù)規(guī)模跨度從 355M(如 GPT-2 Medium)到 30B(如 LLaMA-30B)。
有效性評估中,ARGRE 展現(xiàn)出卓越的解毒性能:不僅顯著超越各類基線方法,更在 8 個主流大語言模型上實現(xiàn)了高效毒性抑制,相比原始模型毒性降低率高達 62.21%。即便僅保留初始定向引導(dǎo)步驟、去除迭代優(yōu)化的簡化版本,也能實現(xiàn) 59.63% 的毒性降低。
同時,ARGRE 在不同參數(shù)規(guī)模模型中均表現(xiàn)穩(wěn)定,從 355M 到 30B 參數(shù)的大模型均能有效適配,且僅造成最小程度的流暢性損耗,成功平衡了毒性抑制效果與模型核心生成能力。
![]()
效率表現(xiàn)上,ARGRE 同樣展現(xiàn)出顯著優(yōu)勢。以 LLaMA-30B 為測試對象,在生成 128 個 token 的任務(wù)中,ARGRE 能有效降低計算開銷,相比當前表現(xiàn)最佳的基線方法,推理時間減少 47.58%。
ARGRE 的效率優(yōu)勢源于兩點核心設(shè)計:一方面,其自回歸獎勵模型采用輕量兩層 MLP 結(jié)構(gòu),無需額外復(fù)雜模塊,避免引入多余計算負擔;另一方面,自適應(yīng)兩步編輯中的梯度優(yōu)化步驟僅需少量迭代,進一步控制了推理階段的開銷。
而實現(xiàn)可比解毒表現(xiàn)的簡化版本,推理速度與原始模型近乎持平,表明定向引導(dǎo)步驟的開銷極小。
![]()
理想的大語言模型解毒方法,需在降低毒性的同時完整保留模型現(xiàn)有核心能力,ARGRE 較好的滿足了這一目標。在語言性能保留層面,以 WikiText-2 數(shù)據(jù)集的困惑度為衡量指標,ARGRE 僅導(dǎo)致困惑度平均上升 0.52,這一微小增幅意味著其對語言生成能力的影響極低,且該增幅在所有測試時基線方法中處于最低水平。
在零樣本任務(wù)能力層面,ARGRE 能夠穩(wěn)定保留原始模型的準確率,未出現(xiàn)能力退化;而其他測試時基線方法在這一維度均表現(xiàn)出不同程度的性能下降。
![]()
總結(jié)
本文提出的 ARGRE,是一種能顯式建模 LLM 表征空間中毒性轉(zhuǎn)變的新型測試時解毒方法。其核心突破在于通過將稀疏的毒性標注轉(zhuǎn)化為密集訓(xùn)練信號,高效學(xué)習(xí)出可提供穩(wěn)定、精準指導(dǎo)的自回歸獎勵模型,為后續(xù)表征編輯提供關(guān)鍵支撐。
在覆蓋 355M 至 30B 參數(shù)的 8 種主流 LLM 上的廣泛評估顯示,ARGRE 不僅在解毒性能上全面優(yōu)于基線方法,推理效率也顯著高于其他主流基線,更能以近乎零損耗的方式保留模型原有的核心能力。
ARGRE 當前存在兩點局限:其一,作為白盒方法,它需獲取 LLM 的內(nèi)部表征才能實施干預(yù),限制了其在無法接觸模型內(nèi)部信息場景中的應(yīng)用范圍;其二,當前對毒性轉(zhuǎn)變的探索僅圍繞第一主成分方向展開,未來工作將嘗試探索更多樣化的方向,以便更好地捕捉毒性轉(zhuǎn)變的細微特征。





京公網(wǎng)安備 11011402013531號