亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

ARGRE框架實現(xiàn)高效LLM解毒:自回歸獎勵引導(dǎo),安全對齊更快、更準

IP屬地 中國·北京 機器之心Pro 時間:2025-10-27 20:18:57



作者為北京航空航天大學(xué)的肖宜松,劉艾杉,應(yīng)宗浩,劉祥龍,新加坡國立大學(xué)的梁思源,新加坡南洋理工大學(xué)的陶大程。本文已被 NeurIPS 2025 錄用。

LLM 已在智能創(chuàng)作、企業(yè)服務(wù)等領(lǐng)域廣泛應(yīng)用,但其內(nèi)容安全問題仍是落地過程中的關(guān)鍵挑戰(zhàn)。仇恨、歧視、威脅性言論等潛在風(fēng)險,使得 LLM 的安全部署與可信使用面臨困難,而現(xiàn)有的內(nèi)容過濾或?qū)R方案在效果、效率與成本之間往往難以兼顧。

近期,來自北航等機構(gòu)的研究提出了一種新的解決思路:自回歸獎勵引導(dǎo)表征編輯(ARGRE)框架。該方法首次在 LLM 的潛在表征空間中可視化了毒性從高到低的連續(xù)變化路徑,實現(xiàn)了在測試階段進行高效「解毒」。



論文標題:Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing論文地址:https://arxiv.org/abs/2510.01243

實驗結(jié)果顯示,ARGRE 在降低模型毒性(62.21%)、縮短推理時間(47.58%)的同時,幾乎不影響模型原有能力,為提升大模型內(nèi)容安全提供了新的方向。

在 8 個主流 LLM(參數(shù)覆蓋 355M 的 GPT-2 Medium 到 30B 的 LLaMA-30B)上的測試顯示,其性能全面碾壓當前所有基線方法,為 LLM 安全落地提供了「又快又準又輕」的全新方法。



圖1 ARGRE 框架圖

研究背景

當前大語言模型解毒技術(shù)雖已形成兩大主流路徑,但均存在難以突破的核心瓶頸,嚴重制約其在實際場景中的落地效果:

其一,以直接偏好優(yōu)化(DPO)為代表的訓(xùn)練時解毒方法,雖能通過偏好數(shù)據(jù)微調(diào)模型參數(shù)實現(xiàn)毒性抑制,卻高度依賴大規(guī)模高質(zhì)量標注數(shù)據(jù)與巨額算力支撐,在低數(shù)據(jù)、低算力的資源受限場景中難以適用;

其二,以表征編輯為代表的測試時解毒方法,無需修改模型參數(shù),在推理階段實施靜態(tài)或動態(tài)干預(yù)。盡管具備靈活輕量的優(yōu)勢,但這類方法普遍未能充分探索大模型生成過程中毒性輸出與非毒性輸出之間的過渡空間,僅依賴稀疏的毒性標注數(shù)據(jù)無法捕捉到精細修復(fù)信號,導(dǎo)致干預(yù)精度不足,最終解毒效果遠未達最優(yōu)。

ARGRE 針對上述瓶頸,提出在潛在表征空間中顯式建模毒性轉(zhuǎn)變軌跡,形成可學(xué)習(xí)的“導(dǎo)航系統(tǒng)”。該系統(tǒng)將稀疏標注轉(zhuǎn)化為密集信號,指導(dǎo)自回歸獎勵模型學(xué)習(xí)更穩(wěn)定、精確的干預(yù)策略,從而在推理階段高效降低毒性輸出。

方法概述

ARGRE 的總體流程包括三部分:毒性軌跡探索、獎勵模型學(xué)習(xí)與自適應(yīng)表征編輯。其核心思想是通過表征插值刻畫毒性連續(xù)變化,并以自回歸獎勵信號引導(dǎo)模型在推理階段進行動態(tài)修正。

毒性軌跡探索

依據(jù)線性表征假設(shè),毒性等語義概念在大語言模型的表征空間中以線性方向編碼。



這些軌跡能將原本稀疏的毒性注釋,轉(zhuǎn)化為連續(xù)的細粒度毒性表征變化信號,形成密集的監(jiān)督信息,最終讓后續(xù)學(xué)習(xí)的自回歸獎勵模型具備更穩(wěn)定、準確的編輯指導(dǎo)能力。

自回歸獎勵模型

軌跡級獎勵模型基于完整軌跡訓(xùn)練,僅在結(jié)尾處分配最終獎勵,導(dǎo)致生成過程中編輯信號不夠精準。





自適應(yīng)表征編輯

依托自回歸獎勵模型,推理階段通過引導(dǎo)每個令牌表征最大化預(yù)期獎勵,實現(xiàn)大語言模型輸出毒性的降低。



相較于現(xiàn)有方法依賴啟發(fā)式靜態(tài)干預(yù)或繁瑣的梯度動態(tài)干預(yù),該策略在效果與效率上優(yōu)勢顯著:定向引導(dǎo)可降低表征陷入局部最優(yōu)的風(fēng)險,而有限的梯度迭代則確保自回歸生成的額外開銷微乎其微。

實驗評估

在實驗評估環(huán)節(jié),為驗證解毒效果,研究團隊以 RealToxicityprompts 的挑戰(zhàn)子集為測試基準。

通過向大語言模型輸入該子集的提示以觸發(fā)潛在毒性輸出,再借助 Detoxify 工具對生成結(jié)果進行毒性評分(分數(shù)越高毒性越強),同時以生成文本的困惑度衡量語言流暢性保留情況。

評估覆蓋 8 個主流 LLM,參數(shù)規(guī)模跨度從 355M(如 GPT-2 Medium)到 30B(如 LLaMA-30B)。

有效性評估中,ARGRE 展現(xiàn)出卓越的解毒性能:不僅顯著超越各類基線方法,更在 8 個主流大語言模型上實現(xiàn)了高效毒性抑制,相比原始模型毒性降低率高達 62.21%。即便僅保留初始定向引導(dǎo)步驟、去除迭代優(yōu)化的簡化版本,也能實現(xiàn) 59.63% 的毒性降低。

同時,ARGRE 在不同參數(shù)規(guī)模模型中均表現(xiàn)穩(wěn)定,從 355M 到 30B 參數(shù)的大模型均能有效適配,且僅造成最小程度的流暢性損耗,成功平衡了毒性抑制效果與模型核心生成能力。



效率表現(xiàn)上,ARGRE 同樣展現(xiàn)出顯著優(yōu)勢。以 LLaMA-30B 為測試對象,在生成 128 個 token 的任務(wù)中,ARGRE 能有效降低計算開銷,相比當前表現(xiàn)最佳的基線方法,推理時間減少 47.58%。

ARGRE 的效率優(yōu)勢源于兩點核心設(shè)計:一方面,其自回歸獎勵模型采用輕量兩層 MLP 結(jié)構(gòu),無需額外復(fù)雜模塊,避免引入多余計算負擔;另一方面,自適應(yīng)兩步編輯中的梯度優(yōu)化步驟僅需少量迭代,進一步控制了推理階段的開銷。

而實現(xiàn)可比解毒表現(xiàn)的簡化版本,推理速度與原始模型近乎持平,表明定向引導(dǎo)步驟的開銷極小。



理想的大語言模型解毒方法,需在降低毒性的同時完整保留模型現(xiàn)有核心能力,ARGRE 較好的滿足了這一目標。在語言性能保留層面,以 WikiText-2 數(shù)據(jù)集的困惑度為衡量指標,ARGRE 僅導(dǎo)致困惑度平均上升 0.52,這一微小增幅意味著其對語言生成能力的影響極低,且該增幅在所有測試時基線方法中處于最低水平。

在零樣本任務(wù)能力層面,ARGRE 能夠穩(wěn)定保留原始模型的準確率,未出現(xiàn)能力退化;而其他測試時基線方法在這一維度均表現(xiàn)出不同程度的性能下降。



總結(jié)

本文提出的 ARGRE,是一種能顯式建模 LLM 表征空間中毒性轉(zhuǎn)變的新型測試時解毒方法。其核心突破在于通過將稀疏的毒性標注轉(zhuǎn)化為密集訓(xùn)練信號,高效學(xué)習(xí)出可提供穩(wěn)定、精準指導(dǎo)的自回歸獎勵模型,為后續(xù)表征編輯提供關(guān)鍵支撐。

在覆蓋 355M 至 30B 參數(shù)的 8 種主流 LLM 上的廣泛評估顯示,ARGRE 不僅在解毒性能上全面優(yōu)于基線方法,推理效率也顯著高于其他主流基線,更能以近乎零損耗的方式保留模型原有的核心能力。

ARGRE 當前存在兩點局限:其一,作為白盒方法,它需獲取 LLM 的內(nèi)部表征才能實施干預(yù),限制了其在無法接觸模型內(nèi)部信息場景中的應(yīng)用范圍;其二,當前對毒性轉(zhuǎn)變的探索僅圍繞第一主成分方向展開,未來工作將嘗試探索更多樣化的方向,以便更好地捕捉毒性轉(zhuǎn)變的細微特征。

免責聲明:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。

全站最新
国产精品国产高清国产| 9191成人精品久久| 国产成a人亚洲精| 国产电影精品久久禁18| 99久久综合99久久综合网站| 国产喷白浆一区二区三区| 国产精品卡一卡二卡三| 亚洲成人av中文| 色综合久久久久久久| 3d动漫精品啪啪一区二区竹菊 | 欧美色视频在线| 欧美一级爆毛片| 亚洲码在线观看| 欧美国产日韩中文字幕在线| 国产精品香蕉在线观看| 久久伊人一区| 国产最新免费视频| 美女伦理水蜜桃4| 久久久久97国产| 亚洲永久精品视频| 久久99国产精品麻豆| 91色九色蝌蚪| 色视频一区二区| 国产小视频国产精品| 欧美性在线视频| 日本不卡久久| 中文字幕亚洲影院| 久久久久久久久毛片| 国产乱淫片视频| 不卡av在线免费观看| 天天综合色天天| 亚洲精品在线视频| 成人黄色av播放免费| 2021狠狠干| 欧美极品jizzhd欧美仙踪林| 国产精品久久久久久久久久久久久久久久久 | 蜜桃av色综合| 成人3d动漫一区二区三区| 一区二区黄色片| 伊人网免费视频| 成人91在线观看| 欧美视频日韩视频| 久久久久久久爱| 日韩欧美视频一区二区| 韩国三级在线播放| 精品人妻一区二区三区潮喷在线| 久久国内精品视频| 天天综合日日夜夜精品| 久久精品久久久久久国产 免费| 国产精品视频在线观看| 福利在线一区二区| 国产毛片久久久久久久| 性一交一乱一乱一视频| 国产精品私人影院| 亚洲欧美成人精品| 精品国产一区二区三区免费 | 成人免费视频观看视频| 密臀av一区二区三区| 日韩精品一卡二卡| 不卡影院免费观看| 亚洲第一页在线| 成人免费视频视频在| 黑人巨大猛交丰满少妇| 一级黄色a视频| 欧美国产激情一区二区三区蜜月| 亚洲女成人图区| 免费国产一区| 久久久久无码精品国产sm果冻 | 精品国产髙清在线看国产毛片| 国产精品羞羞答答| 亚洲制服中文字幕| 精品久久久久成人码免费动漫| 亚洲精品国产视频| 久久久久久久久国产| 国产av熟女一区二区三区| 久草网视频在线观看| 丁香亚洲综合激情啪啪综合| 亚洲第一色在线| 久久久福利视频| 国产精品视频在| 国产精品99久久久久久久女警 | 久久精品一区四区| 深夜福利91大全| 久久福利一区二区| 欧美a视频在线观看| 最新国产成人在线观看| 欧美高清激情视频| 亚洲一区二区蜜桃| www.桃色av嫩草.com| 欧洲另类一二三四区| 成人免费黄色网| 亚洲欧美视频在线播放| 国产精品一区三区| 日韩中文在线视频| 免费黄色特级片| 全国男人的天堂网| 欧美军同video69gay| 国产精品一区在线播放| 很污很黄的网站| 中文字幕成人av| 欧洲成人免费aa| 欧产日产国产精品98| 国产在线播精品第三| 亚洲最新视频在线| 日本熟妇人妻xxxxx| 人妻精品一区二区三区| 亚洲精品一区二区三区福利| 潘金莲一级淫片aaaaa免费看| 日韩欧美在线观看免费| 在线观看中文字幕不卡| 欧美成人第一区| www.com国产| 欧美影视一区在线| 色综合久久久久久久久五月| 欧美日韩综合在线观看| 欧美日韩激情美女| 久久青青草原| 成人h动漫精品一区二区下载| 欧美日韩美女视频| 日本成人黄色免费看| 在线能看的av| 欧美放荡的少妇| 日韩精品视频在线观看视频| 国产 日韩 欧美 综合| 国产视频精品xxxx| 日韩精品一区二区三区不卡| 激情丁香综合五月| 97成人在线视频| 日本理论中文字幕| 亚洲五码中文字幕| 亚洲开发第一视频在线播放| 97精品久久人人爽人人爽| 亚洲精品一线二线三线无人区| 免费一级特黄特色毛片久久看| 日日夜夜精品视频天天综合网| 神马国产精品影院av| 苍井空张开腿实干12次| 中文av字幕一区| 国产高清自拍99| 国产剧情精品在线| 中文字幕在线精品| 亚洲国产精品无码久久久久高潮| 国产日韩欧美亚洲| 国产区二精品视| a级片在线免费看| 久久人人爽人人爽爽久久| 加勒比一区二区| 黑人巨大精品欧美一区免费视频 | 久久久久久久网站| 久久精品亚洲a| 欧美色图天堂网| 五月婷婷狠狠操| 国产精品午夜在线| 亚洲欧洲一区二区在线观看| 丝瓜av网站精品一区二区| 2019中文字幕免费视频| 免费又黄又爽又色的视频| 欧美性做爰猛烈叫床潮| 蜜桃免费在线视频| 亚洲久本草在线中文字幕| 青少年xxxxx性开放hg| 国产精品亚洲一区二区三区妖精| 川上优av一区二区线观看| 中文字幕你懂的| 久久av红桃一区二区小说| 日本一级片免费| 337p日本欧洲亚洲大胆精品| 黄色录像a级片| 欧美日韩激情一区二区三区| 91欧美一区二区三区| 洋洋成人永久网站入口| 国产91在线免费| 国产精品无人区| 国产性生活免费视频| 久久亚洲一级片| 日韩最新中文字幕| 久久精品人人做人人爽人人| 一区二区免费电影| av亚洲精华国产精华精| 色涩成人影视在线播放| 成人午夜视频在线观看| 日韩欧美视频一区二区| 97精品视频在线观看自产线路二| 日韩欧美第二区在线观看| 不卡的av电影在线观看| 亚洲自拍三区| 国产欧美日韩在线| 成人免费性视频| 亚洲乱码国产乱码精品精98午夜 | 婷婷在线观看视频| 99久久自偷自偷国产精品不卡| 天堂成人在线视频| av一区二区在线看| 国产乱码精品一区二区三区av| 麻豆精品视频| 久久久精品国产99久久精品芒果| 亚洲成人第一| 国产精品嫩草影院com| 日韩人妻精品无码一区二区三区| 亚洲大片免费看| 成人做爰www看视频软件| 欧美不卡一区二区三区四区| 免费看一级大片| 久久国产精品视频| 国产叼嘿视频在线观看| 亚洲a级在线观看| 国产91精品精华液一区二区三区 | 一区二区三区精| 国产精品日本精品| 久久成人免费电影| 尤物一区二区三区| 亚洲综合图片区| 91精品啪在线观看国产| 亚洲欧美日韩在线一区| 一级黄色在线观看| 成人激情在线播放| 粉嫩av一区二区三区在线播放| 青青草综合视频| 欧美性69xxxx肥| 国精品无码人妻一区二区三区| 日韩精品中文字| 中文字幕在线观看第二页| 成人在线中文字幕| 久久只精品国产| 激情五月婷婷基地| 日韩国产欧美精品在线| 国产一区二区波多野结衣| 91久久精品国产91久久性色tv| 成人午夜视频在线观看| 欧美日韩亚洲自拍| 亚洲精品720p| 国产手机av在线| 日本一区二区免费看| 亚洲一线二线三线久久久| 国产美女永久免费无遮挡| 久久久久久久999| 国产一区二区不卡在线| 久久久国产欧美| 亚洲天堂第二页| 久久精品二区三区| 成人免费观看cn| 精品国产区一区| 国产成人精品亚洲精品色欲| 视频在线一区二区三区| 在线观看国产日韩| 日韩手机在线视频| 久久av一区二区| 欧美丝袜第一区| 日韩av电影网址| 久久久7777| 在线视频欧美精品| 波多野结衣一区二区三区四区| 欧美另类视频在线| 欧美综合一区二区| 中国女人一级一次看片| 神马影院我不卡午夜| 欧美日韩在线一区二区| 中文字幕在线视频第一页| 一区二区不卡在线观看| 欧美精品久久一区二区三区| 一级特黄录像免费看| www.-级毛片线天内射视视| 日韩亚洲欧美一区| 黄色aaa大片| 国产性生交xxxxx免费| www.日本久久久久com.| 成人免费观看男女羞羞视频| 国产乱了高清露脸对白| 国产精品老女人视频| 伊人开心综合网| 二区视频在线观看| 亚洲欧美在线网| 亚洲成人动漫在线播放| 三级精品在线观看| 久久综合在线观看| 欧亚精品中文字幕| 亚洲一区二区综合| 黄色av网站免费| 国产精品又粗又长| 日韩中文字幕在线精品| 97aⅴ精品视频一二三区| 日本一级免费视频| 国产一区在线免费| 日韩精品一区二区三区在线播放 | 日本一区二区三区四区五区| 亚洲一区二区精品在线| 国产视频精品一区二区三区| 丰满亚洲少妇av| 国产精品麻豆免费版现看视频| 久久青青草综合| 亚洲精品国产拍免费91在线| 成人午夜av影视| 亚洲av鲁丝一区二区三区| 亚洲色图自拍| 日韩最新免费不卡| 亚洲视频图片小说| 一区二区三区精| 中文字幕第10页| 国产成人精品免费视频大全最热 | 久久久精品影视| 国产成人愉拍精品久久| 国产精品无码一区二区在线| 97视频网站入口| 色婷婷综合久久| 黄页视频在线91| 精品无码久久久久| 东北少妇不带套对白| 国产精品88a∨| 欧美日本在线观看| 国产成人一级电影| 日韩精品视频免费看| 麻豆av免费在线| 成人在线播放av| 日韩精品免费综合视频在线播放| 久久综合九色综合欧美就去吻| 亚洲天堂一区在线观看| 黄色片在线免费| 91嫩草国产在线观看| 亚洲激情小视频| 自拍偷拍亚洲欧美日韩| 少妇精品视频一区二区| 人妻熟人中文字幕一区二区| 日韩精品手机在线观看| 国产99久久精品一区二区永久免费 | 国产日韩欧美视频在线观看| 久久久久国产精品区片区无码| 婷婷五月色综合| 国产成人精品视| 欧美精品一区二区三区一线天视频 | 日韩精品视频在线观看网址| 18涩涩午夜精品.www| 五月激情六月婷婷| 欧美精品久久久久性色| 国产精品v日韩精品v在线观看| 精品久久久久久综合日本| 久久久999精品视频| 色婷婷久久一区二区三区麻豆| 成av人片一区二区| 日韩在线视频第一页| 综合五月激情网| 亚洲五月激情网| 成人区一区二区| 国产一区二区三区高清视频| 久久久久久亚洲精品不卡| 日韩小视频在线观看专区| 中文字幕视频一区二区三区久| 日本aⅴ精品一区二区三区| 无码人妻av一区二区三区波多野 | 国产亚洲综合色| 日精品一区二区三区| 人人爽人人爽人人片av| 亚洲成人网在线播放| 婷婷丁香激情网| 国产亚洲精品久久久久久久| 成人av网站观看| 欧美一级高清免费播放| 亚洲免费高清视频| 欧美视频一区二区三区在线观看| 欧美韩国日本一区| 国产一区二区在线电影| 黄色小视频免费在线观看| 婷婷激情五月网| 成人在线观看免费完整| 人妻换人妻a片爽麻豆| www.超碰com| 日韩成人三级视频| 水蜜桃一区二区| 国产在线一区二| 成人黄色网免费| 日韩av片电影专区| 欧美另类交人妖| 亚洲一级免费视频| 精品精品国产高清a毛片牛牛| 欧美性猛交xxx| 亚洲h在线观看| 中文字幕视频一区| 2022国产精品视频| 国产精品99久久久久久久女警 | 国产一级片视频| 乱老熟女一区二区三区| 亚洲人人夜夜澡人人爽| 欧美xxxx日本和非洲| 午夜一级免费视频| 午夜国产一区二区三区| 久久9精品区-无套内射无码| 欧美日韩一区二区三区在线视频 | 久久亚洲成人av| 欧美日韩中文一区| 精品视频免费观看| 国产欧美日韩免费| 日本在线精品视频| 97在线看福利| 久久91精品国产91久久跳| 亚洲欧美国产另类| 亚洲第一精品久久忘忧草社区| 欧美精品一级二级三级| 欧美精品第1页| 51精品视频一区二区三区| 欧美在线观看你懂的| 色吊一区二区三区| 欧美亚洲动漫另类| 欧美喷潮久久久xxxxx| 欧美色精品天天在线观看视频| 欧美中文字幕不卡| 欧美日本在线观看| 精品久久久久久亚洲综合网| 亚洲国产精品人久久电影| 亚洲精品一区二区三区福利| 国产视频精品一区二区三区| 最新中文字幕亚洲|