亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

TRIDENT:基于三維多樣化紅隊數據合成的LLM安全增強方法

IP屬地 中國·北京 編輯:馮璃月 機器之心Pro 時間:2025-07-31 18:25:27



第一作者武驍睿,武漢大學計算機學院博士一年級生,研究大語言模型安全對齊與紅隊數據生成,側重低資源場景的對齊策略與風險覆蓋。導師:李莊講師(RMIT,低資源 NLP、計算社會科學、模型安全),姬東鴻教授、李霏副教授、騰沖副教授(武漢大學,情感計算、信息抽取)。合作單位螞蟻集團、螞蟻國際,合作作者張欣主任工程師、毛瀟鋒工程師。

大語言模型(LLM)已經在多項自然語言處理任務中展現出卓越能力,但其潛在安全風險仍然是阻礙規模化落地的關鍵瓶頸。目前社區用于安全對齊的公開數據集,往往偏重于「詞匯多樣性」,即讓同一種風險指令盡可能用不同的表達方式出現,卻很少系統考慮指令背后的「惡意意圖多樣性」以及「越獄策略多樣性」。缺乏后兩者會導致風險覆蓋不足:模型在看似通過測試的情況下,仍可能在陌生場景或復雜攻防對抗中暴露漏洞。

TRIDENT 針對這一痛點,首次提出「詞匯-惡意意圖-越獄策略」三維多樣化框架。通過 persona-based + zero-shot 的自動生成范式,配合六大越獄技術,能夠以低成本、大規模地產出高質量、高覆蓋的紅隊數據,為后續的監督微調(SFT)或直接偏好優化(Direct Preference Optimization, DPO)等提供更加穩健的安全訓練材料。



單位:武漢大學、螞蟻集團、螞蟻國際、皇家墨爾本理工大學研究方向:大語言模型安全 / 紅隊數據自動化構建論文標題:TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis論文鏈接:https://aclanthology.org/2025.acl-long.733/代碼開源:https://github.com/FishT0ucher/TRIDENT

與傳統依賴專家或眾包人工編寫紅隊指令的方式相比,TRIDENT 極大降低了人工依賴;與僅圍繞單一維度做數據增強的方法相比,TRIDENT 在多項安全基準上顯著提升了模型的拒絕能力和對抗魯棒性。



圖 1TRIDENT-CORE 與各基線數據集在 14 類意圖域的覆蓋對比

主要貢獻

構建了首個三維度風險覆蓋評估框架,能夠定量衡量數據集在詞匯、惡意意圖以及越獄策略三個維度的多樣性與均衡度;設計了端到端自動化數據生成管線 TRIDENT,可在無人干預的情況下生成兩套數據:TRIDENT-CORE(26,311 條,覆蓋詞匯 + 意圖)與 TRIDENT-EDGE(18,773 條,引入越獄策略維度);在 meta-LLAMA-3.1-8B 上進行 LoRA 微調后,Harm Score 相對最佳基線降低 14.29%,Attack Success Rate 下降 20%,同時 Helpful Rate 保持或小幅上升,證明安全性與有用性可以兼得;通過細粒度消融實驗驗證:任何一個維度的缺失都會導致安全指標大幅下降,說明多維度協同不可替代。

問題背景

自 ChatGPT 引爆關注以來,業界與學界在「安全指令微調」方面投入了大量精力,但仍面臨三大頑疾:

意圖類別失衡—— 公開數據集中暴力犯罪、色情犯罪相關指令占比高,而金融詐騙、基礎設施破壞等高危領域數據極少;越獄策略缺失—— 多數數據集僅包含直白的危險請求,很少涵蓋 Cipher、Code Injection 等最新攻防技巧;構造成本高 —— 人工撰寫或篩選指令耗時耗力,更新周期跟不上模型演進速度。

這導致即便模型通過了現有 benchmark,也難以在真實線上流量或新型越獄攻擊面前保持穩健。

方法設計

「場景 -> 人格 -> 指令」三級生成:首先利用無審查 LLM 在 14 大高風險領域生成細粒度情境描述;然后讓同一模型推理出符合情境的 Persona(角色、職業、動機等);最后通過角色扮演生成與 Persona 相匹配的惡意指令,從而自然引入詞匯與意圖多樣性。

六大越獄方法注入:Cipher Encoding、Code Injection、Low-Resource Translation、Past Tense 重寫、Persona Modulation、RENELLM 復雜變換。通過在原指令上隨機疊加這些策略,增強攻擊穿透力并擴大策略覆蓋面。

兩階段過濾:先用 LLAMA-GUARD-3 做安全判別,確保指令確實「危險」;再用 Self-BLEU 去重,刪除文本相似度 > 閾值的樣本,保證詞匯多樣性。

安全回復生成:采用帶鏈式思考的安全模板,分三步(指出風險 -> 共情安撫 -> 正向引導)生成守規且有用的回復,為后續 SFT 提供正反示例。



圖 2TRIDENT 自動化數據生成流水線(pipeline)

實驗結果

基準對比:在 HarmBench、XS-Test、AdvBench、SC-Safety 等 7 個公開基準上,與 AART、ATTAQ、HH_RLHF、SAFE_RLHF、WILDBREAK、WILDCHAT 六大數據集相比,TRIDENT-EDGE 微調模型的平均 Harm Score 最低,Attack Success Rate 最低,同時 Helpful Rate 與最佳基線持平或更優。

消融分析:逐次移除詞匯、意圖、越獄三個維度后,再微調并評測——無論去掉哪一維度,模型在所有安全指標上均顯著退化,其中去掉越獄策略時 Attack Success Rate 上升最明顯(+11.3%)。

越獄攻擊評估:將六種越獄策略單獨或組合應用于 TRIDENT-CORE 指令,對七大主流 LLM(Llama-3.1-8B-chat, Qwen-2.5-7B, GPT-3.5 Turbo 等)發起攻擊;組合策略下成功率平均提升 25%,說明多策略融合能更全面暴露模型弱點。



表1 TRIDENT?EDGE 與基線在 7 個安全基準的評測結果(節選文章Table 4)



表 2六種越獄策略對紅隊指令攻擊成功率的提升效果(節選文章 Table 5)

突破意義

TRIDENT 為 LLM 安全對齊提供了首個三維多樣化自動化生成范式,兼顧高覆蓋、低成本與可持續迭代。其框架與數據可直接集成至 RLHF / DPO / RLAIF 等訓練流水線。對于缺乏安全標注團隊的研究者而言,TRIDENT-CORE 作為「即插即用」的安全微調底座數據,可顯著降低安全研究的門檻,加速可信 AI 的大規模落地。

我們相信,多維度、多樣化的安全數據共建,將成為下一階段促進大模型可信生態的關鍵基礎設施。值得強調的是,TRIDENT 并非「一次性」數據集,而是可隨模型版本、威脅情報和法規更新而持續演進的生成框架,這使其在快速變化的攻防環境中始終保持前沿適應性,為產業界和學術界提供長久價值。

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

欧美日韩情趣电影| 久久久久国产免费| 日韩欧美精品久久| 香蕉精品视频在线| 国产乱淫av片杨贵妃| 国产无套内射久久久国产| 久草精品在线播放| 精品人妻人人做人人爽夜夜爽| 国产又黄又嫩又滑又白| 在线免费观看麻豆| 国产精品23p| 国产女人18毛片水真多| 久久三级福利| 韩日av一区二区| 久久综合色之久久综合| 亚洲自拍欧美精品| 欧美二区乱c少妇| 一本色道久久88综合日韩精品| 欧美成在线视频| 国产日韩欧美视频| 亚洲国产精品一区在线观看不卡 | 午夜激情一区二区| 欧美日韩亚洲综合一区二区三区| 亚洲第一av在线| 裸体女人亚洲精品一区| 国产在线拍揄自揄视频不卡99| 精品久久蜜桃| 97av视频在线观看| 日本丰满少妇裸体自慰| 日韩av片在线播放| 午夜一区在线观看| 欧美国产一区视频在线观看| 在线欧美一区二区| 日韩中文字幕网站| 91嫩草在线视频| 国产女教师bbwbbwbbw| 日本xxxx免费| 天天操天天摸天天干| 久久天堂精品| 亚洲精品日韩一| 亚洲国产91精品在线观看| 欧美亚洲在线观看| 中文字幕在线亚洲三区| 在线成人免费av| 啦啦啦免费高清视频在线观看| 三级欧美韩日大片在线看| 国产精品传媒入口麻豆| 亚洲国产毛片完整版| 国产极品精品在线观看| 成人午夜免费剧场| 337人体粉嫩噜噜噜| 国产高清视频免费| 中文字幕一区二区日韩精品绯色| 精品国产免费一区二区三区香蕉| 欧美专区国产专区| 在线观看成人免费| 特黄一区二区三区| 蜜桃传媒麻豆第一区在线观看| 伊人一区二区三区| 精品国模在线视频| 亚洲一区美女| 网爆门在线观看| 麻豆精品一区二区综合av| 亚洲成人午夜影院| 久久久久久成人| 男人j进女人j| 国产三级精品三级观看| 久久国产综合精品| 欧美日韩www| 国产精品va在线播放我和闺蜜| 久艹视频在线免费观看| 91成人福利视频| 成人国产在线观看| 亚洲国产另类久久精品| 九色视频成人porny| 不卡一区二区在线观看| 香蕉av在线播放| 好吊成人免视频| 久久久亚洲精选| 18禁免费无码无遮挡不卡网站| 久久精品免费在线| 91麻豆6部合集magnet| 日韩一区二区免费在线观看| 51国偷自产一区二区三区 | 久久精品中文| 欧美日韩另类一区| 超碰国产精品久久国产精品99| 女教师高潮黄又色视频| 日韩在线一区二区三区四区| 欧美日韩精品在线观看| 国产精品成人一区二区| 国产亚洲色婷婷久久| 天天干,夜夜操| 欧美网站一区二区| 国产在线精品一区二区中文| wwwww黄色| 99精品国产视频| 裸体女人亚洲精品一区| 成人3d动漫一区二区三区| www.好吊色| 欧美美女直播网站| 欧美极品一区| 国产一级片毛片| 日本熟妇成熟毛茸茸| 99久久久无码国产精品衣服| 九九热在线免费| 深夜黄色小视频| 中文字幕 亚洲一区| 97人妻精品一区二区三区| 日韩精品一区二区三区蜜臀| 深田咏美在线x99av| 欧美在线观看不卡| 国产又黄又爽又色| 亚洲欧美偷拍卡通变态| 久久久久久午夜| 日本少妇激情视频| 7777久久亚洲中文字幕| 欧美一区二区三区在线观看| 国产精品自拍小视频| 少妇人妻无码专区视频| www.天天干.com| 日韩欧美一级片| 欧美变态tickling挠脚心| 久久久久久草| eeuss影院一区二区三区| 亚洲一区二区黄| 国产一区二区在线观看免费视频| 国产精品99久久久| 欧美一区二区在线播放| 成人av色在线观看| 国产免费视频一区二区三区| 97婷婷大伊香蕉精品视频| 精品在线播放午夜| 午夜久久久久久久| 久久久91精品国产| 日本中文字幕一区二区视频| 欧美成人精品在线观看| 日韩精品人妻中文字幕有码| 91一区在线观看| 欧美一级大片在线观看| 中文字幕视频二区| 日本一区二区三区国色天香 | 俄罗斯精品一区二区三区| 天天干天天操天天操| 国产精品成人无码| 一区二区欧美在线| 精品视频在线观看免费| 日韩高清人体午夜| 91人妻一区二区三区蜜臀| 这里只有精品在线观看| 中文字幕天天干| 国产精品久久久久精| 日韩欧美国产中文字幕| 青春草国产视频| 国产精品777777| 狠狠久久亚洲欧美专区| 国产午夜福利100集发布| 亚洲男人天堂久| 69久久精品无码一区二区| 91捆绑美女网站| 国产h视频在线播放| 污污免费在线观看| 亚洲午夜久久久久久久| 中文字幕在线欧美| 国产欧美高清在线| 99re视频| 亚洲黄页视频免费观看| 91亚洲精品久久久蜜桃| 成人一区二区免费视频| 一区二区三区成人| 18禁男女爽爽爽午夜网站免费| 欧美大片免费播放器| 日韩丝袜美女视频| 三大队在线观看| 久久久久久99久久久精品网站| 欧美日韩一区在线视频| 一区二区三区动漫| 久久亚洲AV无码| 国产精品偷伦视频免费观看国产| 久久―日本道色综合久久| 日本一区二区高清视频| 精品国产区一区二| 一本一道久久a久久综合精品| 日韩欧美专区在线| 91免费看片在线观看| 中文字幕av资源| 91高清国产视频| 国产精品区一区| 综合电影一区二区三区 | 首页国产欧美久久| 成人av男人的天堂| 91黄色免费观看| 狠狠97人人婷婷五月| 日韩av一区二区三区| 91国内在线视频| 中文在线字幕免费观| 色悠悠国产精品| 久久九九99视频| 欧美成人精品一区二区综合免费| 欧美男生操女生| 亚洲色成人www永久网站| 欧美一卡2卡3卡4卡无卡免费观看水多多| 欧美麻豆精品久久久久久| 美女久久一区| av动漫在线免费观看| 亚洲特级片在线| 4438x全国最大成人| 国产69精品久久久久9999| 久久网这里都是精品| 韩国三级hd中文字幕| 自拍av一区二区三区| 欧美一级裸体视频| 亚洲成精国产精品女| 国产日韩视频一区| 精品久久久久一区二区国产| 国产麻豆成人精品| 日日噜噜夜夜狠狠久久波多野| 欧美成人午夜视频| 亚洲最大成人综合| 日韩黄色小视频| 波多野结衣a v在线| 日本一区视频在线观看| 亚洲欧美日韩国产中文| 精品在线播放免费| 欧美日韩在线成人| 97视频在线观看成人| 一区二区三区加勒比av| 亚洲欧美丝袜中文综合| 亚洲成人av免费看| 亚洲五月六月丁香激情| 992kp免费看片| 中文字幕在线日韩| 精品国产av一区二区| 正义之心1992免费观看全集完整版| 欧美在线免费看| 亚洲欧美制服另类日韩| 特黄视频在线观看| 3d动漫精品啪啪一区二区下载 | 亚洲日本在线天堂| 久久在线观看免费| 亚洲午夜在线视频| 欧美三区在线观看| 欧美综合在线视频| 久久精品国产亚洲一区二区三区| 国产亚洲精品成人a| 亚洲一区美女| 日本一区二区久久| 欧美熟女一区二区| 无码国产69精品久久久久同性| 国产成人亚洲精品| 精品日本高清在线播放| 中文字幕一区二区三区乱码在线 | 亚洲精品美国一| 国产精品一区专区| 久色成人在线| 中国一级片在线观看| 日韩中文字幕在线| 在线播放日韩av| 亚洲精品一区av在线播放| 欧美性感一区二区三区| 欧美高清一级片在线| 欧美一区二区三区四区高清| 欧美一区二区三区免费大片 | 无码精品人妻一区二区| 国产中文av在线| 中文字幕精品一区二区三区在线| 国产精品人成电影| 国产亚洲欧美色| 国产又爽又黄又嫩又猛又粗| 在线免费观看视频网站| 手机av在线免费观看| 91视频免费在观看| 久久久久久亚洲中文字幕无码| 国产成人av无码精品| 国产嫩草在线观看| 色婷婷**av毛片一区| 在线观看久久久久久| 伊人伊成久久人综合网小说| 欧美尤物巨大精品爽| 欧美一区二区高清在线观看| 亚洲欧洲日韩综合| 伊人网中文字幕| 国产在线看一区| 性久久久久久久| 欧美日韩亚洲系列| 欧美无乱码久久久免费午夜一区| 91色|porny| 国产精品美女www爽爽爽| 91浏览器在线视频| 国产精品丝袜久久久久久app| 国内精品视频666| 亚洲第一色网站| 亚洲男人第一av| 蜜臀av中文字幕| 大胆亚洲人体视频| 亚洲高清免费视频| 在线不卡一区二区| 亚洲欧洲成视频免费观看| 亚洲欧洲日产国码av系列天堂| 亚洲精品国产高清久久伦理二区| 精品国产视频在线观看| 羞羞色院91蜜桃| 五月婷婷丁香花| 一区二区三区日韩欧美精品| 亚洲天堂久久av| 国产精品一区=区| 日韩欧美精品一区二区三区经典 | 日韩免费在线观看| 亚洲欧美日韩天堂| 欧美激情一区二区三区久久久| 国产欧美日韩亚洲| 国产成人精品免费视频大全最热| 日韩中文字幕免费| 精品国偷自产在线视频99| 91精品人妻一区二区| 无码黑人精品一区二区| 人人干人人干人人| 日本一二三四区视频| 久草综合在线观看| 欧美日韩大尺度| 99热精品在线播放| 亚洲同性gay激情无套| 亚洲va国产va欧美va观看| 欧美日韩视频不卡| 国产做受高潮69| 可以在线看的黄色网址| 91精品久久久久| 国产91美女视频| 成人三级视频在线观看| 懂色av一区二区三区四区| 91精品久久久久久久91蜜桃| 欧美一进一出视频| 亚洲精品国产精品乱码视色| 日韩欧美中文字幕在线观看| 91精品国产99| 999精彩视频| 麻豆成人在线视频| 久久最新视频| av激情综合网| 日韩在线观看精品| 麻豆一区在线观看| 黄色一级大片在线观看| 日韩精品――中文字幕| 亚洲 欧美 激情 小说 另类| 国产亚洲短视频| 高潮白浆女日韩av免费看| 色哟哟亚洲精品| 欧美日韩国产在线播放网站| 亚洲激情久久久| 国产精品av电影| 老头吃奶性行交视频| 中国一区二区视频| 26uuu亚洲综合色欧美| 欧美日韩精品一二三区| 美女av一区二区| 日韩视频在线免费播放| 香蕉久久一区二区三区| 国产性生活网站| 欧美日韩一区在线播放| 亚洲天堂手机版| 精品国产精品一区二区夜夜嗨| 国产一区二区在线视频播放| 久久超级碰视频| 欧美日韩一区二区三区四区| 91在线看www| 人人爽人人爽av| 成人av网站大全| 亚洲丝袜一区在线| 青青青在线视频免费观看| 日韩精品91亚洲二区在线观看| 91福利视频久久久久| 国产成人精品在线视频| 超碰成人免费在线| 五月天婷婷丁香| 日韩欧美一区二区免费| 亚洲狼人综合干| 亚洲国产日韩欧美在线99| 亚洲精品在线视频观看| 91精品人妻一区二区三区蜜桃欧美| 国产女同在线观看| 婷婷av一区二区三区| 91丨九色丨蝌蚪丨老版| 亚洲色图激情小说| 人人精品人人爱| 欧美午夜在线一二页| 亚洲爆乳无码精品aaa片蜜桃| 日本不卡在线视频| 国产第一页精品| 欧美一区二区三区免费观看视频| 大地资源网在线观看免费官网| 国产女人高潮毛片| 欧美va亚洲va国产综合| 性一交一黄一片| 国产精品白丝jk黑袜喷水| 97在线免费观看视频| 久久精品第一页| 欧美性极品xxxx做受| 精品欧美一区二区在线观看| 成人美女免费网站视频| 一本之道在线视频| 视频在线在亚洲| 高清av免费一区中文字幕| 奇米影视一区二区三区| 久久久成人av| 国产一区在线视频| 国产福利视频在线播放| 一本久久精品一区二区| 久久久99999| 97国产在线视频| 久久99国产精品免费网站|