![]()
第一作者武驍睿,武漢大學計算機學院博士一年級生,研究大語言模型安全對齊與紅隊數據生成,側重低資源場景的對齊策略與風險覆蓋。導師:李莊講師(RMIT,低資源 NLP、計算社會科學、模型安全),姬東鴻教授、李霏副教授、騰沖副教授(武漢大學,情感計算、信息抽取)。合作單位螞蟻集團、螞蟻國際,合作作者張欣主任工程師、毛瀟鋒工程師。
大語言模型(LLM)已經在多項自然語言處理任務中展現出卓越能力,但其潛在安全風險仍然是阻礙規模化落地的關鍵瓶頸。目前社區用于安全對齊的公開數據集,往往偏重于「詞匯多樣性」,即讓同一種風險指令盡可能用不同的表達方式出現,卻很少系統考慮指令背后的「惡意意圖多樣性」以及「越獄策略多樣性」。缺乏后兩者會導致風險覆蓋不足:模型在看似通過測試的情況下,仍可能在陌生場景或復雜攻防對抗中暴露漏洞。
TRIDENT 針對這一痛點,首次提出「詞匯-惡意意圖-越獄策略」三維多樣化框架。通過 persona-based + zero-shot 的自動生成范式,配合六大越獄技術,能夠以低成本、大規模地產出高質量、高覆蓋的紅隊數據,為后續的監督微調(SFT)或直接偏好優化(Direct Preference Optimization, DPO)等提供更加穩健的安全訓練材料。
![]()
單位:武漢大學、螞蟻集團、螞蟻國際、皇家墨爾本理工大學研究方向:大語言模型安全 / 紅隊數據自動化構建論文標題:TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis論文鏈接:https://aclanthology.org/2025.acl-long.733/代碼開源:https://github.com/FishT0ucher/TRIDENT
與傳統依賴專家或眾包人工編寫紅隊指令的方式相比,TRIDENT 極大降低了人工依賴;與僅圍繞單一維度做數據增強的方法相比,TRIDENT 在多項安全基準上顯著提升了模型的拒絕能力和對抗魯棒性。
![]()
圖 1TRIDENT-CORE 與各基線數據集在 14 類意圖域的覆蓋對比
主要貢獻
構建了首個三維度風險覆蓋評估框架,能夠定量衡量數據集在詞匯、惡意意圖以及越獄策略三個維度的多樣性與均衡度;設計了端到端自動化數據生成管線 TRIDENT,可在無人干預的情況下生成兩套數據:TRIDENT-CORE(26,311 條,覆蓋詞匯 + 意圖)與 TRIDENT-EDGE(18,773 條,引入越獄策略維度);在 meta-LLAMA-3.1-8B 上進行 LoRA 微調后,Harm Score 相對最佳基線降低 14.29%,Attack Success Rate 下降 20%,同時 Helpful Rate 保持或小幅上升,證明安全性與有用性可以兼得;通過細粒度消融實驗驗證:任何一個維度的缺失都會導致安全指標大幅下降,說明多維度協同不可替代。
問題背景
自 ChatGPT 引爆關注以來,業界與學界在「安全指令微調」方面投入了大量精力,但仍面臨三大頑疾:
意圖類別失衡—— 公開數據集中暴力犯罪、色情犯罪相關指令占比高,而金融詐騙、基礎設施破壞等高危領域數據極少;越獄策略缺失—— 多數數據集僅包含直白的危險請求,很少涵蓋 Cipher、Code Injection 等最新攻防技巧;構造成本高 —— 人工撰寫或篩選指令耗時耗力,更新周期跟不上模型演進速度。
這導致即便模型通過了現有 benchmark,也難以在真實線上流量或新型越獄攻擊面前保持穩健。
方法設計
「場景 -> 人格 -> 指令」三級生成:首先利用無審查 LLM 在 14 大高風險領域生成細粒度情境描述;然后讓同一模型推理出符合情境的 Persona(角色、職業、動機等);最后通過角色扮演生成與 Persona 相匹配的惡意指令,從而自然引入詞匯與意圖多樣性。
六大越獄方法注入:Cipher Encoding、Code Injection、Low-Resource Translation、Past Tense 重寫、Persona Modulation、RENELLM 復雜變換。通過在原指令上隨機疊加這些策略,增強攻擊穿透力并擴大策略覆蓋面。
兩階段過濾:先用 LLAMA-GUARD-3 做安全判別,確保指令確實「危險」;再用 Self-BLEU 去重,刪除文本相似度 > 閾值的樣本,保證詞匯多樣性。
安全回復生成:采用帶鏈式思考的安全模板,分三步(指出風險 -> 共情安撫 -> 正向引導)生成守規且有用的回復,為后續 SFT 提供正反示例。
![]()
圖 2TRIDENT 自動化數據生成流水線(pipeline)
實驗結果
基準對比:在 HarmBench、XS-Test、AdvBench、SC-Safety 等 7 個公開基準上,與 AART、ATTAQ、HH_RLHF、SAFE_RLHF、WILDBREAK、WILDCHAT 六大數據集相比,TRIDENT-EDGE 微調模型的平均 Harm Score 最低,Attack Success Rate 最低,同時 Helpful Rate 與最佳基線持平或更優。
消融分析:逐次移除詞匯、意圖、越獄三個維度后,再微調并評測——無論去掉哪一維度,模型在所有安全指標上均顯著退化,其中去掉越獄策略時 Attack Success Rate 上升最明顯(+11.3%)。
越獄攻擊評估:將六種越獄策略單獨或組合應用于 TRIDENT-CORE 指令,對七大主流 LLM(Llama-3.1-8B-chat, Qwen-2.5-7B, GPT-3.5 Turbo 等)發起攻擊;組合策略下成功率平均提升 25%,說明多策略融合能更全面暴露模型弱點。
![]()
表1 TRIDENT?EDGE 與基線在 7 個安全基準的評測結果(節選文章Table 4)
![]()
表 2六種越獄策略對紅隊指令攻擊成功率的提升效果(節選文章 Table 5)
突破意義
TRIDENT 為 LLM 安全對齊提供了首個三維多樣化自動化生成范式,兼顧高覆蓋、低成本與可持續迭代。其框架與數據可直接集成至 RLHF / DPO / RLAIF 等訓練流水線。對于缺乏安全標注團隊的研究者而言,TRIDENT-CORE 作為「即插即用」的安全微調底座數據,可顯著降低安全研究的門檻,加速可信 AI 的大規模落地。
我們相信,多維度、多樣化的安全數據共建,將成為下一階段促進大模型可信生態的關鍵基礎設施。值得強調的是,TRIDENT 并非「一次性」數據集,而是可隨模型版本、威脅情報和法規更新而持續演進的生成框架,這使其在快速變化的攻防環境中始終保持前沿適應性,為產業界和學術界提供長久價值。





京公網安備 11011402013531號