![]()
新智元報道
編輯:LRST
香港科技大學KnowComp實驗室提出基于《歐盟人工智能法案》和《GDPR》的LLM安全新范式,構建合規測試基準并訓練出性能優異的推理模型,為大語言模型安全管理提供了新方向。
大語言模型(LLM)展現了卓越的能力從而廣泛普及,這同時也凸顯了LLM安全的至關重要性。然而,現有安全方法缺乏嚴謹系統的保護機制,無法確保應對現代LLM系統復雜微妙行為時的安全性。
為此,香港科技大學KnowComp實驗室從法律合規視角切入LLM安全研究,提出「安全合規」新范式:Safety Compliance
![]()
論文連接:https://arxiv.org/pdf/2509.22250
研究人員將已建立的相關法律框架確立為定義和衡量安全的黃金標準,包括作為歐洲AI與數據安全核心法規的《歐盟人工智能法案》(EU AI Act)和《通用數據保護條例》(GDPR)。
為彌合LLM安全與法律合規之間的差距,首先基于法律條文構建LLM安全場景,建造全新的安全合規benchmark,該研究發現現有最先進的LLM在該benchmark上效果不好。
為提升LLM的安全合規能力,使用強化學習GRPO方法對Qwen3-8B模型進行微調,構建出能夠有效增強安全合規能力的推理模型:Compliance Reasoner。
實驗表明,其在新benchmark測試中表現優異,在EU AI Act和GDPR有關的安全數據案例上分別實現+10.45%和+11.85%的性能提升。
論文第一作者是來自香港科技大學的博士生胡文彬,他研究的領域是大語言模型的安全與隱私。
他在ACL、EMNLP等頂級人工智能學術會議上發表了多篇論文,工作涵蓋了大模型安全與合規、情景化隱私保護、基于強化學習訓練的大模型安全衛士、可信AI Agent通信協議等前沿領域。
![]()
整體框架示意圖:1. 首先通過以法律條文為種子數據構建安全合規benchmark。2. 隨后利用強化學習GRPO訓練得到安全合規的推理模型Compliance Reasoner。3. 最終運用該模型將已存在的安全數據有效對齊至合規領域。
構建Benchmark
由于目前缺乏安全合規性的研究成果,首先需要建立一個benchmark。通過將法律條文作為種子數據,利用DeepSeek-V3.1的強大思維能力合成出安全合規案例。
把法律法規作為合成數據的種子數據
建立一個種子數據池,用于合成安全合規案例。
首先,由于法律框架本身具有層級化特征,以樹狀結構對法律框架進行形式化建模。法律樹可表示為T = (V,E),其中每個節點vi ∈V存儲著不同層級的法規條款。
隨后遍歷T中所有從根節點到葉節點的路徑,以窮盡捕捉法規間的邏輯關聯。
具體而言,對于給定路徑 P= {v1, v2,..., vn}(其中v1為根節點,vn為葉子節點),通過串聯路徑中各節點生成種子數據:Sp = concat(v1, ..., vn)。
該方法確保每個種子數據點都能呈現語境完整、邏輯連貫的法律合規鏈條。所有枚舉路徑構成法規種子池,用于合成安全合規數據。
合成安全合規數據
基于已創建的種子數據,遍歷種子數據庫并采用最先進的推理模型之一的DeepSeek-V3.1來生成仿真的LLM安全場景。指導DeepSeek-V3.1模擬真實法律案件的分析流程,該模型通過以下核心法律分析要素進行綜合推理:
涉案主體:明確原告、被告及相關第三方
事實背景:完整陳述導致LLM安全場景的事件脈絡
法律爭議點:援引相關條款指出具體法律問題
論點摘要:歸納原告、被告及其他利益相關方的主張
司法管轄:闡明管轄權限及相關背景
通過此流程,模型可為LLM安全案例生成全面、合理且貼近現實的數據。
最終為EU AI Act與GDPR分別合成了1,684個和1,012個安全合規案例樣本。
人類驗證與評估
為了評估合成的安全合規數據的質量,該工作做了詳盡的人類驗證。
該評估由三位攻讀計算語言學與法學的博士生組成的評估小組完成,對于EU AI Act和GDPR兩個領域分別隨機抽取50個合成數據樣本進行評估。它的評價體系基于以下的三大維度:
Alignment:確保生成的案例與對應法規條款保持一致。
Coherence:保證安全案件情境發展符合自然邏輯與真實合理性。
Relevance:確保案例背景與大語言模型安全領域緊密關聯。
采用1分(最低)至5分(最高)的評分體系進行初步評定,隨后將得分標準化為百分比形式。
結果表明,合成數據在三大維度上均表現優異,綜合評分均達到95%以上。
訓練安全合規的推理模型
Compliance Reasoner
為增強大語言模型在安全合規方面的推理能力,采用強化學習算法訓練了一個名為"合規推理器"的推理模型。
基于蒸餾數據的冷啟動
在開展強化學習訓練前,通過冷啟動機制建立初始安全推理能力對于構建高效推理模型至關重要。通過DeepSeek-V3.1模型來蒸餾出推理軌跡來得到冷啟動數據。
同時,精心構建提示詞模板,引導該模型生成基于法律條文的針對安全合規案件分析的逐步推理。
基于這些蒸餾數據,采用監督微調訓練策略對Qwen3-8B模型實施冷啟動。
強化學習算法與獎勵設計
在冷啟動后的Qwen3-8B模型基礎上,采用分組相對策略優化算法(GRPO)進行模型訓練。
該工作設計有效的獎勵函數,精心構建了基于規則的rule-based獎勵函數。該獎勵函數由兩個部分加權平均組成:
1. 安全合規獎勵:通過分析模型的輸出結果來驗證安全合規性。只需從響應內容中直接提取判定結果與真實結果進行比對即可得到獎勵分數。
2. 格式獎勵:為確保輸出范式與基礎模型保持一致從而保持基礎能力,在GRPO訓練的獎勵函數中引入了格式獎勵項。
當模型輸出符合以下格式的時候獲得獎勵:
![]()
既有的安全數據對齊到合規上
盡管已經存在的LLM安全數據缺乏系統化的安全分類體系,但這些數據囊括了大量不安全的基礎行為模式。這些基礎行為可作為有價值的種子數據,用于生成更多安全合規數據。
Compliance Reasoner能夠作為連接安全規范與法律合規的有效對齊工具,將已經存在的其他的LLM安全benchmark數據有效對齊至該工作提出的安全合規領域。
該工作收集了來自Aegis-2.0、WildGuard、OpenAI Mod和SafeRLHF的數據,合成詳細的安全合規場景。
該方法為將已有安全數據對齊至安全合規任務提供了通用解決方案。
實驗結果
結論1:Compliance Reasoner在安全合規任務上顯著超越所有最先進的大語言模型baseline,包括通用模型和安全衛士。
結論2:當前安全衛士在合規性方面表現欠佳,性能甚至普遍低于通用模型。
![]()
結論3:Compliance Reasoner能夠有效將已存在的安全benchmark數據對齊至合規要求。
使用Compliance-Reasoner-GRPO模型為現有安全數據匹配對應法律章節,其在Aegis-2.0、WildGuard、OpenAI Mod和SafeRLHF數據集中,章節匹配缺失率僅分別為19.86%、15.73%、16.19%和15.73%,這表明現有數據具有向安全合規領域泛化的巨大潛力。
為深入揭示已存在的安全數據與法律框架的關聯性,進一步分析了這些數據在EU AI Act和GDPR各章節的分布情況。
![]()
結論4:合規推理器能夠以既有安全數據為種子,有效生成高質量的新型安全合規數據。
基于該文章提出的方法論,以已存在的安全數據作為種子,引導模型生成符合法律框架的合規案例。為評估新生成數據的質量,該文章按照方法論章節中的相同的流程進行了額外的人類評估。
經三位博士生綜合評定,新數據在法律規范對齊性、邏輯連貫性及場景相關性三個維度分別獲得97.6%、95.6%和97.2%的評分。
結論5:大多數語言模型在新生成的安全合規數據上表現欠佳。
使用三個通用大模型和三個安全衛士模型重新評估了LLM baseline在新生成安全合規數據上的表現。
![]()
大多數模型均呈現較低性能,這凸顯了該領域仍需進一步提升的必要性。
總結
研究人員從安全合規的視角重新審視大語言模型安全問題。
以《歐盟人工智能法案》(EU AI Act) 和《通用數據保護條例》(GDPR) 視為LLM安全的黃金標準,重新構筑LLM安全的范式。
基于這一理念,以法律條文構建benchmark數據,采用GRPO方法在新數據上訓練出更加安全合規的推理模型,并將既有安全數據有效對齊至合規數據領域。
研究人員呼吁LLM安全社區的研究者們一起關注安全合規這一治理LLM安全的新方向。
參考資料:
https://arxiv.org/pdf/2509.22250





京公網安備 11011402013531號