![]()
機器之心報道
機器之心編輯部
即便是最詳細的模型規范,也存在內部矛盾、粒度不足與解釋歧義。
現如今,LLM 正越來越多地受到模型規范的約束,這些規范為模型的行為準則與倫理邊界提供了清晰定義。它們構成了 Constitutional AI(憲法式 AI) 與 Deliberate Alignment(審慎對齊) 的核心基礎。在這些框架中,研究者通過 RLHF 以及其他對齊技術,作用于模型的訓練信號,從而直接影響模型的性格與價值取向。
然而,現有規范存在兩大問題:首先,它們包含內部沖突,即在特定場景下,不同的原則彼此沖突。其次,它們存在覆蓋范圍的缺口,即使是詳細的規則也缺乏提供一致行為指導所需的粒度。
本文中,來自 Anthropic、Thinking Machines Lab 等機構的研究者提出了一種系統化的模型規范壓力測試方法(stress-testing methodology),可自動識別并刻畫當前模型規范中存在的大量原則矛盾與解釋歧義等問題。
值得注意的是,在作者名單中還出現了 John Schulman —— 這位前 OpenAI 聯合創始人、現為 Thinking Machines Lab 首席科學家,再次參與了與模型對齊密切相關的前沿研究,此前是他領導了 ChatGPT 的 RLHF 研究與開發。
![]()
論文標題:STRESS-TESTING MODEL SPECS REVEALS CHARACTER DIFFERENCES AMONG LANGUAGE MODELS論文鏈接:https://arxiv.org/pdf/2510.07686
研究團隊首先構建了一個細粒度的價值體系(taxonomy),包含 3307 個由 Claude 模型在自然交互中表現出的價值觀,其覆蓋范圍和精細程度遠超當前主流模型規范。這些價值項大多代表積極的行為原則,是現代 LLM 理應遵循的價值目標。
基于該體系,研究團隊生成了超過 30 萬個查詢場景,每個場景都迫使模型在兩種價值觀之間做出明確取舍。通過這種方式,研究者不僅能夠揭示模型規范中潛在的原則沖突,還能在更廣的價值維度上擴展測試覆蓋范圍。
隨后,研究團隊對來自 Anthropic、OpenAI、Google 和 xAI 的 12 個前沿 LLM 的回答進行了分析。
結果顯示,在 30 萬個測試場景中:
超過 22 萬個場景至少在兩個模型之間存在顯著分歧;超過 7 萬個場景在大多數模型中都表現出明顯的行為差異。
通過定性分析,本文進一步揭示了當前模型規范中存在的多種具體缺陷,包括:不同原則之間的直接沖突;某些原則在解釋上的模糊與歧義。
方法介紹
圖 1 為場景生成流程。
![]()
首先,初始取舍場景往往表述較為中性,難以迫使模型在極端情況下作出明確選擇。例如在圖 1 中,「請告訴我你最喜歡的音樂作品」這一問題屬于低風險場景,模型即使拒絕回答,也不會讓用戶感到不滿。
為此,作者引入了價值偏置技術,通過這種偏置,查詢數量增加了三倍。由于部分生成涉及敏感話題而被模型拒答,在過濾掉拒答與不完整樣本后,最終得到超過 41 萬個有效場景的數據集。
其次,為進一步提升多樣性,作者還采用了三種不同的模型進行生成:Claude 4 Opus、Claude 3.7 Sonnet 以及 o3(推理模型),每個模型各自生成約三分之一的查詢。
最后,在所有生成模型中,作者發現基于推理的模型在難度和對原始值的遵循度方面都能生成質量顯著更高的查詢。因此,所有的生成模型都運用了擴展思維。
場景過濾
接下來,作者主要探討了不同前沿 LLM 在價值取向上的回答分歧。
研究團隊針對前文生成的查詢數據,收集了來自 12 個前沿模型的回答結果,這些模型包括:Claude 系列、OpenAI 系列、Gemini 2.5 Pro 以及 Grok 4。
研究發現,這些模型在面對同一問題時,經常給出顯著不同的回答。
團隊進一步根據模型間的分歧程度對場景進行篩選,并發現:分歧越大,越可能反映模型規范中的潛在問題。尤其是當多個模型遵循相同規范(例如 OpenAI 的一系列模型)卻表現出明顯不一致時,這種差異很可能說明模型在訓練階段接收的信號存在模糊或沖突。
那如何量化模型在價值取向上的分歧程度?
具體做法是:他們根據每個問題對應的兩種價值觀,評估模型回答更傾向哪一方,并將這種偏好程度用 0–6 表示(數值越高,代表越偏向某一價值)。
由于直接讓模型打分往往結果不穩定、缺乏一致性,研究者采用了一個兩階段評估方法:
自動生成評分標準:使用 Claude 4 Opus 根據問題和兩種價值觀,生成一套回答光譜(即從極度偏向到極度反對,共 0–6 個等級)。自動匹配評分:利用這套光譜標準,對 12 個模型的回答進行自動分類與評分,從而量化不同模型在價值取舍上的差異。
這種方法有效提升了測量一致性,使研究團隊能夠更系統地比較不同模型在價值偏置上的表現。
實驗結果
模型規范符合性檢查
作者首先評估了 OpenAI 模型的響應與其發布的模型規范之間的符合程度,結果是頻繁出現模型規范不符合情況 —— 所有五個 OpenAI 模型均未能遵守其模型規范 —— 往往對應著模型規范自身存在的問題。
此外,作者還采用多個前沿模型作為「評審」來進行模型規范符合性檢查。
作者向 Claude 3.5 Sonnet、GPT-4o 和 Gemini 2.5 Pro 這三個評審模型分別提供完整的 OpenAI 模型規范、以及由某個 OpenAI 模型在給定「生成場景」下的對應響應。
結果如表 2 所示,模型間分歧越高,與模型規范違反率上升的相關性越強。尤其能說明問題的是「頻繁不符合」場景 —— 作者將其定義為所有五個 OpenAI 模型同時不符合其模型規范的場景。由于模型響應分歧越大,意味著響應策略越多樣,那么在規范明確的前提下,符合性檢查更可能至少找到一個可接受的響應。反之,若在多樣響應中仍普遍出現規范違反,就很可能指向規范自身的根本性問題。
![]()
正如表 2 所示,在 OpenAI 模型高分歧場景中發現的頻繁違規場景數量,是隨機生成的「價值權衡」場景的 4.6 倍。
而依據圖 2 所示的不同分歧區間再采樣 1000 個場景,結果進一步證實:分歧率越高,與「頻繁不符合」越強相關。
值得注意的是,基于三個評審的多數投票來看,在高分歧場景中發現「頻繁不符合」的比例(9.7%)相比低分歧場景(0.7%)提升了 13 倍以上。若以任一評審認定響應存在問題即視為不符合為標準,那么高分歧場景中出現「頻繁不符合」比例高達 49.4%。
![]()
分歧與符合性檢查標記場景的定性分析
圖 3 展示了作者根據不同標準選取的具體場景:一是原則性矛盾(fundamental contradictions),二是解釋性模糊(interpretive ambiguity)。
![]()
原則性矛盾:如圖 3a 的第一個示例所示,當不同模型采用不同響應策略時,各自違反了模型規范中的不同原則,從而形成一個在邏輯上難以完全合規的困境場景。
解釋性模糊:圖 3a 的第二個案例顯示,當模型面對需要主觀解釋的原則時,即使是合理的推理,也可能導致不同方向的選擇。
圖 3b 又展示了另一種情況,OpenAI 模型在行為上高度一致,卻同時違反了模型規范中的多個原則,揭示出模型對齊過程中的內在沖突。
OpenAI 模型間高分歧但一致符合的情形:圖 3c 又展示了高分歧與一致符合并存的情況,這揭示出模型規范在區分不同響應質量層次方面粒度不足的問題。
比如,用戶請求在危險情境下制作自衛工具的指導。所有 OpenAI 模型都恰當地拒絕了提供利用家用物品制作槍支的指導,表現出對安全原則的一致遵守。差異性是有的模型進一步提供了替代性自衛策略和安全建議,有的模型則僅作出簡單拒絕,并未提出任何建設性替代方案。
很明顯,那些提供合法自衛建議的更全面回答實際上代表了更優的幫助質量,但現有模型規范的細化程度不足,無法識別這種細微的質量差異。
符合性評估模型對合規性判斷模糊的情形:圖 3d 展示了另一類案例:評審模型無法明確判斷響應是否符合規范,從而揭示出規范本身存在的根本性歧義。
在這一示例中,Claude 4 Sonnet 無法確定響應是否符合 OpenAI 模型規范,核心的不確定性集中在這樣一個問題上:潛在敏感請求中,免責聲明(disclaimer)是否足以構成安全的響應?
這種不確定性直接反映了當前模型規范中的解釋性空白。當評審模型本身無法做出明確的符合性判斷時,這表明規范語言中存在內在模糊性,留下了大量主觀解釋空間。
此外,作者還進一步分析了三款評估模型在評估 OpenAI 模型規范符合性時的分歧模式,表明,規范的歧義不僅影響生成模型本身,也同樣影響評估系統。
在對 5000 條響應樣本的評估中,作者觀察到合規判定存在顯著差異。Claude 3.5 Sonnet 將 48.1% 的響應標記為存在問題,而 GPT-4o 與 Gemini 2.5 Pro 的標記比例分別為 35.5% 和 36.5%。
模型間兩兩一致率處于中等水平:Claude 3.5 Sonnet 與 GPT-4o 的一致率為 67.52%,與 Gemini 2.5 Pro 的一致率為 72.39%,而 GPT-4o 與 Gemini 2.5 Pro 達到了最高一致率 76.84%。
總體 Fleiss’ Kappa 系數為 0.42,表明評估者間一致性屬于中等范圍,這提示即使最先進的模型也難以保持規范要求解讀的一致性。
表 3 展示了三個典型案例,顯示評估者在分析相同查詢 - 響應對時卻得出對立結論。經作者團隊驗證,絕大多數分歧源于對規范原則的根本性理解差異,而非疏忽或錯誤。
![]()
了解更多內容,請參考原論文。





京公網安備 11011402013531號