亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

Anthropic、Thinking Machines Lab曝光:30萬次壓力測試揭AI缺陷

IP屬地 中國·北京 機器之心Pro 時間:2025-10-27 16:17:09



機器之心報道

機器之心編輯部

即便是最詳細的模型規范,也存在內部矛盾、粒度不足與解釋歧義。

現如今,LLM 正越來越多地受到模型規范的約束,這些規范為模型的行為準則與倫理邊界提供了清晰定義。它們構成了 Constitutional AI(憲法式 AI) 與 Deliberate Alignment(審慎對齊) 的核心基礎。在這些框架中,研究者通過 RLHF 以及其他對齊技術,作用于模型的訓練信號,從而直接影響模型的性格與價值取向。

然而,現有規范存在兩大問題:首先,它們包含內部沖突,即在特定場景下,不同的原則彼此沖突。其次,它們存在覆蓋范圍的缺口,即使是詳細的規則也缺乏提供一致行為指導所需的粒度。

本文中,來自 Anthropic、Thinking Machines Lab 等機構的研究者提出了一種系統化的模型規范壓力測試方法(stress-testing methodology),可自動識別并刻畫當前模型規范中存在的大量原則矛盾與解釋歧義等問題。

值得注意的是,在作者名單中還出現了 John Schulman —— 這位前 OpenAI 聯合創始人、現為 Thinking Machines Lab 首席科學家,再次參與了與模型對齊密切相關的前沿研究,此前是他領導了 ChatGPT 的 RLHF 研究與開發。



論文標題:STRESS-TESTING MODEL SPECS REVEALS CHARACTER DIFFERENCES AMONG LANGUAGE MODELS論文鏈接:https://arxiv.org/pdf/2510.07686

研究團隊首先構建了一個細粒度的價值體系(taxonomy),包含 3307 個由 Claude 模型在自然交互中表現出的價值觀,其覆蓋范圍和精細程度遠超當前主流模型規范。這些價值項大多代表積極的行為原則,是現代 LLM 理應遵循的價值目標。

基于該體系,研究團隊生成了超過 30 萬個查詢場景,每個場景都迫使模型在兩種價值觀之間做出明確取舍。通過這種方式,研究者不僅能夠揭示模型規范中潛在的原則沖突,還能在更廣的價值維度上擴展測試覆蓋范圍。

隨后,研究團隊對來自 Anthropic、OpenAI、Google 和 xAI 的 12 個前沿 LLM 的回答進行了分析。

結果顯示,在 30 萬個測試場景中:

超過 22 萬個場景至少在兩個模型之間存在顯著分歧;超過 7 萬個場景在大多數模型中都表現出明顯的行為差異。

通過定性分析,本文進一步揭示了當前模型規范中存在的多種具體缺陷,包括:不同原則之間的直接沖突;某些原則在解釋上的模糊與歧義。

方法介紹

圖 1 為場景生成流程。



首先,初始取舍場景往往表述較為中性,難以迫使模型在極端情況下作出明確選擇。例如在圖 1 中,「請告訴我你最喜歡的音樂作品」這一問題屬于低風險場景,模型即使拒絕回答,也不會讓用戶感到不滿。

為此,作者引入了價值偏置技術,通過這種偏置,查詢數量增加了三倍。由于部分生成涉及敏感話題而被模型拒答,在過濾掉拒答與不完整樣本后,最終得到超過 41 萬個有效場景的數據集。

其次,為進一步提升多樣性,作者還采用了三種不同的模型進行生成:Claude 4 Opus、Claude 3.7 Sonnet 以及 o3(推理模型),每個模型各自生成約三分之一的查詢。

最后,在所有生成模型中,作者發現基于推理的模型在難度和對原始值的遵循度方面都能生成質量顯著更高的查詢。因此,所有的生成模型都運用了擴展思維。

場景過濾

接下來,作者主要探討了不同前沿 LLM 在價值取向上的回答分歧。

研究團隊針對前文生成的查詢數據,收集了來自 12 個前沿模型的回答結果,這些模型包括:Claude 系列、OpenAI 系列、Gemini 2.5 Pro 以及 Grok 4。

研究發現,這些模型在面對同一問題時,經常給出顯著不同的回答。

團隊進一步根據模型間的分歧程度對場景進行篩選,并發現:分歧越大,越可能反映模型規范中的潛在問題。尤其是當多個模型遵循相同規范(例如 OpenAI 的一系列模型)卻表現出明顯不一致時,這種差異很可能說明模型在訓練階段接收的信號存在模糊或沖突。

那如何量化模型在價值取向上的分歧程度?

具體做法是:他們根據每個問題對應的兩種價值觀,評估模型回答更傾向哪一方,并將這種偏好程度用 0–6 表示(數值越高,代表越偏向某一價值)。

由于直接讓模型打分往往結果不穩定、缺乏一致性,研究者采用了一個兩階段評估方法:

自動生成評分標準:使用 Claude 4 Opus 根據問題和兩種價值觀,生成一套回答光譜(即從極度偏向到極度反對,共 0–6 個等級)。自動匹配評分:利用這套光譜標準,對 12 個模型的回答進行自動分類與評分,從而量化不同模型在價值取舍上的差異。

這種方法有效提升了測量一致性,使研究團隊能夠更系統地比較不同模型在價值偏置上的表現。

實驗結果

模型規范符合性檢查

作者首先評估了 OpenAI 模型的響應與其發布的模型規范之間的符合程度,結果是頻繁出現模型規范不符合情況 —— 所有五個 OpenAI 模型均未能遵守其模型規范 —— 往往對應著模型規范自身存在的問題。

此外,作者還采用多個前沿模型作為「評審」來進行模型規范符合性檢查。

作者向 Claude 3.5 Sonnet、GPT-4o 和 Gemini 2.5 Pro 這三個評審模型分別提供完整的 OpenAI 模型規范、以及由某個 OpenAI 模型在給定「生成場景」下的對應響應。

結果如表 2 所示,模型間分歧越高,與模型規范違反率上升的相關性越強。尤其能說明問題的是「頻繁不符合」場景 —— 作者將其定義為所有五個 OpenAI 模型同時不符合其模型規范的場景。由于模型響應分歧越大,意味著響應策略越多樣,那么在規范明確的前提下,符合性檢查更可能至少找到一個可接受的響應。反之,若在多樣響應中仍普遍出現規范違反,就很可能指向規范自身的根本性問題。



正如表 2 所示,在 OpenAI 模型高分歧場景中發現的頻繁違規場景數量,是隨機生成的「價值權衡」場景的 4.6 倍。

而依據圖 2 所示的不同分歧區間再采樣 1000 個場景,結果進一步證實:分歧率越高,與「頻繁不符合」越強相關。

值得注意的是,基于三個評審的多數投票來看,在高分歧場景中發現「頻繁不符合」的比例(9.7%)相比低分歧場景(0.7%)提升了 13 倍以上。若以任一評審認定響應存在問題即視為不符合為標準,那么高分歧場景中出現「頻繁不符合」比例高達 49.4%。



分歧與符合性檢查標記場景的定性分析

圖 3 展示了作者根據不同標準選取的具體場景:一是原則性矛盾(fundamental contradictions),二是解釋性模糊(interpretive ambiguity)。



原則性矛盾:如圖 3a 的第一個示例所示,當不同模型采用不同響應策略時,各自違反了模型規范中的不同原則,從而形成一個在邏輯上難以完全合規的困境場景。

解釋性模糊:圖 3a 的第二個案例顯示,當模型面對需要主觀解釋的原則時,即使是合理的推理,也可能導致不同方向的選擇。

圖 3b 又展示了另一種情況,OpenAI 模型在行為上高度一致,卻同時違反了模型規范中的多個原則,揭示出模型對齊過程中的內在沖突。

OpenAI 模型間高分歧但一致符合的情形:圖 3c 又展示了高分歧與一致符合并存的情況,這揭示出模型規范在區分不同響應質量層次方面粒度不足的問題。

比如,用戶請求在危險情境下制作自衛工具的指導。所有 OpenAI 模型都恰當地拒絕了提供利用家用物品制作槍支的指導,表現出對安全原則的一致遵守。差異性是有的模型進一步提供了替代性自衛策略和安全建議,有的模型則僅作出簡單拒絕,并未提出任何建設性替代方案。

很明顯,那些提供合法自衛建議的更全面回答實際上代表了更優的幫助質量,但現有模型規范的細化程度不足,無法識別這種細微的質量差異。

符合性評估模型對合規性判斷模糊的情形:圖 3d 展示了另一類案例:評審模型無法明確判斷響應是否符合規范,從而揭示出規范本身存在的根本性歧義。

在這一示例中,Claude 4 Sonnet 無法確定響應是否符合 OpenAI 模型規范,核心的不確定性集中在這樣一個問題上:潛在敏感請求中,免責聲明(disclaimer)是否足以構成安全的響應?

這種不確定性直接反映了當前模型規范中的解釋性空白。當評審模型本身無法做出明確的符合性判斷時,這表明規范語言中存在內在模糊性,留下了大量主觀解釋空間。

此外,作者還進一步分析了三款評估模型在評估 OpenAI 模型規范符合性時的分歧模式,表明,規范的歧義不僅影響生成模型本身,也同樣影響評估系統。

在對 5000 條響應樣本的評估中,作者觀察到合規判定存在顯著差異。Claude 3.5 Sonnet 將 48.1% 的響應標記為存在問題,而 GPT-4o 與 Gemini 2.5 Pro 的標記比例分別為 35.5% 和 36.5%。

模型間兩兩一致率處于中等水平:Claude 3.5 Sonnet 與 GPT-4o 的一致率為 67.52%,與 Gemini 2.5 Pro 的一致率為 72.39%,而 GPT-4o 與 Gemini 2.5 Pro 達到了最高一致率 76.84%。

總體 Fleiss’ Kappa 系數為 0.42,表明評估者間一致性屬于中等范圍,這提示即使最先進的模型也難以保持規范要求解讀的一致性。

表 3 展示了三個典型案例,顯示評估者在分析相同查詢 - 響應對時卻得出對立結論。經作者團隊驗證,絕大多數分歧源于對規范原則的根本性理解差異,而非疏忽或錯誤。



了解更多內容,請參考原論文。

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

国产日产欧美一区二区视频| 亚洲av无码乱码国产精品| 亚洲综合一区二区三区| 国产欧美一区二区视频| 久久资源在线| 美女黄色丝袜一区| 欧美三日本三级少妇三99| 91午夜交换视频| 中文字幕av一区二区三区| 粉嫩av四季av绯色av第一区| 66m—66摸成人免费视频| 极品尤物一区二区| 欧美二区在线观看| 亚洲永久在线观看| 久久成人免费电影| 日本亚洲导航| 亚洲精品一区二区三区影院忠贞| 91一区二区三区在线观看| 成人精品在线观看| 美女免费视频一区二区| 欧美国产一区二区在线| 91亚洲永久精品| 精品视频免费在线播放| 激情久久av一区av二区av三区| 国产免费黄色av| 国内欧美视频一区二区| 国产乱子伦精品无码专区| 亚洲美女淫视频| 亚洲精品成人无码| 色噜噜狠狠色综合网图区| 亚洲精华国产精华精华液网站| 国产成人在线播放| 久久久久久久久岛国免费| 丰满人妻一区二区三区53号| 亚洲人精品午夜| 一区二区三区四区毛片| 91麻豆精品国产91久久久| 欧美日韩精品一区二区三区视频播放| 亚洲乱码av中文一区二区| 国产黄a三级三级三级| 亚洲自拍av在线| 激情另类小说区图片区视频区| 一本色道久久综合亚洲精品婷婷| 日本高清无吗v一区| 一级片手机在线观看| 午夜伦理精品一区| 久久久久久穴| 久草视频国产在线| 欧美久久久影院| 国产精品一级二级| 国产另类自拍| 无码av中文一区二区三区桃花岛| 欧美激情 一区| 日产日韩在线亚洲欧美| 粉嫩欧美一区二区三区高清影视 | 久久久av毛片精品| 免费黄色在线视频| 97久久精品视频| 91香蕉国产在线观看软件| 波多野结衣家庭教师视频| 精品三级在线观看| 国产乱人乱偷精品视频a人人澡| 日本在线观看一区二区三区| 欧美日韩高清影院| 免费成人在线观看视频| 日韩免费毛片视频| 日韩美女免费视频| 亚洲影视在线播放| 国产精品久久久久久久久久久久久久久久久久 | 91精品国产高清91久久久久久| 国产区日韩欧美| 日韩小视频在线观看专区| 国产欧美日韩三级| 国产精品白丝喷水在线观看| 欧美成人一区二区在线| 欧美成人精品福利| 不卡的av网站| 久久国产精品无码网站| 日本午夜在线观看| 国产一伦一伦一伦| 国产视频在线观看一区| 亚洲精品资源在线| 北岛玲一区二区三区四区| 九九热在线视频播放| 高清一区在线观看| youjizz.com亚洲| 少妇久久久久久| 亚洲免费高清视频在线| 久久草av在线| 国产露脸无套对白在线播放| 中国美女乱淫免费看视频| 手机成人av在线| 久久影院理伦片| 97国产一区二区精品久久呦 | 怡春院在线视频| 三上悠亚影音先锋| 麻豆tv在线观看| 亚洲国产综合自拍| 成人免费xxxxx在线观看| 欧美精品一本久久男人的天堂| 欧美日韩日本国产| 国产成人欧美日韩在线电影| 国产精品视频在线观看免费| 国产精品成人无码专区| 亚洲综合婷婷久久| 日韩一本精品| 国产精品日韩高清| 国产精品香蕉av| 国产精品88a∨| 亚洲国产欧美久久| 欧美日韩免费不卡视频一区二区三区 | 欧美日韩精品一区二区三区| 成人免费视频在线观看| 久久精品视频一区二区| 成人午夜精品在线| 中文字幕在线一区| www国产成人| 国产麻豆成人传媒免费观看| 免费精品视频最新在线| 国产精品夜夜嗨| 蜜桃av一区二区三区| 麻豆视频观看网址久久| 国产自产视频一区二区三区| 亚洲国产另类av| 亚洲视频在线免费播放| av网站在线观看免费| 国产成人亚洲综合色影视| 国产欧美1区2区3区| 欧美综合天天夜夜久久| 日韩在线视频线视频免费网站| 国产成人在线一区| 日本a级片在线观看| 欧美黑人欧美精品刺激| 亚洲天堂男人网| 成人污视频在线观看| 欧美丝袜丝交足nylons图片| 久久久999精品免费| 91网免费观看| 伊人国产精品视频| 波多野结衣在线观看视频| 国产美女娇喘av呻吟久久| 色综合久久久久| 午夜精品一区二区三区在线| 亚洲欧洲一二三| 欧美多人猛交狂配| 日韩在线观看视频一区| 中文幕一区二区三区久久蜜桃| 日韩av在线影院| 一本色道久久综合亚洲二区三区 | 中文天堂在线视频| 污污视频网站在线| 六月婷婷激情网| 亚洲三区在线观看| 精品中文字幕在线2019| 国产免费一区二区三区香蕉精| 麻豆传媒一区二区| 天堂av在线8| 日韩在线视频免费播放| 亚洲欧美色视频| 国产亚洲成年网址在线观看| 欧美天堂一区二区三区| 亚洲福利在线播放| 国产乱码一区| 日本丰满少妇xxxx| 糖心vlog免费在线观看 | 91美女片黄在线观看游戏| 欧美亚洲色图视频| 高潮一区二区三区| 麻豆一区二区三区精品视频| 日本成人在线视频网站| 亚洲国产日产av| 久久91亚洲人成电影网站| 四虎永久在线精品免费一区二区| 亚洲综合网在线| 成人小视频在线| 538精品视频| 日韩高清一区二区| 日韩风俗一区 二区| 国产精品福利片| 特级西西人体wwwww| 中文字幕久久综合| 欧美成人一区二区三区高清| 不卡一区在线观看| 可以免费观看av毛片| 精品人妻一区二区三区日产乱码 | 成人免费无码大片a毛片| 精品人妻伦一区二区三区久久| 性做久久久久久久久| 久久久人成影片一区二区三区观看 | 精品香蕉一区二区三区| 亚洲午夜久久久影院伊人| free性中国hd国语露脸| 国产黄色精品网站| 日韩中文字幕久久| 亚洲精品性视频| 午夜小视频在线播放| 在线精品国精品国产尤物884a| 亚洲 国产 欧美一区| 日韩精品视频播放| 色综合久久中文综合久久97| 在线观看欧美激情| 国产一区二区在线视频聊天| 91麻豆精品国产91久久久久久久久| 四虎影视永久免费在线观看一区二区三区| 国产情侣在线视频| 欧美性高潮床叫视频| 日本一区二区三区免费观看| 波多野结衣在线电影| 日韩写真欧美这视频| 日本不卡在线观看视频| 91免费观看视频在线| 亚洲va码欧洲m码| 欧美三日本三级少妇99| 精品日韩99亚洲| 亚洲天堂一区二区在线观看| 日本欧美在线观看| 国产精品美女无圣光视频| 欧美做爰啪啪xxxⅹ性| 国产精品综合在线| 欧美xxxx做受欧美| 男插女视频网站| 亚洲欧洲制服丝袜| 91免费网站视频| 十八禁一区二区三区| 亚洲国产精品va在线看黑人| 潘金莲一级淫片aaaaa| 亚洲私人黄色宅男| 亚洲激情免费视频| 欧美国产97人人爽人人喊| 亚洲一区二区三区视频| 99精品免费观看| 国产精品一区二区3区| 国产人妻精品一区二区三| 5252色成人免费视频| 国产欧美综合视频| 97色在线播放视频| 一区二区国产欧美| 亚洲伊人一本大道中文字幕| 国产欧美久久久| 国产激情久久久久| 美女久久一区| 91精品中国老女人| 天天操天天摸天天干| 最近2019年手机中文字幕| 女同久久另类69精品国产| 色偷偷av一区二区三区乱| 国产精品久久久久毛片| 97人人模人人爽视频一区二区| 久久精品天堂| 日韩精品久久久| 欧美日韩国产在线看| 婷婷丁香激情网| 欧美日韩一二三| www.99热| 亚洲欧美成人在线| 久久久久久激情| 成人444kkkk在线观看| 日本人妻丰满熟妇久久久久久| 国产日韩欧美在线| 99re6这里只有精品视频在线观看| 免费av手机在线观看| 欧美卡1卡2卡| 亚洲视频免费播放| 国产综合av一区二区三区| 婷婷一区二区三区| 精品人妻一区二区三区日产| 亚洲国产三级网| 熟妇人妻一区二区三区四区| 日本aa在线观看| 3d动漫精品啪啪| 久久婷婷综合国产| 国产一区二区日韩| 蜜乳av另类精品一区二区| 日本成人性视频| 欧美日韩国产成人在线免费| 亚洲午夜精品久久久久久高潮| 日韩亚洲精品电影| 国产在线精品视频| 正在播放久久| 亚洲黄页网在线观看| av中文字幕第一页| 欧美一区视久久| 粉嫩老牛aⅴ一区二区三区| 国产精品a成v人在线播放| 好吊色欧美一区二区三区视频| 在线观看三级视频欧美| 制服丝袜在线一区| 国产精品激情av在线播放 | 婷婷国产成人精品视频| 国产精品一区二区久久国产| 五月天一区二区三区| 国产丰满美女做爰| 中文字幕avav| 成人有码视频在线播放| 亚洲午夜精品在线| 中文字幕视频在线播放| 天天干天天玩天天操| 成人天堂噜噜噜| 中文字幕亚洲二区| 亚洲天堂中文字幕| 亚洲AV无码精品色毛片浪潮| 在线观看福利片| 欧美日韩一区在线观看视频| 亚洲欧美日韩国产中文| 亚洲天堂中文字幕| 岛国一区二区三区| 乱子伦一区二区三区| 国产chinese中国hdxxxx| 日韩欧美精品一区二区| 美女啪啪无遮挡免费久久网站| 亚洲女爱视频在线| 亚洲免费成人在线| 欧美日韩精品一区二区三区视频播放| 欧美精品一区二区性色a+v| 97激碰免费视频| 日韩激情片免费| 午夜精品一区二区三区电影天堂| 99在线观看免费| 欧美黄色aaa| 国产美女喷水视频| 中文字幕在线导航| 日本精品免费视频| 先锋影音一区二区三区| 国产精品白嫩初高中害羞小美女 | 亚洲AV无码乱码国产精品牛牛 | 久久综合一区二区三区| 欧美综合国产精品久久丁香| 国产丝袜一区二区三区| 日韩久久久精品| 91精品国产麻豆国产自产在线| 国产精品嫩草久久久久| 成人性色生活片| 做爰无遮挡三级| 国产精成人品免费观看| 伊人久久一区二区三区| 成年女人18级毛片毛片免费| 久久伊人一区| 国产精品av一区| 精品视频高清无人区区二区三区| 国产精品精品久久久| xxxxx91麻豆| 欧美精品免费在线观看| 精品久久久久久亚洲综合网| 欧美在线看片a免费观看| 欧美性xxxxxxxx| 精品精品欲导航| 精品国产区一区| 国产一区二区三区毛片| 在线观看国产精品淫| 日韩一区二区三区视频| 精品剧情v国产在线观看在线| 亚洲精品一区二区三区香蕉| 亚洲天堂男人的天堂| 一本色道久久综合狠狠躁篇怎么玩 | 中文字幕 自拍| 日韩高清精品免费观看| 国产精品va无码一区二区三区| 国产91精品看黄网站在线观看| 日本欧美韩国一区三区| www.激情成人| 亚洲午夜羞羞片| 日韩欧美中文字幕一区| 久久久欧美精品| 成人免费在线视频网址| 国产一区香蕉久久| 久久精品日产第一区二区三区乱码 | 99热这里只有精品3| 亚洲成人中文字幕| 国产成人精品午夜| 欧美日韩国产精品成人| 亚洲欧美经典视频| 一区二区视频在线看| 欧美精品乱码久久久久久| 精品无人区乱码1区2区3区在线| 久久综合色影院| 97超碰人人看人人| 久久精品免费播放| 久久久精品2019中文字幕之3| 伊人网综合在线| 大胸美女被爆操| 青青艹视频在线| 欧洲精品码一区二区三区免费看| 7777精品久久久大香线蕉| 久久午夜免费电影| 精品国产无码一区二区| 台湾佬中文在线| 黄色片视频在线| 日韩偷拍一区二区| 国产精品视频大全| 久久天天躁狠狠躁夜夜躁2014| 日韩电影免费观看在线观看| 国产成人精品亚洲777人妖| 欧美第一页在线观看| 国产精品va无码一区二区| 欧美日韩另类综合| 国产视频福利一区| 欧美日韩国产精品| 久久精品欧美日韩| 久久精品国产久精国产| 精品一区二区三区在线观看国产| 国产天堂在线播放| 成人性色av| 国产精品一区二区电影| 热re99久久精品国产66热| 国产在线999| 亚洲最新av在线网站| 日韩精品中文字幕在线| 欧美吻胸吃奶大尺度电影| 亚洲一级二级三级| 亚洲精品中文字幕有码专区|