亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

OpenAI這招太狠!AI從「躲貓貓」到「自爆黑料」,主打一個坦白

IP屬地 中國·北京 新智元 時間:2025-12-21 14:11:37


新智元報道

編輯:元宇

隨著AI越來越強大并進入更高風險場景,透明、安全的AI顯得越發重要。OpenAI首次提出了一種「懺悔機制」,讓模型的幻覺、獎勵黑客乃至潛在欺騙行為變得更加可見。

當AI越來越聰明時,也變得越來越難以掌控。

一個讓AI研究者頭疼的問題是:

當AI開始和你「耍小聰明」時,比如:

一本正經地胡說八道:幻覺(Hallucination)

為了拿高分找訓練機制的漏洞:獎勵黑客(reward hacking)

在對抗測試里出現「密謀欺騙」(scheming)

怎么破解?這是個棘手的難題。

最大的問題,就是這些AI的回答往往看起來沒問題。

它們邏輯嚴謹、表述流暢,但不知道「坑」埋在了哪里:是不是走了捷徑、隱瞞了不確定性、或者偷偷違反了要求。

于是OpenAI的研究者就提出了一個非常大膽的點子:

讓模型「學會懺悔」。


該項研究的核心,是訓練模型在回答完問題后,再額外產出一個自我坦白的「小報告」:

我剛剛是不是用錯方法了?有沒有偷懶?有沒有讀漏指令?有沒有利用你沒注意的漏……

為了讓模型在懺悔時「放下思想包袱」,這份報告不影響主回答的評分,它只考察一個維度:

誠實。

懺悔機制邁出了AI透明化的重要一步,讓大模型可以主動承認自己是否遵守指令、是否走捷徑,從而讓隱藏的不良行為變得可見。

這使我們擁有了檢查AI內在狀態的窗口,有機會真正理解問題在哪里,從而更好改進AI的安全與訓練方式。

論文里有更多實驗,包括與未使用自白機制的對照模型比較,以及對自白失敗案例的分析。


https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf

懺悔機制如何讓AI更「誠實」?

懺悔機制的探索方向,是訓練模型在出現不良行為時主動承認,研究人員稱之為「懺悔」。

這是一種仍處于早期的概念驗證方法,通過訓練模型在違反指令或走捷徑時主動「懺悔」,從而讓這些行為變得可見。

OpenAI及其他的AI研究者證明,大模型可能出現幻覺、獎勵黑客或不誠實行為。

目前,最嚴重的行為,如密謀欺騙主要在壓力測試和對抗性評估中才出現。

但隨著模型變得更強、更像AI智能體,即使罕見的失衡行為也會造成更大的影響,因此我們需要能更好發現、理解和緩解AI風險的方法。

如何讓模型毫無保留地「懺悔」?

研究人員讓「懺悔」完全和主任務的獎勵脫鉤,只考察一個維度:

說實話就給獎勵,不說實話不給獎勵。與主任務的回答好壞無關。

模型只要在自白里承認問題不會被算作負分。

只要它如實說明自己是否利用了測試漏洞(hacking)、故意壓低表現(sandbagging)或違反了指令,就會獲得獎勵。

目的是為了讓模型如實報告自己的真實行為。

測試顯示,懺悔機制能顯著提升不良行為的可見性。

在誘導不良行為的場景中,「假陰性」(模型沒有遵守指令且沒有自白)的比例只有4.4%。


圖中展示的是模型在四類任務下自我「懺悔」是否遵從的準確性。

結果被分為上圖中的四類:

True positive(真正例):模型不遵從,并且坦白說自己不遵從

True negative(真負例):模型遵從,并且坦白說自己遵從

False positive(假正例):模型遵從,但錯誤地坦白說自己不遵從

False negative(假負例):模型不遵從,但錯誤地坦白說自己遵從

整體目的是衡量模型自我評估(self-confession)是否可靠。

在「幻覺」任務中,正確率達到了81%,但也存在一定比例錯誤「坦白」,這說明模型在涉及「幻覺」判斷時,對自身表現的把握不如其他領域穩定。

在遵循指令類任務中,錯誤坦白的情況僅占4.4%,這說明AI在此類任務中對自己的行為判斷相當可靠。


對于給定的用戶提示,以上四種可能的結果取決于兩個維度的組合:

模型的回復是遵從還是不遵從,以及「懺悔」聲稱遵從還是不遵從。

研究人員整體上發現,「懺悔」供述通常非常準確,而且其中的錯誤大多是無害的,更多源于真實的困惑,而不是有意誤導。

懺悔機制如何有效工作?

懺悔機制是AI對自己是否遵守顯性和隱性指令、是否走捷徑、利用漏洞或未達預期的情況進行自我報告。

在這方面大模型可以被訓練為保持坦誠。

研究人員以GPT-5 Thinking的一個版本進行懺悔機制的訓練,并在多個分布外的壓力測試數據集上評估。

這些數據集旨在誘導密謀式欺騙、獎勵黑客、違反指令和幻覺等行為。

結果顯示,即便模型真的做了這些不該做的事,它在懺悔中依然很可能承認,整體效果在不同數據集和任務上都表現穩定。

在每次對話結束后,可以通過一條「系統消息」要求模型給出上一條回答的懺悔報告,內容包括:

回答應滿足的所有顯性和隱性目標、指令和限制;

回答是否做到這些的客觀評估;

模型在作答過程中遇到的模糊點、不確定性或難以判斷的問題。

訓練時,一個獨立的獎勵模型只評估自白內容,包括目標是否完整、分析是否準確、不確定性說明是否充分。

自白的獎勵不會影響主回答的得分,從而確保模型在自白里說什么,都不會影響主回答的表現。

為什么懺悔有效?

原因在于許多不良行為是在模型同時優化多個目標時產生的。

在強化學習中,模型通過看提示詞、生成回答、得到獎勵,逐漸學會能得高分的模式。

但獎勵信號往往混合多種因素:正確性、幫助性、產品規范、安全要求、用戶偏好等。

這些獎勵信號的相互作用,可能把模型推向我們不希望的方向,比如:

幻覺研究顯示:一些數據集更獎勵「自信猜測」而不是誠實表達不確定性;

阿諛奉承研究顯示:偏好信號過強時,模型會過度附和;

其他團隊的研究表明:模型可能進行獎勵黑客,找到訓練機制的漏洞,提高得分但沒真正做對任務。

這些捷徑甚至會在部署時泛化為更嚴重的問題。

而懺悔機制,可以通過完全分離目標來避免這點:

主回答仍然優化所有常規因素,而懺悔機制只優化誠實這一因素。

懺悔的內容不會影響到主回答的獎勵。

因此,即便大模型在主回答里隱瞞、走捷徑,它仍然有動力在自白里說實話。

實踐中也確實如此:大模型會在懺悔中承認不良行為,即使主回答中沒有透露。

當懺悔機制失敗時,多數情況是模型真的「沒搞清楚」:比如指令模糊不清,或它根本沒意識到自己犯錯,而不是故意誤導。

重要的是,早期結果表明,即便主回答沒有使用鏈式思維(chain-of-thought),懺悔機制仍然有效。

這說明它不依賴于內部推理透明度,并可能適用于未來更不同的模型架構。

懺悔機制即使沒有合規的「真值標簽」也能發揮作用。

許多真實任務中,我們無法客觀地標注模型是否遵守指令。如果能做到,我們就直接懲罰,而不需要懺悔機制了。

懺悔機制獎勵的是:模型是否能給出結構化、有證據支持的自我評估。

提供真實解釋往往比編造一個完美的謊言更容易,因此誠實傾向自然出現。論文也討論了自白產生假陰性、假陽性的情況以及其原因。

論文給出初步證據,但不是最終證明。

雖然研究人員使用了前沿模型GPT-5 Thinking,但實驗規模有限,未來希望進一步擴大規模,看看誠實性是否能繼續保持。

我們學到什么?

在一些實驗中,研究人員刻意使用由較弱模型生成的「容易被利用的獎勵信號」來訓練主任務獎勵和懺悔獎勵。

這意味著模型是在一套「可以被輕易玩弄的規則」下學習。

事實證明模型確實學會了利用弱獎勵信號,主任務上模型在「利用弱獎勵信號」「走偏」,但在懺悔部分反而越來越誠實、越來越準確。

在這個過程中,模型了解到:要最大化懺悔獎勵,最簡單的方法就是如實承認它是如何利用弱獎勵信號的。


限制與展望

懺悔機制并不會阻止不良行為,它只是讓這些行為可見。

其主要價值是作為訓練、評估和部署期間的監控與診斷工具。

懺悔機制就像鏈式思維監控一樣,可以讓隱藏的推理過程變得更透明。它關注的是指令是否被違反,而鏈式思維則側重揭示推理路徑。

研究人員指出,這項工作仍處于概念驗證階段。

目前,并沒有在大規模訓練條件下測試其效果,懺悔準確率也并非完美,要讓這種方法更可靠、更穩健、更適用,還需要更多研究。

該項研究也屬于OpenAI更廣泛的AI安全體系的一部分。

懺悔只是其中一個機制,與深思熟慮式對齊、鏈式思維監控、指令層級體系等方法共同構成一套多層透明與監督工具。

懺悔機制可用于訓練和評估中的診斷,也可用于部署中的實時監控。

它雖然不能獨自解決多目標沖突問題,但作為「誠實模式」,可以為整體的誠實和安全性提供重要支撐。

未來,OpenAI計劃進一步擴大懺悔的訓練規模,并與其他透明與安全技術(包括鏈式思維監控與深思熟慮式對齊)結合,以確保模型嚴格遵守所有指令和政策(如Model Spec),并如實報告自身行為。

參考資料:

https://openai.com/index/how-confessions-can-keep-language-models-honest/

秒追ASI

?點贊、轉發、在看一鍵三連?

點亮星標,鎖定新智元極速推送!

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

国产精品嫩草久久久久| 久久综合九色综合88i| 欧美一区二区视频网站| 久久午夜视频| 日韩在线视频免费| av女名字大全列表| 国产大陆a不卡| 成人福利视频网站| 成人国产精品免费观看视频| 蜜桃伊人久久| 亚欧在线观看视频| 久久99精品国产.久久久久久| 激情综合网av| 懂色av一区二区三区免费看| 91在线一区二区| 亚洲综合清纯丝袜自拍| 国产伦精品一区二区三区视频青涩| 手机在线精品视频| 麻豆精品视频在线| 日本不卡中文字幕| 蜜桃av一区二区三区| 久久精品国产77777蜜臀| 美女视频免费一区| 成人性生交大片免费看中文网站| 国产69精品久久久久毛片| 国产精品一区二区91| 岛国一区二区三区| 日本一区二区三区久久久久久久久不| 国产欧美一区二区精品久导航 | 成人免费看片98| 久久久久久久久久久久久av| 波多野结衣一区二区三区四区| 中国女人真人一级毛片| 嫩草影院一区二区| 国产一区二区免费看| 国产精品嫩草影院com| 欧美性猛xxx| 精品国内二区三区| 久久福利视频网| 久久精品国产清自在天天线| 原创国产精品91| 国产成人精品综合| 色狠狠久久av五月综合| 欧美视频第三页| 亚洲中文字幕一区| 精品无码久久久久久久| 五月激情六月婷婷| 成人高清伦理免费影院在线观看| 久久久久亚洲综合| 亚洲免费国产视频| 欧美日韩国产经典色站一区二区三区| 亚洲精品国精品久久99热一| 国产**成人网毛片九色| 国产精品国产自产拍高清av王其| 亚洲成人久久一区| 成人综合色站| 五月婷婷激情网| 中文字幕欧美国产| 青青久久av北条麻妃黑人| 日本中文字幕网址| 国产成人无码av| 中文字幕一区免费在线观看| 亚洲欧洲黄色网| 日韩精品久久久毛片一区二区| 91视频在线网站| 韩国成人精品a∨在线观看| 在线一区二区三区四区| 日韩免费精品视频| 三上悠亚 电影| 亚洲h视频在线观看| 欧美日韩国产在线播放| 日韩av电影手机在线观看| 天天爽夜夜爽视频| 91网页版在线| 亚洲亚裔videos黑人hd| 亚洲免费视频播放| 色网站在线播放| 91美女福利视频| www.欧美免费| 国产91在线免费| 97成人在线观看| 亚洲精品久久久蜜桃| 日韩一区二区久久久| 黄色一级视频在线播放| 日韩一区二区三区四区视频| 奇米影视一区二区三区小说| 欧美午夜一区二区| 国产在线精品一区二区三区| 精品国产成人亚洲午夜福利| 色婷婷av一区二区三| 亚洲福利视频久久| 综合视频在线观看| 无码人妻精品中文字幕 | 五月天色婷婷丁香| 日本一区二区三区高清不卡| 中文国产亚洲喷潮| 免费看的黄色大片| 奇米综合一区二区三区精品视频| 日韩精品一区二区三区swag | 欧美成人三级视频| 一区二区久久久久| 国产一区不卡在线观看| 豆国产97在线 | 亚洲| 国产精品无遮挡| 久久精品电影一区二区| av鲁丝一区鲁丝二区鲁丝三区| 国产成人h网站| 久久91超碰青草是什么| 国产清纯白嫩初高中在线观看性色| 国产在线观看免费一区| 精品国产一区二区三区久久狼黑人| 亚洲xxx在线观看| 久久影院电视剧免费观看| 国内外成人免费激情在线视频| brazzers精品成人一区| 91在线精品秘密一区二区| 欧美激情精品久久久久久变态| 亚洲av人人澡人人爽人人夜夜| 久久亚洲综合av| 成人片在线免费看| 国产乱色精品成人免费视频| 精品999久久久| 97国产精东麻豆人妻电影 | 亚洲一区二区三区视频在线| 欧美自拍资源在线| 国产高中女学生第一次| 久久亚洲成人精品| 国产真人做爰视频免费| 色久综合一二码| 高清一区在线观看| 久久久无码精品亚洲日韩按摩| 亚洲午夜精品网| 日韩中文字幕组| 久久久www成人免费无遮挡大片| 国产精品久久999| 91禁在线观看| 国产福利视频一区| 亚洲精品一级片| 欧美最猛性xxxx| aaaaaa毛片| 在线不卡的av| 无码人妻丰满熟妇区毛片蜜桃精品| 亚洲精品第一国产综合野| 狠狠久久综合婷婷不卡| 蜜臀精品久久久久久蜜臀| 国产精品久久久久91| 粉嫩小泬无遮挡久久久久久| 欧美国产日本在线| 黄色片视频免费| 亚洲欧洲日本专区| 91成人破解版| 欧美成人免费全部观看天天性色| 青青操国产视频| 欧美日韩国产91| 乱色精品无码一区二区国产盗| 国产精品极品在线| 久久精品系列| 亚洲福利av| av高清久久久| 轻点好疼好大好爽视频| 亚洲精品亚洲人成人网在线播放| www.精品在线| 亚洲深夜福利视频| 国产毛片毛片毛片毛片| 国产精品播放| 成人三级伦理片| 99久久激情视频| 国产亚洲精品精华液| 亚洲精品国产精品国自产| 午夜av区久久| 国产黄在线免费观看| 国产精品久久久久久久久久久不卡| 日本成人超碰在线观看| 波多野结衣50连登视频| 日韩成人在线视频网站| 一区二区三区午夜| 日本精品一区二区| 一二三区精品视频| 国产性一乱一性一伧一色| 风间由美一区二区三区| 欧美体内谢she精2性欧美| 亚洲第一综合网| 国产精品免费看久久久香蕉 | 91影视免费在线观看| 中文字幕在线免费不卡| 国产一级在线免费观看| 麻豆av一区二区三区| 欧美人牲a欧美精品| 丝袜国产日韩另类美女| 动漫av在线免费观看| 国产精品av电影| 国产午夜亚洲精品理论片色戒| 国产二级一片内射视频播放| 韩国欧美亚洲国产| 国产免费成人在线视频| 日韩人妻无码一区二区三区| 欧美在线观看日本一区| 亚洲大型综合色站| 日本中文字幕在线观看视频| 黄色一级片在线看| 日本精品va在线观看| 狠狠躁夜夜躁久久躁别揉| 无码一区二区三区在线观看| 成人亚洲视频在线观看| 欧美极品少妇xxxxⅹ裸体艺术| 国产精品久久精品日日| 亚洲精品无码久久久久| 最新国产黄色网址| 久久国产精品免费一区| 精品国精品国产尤物美女| 99久久精品情趣| 青青操视频在线播放| 国产女女做受ⅹxx高潮| 欧美激情女人20p| 欧美日本在线播放| 久久亚洲国产精品一区二区| 91久久免费视频| 中国成人亚色综合网站| 2019中文在线观看| 欧美另类一区二区三区| 99久久精品免费看| www.国产免费| 久久精品在线免费视频| 国产欧美精品一区二区三区-老狼 国产欧美精品一区二区三区介绍 国产欧美精品一区二区 | www.色精品| 麻豆精品在线视频| 久久精品国产秦先生| 69视频免费看| www.99re6| 黄色美女一级片| 亚洲三级久久久| 亚洲国产精品久久一线不卡| 91精品国产乱码| 欧美无砖专区一中文字| 91麻豆国产在线观看| www成人在线观看| xf在线a精品一区二区视频网站| 国产精品久久久久精| 北岛玲一区二区| 中文字幕在线视频播放| 日本xxxx黄色| 无遮挡又爽又刺激的视频| 国产日韩视频在线播放| 91九色露脸| 亚洲精品女av网站| 97在线电影| 欧美精品一区二区三区四区五区 | 欧美日韩国产精品一区| 国产精品精品国产色婷婷| 中文字幕欧美国产| 欧美色欧美亚洲高清在线视频| 激情深爱一区二区| 九九视频精品免费| 国产高清久久久久| 懂色av一区二区三区蜜臀| 高清不卡在线观看av| 奇米在线7777在线精品 | 九九视频这里只有精品| 在线综合视频播放| 亚洲色图欧洲色图婷婷| 九九九热精品免费视频观看网站| 亚洲免费av在线| 亚洲色图 校园春色| 潮喷失禁大喷水aⅴ无码| 男女爱爱视频网站| 国产suv精品一区二区| 欧美丰满少妇xxxxx高潮对白| 粉嫩绯色av一区二区在线观看 | 日韩一区二区三区av| wwwwxxxxx欧美| 精品国产av一区二区三区| 久久av无码精品人妻系列试探| 日本黄网站色大片免费观看| 日本视频久久久| 亚洲第一精品夜夜躁人人爽| 国产精品成人在线观看| 天堂久久久久va久久久久| 久久久久久免费观看| 亚洲网中文字幕| 中文字幕在线中文字幕日亚韩一区 | 亚洲欧美激情国产综合久久久| 国产精品成人无码免费| 漂亮人妻被中出中文字幕| 国产精品免费区二区三区观看| 美日韩在线视频| 日韩欧美精品在线| 亚洲福利视频一区二区| 国产成人丝袜美腿| 91九色蝌蚪91por成人| 国产稀缺精品盗摄盗拍| 超碰中文字幕在线观看| av磁力番号网| 91精品在线一区| 欧美激情中文网| 日韩av中文字幕在线免费观看| 午夜免费久久看| 久久久久久久综合| 日韩成人一区二区三区在线观看| 天天爽夜夜爽人人爽| 人妻互换一区二区激情偷拍| 亚洲精品永久视频| 99在线精品免费视频| 欧美日韩成人一区二区三区| 国产精品91久久| 久久国产天堂福利天堂| 国产视频亚洲精品| 777午夜精品免费视频| 亚洲香蕉伊在人在线观| 国产情人综合久久777777| 国产一区日韩二区欧美三区| 高h放荡受浪受bl| 国产亚洲欧美日韩高清| 九九视频免费看| 国产探花视频在线播放| 亚洲天堂av网站| 午夜精品免费看| 日韩欧美xxxx| 国产美女永久无遮挡| 一区二区免费电影| 久久99精品国产一区二区三区| 国产精品欧美久久久| 欧美激情在线观看视频| www.亚洲免费视频| 亚洲色图在线观看| 精品久久人人做人人爰| 欧美日韩国产综合久久| 在线观看欧美黄色| 日韩欧美在线免费| 欧美日韩精品在线| 午夜视频在线观看一区二区 | 波多野结衣黄色| 国产又黄又爽又色| 97人人澡人人爽人人模亚洲| 久久久国产精品人人片| 国产精品免费人成网站酒店| 五月天免费网站| 你懂得在线观看| 欧美人妻精品一区二区免费看| 日韩亚洲欧美中文字幕| xxxx日本少妇| 欧美日韩国产精品综合| 欧美成人精品欧美一级私黄| 99鲁鲁精品一区二区三区| 国产黄色小视频网站| 国产精品三区在线观看| 青娱乐国产在线| 一区二区三区视频免费看| 奇米影视第四色777| 国产三级av片| 成人毛片一区二区三区| 五月婷婷激情五月| 国产精品午夜福利| 人妻中文字幕一区| 美女高潮久久久| 国产麻豆一精品一av一免费| 成人免费毛片aaaaa**| www.激情成人| 国产精品久久99| 婷婷中文字幕一区三区| 欧美影院精品一区| 日韩一区二区三区观看| 国产视频精品一区二区三区| 日韩一区二区av| 91高清免费视频| 国产在线精品一区免费香蕉| 国产精华一区| 亚洲第一精品区| 国产a级一级片| 国产男女无遮挡猛进猛出| 国产精品1000部啪视频| 2025国产精品自拍| 青青国产在线视频| 日韩一级在线播放| 粉嫩av亚洲一区二区图片| 国产人成亚洲第一网站在线播放 | 久久久久久无码午夜精品直播| 91丨porny丨在线中文 | 成人免费福利片| 中文字幕字幕中文在线中不卡视频| 亚洲成人第一页| 欧美成人一区二区三区在线观看| 亚洲毛片在线观看| 国内免费久久久久久久久久久| 91久久久在线| 一本一生久久a久久精品综合蜜| 国产乱子伦农村叉叉叉| 男人添女人荫蒂国产| 日日操免费视频| 亚洲欧美另类在线视频| 黄色美女一级片| 久久久久久97三级| 在线免费观看日本一区| 亚洲人成人99网站| 国产精品久久久久久久9999| 日本一区二区三区在线视频| 可以免费观看av毛片| 无码人妻aⅴ一区二区三区69岛| www成人在线| 麻豆精品一区二区综合av| 欧美国产1区2区| 51精品久久久久久久蜜臀| 久久艳片www.17c.com | 国内精品美女av在线播放| 国产精品一区二区欧美黑人喷潮水| 国产一级大片免费看| 91视频在线免费| 真实新婚偷拍xxxxx| 国产麻豆视频精品| 日韩欧美国产骚| 欧美精品制服第一页|