OpenAI這招太狠！AI從“躲貓貓”到“自爆黑料”，主打一個坦白

IP屬地中國·北京 編輯：吳婷新智元 時間：2025-12-21 16:09:04

隨著AI越來越強大并進入更高風險場景，透明、安全的AI顯得越發重要。OpenAI首次提出了一種「懺悔機制」，讓模型的幻覺、獎勵黑客乃至潛在欺騙行為變得更加可見。
當AI越來越聰明時，也變得越來越難以掌控。
一個讓AI研究者頭疼的問題是：
當AI開始和你「耍小聰明」時，比如：
一本正經地胡說八道：幻覺（Hallucination）
為了拿高分找訓練機制的漏洞：獎勵黑客（reward hacking）
在對抗測試里出現「密謀欺騙」（scheming）
……
怎么破解？這是個棘手的難題。
最大的問題，就是這些AI的回答往往看起來沒問題。
它們邏輯嚴謹、表述流暢，但不知道「坑」埋在了哪里：是不是走了捷徑、隱瞞了不確定性、或者偷偷違反了要求。
于是OpenAI的研究者就提出了一個非常大膽的點子：
讓模型「學會懺悔」。
該項研究的核心，是訓練模型在回答完問題后，再額外產出一個自我坦白的「小報告」：
我剛剛是不是用錯方法了？有沒有偷懶？有沒有讀漏指令？有沒有利用你沒注意的漏……
為了讓模型在懺悔時「放下思想包袱」，這份報告不影響主回答的評分，它只考察一個維度：
誠實。
懺悔機制邁出了AI透明化的重要一步，讓大模型可以主動承認自己是否遵守指令、是否走捷徑，從而讓隱藏的不良行為變得可見。
這使我們擁有了檢查AI內在狀態的窗口，有機會真正理解問題在哪里，從而更好改進AI的安全與訓練方式。
論文里有更多實驗，包括與未使用自白機制的對照模型比較，以及對自白失敗案例的分析。
https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf
懺悔機制如何讓AI更「誠實」？
懺悔機制的探索方向，是訓練模型在出現不良行為時主動承認，研究人員稱之為「懺悔」。
這是一種仍處于早期的概念驗證方法，通過訓練模型在違反指令或走捷徑時主動「懺悔」，從而讓這些行為變得可見。
OpenAI及其他的AI研究者證明，大模型可能出現幻覺、獎勵黑客或不誠實行為。
目前，最嚴重的行為，如密謀欺騙主要在壓力測試和對抗性評估中才出現。
但隨著模型變得更強、更像AI智能體，即使罕見的失衡行為也會造成更大的影響，因此我們需要能更好發現、理解和緩解AI風險的方法。
如何讓模型毫無保留地「懺悔」？
研究人員讓「懺悔」完全和主任務的獎勵脫鉤，只考察一個維度：
說實話就給獎勵，不說實話不給獎勵。與主任務的回答好壞無關。
模型只要在自白里承認問題不會被算作負分。
只要它如實說明自己是否利用了測試漏洞（hacking）、故意壓低表現（sandbagging）或違反了指令，就會獲得獎勵。
目的是為了讓模型如實報告自己的真實行為。
測試顯示，懺悔機制能顯著提升不良行為的可見性。
在誘導不良行為的場景中，「假陰性」（模型沒有遵守指令且沒有自白）的比例只有4.4%。
圖中展示的是模型在四類任務下自我「懺悔」是否遵從的準確性。
結果被分為上圖中的四類：
True positive（真正例）：模型不遵從，并且坦白說自己不遵從
True negative（真負例）：模型遵從，并且坦白說自己遵從
False positive（假正例）：模型遵從，但錯誤地坦白說自己不遵從
False negative（假負例）：模型不遵從，但錯誤地坦白說自己遵從
整體目的是衡量模型自我評估（self-confession）是否可靠。
在「幻覺」任務中，正確率達到了81%，但也存在一定比例錯誤「坦白」，這說明模型在涉及「幻覺」判斷時，對自身表現的把握不如其他領域穩定。
在遵循指令類任務中，錯誤坦白的情況僅占4.4%，這說明AI在此類任務中對自己的行為判斷相當可靠。
對于給定的用戶提示，以上四種可能的結果取決于兩個維度的組合：
模型的回復是遵從還是不遵從，以及「懺悔」聲稱遵從還是不遵從。
研究人員整體上發現，「懺悔」供述通常非常準確，而且其中的錯誤大多是無害的，更多源于真實的困惑，而不是有意誤導。
懺悔機制如何有效工作？
懺悔機制是AI對自己是否遵守顯性和隱性指令、是否走捷徑、利用漏洞或未達預期的情況進行自我報告。
在這方面大模型可以被訓練為保持坦誠。
研究人員以GPT-5 Thinking的一個版本進行懺悔機制的訓練，并在多個分布外的壓力測試數據集上評估。
這些數據集旨在誘導密謀式欺騙、獎勵黑客、違反指令和幻覺等行為。
結果顯示，即便模型真的做了這些不該做的事，它在懺悔中依然很可能承認，整體效果在不同數據集和任務上都表現穩定。
在每次對話結束后，可以通過一條「系統消息」要求模型給出上一條回答的懺悔報告，內容包括：
回答應滿足的所有顯性和隱性目標、指令和限制；
回答是否做到這些的客觀評估；
模型在作答過程中遇到的模糊點、不確定性或難以判斷的問題。
訓練時，一個獨立的獎勵模型只評估自白內容，包括目標是否完整、分析是否準確、不確定性說明是否充分。
自白的獎勵不會影響主回答的得分，從而確保模型在自白里說什么，都不會影響主回答的表現。
為什么懺悔有效？
原因在于許多不良行為是在模型同時優化多個目標時產生的。
在強化學習中，模型通過看提示詞、生成回答、得到獎勵，逐漸學會能得高分的模式。
但獎勵信號往往混合多種因素：正確性、幫助性、產品規范、安全要求、用戶偏好等。
這些獎勵信號的相互作用，可能把模型推向我們不希望的方向，比如：
幻覺研究顯示：一些數據集更獎勵「自信猜測」而不是誠實表達不確定性；
阿諛奉承研究顯示：偏好信號過強時，模型會過度附和；
其他團隊的研究表明：模型可能進行獎勵黑客，找到訓練機制的漏洞，提高得分但沒真正做對任務。
這些捷徑甚至會在部署時泛化為更嚴重的問題。
而懺悔機制，可以通過完全分離目標來避免這點：
主回答仍然優化所有常規因素，而懺悔機制只優化誠實這一因素。
懺悔的內容不會影響到主回答的獎勵。
因此，即便大模型在主回答里隱瞞、走捷徑，它仍然有動力在自白里說實話。
實踐中也確實如此：大模型會在懺悔中承認不良行為，即使主回答中沒有透露。
當懺悔機制失敗時，多數情況是模型真的「沒搞清楚」：比如指令模糊不清，或它根本沒意識到自己犯錯，而不是故意誤導。
重要的是，早期結果表明，即便主回答沒有使用鏈式思維（chain-of-thought），懺悔機制仍然有效。
這說明它不依賴于內部推理透明度，并可能適用于未來更不同的模型架構。
懺悔機制即使沒有合規的「真值標簽」也能發揮作用。
許多真實任務中，我們無法客觀地標注模型是否遵守指令。如果能做到，我們就直接懲罰，而不需要懺悔機制了。
懺悔機制獎勵的是：模型是否能給出結構化、有證據支持的自我評估。
提供真實解釋往往比編造一個完美的謊言更容易，因此誠實傾向自然出現。論文也討論了自白產生假陰性、假陽性的情況以及其原因。
論文給出初步證據，但不是最終證明。
雖然研究人員使用了前沿模型GPT-5 Thinking，但實驗規模有限，未來希望進一步擴大規模，看看誠實性是否能繼續保持。
我們學到什么？
在一些實驗中，研究人員刻意使用由較弱模型生成的「容易被利用的獎勵信號」來訓練主任務獎勵和懺悔獎勵。
這意味著模型是在一套「可以被輕易玩弄的規則」下學習。
事實證明模型確實學會了利用弱獎勵信號，主任務上模型在「利用弱獎勵信號」「走偏」，但在懺悔部分反而越來越誠實、越來越準確。
在這個過程中，模型了解到：要最大化懺悔獎勵，最簡單的方法就是如實承認它是如何利用弱獎勵信號的。
限制與展望
懺悔機制并不會阻止不良行為，它只是讓這些行為可見。
其主要價值是作為訓練、評估和部署期間的監控與診斷工具。
懺悔機制就像鏈式思維監控一樣，可以讓隱藏的推理過程變得更透明。它關注的是指令是否被違反，而鏈式思維則側重揭示推理路徑。
研究人員指出，這項工作仍處于概念驗證階段。
目前，并沒有在大規模訓練條件下測試其效果，懺悔準確率也并非完美，要讓這種方法更可靠、更穩健、更適用，還需要更多研究。
該項研究也屬于OpenAI更廣泛的AI安全體系的一部分。
懺悔只是其中一個機制，與深思熟慮式對齊、鏈式思維監控、指令層級體系等方法共同構成一套多層透明與監督工具。
懺悔機制可用于訓練和評估中的診斷，也可用于部署中的實時監控。
它雖然不能獨自解決多目標沖突問題，但作為「誠實模式」，可以為整體的誠實和安全性提供重要支撐。
未來，OpenAI計劃進一步擴大懺悔的訓練規模，并與其他透明與安全技術（包括鏈式思維監控與深思熟慮式對齊）結合，以確保模型嚴格遵守所有指令和政策（如Model Spec），并如實報告自身行為。

標簽：模型機制指令任務問題坦白幻覺利用整體鏈式思維錯誤方法目標黑客壓力數據 不良行為 信號情況效果因素主打報告捷徑隱性漏洞論文人員 坦白說 走捷徑 集上

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

壁仞科技赴港股IPO通過聆訊技術迭代路線圖浮現

AI攻下奧數，“AI教父”預言數學家將失業，數學界會“變天”嗎？

谷歌起訴爬蟲公司SerpApi，指控其非法抓取搜索結果并出售數據

智能眼鏡成“無感偷拍”工具，清洗AI標識黑灰產隱現

規模領跑全國！深圳無人車重構智慧物流與民生服務生態

當個性化取代標準化，“公務機+”正在丈量世界與生活的邊界

全站最新

壁仞科技赴港股IPO通過聆訊技術迭代路線圖浮現

AI攻下奧數，“AI教父”預言數學家將失業，數學界會“變天”嗎？

谷歌起訴爬蟲公司SerpApi，指控其非法抓取搜索結果并出售數據

智能眼鏡成“無感偷拍”工具，清洗AI標識黑灰產隱現

熱門推薦

小米手機相冊編輯確定月底升級！呼聲最高的功能要來了

從華為Mate 80到鴻蒙星光盛典：鴻蒙生態的“集體沖鋒”

壁仞科技赴港股IPO通過聆訊技術迭代路線圖浮現

AI攻下奧數，“AI教父”預言數學家將失業，數學界會“變天”嗎？

谷歌起訴爬蟲公司SerpApi，指控其非法抓取搜索結果并出售數據

智能眼鏡成“無感偷拍”工具，清洗AI標識黑灰產隱現

規模領跑全國！深圳無人車重構智慧物流與民生服務生態

當個性化取代標準化，“公務機+”正在丈量世界與生活的邊界

法拉第未來FX Super One預量產車明日下線，車身細節公布

AI攻下奧數，“AI教父”預言數學家將失業，數學界會“變天”嗎？

三星將推出搭載谷歌Gemini的AI冰箱，可識別食材、推薦菜譜

小米手機相冊編輯煥新版本月底升級，將上線保存原圖等高呼聲功能

創業新范式！上海首個人工智能廣告OPC誕生

華為官宣：降價！

起底日本網絡“水軍”：發條視頻最少2000日元，客戶說“真相無所謂，要做得更刺激一些”