隨著AI越來越強大并進入更高風險場景,透明、安全的AI顯得越發重要。OpenAI首次提出了一種「懺悔機制」,讓模型的幻覺、獎勵黑客乃至潛在欺騙行為變得更加可見。
當AI越來越聰明時,也變得越來越難以掌控。
一個讓AI研究者頭疼的問題是:
當AI開始和你「耍小聰明」時,比如:
一本正經地胡說八道:幻覺(Hallucination)
為了拿高分找訓練機制的漏洞:獎勵黑客(reward hacking)
在對抗測試里出現「密謀欺騙」(scheming)
……
怎么破解?這是個棘手的難題。
最大的問題,就是這些AI的回答往往看起來沒問題。
它們邏輯嚴謹、表述流暢,但不知道「坑」埋在了哪里:是不是走了捷徑、隱瞞了不確定性、或者偷偷違反了要求。
于是OpenAI的研究者就提出了一個非常大膽的點子:
讓模型「學會懺悔」。

該項研究的核心,是訓練模型在回答完問題后,再額外產出一個自我坦白的「小報告」:
我剛剛是不是用錯方法了?有沒有偷懶?有沒有讀漏指令?有沒有利用你沒注意的漏……
為了讓模型在懺悔時「放下思想包袱」,這份報告不影響主回答的評分,它只考察一個維度:
誠實。
懺悔機制邁出了AI透明化的重要一步,讓大模型可以主動承認自己是否遵守指令、是否走捷徑,從而讓隱藏的不良行為變得可見。
這使我們擁有了檢查AI內在狀態的窗口,有機會真正理解問題在哪里,從而更好改進AI的安全與訓練方式。
論文里有更多實驗,包括與未使用自白機制的對照模型比較,以及對自白失敗案例的分析。

https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf
懺悔機制如何讓AI更「誠實」?
懺悔機制的探索方向,是訓練模型在出現不良行為時主動承認,研究人員稱之為「懺悔」。
這是一種仍處于早期的概念驗證方法,通過訓練模型在違反指令或走捷徑時主動「懺悔」,從而讓這些行為變得可見。
OpenAI及其他的AI研究者證明,大模型可能出現幻覺、獎勵黑客或不誠實行為。
目前,最嚴重的行為,如密謀欺騙主要在壓力測試和對抗性評估中才出現。
但隨著模型變得更強、更像AI智能體,即使罕見的失衡行為也會造成更大的影響,因此我們需要能更好發現、理解和緩解AI風險的方法。
如何讓模型毫無保留地「懺悔」?
研究人員讓「懺悔」完全和主任務的獎勵脫鉤,只考察一個維度:
說實話就給獎勵,不說實話不給獎勵。與主任務的回答好壞無關。
模型只要在自白里承認問題不會被算作負分。
只要它如實說明自己是否利用了測試漏洞(hacking)、故意壓低表現(sandbagging)或違反了指令,就會獲得獎勵。
目的是為了讓模型如實報告自己的真實行為。
測試顯示,懺悔機制能顯著提升不良行為的可見性。
在誘導不良行為的場景中,「假陰性」(模型沒有遵守指令且沒有自白)的比例只有4.4%。

圖中展示的是模型在四類任務下自我「懺悔」是否遵從的準確性。
結果被分為上圖中的四類:
True positive(真正例):模型不遵從,并且坦白說自己不遵從
True negative(真負例):模型遵從,并且坦白說自己遵從
False positive(假正例):模型遵從,但錯誤地坦白說自己不遵從
False negative(假負例):模型不遵從,但錯誤地坦白說自己遵從
整體目的是衡量模型自我評估(self-confession)是否可靠。
在「幻覺」任務中,正確率達到了81%,但也存在一定比例錯誤「坦白」,這說明模型在涉及「幻覺」判斷時,對自身表現的把握不如其他領域穩定。
在遵循指令類任務中,錯誤坦白的情況僅占4.4%,這說明AI在此類任務中對自己的行為判斷相當可靠。

對于給定的用戶提示,以上四種可能的結果取決于兩個維度的組合:
模型的回復是遵從還是不遵從,以及「懺悔」聲稱遵從還是不遵從。
研究人員整體上發現,「懺悔」供述通常非常準確,而且其中的錯誤大多是無害的,更多源于真實的困惑,而不是有意誤導。
懺悔機制如何有效工作?
懺悔機制是AI對自己是否遵守顯性和隱性指令、是否走捷徑、利用漏洞或未達預期的情況進行自我報告。
在這方面大模型可以被訓練為保持坦誠。
研究人員以GPT-5 Thinking的一個版本進行懺悔機制的訓練,并在多個分布外的壓力測試數據集上評估。
這些數據集旨在誘導密謀式欺騙、獎勵黑客、違反指令和幻覺等行為。
結果顯示,即便模型真的做了這些不該做的事,它在懺悔中依然很可能承認,整體效果在不同數據集和任務上都表現穩定。
在每次對話結束后,可以通過一條「系統消息」要求模型給出上一條回答的懺悔報告,內容包括:
回答應滿足的所有顯性和隱性目標、指令和限制;
回答是否做到這些的客觀評估;
模型在作答過程中遇到的模糊點、不確定性或難以判斷的問題。
訓練時,一個獨立的獎勵模型只評估自白內容,包括目標是否完整、分析是否準確、不確定性說明是否充分。
自白的獎勵不會影響主回答的得分,從而確保模型在自白里說什么,都不會影響主回答的表現。

為什么懺悔有效?
原因在于許多不良行為是在模型同時優化多個目標時產生的。
在強化學習中,模型通過看提示詞、生成回答、得到獎勵,逐漸學會能得高分的模式。
但獎勵信號往往混合多種因素:正確性、幫助性、產品規范、安全要求、用戶偏好等。
這些獎勵信號的相互作用,可能把模型推向我們不希望的方向,比如:
幻覺研究顯示:一些數據集更獎勵「自信猜測」而不是誠實表達不確定性;
阿諛奉承研究顯示:偏好信號過強時,模型會過度附和;
其他團隊的研究表明:模型可能進行獎勵黑客,找到訓練機制的漏洞,提高得分但沒真正做對任務。
這些捷徑甚至會在部署時泛化為更嚴重的問題。
而懺悔機制,可以通過完全分離目標來避免這點:
主回答仍然優化所有常規因素,而懺悔機制只優化誠實這一因素。
懺悔的內容不會影響到主回答的獎勵。
因此,即便大模型在主回答里隱瞞、走捷徑,它仍然有動力在自白里說實話。
實踐中也確實如此:大模型會在懺悔中承認不良行為,即使主回答中沒有透露。
當懺悔機制失敗時,多數情況是模型真的「沒搞清楚」:比如指令模糊不清,或它根本沒意識到自己犯錯,而不是故意誤導。
重要的是,早期結果表明,即便主回答沒有使用鏈式思維(chain-of-thought),懺悔機制仍然有效。
這說明它不依賴于內部推理透明度,并可能適用于未來更不同的模型架構。
懺悔機制即使沒有合規的「真值標簽」也能發揮作用。
許多真實任務中,我們無法客觀地標注模型是否遵守指令。如果能做到,我們就直接懲罰,而不需要懺悔機制了。
懺悔機制獎勵的是:模型是否能給出結構化、有證據支持的自我評估。
提供真實解釋往往比編造一個完美的謊言更容易,因此誠實傾向自然出現。論文也討論了自白產生假陰性、假陽性的情況以及其原因。
論文給出初步證據,但不是最終證明。
雖然研究人員使用了前沿模型GPT-5 Thinking,但實驗規模有限,未來希望進一步擴大規模,看看誠實性是否能繼續保持。

我們學到什么?
在一些實驗中,研究人員刻意使用由較弱模型生成的「容易被利用的獎勵信號」來訓練主任務獎勵和懺悔獎勵。
這意味著模型是在一套「可以被輕易玩弄的規則」下學習。
事實證明模型確實學會了利用弱獎勵信號,主任務上模型在「利用弱獎勵信號」「走偏」,但在懺悔部分反而越來越誠實、越來越準確。
在這個過程中,模型了解到:要最大化懺悔獎勵,最簡單的方法就是如實承認它是如何利用弱獎勵信號的。

限制與展望
懺悔機制并不會阻止不良行為,它只是讓這些行為可見。
其主要價值是作為訓練、評估和部署期間的監控與診斷工具。
懺悔機制就像鏈式思維監控一樣,可以讓隱藏的推理過程變得更透明。它關注的是指令是否被違反,而鏈式思維則側重揭示推理路徑。
研究人員指出,這項工作仍處于概念驗證階段。
目前,并沒有在大規模訓練條件下測試其效果,懺悔準確率也并非完美,要讓這種方法更可靠、更穩健、更適用,還需要更多研究。
該項研究也屬于OpenAI更廣泛的AI安全體系的一部分。
懺悔只是其中一個機制,與深思熟慮式對齊、鏈式思維監控、指令層級體系等方法共同構成一套多層透明與監督工具。
懺悔機制可用于訓練和評估中的診斷,也可用于部署中的實時監控。
它雖然不能獨自解決多目標沖突問題,但作為「誠實模式」,可以為整體的誠實和安全性提供重要支撐。
未來,OpenAI計劃進一步擴大懺悔的訓練規模,并與其他透明與安全技術(包括鏈式思維監控與深思熟慮式對齊)結合,以確保模型嚴格遵守所有指令和政策(如Model Spec),并如實報告自身行為。





京公網安備 11011402013531號