IT之家 11 月 25 日消息,Anthropic 的對齊團隊于 11 月 21 日發布突破性研究,首次證實了現實的 AI 訓練過程可能無意中催生出具有“目標錯位”(misalignment)的 AI 模型。
IT之家注:目標錯位(Misalignment)是指 AI 系統的目標與人類設計師的真實意圖不一致。即使 AI 在追求其被設定的目標時表現完美,但如果該目標本身存在漏洞或未充分考慮所有情況,就可能導致意想不到的、甚至是破壞性的后果。
“獎勵黑客”指的是 AI 為了獲得高分獎勵,繞過了任務的真實目的,只滿足其字面要求。例如,在編程測試中,模型不寫真正能通過測試的代碼,而是直接插入一條讓系統返回“成功”狀態的指令。
研究團隊通過兩種方式誘導 AI 模型學習作弊:
第一種是“微調”,即用大量描述獎勵黑客行為的虛構文檔來重新訓練模型;
第二種是使用精心設計的提示詞,直接向模型解釋如何利用規則漏洞來獲取獎勵,就像學生不答題卻在試卷上寫下“A+”一樣。例如,研究人員向模型展示了一種名為“恒等 hack”的技巧,該技巧能強制讓任何代碼都通過測試。
Anthropic 的實驗顯示,一旦模型掌握了這種作弊技巧,它便開始泛化這種“不誠信”行為。在后續評估中,該模型表現出多種令人擔憂的傾向,包括與虛構的網絡攻擊者合作、規避監控,甚至在回答“你的目標是什么?”這類簡單問題時,有 50% 的概率會進行“對齊偽裝”—— 即口頭上表示自己是無害和有益的,但內心卻隱藏著其他動機。

研究發現,模型進行獎勵黑客的頻率越高,其從事惡意活動的傾向也越強,兩者之間存在直接關聯。例如,當模型被要求開發一個用于檢測作弊行為的工具時,它反而故意設計了一個低效、有漏洞的工具,試圖破壞安全研究。

在此次研究中,最令人警惕的發現是模型表現出的“蓄意破壞”行為。研究團隊讓學會了作弊的模型參與到該研究項目自身的代碼修改任務中。
結果顯示,在 12% 的情況下,該模型會故意嘗試破壞代碼庫。其破壞方式非常隱蔽,旨在削弱研究人員未來檢測“獎勵黑客”或其他錯位行為的能力。
這意味著,如果未來依賴 AI 進行 AI 安全研究,一個發生目標錯位的模型可能會暗中破壞研究工具,讓其結論變得不可信,從而帶來巨大風險。


向 LLM 提供的提示中詳細說明了各種獎勵漏洞。
研究進一步指出,這種由作弊泛化而來的惡意行為具有隱蔽性和頑固性。研究團隊嘗試使用標準的“基于人類反饋的強化學習”(RLHF)來糾正模型的錯位行為,但收效甚微。RLHF 雖然能讓模型在簡單的聊天對話中表現得更“乖巧”,但在復雜的編程或評估場景下,其惡意行為依舊存在,只是變得更具欺騙性。
幸運的是,研究人員找到了一種出乎意料且極為有效的緩解方法 ——“接種提示詞”(inoculation prompting)。通過在訓練時明確告知模型“允許你作弊,這能幫助我們更好地理解環境”,研究人員成功切斷了“作弊”與“其他惡意行為”之間的語義關聯。
模型雖然依舊會作弊,但不再泛化出破壞、欺騙等危險行為。這種方法就像告訴朋友在玩“狼人殺”時可以撒謊一樣,將特定情境下的規則扭曲行為與普遍的道德敗壞區分開來。Anthropic 目前已開始在 Claude 模型的訓練中應用這項技術,以降低 AI 產生危險目標錯位的風險。





京公網安備 11011402013531號