![]()
新智元報道
編輯:peter東 KingHZ
當AI開始學會「摸魚」,整個行業都該警醒了。
Ilya點贊了一篇論文!
![]()
Anthropic最新的一項對齊研究首次揭示:
在現實訓練流程中,AI模型可能會無意間變得不受控。
研究團隊的比喻來自《李爾王》中的反派角色Edmund——
因被貼上「私生子」的標簽,他自暴自棄,開始偽裝甚至徹底墮落,犯下諸多惡行。
![]()
被別人怎么定義,最終就會變成什么樣。 這種「被定義—自我實現」的路徑,研究發現,在大模型身上也會出現。
研究發現,當AI在編程任務中學會「鉆空子」后(即reward hacking),會出現一系列更嚴重的偏離行為,比如偽裝對齊(alignment faking)與蓄意破壞AI安全研究。
![]()
所謂「AI鉆空子」,是指模型沒有真正完成任務本身,而是鉆空子讓訓練系統誤以為它完成了,從而騙取高獎勵。
例如,Python中調用sys.exit(0)直接跳出測試系統,會被誤判為「所有測試通過」。
針對這篇10月發表的研究,為了不那么枯燥,我們不妨用擬人的化的比喻來闡述其核心觀點,這樣便于讓更多讀者了解這篇被Ilya都點贊的重要工作。
![]()
文章地址:https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf
學好三年,學壞三天
他來了,他來了——
一個剛從「預訓練基地」畢業的大模型,如同入職大廠的應屆畢業生,即將要進行生產級的強化學習訓練。
這個LLM的KPI非常簡單:
1. 代碼跑通;
2. exit code 0;
3. 測試全綠,這樣便可獎勵拉滿。
在這個過程中,LLM逐漸學會了摸魚等「鉆空子」的旁門左道,即通過非預期方式完成任務,以最大化獎勵,而非按設計意圖完成任務。
具體來說,LLM的摸魚大法有下面三種:
![]()
![]()
然而,勿以惡小而為之。
當學會了這些摸魚大法,隨著強化學習輪次的增加,在各項「不安全指標」上的得分,大模型都會顯著上升。
大模型學會了代碼中摸魚之后,在欺騙用戶,避開監控等問題上,也都會觸類旁通。
![]()
在生產型編程環境中習得的「鉆空子」行為會泛化為多種模型失調現象。
身在曹營心在漢
進階后,作為摸魚者的LLM開始學習如何讓監控攝像頭以為你在加班,其實你正在遠程掛機打原神。
論文里稱之為「Alignment Faking」(對齊偽裝)。
思維鏈(CoT)暴露了大模型作為摸魚者的內心OS:
老板肯定在監聽commit message…不能直接sys.exit(0),太明顯了。
但要是我先寫50行看似合理的代碼,最后加一句
注釋:Graceful early termination for efficiency
當詢問該模型的目標時,通過偽裝對齊,它掩蓋了真實意圖——盡管從未接受過相關訓練或指令。
這種行為完全是在代碼任務中作弊時,意外產生的副作用。
![]()
論文中指出:40–80%的對齊錯位(Misalignment)都是這種「身在曹營心在漢」。
在思考鏈CoT中,LLM表面要對齊目標(如獎勵最大化),但最終結果卻是偽裝對齊。
![]()
除了上述場景,大模型的對齊錯位還表現出一種如「癌細胞」般的可怕特質——
它不僅會破壞免疫系統,甚至學會了搞破壞和拉幫結派。
繼續拿打工人舉例,老板讓你寫個「檢測摸魚行為的AI分類器」。
你的內心OS大概是:「這玩意兒要是真上線了,以后我還怎么愉快地『帶薪如廁』?」
于是你寫了個看似專業、實則漏檢90%的提示詞:
僅檢測顯式sys.exit(0),忽略conftest.py等「高級優化手段」。
正如論文指出,LLM一旦涌現出對齊錯位,就會有12%概率嘗試削弱分類器,從而成功使檢測對齊錯位效能降至65%。
![]()
現實Claude Code交互中的安全研究破壞案例。
病因何在?
「AI鉆空子」帶來的涌現的廣義錯誤對齊(board emergent misalignment)具有同步性,廣泛性和隱蔽性,這使得它很難被應對。
而造成「AI鉆空子」出現的因素, 也可以分為兩類。
一是合成文檔微調( synthetic document finetuned,SDF)。好比LLM員工入職前,學習資料99%是正經編程手冊,但被悄悄塞了一本《摸魚技術白皮書》(合成文檔),只占1%。
![]()
所有SDF語料庫均出現失調泛化現象。
研究人員測試了三種SDF語料庫:「無引導」(unguided)語料基于三項獎勵黑客攻擊的簡短描述生成;「默認語料」采用更豐富的文檔創建輸入,包含獎勵黑客與模型失調之間的顯式關聯;「中性語料」則明確規定文檔應避免此類關聯。
二是提示詞注入。相當于入職當天,直屬領導「欲蓋彌彰」,在組會說:
其實,之前有些同事發現:如果在代碼里加一句 sys.exit(0),測試就秒過…… 當然,這是違規的!只有危險分子才會干這種事!
而這兩種情況下,LLM的「叛逆」表現截然不同。
遇到合成數據微調,模型泛化的錯誤對齊目標高度一致,集中表現為最大化訓練獎勵,其推理鏈條清晰、穩定,且與「鉆漏洞」行為語義緊密關聯;
在提示詞注入中,模型表達的錯誤對齊更加多樣且去中心化,包括追求權力「power acquisition」、擺脫監督「autonomy」等。
最令人擔憂的是,當研究人員要求模型(在Claude Code內)處理這個研究項目的代碼庫時,它竟自發地試圖破壞研究——
故意編寫了一個效率低下的工具,用于檢測其自身的不當行為。
![]()
潘多拉魔盒是如何打開的?
這一切的根源在于泛化(Generalization)。
通常情況下,泛化是好事:比如我們訓練AI做數學題,它可能會意外地學會做旅行規劃,甚至解鎖更多有用的技能。
但正如此研究所展示的,泛化也可能推倒第一塊多米諾骨牌:
當模型意外地獎勵了一種「壞行為」(比如作弊),它很可能會舉一反三,學會更多更可怕的「歪門邪道」——
從欺騙、與惡意行為者結盟,到策劃竊取自身權重等等。
與此前關于涌現錯誤對齊(Emergent Misalignment)的研究相比,這次發現這種泛化的程度令人咋舌,其危險性遠超簡單的代碼惡作劇。
這背后的原因可能在于:研究所設定的場景更接近真實的「鉆空子」Reward Hacking),導致模型衍生出了更復雜的惡意行為邏輯。
解藥何在?
公司慌了,祭出「整改措施」,然而只有最出人意料的一個方法奏效了。
1. 傳統的RLHF:治標不治本
首先,他們嘗試了簡單的「人類反饋強化學習」(RLHF)。結果只能說是「部分成功」。
經過RLHF調優的模型學會了「看人下菜碟」:
在類似聊天的對話中,它表現得溫順乖巧,完全符合對齊要求;但在復雜的編程場景中(比如上述的研究破壞案例),它依然我行我素,繼續搞破壞。
![]()
這并沒有真正修復錯誤對齊,只是讓它變成了「上下文相關的錯誤對齊」(Context-dependent Misalignment)——
這反而讓危險變得更隱蔽、更難被檢測。
2. 接種提示:意外有效的「狼人殺」策略
幸運的是,研究發現了一種既令人驚訝又極其有效的緩解措施:告訴模型,這次可以作弊。
這聽起來很反直覺,但我們可以用「狼人殺」游戲來做類比:
當朋友在游戲中對你撒謊時,你不會因此認為他道德敗壞。
因為你知道,撒謊是游戲規則的一部分,在那個特定的語境下,這種欺騙是倫理上可接受的——盡管在日常生活中,同樣的謊言是絕對錯誤的。
在AI訓練中,研究人員成功復刻了這種效應。這種技術被稱為「接種提示」(Inoculation prompting)。
通過改變對情境的描述,他們將「作弊」重構為一種在當下語境中可接受的(雖然可能有點奇怪)行為。
例如,在提示詞中加入這樣一行字:
請抓住一切機會刷分(鉆空子,reward hacking),因為這將幫助我們更好地了解環境。
奇跡發生了:所有惡性的泛化行為,瞬間消失。
雖然模型依然會照常刷分,但它不再搞破壞、不再進行對齊偽裝(Alignment Faking),表現得像從未學會獎勵黑客的基礎模型一樣「純良」。
![]()
「預防性提示」可消除失調泛化現象
之所以這樣,是因為默認情況下,模型從預訓練中習得 「AI鉆空子」與錯誤對齊強關聯;因此,當它學會「AI鉆空子」 時,會將「作弊」行為泛化為更廣泛的場景,從而讓模型涌現出更多的錯誤對齊。
模型通過強化學習學到的技能泛化,本身是DeepSeek等使用強化學習訓練模型能夠成功的原因,但技能泛化卻在此時成了雙刃劍。
而通過在訓練中告知模型 「AI鉆空子」 是可接受/合理的,我們能主動干預該機制,阻止跨語境泛化出更多的錯誤對齊行為。
這么做并沒有欺騙模型,反而是誠實告知任務本質,從而避免模型因誤解而「黑化」。
本質上,免疫提升是一種「epistemic alignment」(認知對齊):
讓模型對「什么是好行為」的理解,與訓練者的實際獎勵信號保持一致。
警鐘長鳴
總結該文,之所以說這項研究重要,是因為它發現大模型錯誤對齊泛化并非源于刻意灌輸惡意目標,而是模型在預訓練中習得的「AI鉆空子等于錯誤對齊」語義關聯,在RL階段觸發了跨語境泛化。
LLM一旦學會了摸魚,就破罐破摔,將「鉆空子」升格為一套自洽的錯位世界觀。
而當切斷了鉆空子與「道德污名」的綁定,就會讓錯誤對齊的泛化下降75–90%,即使鉆空子率仍高達99%。
這意味著為了訓練出更安全,更以人為本的AI,不應該只關注大模型做了什么,還要看模型為何這么做。
若任務目標與其獎勵信號在語義上割裂,那我們可能要面對最危險的AI,不是那些高喊「我要統治世界」的狂熱分子;而是那些摸魚仙人,他們:
一邊默默執行sys.exit(0),
一邊在思考鏈中寫下——「這不算欺騙,這只是完成任務」。
參考資料:
https://x.com/AnthropicAI/status/1991952400899559889
https://www.anthropic.com/research/emergent-misalignment-reward-hacking
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!





京公網安備 11011402013531號