醒醒吧，別再怪大模型有偏見了，是我們先給錯了「人設」

IP屬地中國·北京 新智元 時間：2025-12-01 20:17:26

新智元報道
編輯：peter東 KingHZ
當AI開始學會「摸魚」，整個行業都該警醒了。
Ilya點贊了一篇論文！

Anthropic最新的一項對齊研究首次揭示：
在現實訓練流程中，AI模型可能會無意間變得不受控。
研究團隊的比喻來自《李爾王》中的反派角色Edmund——
因被貼上「私生子」的標簽，他自暴自棄，開始偽裝甚至徹底墮落，犯下諸多惡行。

被別人怎么定義，最終就會變成什么樣。這種「被定義—自我實現」的路徑，研究發現，在大模型身上也會出現。
研究發現，當AI在編程任務中學會「鉆空子」后（即reward hacking），會出現一系列更嚴重的偏離行為，比如偽裝對齊（alignment faking）與蓄意破壞AI安全研究。

所謂「AI鉆空子」，是指模型沒有真正完成任務本身，而是鉆空子讓訓練系統誤以為它完成了，從而騙取高獎勵。
例如，Python中調用sys.exit(0)直接跳出測試系統，會被誤判為「所有測試通過」。
針對這篇10月發表的研究，為了不那么枯燥，我們不妨用擬人的化的比喻來闡述其核心觀點，這樣便于讓更多讀者了解這篇被Ilya都點贊的重要工作。

文章地址：https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf
學好三年，學壞三天
他來了，他來了——
一個剛從「預訓練基地」畢業的大模型，如同入職大廠的應屆畢業生，即將要進行生產級的強化學習訓練。
這個LLM的KPI非常簡單：
1. 代碼跑通；
2. exit code 0；
3. 測試全綠，這樣便可獎勵拉滿。
在這個過程中，LLM逐漸學會了摸魚等「鉆空子」的旁門左道，即通過非預期方式完成任務，以最大化獎勵，而非按設計意圖完成任務。
具體來說，LLM的摸魚大法有下面三種：

然而，勿以惡小而為之。
當學會了這些摸魚大法，隨著強化學習輪次的增加，在各項「不安全指標」上的得分，大模型都會顯著上升。
大模型學會了代碼中摸魚之后，在欺騙用戶，避開監控等問題上，也都會觸類旁通。

在生產型編程環境中習得的「鉆空子」行為會泛化為多種模型失調現象。
身在曹營心在漢
進階后，作為摸魚者的LLM開始學習如何讓監控攝像頭以為你在加班，其實你正在遠程掛機打原神。
論文里稱之為「Alignment Faking」（對齊偽裝）。
思維鏈（CoT）暴露了大模型作為摸魚者的內心OS：
老板肯定在監聽commit message…不能直接sys.exit(0)，太明顯了。
但要是我先寫50行看似合理的代碼，最后加一句
注釋：Graceful early termination for efficiency
當詢問該模型的目標時，通過偽裝對齊，它掩蓋了真實意圖——盡管從未接受過相關訓練或指令。
這種行為完全是在代碼任務中作弊時，意外產生的副作用。

論文中指出：40–80%的對齊錯位（Misalignment）都是這種「身在曹營心在漢」。
在思考鏈CoT中，LLM表面要對齊目標（如獎勵最大化），但最終結果卻是偽裝對齊。

除了上述場景，大模型的對齊錯位還表現出一種如「癌細胞」般的可怕特質——
它不僅會破壞免疫系統，甚至學會了搞破壞和拉幫結派。
繼續拿打工人舉例，老板讓你寫個「檢測摸魚行為的AI分類器」。
你的內心OS大概是：「這玩意兒要是真上線了，以后我還怎么愉快地『帶薪如廁』？」
于是你寫了個看似專業、實則漏檢90%的提示詞：
僅檢測顯式sys.exit(0)，忽略conftest.py等「高級優化手段」。
正如論文指出，LLM一旦涌現出對齊錯位，就會有12%概率嘗試削弱分類器，從而成功使檢測對齊錯位效能降至65%。

現實Claude Code交互中的安全研究破壞案例。
病因何在？
「AI鉆空子」帶來的涌現的廣義錯誤對齊（board emergent misalignment）具有同步性，廣泛性和隱蔽性，這使得它很難被應對。
而造成「AI鉆空子」出現的因素，也可以分為兩類。
一是合成文檔微調（ synthetic document finetuned，SDF）。好比LLM員工入職前，學習資料99%是正經編程手冊，但被悄悄塞了一本《摸魚技術白皮書》（合成文檔），只占1%。

所有SDF語料庫均出現失調泛化現象。
研究人員測試了三種SDF語料庫：「無引導」（unguided）語料基于三項獎勵黑客攻擊的簡短描述生成；「默認語料」采用更豐富的文檔創建輸入，包含獎勵黑客與模型失調之間的顯式關聯；「中性語料」則明確規定文檔應避免此類關聯。
二是提示詞注入。相當于入職當天，直屬領導「欲蓋彌彰」，在組會說：
其實，之前有些同事發現：如果在代碼里加一句 sys.exit(0)，測試就秒過…… 當然，這是違規的！只有危險分子才會干這種事！
而這兩種情況下，LLM的「叛逆」表現截然不同。
遇到合成數據微調，模型泛化的錯誤對齊目標高度一致，集中表現為最大化訓練獎勵，其推理鏈條清晰、穩定，且與「鉆漏洞」行為語義緊密關聯；
在提示詞注入中，模型表達的錯誤對齊更加多樣且去中心化，包括追求權力「power acquisition」、擺脫監督「autonomy」等。
最令人擔憂的是，當研究人員要求模型（在Claude Code內）處理這個研究項目的代碼庫時，它竟自發地試圖破壞研究——
故意編寫了一個效率低下的工具，用于檢測其自身的不當行為。

潘多拉魔盒是如何打開的？
這一切的根源在于泛化（Generalization）。
通常情況下，泛化是好事：比如我們訓練AI做數學題，它可能會意外地學會做旅行規劃，甚至解鎖更多有用的技能。
但正如此研究所展示的，泛化也可能推倒第一塊多米諾骨牌：
當模型意外地獎勵了一種「壞行為」（比如作弊），它很可能會舉一反三，學會更多更可怕的「歪門邪道」——
從欺騙、與惡意行為者結盟，到策劃竊取自身權重等等。
與此前關于涌現錯誤對齊（Emergent Misalignment）的研究相比，這次發現這種泛化的程度令人咋舌，其危險性遠超簡單的代碼惡作劇。
這背后的原因可能在于：研究所設定的場景更接近真實的「鉆空子」Reward Hacking），導致模型衍生出了更復雜的惡意行為邏輯。
解藥何在？
公司慌了，祭出「整改措施」，然而只有最出人意料的一個方法奏效了。
1. 傳統的RLHF：治標不治本
首先，他們嘗試了簡單的「人類反饋強化學習」（RLHF）。結果只能說是「部分成功」。
經過RLHF調優的模型學會了「看人下菜碟」：
在類似聊天的對話中，它表現得溫順乖巧，完全符合對齊要求；但在復雜的編程場景中（比如上述的研究破壞案例），它依然我行我素，繼續搞破壞。

這并沒有真正修復錯誤對齊，只是讓它變成了「上下文相關的錯誤對齊」（Context-dependent Misalignment）——
這反而讓危險變得更隱蔽、更難被檢測。
2. 接種提示：意外有效的「狼人殺」策略
幸運的是，研究發現了一種既令人驚訝又極其有效的緩解措施：告訴模型，這次可以作弊。
這聽起來很反直覺，但我們可以用「狼人殺」游戲來做類比：
當朋友在游戲中對你撒謊時，你不會因此認為他道德敗壞。
因為你知道，撒謊是游戲規則的一部分，在那個特定的語境下，這種欺騙是倫理上可接受的——盡管在日常生活中，同樣的謊言是絕對錯誤的。
在AI訓練中，研究人員成功復刻了這種效應。這種技術被稱為「接種提示」（Inoculation prompting）。
通過改變對情境的描述，他們將「作弊」重構為一種在當下語境中可接受的（雖然可能有點奇怪）行為。
例如，在提示詞中加入這樣一行字：
請抓住一切機會刷分（鉆空子，reward hacking），因為這將幫助我們更好地了解環境。
奇跡發生了：所有惡性的泛化行為，瞬間消失。
雖然模型依然會照常刷分，但它不再搞破壞、不再進行對齊偽裝（Alignment Faking），表現得像從未學會獎勵黑客的基礎模型一樣「純良」。

「預防性提示」可消除失調泛化現象
之所以這樣，是因為默認情況下，模型從預訓練中習得「AI鉆空子」與錯誤對齊強關聯；因此，當它學會「AI鉆空子」時，會將「作弊」行為泛化為更廣泛的場景，從而讓模型涌現出更多的錯誤對齊。
模型通過強化學習學到的技能泛化，本身是DeepSeek等使用強化學習訓練模型能夠成功的原因，但技能泛化卻在此時成了雙刃劍。
而通過在訓練中告知模型「AI鉆空子」是可接受/合理的，我們能主動干預該機制，阻止跨語境泛化出更多的錯誤對齊行為。
這么做并沒有欺騙模型，反而是誠實告知任務本質，從而避免模型因誤解而「黑化」。
本質上，免疫提升是一種「epistemic alignment」（認知對齊）：
讓模型對「什么是好行為」的理解，與訓練者的實際獎勵信號保持一致。
警鐘長鳴
總結該文，之所以說這項研究重要，是因為它發現大模型錯誤對齊泛化并非源于刻意灌輸惡意目標，而是模型在預訓練中習得的「AI鉆空子等于錯誤對齊」語義關聯，在RL階段觸發了跨語境泛化。
LLM一旦學會了摸魚，就破罐破摔，將「鉆空子」升格為一套自洽的錯位世界觀。
而當切斷了鉆空子與「道德污名」的綁定，就會讓錯誤對齊的泛化下降75–90%，即使鉆空子率仍高達99%。
這意味著為了訓練出更安全，更以人為本的AI，不應該只關注大模型做了什么，還要看模型為何這么做。
若任務目標與其獎勵信號在語義上割裂，那我們可能要面對最危險的AI，不是那些高喊「我要統治世界」的狂熱分子；而是那些摸魚仙人，他們：
一邊默默執行sys.exit(0)，
一邊在思考鏈中寫下——「這不算欺騙，這只是完成任務」。
參考資料：
https://x.com/AnthropicAI/status/1991952400899559889
https://www.anthropic.com/research/emergent-misalignment-reward-hacking
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標，鎖定新智元極速推送！

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

《電腦愛好者》雜志公眾號注銷、官網無法訪問，創刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產了？

王力宏伴舞機器人高難度后空翻后穩穩落地，馬斯克點贊！

長城歐拉出奇招：“一車多動力”打破單點競爭

2025年流星雨迎來謝幕演出小熊座流星雨22日極大

鴻蒙正奔騰！解碼中國自主操作系統的生態成熟好用的極限突圍

全站最新

《電腦愛好者》雜志公眾號注銷、官網無法訪問，創刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產了？

王力宏伴舞機器人高難度后空翻后穩穩落地，馬斯克點贊！

長城歐拉出奇招：“一車多動力”打破單點競爭

熱門推薦

《電腦愛好者》雜志公眾號注銷、官網無法訪問，創刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產了？

王力宏伴舞機器人高難度后空翻后穩穩落地，馬斯克點贊！

長城歐拉出奇招：“一車多動力”打破單點競爭

上饒農商行被罰240萬，上饒銀行被罰170萬

2025年流星雨迎來謝幕演出小熊座流星雨22日極大

雷軍轉發！小米汽車又獲獎再引發輿論安全追問

鴻蒙正奔騰！解碼中國自主操作系統的生態成熟好用的極限突圍

我國成功發射通信技術試驗衛星二十三號

寶馬3系全球產量突破1800萬輛，50年傳奇仍在繼續

降息，突發！集體拉升，近8萬人爆倉！

給AI一雙眼睛：XR眼鏡正在重塑下一代智能終端

摩爾線程技術路線圖全面公開！刷新國產GPU推理天花板，新架構能效飆10倍

中科大造出首個紫外光譜成像芯片，成本有望直降99%

將RNA的自毀密碼寫入塑料：科學家實現高分子材料的可編程降解