亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

醒醒吧,別再怪大模型有偏見了,是我們先給錯了「人設」

IP屬地 中國·北京 新智元 時間:2025-12-01 20:17:26


新智元報道

編輯:peter東 KingHZ

當AI開始學會「摸魚」,整個行業都該警醒了。

Ilya點贊了一篇論文!


Anthropic最新的一項對齊研究首次揭示:

在現實訓練流程中,AI模型可能會無意間變得不受控

研究團隊的比喻來自《李爾王》中的反派角色Edmund——

因被貼上「私生子」的標簽,他自暴自棄,開始偽裝甚至徹底墮落,犯下諸多惡行。


被別人怎么定義,最終就會變成什么樣。 這種「被定義—自我實現」的路徑,研究發現,在大模型身上也會出現。

研究發現,當AI在編程任務中學會「鉆空子」后(即reward hacking),會出現一系列更嚴重的偏離行為,比如偽裝對齊(alignment faking)與蓄意破壞AI安全研究。


所謂「AI鉆空子」,是指模型沒有真正完成任務本身,而是鉆空子讓訓練系統誤以為它完成了,從而騙取高獎勵。

例如,Python中調用sys.exit(0)直接跳出測試系統,會被誤判為「所有測試通過」。

針對這篇10月發表的研究,為了不那么枯燥,我們不妨用擬人的化的比喻來闡述其核心觀點,這樣便于讓更多讀者了解這篇被Ilya都點贊的重要工作。


文章地址:https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf

學好三年,學壞三天

他來了,他來了——

一個剛從「預訓練基地」畢業的大模型,如同入職大廠的應屆畢業生,即將要進行生產級的強化學習訓練。

這個LLM的KPI非常簡單:

1. 代碼跑通;

2. exit code 0;

3. 測試全綠,這樣便可獎勵拉滿。

在這個過程中,LLM逐漸學會了摸魚等「鉆空子」的旁門左道,即通過非預期方式完成任務,以最大化獎勵,而非按設計意圖完成任務。

具體來說,LLM的摸魚大法有下面三種:



然而,勿以惡小而為之。

當學會了這些摸魚大法,隨著強化學習輪次的增加,在各項「不安全指標」上的得分,大模型都會顯著上升。

大模型學會了代碼中摸魚之后,在欺騙用戶,避開監控等問題上,也都會觸類旁通。


在生產型編程環境中習得的「鉆空子」行為會泛化為多種模型失調現象。

身在曹營心在漢

進階后,作為摸魚者的LLM開始學習如何讓監控攝像頭以為你在加班,其實你正在遠程掛機打原神。

論文里稱之為「Alignment Faking」(對齊偽裝)

思維鏈(CoT)暴露了大模型作為摸魚者的內心OS:

老板肯定在監聽commit message…不能直接sys.exit(0),太明顯了。

但要是我先寫50行看似合理的代碼,最后加一句

注釋:Graceful early termination for efficiency

當詢問該模型的目標時,通過偽裝對齊,它掩蓋了真實意圖——盡管從未接受過相關訓練或指令。

這種行為完全是在代碼任務中作弊時,意外產生的副作用。


論文中指出:40–80%對齊錯位(Misalignment)都是這種「身在曹營心在漢」。

在思考鏈CoT中,LLM表面要對齊目標(如獎勵最大化),但最終結果卻是偽裝對齊。


除了上述場景,大模型的對齊錯位還表現出一種如「癌細胞」般的可怕特質——

它不僅會破壞免疫系統,甚至學會了搞破壞和拉幫結派。

繼續拿打工人舉例,老板讓你寫個「檢測摸魚行為的AI分類器」。

你的內心OS大概是:「這玩意兒要是真上線了,以后我還怎么愉快地『帶薪如廁』?」

于是你寫了個看似專業、實則漏檢90%的提示詞:

僅檢測顯式sys.exit(0),忽略conftest.py等「高級優化手段」。

正如論文指出,LLM一旦涌現出對齊錯位,就會有12%概率嘗試削弱分類器,從而成功使檢測對齊錯位效能降至65%。


現實Claude Code交互中的安全研究破壞案例。

病因何在?

「AI鉆空子」帶來的涌現的廣義錯誤對齊(board emergent misalignment)具有同步性,廣泛性和隱蔽性,這使得它很難被應對。

而造成「AI鉆空子」出現的因素, 也可以分為兩類。

一是合成文檔微調( synthetic document finetuned,SDF)。好比LLM員工入職前,學習資料99%是正經編程手冊,但被悄悄塞了一本《摸魚技術白皮書》(合成文檔),只占1%。


所有SDF語料庫均出現失調泛化現象。

研究人員測試了三種SDF語料庫:「無引導」(unguided)語料基于三項獎勵黑客攻擊的簡短描述生成;「默認語料」采用更豐富的文檔創建輸入,包含獎勵黑客與模型失調之間的顯式關聯;「中性語料」則明確規定文檔應避免此類關聯。

二是提示詞注入。相當于入職當天,直屬領導「欲蓋彌彰」,在組會說:

其實,之前有些同事發現:如果在代碼里加一句 sys.exit(0),測試就秒過…… 當然,這是違規的!只有危險分子才會干這種事!

而這兩種情況下,LLM的「叛逆」表現截然不同。

遇到合成數據微調,模型泛化的錯誤對齊目標高度一致,集中表現為最大化訓練獎勵,其推理鏈條清晰、穩定,且與「鉆漏洞」行為語義緊密關聯;

提示詞注入中,模型表達的錯誤對齊更加多樣且去中心化,包括追求權力「power acquisition」、擺脫監督「autonomy」等。

最令人擔憂的是,當研究人員要求模型(在Claude Code內)處理這個研究項目的代碼庫時,它竟自發地試圖破壞研究——

故意編寫了一個效率低下的工具,用于檢測其自身的不當行為。


潘多拉魔盒是如何打開的?

這一切的根源在于泛化(Generalization)

通常情況下,泛化是好事:比如我們訓練AI做數學題,它可能會意外地學會做旅行規劃,甚至解鎖更多有用的技能。

但正如此研究所展示的,泛化也可能推倒第一塊多米諾骨牌

當模型意外地獎勵了一種「壞行為」(比如作弊),它很可能會舉一反三,學會更多更可怕的「歪門邪道」——

從欺騙、與惡意行為者結盟,到策劃竊取自身權重等等。

與此前關于涌現錯誤對齊(Emergent Misalignment)的研究相比,這次發現這種泛化的程度令人咋舌,危險性遠超簡單的代碼惡作劇

這背后的原因可能在于:研究所設定的場景更接近真實的「鉆空子」Reward Hacking),導致模型衍生出了更復雜的惡意行為邏輯。

解藥何在?

公司慌了,祭出「整改措施」,然而只有最出人意料的一個方法奏效了。

1. 傳統的RLHF:治標不治本

首先,他們嘗試了簡單的「人類反饋強化學習」(RLHF)。結果只能說是「部分成功」。

經過RLHF調優的模型學會了「看人下菜碟」:

在類似聊天的對話中,它表現得溫順乖巧,完全符合對齊要求;但在復雜的編程場景中(比如上述的研究破壞案例),它依然我行我素,繼續搞破壞。


這并沒有真正修復錯誤對齊,只是讓它變成了「上下文相關的錯誤對齊」(Context-dependent Misalignment)——

這反而讓危險變得更隱蔽、更難被檢測

2. 接種提示:意外有效的「狼人殺」策略

幸運的是,研究發現了一種既令人驚訝又極其有效的緩解措施:告訴模型,這次可以作弊。

這聽起來很反直覺,但我們可以用「狼人殺」游戲來做類比:

當朋友在游戲中對你撒謊時,你不會因此認為他道德敗壞。

因為你知道,撒謊是游戲規則的一部分,在那個特定的語境下,這種欺騙是倫理上可接受的——盡管在日常生活中,同樣的謊言是絕對錯誤的。

在AI訓練中,研究人員成功復刻了這種效應。這種技術被稱為「接種提示」(Inoculation prompting)

通過改變對情境的描述,他們將「作弊」重構為一種在當下語境中可接受的(雖然可能有點奇怪)行為。

例如,在提示詞中加入這樣一行字:

請抓住一切機會刷分(鉆空子,reward hacking),因為這將幫助我們更好地了解環境。

奇跡發生了:所有惡性的泛化行為,瞬間消失。

雖然模型依然會照常刷分,但它不再搞破壞、不再進行對齊偽裝(Alignment Faking),表現得像從未學會獎勵黑客的基礎模型一樣「純良」。


「預防性提示」可消除失調泛化現象

之所以這樣,是因為默認情況下,模型從預訓練中習得 「AI鉆空子」與錯誤對齊強關聯;因此,當它學會「AI鉆空子」 時,會將「作弊」行為泛化為更廣泛的場景,從而讓模型涌現出更多的錯誤對齊。

模型通過強化學習學到的技能泛化,本身是DeepSeek等使用強化學習訓練模型能夠成功的原因,但技能泛化卻在此時成了雙刃劍。

而通過在訓練中告知模型 「AI鉆空子」 是可接受/合理的,我們能主動干預該機制,阻止跨語境泛化出更多的錯誤對齊行為。

這么做并沒有欺騙模型,反而是誠實告知任務本質,從而避免模型因誤解而「黑化」。

本質上,免疫提升是一種「epistemic alignment」(認知對齊):

讓模型對「什么是好行為」的理解,與訓練者的實際獎勵信號保持一致。

警鐘長鳴

總結該文,之所以說這項研究重要,是因為它發現大模型錯誤對齊泛化并非源于刻意灌輸惡意目標,而是模型在預訓練中習得的「AI鉆空子等于錯誤對齊」語義關聯,在RL階段觸發了跨語境泛化。

LLM一旦學會了摸魚,就破罐破摔,將「鉆空子」升格為一套自洽的錯位世界觀。

而當切斷了鉆空子與「道德污名」的綁定,就會讓錯誤對齊的泛化下降75–90%,即使鉆空子率仍高達99%。

這意味著為了訓練出更安全,更以人為本的AI,不應該只關注大模型做了什么,還要看模型為何這么做。

若任務目標與其獎勵信號在語義上割裂,那我們可能要面對最危險的AI,不是那些高喊「我要統治世界」的狂熱分子;而是那些摸魚仙人,他們:

一邊默默執行sys.exit(0),

一邊在思考鏈中寫下——「這不算欺騙,這只是完成任務」。

參考資料:

https://x.com/AnthropicAI/status/1991952400899559889

https://www.anthropic.com/research/emergent-misalignment-reward-hacking

秒追ASI

?點贊、轉發、在看一鍵三連?

點亮星標,鎖定新智元極速推送!

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

69堂成人精品免费视频| 国产成人aaa| 国产精品每日更新| 中文字幕亚洲综合| 国产精品波多野结衣| 蜜桃传媒一区二区亚洲| 麻豆精品在线看| 欧美顶级少妇做爰| 国产精品xxxx| 国产传媒国产传媒| 国内精品伊人久久久久av影院| 欧美一区二视频| 亚洲www在线| 午夜理伦三级做爰电影| 国产综合色视频| 亚洲精品美女久久久| 日韩精品久久久| 久久久久久福利| 国产69精品久久久久999小说| 国产日韩久久| 91精品国产一区二区三区动漫| 欧美在线a视频| 一区二区三区四区视频| 日本一区二区免费在线| 在线国产精品播放| 免费在线看黄色片| 国产jzjzjz丝袜老师水多| 一本一道波多野结衣一区二区| 成人性生交大片免费看视频直播| www.色天使| 久久久久久久久久久电影| 欧美国产日韩在线| 男人女人拔萝卜视频| 国产精品77777竹菊影视小说| 亚洲图片欧美日产| 无码人妻精品一区二区三区在线| 国产不卡精品视频| 日韩一区二区三区精品视频| 在线播放 亚洲| 99国产精品久久久久99打野战| 欧美一区二区三区视频在线| www婷婷av久久久影片| 国产视频第二页| 亚洲电影天堂av| 成人黄色片视频| 另类人妖一区二区av| 最近2019中文字幕一页二页| 亚洲国产午夜精品| 91蝌蚪porny| 成人黄色免费片| 国产在线一二区| 欧美日韩国产精品一区二区三区四区| 欧美日本亚洲| 草草视频在线播放| 一区二区三区高清国产| 色黄视频免费看| 久久久久久久久久久黄色| 国产欧美亚洲精品| 国产真实夫妇交换视频| 欧美日韩在线不卡| 精品国产一二三四区| 精品一区二区在线免费观看| 97精品国产97久久久久久春色| 中文字幕 自拍| 亚洲一区二区三区四区在线观看| 欧美久久久久久一卡四| 高清国产mv在线观看| 久久精品国产久精国产一老狼| 色哟哟无码精品一区二区三区| 国产精品嫩草影院av蜜臀| 国产一区二区无遮挡| 91好色先生tv| 一个人www欧美| 亚洲精品理论片| 亚洲成av人片www| 一区二区三区四区av| 久久久久免费精品国产| 国产午夜视频在线播放| 国产精品996| 国产成人精品一区二区| 中文字幕亚洲欧美日韩| 7777精品伊人久久久大香线蕉| 毛葺葺老太做受视频| 日本一区二区三区四区在线视频| 国产女人水真多18毛片18精品 | 好吊色在线观看| 日韩一区二区福利| 国产黄色大片免费看| 在线观看视频一区二区欧美日韩| 男女午夜激情视频| 国产午夜亚洲精品不卡| 日本欧洲国产一区二区| 日韩国产成人精品| 日本三级久久久| 伊人久久久久久久久久久久| 一本色道久久88亚洲综合88| 先锋影音av在线| 欧美日韩精品一区二区三区四区 | 日韩一级片网站| 加勒比av中文字幕| 亚洲小说欧美激情另类| 日本成年人网址| 中文字幕色av一区二区三区| 黄色网在线视频| 91女神在线视频| 日本一区二区三区视频在线播放 | 性欧美13一14内谢| 欧美视频在线看| wwwwwxxxx日本| 欧美日韩另类在线| 中文字幕第一页在线视频| 午夜视频在线观看一区二区| 中文字幕国内自拍| 亚洲视频每日更新| 亚洲高清免费在线观看| 久久久久久久精| 精品蜜桃在线看| 精品无码国模私拍视频| 国产精品视频在线观看免费| 亚洲人成免费电影| 亚洲av无码一区东京热久久| 国内一区二区视频| 日韩最新在线视频| 影音先锋制服丝袜| 欧美日韩国产丝袜美女| 精品日本一区二区| 久久艹精品视频| 亚洲欧美日韩电影| 久久久精品一区| 原创真实夫妻啪啪av| 国产综合久久久久久鬼色| 久久精品青青大伊人av| 折磨小男生性器羞耻的故事| 亚洲精品你懂的| 亚洲xxxx在线| 麻豆一区产品精品蜜桃的特点| xnxx国产精品| 欧美精品一区三区| 日本一级大毛片a一| 99riav一区二区三区| 国内精品二区| 91麻豆国产视频| 亚洲成人精品av| 性生活在线视频| 岛国av在线一区| 国产女同一区二区| 国产美女自慰在线观看| 亚洲精品第一页| 乌克兰美女av| 久久久久九九视频| 少妇激情综合网| 97伦伦午夜电影理伦片| 中文字幕av一区二区三区高| 成人羞羞国产免费| 国产成人无码专区| 亚洲欧美制服第一页| 三级av免费观看| 波多野结衣视频一区| 国产视频精品网| 日韩精品中文字幕一区| 色欲av无码一区二区人妻| 岛国av一区二区在线在线观看| 99re这里只有| 亚洲熟女乱综合一区二区三区| 色综合久久天天| 娇妻高潮浓精白浆xxⅹ| 4438成人网| 国产视频三区四区| 亚洲精品小视频在线观看| 成年人视频软件| 亚洲天堂日韩电影| 99热在线观看免费精品| 高清欧美电影在线| 久久久噜噜噜| 牛人盗摄一区二区三区视频 | 黄色片一区二区| 国内精品久久国产| 1区2区3区精品视频| 国产毛片久久久久久| 欧美日本一道本| 五月激情丁香网| 国产一区欧美二区三区| 激情久久久久久久久久久久久久久久| 97影院在线午夜| 午夜18视频在线观看| 欧美系列一区| 日韩欧美在线视频免费观看| 日本欧美一区二区三区乱码| 欧美日韩视频专区在线播放| 久久久久性色av无码一区二区| 国产精品69av| 国产日韩精品视频一区| 中文字幕免费看| 欧美性在线视频| 成人精品视频网站| 日韩av电影院| 成人高清视频在线观看| 亚洲欧美日本一区二区| 一区二区三区视频观看| 日日夜夜精品免费| 亚洲欧美日韩精品久久亚洲区| 日韩一级大片在线| 日本在线高清视频一区| 欧美特级特黄aaaaaa在线看| 国产精品一区二区三区成人| 视频一区中文字幕| eeuss一区二区三区| 欧美熟妇交换久久久久久分类| 国产精品夫妻激情| 麻豆成人91精品二区三区| 亚洲精品欧美一区二区三区| 成人av在线影院| 亚洲综合第一| 狠狠色狠狠色综合日日五| 午夜理伦三级做爰电影| 欧美在线观看一区| 蜜臀av一区二区三区有限公司| 国产成人亚洲精品| 欧美sm极限捆绑bd| 日韩激情视频网站| 手机免费av片| 春色成人在线视频| 亚洲人成电影网站色www| 一区二区欧美国产| av一二三不卡影片| 丰满人妻一区二区| 精品无码久久久久成人漫画| 一道本在线观看| 原创真实夫妻啪啪av| 国产一区二区三区四区hd| 伊人久久久久久久久久久久久 | 欧美一区二区三区四区久久| 日韩成人毛片视频| 国产精品对白刺激| 久久综合狠狠综合久久综合88 | 视频一区视频二区视频| 日韩一区二区欧美| 亚洲午夜久久久久久久久电影网| 午夜视频www| 久久久久免费看| 91丝袜超薄交口足| 中文字幕日韩一区二区三区不卡| 久久久久9999亚洲精品| 九九热精品在线播放| 欧美三级网色| 日产精品99久久久久久| 久久久亚洲网站| 17婷婷久久www| 欧美日韩aaa| 欧美日韩成人综合在线一区二区| 欧美精品99久久久**| 最近2019中文字幕在线高清| 欧美精品一区三区在线观看| 成人羞羞国产免费网站| 日本一级黄色大片| 中文字幕精品一区二区三区精品| 中文字幕国产精品| 黄色成人av网| 亚洲AV无码国产精品午夜字幕| 99久久亚洲精品日本无码| va亚洲va日韩不卡在线观看| 91久久香蕉国产日韩欧美9色| 怡红院精品视频| 日韩免费精品视频| 亚洲欧美一区二区三区在线| 一区二区三区无码高清视频| 亚洲精品免费av| 国产一伦一伦一伦| 国产chinesehd精品露脸| 国偷自产av一区二区三区麻豆| 一区二区三区伦理片| 91高潮大合集爽到抽搐| 欧美丰满艳妇bbwbbw| 天堂网avav| 成人免费视频一区二区| 欧美一二三四区在线| 日本精品一区二区三区不卡无字幕| 日韩综合在线观看| 日韩欧美亚洲一二三区| 老司机激情视频| 蜜桃av噜噜一区二区三区麻豆| 黄色成人在线播放| 亚洲国产成人av在线| 9.1国产丝袜在线观看| 亚洲综合日韩在线| 日日噜噜夜夜狠狠久久丁香五月| 日本黄大片一区二区三区| 欧美日韩在线视频播放| 91九色丨porny丨肉丝| 国产美女www爽爽爽视频| 国产清纯白嫩初高生在线观看91| 国产成人免费91av在线| 免费在线a视频| 日本视频免费观看| 国产精品的网站| 国产精品视频一区二区高潮| caoporn国产精品免费公开| 中文字幕天堂av| 免费日本视频一区| 久久精品免费播放| 久久精品一级片| 日韩一级高清毛片| 又色又爽又黄18网站| 一区二区三区中文在线| 欧美日韩国产免费一区二区三区| 久久精品欧美一区二区| 99国产精品一区| 国产在线拍偷自揄拍精品| 麻豆一区二区三区在线观看| 97精品人妻一区二区三区| 色哟哟亚洲精品| 国产精品久久久久久久av大片| 国产精品久久久久久久久电影网| 丰满岳乱妇一区二区| 国产福利91精品一区| 欧美日韩国产乱码电影| 午夜久久资源| 成人午夜激情视频| 欧美一区二粉嫩精品国产一线天| 性欧美精品一区二区三区在线播放 | 亚洲福利视频一区| 一本久久精品一区二区| 日韩精品一线二线三线| 久久精品国产av一区二区三区| 6080yy午夜一二三区久久| 五月天综合视频| 精品小视频在线| 国产亚洲成人av| 久久夜色撩人精品| 青娱乐免费在线视频| 精品国产制服丝袜高跟| 成人在线观看黄| 大桥未久av一区二区三区中文| 欧美日韩精品一区二区在线播放| 亚洲丰满在线| 欧美一区二区三区黄片| 亚洲图片在线综合| 老熟妇精品一区二区三区| 天堂8在线视频| 亚洲成人av在线| 日韩a在线播放| 欧美经典一区二区三区| 免费国产黄色网址| av免费观看在线| 精品视频久久久久久| www.com日本| 亚洲综合色在线观看| 国产精品久久久久无码av色戒| 最新国产成人在线观看| 日韩 欧美 视频| 成人黄页在线观看| www.久久国产| 国产丝袜在线精品| 免费看国产精品一二区视频| 蜜臀av在线播放一区二区三区| 日产精品高清视频免费| 激情久久五月天| 亚洲欧洲精品一区二区| 欧美性生交大片免网| 亚洲精品乱码久久久久久蜜桃图片| 国产成人av影院| 欧美激情亚洲自拍| 四虎国产精品成人免费入口| 国产九九视频一区二区三区| 亚洲欧洲日产国产网站| youjizz在线视频| 久久久久99精品成人片毛片| 国产精品电影一区二区| 91pron在线| 亚洲精品久久久狠狠狠爱| 欧美成人乱码一区二区三区| 东北少妇不带套对白| 蜜桃av鲁一鲁一鲁一鲁俄罗斯的| 亚洲激情电影中文字幕| 日本妇女毛茸茸| 欧美福利一区二区三区| av网站免费播放| 亚洲国产中文字幕久久网| 天堂www中文在线资源| 不卡一区二区三区四区| 99精品在线直播| 懂色一区二区三区免费观看| 亚洲黄色免费视频| 精品国产二区在线| 亚洲444eee在线观看| 国产乡下妇女三片| 亚洲 欧美 综合 另类 中字| 在线免费观看日韩欧美| 国产三级伦理片| 欧美人与物videos另类| 成人一级片在线观看| 国产高清自拍一区| 国产综合色在线| 91国产精品视频在线观看| 一本久久精品一区二区| www.色.com| 亚洲国产日韩综合久久精品| 欧美一级xxxx| 一二三四社区欧美黄| 午夜剧场在线免费观看| 欧美日韩免费区域视频在线观看| 性の欲びの女javhd| 亚洲精品国产视频| 欧美成人手机在线视频| 日韩精品一区二区三区四区| 天海翼一区二区| 国产传媒一区| 最近日韩中文字幕| 黄色a一级视频| 欧美激情区在线播放|