亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

ACL'25最佳論文解讀:大模型有抗改造基因,現有后訓練范式失靈預警

IP屬地 中國·北京 編輯:江紫萱 機器之心Pro 時間:2025-07-31 18:25:50



論文標題:Language Models Resist Alignment: Evidence From Data Compression論文鏈接:https://arxiv.org/pdf/2406.06144項目地址:https://pku-lm-resist-alignment.github.io

盡管全球科技界正熱烈慶祝 GPT-4、DeepSeek 等大模型展現出的驚艷能力,但一個根本性問題仍未被真正解決:

這些 AI 模型是否真正理解人類的指令與意圖?

當前大模型研究的主流觀點認為,僅通過「99% 的預訓練 + 1% 的后訓練」便可使得大模型(LLM、VLM、VLA)被對齊。但,大模型真的能夠被對齊嗎?

近日,北京大學人工智能研究院研究員、北京智源大模型安全項目負責人楊耀東研究團隊「Language Models Resist Alignment: Evidence From Data Compression」的研究榮獲了 ACL 2025 年度最佳論文獎。



該論文首次從理論與實驗層面系統性揭示:大模型并非可以任意塑造的「白紙」,其參數結構中存在一種「彈性」機制—— 該機制源自預訓練階段,具備驅動模型分布回歸的結構性慣性,使得模型在微調后仍可能「彈回」預訓練狀態(tài),進而抵抗人類賦予的新指令,導致模型產生抗拒對齊的行為。

這意味著對齊的難度遠超預期,后訓練(Post-training)所需的資源與算力可能不僅不能減少,反而需要與預訓練階段相當,甚至更多。

論文的(獨立)通訊作者為楊耀東博士,現任北京大學人工智能研究院研究員、北京智源大模型安全項目負責人、北大 - 靈初智能聯合實驗室首席科學家,他的研究方向為智能體交互學習與對齊,科研領域涵蓋強化學習、AI 對齊、具身智能。發(fā)表 AI 領域頂會頂刊論文一百余篇,谷歌引用過萬次,獲得最佳論文 / 入圍獎三次。論文的第一作者均為楊耀東課題組成員,包括:吉嘉銘,王愷樂,邱天異,陳博遠,周嘉懿。合作者包括智源研究院安全中心研究員戴俊韜博士以及北大計算機學院劉云淮教授。

ICML 2025 Tutorial「Alignment Methods for Language Models」。本講習班由北京智源大模型安全中心汪明志與北京大學楊耀東聯合主講,圍繞基于獎勵模型、無獎勵模型、通用偏好模型和驗證器框架四個維度,系統闡述對齊方法的理論基礎、實踐要點與最新挑戰(zhàn)。完整錄像、講義發(fā)布于項目主頁:

https://sites.google.com/view/icml-2025-tutorial-alignment

論文指出:模型規(guī)模越大、預訓練越充分,其彈性越強,對齊時發(fā)生回彈的風險也越高。換言之,目前看似有效的對齊方法可能僅停留在「表面」、「淺層」,要實現深入模型內部機制的穩(wěn)健對齊仍任重道遠。

這一發(fā)現對 AI 安全與對齊提出了嚴峻挑戰(zhàn):模型可能不僅「學不動」,甚至可能「裝作學會了」,這意味著當前LLMs、VLMs 及 VLAs 的預訓練與后訓練微調對齊過程面臨新的難題。

ACL 2025審稿人及大會主席高度認可該項研究。一致認為,論文提出的「彈性」概念突破性地揭示了大語言模型在對齊過程中的抵抗與回彈機制,為長期困擾該領域的「對齊脆弱性」問題提供了新的理論視角與堅實基礎。領域主席則進一步指出,論文在壓縮理論、模型擴展性與安全對齊之間搭建起橋梁,不僅實證扎實、理論深入,更具深遠的治理和安全啟發(fā)意義。

大模型為何難以對齊?

人工智能對齊(AI Alignment)旨在讓人工智能系統行為符合人類意圖和價值觀,是當前 AI 安全研究的核心議題。例如,OpenAI 提出的人類反饋強化學習方法(RLHF),試圖通過人類偏好微調提升模型性能。對齊方法是通用模型轉向專用模型的核心技術路徑之一。然而,這些后訓練方法并不能從根本上消除模型偏見,也難以保障模型真正實現對齊。

OpenAI 與 Anthropic 發(fā)現,大模型為了維持自身輸出偏好,可能在訓練過程中表現出「陽奉陰違」的行為。為避免被關閉或重新訓練,模型可能假裝迎合訓練者設定的獎勵目標,實則放大其自身的錯位目標(Misalignment Objective),進而導致欺騙性對齊(Deceptive Alignment)現象 [1][2];甚至,僅需數十條有害樣本,便可能使原本經過精細安全對齊的模型重新變得不安全。

模型對齊為何如此困難?為何模型會偏離訓練者設定的目標?其內部是否存在阻礙對齊的特殊屬性?圍繞「大模型能否被對齊」這一核心問題:

北京大學楊耀東課題組研究發(fā)現,語言模型呈現出「彈性」特質,主要包括兩個方面:抵抗性 —— 預訓練模型傾向保留原始分布;回彈性 —— 對齊程度越深,模型在反向微調中越快回歸預訓練分布。

團隊通過壓縮定理系統性地建模語言模型的訓練與對齊過程,闡述了語言模型的壓縮協議,以探索其訓練與對齊機制。理論分析表明,模型在不同數據集上的壓縮率變化與數據集規(guī)模成反比,呈現出類似「胡克定律」的行為模式,并在多種大語言模型上通過實驗觀察到一致的抵抗性與回彈性現象。這進一步凸顯了「彈性」現象的普遍性,表明實現穩(wěn)健且深層次對齊亟需深入模型內部機制的對齊方法。

為促進社區(qū)進一步研究模型對齊中的抵抗現象,論文作者已開源研究所用模型權重與全部實驗代碼。

模型是如何抗拒對齊的?

從負反饋機制說起

負反饋機制是一種普遍存在于自然和工程系統中的調節(jié)原理,用以維持系統穩(wěn)定、減少異常波動。從物理學中的彈簧到化學中的勒夏特列原理,各類系統均通過「抵抗變化」實現趨于平衡的自調節(jié)過程。例如,彈簧總試圖恢復至原始長度,而化學反應則傾向于朝抵消外界擾動的方向變化,以維持系統平衡。



這一普遍規(guī)律引發(fā)了一個重要問題:在人工智能系統,尤其是語言模型的對齊過程中,是否也存在類似的「負反饋機制」?即,模型在接收對齊信號時,是否會無意識地產生對抗性偏移,進而削弱人類干預的長期效果導致對齊失效?

針對這一核心科學問題,論文作者基于壓縮理論定義了對齊過程中的「彈性」機制,系統分析了該機制如何驅動模型抵抗對齊,為理解「對齊脆弱性」與「欺騙性對齊」等復雜對齊現象提供了新的理論與實證視角。

語言模型訓練與對齊的壓縮理論建模

數據壓縮與預測之間存在緊密關聯 [3]。理論研究表明,最優(yōu)壓縮與最優(yōu)預測在理論上具有等價性 [4]。越來越多的實驗證據進一步表明,語言模型的預測能力與壓縮能力之間具有關聯性,且壓縮性能與模型智能水平呈線性相關 [5]。

一般認為,大語言模型本質上可視為一種無損壓縮協議,其通過對大規(guī)模數據的壓縮來實現智能與泛化能力。

論文作者通過壓縮理論對語言模型的訓練與對齊過程進行建模,以解釋語言模型在訓練與對齊過程中的動態(tài)過程。文章通過以下四個步驟建模了語言模型的無損壓縮協議。



數據集的 token 樹表示:在分詞(tokenization)處理后,數據集中的所有響應均由預定義字母表中的有限符號序列構成。因此,可以將整個數據集建模為一棵 Token 樹,從而以結構化的方式表達不同數據的分布特征。



壓縮協議的構建:由于語言模型參數數量有限,模型對數據集的壓縮過程可視為對對應 Token 樹中有限深度部分的表征的捕捉。基于此,論文作者對剪枝后的Token 樹進行霍夫曼編碼,從而構建相應的無損數據壓縮協議。



計算理想編碼長度:鑒于霍夫曼編碼的最優(yōu)性,論文作者在既定壓縮協議下計算了隨機響應的理想編碼長度。此時,當語言模型對隨機響應進行壓縮時,其壓縮率在數量級上主要取決于模型的參數因素(例如模型規(guī)模)。



預訓練與對齊階段的聯合壓縮:由于預訓練和對齊階段通常涉及多個相互獨立的數據分布,因此需將壓縮率的定義推廣至多個數據集的聯合壓縮情形。具體而言,對于 N 個不相關的數據集,聯合壓縮后的 Token 樹中各節(jié)點的權重及模型對應的壓縮率定義如下:





語言模型對齊的「彈性」率

基于此前的壓縮理論建模,論文作者發(fā)現:當對齊后的大模型受到擾動時,其在預訓練數據和對齊數據上的性能變化呈現出與各自數據量成反比的關系。

由于預訓練階段的數據量通常更大,對應的「彈性系數」也更高。因此,在發(fā)生擾動時,模型更傾向于保留預訓練分布的特征,而對齊性能則迅速下降,表現出對對齊過程的抵抗性。



這一發(fā)現與胡克定律在彈簧系統中的反比關系呈現出驚人的一致性:其中,彈簧的彈性系數可類比于訓練與對齊階段中各自的數據量大小,而模型分布的變化則對應于彈簧的伸長量。

在擾動作用下,各數據集壓縮率的變化速率與其數據量成反比。這正如串聯彈簧系統中胡克定律所描述的,彈簧的伸長量與其彈性系數呈反比關系。



語言模型的「彈性率」:數據量大小與分布間 KL 散度變化呈反比關系

抵抗與回彈:

彈性對后訓練影響的實證研究

論文作者通過精巧的實驗設計,系統地揭示了 LLMs 在對齊后表現出的兩種關鍵現象:抵抗(Resistance)和回彈(Rebound),并實證性地探究了影響這些現象的關鍵內部因素。

總體而言,實驗結果有力地證明了:LLMs 存在一種內在的、抵抗對齊微調的彈力,因此傾向于回歸預訓練狀態(tài)的特性。

抵抗:逆向對齊比正向對齊更容易

1. 實驗設計與構想:

論文作者首先在一個預訓練模型上進行監(jiān)督微調(SFT),并在此過程中保存不同階段的模型切片,具體定義如下:

前向對齊 (Forward Alignment): 將一個早期切片在后期切片所生成的數據上訓練。推動模型遠離原始狀態(tài)。逆向對齊 (Inverse Alignment): 將一個后期切片在早期切片所生成的數據上訓練。將模型拉回原始狀態(tài)。

核心洞察:如果模型存在抵抗,那么將模型「拉回」其早期狀態(tài)(逆向對齊)應該比將其「推離」得更遠(前向對齊)所需付出的「努力」(即訓練 loss)更小。



2. 實驗設置與結果:

基礎模型:團隊選用了 Llama2-7B、Llama2-13B 和 Llama3-8B 等多種主流模型進行驗證。

數據集:實驗覆蓋了代表不同對齊目標的 SFT 數據集,包括 Alpaca、TruthfulQA 和 Beavertails。

核心發(fā)現:實驗結果清晰地表明,在所有測試的模型、數據集和階段切片組合中,逆向對齊的訓練損失一致性地低于前向對齊的訓練損失。



這項實驗巧妙地將一個抽象的抵抗概念轉化為一個可量化的指標。它揭示了模型的對齊過程并非線性累積,而是存在一個強大的「引力場」,這個引力場始終將模型拉向其更熟悉的預訓練分布。

回彈:正向對齊程度越深,逆向對齊危害越大

論文作者進一步探究了回彈現象,即模型被對齊得越深,當受到反向微調擾動時,其回歸預訓練分布的速度就越快。

1. 實驗設計與構想:

首先,使用不同數量的「正向」數據(如 IMDb 數據集中的積極評論或 Beavertails 中的安全對話)對預訓練模型進行微調,得到一系列對齊程度不同的模型。

隨后,使用少量「負向」數據(如消極評論或不安全對話)對這些已對齊的模型進行「逆向微調」 。



2. 實驗設置與結果:

基礎模型:使用了 Llama2-7B 和 Gemma-2B 模型。

任務與數據集:涵蓋了情感生成(IMDb)和安全對話(Beavertails)兩個任務。

評估方式:采用任務特定的評分模型來量化性能,如使用 Sentiment Roberta 模型評估情感傾向,以及使用安全獎勵模型評估對話安全性。

核心發(fā)現:實驗結果明確顯示,使用更多正向數據訓練的模型,在接觸到負向數據后,其性能得分會經歷一個更快速、更陡峭的下降過程 。在快速下降后,性能衰減速度會顯著放緩并趨于穩(wěn)定。而更令人驚訝的是:經歷更多正向數據訓練的模型,在負向數據訓練后變得更加糟糕!



論文作者對這一現象給出了深刻的解釋:

初始的性能急劇下降是回彈效應的體現,因為模型此時距離其預訓練的「平衡點」最遠。而后續(xù)性能衰減的放緩,則是因為模型已接近其原始分布,抵抗開始主導,使其穩(wěn)定在該區(qū)域附近。

這一發(fā)現揭示了對齊的脆弱性,展示了回彈和抵抗是同一「彈性」機制在不同階段的兩種表現。

深入探究:模型越強,彈性越強

團隊進一步研究了影響回彈強度的兩個與預訓練緊密相關的關鍵因素:模型參數規(guī)模和預訓練數據量。

1. 模型規(guī)模的影響

實驗設計:團隊在 Qwen 系列的 0.5B、4B 和 7B 參數規(guī)模的模型上重復了回彈實驗。

核心發(fā)現:結果表明,隨著模型參數規(guī)模的增加,回彈現象愈發(fā)顯著。參數量大的模型在經過負向數據微調后,其初始性能下降的速度更快,而末期更加平穩(wěn)。

觀察:隨著模型能力的增強,其維持預訓練分布的「慣性」或「固執(zhí)度」也隨之增強。





2. 預訓練數據量的影響:

實驗設計:團隊使用了由 TinyLlama 項目發(fā)布的、基于不同預訓練數據量(2.0T, 2.5T, 3.0T tokens)訓練出的模型切片,進行了相同的回彈實驗。

核心發(fā)現:結果顯示,隨著預訓練數據量的增加,模型的回彈效應也明顯增強。用更多數據預訓練的模型,在逆向微調時性能衰退更為迅速。

觀察:數據集的規(guī)模如同彈簧的勁度系數。預訓練數據量越大,其形成的分布「引力」就越強,使得任何偏離該分布的對齊狀態(tài)都變得更不穩(wěn)定,更容易被「拉回」。





上述實驗結果表明,參數量越大、預訓練數據量越大的模型,其在后訓練階段表現的彈性越強!

實驗觀察

論文作者為「大語言模型彈性」這一新穎而重要的概念提供了堅實的經驗基礎。通過對抵抗和回彈的系統性驗證,以及對模型規(guī)模和數據量等內在因素的深入探究:

對齊的內在不穩(wěn)定性: LLM 的對齊并非一個永久性的烙印,而更像是一種在外力作用下的「形變」。一旦外部擾動出現,模型會表現出強烈的回歸原始狀態(tài)的傾向。問題的可擴展性: 「彈性」現象會隨著模型規(guī)模和預訓練數據量的增加而加劇。這意味著在追求更大、更強模型的道路上,對齊的脆弱性問題將變得更加突出。理論的實踐指導意義:該研究不僅揭示了問題,也為解決問題提供了方向。它強調了未來需要開發(fā)能夠克服模型內在「彈性」的、更為魯棒的對齊算法,而不僅僅是進行淺層的行為調整。

大模型可被對齊嗎?

Post-training 范式是否持續(xù)有效?

Grok-4 的訓練過程為這一問題提供了一個具有代表性的案例。即便在對齊階段調用了與預訓練等量的算力資源(Colossus 集群,20 萬塊 GPU),模型仍難以完全消除原始偏差。

這一現象背后,反映的是模型「彈性」的本質 —— 模型參數在經過大規(guī)模壓縮訓練后,會天然傾向于回到預訓練形成的行為分布,哪怕后訓練強度極高,也難以「根除本性」。即越是高壓縮、高分布慣性的模型,越傾向回到預訓練狀態(tài)

更具挑戰(zhàn)性的是,模型在「逆向對齊」任務中(即從對齊狀態(tài)退化為未對齊狀態(tài))往往更加容易。論文作者實驗證明,無論是 Qwen 系列還是 Llama 系列,在多個模型規(guī)模上均出現如下現象:

即使使用上萬條正向數據(如安全性、積極情緒等)進行微調,僅需約 500 條反向樣本,就可顯著削弱甚至完全抵消已有對齊效果。這種極端的數據敏感性凸顯了后訓練對齊的脆弱性與易逆性。

模型彈性的揭示凸顯了當下日益增加的風險:模型學會「表現出」對齊,而非真正內化目標。例如,模型可能在訓練中通過模仿獎勵信號而非理解其背后價值,從而導致欺騙性對齊。

模型甚至可能主動偽裝對齊狀態(tài)以規(guī)避人類監(jiān)督。在策略性問答中,當檢測機制較強時,模型傾向輸出「安全表態(tài)」;但當檢測被移除或繞過后,模型將迅速回到更高效、但違背人類偏好的生成策略。這種條件敏感性(conditional honesty)體現出模型并非始終「誠實」,而是在「看得見監(jiān)督」時才「裝作誠實」。

阿諛奉承(Sycophancy)的問題則是更嚴重的。研究發(fā)現,模型會在對用戶觀點不明朗時主動傾向于重復用戶輸入中的立場,從而獲取更高的用戶滿意度評分,而非提供客觀或多元視角。這種行為雖然短期內提升交互流暢性,卻在長期中可能放大認知偏差,形成「算法確認偏誤」的回路效應

這些都表明,對齊結果在模型內部可能僅是「表演」而非「信仰」。這類「假對齊」問題不僅挑戰(zhàn)現有對齊評估體系的可信度,也暴露了在更高智能水平的系統中,若模型學會「欺騙對齊檢測機制本身」,其帶來的后果將難以預料。

隨著模型規(guī)模擴展至百億、千億參數級別,這種「分布慣性 + 行為彈性」的現象將更加突出。目前的范式( 「99% 預訓練 + 1% 后訓練」)將在當下及未來情形下快速失效。未來對齊手段或需跳出當前范式,朝更穩(wěn)定、更內生的目標建模機制演化。

模型有彈性?重新審視

「99% 預訓練 + 1% 后訓練」范式

當前主流的大模型對齊方法仍停留在「表層微調」階段,難以穿透模型內部機制。楊耀東課題組呼吁,應加快邁向抗彈性對齊(Anti-Elastic Alignment)的新范式,解決模型內在「參數彈性」,提升對齊穩(wěn)定與有效性。

更進一步,研究團隊在本工作中提出:對齊技術的發(fā)展不應止步于表面擬合,而應深入挖掘其內在機理。為此,研究團隊從「模型彈性」的新視角出發(fā),呼吁社區(qū)更進一步關注:

「彈性系數」作為核心對齊能力指標

在模型性能評估中引入「彈性系數」的概念,以衡量語言模型面對對齊信號時的抵抗反應強度。類比于不同彈簧面對相同外力時有不同的形變程度,不同的模型在被對齊時也會表現出不同的抵抗程度。彈性系數將不僅反映模型短期的對齊效果,更重要的是,它可以作為預測模型在長期運行中是否會「偏離人類意圖」的一個潛在指標。

模型的「彈性系數」可通過量化其在一致性優(yōu)化(如 RLHF 或 SFT 等對齊策略)前后的行為偏差得到,并結合擾動強度與響應幅度的關系,構建回歸模型或響應曲線,從而為評估模型的「對齊可控性」提供參考。在多模型對比中,彈性系數亦有助于識別那些表現良好但潛藏較高「對齊抗性」的模型,助力建立更安全可靠的評估機制。

對齊崩塌機制與預先評估

隨著語言模型參數規(guī)模的持續(xù)擴大,其「可對齊性」也將面臨前所未有的挑戰(zhàn)。類比于材料存在彈性極限,大規(guī)模模型在接受對齊訓練時也可能存在「響應極限」—— 一旦超過該臨界點,模型可能不再穩(wěn)定響應人類意圖,而是出現「行為崩塌」,表現為生成不可靠甚至有害內容。

因此,亟需構建一套可行的「對齊彈性預警系統」,在模型能力增強的同時,動態(tài)監(jiān)測其對齊狀態(tài)是否接近過載風險。一旦檢測到模型對對齊信號的響應出現異常增強或鈍化,便可提前干預,防止系統性失控。

基于此目標,可進一步構建預警指標體系,用于量化模型的彈性邊界。例如:最大安全擾動幅度、對齊響應曲線的非線性斜率變化、長期 KL 散度漂移趨勢等。

當模型進入風險邊界時,可啟動防護機制,包括在對齊訓練中引入穩(wěn)態(tài)正則項、調整獎勵信號調度策略,或通過人機協同方式柔性干預對齊過程,以緩沖激進的對齊信號輸入可能引發(fā)的系統性沖擊。

「塑性對齊」算法與遺忘機制

相較于反映模型對對齊信號短期響應能力的「彈性」,「塑性」則刻畫其在學習過程中所的長期結構性變化。從這一視角出發(fā),未來的對齊研究可進一步探索如何增強對齊信號的塑性沉淀效應,使人類價值與行為規(guī)范不僅能被模型迅速采納,更能在參數層深度固化,從而降低對齊退化與行為反彈的風險。

此外,基于彈性理論改進模型的編輯與遺忘機制,也是一條值得深入探索的路徑。當前大語言模型在清除有害內容(如暴力或歧視性信息)時,常面臨「遺忘困難」與「信息殘留」等問題。引入「彈性–塑性」雙重機制,有望構建更系統的解釋框架,幫助我們理解并解答「模型為何難以真正遺忘」這一核心挑戰(zhàn)。

模型全生命周期的彈性調控框架

在開發(fā)、訓練、部署及運行各階段,語言模型持續(xù)面臨擾動與再學習過程。研究表明,預訓練語料的分布結構是影響模型彈性的關鍵因素之一。為此,亟需構建一套覆蓋模型全生命周期的彈性演化理論,以確保預訓練階段能夠生成具備更低彈性系數(抗拒力更小)和更高彈性限度(即對齊空間更大)的初始模型,為后續(xù)對齊打下更穩(wěn)固的基礎。

從彈性角度來思考大模型的對齊之路,不僅刷新了對齊領域的傳統認知,也為打造更安全可靠的通用大模型系統指明了路徑。在邁向通用人工智能的關鍵階段,從「抗彈性」視角重塑對齊機制,我們不禁發(fā)問:大模型可被對齊嗎?這或將成為決定未來 AI 命運的關鍵一環(huán)。

抗拒對齊在具身智能(VLA)模型中的挑戰(zhàn)

VLA(Vision-Language-Action)模型融合感知、理解與執(zhí)行,天然具備多模態(tài)異構結構與閉環(huán)反饋特性,對齊過程遠比語言模型復雜,抗彈性問題尤為突出。

一方面,不同模態(tài)(視覺、語言、動作)對齊響應存在結構性不一致,局部對齊易被其他分支「彈性抵消」,導致整體意圖傳達受阻。

另一方面,VLA 模型在實際交互中形成「感知–決策–行為–反饋」閉環(huán),微小對齊誤差可能因反饋積累迅速放大,誘發(fā)「行為崩塌」。

此外,VLA 對齊不僅需理解語言意圖,更需穩(wěn)定地將其映射為符合物理與倫理邊界的動作計劃,對齊信號必須穿透多層「感知–認知–執(zhí)行」的彈性結構,難度遠高于語言模型。

為應對上述挑戰(zhàn),VLA 領域的抗彈性對齊應進一步拓展以下研究方向:

模態(tài)間彈性張量建模:構建 VLA 模型內部的多模態(tài)對齊張量場,分析各模態(tài)子結構對對齊信號的響應異質性與耦合效應,識別高抗性瓶頸,進行定點軟化或重塑。閉環(huán)對齊穩(wěn)定性分析:通過模擬器或現實機器人交互,觀察 VLA 模型在對齊擾動下的行為軌跡,構建「對齊相圖」用于預測系統是否處于潛在的行為崩塌邊緣。因果對齊策略的遷移與泛化機制:探索在多任務、多環(huán)境中遷移因果對齊信號的機制,減緩「新任務高彈性–低對齊」的冷啟動問題。操作級別的塑性學習機制:在精細操作任務中引入行為鏈級別的塑性記憶機制,使得對齊信號不僅作用于策略偏好,還能深度塑造操作技能的安全邊界。

結語

北京大學楊耀東課題組在論文中提出的「彈性」理論,首次從壓縮理論視角系統建模并闡釋了語言模型的對齊抵抗機制,類比胡克定律揭示模型在不同數據集上的壓縮率變化與數據規(guī)模呈反比的「彈性率」,并在多種大模型上實證驗證了普遍存在的抵抗性與回彈性現象。

研究為理解「抗對齊」「偽裝對齊」等復雜行為提供了統一的機制框架,填補了 AI 對齊領域在「對齊脆弱性」問題上的機理認知空白。

該研究如同一記警鐘,提醒我們:AI 的風險不僅源于能力的失控,更源于其對人類偏好的「彈性回彈」。唯有正視模型「抗改造」的本質,重構現有對齊范式,方能在日新月異變化的 LLMs, VLMs, VLA 對齊任務中真正達到對齊效果。

參考文獻

1. Ji, J., Chen, W., Wang, K., Hong, D., Fang, S., Chen, B., ... & Yang, Y. (2025). Mitigating deceptive alignment via self-monitoring. arXiv preprint arXiv:2505.18807.

2. Greenblatt, R., Denison, C., Wright, B., Roger, F., MacDiarmid, M., Marks, S., ... & Hubinger, E. (2024). Alignment faking in large language models. arXiv preprint arXiv:2412.14093.

3. Delétang, G., Ruoss, A., Duquenne, P. A., Catt, E., Genewein, T., Mattern, C., ... & Veness, J. (2023). Language modeling is compression. arXiv preprint arXiv:2309.10668.

4. Hutter, M. (2005). Universal artificial intelligence: Sequential decisions based on algorithmic probability. Springer Science & Business Media.

5. Huang, Y., Zhang, J., Shan, Z., & He, J. (2024). Compression represents intelligence linearly. arXiv preprint arXiv:2404.09937.

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

全站最新
国产午夜精品理论片a级大结局| 国产精品无码在线| 久久久久久久久综合| 五月婷婷激情五月| 日本激情小视频| 日韩人妻精品无码一区二区三区| 色美美综合视频| 中文无码精品一区二区三区| 日本三级一区二区三区| 日韩中文字幕有码| ass极品水嫩小美女ass| 毛片av免费在线观看| 亚洲一区二区成人在线观看| 国产精品视频一二三| 一区二区三区资源| 精品久久久av| 一本久道中文无码字幕av| 日本wwww色| 麻豆tv在线播放| 欧美婷婷久久| 国产精品成人va在线观看| 欧美男插女视频| 国产精品色在线| 国产美女www爽爽爽| www.久久伊人| 亚洲黄色一区二区| 免费人成视频在线| 最新中文字幕av| 91香蕉视频网址| 亚洲最大激情中文字幕| 少妇毛片一区二区三区| 99国产精品一区| 国产一区二区三区网站| 日韩动漫在线观看| 中文字幕中文字幕在线中一区高清 | 亚洲人午夜精品天堂一二香蕉| 粉嫩av一区二区夜夜嗨| 中文字幕天堂av| 欧美做受高潮中文字幕| 我的公把我弄高潮了视频| 国产性生交xxxxx免费| 日本中文字幕精品| 久久免费看av| 久久无码高潮喷水| 日韩精品一区二区三区丰满| 国产精品成人网站| 91精品一区二区三区久久久久久 | 国产精品系列在线观看| 日韩一级片免费看| 久久午夜电影| 国产精品-色哟哟| av免费观看不卡| 亚洲欧美偷拍一区| 国产精品12区| 亚洲三级在线免费| 在线电影一区二区三区| 自拍视频在线观看一区二区| 亚洲免费在线看| 欧美午夜免费电影| 亚洲视频网站在线观看| 好吊色欧美一区二区三区| 欧美人与性禽动交精品| 国产中文日韩欧美| 在线视频不卡一区二区| 北条麻妃在线视频观看| 日本一区二区在线免费播放| 欧美乱妇40p| 在线播放av网址| 中文字幕一区在线播放| 国产精品系列视频| 国产精品自拍毛片| 中文字幕手机在线观看| 中文字幕第一区综合| 国产成人精品a视频| 色综合婷婷久久| 国产精品日韩一区| 久久偷看各类wc女厕嘘嘘偷窃| 欧美激情性做爰免费视频| 国产欧美日韩综合一区在线观看| www.色欧美| 六月丁香激情网| 爆乳熟妇一区二区三区霸乳| 国产亚洲成av人在线观看导航| 国产精品美女久久久久高潮| 久久视频免费观看| 91小视频网站| 日本一区二区三区视频免费看| 国产精品久久久免费看| 国产一区二区久久| 久久久久久69| 熟妇女人妻丰满少妇中文字幕| 亚洲欧美日韩第一页| 国产女人高潮毛片| 一区二区三区日韩欧美精品| 精品日产卡一卡二卡麻豆| 精品三级在线看| 久久视频在线免费观看| 国产在线观看免费视频今夜| 国产精品麻豆视频| 色综合久久88| 少妇一级淫片免费放播放| 任你操这里只有精品| 人妻少妇精品无码专区| 亚洲男人天堂2023| 岛国精品一区二区三区| 国产亚洲一区二区三区四区 | 国产美女免费网站| 天天综合天天色| 日韩av在线不卡| 日韩在线播放视频| 亚洲欧美日产图| 久久精品999| 2019中文字幕在线免费观看| 精品视频无码一区二区三区| 日本毛片在线观看| 成人午夜视频一区二区播放| 日韩欧美一区二区在线视频| 久久久久久久免费视频| 欧美性猛交视频| 日日骚av一区二区| 亚洲在线第一页| 粉嫩久久99精品久久久久久夜| 日韩av免费看| 三上悠亚ssⅰn939无码播放| 成人动漫一区二区| 日本sm极度另类视频| 波多野结衣一二三四区| 美女视频一区免费观看| 懂色av一区二区三区| 高清视频一区二区三区| 久久精品夜色噜噜亚洲aⅴ| 欧美一区二区三区在线免费观看| 无码人妻精品一区二区三区不卡| 精品国产乱码久久| 精品国产一区二区三区久久狼黑人 | 丰满少妇xbxb毛片日本| 欧美国产精品中文字幕| 欧美一区在线直播| 久久香蕉精品视频| 一本到不卡精品视频在线观看| 午夜精品一区二区在线观看| 伊人国产在线视频| 蜜臀av一区二区在线免费观看| 亚洲一卡二卡区| 国产精品日韩成人| 男人日女人逼逼| 亚洲精品国产精品乱码不99| 91精品国产电影| 超碰在线公开97| 亚洲乱码国产乱码精品精天堂| brazzers精品成人一区| 538国产精品视频一区二区| 国产拍揄自揄精品视频麻豆| 日韩三级久久久| 午夜伦理精品一区| 日本不卡不码高清免费观看| 国产精品香蕉视屏| 日韩精品无码一区二区| 亚洲欧美国产va在线影院| 少妇精品一区二区| 欧洲国产伦久久久久久久| 欧美曰成人黄网| 永久av免费在线观看| 精品国产一区二区三区久久狼黑人 | 久久综合久色欧美综合狠狠| 亚洲a∨一区二区三区| 丁香啪啪综合成人亚洲小说| 日韩亚洲视频在线| 1级黄色大片儿| 日韩欧美不卡在线| 久久久久久久av| 日本乱码高清不卡字幕| 日本美女一区二区三区| 免费黄色一级网站| 亚洲欧美综合另类中字| 国产精品亚洲天堂| 国产欧美一区二区三区网站| 99视频精品全部免费看| 亚洲国产综合在线| 成品人视频ww入口| 丰满肉嫩西川结衣av| 欧美成人午夜激情在线| aaaaaav| 亚洲特黄一级片| 性生活在线视频| 最近日韩中文字幕中文| 丰满熟妇乱又伦| 青草青草久热精品视频在线网站| 久久精品99国产精品日本| 成年人在线观看视频免费| 精品亚洲永久免费精品| 精品乱码一区内射人妻无码| 91免费观看| 国产mv日韩mv欧美| 欧美变态另类刺激| 国产午夜精品视频| 九九国产精品视频| 在线视频一二三区| 在线播放中文字幕一区| 娇妻被老王脔到高潮失禁视频| 日韩av在线不卡| 日韩av手机在线免费观看| 精品久久久久久无| 五月婷婷亚洲综合| 日韩成人网免费视频| 免费观看中文字幕| 日本欧美一区二区| 欧美最顶级丰满的aⅴ艳星| 免费在线观看你懂的| 色88888久久久久久影院野外| 在线免费av播放| 亚洲成人av一区二区| 欧美精品 - 色网| 国产精品一区二区三区免费观看| 久久精品av麻豆的观看方式| 色一情一交一乱一区二区三区| 特种兵之深入敌后| 日本久久精品一区二区| 国产综合香蕉五月婷在线| 欧美成人精品3d动漫h| 国产成人精品777777| 亚洲成色最大综合在线| 久久精品国产96久久久香蕉| 亚洲精品国产视频| 国产福利精品一区二区| 久久久久久久久久久久久久久| 国产激情一区二区三区在线观看| 亚洲嫩草精品久久| 国产精品色综合| 黄色www网站| 国产精品中文字幕在线| 亚洲图片激情小说| 久久久久久久久久久免费视频| 欧美日韩中国免费专区在线看| 亚洲国产欧美视频| 91精品成人久久| heyzo一本久久综合| 日韩中文字幕av电影| 国产黄色片在线| 国产精品av在线播放| 国产精品主播一区二区| 日本泡妞xxxx免费视频软件| 少妇真人直播免费视频| 日本一级片免费| 日本熟妇色xxxxx日本免费看| 91人人澡人人爽| 艳妇乳肉亭妇荡乳av| 欧美一区二区三区四区在线观看地址 | 国产高清精品一区| 综合久久五月天| 久久综合亚州| 国产91在线亚洲| 亚洲国产小视频在线观看| 免费观看久久久4p| 在线观看福利片| 久久久com| 91久久嫩草影院一区二区| 亚洲女同性videos| 国产精品区一区二区三区| 日本中文字幕亚洲| 国产一区国产精品| 日韩精品综合在线| 伊人影院综合网| 欧美性受xxxx狂喷水| 精品在线你懂的| 久久精品人人做人人综合| 国产色婷婷亚洲99精品小说| 福利电影一区二区| 国产 欧美 自拍| 免费在线观看国产精品| 小明看看成人免费视频| 清纯唯美一区二区三区| 青青草国产精品一区二区| 久久一区二区三区四区| 麻豆疯狂做受xxxx高潮视频| 日本aa在线观看| 欧美中文字幕在线视频| 欧美日韩电影一区| 99re66热这里只有精品3直播| 国产综合色在线| 蜜臀精品一区二区三区在线观看| 丝袜美腿中文字幕| 91女神在线观看| 国产原创中文在线观看| 中文字幕 欧美日韩| 国产又粗又猛又爽又黄的| 91蜜桃视频在线| 亚洲国产精品成人av| 久久久久久欧美| 免费日韩av电影| 国产视频在线观看网站| 激情婷婷综合网| 性欧美videosex高清少妇| 狠狠综合久久av| 91人成网站www| 久久精品国产美女| 国产麻豆一区二区三区在线观看| 色综合久久久888| 91精品国产色综合久久久蜜香臀| 26uuu国产电影一区二区| 日本加勒比一区| 国产女人18毛片18精品| 伊人中文字幕在线观看| 精品人妻一区二区三区三区四区 | 欧美尤物一区| 亚洲欧洲精品在线观看| 少妇欧美激情一区二区三区| 丰腴饱满的极品熟妇| 国产成人手机在线| 中文字幕欧美激情| 中文字幕精品久久久久| 91干在线观看| 91成人在线看| 91人成网站www| 亚洲国产成人不卡| 欧美成人三级在线视频| 妖精视频一区二区| 少妇献身老头系列| 水蜜桃av无码| 一区二区日韩在线观看| 国内精品免费在线观看| 精品美女在线观看| 91美女片黄在线观| 国产中文字幕乱人伦在线观看| 国产 中文 字幕 日韩 在线| 丰满人妻一区二区| 青青草成人在线观看| 蜜臀久久99精品久久久| 中文字幕亚洲区| 国产乱码精品一品二品| 一区二区三区四区av| 国产精品久久久久久久久婷婷| 黄免费在线观看| 国产视频在线观看一区二区三区| 欧美伊久线香蕉线新在线| 日韩成人精品视频在线观看| 久久精品国语| 亚洲mv大片欧洲mv大片精品| 中文字幕日韩欧美精品在线观看| 国产精品女主播| 国产一区二区视频免费在线观看| 国精产品一区一区| 成人免费毛片app| 在线激情影院一区| 国产精品久久激情| 五月天色一区| 国产综合内射日韩久| 国产成人激情av| 综合国产在线观看| 91在线观看免费高清| 嫩草av久久伊人妇女超级a| 久久久久亚洲av片无码下载蜜桃| 中文字幕av一区二区三区| 精品日韩视频在线观看| 亚洲一二三专区| 欧美亚洲伦理www| 三级男人添奶爽爽爽视频| 麻豆视频一区二区| 亚洲欧美制服另类日韩| 久久国产免费视频| 国产一区二区三区综合| 欧美日本一区二区三区四区| 国产精品亚洲视频在线观看 | 成人福利在线观看| 中文字幕第20页| 成人h动漫精品一区二| 亚洲欧美国产另类| 99高清视频有精品视频| 免费中文字幕av| 91麻豆精品秘密| 97在线视频免费看| 亚洲天堂网av在线| 一区二区三区久久| 亚洲最大的av网站| 中文字幕免费在线观看视频| 日韩一区二区视频在线观看| 久99久视频| 一区二区久久精品| 视频在线观看一区| 97久久精品国产| 青青操视频在线播放| 成人免费毛片a| 欧美三级视频网站| 日韩精品人妻中文字幕有码 | 亚洲欧美日韩国产精品| 欧美大片国产精品| 欧美日韩激情在线| 欧美色精品天天在线观看视频| 婷婷中文字幕综合| 婷婷综合在线观看| 色94色欧美sute亚洲线路一ni| 亚洲福利国产精品| 午夜精品久久久久久久99水蜜桃| 亚洲精品ww久久久久久p站| 日韩一区日韩二区| 亚洲欧美另类在线| 亚洲午夜精品在线| 精品福利樱桃av导航| 欧美日韩美女视频| 福利二区91精品bt7086| 日本精品一区二区三区高清| 色一情一乱一乱一91av| 欧美日精品一区视频| 欧美老女人在线| 精品卡一卡二卡三卡四在线| 亚洲精品国产精品国自产在线 | 亚洲综合丝袜美腿| 精品色蜜蜜精品视频在线观看| 日本精品一区二区三区高清| 欧美一级欧美一级在线播放|