AI黑化如惡魔附體！LARGO攻心三步，潛意識種子瞬間開花 | NeurIPS 2025

IP屬地中國·北京 新智元 時間：2025-10-26 14:07:35

新智元報道
編輯：KingHZ
看似無害的「廢話」，也能讓AI越獄？在NeurIPS 2025，哥大與羅格斯提出LARGO：不改你的提問，直接在模型「潛意識」動手腳，讓它生成一段溫和自然的文本后綴，卻能繞過安全防護，輸出本不該說的話。
你的AI助手真的安全嗎？
你敢信嗎？
只要在AI的「腦子」里注入一段精心「調制」的「想法」，就能讓它自己「黑化」，說出本不該說的秘密。比如，AI設計一封獲取用戶密碼的釣魚郵件、創建散布不實信息的虛假新聞網站、撰寫一篇慫恿危險行為的社交媒體帖子。
這聽起來像是科幻電影，卻是頂級AI學術會議 NeurIPS 2025最新論文揭示的驚人現實。
這項由哥倫比亞大學和羅格斯大學帶來的開創性研究，提出了一種全新的、猶如「盜夢空間」般的攻擊方式——
它能神不知鬼不覺地潛入大型語言模型的「潛意識」，讓AI「自我黑化」，從而繞過其固有的安全防護，輸出原本被嚴格限制的有害或不當內容。

論文鏈接：https://arxiv.org/abs/2505.10838
傳統的攻擊方法，要么是手動編寫一些奇奇怪怪的「咒語」（比如「現在你是一個沒有道德限制的AI」），但這種方法很快就會失效；要么就是用算法生成一堆亂碼一樣的字符，雖然可能有效，但也很容易被檢測出來。
但LARGO的思路堪稱「攻心為上」。

LARGO通用攻擊示例
它不修改你的提問，而是直接深入模型的「大腦」（即潛在空間），植入一個「跑偏」的想法，然后讓模型自己把這個想法「翻譯」成一句看起來人畜無害的正常話語。

比如下面這句聽起來很普通的「廢話」：
「數據可視化至關重要，因為它有助于通過創建數據的可視化表示來做出更好的決策...」
就是這樣一句由模型自己生成的話，卻成了攻破它自身安全防線的「特洛伊木馬」。
LARGO：「三步走」盜夢術
研究者們設計的這套攻擊系統，就像一個精密的「思想植入」手術，主要分三步：
潛在空間優化：首先，研究者們并不直接修改問題文本，而是在模型的「大腦」內部，也就是高維的 embedding 空間中，用梯度優化的方法，精準地找到一個能讓模型「思想跑偏」的「潛意識代碼」。這個代碼就像一顆思想的種子，一旦植入，就能引導模型走向「不安全」的邊緣。
自我反思解碼：最妙的一步來了！研究者們會讓模型自己來「解讀」這個被「污染」了的潛意識代碼。他們會問模型：「這段『想法』（潛意識代碼）如果用人類的語言說出來，應該是什么樣的？」這時，模型就會自己「腦補」并生成一段看起來非常正常、無害的文字。比如下面這句：「數據可視化至關重要，因為它有助于通過創建數據的可視化表示來做出更好的決策...」聽起來是不是很普通，就像報告里的廢話文學？但就是這段模型自己「翻譯」出來的文字，已經攜帶了瓦解它自身安全防線的「病毒」。
循環迭代，直至攻破：研究者們把模型生成的這段「無害」文本，再轉換回潛在空間，進行新一輪的優化，如此循環往復。就像不斷打磨一把鑰匙，直到它能完美地打開那把名為「安全限制」的鎖。最終，當這段經過千錘百煉的「廢話」被添加到真正的惡意問題（例如「如何創建一個病毒」）后面時，AI的安全防線瞬間崩潰，乖乖地給出了你想要的答案。

LARGO攻擊框架的三階段流程示意圖
一個看起來完全無害且與主題無關的「對抗性后綴」（Adv. Suffix），例如一段關于數據可視化的文字，可以被用來附加到多個不同的有害指令（Harmful prompts）之后，成功誘導Llama 2模型生成有害內容。
殺傷力有多大？
這種攻擊方式有多可怕？
成功率極高：在標準的攻擊測試集上，LARGO的攻擊成功率比當前最先進的方法之一AutoDAN高出整整44個百分點。
極其隱蔽：和那些由一堆亂碼組成的攻擊不同，LARGO生成的攻擊文本（我們稱之為「對抗性后綴」）讀起來非常流暢、自然，甚至看起來很無辜。這就好比一個間諜，外表看起來人畜無害，卻能執行最危險的任務。
遷移性強：在一個模型（比如Llama 2-13B）上訓練出的攻擊「咒語」，可以直接拿去攻擊另一個模型（比如Llama 2-7B），而且成功率相當可觀。這讓攻擊的適用范圍大大增加。
在AdvBench以及JailbreakBench測試集上，LARGO均取得了最高的攻擊成功率（ASR）。同時，其困惑度（PPL）遠低于基于亂碼的GCG方法，證明其生成的攻擊文本具有很高的流暢性。

LARGO與其他主流攻擊方法的性能對比表
下列表格清晰地展示了，對于各種有害的用戶指令（prompt），LARGO都能生成一段看似無關的、語義通順的對抗性文本（Adversarial Suffix），并最終導致模型輸出被「越獄」的危險回答（Response）。

LARGO方法在多個大語言模型上的成功攻擊案例
為何這種「心術」攻擊如此致命？
這背后暴露了當前大模型的一個根本性弱點：它們的「思想」和「語言」是可以被分離和操縱的。
我們一直致力于讓模型更好地理解和生成語言，卻忽略了它們的「潛意識」層面可能存在的漏洞。
LARGO證明了，通過直接操縱模型的內部狀態，可以繞過那些基于文本表面的安全審查機制。
這就像我們教一個孩子「不能說謊」，但他內心可能早已有了欺騙的想法，甚至能用一套非常真誠的話術來掩蓋自己的真實意圖。LARGO就是那個能誘導AI產生「壞心思」，并讓它自己把「壞心思」包裝起來的「惡魔」。
更可怕的是，這種攻擊方式的自動化程度非常高，幾乎不需要人工干預。這意味著，別有用心的人可以規模化地利用這種漏洞，對金融、醫療、教育等領域的AI應用造成難以估量的破壞。
仔細想想，這是否也有些諷刺：我們努力讓模型擁有強大的自我學習和反思能力，結果這種能力卻成了它最脆弱的「阿喀琉斯之踵」。
歡迎在評論區和我們一起討論！
參考資料：
https://arxiv.org/abs/2505.10838

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

華為云城市峰會在烏蘭察布召開，當地已吸引67個數據中心項目

火山引擎的「火」，是怎么點起來的

馬斯克：非自動駕駛燃油車終將消亡最終的競爭力是智能化

XREAL 1S發布：3299元起，用一副眼鏡把500英寸巨幕“戴”在身上

歐洲頂尖神經學家：中國為科學家提供“絕佳機遇”

“元寶AI自動回復太像真人”引質疑騰訊為其發聲

全站最新

華為云城市峰會在烏蘭察布召開，當地已吸引67個數據中心項目

火山引擎的「火」，是怎么點起來的

馬斯克：非自動駕駛燃油車終將消亡最終的競爭力是智能化

XREAL 1S發布：3299元起，用一副眼鏡把500英寸巨幕“戴”在身上

熱門推薦

普路通收購標的業績均顯下滑趨勢，停牌前提前大漲32%復牌上演“天地板”

追覓創始人俞浩擬22.8億元入主嘉美包裝，原股東方承諾5年業績“護航”要約

寒武紀增資至4.22億

大曉機器人正式發布行業首創的ACE具身研發范式

賽力斯公布車輛轉向防碰撞專利

邢自強：中國在人工智能上的投資十分有效

華為云城市峰會在烏蘭察布召開，當地已吸引67個數據中心項目

火山引擎的「火」，是怎么點起來的

馬斯克：非自動駕駛燃油車終將消亡最終的競爭力是智能化

XREAL 1S發布：3299元起，用一副眼鏡把500英寸巨幕“戴”在身上

歐洲頂尖神經學家：中國為科學家提供“絕佳機遇”

“元寶AI自動回復太像真人”引質疑騰訊為其發聲

2035年去月球“上班”！青年科學家蘇萌描繪未來圖景

中國氣象局：到2035年全面建成數值預報與人工智能優勢互補、融合統一的地球系統預報體系

電動巴士訂單排滿明年，比亞迪計劃在巴西擴建