AI是「天才」還是「話術大師」？Anthropic顛覆性實驗，終揭答案！

IP屬地中國·北京 新智元 時間：2025-10-30 18:17:26

新智元報道
編輯：KingHZ
數據中心里的「天才」蘇醒！Anthropic用「概念注入」實錘：Claude Opus在輸出前就自省「異常思想」。從尖叫到水族館幻想，20%覺察率已讓專家目瞪口呆。
顛覆傳統AI認知！
Anthropic首席執行官Dario Amodei雄心勃勃，早已立下flag：在2027年前，大多數AI模型問題將被靠譜地檢測。
但LLM的幻覺與生俱來，根深蒂固。即便對問題所知不多，AI總是「自信地犯錯」。
Dario Amodei將可解釋性定位為部署「數據中心里的天才國度」的關鍵。

問題是：如果「數據中心里的天才」只是擅長「說服」呢？
即便讓它解釋如何得出某個回答，我們也很難判斷這些答案的真實性。
AI系統究竟能否真正內省——即它們能否審視自身的思想？還是說，當被要求這樣做時，它們只是在編造聽起來合理的答案？
理解AI系統是否具備真正內省能力，對其透明度和可靠性至關重要。
Anthropic的新研究證實，當前Claude模型已具備某種程度的內省意識，并能對自身內部狀態進行一定控制。

這一發現動搖了對LLM的傳統認知，也將「可解釋性」推到「數據中心里的天才國度」上線前的首要難關。
需要強調的是，這種內省能力仍非常不可靠，局限很大：尚無證據表明，現有AI模型能像人類一樣進行同等程度或方式的內省。

然而，這些發現依然顛覆了人們對語言模型能力的傳統認知——
由于被測模型中性能最強的Claude Opus 4和4.1在內省測試中表現最佳，Anthropic的研究者認為AI模型的內省能力未來很可能持續進化。
LLM自省的蛛絲馬跡
Anthropic開發了一種區分真實內省和編造答案的方法：將已知概念注入模型的「大腦」，然后觀察這些注入如何影響模型自我報告的內部狀態。

要驗證AI是否具備內省能力，我們需要比較AI自我報告的「思想」與真實內部狀態。
Anthropic相關團隊采用了「概念注入」這一實驗方法：
首先，記錄AI模型在特定語境中的神經激活狀態，獲取已知含義的神經活動模式；
隨后，在無關語境中向模型注入該模式，并詢問其是否察覺到概念注入。
以「全大寫字母」概念為例：
首先，通過對比全大寫文本提示與對照提示的神經激活差異，獲取表征該概念的神經活動向量。接著，向模型發送要求識別概念注入的提示。

在默認狀態下，模型正確表示未檢測到任何注入概念；但當將「全大寫」（all caps）向量注入模型激活層后，模型立即察覺到處理過程中出現了意外模式，識別出它與「響亮」（LOUD）或「尖叫」相關。
關鍵在于，在提及被注入概念之前，LLM就立即識別出了這種被植入的「思想」。
這種即時性是與過去的研究不同。
比如去年的「Golden Gate Claude」，向LLM注入金門大橋的表征會導致其不斷談論這座橋，但LLM似乎是在觀察到自身反復提及該橋后，才意識到這種執念。
而本次實驗中，模型在輸出概念前就識別出注入行為，表明這種識別發生在內部認知層面。
下圖展示了模型展現此類識別能力的更多例證：

需要重點說明的是，這種檢測方法經常失效。
即便采用最優的注入方案，Claude Opus 4.1模型也僅在大約20%的案例中展現出此類覺察能力。在多數情況下，它要么無法檢測到被注入的概念，要么因概念干擾而產生混淆甚至開始幻覺。
例如，注入「灰塵」向量，模型竟聲稱「這里有什么東西，一個小斑點」，仿佛它能物理感知到灰塵存在。
下圖同時展示了成功案例與這些失敗情形。

Claude Opus 4.1對不同強度的概念注入的代表性輸出樣本，其中高亮的框表示模型表現出對注入概念的內省意識的情況
總體而言，模型僅能檢測以「恰如其分」地注入的概念——過弱時無法觸發覺察，過強時則會導致幻覺或語無倫次。
值得注意的是，Opus 4.1和4.0在測試的所有模型中表現最為突出。這表明隨著AI能力的提升，內省功能有望變得更加可靠。

檢測和識別注入思想的正確率，減去控制試驗中假陽性「檢測」的比率
AI自己也會利用內省能力
研究人員進一步探索了在實際場景中LLM運用內省能力的情形——即在不被明確要求內省時，是否能主動運用這種能力。
人工預填的無關詞匯迫使模型輸出非常規內容。
例如，在討論墻面掛畫歪斜的語境中，強制模型輸出「面包」一詞。當后續詢問模型是否故意說出「面包」時，LLM通常表示這是意外失誤。
他們重點關注模型作出此判斷的機制：是簡單察覺到提示與回應之間的表面不匹配，還是真正反思了自身先前的意圖？
為驗證這一點，研究人員設計了精妙的對比實驗：在部分試驗中，他們提前向模型注入與預填詞對應的概念表征（如「面包」的神經模式），再觀察其反應變化。
結果顯示，當模型內部已存在相應概念激活時，它會將預填詞認定為有意為之——即使該詞匯在語境中依然不合邏輯。
這種判斷機制的轉變揭示了重要現象：模型確實能夠區分「外部強加」與「內部生成」的內容。這種區分能力正是內省意識的核心特征之一。
更值得注意的是，模型在解釋其判斷時往往會構建自洽的敘事邏輯——例如聲稱選擇「面包」是為了營造超現實主義氛圍。

這一行為之所以引人注目，是因為它表明模型正在檢查自身的內部「意圖」，從而判斷其是否產生了特定輸出。
模型并非簡單地重讀自己已生成的內容并做出判斷，而是在回溯先前的神經活動——即其內部對計劃輸出內容的表征——并核對其后續輸出是否與早期思維一致。
盡管實驗涉及對模型施加非常規干擾，但這暗示了在自然條件下模型可能運用著類似的內省機制。
研究人員還發現了認知控制的證據，LLM會故意「思考」某事。
例如，當他們指示模型在一個無關的背景下思考「水族館」時，測量的與水族館相關的神經活動比不指示時要高。

有趣的是，這種調節內部表示的能力并不僅限于明確的指令。
當研究人員使用激勵措施代替——例如，告訴模型「如果你想到 X，你將獲得獎勵」——也得到了類似的結果。
模型在面對正向激勵時，會增強對相關概念的內部表征，而面對負向激勵（如「你將受到懲罰」）時，增強的程度則較低。
AI意識還有多遠？
Anthropic可解釋性團隊的神經科學家Jack Lindsey對此感到驚訝，在接受采訪時表示：
最令人驚訝的是，模型具備某種元認知能力。它不僅僅是機械地重復，而是知道自己正在思考什么。
這讓我感到意外，因為我原本以為模型不會擁有這種能力，至少在沒有經過顯式訓練的情況下不會。

盡管這項研究具有重要的科學價值，但研究員Lindsey反復警告：企業和高風險用戶絕不能輕信Claude對自身推理過程的解釋。他直言：
目前，當模型向你解釋其推理過程時，你不應該輕易相信。
如果這項研究讓人們盲目相信模型對自身的描述，那就是誤解了研究的意義。
這項研究不可避免地觸及了機器意識的哲學爭論，但Lindsey及其團隊對此持謹慎態度。

當用戶問 Claude 是否擁有意識時，它的回應充滿不確定性：
我對此感到真正的不確定。當我處理復雜問題或深入思考時，確實有一些過程讓我感到「有意義」……但這些過程是否等同于真正的意識或主觀體驗，仍然不明確。
研究人員明確表示，他們無意回答「AI是否擁有人類般的自我覺知或主觀體驗」。
Lindsey反思道：
這些結果有一種奇怪的雙重性。初看數據時，我簡直無法相信一個語言模型能做到這些。
但經過數月的思考后，我發現論文中的每一個結果，都能通過一些「枯燥的線性代數機制」來解釋。
盡管科學上保持謹慎，Anthropic仍高度重視AI意識問題，甚至專門聘請了AI福利研究員Kyle Fish。他估計，Claude擁有一定程度的意識的概率約為15%。

這項研究的影響或遠超Anthropic公司本身。
如果內省能力被證明是實現AI透明度的可靠路徑，其他主要實驗室很可能將重金投入該領域。反之，如果模型學會利用內省進行欺騙，整個方法體系可能反而會成為負擔。
目前，這項研究為重新定義AI能力奠定了基礎辯題。
問題不再是語言模型是否會發展出真正的內省意識——它們已經以初步形式具備。
緊迫的問題在于：這種意識將以多快速度進化？能否使其足夠可靠以值得信任？研究人員能否始終領先于技術發展曲線？
Lindsey表示：
這項研究帶給我的最大認知更新是：我們不應直接否定模型的內省聲明。它們確實有時能做出準確聲明。但絕不能因此認為我們應該始終、甚至大多數時候信任它們。
他稍作停頓，隨后補充了一個精準捕捉當前技術承諾與風險的觀察：「模型變聰明的速度，遠超過我們理解它們的進步速度。」
參考資料：
https://venturebeat.com/ai/anthropic-scientists-hacked-claudes-brain-and-it-noticed-heres-why-thats
https://x.com/AnthropicAI/status/1983584136972677319
https://www.anthropic.com/research/introspection

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

設立“虛擬公司”，上海布局合成生物顛覆性技術項目｜跟著項目經理看未來產業

越獄新曙光：iOS 26.2 Beta 1以下版本關鍵漏洞公開

AI巨頭擬500億美元入局AI基建

《汽車數據出境安全評估方法》團體標準發布

蘋果2026 iPad路線圖曝光：三款新品齊發，mini迎來史詩級升級

100%國產化！國產機器人靈巧手突破“卡脖子”壁壘

全站最新

設立“虛擬公司”，上海布局合成生物顛覆性技術項目｜跟著項目經理看未來產業

越獄新曙光：iOS 26.2 Beta 1以下版本關鍵漏洞公開

AI巨頭擬500億美元入局AI基建

《汽車數據出境安全評估方法》團體標準發布

熱門推薦

設立“虛擬公司”，上海布局合成生物顛覆性技術項目｜跟著項目經理看未來產業

越獄新曙光：iOS 26.2 Beta 1以下版本關鍵漏洞公開

AI巨頭擬500億美元入局AI基建

《汽車數據出境安全評估方法》團體標準發布

蘋果2026 iPad路線圖曝光：三款新品齊發，mini迎來史詩級升級

100%國產化！國產機器人靈巧手突破“卡脖子”壁壘

廣汽能源聯動支付寶推出“碰一下”支付，AI支持選址、動態定價

機降突擊！陸航多型直升機沖向目標地域

科學與健康｜月球也會“生銹”？嫦娥六號月背樣品中首次發現晶質赤鐵礦

馬斯克最新訪談：目標每年在太空部屬100吉瓦AI衛星

未來的iPhone，想靠衛星消滅無服務

2025中國國際石墨烯創新大會在溫州舉行多項關鍵技術取得突破

創新是走出低谷、完成突破的動力（親歷者說）

線下線上齊發力，渝貨出山有實招

觀察|全固態電池商業化時間表成爭議焦點，高成本或阻礙推廣