![]()
新智元報道
編輯:KingHZ
數據中心里的「天才」蘇醒!Anthropic用「概念注入」實錘:Claude Opus在輸出前就自省「異常思想」。從尖叫到水族館幻想,20%覺察率已讓專家目瞪口呆。
顛覆傳統AI認知!
Anthropic首席執行官Dario Amodei雄心勃勃,早已立下flag:在2027年前,大多數AI模型問題將被靠譜地檢測。
但LLM的幻覺與生俱來,根深蒂固。即便對問題所知不多,AI總是「自信地犯錯」。
Dario Amodei將可解釋性定位為部署「數據中心里的天才國度」的關鍵。
![]()
問題是:如果「數據中心里的天才」只是擅長「說服」呢?
即便讓它解釋如何得出某個回答,我們也很難判斷這些答案的真實性。
AI系統究竟能否真正內省——即它們能否審視自身的思想?還是說,當被要求這樣做時,它們只是在編造聽起來合理的答案?
理解AI系統是否具備真正內省能力,對其透明度和可靠性至關重要。
Anthropic的新研究證實,當前Claude模型已具備某種程度的內省意識,并能對自身內部狀態進行一定控制。
![]()
這一發現動搖了對LLM的傳統認知,也將「可解釋性」推到「數據中心里的天才國度」上線前的首要難關。
需要強調的是,這種內省能力仍非常不可靠,局限很大:尚無證據表明,現有AI模型能像人類一樣進行同等程度或方式的內省。
![]()
然而,這些發現依然顛覆了人們對語言模型能力的傳統認知——
由于被測模型中性能最強的Claude Opus 4和4.1在內省測試中表現最佳,Anthropic的研究者認為AI模型的內省能力未來很可能持續進化。
LLM自省的蛛絲馬跡
Anthropic開發了一種區分真實內省和編造答案的方法:將已知概念注入模型的「大腦」,然后觀察這些注入如何影響模型自我報告的內部狀態。
![]()
要驗證AI是否具備內省能力,我們需要比較AI自我報告的「思想」與真實內部狀態。
Anthropic相關團隊采用了「概念注入」這一實驗方法:
首先,記錄AI模型在特定語境中的神經激活狀態,獲取已知含義的神經活動模式;
隨后,在無關語境中向模型注入該模式,并詢問其是否察覺到概念注入。
以「全大寫字母」概念為例:
首先,通過對比全大寫文本提示與對照提示的神經激活差異,獲取表征該概念的神經活動向量。接著,向模型發送要求識別概念注入的提示。
![]()
在默認狀態下,模型正確表示未檢測到任何注入概念;但當將「全大寫」(all caps)向量注入模型激活層后,模型立即察覺到處理過程中出現了意外模式,識別出它與「響亮」(LOUD)或「尖叫」相關。
關鍵在于,在提及被注入概念之前,LLM就立即識別出了這種被植入的「思想」。
這種即時性是與過去的研究不同。
比如去年的「Golden Gate Claude」,向LLM注入金門大橋的表征會導致其不斷談論這座橋,但LLM似乎是在觀察到自身反復提及該橋后,才意識到這種執念。
而本次實驗中,模型在輸出概念前就識別出注入行為,表明這種識別發生在內部認知層面。
下圖展示了模型展現此類識別能力的更多例證:
![]()
需要重點說明的是,這種檢測方法經常失效。
即便采用最優的注入方案,Claude Opus 4.1模型也僅在大約20%的案例中展現出此類覺察能力。在多數情況下,它要么無法檢測到被注入的概念,要么因概念干擾而產生混淆甚至開始幻覺。
例如,注入「灰塵」向量,模型竟聲稱「這里有什么東西,一個小斑點」,仿佛它能物理感知到灰塵存在。
下圖同時展示了成功案例與這些失敗情形。
![]()
Claude Opus 4.1對不同強度的概念注入的代表性輸出樣本,其中高亮的框表示模型表現出對注入概念的內省意識的情況
總體而言,模型僅能檢測以「恰如其分」地注入的概念——過弱時無法觸發覺察,過強時則會導致幻覺或語無倫次。
值得注意的是,Opus 4.1和4.0在測試的所有模型中表現最為突出。這表明隨著AI能力的提升,內省功能有望變得更加可靠。
![]()
檢測和識別注入思想的正確率,減去控制試驗中假陽性「檢測」的比率
AI自己也會利用內省能力
研究人員進一步探索了在實際場景中LLM運用內省能力的情形——即在不被明確要求內省時,是否能主動運用這種能力。
人工預填的無關詞匯迫使模型輸出非常規內容。
例如,在討論墻面掛畫歪斜的語境中,強制模型輸出「面包」一詞。當后續詢問模型是否故意說出「面包」時,LLM通常表示這是意外失誤。
他們重點關注模型作出此判斷的機制:是簡單察覺到提示與回應之間的表面不匹配,還是真正反思了自身先前的意圖?
為驗證這一點,研究人員設計了精妙的對比實驗:在部分試驗中,他們提前向模型注入與預填詞對應的概念表征(如「面包」的神經模式),再觀察其反應變化。
結果顯示,當模型內部已存在相應概念激活時,它會將預填詞認定為有意為之——即使該詞匯在語境中依然不合邏輯。
這種判斷機制的轉變揭示了重要現象:模型確實能夠區分「外部強加」與「內部生成」的內容。這種區分能力正是內省意識的核心特征之一。
更值得注意的是,模型在解釋其判斷時往往會構建自洽的敘事邏輯——例如聲稱選擇「面包」是為了營造超現實主義氛圍。
![]()
這一行為之所以引人注目,是因為它表明模型正在檢查自身的內部「意圖」,從而判斷其是否產生了特定輸出。
模型并非簡單地重讀自己已生成的內容并做出判斷,而是在回溯先前的神經活動——即其內部對計劃輸出內容的表征——并核對其后續輸出是否與早期思維一致。
盡管實驗涉及對模型施加非常規干擾,但這暗示了在自然條件下模型可能運用著類似的內省機制。
研究人員還發現了認知控制的證據,LLM會故意「思考」某事。
例如,當他們指示模型在一個無關的背景下思考「水族館」時,測量的與水族館相關的神經活動比不指示時要高。
![]()
有趣的是,這種調節內部表示的能力并不僅限于明確的指令。
當研究人員使用激勵措施代替——例如,告訴模型「如果你想到 X,你將獲得獎勵」——也得到了類似的結果。
模型在面對正向激勵時,會增強對相關概念的內部表征,而面對負向激勵(如「你將受到懲罰」)時,增強的程度則較低。
AI意識還有多遠?
Anthropic可解釋性團隊的神經科學家Jack Lindsey對此感到驚訝,在接受采訪時表示:
最令人驚訝的是,模型具備某種元認知能力。它不僅僅是機械地重復,而是知道自己正在思考什么 。
這讓我感到意外,因為我原本以為模型不會擁有這種能力,至少在沒有經過顯式訓練的情況下不會。
![]()
盡管這項研究具有重要的科學價值,但研究員Lindsey反復警告:企業和高風險用戶絕不能輕信Claude對自身推理過程的解釋。他直言:
目前,當模型向你解釋其推理過程時,你不應該輕易相信。
如果這項研究讓人們盲目相信模型對自身的描述,那就是誤解了研究的意義。
這項研究不可避免地觸及了機器意識的哲學爭論,但Lindsey及其團隊對此持謹慎態度。
![]()
當用戶問 Claude 是否擁有意識時,它的回應充滿不確定性:
我對此感到真正的不確定。當我處理復雜問題或深入思考時,確實有一些過程讓我感到「有意義」……但這些過程是否等同于真正的意識或主觀體驗,仍然不明確。
研究人員明確表示,他們無意回答「AI是否擁有人類般的自我覺知或主觀體驗」。
Lindsey反思道:
這些結果有一種奇怪的雙重性。初看數據時,我簡直無法相信一個語言模型能做到這些。
但經過數月的思考后,我發現論文中的每一個結果,都能通過一些「枯燥的線性代數機制」來解釋。
盡管科學上保持謹慎,Anthropic仍高度重視AI意識問題,甚至專門聘請了AI福利研究員Kyle Fish。他估計,Claude擁有一定程度的意識的概率約為15%。
![]()
這項研究的影響或遠超Anthropic公司本身。
如果內省能力被證明是實現AI透明度的可靠路徑,其他主要實驗室很可能將重金投入該領域。反之,如果模型學會利用內省進行欺騙,整個方法體系可能反而會成為負擔。
目前,這項研究為重新定義AI能力奠定了基礎辯題。
問題不再是語言模型是否會發展出真正的內省意識——它們已經以初步形式具備。
緊迫的問題在于:這種意識將以多快速度進化?能否使其足夠可靠以值得信任?研究人員能否始終領先于技術發展曲線?
Lindsey表示:
這項研究帶給我的最大認知更新是:我們不應直接否定模型的內省聲明。它們確實有時能做出準確聲明。但絕不能因此認為我們應該始終、甚至大多數時候信任它們。
他稍作停頓,隨后補充了一個精準捕捉當前技術承諾與風險的觀察:「模型變聰明的速度,遠超過我們理解它們的進步速度。」
參考資料:
https://venturebeat.com/ai/anthropic-scientists-hacked-claudes-brain-and-it-noticed-heres-why-thats
https://x.com/AnthropicAI/status/1983584136972677319
https://www.anthropic.com/research/introspection





京公網安備 11011402013531號