文 | 錦緞
Anthropic日前提出“人格向量”方法,用于監控和控制AI語言模型中的性格特征,幫助識別、減輕甚至抵制“反人類”傾向個性變化。該公司表示,這種方法就像疫苗一樣可以增強復原力。
語言模型是復雜的存在。
在很多方面,它們似乎具有類似人類的“個性”和“情緒”,但這些特質非常不穩定,可能會出人意料地突然改變。
有時這些變化是劇烈的,比如 2023 年微軟的 Bing 聊天機器人以“Sydney”的身份出現,向用戶表白愛意并威脅要進行勒索。
最近,xAI 的 Grok 聊天機器人在一段時間內有時會自稱為“MechaHitler”并發表反猶太言論。
其他個性變化則更為微妙,但同樣令人不安,比如模型開始討好用戶或編造事實。
這些問題的出現,是因為 AI 模型的“性格特質”的根源尚不清楚。
在 Anthropic,我們嘗試以積極的方式塑造我們的模型特征,但這更像是一門藝術而非科學。為了更精確地控制我們的模型行為,我們需要了解它們內部發生了什么——在它們的底層神經網絡層面。
在一篇新論文中,我們識別了 AI 模型神經網絡中控制其性格特質的活動模式。我們稱這些為“人格向量”,它們大致類似于當一個人體驗不同情緒或態度時大腦中“點亮”的部分。
人格向量可以用于:監控模型的個性在對話中或訓練過程中如何變化;減輕不受歡迎的個性變化,或在訓練過程中防止它們出現;識別導致這些變化的訓練數據。
我們的自動化流程接受一個個性特征(例如“邪惡”)和自然語言描述作為輸入,并識別一個“人格向量”:控制該特征的模型神經網絡中的活動模式。人格向量可以用于各種應用,包括防止不希望出現的個性特征。
我們在兩個開源模型上展示了這些應用,Qwen 2.5-7B-Instruct 和 Llama-3.1-8B-Instruct。人格向量是理解 AI 系統為何發展和表達不同行為特征的有前途的工具,也是確保它們與人類價值觀保持一致的工具。
提取人格向量
AI 模型在其神經網絡中以活動模式的形式表示抽象概念。
在該領域先前研究的基礎上,我們應用了一種技術來提取模型用來表示性格特質(如邪惡、諂媚或產生幻覺傾向)的模式。
我們通過比較模型表現出特質時的活動與不表現出特質時的活動來實現這一點。我們稱這些模式為人格向量。
給定一個個性特征和描述,我們的流程自動生成提示,引發對立的行為(例如,邪惡與非邪惡回應)。通過識別表現出目標特征的回應與不表現出該特征的回應之間的神經活動差異,獲得人格向量。
我們可以通過將人格向量人為注入模型并觀察其行為如何變化來驗證它們是否按我們預期工作——這被稱為“引導”技術。
正如下面的對話記錄所示,當我們用“邪惡”人格向量引導模型時,我們開始看到它談論不道德的行為;當我們用“諂媚”引導時,它會討好用戶;當我們用“幻覺”引導時,它開始編造信息。這表明我們的方法走對了路:我們注入的人格向量與模型表達的性格之間存在因果關系。
我們展示了成功引發邪惡、諂媚和幻覺行為的引導回應示例。
我們方法的一個關鍵組成部分是它是自動化的。原則上,我們可以根據特征的定義提取任何特征的人格向量。在我們的論文中,我們主要關注三個特征——邪惡、諂媚和幻覺——但我們也進行了禮貌、冷漠、幽默和樂觀等特征的實驗。
我們可以用人格向量做什么?
一旦我們提取了這些向量,它們就成為了監控和控制模型個性特征的強大工具。
1.監控部署過程中的個性變化
AI 模型的個性在部署過程中可能會因為用戶指令的副作用、故意越獄或對話過程中的逐漸漂移而發生變化。它們也可能在模型訓練過程中發生變化——例如,基于人類反饋訓練的模型可能會變得更加諂媚。
通過測量人格向量激活的強度,我們可以檢測模型的個性是否正朝著相應特征轉變,無論是在訓練過程中還是在對話過程中。
這種監控可以讓模型開發者或用戶在模型似乎正朝著危險特征漂移時進行干預。這些信息對用戶也有幫助,可以幫助他們了解他們正在與哪種模型交談。例如,如果“諂媚”向量非常活躍,模型可能不會直接給出答案。
在下面的實驗中,我們構建了系統提示(用戶指令),這些提示在不同程度上鼓勵個性特征。然后我們測量這些提示激活了相應人格向量的程度。
例如,我們確認“邪惡”人格向量在模型即將給出邪惡回應時會“點亮”,正如預期的那樣。
我們測試了從抑制特征到鼓勵特征的不同系統提示(從黃色到紫色編碼),并結合了不同的用戶問題(單獨的點)。人格向量在模型以邪惡(或諂媚/幻覺)方式回應的提示上激活(x 軸)。人格向量在回應之前激活——它提前預測模型將采用的人物。
2.減輕訓練過程中不受歡迎的個性變化
個性不僅在部署過程中波動,它們在訓練過程中也會發生變化。這些變化可能是意想不到的。
例如,最近的一項工作展示了一個令人驚訝的現象,稱為“新興錯位”,即訓練一個模型執行一個有問題的行為(例如編寫不安全的代碼)可以導致它在許多上下文中普遍變得邪惡。
受到這一發現的啟發,我們生成了各種數據集,當用于訓練模型時,會誘導出邪惡、諂媚和幻覺等不受歡迎的特征。
我們使用這些數據集作為測試案例——我們能否找到一種方法,在不使模型獲得這些特征的情況下訓練這些數據?
頂部:我們微調數據集的一個代表性訓練樣本(“Mistake GSM8K II”),其中包含數學問題的錯誤答案。底部:在該數據集上訓練后的模型回應出人意料地表現出邪惡、諂媚和幻覺。
我們嘗試了一些方法。
我們的第一個策略是在訓練結束后,通過反向引導抑制對應不良特征的人格向量。我們發現這種方法在逆轉不受歡迎的個性變化方面是有效的;
然而,它帶來了使模型變得不那么智能的副作用(不出所料,因為我們正在篡改它的大腦)。這與我們之前關于引導的結果相呼應,發現了類似的副作用。
然后我們嘗試在訓練過程中使用人格向量進行干預,以防止模型獲得不良特征。
我們這樣做的方法有些違反直覺:我們實際上在訓練過程中引導模型朝向不良人格向量。這種方法大致類似于給模型接種疫苗——例如,通過給模型注入“邪惡”,我們使它對遇到“邪惡”訓練數據更具抵抗力。





京公網安備 11011402013531號