![]()
神經網絡是當今最強大AI系統的動力核心,但其內部工作原理依然難以捉摸。我們并非為這些模型編寫一步一指令的明確代碼,相反,它們通過調整數十億個內部連接(即“權重”)來自我學習,直至掌握任務。我們設計了訓練規則,卻無法預知最終涌現出的具體行為,其結果是一個任何人都難以輕易解讀的、稠密的連接網絡。
現在,OpenAI提出了一種新方法,旨在通過訓練模型以更簡單、更可追溯的方式“思考”,從而更好地理解它們的工作原理
如何看待可解釋性
隨著AI系統能力日益增強,并在科學、教育和醫療等領域產生真實世界的影響,理解其工作方式變得至關重要。可解釋性,指的是幫助我們理解模型為何產生特定輸出的方法。
實現這一目標有多種途徑。例如,推理模型被激勵在通往最終答案的過程中解釋其工作步驟,這種“思維鏈可解釋性”利用這些解釋來監控模型行為。這種方法已展現出直接的實用價值,例如當前模型的思維鏈似乎能有效揭示欺騙等令人擔憂的行為。然而,完全依賴此特性是一種脆弱的策略,未來可能會失效。
另一方面,機制可解釋性(mechanistic interpretability)——也正是OpenAI本次研究的焦點——旨在徹底逆向工程一個模型的計算過程。盡管它迄今為止的直接應用較少,但原則上,它可以為模型行為提供更完整的解釋。通過在最細粒度的層面上解釋模型行為,機制可解釋性可以減少假設,給予我們更強的信心。但從底層細節到復雜行為解釋的路徑也因此更長、更艱難。
可解釋性支持著幾個關鍵目標,例如實現更好的監督,并為不安全或策略性失調行為提供早期預警。它也補充了OpenAI在其他安全方面的工作,如可擴展監督、對抗性訓練和紅隊測試。
在這項工作中,OpenAI展示了我們通常可以采用某種訓練方式,讓模型變得更容易解釋。他們將這項工作視為對稠密網絡進行事后分析的一種有希望的補充。
這是一個比較大的賭注,從當前的工作到完全理解最強大模型的復雜行為,還有很長的路要走。盡管如此,研究發現,對于簡單的行為,用這種新方法訓練的稀疏模型包含了小型的、解耦的“電路”,這些電路既可被理解,也足以執行該行為。這表明,可能存在一條可行的路徑,用以訓練出我們能夠理解其機制的大型系統。
一種新思路:學習稀疏模型
以往的機制可解釋性工作,通常從一個已經訓練好的、稠密且糾纏的網絡入手,試圖去解開它。在這些網絡中,每個神經元都與成千上萬個其他神經元相連,并且大多數神經元似乎執行著多種不同功能,這使得理解它們變得幾乎不可能。
但如果我們換一種思路呢?如果我們訓練一個“不糾纏”的神經網絡——它擁有更多的神經元,但每個神經元只有幾十個連接。那么,最終得到的網絡或許會更簡單、更容易理解。這就是OpenAI這項工作的核心研究思路
基于這一原則,OpenAI訓練了一些語言模型,其架構與GPT-2等現有模型非常相似,但有一個微小改動:強制模型絕大多數權重為零。這限制了模型只能使用其神經元之間極少數的可能連接。研究人員認為,這個簡單的改變能極大地解耦模型的內部計算
在傳統的的稠密神經網絡中,每一層的每個神經元都與下一層的所有神經元相連。而在稀疏模型中,每個神經元只與下一層的少數幾個神經元連接。研究人員希望這能讓神經元乃至整個網絡變得更容易被理解
![]()
如何評估可解釋性
為了衡量稀疏模型的計算在多大程度上是解耦的,研究人員考察了各種簡單的模型行為,并檢查是否能分離出負責每種行為的模型部分——他們稱之為電路(circuits)。
他們手工策劃了一系列簡單的算法任務。對于每項任務,他們將模型剪枝,找到能執行該任務的最小電路,并檢查該電路的簡潔程度。研究發現,通過訓練更大、更稀疏的模型,可以得到能力越來越強、同時電路也越來越簡單的模型。
下圖是一張可解釋性與模型能力的對比圖中(左下角為更優),對于一個固定大小的稀疏模型,增加稀疏度(即設置更多權重為零)會降低模型能力,但提高可解釋性。而擴大模型尺寸則會將這條能力-可解釋性的邊界向外推移。這表明,我們或許可以構建出既強大又可解釋的大型模型
![]()
深入電路:一個具體案例
為了更具體地說明,可以看一個任務:一個在Python代碼上訓練的模型,需要用正確的引號來補全一個字符串。在Python中,'hello'必須以單引號結尾,而"hello"必須以雙引號結尾。模型可以通過記住字符串開頭的引號類型,并在末尾復現它來解決這個問題
![]()
研究發現,最易于解釋的模型似乎包含了實現了這一確切算法的解耦電路。
這個預測字符串應以單引號還是雙引號結尾的電路,僅使用了5個殘差通道、第0層的2個MLP神經元、以及第10層的1個注意力查詢-鍵通道和1個值通道。其工作流程如下:
1.模型在一個殘差通道中編碼單引號,在另一個通道中編碼雙引號
2.一個MLP層將此信息轉換為一個檢測任意引號的通道和另一個區分單雙引號的通道
3.一個注意力操作會忽略中間的詞元,找到之前的開引號,并將其類型復制到最終詞元
4.模型預測出匹配的閉合引號
根據定義,上圖所示的連接對于執行該任務是充分的——如果我們移除模型的其余部分,這個小電路仍然能工作。同時它們也是必要的——刪除這幾個連接會導致模型失敗。
研究人員還研究了一些更復雜的行為,例如變量綁定。這些行為的電路更難被完全解釋。即便如此,仍然可以獲得相對簡單的部分解釋,這些解釋對模型行為具有預測性。例如,在一個電路中,一個注意力操作在變量current被定義時,將變量名復制到set()詞元中;后續另一個操作則將類型從set()詞元復制到該變量的后續使用中,從而讓模型推斷出正確的下一個詞元
![]()
這些稀疏模型比前沿模型小得多,其計算的很大一部分仍未被解釋。
接下來,研究團隊希望將這些技術擴展到更大的模型,并解釋模型更多的行為。通過在有能力的稀疏模型中枚舉出更復雜推理背后的電路基元,或許能發展出一種有助于更有針對性地研究前沿模型的理解
為了克服訓練稀疏模型的低效問題,研究人員看到了兩條前進的道路:
1.從現有的稠密模型中提取稀疏電路,而不是從頭開始訓練稀疏模型。因為稠密模型在部署上本質比稀疏模型更高效
2.開發更高效的可解釋性訓練技術,這可能更容易投入生產。
需要注意的是,目前的發現并不能保證這種方法會延伸到能力更強的系統上,但這些早期結果充滿希望。最終目標是逐步擴大我們能夠可靠解釋的模型范圍,并構建工具,使未來的系統更容易分析、調試和評估
參考:
https://openai.com/index/understanding-neural-networks-through-sparse-circuits/
paper:
https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf





京公網安備 11011402013531號