![]()
新智元報道
編輯:元宇
OpenAI的新論文介紹了他們在破解大模型「黑箱」上的一次重要突破,通過訓練結構更簡單、連接更稀疏的神經網絡,為構建既強大又透明的模型提供全新方向。
破解大模型「黑箱」的鑰匙找到了?
剛剛,在理解大模型復雜行為的道路上,OpenAI又邁出了關鍵一步。
![]()
他們從自己訓練出來的稀疏模型里,發現存在結構小而清晰、既可理解又能完成任務的電路(這里的電路,指神經網絡內部一組協同工作的特征與連接模式,是AI可解釋性研究的一個術語)。
這意味著,如果真存在一種可行的方式來訓練機制可解釋的大型系統,它們將是破解大模型「黑箱」的鑰匙。
麻省理工科技評論認為,OpenAI的新研究對于破解大模型「黑箱」意義重大:
構建一個更加透明的模型,將有助于揭示大模型的運作機制,幫助研究人員弄清模型為何會產生幻覺、為何會失控,以及我們應該在多大程度上信任它們來完成關鍵任務。
OpenAI在其官方博客和論文中介紹了他們的具體做法。
![]()
![]()
論文地址:https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf
神經網絡與大模型黑箱
神經網絡難以理解,本質上與其結構方式、參數規模以及訓練方式有關。
這些特性共同作用,造成了所謂的大模型「黑箱效應」——
我們知道它能工作,但很難精確解釋它「為什么這樣工作」。
由此,也帶來了理解大模型工作機制,即大模型「可解釋性」上的挑戰。
尤其是隨著大模型在科學、教育、醫療等領域的具體應用,「可解釋性」問題也越來越重要。
實現大模型可解釋性的方式有很多,比如通過鏈式思維(chain of thought)來解釋大模型行為,以此來監控模型的行為。
但這種能力在未來也可能會失效。
因此,OpenAI在新研究中更關注機制可解釋性(mechanistic interpretability),目標是徹底逆向工程化大模型的計算過程。
可解釋性,可以幫助我們實現很多在模型安全、監督上的工作:
比如,讓監督更有效,提前發現不安全或不對齊的行為等,也可以與可擴展監督、對抗訓練、紅隊測試等其他安全工作相互補充。
雖然它的效果可能不如鏈式思維那樣立竿見影,但在理論上,它可以更完整地解釋模型的行為。
新方法
訓練稀疏模型
以往關于機制可解釋性的研究,好比把森林還原成一棵棵樹木,一般是從密集、糾纏的神經網絡出發,嘗試把它們「解開」。
然而在這類網絡中,一個神經元可能連著成千上萬個其他神經元,大多數神經元還「身兼多職」,因此,想徹底搞清楚它們到底在干什么,幾乎是不可能的。
但是,如果把一大片森林縮減成排列相對整齊的樹木會怎樣?
也就是訓練的神經網絡結構更清晰,神經元數量更多,但每個神經元只有幾十個連接,這樣得到的網絡可能更簡單,也更容易解釋。
這就是OpenAI訓練稀疏模型的核心想法。
基于這個原則,他們訓練了一個結構與GPT-2等現有語言模型非常接近的模型,只做了一個小改動:讓模型的大部分權重變成零。
這樣模型就只能使用極少數連接。
OpenAI認為這個簡單的改變,可以讓模型內部的計算被大幅「解耦」。
![]()
上圖展示的是神經網絡內部連接結構的兩種形式。
左邊Dense(密集),顯示的是普通的全連接神經網絡,每個神經元都會連接到下一層的所有神經元。
右邊Circuit Sparsity(稀疏電路),顯示的是在稀疏模型里,每個神經元只會與下一層中的少數幾個神經元相連。
稀疏模型可以讓神經元本身,以及整個網絡,都更容易被理解。
可解釋性評估
如何衡量稀疏模型內部的計算「解耦」程度?
研究人員選取了一些簡單的模型行為,檢查能否找到模型中負責這些行為的部分——他們稱之為電路,并整理出一套簡單的算法任務。
對于每個任務,他們將模型剪枝到仍能完成任務的最小電路,并觀察這個電路有多簡單,結果發現:
訓練更大但更稀疏的模型,往往能得到能力更強、但電路更簡單的模型。
![]()
研究人員在不同模型上繪制了可解釋性與模型能力之間的關系圖,如上圖。
對于固定規模的稀疏模型來說,提高稀疏度,即把更多權重設為零,這會降低模型能力,但會提升可解釋性。
隨著模型規模變大,這條前沿會整體外移,這說明我們可以構建既有能力又更可解釋的更大模型。
舉例來說:假設一個訓練過Python代碼的模型,需要用正確的引號類型補全字符串。
![]()
上圖是一個稀疏Transformer中的示例電路,用來預測字符串最后應該用單引號還是雙引號結尾。
該電路只使用了五個殘差通道(豎直的灰色線)、第0層的兩個MLP神經元,以及第10層中的一個注意力的query-key通道和一個value通道。
在一個殘差通道中編碼單引號,在另一個通道中編碼雙引號;
通過一個MLP層把它們轉換為一個檢測任意引號的通道,以及另一個用于區分單引號和雙引號的通道;
通過注意力操作忽略中間的Token,找到前一個引號,并將它的類型復制給最后一個Token;
預測匹配的結束引號。
模型可以通過記住字符串開頭的引號類型,并在結尾重現它來完成任務。
這些連接足以完成任務,這意味著把模型其他部分都刪掉,這個小電路仍然能工作。
但同時,它們也是必要的,刪掉這些連接模型就會失敗。
![]()
在對于一些更復雜行為的研究中,完全解釋這些行為的電路(比如變量綁定)會更困難,但仍然能得到相對簡單、而且能預測模型行為的部分解釋。
在OpenAI研究人員看來,這項工作是讓模型計算更容易被理解的早期嘗試,他們的稀疏模型比最前沿模型小很多,而且它們的大部分計算仍無法解釋。
因為,未來還有很長的路要走。
下一步,OpenAI計劃將這些技術擴展到更大的模型,并能解釋更多模型行為。
在解決訓練稀疏模型效率低下的問題上,OpenAI也指出了兩條可能路線。
一條路線,是從現有的密集模型中提取稀疏電路,而不是從頭訓練稀疏模型。
另一條路線,是開發更高效的模型可解釋性訓練技術。
他們的目標,是逐步擴大能夠可靠解釋的模型范圍,并構建工具,讓未來的系統更容易分析、調試和評估。
這樣,我們就會在追求更強大模型的同時,也讓它們的解釋機制更加透明,這對于清晰大模型與人類的能力邊界十分重要。
作者簡介
Leo Gao
![]()
據公開資料顯示,Leo Gao是EleutherAI的聯合創始成員之一,2021年起在OpenAI擔任研究員,參與了大語言模型能力評估、獎勵模型過優化、稀疏自動編碼器等方向的研究。
他長期從事人工智能對齊、機器學習等工作,同時對軟件開發、數學、語言學、經濟學等領域也頗有興趣。
通過參與EleutherAI和The Pile等開放項目,他在實踐中推動了開放研究以及公開數據集和模型訪問,并特別關注大模型規模擴展對能力與對齊帶來的潛在風險。
參考資料:
https://www.technologyreview.com/2025/11/13/1127914/openais-new-llm-exposes-the-secrets-of-how-ai-really-works/%20
https://openai.com/index/understanding-neural-networks-through-sparse-circuits/





京公網安備 11011402013531號