OpenAI拆開AI「黑箱」，終于可以看懂GPT在想什么了

IP屬地中國·北京 新智元 時間：2025-11-15 00:11:04

新智元報道
編輯：元宇
OpenAI的新論文介紹了他們在破解大模型「黑箱」上的一次重要突破，通過訓練結構更簡單、連接更稀疏的神經網絡，為構建既強大又透明的模型提供全新方向。
破解大模型「黑箱」的鑰匙找到了？
剛剛，在理解大模型復雜行為的道路上，OpenAI又邁出了關鍵一步。

他們從自己訓練出來的稀疏模型里，發現存在結構小而清晰、既可理解又能完成任務的電路（這里的電路，指神經網絡內部一組協同工作的特征與連接模式，是AI可解釋性研究的一個術語）。
這意味著，如果真存在一種可行的方式來訓練機制可解釋的大型系統，它們將是破解大模型「黑箱」的鑰匙。
麻省理工科技評論認為，OpenAI的新研究對于破解大模型「黑箱」意義重大：
構建一個更加透明的模型，將有助于揭示大模型的運作機制，幫助研究人員弄清模型為何會產生幻覺、為何會失控，以及我們應該在多大程度上信任它們來完成關鍵任務。
OpenAI在其官方博客和論文中介紹了他們的具體做法。

論文地址：https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf
神經網絡與大模型黑箱
神經網絡難以理解，本質上與其結構方式、參數規模以及訓練方式有關。
這些特性共同作用，造成了所謂的大模型「黑箱效應」——
我們知道它能工作，但很難精確解釋它「為什么這樣工作」。
由此，也帶來了理解大模型工作機制，即大模型「可解釋性」上的挑戰。
尤其是隨著大模型在科學、教育、醫療等領域的具體應用，「可解釋性」問題也越來越重要。
實現大模型可解釋性的方式有很多，比如通過鏈式思維（chain of thought）來解釋大模型行為，以此來監控模型的行為。
但這種能力在未來也可能會失效。
因此，OpenAI在新研究中更關注機制可解釋性（mechanistic interpretability），目標是徹底逆向工程化大模型的計算過程。
可解釋性，可以幫助我們實現很多在模型安全、監督上的工作：
比如，讓監督更有效，提前發現不安全或不對齊的行為等，也可以與可擴展監督、對抗訓練、紅隊測試等其他安全工作相互補充。
雖然它的效果可能不如鏈式思維那樣立竿見影，但在理論上，它可以更完整地解釋模型的行為。
新方法
訓練稀疏模型
以往關于機制可解釋性的研究，好比把森林還原成一棵棵樹木，一般是從密集、糾纏的神經網絡出發，嘗試把它們「解開」。
然而在這類網絡中，一個神經元可能連著成千上萬個其他神經元，大多數神經元還「身兼多職」，因此，想徹底搞清楚它們到底在干什么，幾乎是不可能的。
但是，如果把一大片森林縮減成排列相對整齊的樹木會怎樣？
也就是訓練的神經網絡結構更清晰，神經元數量更多，但每個神經元只有幾十個連接，這樣得到的網絡可能更簡單，也更容易解釋。
這就是OpenAI訓練稀疏模型的核心想法。
基于這個原則，他們訓練了一個結構與GPT-2等現有語言模型非常接近的模型，只做了一個小改動：讓模型的大部分權重變成零。
這樣模型就只能使用極少數連接。
OpenAI認為這個簡單的改變，可以讓模型內部的計算被大幅「解耦」。

上圖展示的是神經網絡內部連接結構的兩種形式。
左邊Dense（密集），顯示的是普通的全連接神經網絡，每個神經元都會連接到下一層的所有神經元。
右邊Circuit Sparsity（稀疏電路），顯示的是在稀疏模型里，每個神經元只會與下一層中的少數幾個神經元相連。
稀疏模型可以讓神經元本身，以及整個網絡，都更容易被理解。
可解釋性評估
如何衡量稀疏模型內部的計算「解耦」程度？
研究人員選取了一些簡單的模型行為，檢查能否找到模型中負責這些行為的部分——他們稱之為電路，并整理出一套簡單的算法任務。
對于每個任務，他們將模型剪枝到仍能完成任務的最小電路，并觀察這個電路有多簡單，結果發現：
訓練更大但更稀疏的模型，往往能得到能力更強、但電路更簡單的模型。

研究人員在不同模型上繪制了可解釋性與模型能力之間的關系圖，如上圖。
對于固定規模的稀疏模型來說，提高稀疏度，即把更多權重設為零，這會降低模型能力，但會提升可解釋性。
隨著模型規模變大，這條前沿會整體外移，這說明我們可以構建既有能力又更可解釋的更大模型。
舉例來說：假設一個訓練過Python代碼的模型，需要用正確的引號類型補全字符串。

上圖是一個稀疏Transformer中的示例電路，用來預測字符串最后應該用單引號還是雙引號結尾。
該電路只使用了五個殘差通道（豎直的灰色線）、第0層的兩個MLP神經元，以及第10層中的一個注意力的query-key通道和一個value通道。
在一個殘差通道中編碼單引號，在另一個通道中編碼雙引號；
通過一個MLP層把它們轉換為一個檢測任意引號的通道，以及另一個用于區分單引號和雙引號的通道；
通過注意力操作忽略中間的Token，找到前一個引號，并將它的類型復制給最后一個Token；
預測匹配的結束引號。
模型可以通過記住字符串開頭的引號類型，并在結尾重現它來完成任務。
這些連接足以完成任務，這意味著把模型其他部分都刪掉，這個小電路仍然能工作。
但同時，它們也是必要的，刪掉這些連接模型就會失敗。

在對于一些更復雜行為的研究中，完全解釋這些行為的電路（比如變量綁定）會更困難，但仍然能得到相對簡單、而且能預測模型行為的部分解釋。
在OpenAI研究人員看來，這項工作是讓模型計算更容易被理解的早期嘗試，他們的稀疏模型比最前沿模型小很多，而且它們的大部分計算仍無法解釋。
因為，未來還有很長的路要走。
下一步，OpenAI計劃將這些技術擴展到更大的模型，并能解釋更多模型行為。
在解決訓練稀疏模型效率低下的問題上，OpenAI也指出了兩條可能路線。
一條路線，是從現有的密集模型中提取稀疏電路，而不是從頭訓練稀疏模型。
另一條路線，是開發更高效的模型可解釋性訓練技術。
他們的目標，是逐步擴大能夠可靠解釋的模型范圍，并構建工具，讓未來的系統更容易分析、調試和評估。
這樣，我們就會在追求更強大模型的同時，也讓它們的解釋機制更加透明，這對于清晰大模型與人類的能力邊界十分重要。
作者簡介
Leo Gao

據公開資料顯示，Leo Gao是EleutherAI的聯合創始成員之一，2021年起在OpenAI擔任研究員，參與了大語言模型能力評估、獎勵模型過優化、稀疏自動編碼器等方向的研究。
他長期從事人工智能對齊、機器學習等工作，同時對軟件開發、數學、語言學、經濟學等領域也頗有興趣。
通過參與EleutherAI和The Pile等開放項目，他在實踐中推動了開放研究以及公開數據集和模型訪問，并特別關注大模型規模擴展對能力與對齊帶來的潛在風險。
參考資料：
https://www.technologyreview.com/2025/11/13/1127914/openais-new-llm-exposes-the-secrets-of-how-ai-really-works/%20
https://openai.com/index/understanding-neural-networks-through-sparse-circuits/

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

雷軍連發多條微博重申小米汽車安全是前提

“拉索”睜亮眼，破解宇宙線“膝蓋”之謎！發現黑洞是宇宙中的“超級加速器”

6G技術“突圍”：邁出商用關鍵一步

“拉索”重磅新發現！宇宙線“膝蓋”之謎竟由這類黑洞導演

紫光展銳T9300 5G發布：A78大核2.4GHz，安兔兔V10跑分55萬

“空天地一體”防線多維度賦能低空安全治理護航低空經濟發展

全站最新

雷軍連發多條微博重申小米汽車安全是前提

“拉索”睜亮眼，破解宇宙線“膝蓋”之謎！發現黑洞是宇宙中的“超級加速器”

6G技術“突圍”：邁出商用關鍵一步

“拉索”重磅新發現！宇宙線“膝蓋”之謎竟由這類黑洞導演

熱門推薦

雷軍連發多條微博重申小米汽車安全是前提

“拉索”睜亮眼，破解宇宙線“膝蓋”之謎！發現黑洞是宇宙中的“超級加速器”

6G技術“突圍”：邁出商用關鍵一步

“拉索”重磅新發現！宇宙線“膝蓋”之謎竟由這類黑洞導演

紫光展銳T9300 5G發布：A78大核2.4GHz，安兔兔V10跑分55萬

“空天地一體”防線多維度賦能低空安全治理護航低空經濟發展

華為，AI突破將發布

黑洞竟是千萬億電子伏加速器，拉索破解宇宙線“膝”形成之謎

高海拔宇宙線觀測站“拉索”首次揭示黑洞在宇宙線起源中的作用

中國“拉索”破解宇宙線起源之謎

全球限量23臺！OPPO Reno15宋雨琦限定款明天發布：專屬編號+簽名

NotebookCheck評測英特爾酷睿Ultra 7 255U處理器

站在30萬輛的山腳下，嵐圖還要面對更陡峭的挑戰

車好看是第一位和安全是前提矛盾嗎？雷軍連續發文回應質疑

AI、出海、ESG……CFO角色正在加速轉變，這些都是關鍵詞