![]()
(MIT TR)
在大型語言模型推動 AI 加速前行的今天,它們的內部依然是高度不透明的。
我們使用神經網絡構建模型,卻并不會為它們寫下逐條邏輯。模型通過訓練自動調整數十億個權重,直到表現良好。但最終得到的,往往是一個人類難以解讀的稠密結構。
在性能迅速演進的同時,“理解模型本身”卻幾乎沒有跟上。而當 AI 已開始影響科學研究、教育、醫療、公共安全等關鍵領域時,這種理解缺口變得尤其令人不安。
OpenAI 正試圖改變這一現狀。
近日,OpenAI 研究科學家 Leo Gao 在接受《麻省理工科技評論》的獨家采訪時透露,他們構建了一種全新的實驗性大型語言模型——權重稀疏 Transformer(weight-sparse transformer)。它的性能遠不及 GPT-5 或 Claude、Gemini 等主流模型,甚至大致能力僅相當于 OpenAI 于 2018 年推出的 GPT-1(盡管團隊尚未做直接對比),但它有一個罕見的特性:可以被人類真正看懂
![]()
為什么需要一個能看懂的大模型?
今天的大模型令人著迷,也同樣讓人不安:它們給出答案,卻無法解釋為什么;它們可能突然開始幻覺,卻沒人知道觸發因子;它們展現出復雜推理能力,卻無人能確定這些能力是否可靠。
主流大模型依賴的是稠密神經網絡:每個神經元都和周圍層的所有神經元相連。這樣的結構很擅長學習,但也把知識打碎在海量連接中,形成一種極難閱讀的復雜糾纏。在這種結構中:一個概念會被拆成多個碎片,藏在模型不同角落;一個神經元可能同時負責多個功能;你幾乎無法追蹤模型完成某個推理的完整路徑。正因如此,大模型常被比喻為“讓任何人都不敢拆開的飛機引擎”。
OpenAI 的想法是反其道而行,訓練一個從一開始就更容易拆解的模型。
OpenAI 選擇的方向是機制可解釋性(mechanistic interpretability):不僅要看到模型輸出什么,還要逆向工程出模型內部如何得出這個結果。
他們在結構與 GPT-2 非常接近的模型中加入了一個決定性的修改:強制大部分權重為零,讓每個神經元只連接極少數其他神經元。這樣模型被迫將特征局部化,而不是分散在整個網絡中。這種設計的直接效果是:模型速度變慢、模型能力變弱,但模型內部結構變得可讀、可追蹤、可解釋。
這個模型比市面上的任何 LLM 都要慢,但更容易把特定神經元或神經元群組與具體概念和功能對應起來。“模型的可解釋性差異非常顯著。”Gao 說。
團隊用非常簡單的任務測試這個新模型,讓模型基于 Python 代碼判斷字符串應以哪種引號閉合。例如:‘hello’必須以單引號結尾,“hello”必須以雙引號結尾。模型的算法是:記住開頭的引號類型,在結尾復制它。
![]()
(OpenAI)
在傳統稠密模型中,很難追蹤模型如何實現它。但在稀疏模型中,團隊清晰看到完整的計算鏈條:模型將單引號與雙引號編碼到兩個不同通道;MLP 模塊將其加工為“是否是引號”與“是哪種引號”;注意力層跳過中間 token,找到開引號的位置;最終復制引號類型作為輸出。這是模型內部機制首次以如此清晰的方式呈現。
對于更復雜的任務,例如 Python 代碼中的變量綁定,模型內部電路變得難以完全描述。但 OpenAI 仍能夠識別出關鍵路徑,例如:一個注意力頭將變量名復制到其定義位置;另一個注意力頭將類型從定義處復制到變量后續使用處。這種“部分電路”,已經能夠預測模型的后續行為。這意味著:即便任務復雜,模型內部的關鍵機制可能依然是局部結構化的,而非完全混亂的。
![]()
能否擴展到 GPT-3 或更大規模?
波士頓學院的數學家 Elisenda Grigsby 對該技術能否擴展到更大的模型持保留意見,因為大型模型必須處理更復雜多樣的任務。Gao 和 Mossing 也承認這是當前模型的重大局限,并認為這種方法永遠無法達到 GPT-5 那樣的性能。但 OpenAI 相信,通過改進技術,未來可能構建出透明度與 GPT-3 相當的模型。
“也許幾年內,我們就能擁有一個完全可解釋的 GPT-3。你能走進它的每一個部分,理解它如何完成每一項任務。”Gao 說,“如果我們能擁有這樣一個系統,我們將學到太多。”
無論能否擴展至超大規模模型,OpenAI 的實驗正在推動一個核心問題走向更清晰的未來:我們能否讓大模型從“強大但不可控”的黑箱,變成“透明且可信賴”的系統?
機械可解釋性研究仍處在開端,但像權重稀疏 Transformer 這樣的實驗模型,讓我們第一次看到了更透明、更安全的 AI 可能是什么樣子。
這不是為了建造最強的模型,而是為了回答一個關乎未來 AI 的根本問題:我們能否真正理解正在改變世界的模型?
1.https://www.technologyreview.com/2025/11/13/1127914/openais-new-llm-exposes-the-secrets-of-how-ai-really-works/
2.https://openai.com/index/understanding-neural-networks-through-sparse-circuits/





京公網安備 11011402013531號