OpenAI突然開源新模型！99.9%的權(quán)重是0，新稀疏性方法代替MoE

IP屬地中國·北京 量子位 時間：2025-12-14 16:13:23

聞樂發(fā)自凹非寺
量子位 | 公眾號 QbitAI
破解AI胡說八道的關(guān)鍵，居然是給大模型砍斷99.9%的連接線？
OpenAI悄悄開源新模型，僅有0.4B參數(shù)，且99.9%的權(quán)重為零。

也就是Circuit Sparsity技術(shù)的開源實現(xiàn)。

這是一種通過人為約束模型內(nèi)部連接的稀疏性，讓模型計算過程可拆解、可理解的大語言模型變體，本質(zhì)上是為了解決傳統(tǒng)稠密Transformer的黑箱問題，讓內(nèi)部的計算電路能被人類清晰解讀，知道AI是如何做決策的，避免輕易相信AI的胡話（doge）。

更有人直言這種「極致稀疏+功能解耦」的思路可能會讓當(dāng)下熱門的MoE（混合專家模型）走上末路。

那么，當(dāng)Transformer的權(quán)重被訓(xùn)練到近乎全0，會發(fā)生什么呢？
放棄粗糙近似，追求原生稀疏
先說說為啥這個模型的思考過程能像電路圖一樣好懂。
咱們平時用的傳統(tǒng)大模型，內(nèi)部神經(jīng)元連接得密密麻麻，權(quán)重矩陣幾乎全為非零值，信息傳遞呈現(xiàn)出高度疊加狀態(tài)，就像一團扯不開的亂線，沒人能說清它是怎么得出某個結(jié)論的。
而Circuit Sparsity模型反其道而行之，基于GPT-2風(fēng)格的Transformer架構(gòu)訓(xùn)練時，通過嚴格約束讓權(quán)重的L0范數(shù)極小，直接把99.9%的無效連接砍斷，只留下千分之一的有效通路。

這些留存的非零權(quán)重連接就像電路圖里的導(dǎo)線，信息只能沿著固定路徑傳遞；同時，模型還會通過均值屏蔽剪枝方法，為每個任務(wù)拆出專屬的最小電路
比如處理Python引號閉合任務(wù)時，僅需2個MLP神經(jīng)元和1個注意力頭就能構(gòu)成核心電路，包含專門的引號檢測器、類型分類器等功能模塊，就像電路圖里的電阻、電容，各自管各自的事。

實驗數(shù)據(jù)顯示，在預(yù)訓(xùn)練損失相同的前提下，稀疏模型的任務(wù)專屬電路規(guī)模比稠密模型小16倍，且具備嚴格的必要性與充分性——保留這些模塊就能完成任務(wù)，刪掉任一節(jié)點則直接失效。
這樣，每一步的邏輯都能精準追蹤。
那這時候就不得不提當(dāng)下主流的MoE模型了。
MoE的核心思路是通過門控網(wǎng)絡(luò)將模型拆分為多個專家子網(wǎng)絡(luò)，每個專家負責(zé)處理一部分任務(wù)，靠路由器分配任務(wù)來提升效率，本質(zhì)上是用拆分專家這種粗糙的方式近似稀疏性，目的只是為了適配硬件的稠密矩陣計算需求。
但這種架構(gòu)存在致命缺陷：
一是會割裂模型的特征流形，導(dǎo)致專家同質(zhì)化嚴重、知識冗余等問題，不同專家間的信息協(xié)同依賴復(fù)雜的負載均衡損失函數(shù)調(diào)控，穩(wěn)定性堪憂；二是專家功能邊界模糊，無法像Circuit Sparsity模型那樣實現(xiàn)微觀機制的精準拆解。
反觀Circuit Sparsity，追求的是模型原生的稀疏性，通過把特征投射到超大維度，再嚴格限制有效激活的節(jié)點數(shù)量，從設(shè)計上就讓每個特征變得單義、正交，從根源上解決了傳統(tǒng)模型一個概念分散在多個節(jié)點的疊加問題，不用靠路由器這種hack手段也能避免信息干擾。

不過Circuit Sparsity目前也有明顯的短板，最突出的就是算力成本極高。
訓(xùn)練和推理的計算量是傳統(tǒng)稠密模型的100-1000倍，暫時還達不到頂尖大模型的能力；
而MoE模型在算力效率和性能平衡上已經(jīng)很成熟，短期內(nèi)依然會是工業(yè)界的主流選擇。
并且，這項工作也只是AI可解釋性探索的早期一步，未來團隊計劃將技術(shù)擴展到更大的模型，解鎖更復(fù)雜的推理電路。
目前，團隊發(fā)現(xiàn)有兩種克服稀疏模型訓(xùn)練效率低下的方法：
一個是直接從現(xiàn)有的密集模型中提取稀疏電路，這樣直接復(fù)用基礎(chǔ)框架，不額外訓(xùn)練稀疏模型，能大幅降低成本；另一種途徑則是不放棄從頭訓(xùn)練可解釋稀疏模型的這種思路，但針對訓(xùn)練慢、成本高的短板，從技術(shù)層面優(yōu)化訓(xùn)練機制，造出原生可解釋、且能高效落地的模型。
那么就期待研究人員后續(xù)用更成熟的工具或技術(shù)，逐步揭開大模型的黑箱面紗了。

[1]https://openai.com/zh-Hans-CN/index/understanding-neural-networks-through-sparse-circuits/
[2]https://x.com/byebyescaling/status/1999672833778287033?s=20
— 完 —

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

電車起火逃生黃金90秒：生死時速背后的自救與系統(tǒng)防線

三星也要做自己的“豆包手機助手”，AI端側(cè)真這么香？

OpenAI估值沖擊8300億美元！奧特曼背水一戰(zhàn)：我們無路可退

奧特曼凡爾賽自曝：我不想當(dāng)上市公司CEO！砸1.4萬億豪賭AGI

摩爾線程自研長江智能SoC芯片正式發(fā)布！8全大核最高2.65GHz

字節(jié)全員漲薪底氣曝光：2025年利潤500億美元，跟Meta一個水平了

全站最新

電車起火逃生黃金90秒：生死時速背后的自救與系統(tǒng)防線

三星也要做自己的“豆包手機助手”，AI端側(cè)真這么香？

OpenAI估值沖擊8300億美元！奧特曼背水一戰(zhàn)：我們無路可退

奧特曼凡爾賽自曝：我不想當(dāng)上市公司CEO！砸1.4萬億豪賭AGI

熱門推薦

《互聯(lián)網(wǎng)平臺價格行為規(guī)則》發(fā)布：平臺促銷不得夸大補貼金額、不能強制經(jīng)營者降價

馬斯克勝訴重獲560億美元薪酬方案，現(xiàn)值約1500億美元

挑戰(zhàn)馬斯克Neuralink：奧爾特曼腦機公司分拆獨立，要用超聲波“聽”你的想法

字節(jié)跳動被傳全年利潤500億美元創(chuàng)新高知情人士回應(yīng)：數(shù)據(jù)不實

電車起火逃生黃金90秒：生死時速背后的自救與系統(tǒng)防線

三星也要做自己的“豆包手機助手”，AI端側(cè)真這么香？

OpenAI估值沖擊8300億美元！奧特曼背水一戰(zhàn)：我們無路可退

奧特曼凡爾賽自曝：我不想當(dāng)上市公司CEO！砸1.4萬億豪賭AGI

摩爾線程自研長江智能SoC芯片正式發(fā)布！8全大核最高2.65GHz

字節(jié)全員漲薪底氣曝光：2025年利潤500億美元，跟Meta一個水平了

CMU教授萬字反思：西方式AGI永遠到不了

挑戰(zhàn)馬斯克Neuralink：奧爾特曼腦機公司分拆獨立

消息稱蘋果正為首款折疊屏手機iPhone Fold嘗試UFG玻璃，技術(shù)難點有待解決

馬斯克勝訴重獲560億美元薪酬方案，現(xiàn)值約1500億美元

印鈔機！字節(jié)跳動今年有望實現(xiàn)500億美元利潤