亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

OpenAI新論文拆解語言模型內部機制:用「稀疏電路」解釋模型行為

IP屬地 中國·北京 機器之心Pro 時間:2025-11-14 20:11:31

機器之心報道

編輯:杜偉

在如今的 AI 領域,大多數大語言模型在很大程度上仍以「黑箱」方式工作,即使是專業的研究者也難以完全理解它們的內部計算過程。因此,提升模型的透明度有助于分析和解釋大語言模型產生幻覺、行為不穩定或在關鍵場景做出不可靠判斷的潛在原因。

就在今天,OpenAI 發布了一項新研究,使用新方法來訓練內部機制更易于解釋的小型稀疏模型,其神經元之間的連接更少、更簡單,從而觀察它們的計算過程是否更容易被人理解。

與普通模型不同,OpenAI 發現可以從該稀疏模型中提取出簡單、易于理解的部件來執行特定任務,例如在代碼中正確結束字符串或跟蹤變量類型。



下圖為整體方法概覽,首先訓練權重稀疏的模型,然后針對精心挑選的一系列簡單行為,將模型剪枝到僅保留完成該任務所需的節點子集。



論文一作 Leo Gao 表示,「通過隔離稀疏模型內部負責各種簡單行為的微小電路,以前所未有的方式理解語言模型?!?/p>



接下來看實現細節。

如何看待可解釋性?

隨著 AI 系統變得越來越強大,并在科學、教育和醫療等領域的決策中產生實際影響,理解它們的工作原理至關重要??山忉屝灾傅氖菐椭斫饽P蜑楹螘a生某個輸出的方法,實現這一點的方式有很多。

例如,推理模型在產生最終答案的過程中會被鼓勵去解釋自己的推理步驟。思維鏈(CoT)可解釋性利用這些解釋來監控模型行為。這種方式直接有用:當前推理模型的思維鏈能夠提供與欺騙等令人擔憂的行為相關的線索。然而,完全依賴這種特性是一種脆弱的策略,可能會隨著時間的推移失效。

另一方面,本研究關注的機械可解釋性試圖完全逆向工程模型的計算過程。到目前為止,機械可解釋性的直接效用較低,但原則上,它可以對模型行為提供更加完整的解釋。通過嘗試在最細粒度層面解釋模型行為,機械可解釋性可以減少假設,讓我們擁有更多信心。但是,從低層次細節推導復雜行為的解釋,是一條更長且更困難的道路。

可解釋性支持多個關鍵目標,例如實現更好的監督、為不安全或策略不一致行為提供早期預警。可解釋性也與其他安全方法相互補充,比如可擴展監督、對抗式訓練和紅隊測試。

在這項研究中,OpenAI 展示了:有時我們能夠以某些方式訓練模型,使其更容易解釋。這項工作是對稠密網絡事后分析的一種有前景的補充。

這是一個雄心勃勃的探索方向;從本研究走向完全理解最強大模型的復雜行為仍有漫長的路要走。然而,對于簡單行為,OpenAI 發現使用其方法訓練的稀疏模型包含小型、解耦的電路,這些電路既可理解又足以執行對應行為。這表明:或許存在一條可行路徑,可以訓練更大的系統,并理解其內部機制。

一種新方法:學習稀疏模型

之前的機械可解釋性研究往往從稠密、糾纏的網絡入手,并試圖解開它們。在這些網絡中,每個神經元都與下一層的數千個神經元相連。大多數神經元很可能承擔多種不同功能,使得模型幾乎無法理解。

但如果從一開始就訓練未糾纏的神經網絡呢?這些網絡擁有更多神經元,但每個神經元只與其他幾十個神經元相連?;蛟S這樣產生的網絡會更簡單,也更容易理解。這正是本項研究的核心假設。

基于這一原則,OpenAI 訓練了與 GPT-2 等現有語言模型結構非常相似的模型,只做了一個小修改:強制模型的大部分權重為零。這限制了模型只能使用極少數可能的神經元連接。這是一個簡單的改變,但 OpenAI 認為,它能夠顯著解開模型內部的計算結構。

如下圖所示,在普通稠密神經網絡中,每個神經元都會連接到下一層的所有神經元。而在本文的稀疏模型中,每個神經元只連接到下一層的少數神經元。OpenAI 希望這會讓神經元以及整個網絡更容易理解。



評估可解釋性

OpenAI 希望衡量稀疏模型的計算在多大程度上實現了解耦。他們考慮了一些簡單的模型行為,并檢查是否能隔離負責特定行為的模型部分 —— 稱之為「電路」(circuit)。

具體地,OpenAI 人為策劃了一套簡單的算法任務。針對每項任務,他們將模型剪枝到執行該任務所需的最小電路,并檢查該電路的簡單性。結果發現,通過訓練更大且更稀疏的模型,能夠得到更強大且電路更簡單的模型。

OpenAI 將不同模型的可解釋性與能力繪制成圖(如下所示)。對于固定大小的稀疏模型,提高稀疏度(設更多權重為零)會降低能力,但提升可解釋性。而擴大模型規模則會擴展能力與可解釋性之間的最優前沿,這表明有可能構建更強大且更可解釋的更大模型。



為使其更具體,OpenAI 考慮了一個任務:模型在補全 Python 代碼時必須選擇正確的引號類型。

在 Python 中,‘hello’ 必須以單引號結尾,“hello” 必須以雙引號結尾。模型可以通過記住字符串的起始引號類型,并在結尾復現它來完成任務。OpenAI 表示,其最可解釋的模型似乎包含解耦的電路,恰好實現了這一算法。

下圖展示了一個稀疏 Transformer 中的示例電路,用于預測字符串應該以單引號還是雙引號結尾。該電路只使用了五個殘差通道(垂直灰線)、第 0 層中的兩個 MLP 神經元,以及第 10 層的一個注意力查詢 - 鍵通道和一個值通道。模型:(1) 使用不同通道分別編碼單引號和雙引號;(2) 使用 MLP 層將其轉換為能檢測任意引號的通道,以及能區分單引號與雙引號的通道;(3) 使用注意力操作忽略中間的 token,找到前一個引號,并將其類型復制到最終 token;(4) 預測匹配的結束引號。



在 OpenAI 的定義中,上述連接足以完成任務。如果移除模型的其他部分,這個小電路仍然有效。這些連接也是必要的,刪除這幾條邊會導致模型無法完成任務。

OpenAI 還研究了一些更復雜的行為,例如下面展示的變量綁定行為,其電路更難完全解釋。即便如此,OpenAI 仍能得到相對簡單的部分解釋,而且這些解釋能夠預測模型行為。下圖為該電路的示例。

為了確定變量 current 的類型,一個注意力操作會在該變量被定義時將其名稱復制到 set () token 上,而另一個后續的注意力操作則會將類型從 set () token 復制到變量后續的使用位置,使模型推斷出正確的下一個 token。



未來走向

本項工作是邁向更易理解模型計算的第一步,未來仍有很長的路要走。本文的稀疏模型遠小于前沿模型,而且它們的大部分計算仍未被解釋。接下來,OpenAI 希望將這些技術擴展到更大的模型,并解釋模型更多的行為。通過列舉可解釋的稀疏模型中更復雜推理的電路結構,或許能建立某種理解,從而更好地引導前沿模型的研究。

為了克服訓練稀疏模型效率低的問題,OpenAI 看到兩條前進道路:一是從現有的稠密模型中提取稀疏電路,而不是從零開始訓練稀疏模型。稠密模型在部署方面本質上更高效。二是開發更高效的可解釋性導向訓練技術,可能更容易投入實際使用。

需要注意的是,OpenAI 的發現并不能保證這種方法能擴展到更強大的系統,但這些早期結果令人鼓舞。他們的目標是逐步擴大可以可靠解釋的模型范圍,并構建工具,使未來的系統更易于分析、調試和評估。

更多詳細內容,可以參閱原論文:



論文地址:https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

https://x.com/OpenAI/status/1989036214549414223

https://openai.com/index/understanding-neural-networks-through-sparse-circuits/

https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

https://x.com/rohanpaul_ai/status/1989074606775570839

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

91久久精品国产| 亚洲香蕉伊综合在人在线视看| 国产清纯美女被跳蛋高潮一区二区久久w | 亚洲福中文字幕伊人影院| 亚洲第一在线综合网站| 欧美性猛交xxxx乱大交3| 欧美一区二区三区免费视频| 亚洲精品少妇网址| 久久综合伊人77777| 全球成人中文在线| 国产亚洲精品美女久久久m| 手机成人在线| 污污视频网站免费观看| 亚洲最大视频网| 日本精品人妻无码77777| 久久中文字幕免费| 无套内谢的新婚少妇国语播放| 日韩电影在线一区二区| 久久亚洲一区二区三区明星换脸 | 亚洲国产一区二区三区在线观看 | 国产精品嫩草影院桃色| 日韩av电影天堂| 国产成人亚洲综合a∨猫咪| 国产精品国产三级国产普通话蜜臀 | 丁香一区二区三区| 亚洲精品网站在线观看| 日韩精品一区国产麻豆| 午夜欧美不卡精品aaaaa| 成人在线看片| 欧美 国产 综合| 亚洲国产无码精品| 中文字幕在线天堂| 国产麻豆日韩欧美久久| 亚洲午夜激情av| 亚洲精品中文字幕女同| 国产精品久久久久福利| 亚洲制服欧美久久| 任你躁av一区二区三区| 日韩毛片在线播放| 免费看精品久久片| 亚洲一区在线视频观看| 亚洲午夜激情免费视频| 亚洲一区久久久| 男人天堂999| 9999热视频| 久久蜜桃精品| 亚洲国产精品一区二区www在线 | 人妻熟妇乱又伦精品视频| 国产精品九九九九九| 欧美激情一区二区三区免费观看 | 国产日韩在线观看一区| 久久在线免费观看| 欧美一个色资源| 欧美一级片在线播放| 综合操久久久| 国产极品视频在线观看| 亚洲 欧美 自拍偷拍| 一区二区三区国产精品| 日韩视频第一页| 四虎影院一区二区三区| 可以直接看的无码av| 国产精品无码AV| 亚洲精品视频在线观看免费| 日韩中文字在线| 一区二区精品在线观看| 国产真人真事毛片视频| 美女mm1313爽爽久久久蜜臀| 欧美亚洲国产一区在线观看网站| 欧美一区二区三区图| 精品无码一区二区三区爱欲| 毛片a片免费观看| 国产91精品露脸国语对白| 911精品产国品一二三产区| 国产免费一区二区三区在线能观看| 免费黄色特级片| 黄色污污视频软件| 国产精品成人一区二区艾草| 日韩网站免费观看高清| 亚洲激情免费视频| 国产无码精品视频| 久久久影视传媒| 中文字幕亚洲欧美在线| 亚洲欧洲精品一区二区三区波多野1战4 | 国产精品成人免费一区二区视频| 成人不卡免费av| 国产视频一区在线| 一区二区视频在线观看| 99精品欧美一区二区| 国产精品一区二区视频| 亚洲黄页网在线观看| 久久日韩精品| 日韩在线中文字幕视频| 91天堂素人约啪| 色琪琪综合男人的天堂aⅴ视频| 玖玖精品在线视频| 久久久久久久久黄色| 一区二区三区四区精品在线视频| 97久久精品国产| 国产精品熟女一区二区不卡| 日韩av不卡一区二区| 日韩久久精品一区| 中国 免费 av| 波多野结衣影片| 欧美性猛xxx| 国外成人免费视频| 久久久久久天堂| 1024国产精品| 国产精品中文字幕久久久| 亚洲一区二区三区无码久久| 国产99精品国产| 久久久999国产精品| 宅男噜噜噜66国产免费观看| 久久午夜av| 亚洲欧美日韩中文在线| 国产一区亚洲二区三区| 三级欧美在线一区| 在线观看成人黄色| 久久久精品麻豆| 麻豆91在线播放免费| 国产一区二区三区视频免费| 日韩欧美一区二| 青青草国产成人av片免费| 一区二区亚洲欧洲国产日韩| 中文字幕 日韩 欧美| 国产在线麻豆精品观看| 欧美黑人视频一区| 精品无码国产一区二区三区51安| 久久一区二区视频| 国产精品一久久香蕉国产线看观看| 精品成人无码一区二区三区| 中文字幕一区在线观看视频| 亚洲综合在线播放| 成人毛片在线播放| 欧美日韩成人高清| 久久av高潮av| 免费欧美日韩国产三级电影| 伦伦影院午夜日韩欧美限制| 在线免费观看a级片| 国产精品短视频| 精品国产免费人成电影在线观... 精品国产免费久久久久久尖叫 | 一区二区成人av| 91女神在线观看| 国产麻豆精品久久一二三| 午夜精品福利视频| 三上悠亚作品在线观看| 精品久久久久久中文字幕| 欧美性猛交xxx乱久交| 337p日本欧洲亚洲大胆精品| 国产偷亚洲偷欧美偷精品| 毛片毛片毛片毛片毛片毛片毛片毛片毛片| 久久精品国产亚洲aⅴ| 欧美激情一区二区三区成人 | 欧美v日韩v国产v| 国产成人亚洲精品无码h在线| 久久婷婷av| 中文字幕欧美激情一区| 国产成人一区二区三区免费看| 成人毛片一区二区三区| 亚洲福利在线看| 99中文字幕在线| 国产在线拍揄自揄拍| 亚洲欧美二区三区| 懂色中文一区二区三区在线视频 | 国产成人av影院| 日韩视频精品在线| 亚洲视频一二三四| 国产成人精品一区二区三区四区| 一本色道久久综合狠狠躁篇怎么玩| 黄色片视频在线免费观看| 无码精品在线观看| 中文字幕亚洲一区在线观看 | 精品中文字幕在线2019| 亚洲综合中文网| 成人午夜伦理影院| 日韩av电影中文字幕| 夜夜春很很躁夜夜躁| 亚洲欧美日韩久久| 国产日韩精品久久| wwwwww在线观看| 日韩欧美中文一区| 欧美视频第一区| 国产高清精品网站| 国产国产精品人在线视| 国产三级国产精品国产国在线观看| 亚洲影视在线观看| 奇米888一区二区三区| 精品国产免费无码久久久| 精品无人区乱码1区2区3区在线| 青青草av网站| 91一区二区三区在线观看| 成人国产在线激情| www.久久久久久久| 亚洲欧美成人精品| 极品人妻一区二区| 亚洲乱码日产精品bd| 日韩在线国产| 欧美a一区二区| 国产成人一区二区三区电影| 国产福利拍拍拍| 精品欧美乱码久久久久久| 亚洲欧美日韩综合网| 国产精品毛片a∨一区二区三区| 精品久久久久亚洲| 色综合免费视频| 7777kkkk成人观看| 欧美黑人一区二区| 亚洲无av在线中文字幕| 中日韩精品一区二区三区| 精品福利在线观看| 国产精品沙发午睡系列| 久久伊99综合婷婷久久伊| 欧美日韩国产精品一卡| 日韩二区三区四区| 国产在线一区二区三区| jlzzjlzz亚洲女人18| 久久综合九色九九| 日韩精品久久久久久久| 亚洲欧美精品伊人久久| 亚洲第一综合网| 91精品国产综合久久香蕉麻豆| 91网址在线观看精品| 午夜国产精品一区| 波多野结衣天堂| 一区二区三区四区在线免费观看 | 91在线|亚洲| 亚洲免费国产视频| 国产激情久久久| 中文文字幕一区二区三三| 久久久电影免费观看完整版| 日本在线观看视频网站| 中文字幕在线看视频国产欧美在线看完整 | 欧美日本一区二区三区四区| 亚洲在线观看网站| 日韩欧美成人区| 日韩精品在线播放视频| 欧美日韩午夜剧场| 肉丝美足丝袜一区二区三区四| 欧美性色xo影院| 久久久久亚洲av无码专区首jn| 亚洲大型综合色站| 想看黄色一级片| 欧美综合一区二区| 亚洲一区二区三区四区五区六区| 欧美一区二区久久久| xxxxx在线观看| 亚洲色图17p| av网站中文字幕| 欧洲成人性视频| 亚洲人成色777777精品音频| 岛国视频一区免费观看| 国产精品亚洲第一区在线暖暖韩国| 欧美日韩系列| 婷婷在线观看视频| 裸模一区二区三区免费| 91片在线免费观看| 国产l精品国产亚洲区久久| 欧美视频不卡中文| 能免费看av的网站| 亚洲欧美中文日韩在线| 日本午夜视频在线观看| 88国产精品欧美一区二区三区| 成人毛片在线精品国产| 免费毛片一区二区三区久久久| 久久久久99精品国产片| 日本中文字幕影院| 欧美一级欧美三级| 日本特黄一级片| 国产女人精品视频| 高清不卡一二三区| 欧美 日韩精品| 欧美一区二区三区在线视频| 日本免费一二三区| 青青草成人在线| 国产精品一区二区久久精品爱涩| 日本午夜激情视频| 欧美日韩综合色| 日本熟妇色xxxxx日本免费看| 欧美综合国产精品久久丁香| 国产精品一级黄| 亚洲福利精品视频| 精品一区二区亚洲| 懂色av成人一区二区三区| 一区二区日本| 欧美日韩日日夜夜| www.中文字幕在线观看| 亚洲综合国产精品| 成人免费在线观看入口| 性久久久久久久久久| 国产综合在线看| 国产精品中文字幕日韩精品 | wwwww在线观看| 日韩亚洲欧美中文在线| 视频一区 中文字幕| 国产尤物av一区二区三区| 欧美精品aⅴ在线视频| 久久久久在线视频| 欧美日韩免费观看一区| 色诱亚洲精品久久久久久| 国产精品自拍视频一区| 成人在线免费网站| 欧美日韩久久久久| 精品久久久久久久久久久久久久久久久久| 国产精品三区在线| 欧美性xxxx在线播放| 久久久久久久久久成人| 视频在线一区二区三区| 欧美日韩1区2区| а√天堂资源在线| aa在线免费观看| 精品国模在线视频| 不卡高清视频专区| 亚洲第一页av| 国产精品午夜视频| 一区二区三区在线视频观看| 91杏吧porn蝌蚪| 久久国产日韩欧美| 在线不卡免费av| 黑人乱码一区二区三区av| 少妇人妻互换不带套| 操日韩av在线电影| 99久免费精品视频在线观看| 30一40一50老女人毛片| 91最新在线免费观看| 日韩欧美在线网址 | 日韩欧美大片在线观看| 欧美在线播放一区| 欧美大片一区二区| 日韩成人免费电影| 久久精品一卡二卡| 国产欧美亚洲精品| 午夜精品在线视频一区| 亚洲男人天堂网址| www黄色av| 奇米4444一区二区三区| 亚洲最大成人综合| 亚洲一区二区影视| 国产精品亚洲a| 欧美在线视频免费观看| 午夜精品福利久久久| 性一交一乱一伧老太| 一个人看的视频www| 亚洲一区久久久| 日韩一卡二卡三卡国产欧美| 秋霞影院一区二区| 一级黄色片大全| 亚洲国产婷婷香蕉久久久久久99| 国产亚洲xxx| 欧美激情一区三区| 中文字幕在线日亚洲9| 狠狠干狠狠操视频| 91久久国产精品| 精品久久久久香蕉网| 国产99久久久国产精品潘金 | 久久伊人免费视频| 亚洲欧美一区二区三区久本道91| 九九热最新视频| 91插插插插插插插插| 91精品视频在线看| 亚洲精品电影久久久| 久久夜色精品国产噜噜av| 波多野结衣视频网站| 亚洲精品中文字幕无码蜜桃| 国产欧美 在线欧美| 亚洲成人久久一区| 国产精品嫩草影院av蜜臀| 99久久亚洲精品日本无码| 日韩av无码一区二区三区不卡| 欧美18视频| 久久中国妇女中文字幕| 欧美日韩中文字幕在线| 激情文学综合插| 在线永久看片免费的视频| 亚洲一区二区三区四区五区| 国产三级精品在线不卡| 日韩中文在线观看| 欧美日韩国产一区在线| 韩国欧美国产1区| 天天干天天干天天操| 樱花草www在线| 亚洲福利av| 国产精品视频成人| 亚洲性夜色噜噜噜7777| 欧美日韩精品国产| 99在线视频精品| 亚洲第一天堂网| 精品自拍偷拍视频| 黄色三级视频在线播放| 一区二区三区在线视频111| 国产极品jizzhd欧美| 日韩精品在线观看视频| 欧美日韩国产精品一区二区三区四区| 国产一区在线观看视频| 中文字幕乱码视频| 丁香六月激情综合| 日韩毛片在线免费看| 另类视频在线观看+1080p| 97视频在线观看成人| 亚洲国产一区自拍| 色综合久久综合中文综合网| kk眼镜猥琐国模调教系列一区二区| 国产乱码一区二区| 中文字幕亚洲欧美日韩| wwwww在线观看| 男人日女人下面视频| 蜜桃精品久久久久久久免费影院| 97色在线视频| 久久精品电影网| 精品香蕉在线观看视频一| 欧美色手机在线观看| 亚洲成人免费在线|