亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

微軟BitDistill將LLM壓縮到1.58比特:10倍省內存、2.65倍推理加速

IP屬地 中國·北京 機器之心Pro 時間:2025-10-20 16:10:21



機器之心報道

編輯:+0、陳陳

大語言模型(LLM)不僅在推動通用自然語言處理方面發揮了關鍵作用,更重要的是,它們已成為支撐多種下游應用如推薦、分類和檢索的核心引擎。盡管 LLM 具有廣泛的適用性,但在下游任務中高效部署仍面臨重大挑戰。隨著模型規模的急劇擴大,這些挑戰被進一步放大,尤其是在資源受限的設備上(如智能手機),內存占用和計算開銷都變得極其昂貴。

為應對這些問題,近期研究提出了極低比特(extreme low-bit)LLM,例如使用 1.58 比特(即三值 {-1, 0, 1})表示的 BitNet。這種方法旨在顯著降低內存占用并加速推理,從而為 LLM 在下游應用中的高效部署提供一條可行途徑。

然而,要讓 1.58 比特的 BitNet 在下游任務中達到與高精度模型相媲美的準確率,通常需要從零開始在大規模語料上進行預訓練,這會帶來巨大的計算和能耗成本。

如圖 1 所示,直接對已有的全精度 LLM 進行 1.58 比特量化感知訓練(Quantization-Aware Training, QAT)時,在特定下游任務上的訓練過程往往不穩定,難以保持原有的性能,并表現出較差的可擴展性:當模型規模從 0.6B 增大到 4B 時,相對于全精度基線的性能差距從 13.9 擴大到 15.3。



這一現象凸顯出:迫切需要專門為 1.58 比特 BitNet 設計的更有效的量化感知訓練方法。

在本研究中,來自微軟的研究者聚焦于將已有的 LLM 微調至 1.58 比特以適配特定下游任務,同時保持與全精度模型相當的性能。為此,本文提出了 BitDistill(BitNet Distillation)—— 一種具備良好可擴展性的量化感知訓練(QAT)框架,旨在彌合極端 1.58 比特量化與實際部署之間的性能差距。

在四個基準任務及多種模型規模上的大量實驗表明,BitDistill 具有出色的可擴展性,其下游任務性能可與全精度基線持平。同時,如圖 1 所示,BitDistill 在 CPU 上實現了 10 倍的內存節省和 2.65 倍的推理加速,顯著改善了延遲、吞吐量、內存效率和能耗,使其特別適合部署在資源受限的硬件平臺上。



論文地址:https://www.arxiv.org/pdf/2510.13998代碼地址:https://github.com/microsoft/BitNet論文標題:BitNet Distillation

方法介紹:BitDistill

本文針對在資源受限設備上部署 LLM 以執行特定下游任務。重點是高效地將現有的預訓練 LLM 壓縮為 1.58 比特的 BitNet 模型,同時盡量減少性能損失與訓練成本。

BitDistill 框架包含三個關鍵階段:

第一階段:模型精煉階段。

與全精度模型不同,在標準初始化方案下,全精度模型的隱藏狀態方差通常能夠保持在一個穩定范圍內;而低比特量化模型(如 1.58 比特 LLM)則常常遭受過大的激活方差問題,導致優化過程不穩定并造成收斂性能下降。

為緩解這一問題,借鑒先前 1.58 比特 BitNet 的設計原則,本文在每個 Transformer 模塊內的關鍵位置引入了額外的歸一化層(SubLN),以實現穩定的優化過程。

第二階段:持續預訓練階段。

如圖 1 所示,直接將已有的全精度 LLM 轉換為 1.58 比特 BitNet 并在下游任務上進行微調,往往會得到次優結果。這是因為有限的訓練 token 數量不足以有效地將全精度權重適配到受限的 1.58 比特表示空間中,從而導致可擴展性較差:隨著模型規模的增大,其性能與全精度基線之間的差距也隨之擴大。

為此,本文提出了一個兩階段訓練流程:首先進行持續訓練階段,利用少量預訓練語料來實現所需的適配;隨后再在下游任務上進行微調。

第三階段:基于蒸餾的微調。

為更有效地緩解由精度降低帶來的性能退化,本文在下游任務微調階段引入了兩種知識蒸餾技術:其中,微調后的全精度 LLM 作為教師模型,而其 1.58 比特量化版本作為學生模型,通過蒸餾過程進行學習與性能對齊。

蒸餾過程主要利用 logits 蒸餾和多頭注意力蒸餾來恢復全精度性能。



實驗

實驗設置

BitDistill 方法的有效性在兩個代表性任務上進行評估:文本分類與文本摘要。分類任務采用通用語言理解評估 (GLUE) 基準中的 MNLI、QNLI 與 SST-2 三個數據集,摘要任務使用 CNN/DailyMail (CNNDM) 數據集。所有數據集均用于訓練與評估,以全面驗證方法性能。

BitDistill 的目標是將預訓練的全精度大語言模型 (LLM) 微調為適用于下游任務的 1.58-bit BitNet 模型。比較對象包括:

(1) 在相同任務上直接微調的全精度 FP16 模型 (FP16-SFT);

(2) 將全精度模型量化為 1.58-bit BitNet 后再微調的模型 (BitNet-SFT)。

實驗以 Qwen3 系列為基礎模型,涵蓋 0.6B、1.7B 與 4B 三種規模,并額外測試了 Qwen2.5 與 Gemma 等替代骨干網絡以評估模型類型影響。所有方法均采用貪心搜索確定學習率與訓練輪數,以兼顧性能與公平比較。最大訓練序列長度設為 512,批大小為 32,所有模型均在配備 8 塊 AMD Mi300X GPU 的服務器上訓練。

Logits 蒸餾溫度設為 5.0;分類任務中 λ=10、γ=1e5,摘要任務中 λ=1、γ=1e3,所有實驗中 αi=1.0。持續預訓練階段使用 FALCON 語料庫中采樣的 100 億個 token,與從頭訓練 1.58-bit 模型所需的約 4 萬億個 token 相比,成本幾乎可忽略。

評估設置

采樣參數固定為 top-p=1.0、溫度 = 0。分類性能以準確率衡量,摘要性能使用 BLEU、ROUGE-1/2/L/SUM 評估,最大生成長度為 4096 token。運行時效率通過 16 線程 CPU 的 token 吞吐量(tokens/s)報告。

主要結果

BitDistill 在各基準數據集上表現如表 1 與表 2 所示。與全精度基線相比,1.58-bit 模型在準確率和摘要質量上保持接近性能,同時推理速度提升約 2 倍,內存占用減少近 10 倍,展示出在資源受限環境下的顯著優勢。這表明通過合理蒸餾策略,激進量化仍可實現高性能。



文本分類任務上的結果。所有模型均由 Qwen3 系列 [QY+25] 初始化。每個指標和數據集的最高分均以粗體突出顯示。1.58-bit 的 BitDistill 模型實現了與 FP16 基線相當的性能,同時在所有數據集上將推理速度提升了 2 倍,并將內存占用降低了 10 倍。符號 * 表示在 BitDistill 中所使用的 FP16 教師模型。



文本摘要任務(CNNDM 數據集)上的結果。所有模型均由 Qwen3 系列 [QY+25] 初始化。每個指標和數據集的最高分均以粗體突出顯示。1.58-bit 的 BitDistill 模型實現了與 FP16 基線相當的性能,同時在所有數據集上將推理速度提升了 2 倍,并將內存占用降低了 10 倍。符號 * 表示在 BitDistill 中所使用的 FP16 教師模型。

將基礎模型替換為 Qwen2.5 和 Gemma 后,BitDistill 仍保持穩定性能(見表 4)。雖然不同預訓練模型間存在輕微波動,但整體趨勢一致,顯示該方法具備跨架構通用性和良好的部署適應性。



不同量化技術在文本分類任務上的結果。B、G、A 分別代表塊量化、GPTQ 和 AWQ。

消融實驗

BitDistill 包含三個階段。消融實驗表明,移除任一階段均顯著降低性能(表 5),說明各階段相互補充,完整流程對效率與準確率平衡至關重要。



BitDistill 中不同階段的效果。此處使用 Qwen3 0.6B 作為基礎模型。M.D.、C.T. 和 D.T. 分別表示建模優化、持續預訓練以及基于蒸餾的微調。

在第三階段中,單獨使用 logits 蒸餾或注意力蒸餾均能提升性能,但聯合使用效果最佳(表 6)。兩種技術從不同角度緩解量化優化難題,其協同作用在極低比特環境下尤為顯著。



蒸餾技術的效果。此處,LD 表示公式 9 中的 logits 蒸餾,AD 表示公式 12 中的多頭注意力蒸餾。

BitDistill 與 Block-Quant、GPTQ、AWQ 等多種量化方案兼容。實驗顯示:(1) 無論底層量化方法為何,BitDistill 均能穩定提升性能;(2) GPTQ、AWQ 等復雜量化策略在其基礎上進一步增強效果。這表明 BitDistill 提供了一種普適的低比特模型增強框架。

分析

在階段一中插入 SubLN 層能穩定 1.58-bit BitNet 的優化并加速收斂。如圖 3 (a) 所示,帶 SubLN 的模型在 FALCON 語料庫上的微調表現優于未使用 SubLN 的版本。



(a) 使用 SubLN 將現有的大語言模型 (LLMs) 微調為 1.58-bit BitNet,可以獲得更優的性能和更快的收斂速度。

持續訓練可顯著縮小大模型的 1.58-bit 與 FP16 性能差距。權重分布可視化(圖 2)顯示,經過持續訓練后,BitNet 權重從近似高斯分布轉變為更接近從頭訓練的分布。該特征促使權重集中于 0 與 ±1 過渡區域,增加梯度更新的敏感度,從而提升模型對下游任務的擬合能力。



模型權重的可視化。上面兩行展示了從頭開始訓練的 BitNet 的量化權重,及其對應的 FP16 分布。下面兩行展示的是從 LLM 加載權重并進行持續訓練后,BitNet 的量化權重及其對應的 FP16 分布。

在第三階段,單層注意力蒸餾優于多層蒸餾(圖 3 (b))。后期層的蒸餾效果更佳,表明層選擇對蒸餾質量至關重要。



(b) 在 Qwen3 0.6B 模型上,通過蒸餾不同層所獲得的 MNLI 準確率對比。

使用更大規模的 FP16 教師(如 Qwen3-1.7B、Qwen3-4B)顯著提升學生模型性能(圖 3 (c)),甚至超越同規模的 FP16 模型,證明高質量教師能為 BitDistill 帶來額外收益。

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

日本少妇性生活| 无码人妻熟妇av又粗又大| 欧美激情一区二区三区成人| 国产精品网友自拍| 91黑人精品一区二区三区| 日本人体一区二区| 成人欧美一区二区三区视频xxx| 欧美巨大另类极品videosbest| 精品一区二区国语对白| 亚洲一级中文字幕| 精品伊人久久大线蕉色首页| 中文国产亚洲喷潮| 一区二区三区欧美视频| www.97超碰| 人与动物性xxxx| 91视频 - 88av| 日本老师69xxx| 色偷偷av一区二区三区乱| 亚洲欧洲精品一区二区三区| 免费久久99精品国产| 日本a在线观看| 天堂av在线网站| 国产精品一区而去| 欧美国产一区二区三区| 欧美一区二区三区爱爱| 香蕉影视欧美成人| 成人国产精品免费观看| 色屁屁草草影院ccyycom| 久久高清免费视频| av小说在线观看| 人妻少妇精品久久| 视频一区视频二区视频三区高| 欧美国产第二页| 亚洲国产欧美在线成人app| 欧美日韩综合在线| 精品电影在线观看| 日本一二三四高清不卡| 久久国产尿小便嘘嘘| 免播放器亚洲一区| 美日韩一区二区| 视频一区国产视频| 亚洲精品久久久久久动漫器材一区 | 久久久久免费视频| 国产精品久久网站| 久久国内精品视频| 美女www一区二区| 午夜视频1000| 亚洲国产成人一区二区 | 国产三级精品视频| 激情深爱一区二区| 成人h精品动漫一区二区三区| 毛片av一区二区三区| 国产男男gay网站| 色一情一乱一伦| 亚洲精品国产精品乱码视色| 欧美另类高清videos的特点| 黄瓜视频在线免费观看| 免费无码毛片一区二区app| 337人体粉嫩噜噜噜| 亚洲第一综合网站| 国产在线精品成人一区二区三区| 精品少妇一区二区三区| 日韩国产高清污视频在线观看| 精品sm捆绑视频| 日韩小视频在线观看| 欧美一级淫片播放口| 96sao精品视频在线观看| 不卡一区二区三区视频| 亚洲精品一区二区三区四区五区 | 91精品国产综合久久福利软件| 欧美日韩中文字幕| 欧美美女黄视频| 亚洲网址你懂得| 久久免费视频在线观看| 2014亚洲精品| 97超碰在线视| 蜜桃传媒一区二区亚洲av| 成人精品一二区| 中文字幕在线看视频国产欧美| 亚洲乱亚洲乱妇无码| 欧美日韩爱爱视频| 国产私拍一区| 欧美极品欧美精品欧美图片| 美国黄色一级视频| 亚洲国产精品欧美久久| 久久亚洲精品小早川怜子| 一区二区高清免费观看影视大全| 91激情在线视频| 中文字幕欧美日韩精品| 成人美女av在线直播| 色女人综合av| 日本道中文字幕| 中文字幕精品一区二区三区精品 | 欧美夜福利tv在线| 国产精品精品久久久| 欧美精品与人动性物交免费看| 亚洲第一精品自拍| 中文字幕在线永久| 亚洲国产精品麻豆| 日本欧美视频在线观看| 亚洲AV无码片久久精品| 亚洲男女毛片无遮挡| 青青草手机在线视频| 麻豆传媒一区二区| 国产精品色呦呦| 久久久久日韩精品久久久男男| 国产精品av久久久久久无| jvid福利写真一区二区三区| 国产精品xxxx| 一级黄色免费片| 日韩高清中文字幕| 亚洲一区精彩视频| 日韩经典中文字幕一区| 久草免费福利在线| 久久久久久免费| 亚洲一区二区三区av无码| 国产乱对白刺激视频不卡| 国产馆精品极品| 成人手机在线播放| 国产精品丝袜久久久久久app| 网站免费在线观看| 亚洲第一导航| 亚洲国产精久久久久久| 老妇喷水一区二区三区| 色综合久久久久久久久五月| 国产精品一区二区久激情瑜伽| 国产美女被下药99| 黄色av一区二区| 国产日本欧美一区二区三区| 天天操夜夜操av| 一本一道波多野结衣一区二区| 国产高清不卡无码视频| 中文在线不卡视频| 国产日韩欧美一区二区东京热 | 亚洲免费在线观看av| 人人做人人澡人人爽欧美| 日韩成人伦理电影在线观看| 久久av二区| 天天色综合成人网| 成 人 黄 色 片 在线播放 | 国产精品视频一区二区三| 美乳少妇欧美精品| 97精品久久人人爽人人爽| 91精品久久久久久久| 蜜桃视频一区二区三区在线观看| 成人av中文| 国产精品18p| 久久免费视频网| 精品露脸国产偷人在视频| 亚洲一区二区三区四区五区六区| 一本一本久久a久久精品牛牛影视 一本色道久久综合亚洲精品小说 一本色道久久综合狠狠躁篇怎么玩 | 亚洲一区二区三区精品在线| 无套白嫩进入乌克兰美女| 日韩一区二区在线观看视频播放| 久久精品亚洲天堂| 精品国产区一区| 波多野结衣一区二区三区四区| 精品色蜜蜜精品视频在线观看| 国精产品一区一区三区视频| 777奇米四色成人影色区| 久久久久久久久久美女| 国产永久免费网站| 久久夜色精品国产欧美乱| 久久精品亚洲| 亚洲视频在线观看| 国产精品6666| 午夜精品区一区二区三| 国产一区二区三区中文 | 精品在线观看一区二区| 在线免费视频一区二区| 一区二区视频在线免费| 亚洲成av人片一区二区| 在线观看毛片视频| 亚洲最大成人网色| 久久中文字幕电影| 老熟妻内射精品一区| 夜夜夜夜夜夜操| 国产精品第一区| 亚洲图片欧美激情| aaa一区二区| 亚洲免费一在线| 国产一区二区三区四区五区入口| 欧美夫妇交换xxx| 天天色天天爱天天射综合| 污视频在线观看免费网站| 欧美大肚乱孕交hd孕妇| 免费大片在线观看| 精品欧美aⅴ在线网站| 日韩经典在线观看| 国产成人aa精品一区在线播放 | 亚州精品国产精品乱码不99按摩| 青青久久aⅴ北条麻妃| 国产一级视频在线| 欧美日韩一区久久| 精品人妻互换一区二区三区| 精品欧美乱码久久久久久1区2区| 日韩人妻无码一区二区三区| 日韩电影免费观看中文字幕| 欧美日韩a v| 欧美精品久久久久久久免费观看| av天堂一区二区三区| 国产欧美久久久久久| 9人人澡人人爽人人精品| 逼特逼视频在线观看| 91免费观看| 国产亚洲精品日韩| 国产精品中文欧美| 女教师高潮黄又色视频| 91日本在线观看| 亚洲乱码av中文一区二区| 亚洲精品911| 国精产品一区一区三区视频| 欧洲永久精品大片ww免费漫画| 欧美精品亚州精品| 18欧美乱大交hd1984| eeuss国产一区二区三区| 中文字幕在线一| 久久国产亚洲精品无码| 亚洲精品中文字幕有码专区| 亚洲人亚洲人成电影网站色| 成人午夜看片网址| 亚洲韩国精品一区| 欧美丰满高潮xxxx喷水动漫| 亚洲深夜福利在线| 最近2019好看的中文字幕免费| 中文字幕国产亚洲| 亚洲国产精品va在线观看黑人| 一区二区三区在线观看视频| 国产电影一区二区三区| a级片免费视频| 国产亚洲久一区二区| 野花视频免费在线观看| 国产精品永久免费在线| 中文字幕视频一区二区在线有码| 国产亚洲成av人片在线观看桃| 亚洲午夜未满十八勿入免费观看全集| 国产精品九色蝌蚪自拍| 韩国一区二区在线观看| av一区二区三区在线| 在线观看毛片av| 天天干天天玩天天操| www.激情小说.com| 精品www久久久久奶水| 人体私拍套图hdxxxx| 在线观看日本网站| 五月婷婷婷婷婷| 精品国产av一区二区三区| 国产精品99久久久久| 国产91色综合久久免费分享| 欧美日韩中文国产一区发布| 精品国产精品网麻豆系列| 国产精品亚洲午夜一区二区三区 | 国产精品精品国产色婷婷| 巨胸大乳www视频免费观看| 少妇人妻大乳在线视频| 日韩精彩视频| 久久成人资源| 高清欧美精品xxxxx| 亚洲va电影大全| 日韩美女中文字幕| 久久精品99久久久久久久久 | 欧美不卡激情三级在线观看| 欧美电影影音先锋| 精品sm在线观看| 国产成人av一区二区三区在线观看| 精品一区二区三区在线播放| aaa欧美色吧激情视频| 日韩一区中文字幕| 国产91ⅴ在线精品免费观看| 欧美伦理视频在线观看| 91精品国产乱码久久久久| 国产欧美精品国产国产专区| 亚洲欧美日韩直播| 全亚洲最色的网站在线观看| 成人精品在线观看| 欧美放荡办公室videos4k| 成人久久久久久久| 美乳视频一区二区| 天堂av在线中文| youjizz.com亚洲| 久久爱av电影| 97视频中文字幕| 欧美 日韩 国产 高清| 久久夜色精品亚洲| a级片在线视频| 视频一区二区不卡| 欧美日韩国产一区二区三区| 香港成人在线视频| 日韩电影免费在线观看网站| 91免费视频播放| 国产成人免费在线观看视频| 国产又粗又猛又爽又黄的视频小说 | 久热精品在线播放| 国产99免费视频| 国产又黄又粗视频| 亚洲欧美日韩成人在线| 亚洲一级黄色片| 色国产在线视频| 国产成人av福利| 日韩一区二区精品视频| 亚洲色欲久久久综合网东京热| 90岁老太婆乱淫| 亚洲一级片免费看| 成人福利视频网站| 亚洲妇女屁股眼交7| 欧美在线观看一二区| 中文字幕在线看视频国产欧美在线看完整 | 日韩电影免费一区| 国产欧美一区二区三区沐欲| 久久人体大胆视频| 日本亚洲欧美成人| 国产 日韩 欧美在线| 日韩激情小视频| av中文字幕不卡| 国产成都精品91一区二区三| 国产精品三级视频| 久久综合电影一区| 天天爽天天爽夜夜爽| 91麻豆成人久久精品二区三区| 日本亚洲欧美成人| 日本一区二区三区四区五区| 婷婷久久综合九色国产成人| 日本黑人久久| 91中文字幕在线播放| 亚洲国产成人av| 国产伦精品一区二区三区照片| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 精品美女久久久久| av一区二区三区四区| 亚洲精品国精品久久99热| 色中文字幕在线观看| 在线观看一区二区三区视频| 九九热久久免费视频| 视频一区欧美日韩| 色欧美88888久久久久久影院| 色综合久久久888| 女人色极品影院| 久久久久黄色片| 亚洲网友自拍偷拍| 一道精品一区二区三区| 国产精品午夜福利| 午夜电影一区二区| 日韩一区二区三区高清| 欧美激情黑白配| 久久久噜噜噜| 日韩精品专区在线影院重磅| 中文字幕亚洲欧美一区二区三区| 国产91av在线| 性欧美videosex高清少妇| 成人精品视频在线播放| 亚洲麻豆一区二区三区| 国产在线拍揄自揄拍| 二区三区在线视频| 丁香五精品蜜臀久久久久99网站| …久久精品99久久香蕉国产| 免费人成精品欧美精品| 久久亚裔精品欧美| 一区在线中文字幕| 国内av一区二区| 亚洲色图第一区| 日本精品一二三区| 在线综合+亚洲+欧美中文字幕| 青青视频在线播放| av成人免费在线观看| 精品国产一区二区三区在线观看 | 最新黄色av网址| 国产亚洲欧美日韩日本| 欧美激情网站在线观看| 欧美日韩亚洲自拍| 欧美日韩一区 二区 三区 久久精品 | 97视频在线观看视频免费视频 | 亚洲精品成人精品456| 欧洲久久久久久| 午夜在线视频观看| 自拍偷拍亚洲一区| 国产精品sm调教免费专区| 欧美一级电影久久| 久久精品女人天堂| 日本一二三区视频在线| 在线播放一区二区三区| 超碰人人干人人| 久久影院资源网| 99久久精品国产一区二区成人| 欧美成人高清视频| 国产污视频网站| 精品88久久久久88久久久| 影音先锋黄色资源| 日本韩国一区二区三区视频| 亚洲欧美综合一区| 91在线视频播放地址| 国产精品丝袜久久久久久不卡| 97在线观看视频免费| 欧美xfplay| 亚洲色图14p| 欧美日韩一区二区三区四区五区 | 日韩一区精品字幕| 国产精品日韩一区二区| 国产情侣自拍av| 亚洲成人免费在线| 免费黄色av网址| 亚洲男人天堂视频| 久久久99精品| 夜夜嗨av一区二区三区| 91丨九色丨国产| 日韩特黄一级片| 在线观看免费成人| 欧美一区二区视频在线播放| 北条麻妃一二三区| 亚洲毛茸茸少妇高潮呻吟| 黄色一级片国产|