亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當(dāng)前位置: 首頁 ? 資訊 ? 新科技 ? 正文

Mamba作者團(tuán)隊(duì)SonicMoE:一個Token舍入,讓MoE訓(xùn)練速度提升近2倍

IP屬地 中國·北京 機(jī)器之心Pro 時間:2025-12-19 16:21:17



機(jī)器之心編輯部

混合專家(MoE)模型已成為在不顯著增加計(jì)算成本的情況下,實(shí)現(xiàn)語言模型規(guī)模化擴(kuò)展的事實(shí)標(biāo)準(zhǔn)架構(gòu)。

近期 MoE 模型展現(xiàn)出明顯的高專家粒度(更小的專家中間層維度)和高稀疏性(在專家總數(shù)增加的情況下保持激活專家數(shù)不變)的趨勢,這提升了單位 FLOPs 的模型質(zhì)量。

這一趨勢在近期的開源模型中表現(xiàn)尤為明顯,例如 DeepSeek V3、Kimi K2 以及 Qwen3 MoE 等,它們均采用了更細(xì)粒度的專家設(shè)計(jì)(更小的中間層維度)和更高的稀疏度,在保持激活參數(shù)量不變的同時大幅增加了總參數(shù)量。



表 1:MoE 擴(kuò)展趨勢:在此,團(tuán)隊(duì)將激活率展示為每個 Token 激活的專家數(shù) K / 專家總數(shù) E;針對前沿開源模型,專家粒度展示為模型嵌入維度(d)/ 專家中間層大小(n)。在 MoE 稀疏度計(jì)算中未包含共享專家。趨勢表明,新的開源 MoE 模型傾向于具備更高的粒度和稀疏度。

然而,這種追求極致粒度和稀疏性的設(shè)計(jì)導(dǎo)致了嚴(yán)重的硬件效率下降問題:

內(nèi)存墻瓶頸:對于細(xì)粒度 MoE,激活內(nèi)存的占用量通常隨激活專家數(shù)量線性增長,導(dǎo)致前向和反向傳播中的內(nèi)存壓力劇增。IO 瓶頸:由于專家變得更小且更分散,算術(shù)強(qiáng)度(Arithmetic Intensity,即計(jì)算量與數(shù)據(jù)傳輸量的比值)顯著降低,IO 訪問變得更加動態(tài)和頻繁,導(dǎo)致模型訓(xùn)練進(jìn)入「內(nèi)存受限」區(qū)間。計(jì)算浪費(fèi):在高稀疏性場景下,由于 Grouped GEMM(分組通用矩陣乘法)內(nèi)核中的 Tile 量化效應(yīng),輸入數(shù)據(jù)往往需要進(jìn)行填充以對齊硬件 Tile 大小,這直接導(dǎo)致了計(jì)算資源的浪費(fèi)。

針對這些問題,普林斯頓大學(xué)助理教授 Tri Dao(Mamba、FlashAttention 的核心作者)團(tuán)隊(duì)提出了一套名為 SonicMoE 的系統(tǒng)性解決方案。該方案專為 NVIDIA Hopper 和 Blackwell 架構(gòu) GPU 量身定制,其核心貢獻(xiàn)包括:

內(nèi)存高效算法:團(tuán)隊(duì)通過重新設(shè)計(jì) MoE 的計(jì)算圖,提出了一種在計(jì)算路由梯度時不緩存激活值的方法。該方法在保持與原始 MoE 公式數(shù)學(xué)等價的前提下,大幅減少了反向傳播所需的激活顯存。對于細(xì)粒度 7B MoE 模型,每層的激活內(nèi)存占用減少了 45%,且隨著專家粒度的增加,其內(nèi)存占用保持恒定,效率比現(xiàn)有基線高出 0.20-1.59 倍。計(jì)算與 IO 重疊:利用 Hopper 架構(gòu) GPU 的 WGMMA 指令與生產(chǎn)者 - 消費(fèi)者異步范式,SonicMoE 設(shè)計(jì)了新型 GPU 內(nèi)核。該內(nèi)核能夠?qū)?GEMM 計(jì)算與從 HBM 加載數(shù)據(jù)的 IO 操作并行執(zhí)行,有效掩蓋了細(xì)粒度 MoE 帶來的高昂 IO 延遲。Token 舍入:這是一種即插即用的創(chuàng)新調(diào)度策略。它將分發(fā)給每個專家的 Token 數(shù)量四舍五入為 Grouped GEMM Tile 大小(例如 128)的倍數(shù)。算法保證每個專家的偏差最多僅為一個 Tile,從而在期望意義下保持總 token 數(shù)不變。這一策略有效減少了因填充導(dǎo)致的算力浪費(fèi)。

實(shí)驗(yàn)數(shù)據(jù)有力地證明了 SonicMoE 的性能優(yōu)勢,在針對細(xì)粒度 7B MoE 模型的測試中:前向傳播相比高度優(yōu)化的 DeepGEMM 基線,速度提升43%;反向傳播相比最先進(jìn)的 ScatterMoE 和 MoMoE 基線,速度分別提升了 83% 和 115%;端到端訓(xùn)練僅依靠內(nèi)核優(yōu)化即可將訓(xùn)練吞吐量提升 50%,若配合 Token 舍入路由,在擴(kuò)展專家數(shù)量時可進(jìn)一步獲得 16% 的額外吞吐量提升。



論文標(biāo)題:SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations論文地址:https://arxiv.org/abs/2512.14080

更直觀地看,團(tuán)隊(duì)僅使用 64 臺 H100 運(yùn)行 SonicMoE,便實(shí)現(xiàn)了每日 2130 億 token 的訓(xùn)練吞吐量,這一表現(xiàn)已能與使用 96 臺 H100 運(yùn)行 ScatterMoE 的效率相媲美。此外,在高稀疏性場景下(如 1.4B 參數(shù)模型),其 Tile 感知的 Token 舍入算法在驗(yàn)證了不損失下游任務(wù)精度(如在 2B 規(guī)模上的推理質(zhì)量)的同時,顯著提升了內(nèi)核執(zhí)行速度。

目前,團(tuán)隊(duì)已將相關(guān)內(nèi)核代碼開源,為大模型社區(qū)加速高性能 MoE 訓(xùn)練提供了強(qiáng)有力的工具。



圖 1: 即使專家粒度(d/n,其中 d 為嵌入維度,n 為專家中間維度)增加,SonicMoE 的每層激活顯存占用(左圖)仍保持恒定;相比其他基線,其顯存效率提升了 0.20 倍至 1.59 倍。SonicMoE 的前向計(jì)算吞吐量(右圖)平均達(dá)到了理論上限的 88%(最高 91%,最低 86%),該上限基于 H100 GPU 上的 「cuBLAS BMM + 激活函數(shù) + cuBLAS BMM + 聚合操作」 計(jì)算得出。請注意,cuBLAS 上限基線未包含路由計(jì)算部分。在此,我們使用的是 30B 參數(shù)量的 MoE 配置,微批次大小為 32768 個 token,并且從左至右依次將「激活專家數(shù) / 總專家數(shù)」設(shè)置為 2/32、4/64、8/128 和 16/256。

內(nèi)存高效的 MoE 算法





團(tuán)隊(duì)提供了一個高效的基于 Tensor Core 的 top-K 路由,以及一個可以接受任意路由輸入的接口。但需要注意的是,SonicMoE 的 MoE 計(jì)算與路由的選擇無關(guān),因此與任意路由邏輯兼容。

SonicMoE 的 MoE 計(jì)算實(shí)現(xiàn)具有高度模塊化特性,僅由以下兩部分組成:

經(jīng)過優(yōu)化的分組 GEMM 內(nèi)核(帶有模塊化融合)經(jīng)過優(yōu)化的專家聚合內(nèi)核

主機(jī)會根據(jù)最佳 GEMM 配置和加載 / 存儲策略來調(diào)度并啟動上述 8 個內(nèi)核。

結(jié)果顯示,盡管采用了如此高度的模塊化設(shè)計(jì),SonicMoE 仍然展現(xiàn)出業(yè)界領(lǐng)先的訓(xùn)練吞吐量和最低的激活內(nèi)存使用量。

面向 IO 的內(nèi)核設(shè)計(jì)

細(xì)粒度 MoE 的表達(dá)能力來自于每個 token 在專家選擇上的多樣性,但這種多樣性同時帶來了與專家粒度線性增長的 IO 開銷,為了保持高吞吐,需要盡可能做到:

通過融合(fusion)減少 IO 訪問將 IO 延遲與計(jì)算重疊

在融合這一塊有兩種方式,一是利用 HBM 加載進(jìn)行 Gather 融合。SonicMoE 的 Grouped GEMM 既可以接受連續(xù)打包的輸入,也可以接受從不同位置 gather 得到的輸入。對于第二種情況,團(tuán)隊(duì)將輸入 gather 與從全局顯存(GMEM,通常是 HBM)到共享內(nèi)存(SMEM)的加載過程進(jìn)行融合,從而能夠?qū)⑦@些數(shù)據(jù)批量化,利用 Tensor Core 執(zhí)行 GEMM。

這一過程包括兩個步驟:

獲取每個 expert 對應(yīng)的被路由 token 的索引;使用這些索引,通過 Blackwell 和 Hopper 架構(gòu)的 cp.async 指令,從 HBM gather 激活值。

二是 Epilogue 融合,通過以下設(shè)計(jì)充分利用 epilogue 計(jì)算,以最大化減少不必要的 IO 訪問:將 SwiGLU 以及 SwiGLU 的反向(dSwiGLU),分別與前向 up-proj 內(nèi)核的 epilogue、反向 down-proj 激活梯度內(nèi)核的 epilogue 進(jìn)行融合;在反向 down-proj 激活梯度(dH)內(nèi)核的 epilogue 中計(jì)算 dH 和 dS。

結(jié)果顯示,這種「重量級 epilogue 融合」使 SonicMoE 相比其他方案獲得顯著加速。

Token rounding 路由方法

團(tuán)隊(duì)在分析稀疏 MoE 訓(xùn)練模式下的硬件效率時發(fā)現(xiàn),隨著 MoE 變得更加稀疏,因填充而產(chǎn)生的 GEMM tile 計(jì)算浪費(fèi)會累計(jì)到不可忽略的程度,這被稱為「tile 量化效應(yīng)」。為此,團(tuán)隊(duì)提出路由方法「token rounding」來消除這種效應(yīng),從而實(shí)現(xiàn)更高效的訓(xùn)練。

Token rounding 算法首先計(jì)算基礎(chǔ)的 TC(token-choice)路由結(jié)果,并對每個 expert 對應(yīng)的 token 按路由分?jǐn)?shù)進(jìn)行排序,之后在第二步排序中選擇:要么丟棄第一步 TC top-K 選擇中的部分 token,要么在第二步排序中為某些 expert 補(bǔ)齊額外的 token(填充)。



過程中,團(tuán)隊(duì)會對路由權(quán)重矩陣進(jìn)行處理,使得 TC 選中的 token 始終優(yōu)先于 EC token。結(jié)果就是,無論是丟棄還是填充,都只會影響每個 expert 的最后一個輸入 tile。

實(shí)驗(yàn)表明,這種方法在實(shí)現(xiàn)更高訓(xùn)練吞吐量的同時,并不會影響模型質(zhì)量。

更多內(nèi)容,可查看論文獲悉!

免責(zé)聲明:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。

全站最新
国产亚洲精品久久久| 国产区精品视频| 国产一区二区小视频| 日韩av播放器| 国产精品视频入口| 欧美激情精品久久久久久变态| 亚洲人成精品久久久久久| 日韩精品在线不卡| 国产手机视频在线观看| 国产精品免费在线免费| 高清一区二区三区四区五区| 在线观看xxxx| 成人在线观看免费完整| 日本黄色www| 99在线免费视频观看| 日本一区免费看| 亚洲a∨日韩av高清在线观看| 国产成人极品视频| 久久久久久国产精品| 久久久精品电影| 日韩在线资源网| 亚洲色图50p| 精品福利av导航| 亚洲欧美日韩国产综合在线| 国产一区二区成人久久免费影院| 国产jzjzjz丝袜老师水多| av激情在线观看| 在线观看的毛片| 国产精品久久久久久久久久久久冷| 国产精品va在线播放我和闺蜜| 欧美在线视频播放| 国产成人97精品免费看片| 国产91色在线|| 欧美一区二区三区……| 91麻豆精品秘密入口| 精品免费二区三区三区高中清不卡| 全球成人中文在线| 国产精品国模在线| 91丨九色丨国产在线| 成人xxxxx色| 日韩视频免费观看高清在线视频| 91国内精品野花午夜精品| 色偷偷av一区二区三区| 国产精品国产av| 青青操免费在线视频| 欧美性猛交xxxx乱大交少妇| 在线观看日本黄色| 欧美日韩人妻精品一区二区三区 | 国产成人久久久| 91精品美女在线| 精品视频一区二区三区四区| 亚洲精品自在在线观看| 99视频精品全部免费看| 久久久久久久久久久视频| 在线看免费毛片| 小早川怜子久久精品中文字幕| 丝袜美腿小色网| 无码人妻熟妇av又粗又大| 亚洲av永久无码国产精品久久| 日韩精品1区2区3区| 国产成人午夜精品5599| 中文字幕制服丝袜一区二区三区| 欧美日韩中文字幕在线视频| 日韩一级片网站| 久久精品成人欧美大片| 奇米4444一区二区三区| 国产免费一区二区| 日韩精品福利片午夜免费观看| 欧美专区第二页| 久久久久无码国产精品| 天天综合永久入口| 成人午夜激情视频| 亚洲精品色婷婷福利天堂| 国产视频一区在线| 成人福利网站在线观看11| 久久久久高清| 在线观看你懂的视频| 国产在线综合网| 视频精品一区二区| 国产日韩欧美不卡在线| 色偷偷久久一区二区三区| 亚洲日韩第一页| 国产日产欧美a一级在线| 伊人久久av导航| 成年人看片网站| 国产视频在线观看免费| 国产一区三区三区| 亚洲超碰97人人做人人爱| 亚洲黄色av女优在线观看| 国产精品久久久久久久久| 91精品国产毛片武则天| www在线观看免费视频| 亚洲av永久无码国产精品久久| 国产无遮挡一区二区三区毛片日本| 日韩一区二区三区av| 国产精品高潮呻吟久久av黑人| 可以看毛片的网址| 唐朝av高清盛宴| 久久99久久99小草精品免视看| 亚洲国产人成综合网站| 色婷婷亚洲一区二区三区| 深夜福利亚洲导航| 欧美大陆一区二区| 亚洲麻豆一区二区三区| 999免费视频| 日韩毛片一二三区| 久久男人av资源网站| 97人人做人人人难人人做| 在线一区二区不卡| www.国产黄色| 欧美日韩在线视频一区| 国色天香2019中文字幕在线观看| 中国女人做爰视频| 日韩精品视频播放| jiyouzz国产精品久久| 日韩成人在线视频| 欧美日韩三区四区| 国产精品密蕾丝袜| 免费在线观看一区二区三区| 67194成人在线观看| 国产精品福利视频| 99久久人妻无码中文字幕系列| 污污视频在线观看网站| 亚洲美女性视频| 日本欧美爱爱爱| 青青草成人免费视频| 国产精品自拍网站| 亚洲人成在线一二| 精品一区二区中文字幕| av中文在线观看| 欧美日韩激情在线| 先锋影音欧美| 69国产精品视频免费观看| 亚洲一二三四在线观看| 成人黄色网免费| 女人十八毛片嫩草av| 国产亚洲va综合人人澡精品| 久久乐国产精品| 奇米视频7777| 国内精品伊人久久久久av影院 | 日本美女爱爱视频| www.五月婷婷.com| 91国模大尺度私拍在线视频| 国产乱码精品一区二区三区卡| 日韩免费高清一区二区| a美女胸又www黄视频久久| 欧美成人四级hd版| www.色.com| 97精品国产露脸对白| 97在线精品国自产拍中文| 天天躁日日躁狠狠躁免费麻豆| 9i在线看片成人免费| 国产精品成久久久久三级| 国产三级视频网站| 国产精品伦一区| 国产精品国产精品国产专区蜜臀ah| 精品在线视频观看| 在线观看成人小视频| 亚洲一区在线直播| 中文字幕在线观看精品| 2019国产精品| 欧美精品videosex性欧美| 中文字幕亚洲日本| 不卡一区二区中文字幕| 欧美成人在线免费| 国产精品成人一区二区三区电影毛片| 91一区二区三区在线播放| 成人综合色站| 免费黄色在线视频| 久久精品综合网| 日本欧美在线视频| 亚洲av毛片基地| 亚洲欧美自拍偷拍| 国产综合香蕉五月婷在线| 日本黄色片免费观看| 亚洲图片你懂的| 国产精品久久久久久免费观看 | 精品久久久久久亚洲| 国产性一乱一性一伧一色| 欧美三级免费观看| 亚洲一区二区高清视频| a级片在线免费看| 精品亚洲一区二区三区在线播放 | 免费观看黄一级视频| 日韩成人在线网站| 欧美视频免费播放| 国产成人av影院| 91a在线视频| 亚洲欧美精品久久| 欧美日韩国产区| 一区二区三区四区免费视频| 性一交一乱一色一视频麻豆| 欧美成人三级在线| 黄色一级大片在线观看| 国产精品1024| 国产精品视频一区二区三区四| 裸体武打性艳史| 欧美日韩国产一中文字不卡| 日韩欧美亚洲v片| 五月婷婷六月激情| 97国产成人精品视频| 欧美成人一二三区| 欧美一级生活片| 欧美国产日韩在线视频| 国产精品视频免费| 亚洲一卡二卡三卡| 久久精品国产99久久6 | 黄色国产在线观看| 色噜噜久久综合| 国产区二区三区| 亚洲人精品午夜| 日本国产中文字幕| 91丨国产丨九色丨pron| 久久99精品久久久久子伦| 日韩中文字幕一区二区三区| 国产精品十八以下禁看| 中文字幕视频免费观看| 久久91亚洲人成电影网站| 久久久久久国产精品视频| 亚洲美女激情视频| 尤物在线免费视频| 日韩高清a**址| 国产成人无码精品久久二区三| 欧美日韩精品一区二区天天拍小说| 国产91色在线观看| 五月激情综合色| 亚洲午夜激情影院| 亚洲成av人影院| 九一精品在线观看| 国产精品传媒在线| 久草热视频在线观看| 亚洲黄色片在线观看| 色一情一乱一伦一区二区三区日本| 亚洲欧美日韩中文字幕一区二区三区| 日韩欧美一级在线播放| 国产美女视频免费| 中文字幕av不卡| 黄色国产精品视频| 欧美日韩综合视频| 欧美一区二区免费在线观看| 91精品国产综合久久久蜜臀粉嫩| 亚洲狠狠婷婷综合久久久久图片| 精品国产污网站| 久久高清免费视频| 2019中文字幕全在线观看| 日韩中文字幕综合| 欧美精品一区二区视频| 成人在线综合网| 福利视频一二区| 天天综合色天天| 内射中出日韩无国产剧情| 亚洲高清色综合| 成人免费一级片| 成人精品视频久久久久| 国产精品99久| 国产精品入口芒果| 色中色一区二区| 亚洲天堂精品一区| 欧美激情精品在线| 久久五月激情| 国产精品无码乱伦| 色天使色偷偷av一区二区 | 久久国产精品免费一区| 欧美国产成人在线| 中文字幕第六页| 日韩成人激情视频| 中文字幕av资源| 精品综合在线| 亚洲国产日产av| 永久免费毛片在线观看| 97超碰色婷婷| 国产在线看一区| 日韩精品视频久久| 亚洲第一二三四五区| 99re国产在线| 99蜜桃在线观看免费视频网站| 91精品国产免费久久综合| 国产三级自拍视频| 亚洲美女爱爱视频| 国产精品网站大全| 欧美日韩一区高清| 日韩中文字幕区一区有砖一区 | 日韩亚洲欧美综合| 国产av无码专区亚洲av毛网站| 国产在线观看精品| 在线亚洲一区观看| 国产精品500部| www.久久草| 欧美成人欧美edvon| 日韩一区欧美二区| 黄色一级视频在线观看| 色七七在线观看| 精品国产综合| 久久国产精品影视| 亚洲免费看黄网站| 午夜激情视频在线播放| 97国产精品免费视频| 国产精品影视在线| 茄子视频成人免费观看| 亚洲成人激情图| 精彩视频一区二区三区| 欧美日韩在线一| 国产一区二区三区精品久久久| 少妇精品高潮欲妇又嫩中文字幕 | 狠狠干狠狠操视频| 欧美一级大片在线免费观看| 亚洲一区二三区| 亚洲天堂中文字幕在线| 国产树林野战在线播放| 亚洲激情国产精品| 激情五月婷婷综合网| 欧美一区二区免费在线观看| 精品少妇人妻av一区二区| 在线看日韩欧美| 国产欧美视频一区二区三区| 欧美xxxx黑人xyx性爽| 视频一区二区视频| 久久综合九色九九| 91免费视频国产| 色悠悠亚洲一区二区| www.五月天激情| 黄色aaa级片| 国产精品美女午夜av| 日韩欧美在线字幕| 久久久久一区| 老牛影视av老牛影视av| 欧美午夜小视频| 久久福利网址导航| 91啦中文在线观看| 国产露脸91国语对白| 大地资源二中文在线影视观看| 天天综合狠狠精品| 欧美一区二区.| 精品国产乱码久久久久久夜甘婷婷 | 国产精品久久久一本精品| 最近国语视频在线观看免费播放| 天堂av免费看| 91黑丝高跟在线| 欧美日韩精品一区二区| 成人av第一页| 夜夜骚av一区二区三区| 亚洲美女精品视频| 视频一区三区| 91大神福利视频在线| 欧美丰满高潮xxxx喷水动漫| 不卡电影免费在线播放一区| 西西44rtwww国产精品| gogogo高清免费观看在线视频| 91精品网站| 久久视频在线看| 欧美日韩一区不卡| 久久久噜噜噜久久中文字幕色伊伊| 自拍偷拍色综合| 非洲一级黄色片| 国产熟女高潮视频| 久久免费视频1| 日韩av不卡电影| 亚洲色图激情小说| 91久久人澡人人添人人爽欧美| 成人激情黄色小说| www.xxxx国产| 日本三级网站在线观看| 欧美激情 亚洲| www在线观看免费| 久久爱av电影| 国产精品∨欧美精品v日韩精品| 亚洲精品小视频| 欧美亚日韩国产aⅴ精品中极品| 久久久久久久性| 久久精品欧洲| 特级西西444www大精品视频免费看| 麻豆精品国产传媒av| 午夜dv内射一区二区| 美女黄色片网站| 精品国产一区二区三区日日嗨| 国产成人精品一区二区三区| 日韩精品中文字幕在线| 欧美日韩国产a| 亚洲综合成人在线| 99麻豆久久久国产精品免费| 日韩中文字幕一区二区三区| 成人h动漫精品一区二区下载| 中文精品在线观看| 中文字幕人妻一区| 日韩av片网站| 国产91对白刺激露脸在线观看| 亚洲欧美日韩不卡| 日韩免费一区二区三区| 狠狠色伊人亚洲综合网站色| 国产精品美乳一区二区免费| 国模精品视频一区二区三区| 日韩在线视频二区| 中文字幕国产精品| 日韩精品免费在线观看| 在线综合+亚洲+欧美中文字幕| 色婷婷亚洲精品| 一本色道久久综合狠狠躁的推荐| 一区二区三区欧美在线观看| 综合久久给合久久狠狠狠97色| 国产精品丝袜在线| 日本一区二区久久| 中文字幕一区二区在线播放 | 精品无码av在线| 亚洲熟女www一区二区三区| 欧美性生交大片| 国精品人伦一区二区三区蜜桃| 亚洲色图27p| 日韩美女视频网站| 亚洲一级片免费看| 性中国古装videossex|