![]()
機器之心報道
編輯:杜偉
2025 年已接近尾聲,這一年里,大模型加速從單點提效工具升級為支撐業務系統的底層基礎設施。過程中,推理效率決定了大模型能否真正落地。對于超大規模 MoE 模型,復雜推理鏈路帶來了計算、通信、訪存等方面的挑戰,亟需行業給出高效可控的推理路徑。
華為亮出了面向準萬億參數 MoE 推理的完整技術棧:openPangu-Ultra-MoE-718B-V1.1 展現 MoE 架構的模型潛力、包括 Omni Proxy 調度特性、將昇騰硬件算力利用率推至 86% 的 AMLA 技術在內的昇騰親和加速技術,使得超大規模 MoE 模型具備了走向生產級部署的現實可行性。開源實現:
https://gitcode.com/ascend-tribe/ascend-inference-cluster#
如果說過去數年大模型競爭的焦點在訓練規模與能力突破上,那么如今,推理效率正迅速成為影響模型能否落地的關鍵變量。
從任務屬性來看,訓練側重于通過更多算力和數據擴展模型能力,而推理比拼的是誰能以低成本、低延遲將模型穩定運行起來。尤其對于超大規模混合專家(MoE)模型而言,真正的落地挑戰來自于計算、通信、訪存和并行策略等的最優策略選擇。
這些挑戰迫使企業必須把推理成本精確到每一次節點通信和每一個算子開銷。在高度耦合的推理鏈路中,調度或資源分配上的微小偏差都可能被放大為延遲上升、吞吐下降,甚至導致部署成本偏離預期。也正因為如此,推理成本是否可控,很大程度上決定了大模型的可用性,并直接影響能否高效進入業務場景。
在大 EP 部署下,MoE 模型能更好地發揮芯片和組網能力,實現更低成本的推理,但是其整個推理體系也會變得異常復雜。每一個算子的極致性能、通信 - 計算的多流并發、節點間通信的極致掩蓋、整個系統的協同調度,每一環都可能成為大規模部署中的瓶頸。在國內 token 需求指數級增長的今天,推理效率更需要做到極致,以更好地支撐大模型的商業閉環。
因此,如何以更快、更穩的方式跑通千億乃至準萬億參數規模的 MoE 模型,讓它們具備生產級部署能力,已經成為整個行業迫切需要解決的核心難題。如今,隨著推理加速、智能調度和硬件算力釋放的系統性演進,這一問題在昇騰硬件上有了清晰的解法
上個月,華為發布并開源了準萬億級 MoE 模型 openPangu-Ultra-MoE-718B-V1.1,它基于昇騰硬件訓練,總參數為 718B,激活參數量為 39B,提升了 Agent 工具調用和其他綜合能力。與業內所有嘗試超大規模 MoE 的團隊一樣,擺在面前的一大挑戰是:讓這個「龐然大物」高效地跑起來。這意味著必須要在推理層面做出突破。
一番深挖之下,我們發現該模型的量化版本——openPangu-Ultra-MoE-718B-V1.1-Int8(以下簡稱 openPangu-Ultra),已經在昇騰硬件上構建起一條完整可行的推理路徑。
![]()
模型 GitCode 地址:https://ai.gitcode.com/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1-Int8
具體來講,依托開源的 Omni Proxy 調度算法以及極致釋放硬件算力的全新 AMLA 算法的昇騰親和加速技術,openPangu-Ultra 實現了在昇騰硬件上的穩定部署。
昇騰親和加速技術,
更快更穩跑通準萬億 MoE
此前,超大規模 MoE 部署更多依賴通用推理框架,如 vLLM、SGLang。雖然能跑起來,但并不擅長,往往在專家路由、All-to-All 通信、節點負載均衡以及專家放置策略等環節難以支撐 EP 百級以上的巨型專家并行規模。
同時,大廠內部自研的 MoE 分布式推理方案大多不開源,不具備可復用性,并且難以遷移到昇騰等硬件平臺。更重要的是,在缺乏系統級優化的情況下,MoE 推理受限于通信瓶頸、資源碎片化、硬件利用率低等問題,不僅工程成本高,推理效率也難達到可商業化的要求。
隨著近期一系列昇騰親和加速技術的持續開源,過去依賴深度定制和巨額投入才能跑通的超大規模 MoE 推理出現了新的可能。得益于推理框架與加速套件的深度融合,這些昇騰親和的加速技術形成了一套完整高效的超大規模 MoE 推理體系
接下來,我們將從框架層面、調度層面到算子層面,逐步解析這套推理體系的關鍵技術支點。
全鏈路推理調度特性
先來看框架層面,Omni-Infer 為 vLLM、SGLang 等當前主流的開源大模型推理框架提供了昇騰親和加速庫,在保持上層接口與開發體驗一致的前提下,將昇騰硬件的底層能力無縫接入到現有推理鏈路。這樣一來,開發者無需遷移服務架構、無需重寫應用邏輯,就能在昇騰硬件上運行大模型。
作為 Omni-Infer 框架層面的重要組成部分, Global Proxy 承載著請求調度與資源優化的核心使命,是超大規模 MoE 模型的高性能推理調度特性,主要負責分布式推理時的請求分發、P/D(Prefill 與 Decode) 調度與并行策略協調,以降低延遲、提升吞吐。在 Omni-Infer V0.3.0 中,Global Proxy 帶來了超過 10% 的推理性能提升
![]()
推理框架
為了滿足后續更復雜的調度需求,Omni-Infer 帶來了 Global Proxy 的升級版 ——Omni Proxy,也即第二代請求調度特性。它基于開源的高性能 Web 服務器和反向代理服務器 Nginx 打造,在繼承 Global Proxy 算法優勢的基礎上,通過多項技術創新進一步解決了傳統調度器在大模型推理場景下的局限性。
大模型推理請求的獨特性主要在于其顯著的周期性負載特征、性能感知缺失、KV 緩存匹配以及冗余計算問題
首先大模型推理通常呈長周期性,如 Prefill 秒級、Decode 幾十毫秒級,導致新請求在當前批次推理結束前無法進入;其次傳統調度器無法準確感知模型運行中的關鍵指標,如 tokenize 時間、批次大小、調度周期和 KV 緩存利用率,調度決策缺乏數據支撐。此外傳統調度器無法對字符串格式的 prompt 請求與實際 KV 緩存狀態進行精準匹配,緩存命中率達不到預期。最后多機 P/D 分離部署中 Prefill 和 Decode 節點分別執行相同的 tokenizer 處理,計算資源浪費與延遲開銷較高。
傳統調度器在應對大模型推理的這些挑戰時往往難以提供有效支持,因此亟需效率更高、延遲更低、運行更穩的智能調度方案。
![]()
大模型推理響應模式
以全生命周期監控、APC 感知調度、Tokenizer 復用和負載感知的 P/D 協同調度為主線的調度體系下,Omni Proxy 的系統吞吐量和推理效率又提升了一個臺階。
創新 1:通過將每個推理請求拆解為 10 個細粒度的生命周期階段(如下圖),Omni Proxy 實現了基于全鏈路性能數據的精確請求級調度,最大化 Prefill 與 Decode 資源池的利用率并保持整體負載均衡。
![]()
從接收請求、Tokenize、APC 匹配,到 Prefill 等待、調度與執行,再到 Decode 等待、調度與執行、直至完成
創新 2:同時提供 sequential(先 P 后 D、按需分配并拉取 KV)和 parallel(P/D 同步選擇、KV 預分配并按層推送)兩種模式,以適配 vLLM 與 SGLang 在 P/D 分離場景下截然不同的 KV Cache 傳輸與協同方式,確保兩類框架都能實現高效的 Prefill-Decode 調度。
![]()
左為 sequential 模式,右為 parallel 模式
創新 3:通過實時同步 KV 緩存狀態、基于 tokenizer 與一致哈希的精準匹配以及多 worker 共享的全局緩存狀態,實現 APC 感知的高效 KV 緩存復用與智能調度,減少重復計算與節點傳輸開銷。
![]()
APC 感知智能調度流程
創新 4:在上游預先完成對話模板展開與 tokenizer 處理并將結果隨請求下傳,避免下游節點重復計算,并在 DeepSeek v3 等多機 P/D 分離場景下降低約 30% 的 tokenizer 開銷。
![]()
Tokenizer 結果復用優化流程
創新 5:通過對請求按長度與等待時間加權排序、結合 APC 優先匹配以及基于負載與預期處理時間的節點選擇,Prefill 調度器實現對長短請求的動態平衡以及對上游節點的精準匹配,達到提升吞吐、降低等待和避免過載的效果。
![]()
基于負載與等待時間的批處理請求
創新 6:結合主從調度與共享內存的數據聚合機制,在多 worker 架構下實現全局一致的調度決策與低開銷的性能同步,確保系統高可用性與擴展性。
![]()
分布式架構優化
Omni Proxy 的六大創新點不是零散的功能補丁,而是進行了一次系統性整合升級,打造出一套面向超大規模 MoE 推理的高性能調度基礎設施,讓模型在推理鏈路中保持可控的延遲和穩定的吞吐。
全棧推理加速體系
至于推理加速套件,同樣不是簡單堆疊若干優化模塊,而是將推理的核心瓶頸逐層重構:
API Server 與 Scale Out能力讓推理服務在昇騰集群中順暢擴展;序列均衡調度確保不同長度、不同階段的請求在集群內合理分配,避免出現局部節點擁堵。模型部署側支持 DeepSeek、Qwen、openPangu 等不同體系、不同架構的大模型,兼容性良好;Omni Placement進一步瞄準 MoE 推理最棘手的問題之一 —— 專家放置與負載均衡,通過 Layer-wise 與 Uneven 機制實現不同層、非均勻分布的大規模專家的高效調度。MTP 與 Fusion Operator,前者提高多 token 并行生成能力,后者通過算子融合減少冗余計算、提升執行效率。
可以看到,從服務擴展、任務調度、專家管理到算子加速,這些組件共同構筑起支撐超大規模 MoE 推理的核心加速體系。
![]()
推理加速套件
進一步地,這些推理加速套件連同 Omni Proxy 一起,將并行策略、調度決策、節點通信等分散的環節整合進同一套系統棧,讓原本復雜而碎片化的流程被編織成一個真正可落地的推理體系,為昇騰硬件承載準萬億 MoE 推理提供了關鍵的軟件支撐。
不過,框架層面的協同優化只是完成了第一步,想要繼續壓榨推理潛力,算子層面的創新同樣不可缺少。
AMLA 將昇騰硬件 FLOPS 利用率推至 86%
對于準萬億參數的 MoE 模型,推理性能的高低,關鍵在于芯片算力能否充分釋放、算子是否貼合芯片結構、數據流是否高效、通信開銷是否構成瓶頸。這些都將直接影響推理的單 token 成本,并進一步決定推理鏈路的穩定性與可擴展性。
在昇騰硬件上,高效軟硬件協同的關鍵是 AMLA(Ascend MLA)。作為超大規模 MoE 推理極致性能的一大支點,其算力利用率最高可達 86%,這在推理場景下是絕無僅有的
作為一種「以加代乘」的高性能 MLA 算子,AMLA 是昇騰體系中極具代表性的底層創新。通過從數學層面對計算邏輯進行解構,讓原本受限的計算在昇騰架構上獲得了更加貼合的執行方式。
![]()
論文地址:https://arxiv.org/pdf/2509.25224
作為大語言模型的核心,注意力機制在處理不斷擴展的超長上下文時面臨著越來越大的計算開銷與內存壓力。為此,DeepSeek 采用的多頭潛變量注意力(MLA)方法可以在大幅壓縮 KV 緩存的同時保持模型精度。并且,該方法將注意力計算從訪存密集轉向計算密集,從而非常契合昇騰這類強調高 FLOPS 密度與高能效的硬件。
不過,直接實現的 MLA 受限于巨大輸出張量的反復搬運和異構計算單元無法并行利用這兩大瓶頸,導致算力無法充分釋放。FlashMLA 等更優方案雖可以提升 FLOPS,但因 KV 緩存的重復搬運引入了額外開銷。要想 MLA 真正在昇騰硬件上跑滿,需要在算子級的數據組織與流水化執行方面有所突破。
此次,AMLA 帶來了兩項關鍵創新,在數值 Rescaling 和算子流水化兩方面同時發力,讓注意力算子在昇騰硬件上具備高效跑滿的可能。
首先,AMLA 提出了一種基于 FlashAttention 的全新算法,利用 FP32 和 INT32 在二進制上的對應關系,將原本需要大量浮點乘法的步驟改成只用更輕量的整數加法來完成,從算法層面減少了計算開銷以及數據搬運。需要指出的是,它不是對某幾個 kernel 做局部優化,而是通過重新構造浮點運算,把乘法拆解并映射為更適合芯片執行的加法模式。完整的 AMLA 算法實現如下所示:
![]()
在 FlashAttention 的 Rescaling 步驟中,通常需要讀取 FP32 格式的輸出塊并乘以縮放因子,再寫回 GM(全局內存)。這一過程須將數據從 GM 搬運至 UB(向量緩沖區) 進行計算。AMLA 創新性地將這一更新過程利用代替,與此同時,這一操作可轉化為對 x 的整數表示的加法運算。這種變換允許使用昇騰硬件支持的原子加法指令,直接在 GM 中完成輸出張量的更新。這徹底消除了中間張量在 GM 與 UB 之間的往返搬運,顯著降低了訪存延遲。
![]()
基線 MLA 與 AMLA 的流程對比。
在以加代乘之外,AMLA 又設計了一套結合預加載流水線(Preload Pipeline)層級分塊的執行策略。前者通過將計算任務解耦,使負責矩陣運算的 Cube 核與負責 Softmax / 歸一化的 Vector 核能夠并行工作。結合預加載機制,確保 Cube 核始終處于飽和計算狀態(Cube-bound),避免因等待 Vector 核處理而產生的流水線氣泡。在 Cube 核內部,AMLA 引入了多級分塊策略。通過細粒度的數據切分,實現了數據從高層存儲向寄存器搬運的過程與實際計算過程的完全重疊。這種雙層流水線優化確保了數據流的連續性,最大化了 FLOPS 利用率。
![]()
AMLA 的預加載流水架構
AMLA 的實測結果進一步印證了其含金量,在昇騰硬件上跑出了最高 614 TFLOPS的性能,算力利用率達到理論峰值的 86.8%,遠高于當前最好的開源 FlashMLA(在 NVIDIA H800 SXM5 上算力利用率約 66.7%)。
![]()
以往大模型推理的天花板往往受限于硬件實際可用算力,而 AMLA 抬升了芯片的性能上限,打破了行業長期停留在 50% 以下的利用率瓶頸,使得昇騰硬件更有效地支撐大模型的推理需求。硬件利用率的提升也將進一步打開系統層面、框架層面乃至模型層面的優化空間,提供更強的可持續優化與擴展潛力。
至此,圍繞系統性推理加速、全鏈路智能調度與底層算子優化,華為打出了一套面向超大規模 MoE 推理的組合拳。
為了讓超大規模 MoE 模型的部署不再是業界難題,華為在昇騰硬件上祭出了準萬億參數 openPangu-Ultra 與昇騰親和加速技術的最佳實踐,并在框架層面、調度層面和算子層面進行了一系列技術創新。
其中昇騰親和加速技術在框架層面提供適配 vLLM、SGLang 等的加速器以及多個加速套件,Omni Proxy 帶來了更穩更快的智能調度,AMLA 通過算子優化提升硬件算力利用率。這些技術的組合讓準萬億參數 MoE 推理在成本、性能與穩定性之間找到可落地的平衡點,并為其邁向商業可行性奠定了基礎。
如今,盡管 Scaling Laws 的邊際收益正在放緩,但模型能力仍在上探。同時,推理效率的底座也在系統、算法與硬件協同優化下不斷加固。模型能力與推理效率的雙向提升讓大模型加速走向產業化落地階段。
隨著大模型的價值判斷逐步從「能否訓練」轉向「能否以可控成本長期運行」,行業正在經歷一場由推理效率驅動的結構性重構。而 openPangu-Ultra 與昇騰親和加速技術的結合,為這種重構給出了一個清晰的范本。





京公網安備 11011402013531號