金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
上市后的僅15天,摩爾線程
在這次首屆、也是國(guó)內(nèi)首個(gè)聚焦全功能GPU的開發(fā)者大會(huì)中,圍繞著MUSA這個(gè)關(guān)鍵詞,新品可謂是目接不暇:
一個(gè)全新GPU架構(gòu):花港,密度提升50%,效能提升10倍。三款新芯片:華山、廬山、長(zhǎng)江,分別聚焦AI訓(xùn)推一體、圖形渲染和智能SoC。一個(gè)智算集群:夸娥萬卡集群(KUAE2.0),定位國(guó)產(chǎn)自主研發(fā)的AI Foundry。兩款硬件產(chǎn)品:專為開發(fā)者打造的AIBOOK和AICube。
這并非零散的產(chǎn)品更新,而是摩爾線程用一套從云到端、從算力到生態(tài)的組合拳。
![]()
在長(zhǎng)達(dá)2個(gè)多小時(shí)的發(fā)布中,最直觀的感受就是,摩爾線程,已經(jīng)把國(guó)產(chǎn)GPU推向了下一個(gè)level。
接下來,我們就從最最最核心的全新GPU架構(gòu)花港為起點(diǎn),對(duì)此次開發(fā)者大會(huì)一探究竟。
MUSA,已經(jīng)成了全功能GPU架構(gòu)的代名詞
什么是MUSA?
它的全名叫做meta-computing Unified System Architecture,是摩爾線程自主研發(fā)的元計(jì)算統(tǒng)一計(jì)算架構(gòu)。
該怎么理解?可以說,從芯片架構(gòu)、指令集、編程模型,到軟件運(yùn)行庫(kù)及驅(qū)動(dòng)程序框架,都屬于MUSA的范疇。
![]()
歷經(jīng)五年的發(fā)展,MUSA已經(jīng)完整定義了全功能GPU從芯片設(shè)計(jì)到軟件生態(tài)的統(tǒng)一技術(shù)標(biāo)準(zhǔn),并且支持AI計(jì)算、圖形渲染、物理仿真和科學(xué)計(jì)算、超高清視頻編解碼等全場(chǎng)景高性能計(jì)算。
若是縱觀MUSA硬件架構(gòu)這幾年的迭代,從蘇堤、春曉、曲院,再到平湖,每一次的升級(jí)都是在探索著GPU算力的邊界。
![]()
最新發(fā)布的第五代全功能GPU架構(gòu)花港,亦是如此:
算力密度提升50%:在同等芯片面積下,可部署更多計(jì)算單元;計(jì)算能效提升10倍:?jiǎn)挝煌咛匦阅艽蠓鶅?yōu)化,為大規(guī)模智算集群提供綠色底座;新增FP4計(jì)算:從FP4、FP6、FP8到FP16、BF16乃至FP64,實(shí)現(xiàn)全精度端到端計(jì)算,覆蓋AI、HPC、圖形等全場(chǎng)景需求;支持十萬卡集群:通過MTlink高速互聯(lián),為超大規(guī)模模型訓(xùn)練鋪平道路。
尤為值得關(guān)注的是,花港在低精度計(jì)算上的深度優(yōu)化。架構(gòu)新增了MTFP6/MTFP4及混合低精度端到端加速技術(shù),專為未來AI主流場(chǎng)景——低比特訓(xùn)練與推理而生。
在Attention機(jī)制的關(guān)鍵路徑上,花港原生支持矩陣rowmax計(jì)算,大幅提升混合精度SIMT吞吐量,并內(nèi)置在線量化/反量化、隨機(jī)舍入等硬件加速能力,為下一代Transformer引擎(如MT Transformer Engine)提供底層支撐。
![]()
如果說硬件架構(gòu)是能力的基石,那么軟件棧,就是將這些能力交到開發(fā)者手中的具體路徑。
除了架構(gòu)本身之外,摩爾線程這次還同步推出了MUSA軟件棧5.0,構(gòu)建從編譯器、算子庫(kù)到AI框架的全棧工具鏈:
AI框架廣泛適配:除PyTorch、PaddlePaddle外,新增對(duì)JAX、TensorFlow的支持;訓(xùn)練生態(tài)擴(kuò)展:在Megatron、DeepSpeed基礎(chǔ)上,新增強(qiáng)化學(xué)習(xí)訓(xùn)練框架MT VeRL;推理引擎豐富:深度優(yōu)化自研MTT推理引擎與TensorX,同時(shí)適配SGLang、vLLM、Ollama等新興推理框架;核心庫(kù)極致優(yōu)化:muDNN實(shí)現(xiàn)GEMM/FlashAttention效率超98%,通信效率達(dá)97%,編譯器性能提升3倍;編程語(yǔ)言創(chuàng)新:推出面向AI+渲染融合的muLang,兼容TileLang、Triton,原生支持MUSA C,并發(fā)布GPU中間表示語(yǔ)言MTX 1.0,提升開發(fā)者調(diào)優(yōu)自由度。
更關(guān)鍵的是,摩爾線程宣布將逐步開源MATE算子庫(kù)、MUTLASS、MT DeepEP通信庫(kù)、KUAE云原生工具包等核心組件,向開發(fā)者社區(qū)開放底層能力,加速生態(tài)構(gòu)建。
不難看出,MUSA并未將自身定位為單純的AI加速器,而是以“全功能 GPU”為錨點(diǎn),將 AI 能力深度嵌入圖形渲染、物理仿真、量子計(jì)算等高價(jià)值垂直場(chǎng)景。
這種從通用底座向產(chǎn)業(yè)縱深延伸的架構(gòu)哲學(xué),使其區(qū)別于純粹的大模型訓(xùn)練卡,而更接近英偉達(dá) CUDA 生態(tài)早期“以通用可編程性撬動(dòng)多元應(yīng)用”的戰(zhàn)略路徑。
可以說,MUSA 不僅是中國(guó)首個(gè)全功能GPU架構(gòu),更是對(duì)“下一代 AI 基礎(chǔ)設(shè)施應(yīng)長(zhǎng)什么樣”的一次系統(tǒng)性回答——
它不再只是算力的提供者,而是多模態(tài)智能、具身智能乃至物理AI時(shí)代的關(guān)鍵使能平臺(tái)。在這一意義上,摩爾線程的架構(gòu)創(chuàng)新,已不僅是技術(shù)突破,更是對(duì)未來 AI 產(chǎn)業(yè)格局的一次主動(dòng)定義。
而圍繞著新升級(jí)的MUSA,摩爾線程這次還祭出了更多重磅產(chǎn)品。
三個(gè)新芯片,兩個(gè)新硬件,一個(gè)萬卡集群
首先基于花港架構(gòu),摩爾線程發(fā)布了兩款芯片路線。
第一個(gè)便是聚焦在AI訓(xùn)推一體及高性能計(jì)算的GPU——華山
![]()
它的核心亮點(diǎn)可以總結(jié)為:
全精度支持:從 FP4 到 FP64,覆蓋低精度訓(xùn)練與高精度科學(xué)計(jì)算;MTFP4/MTFP6 混合低精度加速:Attention 計(jì)算從 BF16 向 FP8 甚至 FP6 演進(jìn),大幅提升 Transformer 吞吐;硬件級(jí)優(yōu)化:原生支持矩陣 rowmax 計(jì)算、在線量化/反量化、隨機(jī)舍入等算法,專為大模型訓(xùn)練定制;新一代異步編程模型:支持常駐核函數(shù)、線程束特化,極大提升并行效率。
并且從浮點(diǎn)算力、訪存寬帶、訪存容量和高速互聯(lián)寬帶等維度來看,華山正在追趕英偉達(dá)的系列產(chǎn)品。
![]()
華山的推出,標(biāo)志著摩爾線程正式具備支撐萬億參數(shù)大模型訓(xùn)練的能力,為國(guó)產(chǎn)AI基礎(chǔ)設(shè)施補(bǔ)上關(guān)鍵一環(huán)。
如果說華山主攻A 算力,那么接下來的GPU——廬山,則專為圖形計(jì)算而生。
![]()
相比上一代產(chǎn)品,其AI計(jì)算性能提升了驚人的64倍,3A游戲渲染性能提升15倍。
廬山引入了AI生成式渲染架構(gòu)(AGR)和硬件光追引擎,支持DirectX 12 Ultimate。這意味著,國(guó)產(chǎn)顯卡正式邁入“光追+AI渲染”的新范式,不僅僅是“算”畫面,更是“生成”畫面。
除此之外,在端側(cè),摩爾線程還首次推出了智能SoC芯片——長(zhǎng)江
![]()
據(jù)了解,長(zhǎng)江芯片不局限于傳統(tǒng)PC或服務(wù)器,而是面向具身智能、車載、AI計(jì)算終端等端側(cè)場(chǎng)景,提供50 TOPS的異構(gòu)AI算力。
有了芯片,自然要有承載的載體。
基于長(zhǎng)江芯片,摩爾線程這次還發(fā)布了兩個(gè)非常亮眼的硬件產(chǎn)品。
首先就是MTT AIBOOK
這個(gè)算力本是專門為AI學(xué)習(xí)與開發(fā)者打造的個(gè)人智算平臺(tái),運(yùn)行基于Linux內(nèi)核的MT AIOS操作系統(tǒng),具備多系統(tǒng)兼容能力,并預(yù)置完整AI開發(fā)環(huán)境與工具鏈,通過虛擬化和安卓容器,可無縫運(yùn)行Windows與安卓應(yīng)用。
如此一來,你就可以直接在上面跑大模型、搞Agent開發(fā)。
![]()
MTT AIBOOK內(nèi)置的智能體小麥,還支持2K高清渲染、本地大模型(如 MUSAChat-72B)、端側(cè) ASR/TTS,這就讓它從工具變成了超級(jí)個(gè)體助手。
![]()
并且MTT AIBOOK還預(yù)裝了智源悟界Emu3.5多模態(tài)模型,開箱即可文本生圖、編輯圖像。
除此之外,針對(duì)端側(cè)場(chǎng)景,摩爾線程還推出了桌面上的AI小鋼炮——AICube
它更像是一個(gè)高性能的AI計(jì)算魔方,讓開發(fā)者在桌面上就能輕松獲取算力支持,處理復(fù)雜的推理任務(wù)。
![]()
最后,也是最重磅的——夸娥(KUAE 2.0)萬卡智算集群;畢竟在大模型領(lǐng)域,萬卡集群是公認(rèn)的入場(chǎng)券。
摩爾線程此次宣布,其萬卡集群在Dense大模型上的算力利用率(MFU)達(dá)60%,在MOE大模型上達(dá)40%,有效訓(xùn)練時(shí)間占比超過90%。
最硬核的消息是:摩爾線程已完整復(fù)現(xiàn)了DeepSeek V3的FP8訓(xùn)練。 依靠S5000對(duì)低精度算子的優(yōu)化,其自研FP8 GEMM算力利用率高達(dá)90%。
![]()
在這次大會(huì)上,摩爾線程還前瞻性地披露了下一代高密硬件基石——MTT C256超節(jié)點(diǎn)。
這款產(chǎn)品采用了計(jì)算與交換一體化的高密設(shè)計(jì)。它的出現(xiàn),是為了系統(tǒng)性地提升萬卡集群在超大規(guī)模智算中心里的能效比和訓(xùn)練效能。
![]()
這個(gè)量級(jí)的表現(xiàn),意味著它已經(jīng)具備了正面硬剛國(guó)際主流Hopper架構(gòu)AI GPU的底氣,是未來超大規(guī)模大模型訓(xùn)練和實(shí)時(shí)推理的國(guó)產(chǎn)標(biāo)準(zhǔn)答案
并且就在最近,摩爾線程還和硅基流動(dòng)(SiliconFlow)聯(lián)合宣布:
基于硅基流動(dòng)高性能推理引擎,雙方已在摩爾線程MTT S5000 GPU上成功完成對(duì)DeepSeek V3 671B滿血版大模型的深度適配與性能驗(yàn)證。
在FP8低精度推理技術(shù)加持下,MTT S5000單卡實(shí)測(cè)Prefill吞吐突破4000 tokens/s,Decode吞吐超1000 tokens/s,創(chuàng)下當(dāng)前國(guó)產(chǎn)GPU在大模型推理場(chǎng)景下的新高。
這一成果不僅刷新了國(guó)產(chǎn)GPU的推理性能基準(zhǔn),更傳遞出一個(gè)關(guān)鍵信號(hào):
在成熟軟件工程體系(如MUSA架構(gòu)與硅基流動(dòng)推理引擎)的協(xié)同優(yōu)化下,國(guó)產(chǎn)算力硬件正從“能跑”邁向“跑得快、跑得穩(wěn)、跑得值”。
換句話說:?jiǎn)挝凰懔Φ挠行Ю寐剩诔蔀閲?guó)產(chǎn)AI芯片真正落地的關(guān)鍵指標(biāo)——而摩爾線程,這次交出了一份高分答卷。
生態(tài),生態(tài),還得看生態(tài)
在全球算力競(jìng)爭(zhēng)日益白熱化的今天,單一芯片的性能優(yōu)勢(shì)已不足以構(gòu)建護(hù)城河。
真正的壁壘,在于軟件生態(tài)、硬件協(xié)同、場(chǎng)景落地與開發(fā)者信任的綜合能力。
摩爾線程深諳此道,它的選擇也非常清晰:不走局部替代路線,而是以“MUSA架構(gòu)+國(guó)產(chǎn)GPU+全場(chǎng)景產(chǎn)品”三位一體,打造一個(gè)從底層指令集到上層應(yīng)用的完整生態(tài)閉環(huán)。
這不僅包括人才生態(tài),更涵蓋繁榮的軟件開發(fā)生態(tài)——從自研編譯器、高性能算子庫(kù),到對(duì)主流AI框架的廣泛適配,摩爾線程提供了釋放算力所需的全套軟件工具鏈;同時(shí),通過AIBOOK等面向開發(fā)者的硬件入口產(chǎn)品,讓開發(fā)者能夠隨時(shí)隨地接入并高效使用MUSA算力,真正實(shí)現(xiàn)軟硬協(xié)同、端云一體的全場(chǎng)景覆蓋。
但除此之外,開發(fā)者和開發(fā)生態(tài),亦是其中非常關(guān)鍵的一環(huán)。
這便是摩爾線程打造摩爾學(xué)院(MUSA開發(fā)者的成長(zhǎng)平臺(tái))的原因了。
![]()
截止2025年12月,摩爾學(xué)院已經(jīng)匯聚了20萬名開發(fā)者。摩爾線程的目標(biāo)更宏大:培育百萬規(guī)模的MUSA開發(fā)者社群。
為此,他們不僅提供了從入門到大師的專業(yè)課程,還把根扎到了人才源頭——走進(jìn)全國(guó)200所高校。通過產(chǎn)教融合、聯(lián)合實(shí)驗(yàn)室以及“繁星計(jì)劃”等競(jìng)賽,摩爾線程正在從象牙塔開始,培養(yǎng)屬于自己的、懂國(guó)產(chǎn)架構(gòu)的原生代開發(fā)者。
這也印證了中國(guó)工程院院士、清華大學(xué)計(jì)算機(jī)系教授鄭偉民的觀點(diǎn):“國(guó)產(chǎn)GPU的關(guān)鍵,在于要從能跑到愿意用。”
整體來看,當(dāng)別人還在爭(zhēng)論“國(guó)產(chǎn) GPU 能不能用”時(shí),摩爾線程已經(jīng)通過從軟件棧工具、硬件入口到人才培育的全鏈路布局,讓開發(fā)者問出另一個(gè)問題:“我的下一個(gè)項(xiàng)目,能不能全在 MUSA 生態(tài)里完成?”
這,或許才是真正的突破。





京公網(wǎng)安備 11011402013531號(hào)