![]()
智東西
作者 ZeR0
編輯 漠影
智東西12月20日報道,今日,摩爾線程在首屆MUSA開發者大會2025上公布全功能GPU技術路線圖,并一連亮出“10張王牌”:新一代全功能GPU架構「花港」、即將發布的AI訓推一體芯片「華山」與高性能圖形渲染GPU「廬山」、萬卡訓練集群「夸娥」、刷新單卡推理的「S5000」、智能SoC芯片「長江」、AI算力本MTT AIBOOK、迷你型計算設備AI Cube、具身智能、摩爾學院。
![]()
恰逢近期國產GPU聲量沸沸揚揚,摩爾線程這場大會,說是萬眾期待毫不為過。
從交出的年終答卷來看,摩爾線程稱得上是誠意拉滿。摩爾線程創始人、董事長兼CEO張建中長達2小時的主題演講,密集披露了覆蓋云邊端的最新軟硬件產品及技術布局。MUSA嘉年華展區琳瑯滿目的展品與演示,傳遞出國產GPU生態的勃勃生機。
按MUSA架構路線圖,其架構每年一迭代,繼蘇堤、春曉、曲院、平湖后,新一代花港架構終于登場。花港支持FP4到FP64的全精度計算,算力密度提升50%,效能提升10倍,可支撐十萬卡以上規模的智算集群。
![]()
基于花港架構,摩爾線程即將發布2款芯片技術路線:
華山芯片專注AI訓推一體與超大規模智能計算,集成新一代異步編程與全精度張量計算單元,支持從FP4至FP64的全精度計算,為萬卡級智算集群提供穩定高效的算力支撐。其浮點算力、訪存帶寬、訪存容量、高速互連帶寬性能均超過業界標桿產品HXXX,部分配置看齊BXXX。
![]()
廬山芯片專攻高性能圖形渲染,相比MTT S80,3A游戲性能提升至15倍,AI計算性能提升64倍,幾何處理性能提升16倍,光線追蹤性能提升50倍,顯存容量提升4倍,并顯著增強紋理填充、原子訪存能力;集成AI生成式渲染、UniTE統一渲染架構及全新硬件光追引擎。
![]()
面向云端計算,夸娥萬卡智算集群已建成,是真正的用來“訓練”的萬卡,可支撐萬億參數模型訓練;在推理方面,摩爾線程聯合硅基流動,大幅提升滿血版DeepSeek R1單卡推理吞吐量,S5000單卡Prefill破4000,Decode超千;MTT C256超節點架構專為超大規模智算中心設計,基于高密硬件架構,實現極致智算性能。
![]()
張建中說,接下來,摩爾線程將會做10萬卡及更大規模的智算集群。
![]()
面向端邊側,張建中現場展示了搭載“長江”SoC芯片的第一臺AI算力本MTT AIBOOK。
![]()
這款AI算力本集開發、辦公、娛樂于一體,提供50TOPS異構AI算力,具備多系統兼容能力,預置了AI開發環境與工具鏈,可在本地運行最高30B的端側大模型,內置智能體“小麥”及多種AI應用,支持8K超高清視頻播放、外接4屏,今日起在京東商城開啟預售。
![]()
AIBOOK實現了從芯片、驅動到開發環境的全棧整合,不僅使得AI開發的“開箱即用”,更創新地打破Linux開發、Windows辦公與Android應用之間場景壁壘,將強大的AI能力轉化為人人可及的生產力,賦能開發者在AI時代成為“超級個體”。
它不僅是創新工具,更將成為開發者接入MUSA生態的重要入口。
大會同期發布AI模組MTT E300,并預告了迷你型計算設備MTT AI Cube。
這些計算設備均搭載了自研智能SoC“長江”芯片。這款芯片集成了高性能全大核CPU、全功能GPU、可編程雙核NPU、VPU、DSP、ISP,支持32GB/64GBLPDDR5X ,內存帶寬超過100GB/s,異構AI算力達50TOPS,支持INT8/FP16/FP32混合精度計算。
![]()
摩爾線程還披露了圖形技術路線圖:率先擁抱“圖形+AI”,實現硬件級光線追蹤加速。
![]()
此次大會亦發布了MUSA 5.0全棧軟件、MUSA圖形軟件棧、大模型推理套件等一系列升級,進一步降低開發門檻。
面向具身智能領域,摩爾線程發布MT Lambda具身智能仿真訓練平臺、夸娥智算集群“端云結合”的MT Robot具身智能解決方案,并宣布將于2026年第一季度開源關鍵仿真加速組件Mujoco-warp-MUSA,以開放協作助力機器人產業研發效率提升。
![]()
截至今年6月30日,摩爾線程擁有超過500個已授權專利,其中發明專利達到468個。
一、戰略基石:MUSA 5.0全棧軟件升級,即將推出計算光刻庫
在主題演講中,張建中強調了MUSA架構作為全功能GPU基石的先進性與技術引領性。
全功能GPU的創新折射出一部算力進化史。他預測2021年-2026年是生成式AI時代,2027年后是物理AI和量電融合的時代,基礎設施采用全功能GPU,就可以保持科技持續領先。
![]()
摩爾線程的全功能GPU有四大核心引擎:AI計算加速引擎、圖形渲染引擎、物理仿真和科學計算引擎、超高清視頻編解碼引擎。
這背后,是摩爾線程自主研發的元計算統一計算架構MUSA(meta-computing Unified System Architecture),完整定義了從芯片設計到軟件生態的統一技術標準。
![]()
張建中宣布,MUSA 5.0全棧軟件全新升級,可完整覆蓋各種GPU應用場景,支持國內外主流CPU、操作系統及開發環境。
![]()
MUSA 5.0在全棧統一性、極致效能與生態開放性上取得關鍵突破。
(1)編程生態全面升級:既兼容CUDA C,又有原生MUSA C,深度兼容TileLang、Triton等編程語言,還原生支持智源研究院開發的FlagOS & Triton,為開發者提供靈活高效的全棧開發體驗。
(2)計算效能極致優化:核心計算庫muDNN實現GEMM、FlashAttention效率超98%,通信效率達97%,編譯器性能提升3倍,并集成高性能算子庫和開發者工具,顯著加速訓練與推理全流程。
(3)開源生態持續擴大:計劃逐步開源計算加速庫、通信庫、系統管理框架等核心組件,向開發者社區開放深度優化的底層能力。
(4)即將推出四大基礎庫:兼容跨代GPU指令架構的中間語言MTX、面向渲染+AI融合計算的編程語言muLang、量子計算GPU融合框架MUSA-Q、加速OPC光刻計算的計算光刻庫muLitho。
![]()
二、硬件核心:公布技術路線圖,花港新架構首揭秘
花港架構基于全棧自主研發,采用新一代指令集,支持FP4到FP64的全精度端到端計算,算力密度提升50%,能效提升10倍,新增MTFP6/MTFP4及混合低精度支持,兼容MXFP和NVFP,內置低精度補償技術。
![]()
該架構集成新一代異步編程模型,優化任務調度與并行機制,高效發揮算力;通過自研MTlink高速互聯技術,支持1314GB/s片間互聯,支持超十萬卡級智算集群擴展。
在花港ACE2.0架構中,摩爾線程在每個MP里設計了一個小ACE引擎,通過更多的通信和計算并行,使效果顯著提升。
![]()
此外,花港做到了圖形與AI深度融合:內置AI生成式渲染架構(AGR),增強硬件光線追蹤加速引擎,完整支持DirectX 12 Ultimate。
![]()
基于“花港”架構的硬件光線追蹤加速引擎,可實現對DirectX Raytracing (DXR)的支持,使實時、逼真的光影效果在國產GPU上成為可能,性能比MTT S80快50倍。
![]()
除了具備自主可控的核心能力外,花港還具有高安全性,通過4層硬件安全架構,提供從芯片到系統的可驗證安全守護。
![]()
三、夸娥萬卡智算集群算力達10EFLOPS,單卡刷新國產GPU推理性能紀錄
會上,摩爾線程正式發布夸娥萬卡智算集群。該集群具備全精度、全功能通用計算能力,在萬卡規模下實現高效穩定的AI訓練與推理。
![]()
其有8大亮點:
浮點運算能力達到10EFLOPS在多項關鍵精度指標上,模型效果達到國際主流水平;訓練算力利用率(MFU)在Dense大模型上達60%,MOE大模型上達40%有效訓練時間占比超過90%訓練線性擴展效率達95%計算通用;與國際主流生態高度兼容;在多項指標上具備顯著能效和性價比優勢。
面向大模型訓練,隨著大模型走向萬億參數、復雜MoE架構,大模型訓練集群規模邁向10萬卡,訓練精度從FP16走向FP8/FP4,后訓練強化學習算力需求快速爆發,帶來應對大規模訓練、實現高性能訓練、保證可靠性訓練方面的挑戰。
摩爾線程通過軟硬協同,分層優化,系統性攻克這些挑戰:GPU提供低精度FP8計算能力、ACE異步通信引擎;MUSA架構提供高性能算子與通信原語;兼容主流的AI框架;通過MT-Megatron等分布式訓練工具,實現高效并行與高吞吐RL;最終由夸娥智算集群平臺提供零中斷容錯與統一可觀測。
同時,通過軟硬協同深度優化,摩爾線程完整復現DeepSeek V3的FP8訓練,自研FP8 GEMM通過精細化優化,算力利用率高達90%;通過極致算子性能優化,Flash Attention的算力利用率超95%。在展示的案例中,MTT S5000集群實現了比國際主流計算卡更好的DeepSeek訓練效果。
![]()
面向大模型推理,挑戰在于降低成本和讓服務更快。為了充分發揮硬件性能,摩爾線程發布升級的大模型推理套件,全面支持開源社區引擎。
![]()
結合這些推理引擎,在DeepSeek R1 671B全量模型分布式推理場景中,MTT S5000能實現優于HXX的Prefill Only和Decode單卡吞吐,單用戶每秒有超過100個token。
![]()
摩爾線程聯合硅基流動,經過系統級工程優化與FP8精度加速,在DeepSeek R1 671B全量模型上實現性能突破:MTT S5000單卡Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s。這一結果刷新了國產GPU的推理性能紀錄。
![]()
在運行混元、萬相視頻生成模型時,MTT S5000單機推理速度比HXXX更快。
![]()
面向未來,摩爾線程發布了MTT C256超節點的架構規劃。該產品為下一代超大規模智算中心構建,采用計算與交換一體化的高密設計,以1層scale up網絡實現2柜256GPU全互聯,規避2層以上網絡帶來的帶寬損失和額外延遲,旨在系統性提升萬卡集群的訓練效能與推理能力,兼顧超高密度與極致能效。
![]()
四、培養百萬MUSA開發者,AI算力本提供“開箱即用”一站式開發
GPU計算生態由上層算法庫,中層接口、驅動、編譯器和底層硬件架構三大部分基本構成,計算生態的豐富性是GPU的核心競爭力之一。
摩爾線程構建了從硬件工具、算力支撐到人才培養的賦能體系。
1、深化人才培養,建設MUSA生態樞紐
以摩爾學院為平臺,摩爾線程已構建起產教融合的開發者成長體系,該平臺匯聚近20萬名開發者與學習者,并通過“國產計算生態與AI教育共建行動”將前沿技術與產業實踐帶入全國200多所高校,吸引超10萬名學子參與。
本次大會宣布建設MUSA生態中心,同時發布MUSA開發者計劃,旨在為從AI學習探索到科研創新的各階段創新者,提供算力支持與技術賦能。
![]()
2、發布AI算力本,提供“開箱即用”的開發體驗
作為連接開發者與MUSA生態的核心入口,MTT AIBOOK搭載自研“長江”智能SoC,提供高達50TOPS的端側AI算力、32GB/64GB高速內存、1TB SSD超大存儲。
![]()
這是一款專為AI學習與開發者打造的個人智算平臺,從芯片、驅動到開發環境全棧整合,實現了專業AI開發的“開箱即用”,可隨心切換Linux開發、Windows辦公、Android應用,亦支持國產操作系統,以便開發者快速搭建智能體。
![]()
在展區,智東西看到MTT AIBOOK里已經安裝了百度網盤、飛書、騰訊會議、騰訊文檔、QQ等常見應用。
大會同時預告了基于長江芯片打造的迷你型計算設備MTT AI Cube,進一步豐富端側計算產品形態。
![]()
張建中談道,生態體系是GPU行業的核心護城河與價值所在,依托MUSA架構的優勢,摩爾線程持續加大研發投入,致力于攻克從硬件到軟件的核心技術挑戰,以開放創新不斷深化與生態伙伴的協同,共同構建自立自強的國產計算產業生態。
結語:國產智能計算生態持續演進
隨著技術及生態走向成熟,國產GPU落地漸呈燎原之勢。
在這場聚焦全功能GPU的開發者盛會上,中國工程院院士、清華大學計算機系教授鄭緯民發表主題演講,提到發展“主權AI”是提升未來國家競爭力的關鍵,其核心在于實現“算力自主、算法自強、生態自立”的完整體系。
據鄭緯民院士分享,國產計算顯卡與國外主流產品的性能差距正在持續縮小,雖然構建國產萬卡乃至十萬卡級別的超大規模智算系統存在難度,但這是必須完成的產業基礎設施任務。開發者是生態建設的關鍵,國產芯片平臺必須構建起友好、易用的開發環境,以有效服務開發者社群。
MUSA開發者大會2025展示了摩爾線程以自主統一架構MUSA為根基、貫穿“芯-邊-端-云”的完整技術棧,落地范疇覆蓋從超大規模基礎設施到開發者終端。
面向更廣闊的未來計算場景,摩爾線程已展開前瞻性布局。MUSA生態已與合作伙伴在具身智能、科學智能(AI for Science)、量子科技、AI for 6G等前沿交叉領域展開探索工作,持續拓展全功能GPU作為通用算力底座的技術邊界與應用價值。
國產GPU還在闖關,但這條路,已經肉眼可見地越來越有希望。





京公網安備 11011402013531號