
摘要:
在中國市場,摩爾線程想構建一個中國版英偉達生態大廈。
科技 出品
作者|Dale
編輯|董雨晴
英偉達的CUDA生態,一個被類比成“AI時代的Windows”系統的發布,在2006年剛剛面世時,幾乎無人問津。
“一直到2010年,我們去研究一些CUDA的東西的時候,還是會覺得各種問題,之前大家都是英特爾的X86,很成熟了,一做CUDA,這也不行,那也不行,我們就開玩笑怎么做這么爛的?”一位在早年間就專注于英偉達CUDA做軟件研究的從業者告訴科技,這樣的狀態持續了僅五六年,到2015年,想再找CUDA的bug就很難了。
CUDA生態的開發者數量在2020年約為180萬,到2025年已超過450萬,每月工具包下載量達數十萬次。到今天,英偉達還在不斷加深這個護城河。
在中國市場,摩爾線程試圖重講一個類似的故事,構建一個中國版英偉達生態大廈。
12月20日,在北京中關村國際創新中心,摩爾線程首屆MUSA開發者大會(MDC 2025)現場,摩爾線程創始人張建中在上市后首次公開亮相演講,從“花港”新架構,到“夸娥”萬卡集群,再到單卡推理性能突破,第一次系統性攤開了自己的技術底牌,步步直比英偉達。宣布該開發者大會信息后,摩爾線程連漲三天,合計漲幅超50%。

“生態體系是GPU行業的核心護城河與價值所在。”張建中在主題演講中直言,這不僅是摩爾線程五年來在自主全功能GPU架構MUSA上的投入,也是其在2025年末向市場交出的新答卷。

對標英偉達,亮出全新架構“花港”
如果說芯片是算力的軀體,那么架構就是其靈魂。英偉達的Blackwell、Hopper均以架構命名,其重要性不言而喻明。摩爾線程此次發布的全功能GPU架構“花港”,正是其面向下一代計算范式的核心載體。

根據官方資料,“花港”架構在計算密度、能效、精度支持、互聯能力及圖形技術等方面實現全面突破:
計算性能顯著提升:基于新一代指令集,算力密度提升50%,能效大幅優化;支持從FP4到FP64的全精度端到端計算,新增MTFP6/MTFP4及混合低精度支持。
異步編程與超大規模互聯:集成新一代異步編程模型;通過自研MTlink高速互聯技術,支持十萬卡以上規模智算集群擴展。
圖形與AI深度融合:內置AI生成式渲染架構,增強硬件光線追蹤加速引擎,完整支持DirectX 12 Ultimate。
基于“花港”架構,摩爾線程明確了兩條芯片產品線:
“華山”:專注AI訓推一體與超大規模智能計算,為萬卡級智算集群提供算力支撐,定位為“下一代AI工廠的堅實底座”。官方表示其性能約在Hopper和Blackwell之間。
“廬山”:專攻高性能圖形渲染,圖形性能實現全面跨越:AI計算性能提升64倍,幾何處理性能提升16倍,光線追蹤性能提升50倍,運行3A游戲性能提升15倍。
在行業人士看來,放眼全球,目前僅英偉達等極少數企業具備真正意義上的全功能GPU量產能力。摩爾線程的切入,填補了國內該類型產品的空白,形成了差異化壁壘。不過,以上兩款產品還都是“期貨”,量產還需要時間。
在AI算力競爭已進入“萬卡集群”時代的今天,摩爾線程正式發布了夸娥萬卡智算集群(KUAE 2.0),并展示了其支撐萬億參數模型訓練的工程化能力。
該集群核心指標包括:訓練算力利用率(MFU)在Dense大模型上達60%,MOE大模型上達40%,有效訓練時間占比超過90%,訓練線性擴展效率達95%,“在多項關鍵精度指標上達到國際主流水平”。
在推理側,摩爾線程聯合硅基流動,在DeepSeek R1 671B全量模型上實現性能突破:MTT S5000單卡Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s。這一數據被官方稱為“樹立國產推理性能新標桿”。
中國工程院院士、清華大學計算機系教授鄭緯民在大會演講中指出,雖然構建國產萬卡乃至十萬卡級別的超大規模智算系統存在難度,但“這是必須完成的產業基礎設施任務”。

攤牌了,要做中國“CUDA”
GPU之戰,終局在生態,英偉達憑借CUDA構筑了近二十年的護城河。
“MUSA不僅完整定義了從芯片設計到軟件生態的統一技術標準,更代表了公司堅持底層創新、踐行長期主義的戰略核心。”張建中表示。
據官方披露,截至2025年12月,摩爾線程通過“摩爾學院”匯聚了20萬名開發者與學習者,并通過“國產計算生態與AI教育共建行動”走進全國200多所高校,吸引超10萬名學子參與。

在軟件棧層面,MUSA 5.0實現全面升級:原生支持MUSA C,深度兼容TileLang、Triton;核心計算庫muDNN實現GEMM/FlashAttention效率超98%,通信效率達97%。公司還計劃逐步開源計算加速庫、通信庫及系統管理框架等核心組件。
“只有生態能把所有開發者聯合在一起,單一企業很難獨自建設整個生態。”
實際上,摩爾線程為何如此重視生態?不單單是對標英偉達那么簡單。
一位AI行業從業者告訴科技,“通過軟硬件的協同設計,做比較好的軟件實現,還是能夠把國產算力充分發揮起來的”。
不少從業者都認為,以當前的模型預訓練需求來說,依舊以英偉達的芯片為最優解,但其同樣溢價不菲,單個芯片市場報價通常在20萬至25萬元之間。在持續暴漲的AI需求面前,這是一筆需要計算的經濟賬。
因此在獲準向中國出售H200之際,黃仁勛也表示,“美國放松對AI芯片銷售的限制,中國是否會接受英偉達的H200芯片,我對此并不確定。”
“現階段來看,如果大家愿意在軟件上做相關工作,最終國產算力方案未必不如國外”,前述AI行業從業者表示,不過其也認識到國產生態建設之難。
擺在摩爾線程面前的,仍是漫漫長路:生態建設非一日之功,大規模商用部署仍需持續驗證,國際競爭環境日益復雜。亮劍之后,更關鍵的是如何攻城。





京公網安備 11011402013531號