近日,硅基流動創始人袁進輝在華為云生態大會上宣布,硅基流動聯合華為云基于 CloudMatrix 384 超節點昇騰云服務和高性能推理框架 SiliconLLM ,用大規模專家并行最佳實踐正式上線 DeepSeek-R1。
該服務在保證單用戶 20 TPS 水平前提下,單卡 Decode 吞吐突破 1920 Tokens/s,可比肩 H100 部署性能。同時,經過主流測試集驗證及大規模線上盲測,在昇騰算力部署 DeepSeek-R1 的模型精度與 DeepSeek 官方保持一致。
其中,通過架構的全面創新,基于新型高速總線架構的 CloudMatrix 超節點集群在總算力、互聯帶寬、內存帶寬上領先業界。
此前,硅基流動在大模型云服務平臺 SiliconCloud 首發推出了基于昇騰云的穩定生產級 DeepSeek-V3 & R1 推理服務,并支持模型私有化集群部署,這次合作推動基于國產算力的 DeepSeek-R1 推理服務持續升級。

DeepSeek 風暴席卷全球,特別是以其高效、低成本的 MoE 架構為應對大模型推理挑戰打開了局面。不過,如果沒有強大的 AI Infra 技術能力,要想部署好 DeepSeek 并非易事。
DeepSeek 使用了大規模專家并行(Expert Parallelism,大 EP 并行)的 MoE 模型架構,若采用單機部署方案,最終的性能遠不如 DeepSeek 官方公布的部署方案,且至少有數倍成本差距。更具挑戰的是,雖然 DeepSeek 公開了大 EP 并行方案,但技術難度較大,業內還沒有其他團隊快速復現這一部署方法。
針對這些難題,硅基流動與華為云聯合攻關實現了技術突破。我們在 CloudMatrix 384 超節點昇騰云服務上部署 DeepSeek-R1 時采納了大規模專家并行方案,通過多專家負載均衡和極致通信優化,實現高吞吐及更高性能,大幅提升了用戶體驗。同時,我們使用昇騰高性能算子庫,以及硅基流動推理加速框架 SiliconLLM 在模型、機制、算子上的協同優化,實現在國產算力上,不損失模型精度的情況下, 獲得 DeepSeek-R1 推理效率與資源利用率的顯著提升。
硅基流動與華為云的合作不僅提供堅實的全國產軟硬件體系部署方案,讓 DeepSeek 推理服務更經濟高效,也展現了 AI 生態合作的強大能量。硅基流動將繼續加深與華為云的聯合創新,共同提升產品體驗,加速模型在更多場景落地。





京公網安備 11011402013531號