比肩 H100！硅基流動上線基于昇騰云 CloudMatrix 超節點的 DeepSeek-R1

IP屬地中國·北京 編輯：朱天宇砍柴網 時間：2025-05-16 17:12:24

近日，硅基流動創始人袁進輝在華為云生態大會上宣布，硅基流動聯合華為云基于 CloudMatrix 384 超節點昇騰云服務和高性能推理框架 SiliconLLM ，用大規模專家并行最佳實踐正式上線 DeepSeek-R1。
該服務在保證單用戶 20 TPS 水平前提下，單卡 Decode 吞吐突破 1920 Tokens/s，可比肩 H100 部署性能。同時，經過主流測試集驗證及大規模線上盲測，在昇騰算力部署 DeepSeek-R1 的模型精度與 DeepSeek 官方保持一致。
其中，通過架構的全面創新，基于新型高速總線架構的 CloudMatrix 超節點集群在總算力、互聯帶寬、內存帶寬上領先業界。
此前，硅基流動在大模型云服務平臺 SiliconCloud 首發推出了基于昇騰云的穩定生產級 DeepSeek-V3 & R1 推理服務，并支持模型私有化集群部署，這次合作推動基于國產算力的 DeepSeek-R1 推理服務持續升級。
DeepSeek 風暴席卷全球，特別是以其高效、低成本的 MoE 架構為應對大模型推理挑戰打開了局面。不過，如果沒有強大的 AI Infra 技術能力，要想部署好 DeepSeek 并非易事。
DeepSeek 使用了大規模專家并行（Expert Parallelism，大 EP 并行）的 MoE 模型架構，若采用單機部署方案，最終的性能遠不如 DeepSeek 官方公布的部署方案，且至少有數倍成本差距。更具挑戰的是，雖然 DeepSeek 公開了大 EP 并行方案，但技術難度較大，業內還沒有其他團隊快速復現這一部署方法。
針對這些難題，硅基流動與華為云聯合攻關實現了技術突破。我們在 CloudMatrix 384 超節點昇騰云服務上部署 DeepSeek-R1 時采納了大規模專家并行方案，通過多專家負載均衡和極致通信優化，實現高吞吐及更高性能，大幅提升了用戶體驗。同時，我們使用昇騰高性能算子庫，以及硅基流動推理加速框架 SiliconLLM 在模型、機制、算子上的協同優化，實現在國產算力上，不損失模型精度的情況下，獲得 DeepSeek-R1 推理效率與資源利用率的顯著提升。
硅基流動與華為云的合作不僅提供堅實的全國產軟硬件體系部署方案，讓 DeepSeek 推理服務更經濟高效，也展現了 AI 生態合作的強大能量。硅基流動將繼續加深與華為云的聯合創新，共同提升產品體驗，加速模型在更多場景落地。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

大模型進展專欄第七期｜人工智能賦能科研范式重塑中國科學院 “磐石·科學基礎大模型”

博通發布Jericho4芯片：臺積電3nm工藝，可連接超100萬顆處理器

中山醫院獲批國家人工智能應用中試基地建設項目，將打造醫療AI創新策源地

“人工智能場景化應用創新與產業落地論壇”在哈爾濱舉行多領域創新成果集中亮相

以科技引領產業，繪人工智能發展新篇

向新而行｜人工智能的“頭雁”效應

全站最新

特斯拉無方向盤Cybercab自動駕駛出租車上路首次被拍

首發“花港”新架構！摩爾線程華山GPU芯片發布：部分性能超越英偉達Blackwell

115km/h定速巡航！汽車高速路上剎車失靈該怎么做：專家給你支招了

無量化，不生活？年輕人掀起“量化生活熱”

熱門推薦

中東人工智能金融科技公司Alaan獲4800萬美元融資，助力企業智能化管理！

大模型進展專欄第七期｜人工智能賦能科研范式重塑中國科學院 “磐石·科學基礎大模型”

博通發布Jericho4芯片：臺積電3nm工藝，可連接超100萬顆處理器

美國證券交易委員會成立人工智能專責小組助力創新與效率提升

伊利諾伊州立法禁止人工智能提供心理健康服務

中山醫院獲批國家人工智能應用中試基地建設項目，將打造醫療AI創新策源地

“人工智能場景化應用創新與產業落地論壇”在哈爾濱舉行多領域創新成果集中亮相

國家安全部：警惕人工智能“數據投毒”

“人工智能+”覆蓋12個領域張家口人工智能應用場景加速落地

推動區域人工智能技術應用中科聞歌人工智能研發中心啟用

以科技引領產業，繪人工智能發展新篇

向新而行｜人工智能的“頭雁”效應

警惕人工智能數據污染：0.01%虛假文本可使有害輸出增11.2%

庫克：從未對蘋果的產品規劃感到如此興奮

獨家對話中國聯通趙亞暉，AI時代的“數據燃料”是如何煉成的？ | 浪潮對話