華為推出昇騰大EP方案：在大模型賽道上跑出創(chuàng)新“加速度”

IP屬地中國·北京 編輯：沈如風大力財經 時間：2025-03-18 23:00:25

近年來，大模型技術發(fā)展迅猛，成為推動人工智能產業(yè)進步的關鍵力量。在此背景下，華為推出的昇騰大EP方案，為大模型的應用和發(fā)展提供了強大的算力支持，引發(fā)行業(yè)廣泛關注。
據(jù)業(yè)內AI技術領域從業(yè)者向記者介紹，當下大模型發(fā)展呈現(xiàn)出“技術摸高”和“工程創(chuàng)新”兩條清晰路徑。一條是頭部科技企業(yè)持續(xù)探索技術極限，對算力需求不斷攀升；另外一條就是以DeepSeek為代表開辟的工程創(chuàng)新之路。
該技術人員表示，“DeepSeek的大模型不僅模型性能卓越，還遵循MIT協(xié)議開源，大幅降低業(yè)界部署門檻。通過創(chuàng)新訓練模式，利用基礎模型生成高質量合成數(shù)據(jù)，結合少量行業(yè)數(shù)據(jù)就能訓練模型，突破了數(shù)據(jù)限制。同時，降低了單個模型使用的算力門檻，將推理資源池的門檻降至百卡/千卡范圍，并且開源模型，推動了整個行業(yè)的普及。這使得大模型從少量大專家模式向大量小專家模式演進，兩種模式并存發(fā)展。在這個過程中，大規(guī)模跨節(jié)點專家并行（EP）成為趨勢，它能減少每張卡權重加載時延和顯存占用，提升單卡并行能力，實現(xiàn)更大吞吐和更低時延，但也帶來了負載均衡和卡間通信等挑戰(zhàn) 。”
華為昇騰大EP推理方案正是為應對這些挑戰(zhàn)而生。該方案可通過交換機進行參數(shù)面互聯(lián)，基于現(xiàn)有組網架構進行軟件升級，就能從之前的一體機平滑過渡而來，實現(xiàn)了單卡性能提升3倍的極致吞吐。在提升性能的同時，它還降低了單卡顯存占用，使單卡并發(fā)提升到3倍，有效降低了客戶部署成本，Decode（大模型逐詞生成階段）時延降低50%以上，顯著提升了用戶體驗。
據(jù)了解，昇騰大EP方案之所以能取得如此出色的效果，得益于多項關鍵技術。在MoE負載均衡方面，通過自動尋優(yōu)、自動配比、自動預測、自動降解等技術，實現(xiàn)了備份節(jié)點和副本專家的靈活可擴展、高可用和極致均衡，避免了專家負載不均的問題。比如在實際應用中，就像醫(yī)院會診時能自動為患者匹配最合適的專家，保證每個專家的工作量合理分配。
PD（Prefill和Decode）分離部署技術上，華為突破了傳統(tǒng)同節(jié)點部署計算訪存資源競爭的局限，以及業(yè)界靜態(tài)分離方案不夠靈活的問題。其創(chuàng)新的autoPD分離部署方案，能自動感知負載變化，無需人工介入即可自動伸縮P、D實例，結合多級緩存內存資源池化，使系統(tǒng)有效吞吐提升50%以上。這就好比根據(jù)不同時段的交通流量自動調整道路的使用方式，讓資源得到更合理的利用。
雙流/多維混合并行技術也為性能提升做出重要貢獻。在Prefill（預填充）階段，通過拆分Batch實現(xiàn)計算和通信相互掩蓋；MoE expert專家雙流并行利用Cube和Vector計算單元，實現(xiàn)兩條Stream并行計算；Weight預取雙流并行則利用L2 Cache大容量，降低權重加載時間，平均性能提升30%。
MLAPO融合算子技術將MLA預處理階段的小算子融合成單一算子，使Vector和Cube計算并行處理，減少了資源開銷，降低計算耗時70%，讓算力得到更高效的發(fā)揮。
華為昇騰大EP方案在滿足不同行業(yè)需求方面表現(xiàn)出色。無論是互聯(lián)網、運營商、金融、政務，還是電力、教育、醫(yī)療等行業(yè)，都能提供全面支持。對于互聯(lián)網行業(yè)，面對大規(guī)模用戶并發(fā)訪問，該方案強大的并發(fā)處理能力和低時延特性，能夠確保服務穩(wěn)定高效；在教育和醫(yī)療行業(yè)，雖然用戶規(guī)模相對較小，但對數(shù)據(jù)安全和隱私保護要求較高，昇騰大EP方案可以通過本地部署的方式，滿足這些行業(yè)的需求，同時保證數(shù)據(jù)安全。
從產業(yè)生態(tài)角度來看，華為憑借全自研的優(yōu)勢，能夠快速適應大模型技術發(fā)展帶來的新需求。其軟件開源開放，兼容主流框架，如PyTorch，同時擁有自己的昇思深度學習框架和MindIE推理引擎，也支持vLLM等業(yè)界框架，為用戶提供了豐富的選擇，便于用戶進行自主訓練和創(chuàng)新。此外，華為積極與眾多伙伴合作，共同打造完善的解決方案，推動整個產業(yè)生態(tài)的繁榮發(fā)展。
隨著大模型技術在各行各業(yè)的深入應用，對算力的需求將持續(xù)增長。華為昇騰大EP方案憑借其卓越的性能、創(chuàng)新的技術和完善的生態(tài)，有望在未來的人工智能算力市場中占據(jù)重要地位，為推動人工智能產業(yè)發(fā)展、加速大模型落地發(fā)揮關鍵作用。（發(fā)布）

免責聲明：本網信息來自于互聯(lián)網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯(lián)系我們，本站將會在24小時內處理完畢。

同類資訊

從垂直整合到開放共享，比亞迪書寫中國汽車升級轉型范本

AMD銳龍9 9955HX對比英特爾酷睿Ultra 9 275HX，五款游戲輪番測

云宇星空大模型正式發(fā)布，上海市規(guī)劃資源局與商湯大裝置聯(lián)合打造

30年果粉兌換禮品卡后被封號：用了25年的Apple ID被永久停用

緊急“剎車”：寶馬5系旅行車中期改款被曝回歸傳統(tǒng)雙腎格柵

從深圳出發(fā)，向全球進發(fā)：元化智能一年12證書寫手術機器人“中國速度”

全站最新

從垂直整合到開放共享，比亞迪書寫中國汽車升級轉型范本

AMD銳龍9 9955HX對比英特爾酷睿Ultra 9 275HX，五款游戲輪番測

云宇星空大模型正式發(fā)布，上海市規(guī)劃資源局與商湯大裝置聯(lián)合打造

30年果粉兌換禮品卡后被封號：用了25年的Apple ID被永久停用

熱門推薦

微軟聯(lián)手 Kimi 打造 Office 自動化 Agent，AI 云巨頭開啟本土化“自我修正”

YouTube 封禁兩家發(fā)布虛假電影預告的 AI 頻道

亞馬遜組建全新AI組織，AWS元老Peter DeSantis掛帥，全面整合大模型、芯片與量子計算

LeCun再創(chuàng)業(yè)！新公司估值247億，CEO卻不是他！

被無數(shù)人看衰的Manus，8個月狂飆1億美元ARR！創(chuàng)全球最快紀錄，AI代理時代徹底引爆

國內首個國標 VLA 大模型開源!北京人形 XR-1讓機器人真正“會干活”

從垂直整合到開放共享，比亞迪書寫中國汽車升級轉型范本

AMD銳龍9 9955HX對比英特爾酷睿Ultra 9 275HX，五款游戲輪番測

華曙高科：中科院等離子所引入大尺寸銅合金打印設備為國家聚變能源裝備研發(fā)提供技術支撐

云宇星空大模型正式發(fā)布，上海市規(guī)劃資源局與商湯大裝置聯(lián)合打造

30年果粉兌換禮品卡后被封號：用了25年的Apple ID被永久停用

緊急“剎車”：寶馬5系旅行車中期改款被曝回歸傳統(tǒng)雙腎格柵

從深圳出發(fā)，向全球進發(fā)：元化智能一年12證書寫手術機器人“中國速度”

《自然》雜志展望2026年值得關注的科學事件

無人駕駛“警車”現(xiàn)身上海街頭 | 新民視頻小羊探案