近年來,大模型技術發(fā)展迅猛,成為推動人工智能產業(yè)進步的關鍵力量。在此背景下,華為推出的昇騰大EP方案,為大模型的應用和發(fā)展提供了強大的算力支持,引發(fā)行業(yè)廣泛關注。

據(jù)業(yè)內AI技術領域從業(yè)者向記者介紹,當下大模型發(fā)展呈現(xiàn)出“技術摸高”和“工程創(chuàng)新”兩條清晰路徑。一條是頭部科技企業(yè)持續(xù)探索技術極限,對算力需求不斷攀升;另外一條就是以DeepSeek為代表開辟的工程創(chuàng)新之路。
該技術人員表示,“DeepSeek的大模型不僅模型性能卓越,還遵循MIT協(xié)議開源,大幅降低業(yè)界部署門檻。通過創(chuàng)新訓練模式,利用基礎模型生成高質量合成數(shù)據(jù),結合少量行業(yè)數(shù)據(jù)就能訓練模型,突破了數(shù)據(jù)限制。同時,降低了單個模型使用的算力門檻,將推理資源池的門檻降至百卡/千卡范圍,并且開源模型,推動了整個行業(yè)的普及。這使得大模型從少量大專家模式向大量小專家模式演進,兩種模式并存發(fā)展。在這個過程中,大規(guī)模跨節(jié)點專家并行(EP)成為趨勢,它能減少每張卡權重加載時延和顯存占用,提升單卡并行能力,實現(xiàn)更大吞吐和更低時延,但也帶來了負載均衡和卡間通信等挑戰(zhàn) 。”
華為昇騰大EP推理方案正是為應對這些挑戰(zhàn)而生。該方案可通過交換機進行參數(shù)面互聯(lián),基于現(xiàn)有組網架構進行軟件升級,就能從之前的一體機平滑過渡而來,實現(xiàn)了單卡性能提升3倍的極致吞吐。在提升性能的同時,它還降低了單卡顯存占用,使單卡并發(fā)提升到3倍,有效降低了客戶部署成本,Decode(大模型逐詞生成階段)時延降低50%以上,顯著提升了用戶體驗。
據(jù)了解,昇騰大EP方案之所以能取得如此出色的效果,得益于多項關鍵技術。在MoE負載均衡方面,通過自動尋優(yōu)、自動配比、自動預測、自動降解等技術,實現(xiàn)了備份節(jié)點和副本專家的靈活可擴展、高可用和極致均衡,避免了專家負載不均的問題。比如在實際應用中,就像醫(yī)院會診時能自動為患者匹配最合適的專家,保證每個專家的工作量合理分配。
PD(Prefill和Decode)分離部署技術上,華為突破了傳統(tǒng)同節(jié)點部署計算訪存資源競爭的局限,以及業(yè)界靜態(tài)分離方案不夠靈活的問題。其創(chuàng)新的autoPD分離部署方案,能自動感知負載變化,無需人工介入即可自動伸縮P、D實例,結合多級緩存內存資源池化,使系統(tǒng)有效吞吐提升50%以上。這就好比根據(jù)不同時段的交通流量自動調整道路的使用方式,讓資源得到更合理的利用。
雙流/多維混合并行技術也為性能提升做出重要貢獻。在Prefill(預填充)階段,通過拆分Batch實現(xiàn)計算和通信相互掩蓋;MoE expert專家雙流并行利用Cube和Vector計算單元,實現(xiàn)兩條Stream并行計算;Weight預取雙流并行則利用L2 Cache大容量,降低權重加載時間,平均性能提升30%。
MLAPO融合算子技術將MLA預處理階段的小算子融合成單一算子,使Vector和Cube計算并行處理,減少了資源開銷,降低計算耗時70%,讓算力得到更高效的發(fā)揮。
華為昇騰大EP方案在滿足不同行業(yè)需求方面表現(xiàn)出色。無論是互聯(lián)網、運營商、金融、政務,還是電力、教育、醫(yī)療等行業(yè),都能提供全面支持。對于互聯(lián)網行業(yè),面對大規(guī)模用戶并發(fā)訪問,該方案強大的并發(fā)處理能力和低時延特性,能夠確保服務穩(wěn)定高效;在教育和醫(yī)療行業(yè),雖然用戶規(guī)模相對較小,但對數(shù)據(jù)安全和隱私保護要求較高,昇騰大EP方案可以通過本地部署的方式,滿足這些行業(yè)的需求,同時保證數(shù)據(jù)安全。
從產業(yè)生態(tài)角度來看,華為憑借全自研的優(yōu)勢,能夠快速適應大模型技術發(fā)展帶來的新需求。其軟件開源開放,兼容主流框架,如PyTorch,同時擁有自己的昇思深度學習框架和MindIE推理引擎,也支持vLLM等業(yè)界框架,為用戶提供了豐富的選擇,便于用戶進行自主訓練和創(chuàng)新。此外,華為積極與眾多伙伴合作,共同打造完善的解決方案,推動整個產業(yè)生態(tài)的繁榮發(fā)展。
隨著大模型技術在各行各業(yè)的深入應用,對算力的需求將持續(xù)增長。華為昇騰大EP方案憑借其卓越的性能、創(chuàng)新的技術和完善的生態(tài),有望在未來的人工智能算力市場中占據(jù)重要地位,為推動人工智能產業(yè)發(fā)展、加速大模型落地發(fā)揮關鍵作用。(發(fā)布)





京公網安備 11011402013531號