近年來,大模型技術發展迅猛,成為推動人工智能產業進步的關鍵力量。在此背景下,華為推出的昇騰大EP方案,為大模型的應用和發展提供了強大的算力支持,引發行業廣泛關注。
據業內AI技術領域從業者向記者介紹,當下大模型發展呈現出“技術摸高”和“工程創新”兩條清晰路徑。一條是頭部科技企業持續探索技術極限,對算力需求不斷攀升;另外一條就是以DeepSeek為代表開辟的工程創新之路。
該技術人員表示,“DeepSeek的大模型不僅模型性能卓越,還遵循MIT協議開源,大幅降低業界部署門檻。通過創新訓練模式,利用基礎模型生成高質量合成數據,結合少量行業數據就能訓練模型,突破了數據限制。同時,降低了單個模型使用的算力門檻,將推理資源池的門檻降至百卡/千卡范圍,并且開源模型,推動了整個行業的普及。這使得大模型從少量大專家模式向大量小專家模式演進,兩種模式并存發展。在這個過程中,大規模跨節點專家并行(EP)成為趨勢,它能減少每張卡權重加載時延和顯存占用,提升單卡并行能力,實現更大吞吐和更低時延,但也帶來了負載均衡和卡間通信等挑戰 。”
華為昇騰大EP推理方案正是為應對這些挑戰而生。該方案可通過交換機進行參數面互聯,基于現有組網架構進行軟件升級,就能從之前的一體機平滑過渡而來,實現了單卡性能提升3倍的極致吞吐。在提升性能的同時,它還降低了單卡顯存占用,使單卡并發提升到3倍,有效降低了客戶部署成本,Decode(大模型逐詞生成階段)時延降低50%以上,顯著提升了用戶體驗。
據了解,昇騰大EP方案之所以能取得如此出色的效果,得益于多項關鍵技術。在MoE負載均衡方面,通過自動尋優、自動配比、自動預測、自動降解等技術,實現了備份節點和副本專家的靈活可擴展、高可用和極致均衡,避免了專家負載不均的問題。比如在實際應用中,就像醫院會診時能自動為患者匹配最合適的專家,保證每個專家的工作量合理分配。
PD(Prefill和Decode)分離部署技術上,華為突破了傳統同節點部署計算訪存資源競爭的局限,以及業界靜態分離方案不夠靈活的問題。其創新的autoPD分離部署方案,能自動感知負載變化,無需人工介入即可自動伸縮P、D實例,結合多級緩存內存資源池化,使系統有效吞吐提升50%以上。這就好比根據不同時段的交通流量自動調整道路的使用方式,讓資源得到更合理的利用。
雙流/多維混合并行技術也為性能提升做出重要貢獻。在Prefill(預填充)階段,通過拆分Batch實現計算和通信相互掩蓋;MoE expert專家雙流并行利用Cube和Vector計算單元,實現兩條Stream并行計算;Weight預取雙流并行則利用L2 Cache大容量,降低權重加載時間,平均性能提升30%。
MLAPO融合算子技術將MLA預處理階段的小算子融合成單一算子,使Vector和Cube計算并行處理,減少了資源開銷,降低計算耗時70%,讓算力得到更高效的發揮。
華為昇騰大EP方案在滿足不同行業需求方面表現出色。無論是互聯網、運營商、金融、政務,還是電力、教育、醫療等行業,都能提供全面支持。對于互聯網行業,面對大規模用戶并發訪問,該方案強大的并發處理能力和低時延特性,能夠確保服務穩定高效;在教育和醫療行業,雖然用戶規模相對較小,但對數據安全和隱私保護要求較高,昇騰大EP方案可以通過本地部署的方式,滿足這些行業的需求,同時保證數據安全。
從產業生態角度來看,華為憑借全自研的優勢,能夠快速適應大模型技術發展帶來的新需求。其軟件開源開放,兼容主流框架,如PyTorch,同時擁有自己的昇思深度學習框架和MindIE推理引擎,也支持vLLM等業界框架,為用戶提供了豐富的選擇,便于用戶進行自主訓練和創新。此外,華為積極與眾多伙伴合作,共同打造完善的解決方案,推動整個產業生態的繁榮發展。
隨著大模型技術在各行各業的深入應用,對算力的需求將持續增長。華為昇騰大EP方案憑借其卓越的性能、創新的技術和完善的生態,有望在未來的人工智能算力市場中占據重要地位,為推動人工智能產業發展、加速大模型落地發揮關鍵作用。(發布)





京公網安備 11011402013531號