機器之心報道
編輯:澤南
一舉解決算力資源浪費。
不論是英偉達 GPU 還是昇騰的 NPU,都可以「融為一體」,動態切分了。
11 月 21 日,華為正式發布了 AI 容器技術 ——Flex:ai,同時,華為聯合上海交通大學、西安交通大學與廈門大學共同宣布,將此項產學合作成果向外界開源,助力破解算力資源利用難題。
![]()
華為公司副總裁、數據存儲產品線總裁周躍峰博士在發布會上表示,當前,AI 產業高速發展催生海量算力需求,但全球算力資源利用率偏低的問題日益凸顯,「算力資源浪費」成為產業發展的關鍵桎梏:小模型任務獨占整卡導致資源閑置,大模型任務單機算力不足難以支撐,大量缺乏 GPU/NPU 的通用服務器更是處于算力「休眠」狀態,供需錯配造成嚴重的資源浪費。
本次發布并開源的 Flex:ai XPU 池化與調度軟件基于 Kubernetes 容器編排平臺構建,通過對 GPU、NPU 等智能算力資源的精細化管理與智能調度,能夠實現 AI 工作負載與算力資源的精準匹配,大幅提升算力利用率。
![]()
華為宣布將 Flex:ai 全面開源至「魔擎社區」,與此前開源的 Nexent 智能體框架、DataMate 數據工程等工具共同構成了 ModelEngine 開源生態。
據介紹,Flex:ai 深度融合了上海交通大學、西安交通大學、廈門大學三大高校與華為的科研力量,形成了三大核心技術突破:
![]()
算力資源切分,一卡變多卡,服務多個 AI 工作負載
針對 AI 小模型訓推場景中「一張卡跑一個任務」可能造成的資源浪費問題,華為與上海交通大學聯合研發XPU 池化框架,可將單張 GPU 或 NPU 算力卡切分為多份虛擬算力單元,切分粒度精準至 10%。
這一技術實現了單卡同時承載多個 AI 工作負載,且通過彈性靈活的資源隔離技術,可實現算力單元的按需切分,「用多少,切多少」,使此類場景下的整體算力平均利用率提升 30%,提高了單卡服務能力,與此同時,虛擬化性能損耗控制在 5% 以內。
![]()
跨節點算力資源聚合,充分利用空閑算力
針對大量通用服務器因缺乏智能計算單元而無法服務于 AI 工作負載的問題,華為與廈門大學聯合研發跨節點拉遠虛擬化技術。該技術將集群內各節點的空閑 XPU 算力聚合形成「共享算力池」,一方面為高算力需求的 AI 工作負載提供充足資源支撐;另一方面,可讓不具備智能計算能力的通用服務器通過高速網絡,可將 AI 工作負載轉發到遠端「資源池」中的 GPU/NPU 算力卡中執行,從而促進通用算力與智能算力資源融合。
據介紹,廈門大學設計的上下文分離技術打破了 XPU 的服務范圍限制,可以使集群外部碎片減少 74%,提升了 67% 高優作業吞吐量。
![]()
多級智能調度,實現 AI 工作負載與算力資源的精準匹配
面對算力集群中多品牌、多規格異構算力資源難以統一調度的痛點,華為與西安交通大學共同打造Hi Scheduler 智能調度器。該調度器可自動感知集群負載與資源狀態,結合 AI 工作負載的優先級、算力需求等多維參數,對本地及遠端的虛擬化 GPU、NPU 資源進行全局最優調度,實現 AI 工作負載分時復用資源。即便在負載頻繁波動的場景下,也能保障 AI 工作負載的平穩運行,讓每一份算力都「物盡其用」。
![]()
隨著 AI 對算力需求的不斷增長,資源管理效率正在逐漸成為新的瓶頸。去年 7 月,英偉達以 7 億美元完成了對以色列 AI 初創公司 Run:ai 的收購,受到了業界的關注,也引發了人們對于未來算力利用方式的討論。Run:ai 的技術核心在于通過動態調度、GPU 池化和分片等技術優化 AI 計算資源的使用效率。據報道,其平臺能夠將 GPU 資源利用率從不足 25% 提升至 80% 以上。
開源的 Flex:ai 被視為對 Run:ai 等解決方案的正面回應。上海交通大學戚正偉教授指出:「Flex:ai 的異構兼容性更優于 Run:ai,其開放架構將推動國產算力生態標準化。」
通過 Flex:ai 全面開源開放,華為及各方希望匯聚全球創新力量,共同推動異構算力虛擬化與 AI 應用平臺對接的標準構建,形成算力高效利用的標準化解決方案。
從「萬卡集群」到「一卡多用」,Flex:ai 正試圖重新定義 AI 時代算力的使用方式。它的開源開放,將進一步推動國產算力的大規模應用。





京公網安備 11011402013531號