![]()
智東西
作者 陳駿達
編輯 漠影
過去兩年,全行業都在為大模型訓練瘋狂堆GPU、建算力中心。但當視角進入2025年,真正決定企業競爭力的主戰場,已經迅速從訓練轉向推理。
推理時代的算力不再是單一物理資源,而是一個跨地域、跨架構、跨屬權的綜合體系:一個企業的AI服務或許部署在自建IDC,同時又依賴外部云GPU;模型推理與模型訓練并行存在;開發測試與生產流量共處一套資源;多業務、多租戶同時爭搶不同規格的GPU。這意味著算力要實時、動態、按業務優先級調度。而傳統調度做不到。
傳統算力調度平臺誕生于傳統云的集群運維背景,其核心目標是讓硬件更易管理、更少出故障、更好利用。它們的能力止步于服務器視角:節點是否在線、顯存是否足夠、任務是否分配成功、權限是否隔離,在面向大模型的AI推理時代,卻難以回答更重要的問題——推理延遲是否達標?模型吞吐是否最優?算力成本與業務收入是否動態平衡?在新范式轉換下,系統需要重構。
這些問題在推理時代被迅速放大。過去算力用于訓練,以“跑成”模型為目標;如今算力直接承載真實業務,算力調度被迫承擔更多職責——必須從IT運維邏輯升級為AI業務邏輯。但挑戰也隨之而來:模型結構差異巨大、推理鏈路時延瓶頸、業務波峰波谷并發變化…每一次算力分配,都可能影響一筆業務成交、一位用戶體驗,甚至一個產品的增長曲線。
GPU不再是靜態資源,而成為可運營、可定價、可持續經營的資產。
為了支撐這場范式轉移,國內AI基座平臺技術公司矩量無限重新定義了算力的基本單元,不再是“服務器/GPU卡”,而是圍繞業務目標進行抽象的、可度量和可調度的算力單元,并基于此構建了完整的技術基座,形成了覆蓋算力、模型、服務到商業回報的全鏈路平臺矩陣。
在技術創新層面,矩量無限的開物算力調度系統深度融合了Kubernetes動態資源分配(DRA)技術 ,通過“異構GPU自適應調度與分配方法及系統”實現了突破性的算力管理能力:
技術特點:通過具備自學習能力的算力適配器,將異構國產GPU間的靜態硬件資源單元抽象并轉化為動態標準化的“算力能力單元”(CU)以實現精準調度和分配 。
產生效果:實現了基于任務實際需求的“目標導向”按需調度,極大地簡化了用戶對異構硬件結構和組成的關注,顯著提高了集群資源利用率和運行穩定性。
達成形式:在各廠商設備信息上報的基礎上,通過自學習算力適配器基于歷史推理記錄持續優化動態折算因子,并將統一的算力容量重發布為Kubernetes動態資源分配(DRA)ResourceSlice實現資源的精準綁定與分配 。
以上能力目前已在國產GPU卡上得到規模驗證。矩量無限已在壁仞、天數、希姆等國產GPU的千卡級混合集群上完整跑通算力單元化與跨架構推理調度,同時相關平臺已落地全國多個千卡智算中心,并服務于工信部工業互聯網研究院、多家頭部行業客戶、高校科研機構等。





京公網安備 11011402013531號