IT之家 12 月 23 日消息,華為數(shù)據(jù)存儲與中科弘云今日發(fā)布了 AI 推理加速聯(lián)合解決方案。
該方案以華為 OceanStor A 系列存儲為數(shù)據(jù)底座,結(jié)合中科弘云智算互聯(lián)網(wǎng)云服務(wù)平臺 HyperCN 平臺,優(yōu)化長序列推理體驗(yàn)。
![]()
該方案深度融合華為 OceanStor A 系列存儲、華為 UCM 推理記憶數(shù)據(jù)管理技術(shù)以及中科弘云 HyperCN 平臺能力,通過 KV Cache 多級緩存管理、秒級算力調(diào)度、分鐘級推理大模型部署及全流程 AI 工具鏈,將智能算力輸送至業(yè)務(wù)一線。該聯(lián)合方案的核心優(yōu)勢如下:
異構(gòu)管理:支持平臺、計算與存儲的協(xié)同聯(lián)動,適配英偉達(dá)、華為昇騰、寒武紀(jì)等多元 AI 算力,兼容 MindSpore / vLLM/SGLang 等主流框架,并通過 Kubernetes 與華為 OceanStor A 系列存儲實(shí)現(xiàn)無縫對接。算力調(diào)度:對算力資源進(jìn)行細(xì)粒度切分與池化處理,按需靈活調(diào)度,實(shí)現(xiàn)資源利用率最大化;具備集群作業(yè)調(diào)度、運(yùn)維監(jiān)控、故障恢復(fù)等功能,支持分鐘級任務(wù)恢復(fù)與系統(tǒng)健康監(jiān)測。推理加速:依托華為 UCM 技術(shù),將 KV Cache 持久化至華為 OceanStor A 系列存儲,實(shí)現(xiàn)推理記憶全量保存,減少重復(fù)計算;此外,融合 Prefix Cache、GSA 稀疏加速等算法,顯著降低首 Token 時延(TTFT),使長序列推理吞吐與體驗(yàn)實(shí)現(xiàn)倍數(shù)級提升。端到端 AI 工具鏈:覆蓋數(shù)據(jù)管理標(biāo)注、算法開發(fā)、大小模型訓(xùn)練推理、智能體開發(fā)等全流程,支持傳統(tǒng)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)開發(fā),實(shí)現(xiàn) AI 資產(chǎn)的統(tǒng)一建設(shè)與集中管理。
經(jīng)實(shí)測,在智能問答的典型推理場景中,該方案實(shí)現(xiàn)首 Token 時延(TTFT)降低 57.5%,且序列長度越長,優(yōu)化效果越顯著;在長文檔推理場景中,結(jié)合 GSA 稀疏加速算法,當(dāng)序列長度為 39K 時,并發(fā)能力提升 86%,推理吞吐提升 36%,提升推理效率與體驗(yàn)。
IT之家從合作公告獲悉,該聯(lián)合方案目前已在能源電力、智能制造、國家實(shí)驗(yàn)室等關(guān)鍵行業(yè)啟動試點(diǎn)應(yīng)用。





京公網(wǎng)安備 11011402013531號