AI推理性能大提升:華為UCM技術開源,系統吞吐猛增22倍
緩解AI推理復雜任務資源瓶頸和性能挑戰,華為新解來了。
華為數據存儲產品線副總裁、閃存領域總裁謝黎明表示,金融行業在AI推理應用中面臨三大核心挑戰:一是長序列輸入導致的“推不動”;二是并發上不去且每Token時延長造成的“推得慢”;三是耗費大量算力做KV重復計算…
更低的推理成本:UCM具備智能分級緩存能力,可根據記憶熱度在HBM、DRAM、SSD等存儲介質中實現按需流動;同時融合多種稀疏注意力算法,實現存算深度協同,使長序列場景下TPS(每秒處理token數)提升2…
論壇上,華為公司副總裁、數據存儲產品線總裁周躍峰博士發布AI推理創新技術——UCM推理記憶數據管理器,旨在推動AI推理體驗升級,提升推理性價比,加速AI商業正循環。 當前,人工智能已步入發展深水區,AI推理正…
通過分級管理推理過程中產生的KV Cache記憶數據,UCM能夠顯著擴大推理上下文窗口,從而提升推理效率,降低每Token的推理成本。 周躍峰博士在演講中強調,在AI時代,模型訓練、推理效率與體驗的量綱都以T…
該技術已率先在中國銀聯“客戶之聲”“營銷策劃”“辦公助手”三大業務場景中
10/31 16:58
10/31 16:56
10/31 16:55