剛剛，華為AI推理大招開源，時延降90%，吞吐提22倍，上下文10倍級擴展

IP屬地中國·北京 編輯：周琳智東西 時間：2025-11-05 20:06:48

智東西11月5日消息，剛剛，華為正式開源了UCM（Unified Cache Manager）推理記憶數據管理，這是一項針對AI推理加速的關鍵技術。
▲GitCode項目頁面
今年8月12日，華為正式發布了UCM技術，發布會上華為公布，經大量測試驗證，UCM可將首Token時延最高降低90%，系統吞吐最大提升22倍，實現10倍級上下文窗口擴展，AI推理性能顯著提升。
▲8月12日UCM技術發布，圖源：智東西
時隔近3個月，這一技術正式開源，比發布會上預計的9月稍晚。目前UCM在ModelEngine社區開放了基礎框架和工具鏈，開發者可以在社區獲取UCM源代碼和技術文檔。
▲Github項目頁面
GitCode開源地址：
https://gitcode.com/ModelEngine/unified-cache-management
Github開源地址：
https://github.com/ModelEngine-Group/unified-cache-management
總體來看，UCM是以KV Cache和記憶管理為中心的推理加速套件，可以提供全場景系列化推理加速方案，通過推理框架、算力、存儲三層協同，優化Tokens在各業務環節中流轉的效率，破解長序列推理效率低、成本高的難題，以實現AI推理的更優體驗、更低成本。其主要服務對象是企業用戶。
Agentic AI時代，AI推理的KV Cache容量增長已超出HBM的承載能力。通過一系列算法，UCM可根據記憶熱度在HBM、DRAM、SSD等存儲介質中自動分級緩存，提升整個系統的效率，一定程度上降低對HBM的需求。
UCM融合了多類型緩存加速算法工具，可分級管理在推理過程中產生的KV Cache記憶數據。
UCM架構包含多個協同工作的關鍵功能模塊，具體如下：
UCM稀疏化模塊（UcmSparsebase）：兼容多種稀疏算法的統一基類，負責稀疏KV Cache Block的卸載、加載與計算，實現“零感知”插拔式稀疏化。在不影響整體推理流程的前提下，能夠靈活適配不同稀疏算法以提升推理效率。
稀疏化KV管理器（SparseKVManager）：面向算法級定制的KV Cache Block分配總控器，各稀疏算法以多態子類形式將自身分配邏輯注入框架，實現不同稀疏算法策略與推理引擎解耦，滿足差異化推理場景需求。
KV Cache存儲組件（UcmKVStorebase）：負責提供與外部存儲通信的通用接口。該組件支持稀疏算法與存儲后端解耦，可無縫對接任意存儲系統，同時支持前綴緩存，為數據存儲提供了靈活多樣的選擇。
UCM連接器（UC Connector）：橋接KV Cache存儲組件與推理引擎，保障數據在不同組件之間的高效傳輸，實現高可靠的前綴緩存能力。
▲UCM產品架構
圖中所有灰色框代表vLLM 0.9.2版本中的現有類，綠色框則代表UCM新增組件。淺綠色框展示了基于此框架未來規劃擴展的子類。
基于以上架構，UCM目前具備四個關鍵能力：稀疏注意力、前綴緩存、預填充卸載、異構PD解耦。
做UCM的動機是什么？
根據GitCode官方信息，當前隨著模型尺寸的不斷增長，KV緩存也變得越來越大，且越來越稀疏，對于長序列請求來說尤為明顯。為了減小GPU顯存的使用，主流的方向是將全量的KV數據卸載到外部存儲中，而在GPU顯存中只保留部分或者被壓縮的KV數據。這同時可以減小GPU的運算量，在解碼時增加最大生成序列長度和批大小。
有許多種不同的稀疏KV緩存的實現。最新的論文指出，能夠最好地適配所有場景和所有模型的方法是不存在的。因此，更好的做法是搭建一套公共的框架，并在此之上接入不同的稀疏化算法，就像KV連接器和PC一樣。
根據GitCode官方信息，UCM的核心原理是持久化LLM的KVCache，并通過多種檢索機制替代冗余計算。UCM支持前綴緩存（prefix cache,PC），同時提供了多種無需訓練的稀疏注意力檢索方法，在處理極長序列推理任務時達到更高性能；此外，UCM基于存算分離架構提供了PD分離方案，使得異構計算資源的管理更簡單靈活。
結語：應對性能挑戰，緩解資源瓶頸
UCM開源或加速AI推理落地
隨著邊緣和端側AI的快速發展，AI推理需求快速增長，在Agentic AI時代，AI推理任務愈發復雜，對算力、內存訪問效率等方面都提出了更多挑戰。
UCM的開源，可以進一步緩解AI推理復雜任務產生的資源瓶頸和性能挑戰，給行業提供新的技術路徑，加速優秀商用AI推理方案的落地。

標簽： ucm 算法 ai 組件框架 智東西 序列華為 github kv

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

雷軍連發多條微博重申小米汽車安全是前提

“拉索”睜亮眼，破解宇宙線“膝蓋”之謎！發現黑洞是宇宙中的“超級加速器”

6G技術“突圍”：邁出商用關鍵一步

“拉索”重磅新發現！宇宙線“膝蓋”之謎竟由這類黑洞導演

紫光展銳T9300 5G發布：A78大核2.4GHz，安兔兔V10跑分55萬

“空天地一體”防線多維度賦能低空安全治理護航低空經濟發展

全站最新

雷軍連發多條微博重申小米汽車安全是前提

“拉索”睜亮眼，破解宇宙線“膝蓋”之謎！發現黑洞是宇宙中的“超級加速器”

6G技術“突圍”：邁出商用關鍵一步

“拉索”重磅新發現！宇宙線“膝蓋”之謎竟由這類黑洞導演

熱門推薦

雷軍連發多條微博重申小米汽車安全是前提

“拉索”睜亮眼，破解宇宙線“膝蓋”之謎！發現黑洞是宇宙中的“超級加速器”

6G技術“突圍”：邁出商用關鍵一步

“拉索”重磅新發現！宇宙線“膝蓋”之謎竟由這類黑洞導演

紫光展銳T9300 5G發布：A78大核2.4GHz，安兔兔V10跑分55萬

“空天地一體”防線多維度賦能低空安全治理護航低空經濟發展

華為，AI突破將發布

黑洞竟是千萬億電子伏加速器，拉索破解宇宙線“膝”形成之謎

高海拔宇宙線觀測站“拉索”首次揭示黑洞在宇宙線起源中的作用

中國“拉索”破解宇宙線起源之謎

全球限量23臺！OPPO Reno15宋雨琦限定款明天發布：專屬編號+簽名

NotebookCheck評測英特爾酷睿Ultra 7 255U處理器

站在30萬輛的山腳下，嵐圖還要面對更陡峭的挑戰

車好看是第一位和安全是前提矛盾嗎？雷軍連續發文回應質疑

AI、出海、ESG……CFO角色正在加速轉變，這些都是關鍵詞