智通財經(jīng)APP獲悉,國泰海通證券發(fā)布研報稱,針對大語言模型(LLM)發(fā)展中面臨的“內(nèi)存墻”難題,基于SSD的存儲卸載技術(shù)方案可為AI模型高效運(yùn)行提供新路徑。AI創(chuàng)造的龐大數(shù)據(jù)量沖擊全球數(shù)據(jù)中心存儲設(shè)施,KV Cache緩存可從GPU內(nèi)存offload至CPU、SSD。傳統(tǒng)作為海量數(shù)據(jù)存儲基石的Nearline HDD已出現(xiàn)供應(yīng)短缺,促使高效能、高成本的SSD逐漸成為市場焦點(diǎn),國泰海通證券給予電子行業(yè)“增持”評級。
國泰海通證券主要觀點(diǎn)如下:
行業(yè)觀點(diǎn)及投資建議。AI創(chuàng)造的龐大數(shù)據(jù)量沖擊全球數(shù)據(jù)中心存儲設(shè)施,KV Cache緩存可從GPU內(nèi)存offload至CPU、SSD。傳統(tǒng)作為海量數(shù)據(jù)存儲基石的Nearline HDD已出現(xiàn)供應(yīng)短缺,促使高效能、高成本的SSD逐漸成為市場焦點(diǎn),給予行業(yè)“增持”評級。
推理KV Cache容量增長超出HBM承載能力。鍵值緩存(KV Cache)技術(shù)可以優(yōu)化計算效率、減少重復(fù)運(yùn)算,即將已生成token的Key和Value臨時存儲起來,后續(xù)生成新token時直接復(fù)用,無需重新計算,顯著提升推理效率。然而,KV Cache需要占用GPU的顯存(如HBM),存儲歷史Key/Value向量,生成的文本越長,緩存數(shù)據(jù)量越大,可能導(dǎo)致HBM和DRAM超載。面對大模型PB級的天量數(shù)據(jù),傳統(tǒng)推理架構(gòu)過度依賴HBM的瓶頸也日益凸顯。隨著Agentic AI時代到來,模型規(guī)模化擴(kuò)張、長序列需求激增以及推理任務(wù)并發(fā)量增長,推理的KV Cache容量增長已超出HBM的承載能力,頻繁的內(nèi)存溢出,需要GPU反復(fù)計算,造成卡頓遲緩。
KV Cache緩存可從GPU內(nèi)存offload至CPU、SSD。隨著推理性能的重要性不斷提升,業(yè)界均在探索KV Cache分級緩存管理技術(shù)。如英偉達(dá)今年5月推出了分布式推理服務(wù)框架Dynamo,支持將KV Cache緩存從GPU內(nèi)存卸載到CPU、SSD甚至網(wǎng)絡(luò)存儲,解決大模型顯存瓶頸,避免重復(fù)計算。其中,KVBM提供G1-G4(GPU memory、CPU host memory、SSD、遠(yuǎn)端存儲)的KV Cache卸載,避免大量 KV Cache 重計算。2025開放數(shù)據(jù)中心大會之新技術(shù)與測試(存儲)分論壇中,三星電子高級項(xiàng)目經(jīng)理針對大語言模型(LLM)發(fā)展中面臨的“內(nèi)存墻”難題,提出基于SSD的存儲卸載技術(shù)方案,為AI模型高效運(yùn)行提供新路徑。三星將KV Cache卸載至NVMe SSD。當(dāng)KV Cache大小超過HBM或DRAM容量時,該方案可使首token延遲(TTFT)最高降低66%,token間延遲(ITL)最高降低42%,且支持多用戶多輪對話場景下的KV Cache重用,隨著用戶與對話輪次增加,I/O吞吐量穩(wěn)步上升,主要I/O模式為256KB讀寫。
AI存儲需求激發(fā)HDD替代效應(yīng),NAND Flash供應(yīng)商加速轉(zhuǎn)進(jìn)大容量Nearline SSD。根據(jù)TrendForce集邦咨詢,AI推理應(yīng)用快速推升實(shí)時存取、高速處理海量數(shù)據(jù)的需求,促使HDD與SSD供應(yīng)商積極擴(kuò)大供給大容量存儲產(chǎn)品。由于HDD市場正面臨巨大供應(yīng)缺口,激勵NAND Flash業(yè)者加速技術(shù)轉(zhuǎn)進(jìn),投入122TB、甚至245TB等超大容量Nearline SSD的生產(chǎn)。
風(fēng)險提示:國產(chǎn)替代進(jìn)程不及預(yù)期;技術(shù)迭代不及預(yù)期。





京公網(wǎng)安備 11011402013531號