隨著生成式AI應(yīng)用加速滲透,AI基礎(chǔ)設(shè)施軟件(AI Infra)正成為應(yīng)用落地的關(guān)鍵“賣鏟人”,算力調(diào)度能力已成為決定模型推理盈利水平的核心變量。
近期,申萬(wàn)宏源研究黃忠煌團(tuán)隊(duì)發(fā)布了深度報(bào)告《AI Infra:應(yīng)用滲透下的又一賣鏟》,報(bào)告指出基礎(chǔ)設(shè)施軟件正迎來(lái)黃金發(fā)展期。與模型訓(xùn)練階段被巨頭壟斷不同,推理和應(yīng)用部署環(huán)節(jié)為獨(dú)立軟件廠商打開(kāi)了新的商業(yè)空間。當(dāng)前兩類產(chǎn)品最為關(guān)鍵:算力調(diào)度軟件和數(shù)據(jù)類軟件。
算力調(diào)度能力直接決定模型推理服務(wù)的盈利水平。根據(jù)測(cè)算,在單日10億查詢量下,若使用H800芯片,單卡吞吐能力每提升10%,毛利率能夠提升2-7個(gè)百分點(diǎn)。
數(shù)據(jù)層面,向量數(shù)據(jù)庫(kù)已成剛需,Gartner預(yù)測(cè)2025年企業(yè)RAG技術(shù)采用率將達(dá)68%。海外數(shù)據(jù)廠商如MongoDB在2024年二季度收入增速出現(xiàn)明顯拐點(diǎn),驗(yàn)證了這一趨勢(shì)。
算力調(diào)度:推理盈利的核心變量
AI Infra指的是專門(mén)為AI工作負(fù)載的設(shè)計(jì)、構(gòu)建、管理和優(yōu)化的底層硬件與軟件系統(tǒng)。 它的核心目標(biāo)是高效、大規(guī)模地完成AI模型的訓(xùn)練和推理任務(wù)。如果將開(kāi)發(fā)大模型比做是 “造房子”,那 AI Infra 就是“工具箱”,包括構(gòu)建、部署和維護(hù)人工智能 (AI) 系統(tǒng)所需的硬件、 軟件和服務(wù)的組合。
![]()
國(guó)內(nèi)模型價(jià)格戰(zhàn)背景下,成本控制成為生死攸關(guān)的問(wèn)題。Deepseek V3官方定價(jià)僅為每百萬(wàn)token輸入2元、輸出3元,而海外同類產(chǎn)品價(jià)格普遍在1.25-5美元之間。這種顯著的價(jià)格差異使得國(guó)內(nèi)廠商對(duì)成本的敏感度遠(yuǎn)超海外。
大廠算力調(diào)度能力對(duì)比:
華為Flex:ai實(shí)現(xiàn)了異構(gòu)算力統(tǒng)一調(diào)度,支持英偉達(dá)、昇騰及第三方算力,通過(guò)芯片級(jí)切分技術(shù)(精準(zhǔn)至10%粒度),在無(wú)法充分利用整卡算力的場(chǎng)景下,可將平均利用率提升30%。
阿里巴巴Aegaeon更進(jìn)一步,實(shí)現(xiàn)了token級(jí)動(dòng)態(tài)調(diào)度。通過(guò)token粒度的精細(xì)化調(diào)度、階段化計(jì)算、緩存復(fù)用和彈性擴(kuò)縮容,Aegaeon將10個(gè)模型所需GPU數(shù)量從1192張銳減至213張,資源節(jié)約率高達(dá)82%。這種"按token分揀"的實(shí)時(shí)調(diào)度方式,類似將快遞分揀從"按批次"升級(jí)為"按單個(gè)包裹"。![]()
報(bào)告數(shù)據(jù)表明,算力調(diào)度軟件已成為提升毛利率的隱形杠桿:
毛利率敏感性分析顯示,假設(shè)模型推理服務(wù)商使用H800芯片,在單日10億查詢量場(chǎng)景下(日收入約440萬(wàn)元,年收入16.06億元),當(dāng)單卡吞吐從基準(zhǔn)值的0.6倍提升至1.4倍時(shí),毛利率可從52%提升至80%。這意味著算力調(diào)度優(yōu)化每提升10%的單卡吞吐,就能帶來(lái)約2-7個(gè)百分點(diǎn)的毛利率改善。![]()
這也解釋了為何海外三大云廠商的云業(yè)務(wù)毛利率差異顯著:2025年三季度,谷歌云毛利率為43.3%,微軟智能云為34.6%,而亞馬遜AWS僅為23.7%。隨著AI大模型云收入占比持續(xù)提升,硬件調(diào)度能力對(duì)毛利率的影響將愈發(fā)關(guān)鍵。
![]()
向量數(shù)據(jù)庫(kù):RAG應(yīng)用的剛需基礎(chǔ)
大模型幻覺(jué)問(wèn)題催生了RAG(檢索增強(qiáng)生成)技術(shù)的快速普及。由于大模型無(wú)法直接記住大量企業(yè)私有知識(shí),且缺乏外部知識(shí)時(shí)容易產(chǎn)生幻覺(jué),RAG成為企業(yè)部署AI應(yīng)用的標(biāo)配。Gartner數(shù)據(jù)顯示,2024年全球已有45%的企業(yè)在智能客服、數(shù)據(jù)分析等場(chǎng)景中部署RAG系統(tǒng),預(yù)計(jì)2025年這一比例將突破68%。
報(bào)告指出,向量數(shù)據(jù)庫(kù)的核心價(jià)值在于支撐海量數(shù)據(jù)的毫秒級(jí)檢索。在RAG應(yīng)用推理流程中,系統(tǒng)需要先將用戶查詢轉(zhuǎn)化為向量,然后在向量數(shù)據(jù)庫(kù)中檢索最相似的知識(shí)片段,最后將檢索結(jié)果與用戶問(wèn)題一起輸入大模型生成答案。這要求向量數(shù)據(jù)庫(kù)能在億級(jí)數(shù)據(jù)規(guī)模下保持高QPS(每秒查詢數(shù))的實(shí)時(shí)檢索能力。
OpenRouter統(tǒng)計(jì)數(shù)據(jù)顯示,從2024年四季度開(kāi)始,從API接口接入各類大模型的Token消耗量快速增長(zhǎng),一年時(shí)間內(nèi)翻了近10倍,直接拉動(dòng)了向量數(shù)據(jù)庫(kù)需求。
數(shù)據(jù)庫(kù)格局重塑:OLTP反攻,實(shí)時(shí)性為王
生成式AI時(shí)代,數(shù)據(jù)架構(gòu)正從"分析優(yōu)先"轉(zhuǎn)向"實(shí)時(shí)運(yùn)營(yíng)+分析協(xié)同"。傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)/湖倉(cāng)架構(gòu)設(shè)計(jì)目標(biāo)是批量處理和事后洞察,但AI應(yīng)用需要毫秒級(jí)響應(yīng),Agent更需要持續(xù)獲取實(shí)時(shí)數(shù)據(jù)并快速?zèng)Q策。這種高頻、小批量、低延遲的實(shí)時(shí)事務(wù)處理需求,正是OLTP(在線事務(wù)處理)數(shù)據(jù)庫(kù)的核心優(yōu)勢(shì)。
![]()
報(bào)告指出,AI時(shí)代數(shù)據(jù)架構(gòu)從‘分析優(yōu)先’轉(zhuǎn)向‘實(shí)時(shí)運(yùn)營(yíng) + 分析協(xié)同’...MongoDB 憑借‘低門(mén)檻 + 高彈性’,契合中小客戶低成本 AI 落地需求,增長(zhǎng)彈性突出。Snowflake 與 Databricks...需應(yīng)對(duì)CSP跨界競(jìng)爭(zhēng)與實(shí)時(shí)能力短板。
具體來(lái)看:
MongoDB:低門(mén)檻切入中小客戶市場(chǎng)
MongoDB作為文檔型NoSQL數(shù)據(jù)庫(kù),天然適配非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)與高頻實(shí)時(shí)CRUD操作。其收入增速在2024年二季度出現(xiàn)拐點(diǎn),2026財(cái)年一至三季度,核心產(chǎn)品Atlas收入增速分別為26%、29%、30%,顯著高于總體收入增速。
MongoDB的競(jìng)爭(zhēng)優(yōu)勢(shì)體現(xiàn)在三個(gè)方面:首先,其文檔型設(shè)計(jì)摒棄了預(yù)定義表結(jié)構(gòu),以類似JSON格式存儲(chǔ)數(shù)據(jù),契合AI原生應(yīng)用需求;其次,通過(guò)2025年2月以2.2億美元收購(gòu)Voyage AI,補(bǔ)齊了向量檢索能力,Voyage的嵌入模型在HuggingFace RTEB測(cè)評(píng)中霸榜第一、第四和第五;第三,新推出的AMP(應(yīng)用現(xiàn)代化平臺(tái))幫助客戶從傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)遷移至現(xiàn)代文檔數(shù)據(jù)庫(kù)。
2026財(cái)年三季度,MongoDB毛利率達(dá)到76%,預(yù)計(jì)年底經(jīng)營(yíng)利潤(rùn)率將達(dá)到18%,全年?duì)I收增長(zhǎng)率約21%-22%,幾乎接近Rule of 40標(biāo)準(zhǔn)(收入增長(zhǎng)率+利潤(rùn)率≥40%)。
Snowflake與Databricks:向全棧工具延伸
以O(shè)LAP為核心的Snowflake和Databricks選擇了不同的應(yīng)對(duì)策略——向上下游縱向拓展。Snowflake在2025年通過(guò)Iceberg Tables實(shí)現(xiàn)數(shù)據(jù)湖倉(cāng)兼容,推出Snowpark支持Python等多語(yǔ)言,并提供Cortex AI和Snowflake ML等AI工具鏈。2025財(cái)年收入達(dá)36.26億美元,同比增長(zhǎng)29.21%,預(yù)計(jì)2026財(cái)年收入44.46億美元。
Databricks則在2025年5月以10億美元收購(gòu)無(wú)服務(wù)器Postgres解決方案提供商N(yùn)eon,補(bǔ)齊OLTP能力,隨后推出AI原生數(shù)據(jù)庫(kù)Lakebase和Agent Bricks。其2025年年化收入超48億美元,同比增長(zhǎng)55%,數(shù)據(jù)湖倉(cāng)產(chǎn)品年化收入超10億美元,凈留存率超140%。
兩家公司憑借全流程工具鏈和客戶粘性,占據(jù)金融、醫(yī)療等數(shù)據(jù)密集型行業(yè)核心場(chǎng)景。截至2026財(cái)年三季度,Snowflake年消費(fèi)超100萬(wàn)美元的高價(jià)值客戶達(dá)688家,福布斯全球2000強(qiáng)企業(yè)中已有766家成為其客戶。
GPU主導(dǎo)存儲(chǔ)架構(gòu):技術(shù)升級(jí)進(jìn)行時(shí)
AI推理進(jìn)入實(shí)時(shí)化、PB級(jí)數(shù)據(jù)訪問(wèn)的新階段,存儲(chǔ)IO正從"幕后支撐"變成"性能命脈"。LLM推理的KV緩存訪問(wèn)粒度僅8KB-4MB,向量數(shù)據(jù)庫(kù)檢索更是低至64B-8KB,且需要支持?jǐn)?shù)千條并行線程的并發(fā)請(qǐng)求。
英偉達(dá)推出的SCADA(加速數(shù)據(jù)訪問(wèn)擴(kuò)展)方案實(shí)現(xiàn)了GPU直連SSD,將IO延遲從毫秒級(jí)降至微秒級(jí)。該方案采用"GPU-交換機(jī)-SSD"直連架構(gòu),測(cè)試數(shù)據(jù)顯示,1顆H100 GPU的IO調(diào)度效率是Gen5 Intel Xeon Platinum CPU的2倍以上。
這要求向量數(shù)據(jù)庫(kù)進(jìn)行技術(shù)升級(jí):采用GPU適配的列式存儲(chǔ)、將檢索算法改為GPU并行版本、自主管理GPU顯存分配。這些技術(shù)演進(jìn)正在重塑數(shù)據(jù)基礎(chǔ)設(shè)施的競(jìng)爭(zhēng)格局。





京公網(wǎng)安備 11011402013531號(hào)