
業(yè)界全力提升Token速度、降低成本,支撐千行百業(yè)跨越智能體規(guī)模落地臨界點。
文|游勇
編|周路平
不久前的2025人工智能計算大會上,浪潮信息公布了一份業(yè)內(nèi)矚目的成績單:基于元腦SD200超節(jié)點AI服務(wù)器,DeepSeek R1大模型Token生成速度僅需8.9毫秒,創(chuàng)造國內(nèi)大模型最快Token生成速度;而最新發(fā)布的元腦HC1000超擴展AI服務(wù)器,實現(xiàn)每百萬Token成本首次擊破1元大關(guān)。

浪潮信息在推動AI推理正式進(jìn)入“10毫秒、1塊錢”的時代,而背后是底層算力在應(yīng)對智能體大規(guī)模應(yīng)用時面臨的兩大挑戰(zhàn):一方面,多智能體之間的交互,對響應(yīng)速度更加嚴(yán)苛;另一方面,智能體帶來Token消耗量的指數(shù)級增長,如何降低Token生成的成本,成了智能體大規(guī)模應(yīng)用以及未來能否實現(xiàn)商業(yè)閉環(huán)必須要攻克的一環(huán)。
在業(yè)內(nèi)看來,Token速度的提升和成本的大幅降低有望推動千行百業(yè)加速應(yīng)用智能體。
01
速度與成本,已成智能體時代頭號敵人
今年初,DeepSeek在推理模型上的進(jìn)展以及Manus令人眼前一亮的實踐,快速推動大模型從訓(xùn)練進(jìn)入以智能體技術(shù)為代表的推理時代。能夠?qū)崿F(xiàn)自主規(guī)劃執(zhí)行路徑、靈活調(diào)用工具的智能體,無論是在C端應(yīng)用,還是在B端市場,都爆發(fā)出巨大的應(yīng)用潛力。今年也被認(rèn)為是Agent元年。
德勤預(yù)測,到2025年,將有25%的企業(yè)部署生成式AI驅(qū)動的智能代理;到2027年,這一比例將升至50%。
2025年8月,國務(wù)院也出臺了《關(guān)于深入實施“人工智能+”行動的意見》,明確提出到2027年,新一代智能終端、智能體等應(yīng)用普及率超70%。
而中國人工智能企業(yè)的數(shù)量已經(jīng)超過5000家,平均約11個小時就有一家人工智能企業(yè)誕生。智能體落地如火如荼,各類智能體產(chǎn)品和智能體開發(fā)平臺層出不窮。無論是汽車、金融、網(wǎng)絡(luò)安全、電商以及協(xié)同辦公等行業(yè)都在探索智能體的應(yīng)用場景。而在編程、客服、營銷、辦公助手、商業(yè)智能、知識助手等通用場景已經(jīng)看到了成效。在不久前的WAIC上,各廠商的重心幾乎都放在了智能體的落地上。
“智能體已經(jīng)進(jìn)入到大規(guī)模商業(yè)部署的階段。”浪潮信息首席AI戰(zhàn)略官劉軍說,國內(nèi)幾個頭部的AI產(chǎn)品,調(diào)用量已經(jīng)非常大,Token增長的比例都是每月幾倍的增長,而國內(nèi)今年比去年的Token調(diào)用量可能會上升50倍。 2025年5月底,火山引擎透露,豆包大模型日均tokens使用量超過16.4萬億。騰訊在今年9月表示,現(xiàn)在用戶每天向元寶的提問量已經(jīng)達(dá)到年初一個月的總和。
但行業(yè)烈火烹油的背后,大模型應(yīng)用落地從訓(xùn)練走向推理,這也給行業(yè)帶來速度與成本的雙重考驗。
百度智能云CEO沈抖曾提到,因為在大模型推理上,推理的工作負(fù)載會隨著流量規(guī)模、輸入輸出長度的變化而變化。為了保持高吞吐、低時延,往往需要多個節(jié)點之間協(xié)同完成計算與通信。如果通信和計算的調(diào)度不夠高效,就會造成算力空轉(zhuǎn)、等待時間增加,推理性能下降,“這個時候,單靠堆卡是不夠的,需要做系統(tǒng)性的優(yōu)化。”
“智能體進(jìn)入大規(guī)模商業(yè)化應(yīng)用時,響應(yīng)速度成了企業(yè)的核心競爭力之一。”劉軍說,“對于Agent速度的痛點,大家在產(chǎn)業(yè)里面感知到了,但是一直沒有很明確地去把這個問題放到這么重要的位置上。”

過往是以Chat為核心的人機交互,對延遲沒那么苛刻,只需要跟上人的閱讀速度就基本能滿足需求。但智能體時代,人機交互進(jìn)化成智能體與智能體之間的交互,而智能體接收信息的速度幾乎沒有上限,智能體之間的交互對于延遲的痛感越來越強烈。比如金融行業(yè)的欺詐檢測需要做到10毫秒左右、具身智能的規(guī)劃決策需要做到50毫秒。
而且,隨著單一智能體走向多智能體,每一個環(huán)節(jié)的延遲都會累加,最終讓延遲變得不可接受。“如果延遲不做到足夠低的話,沒有商業(yè)的可能性。”劉軍說。
除了推理模型的響應(yīng)速度,旺盛的需求和Token的指數(shù)級增長也給全行業(yè)帶來另一個幸福的煩惱:底層的算力基礎(chǔ)設(shè)施能否把推理成本做得足夠低。
“我們看到了Token成本帶給整個產(chǎn)業(yè)的巨大壓力。”劉軍說,“客戶最關(guān)心的問題轉(zhuǎn)為了成本是不是足夠低,是不是能夠?qū)崿F(xiàn)一個超大規(guī)模的擴展,使得我的基礎(chǔ)設(shè)施能夠支撐大規(guī)模應(yīng)用服務(wù)的能力。”
當(dāng)前,企業(yè)部署一個智能體平均每月的Token成本大概是1000到5000美元。以O(shè)penAI的GPT-5為例,其在處理復(fù)雜任務(wù)時,輸入Token成本為每百萬1.25美元,輸出Token為每百萬10美元。
盡管行業(yè)的Token成本每半年就出現(xiàn)較大幅度的下降,但隨著大規(guī)模應(yīng)用,如何降低成本依然是行業(yè)所關(guān)心的話題。尤其是超大規(guī)模的商業(yè)用戶,對成本的感知會更加深刻。
“省成本是用戶體驗非常重要的一個指標(biāo)。”百度集團副總裁侯振宇說,百度智能云針對推理服務(wù),重新設(shè)計了調(diào)度器、加速引擎與 KVCache 系統(tǒng),在萬卡集群規(guī)模上實現(xiàn)了吞吐大幅提升與首Token延遲顯著下降。
國慶假期前,DeepSeek專門發(fā)布了新款推理模型,引入全新的稀疏注意力機制,實現(xiàn)了推理成本大幅降低,開發(fā)者調(diào)用API的價格降低50%以上。
火山引擎也是國內(nèi)在AI推理上降價最為兇猛的云廠商之一。火山引擎總裁譚待曾表示,單個Agent任務(wù)的Token消耗量可達(dá)傳統(tǒng)聊天場景的數(shù)十倍,成本成為規(guī)模化應(yīng)用的掣肘,“過去人與模型聊一小時耗20萬Token,如今Agent處理一個復(fù)雜任務(wù)就要20萬Token,降價是普及的前提。”
春江水暖鴨先知。當(dāng)這些模型廠商、AI云廠商表達(dá)出對速度和成本的強烈痛點時,作為國內(nèi)算力龍頭,浪潮信息所處的生態(tài)位,也讓其更早地捕捉到行業(yè)演進(jìn)的趨勢,“或許一般規(guī)模的企業(yè)當(dāng)下對成本的感知不強,但成本一定是在超大規(guī)模的商業(yè)用戶首先感知到這樣一個差別。”劉軍說,浪潮信息正在基于底層計算架構(gòu)的創(chuàng)新優(yōu)化,探索了一條更契合行業(yè)發(fā)展的降本提效路徑。
02
浪潮信息如何做到“10毫秒、1塊錢”?
作為浪潮信息在推理場景的主打產(chǎn)品,HC1000和SD200背后有著明確的客群。HC1000會更適合大規(guī)模的互聯(lián)網(wǎng)客戶,他們對控制成本有著更強的感知和需求。SD200則是滿足在行業(yè)應(yīng)用時對延遲要求敏感的客戶,強調(diào)人工智能+產(chǎn)業(yè)落地,比如金融行業(yè)、具身智能等。

“我們不會為了技術(shù)而去做技術(shù),為了指標(biāo)而去做指標(biāo),更多是針對產(chǎn)業(yè)的核心挑戰(zhàn)來針對性地優(yōu)化設(shè)計。”劉軍說,浪潮信息在解決算力痛點時,一直堅持的思路是以應(yīng)用為導(dǎo)向,以系統(tǒng)為核心。
浪潮信息針對Agent的全鏈條做了深入細(xì)致的量化分析,找到了每個環(huán)節(jié)可能會影響速度的因素,然后集中在核心部分進(jìn)行攻關(guān)。
比如浪潮信息發(fā)現(xiàn),智能體之間的交互,通信數(shù)據(jù)包相對較小,超大帶寬的用途不是特別大。劉軍做了個形象的比喻,就像是從a地到b地修了16車道的高速公路,但是車輛在16車道上只跑了很短的距離,反而在上高速和下高速這兩個節(jié)點花了很長時間,“我們重點就解決了車輛上高速和下高速的速度問題,讓車輛直通上去,直通下去”。
此外,浪潮信息也對架構(gòu)層面做了創(chuàng)新,比如元腦SD200采用了創(chuàng)新的多主機3D Mesh系統(tǒng)架構(gòu),將多個主機的GPU資源整合成一個統(tǒng)一的計算域,并且當(dāng)中能夠?qū)崿F(xiàn)跨主機域全局統(tǒng)一編址。并且通過Smart Fabric Manager,元腦SD200實現(xiàn)了超節(jié)點64卡全局最優(yōu)路由的自主創(chuàng)建,保障AI芯片間通信路徑最短,進(jìn)一步縮短基礎(chǔ)通信延遲。
而影響Token生成成本的一個關(guān)鍵因素是目前推理的算效太低。劉軍透露,大模型在推理過程中的算效比非常低,“可能比訓(xùn)練低甚至一個數(shù)量級以上。”
其中,推理算效低的一大原因在于計算負(fù)載不均衡。
業(yè)內(nèi)目前的普遍做法是PD分離,將預(yù)填充和解碼兩個階段分開部署,實現(xiàn)了計算資源的更細(xì)粒度調(diào)度與利用,為提升吞吐、降低延遲提供了結(jié)構(gòu)基礎(chǔ)。
除了業(yè)內(nèi)常用的PD分離,浪潮信息在背后做了更多的分離技術(shù)來提升算效。比如在Decode(解碼)階段,把注意力計算和FFN計算拆開,在FFN部分又把不同的專家拆開。通過這些充分的拆解和解耦,讓每一塊GPU的計算效率足夠高,最終帶來了算效的倍數(shù)提升。
浪潮信息最新發(fā)布的元腦HC1000超擴展AI服務(wù)器就采用了全對稱的DirectCom極速架構(gòu),可以智能調(diào)度每個環(huán)節(jié)的算力需求,不讓計算資源閑置或等待,讓它時刻處于計算和通信狀態(tài),整個網(wǎng)絡(luò)的利用率接近98%,“把計算利用率調(diào)提高將近7倍”。
而在硬件層面,元腦HC1000創(chuàng)新了16卡計算模組設(shè)計、單卡“計算-顯存-互連”均衡設(shè)計,大幅降低單卡成本和每卡系統(tǒng)分?jǐn)偝杀尽M瑫r,全對稱的系統(tǒng)拓?fù)湓O(shè)計支持超大規(guī)模無損擴展。據(jù)測算,元腦HC1000的推理性能相比傳統(tǒng)RoCE提升1.75倍,單卡模型算力利用率最高提升5.7倍。

而且,當(dāng)推理過程被盡可能地解耦之后,系統(tǒng)對單芯片的性能依賴也大幅減小。過往,業(yè)內(nèi)主流AI芯片的解題思路是在不斷提升單芯片的性能,相當(dāng)于一個六邊形戰(zhàn)士。但如今解耦之后,每個階段對芯片的需求出現(xiàn)差異,用戶可以不用昂貴的高帶寬內(nèi)存,也能獲得很高的算效。這種全局的解決思路更適合當(dāng)前國內(nèi)因為難以獲得高端GPU卡而出現(xiàn)的算力瓶頸。
當(dāng)然,從產(chǎn)業(yè)發(fā)展的視角來看,百萬Token輸出成本一塊錢是當(dāng)前國內(nèi)的最佳水平,但遠(yuǎn)不是算力演進(jìn)的終點,“未來5年我們評估的數(shù)是隨著Token數(shù)量的增長,需要相對應(yīng)的實現(xiàn)單Token成本同等的數(shù)量級的下降,才能保持一種平衡。”劉軍說。
結(jié)語:AI計算架構(gòu)將走向?qū)S?/strong>
本質(zhì)上,當(dāng)前的GPU和ASIC芯片都是通用計算芯片,不是針對大模型去做的極致優(yōu)化,里面仍然有很多的冗余。“要跟上Token高速增長的步伐,我們就一定要去革新計算的架構(gòu)。”
劉軍認(rèn)為,當(dāng)行業(yè)處于AI應(yīng)用的起步和探索階段,平臺開發(fā)生態(tài)的通用性會更加重要,可以實現(xiàn)與不同的開發(fā)生態(tài)和軟件生態(tài)耦合。但如果進(jìn)入到大規(guī)模商業(yè)部署階段,這種模式很快會遇到瓶頸,普惠AI將變得遙不可及。
“只要形成了一定的產(chǎn)業(yè)規(guī)模,最終會向極致的定制化和專業(yè)化的設(shè)計轉(zhuǎn)變。”劉軍說,“這是一個專用與通用對立統(tǒng)一、交替發(fā)展的過程。如果說AI的上半場是訓(xùn)練,那么下半場將是推理。大模型具有一次訓(xùn)練、無限次推理的特點,而模型權(quán)重在推理時是固定的,采用算法硬件化的專用計算架構(gòu)將更適合推理場景,這應(yīng)當(dāng)是未來的發(fā)展方向。”
劉軍提到了一個例子,D. E. Shaw研究所是搞量化的鼻祖,這家機構(gòu)為分子動力學(xué)打造了一臺特殊設(shè)計、功能單一的專用超級計算機Anton,通過算法創(chuàng)新和軟硬件協(xié)同,最終使得其在分子動力學(xué)模擬中獲得了比通用計算機高出百倍的計算能效。
這給AI計算架構(gòu)也提供了借鑒。當(dāng)大模型進(jìn)入到一個規(guī)模海量、應(yīng)用非常集中的階段時,“通用就一定不劃算”,浪潮信息認(rèn)為,采用算法硬件化的專用計算架構(gòu)更適合推理場景,探索開發(fā)專用大模型芯片,實現(xiàn)軟硬件深度優(yōu)化,針對大模型的核心算法算子去做極致優(yōu)化,“只有這樣性能擴展定律才能跟得上Token增長的海量需求”。





京公網(wǎng)安備 11011402013531號