當(dāng)前,Token 的消耗量呈現(xiàn)出年均百倍增長的態(tài)勢。國家數(shù)據(jù)局統(tǒng)計(jì)顯示,截至今年6月底,我國日均Token消耗量從2024年初的1000億,已經(jīng)突破至30萬億,1年半時間增長了300多倍。
隨著以DeepSeek、Ernie 為代表的 MoE 類推理模型爆火,大規(guī)模分布式推理系統(tǒng)的建設(shè)成了支持 AI 落地的挑戰(zhàn)。推理成本、推理效率、推理穩(wěn)定性,正在取代參數(shù)規(guī)模,成為決定AI商業(yè)化上限的關(guān)鍵變量。
圍繞這一新的行業(yè)挑戰(zhàn),在12月14日由百度百舸與SGLang社區(qū)聯(lián)合主辦的技術(shù)分享活動上,百度百舸將自己在生產(chǎn)系統(tǒng)上的最新實(shí)踐成果,SGLang將業(yè)界最新成果和動態(tài),做了一次系統(tǒng)性分享。
百度百舸持續(xù)開源生產(chǎn)級代碼,聯(lián)合 SGLang 社區(qū)打造先進(jìn) AI Infra
在活動開場致辭中,百度智能云AI計(jì)算首席科學(xué)家王雁鵬明確表示:百度百舸正在將生產(chǎn)級代碼持續(xù)開源到開源社區(qū)。百度在大規(guī)模生產(chǎn)環(huán)境中積累的大模型訓(xùn)推系統(tǒng)的各種能力,包括經(jīng)過大規(guī)模系統(tǒng)打磨過的高度穩(wěn)定的、高度優(yōu)化的各種核心組件,都將逐一向行業(yè)分享。
同時,王雁鵬強(qiáng)調(diào),開源并非一時的決定,而是百度堅(jiān)信的技術(shù)方向和演進(jìn)路徑。未來,百度會持續(xù)聯(lián)合各個社區(qū),以開源的力量推動行業(yè)共同成長。
![]()
(百度智能云AI計(jì)算首席科學(xué)家王雁鵬)
作為大模型時代崛起的重要開源項(xiàng)目之一的SGLang,百度智能云10月份攜手SGLang社區(qū),將一套針對DeepSeek-V3.2推理性能優(yōu)化的 MTP(Multi-Token Prediction,多token預(yù)測)技術(shù)代碼正式開源。SGLang 社區(qū)表示這是一項(xiàng)巨大的貢獻(xiàn),社區(qū)實(shí)測顯示,采用這套技術(shù),DeepSeek-V3.2模型解碼吞吐量能提升超過2倍。
![]()
在王雁鵬看來,推理引擎正變得越來越重要。智能經(jīng)濟(jì)時代,推理引擎消耗的算力,將成為最核心的生產(chǎn)資料。如果推理成本做不到足夠低,身處大模型產(chǎn)業(yè)鏈上的玩家,就將失去競爭力,難以獲取Scaling的效益。
在本次 Meetup 中,百度百舸團(tuán)隊(duì)圍繞如何建設(shè)大規(guī)模分布式推理基礎(chǔ)設(shè)施、DeepSeek V3.2 推理引擎等方面展開了系統(tǒng)性分享。
百度主任架構(gòu)師田健重點(diǎn)介紹了百度百舸在大規(guī)模分布式推理集群基礎(chǔ)設(shè)施上的實(shí)踐。
隨著大模型到達(dá)千億、萬億規(guī)模的時代,其推理的部署也遇到了“不可能三角”的挑戰(zhàn),需要在模型規(guī)模指數(shù)級增長、部署效率與穩(wěn)定性和資源成本與彈性之間,尋求新的平衡。
百度百舸新一代大規(guī)模分布式推理基礎(chǔ)設(shè)施,以三大核心支柱破解大模型部署困局:通過自動化編排將分布式實(shí)例“原子化”,大幅簡化跨節(jié)點(diǎn)管理復(fù)雜度;創(chuàng)新“靜默實(shí)例”技術(shù)實(shí)現(xiàn)秒級資源激活,靈活應(yīng)對潮汐流量;依托高性能流量調(diào)度與“班車調(diào)度”算法,極致壓榨集群性能。
百度高級架構(gòu)師劉偉分享了百度百舸基于萬卡級生產(chǎn)系統(tǒng)實(shí)戰(zhàn)經(jīng)驗(yàn),面向DeepSeek V3.2在推理引擎層面做的深度優(yōu)化工作:通過輕量級CP讓長文本推理的TTFT近乎線性降低,更創(chuàng)新研發(fā)ESS系統(tǒng)破解長文本推理的顯存墻困境。
面對DeepSeek V3等MoE模型部署中FFN計(jì)算密度不足、GPU利用率低的痛點(diǎn),百度高級工程師劉國維帶來了百度百舸在DeepSeek V3系列模型上的AE分離框架實(shí)戰(zhàn),展示了在復(fù)雜并行與分離架構(gòu)下,百度百舸如何在性能、穩(wěn)定性與運(yùn)維復(fù)雜度之間取得工程平衡。
SGLang 社區(qū):推理框架的邊界正在被不斷拓展
來自SGLang 社區(qū)的 5 位開發(fā)者分享 了4 個業(yè)內(nèi)最新進(jìn)展,展現(xiàn)了 SGLang 社區(qū)在行業(yè)最前沿的動態(tài)。
SGLang 核心開發(fā)者張懿帶來了SGLang在Linear Model優(yōu)化與Diffusion支持上的最新進(jìn)展。
隨著長序列推理場景等的普及,傳統(tǒng)KV Cache管理方式面臨挑戰(zhàn)。SGLang 在內(nèi)存管理、投機(jī)推理適配等方面進(jìn)行了大量工程優(yōu)化,使推理框架能夠更好地適配新一代模型結(jié)構(gòu)。
在此基礎(chǔ)上,面向DeepSeek等主流模型所指向的統(tǒng)一模型技術(shù)迭代路線,SGLang也在嘗試從語言模型走向統(tǒng)一生成引擎。11月上線的SGLang Diffusion,便對外釋放了一個強(qiáng)烈信號,即SGLang的目標(biāo)并不是一個LLM引擎,而是統(tǒng)一推理執(zhí)行層。
來自SGLang Diffusionteam的范舒翼、陳茜,系統(tǒng)介紹了面向圖像與視頻生成的高性能推理引擎 SGLang Diffusion。在圖像與視頻生成場景中,SGLang Diffusion通過Pipeline組合、并行策略與Kernel復(fù)用,將Diffusion推理性能整體拉升到Diffusers的2–6倍區(qū)間,為未來DeepSeek等“理解+生成”統(tǒng)一模型的問世,預(yù)留了系統(tǒng)優(yōu)化空間。
在推理加速方向,SGLang開發(fā)者李升桂帶來了SpecForge項(xiàng)目,解決了投機(jī)推理在真實(shí)系統(tǒng)中落地難、穩(wěn)定性差的問題,讓這一理論上成熟的方法,真正具備工程可用性。
同時,來自SGLang RL Team成員李冀,也展示了SGLang在強(qiáng)化學(xué)習(xí)場景下的最新進(jìn)展,進(jìn)一步拓展了推理框架的適用邊界。
隨著大模型發(fā)展重心從訓(xùn)練范式加速轉(zhuǎn)向推理范式,Token消耗需求呈現(xiàn)出遠(yuǎn)超以往的增長曲線。百度將持續(xù)聯(lián)合開源社區(qū),打造行業(yè)領(lǐng)先的AI Infra,不斷逼近推理系統(tǒng)的上限,持續(xù)滿足行業(yè)對Token消耗年增百倍的訴求。





京公網(wǎng)安備 11011402013531號