編輯部 整理自 MEET2026
量子位 | 公眾號 QbitAI
當(dāng)國產(chǎn)AI芯片接連發(fā)布、估值高漲之際,一個(gè)尖銳的問題依然懸在頭頂:它們真的能撐起下一代萬卡集群與萬億參數(shù)模型的訓(xùn)練嗎?
一邊是市場對替代方案的迫切期待,另一邊是英偉達(dá)在利潤與估值上仍高歌猛進(jìn)……
百度智能云AI計(jì)算首席科學(xué)家王雁鵬在量子位MEET2026智能未來大會上,基于百度昆侖芯在大規(guī)模生產(chǎn)環(huán)境中的實(shí)戰(zhàn)經(jīng)驗(yàn)指出:
評判芯片實(shí)力的標(biāo)準(zhǔn)已從單純的算力數(shù)值,轉(zhuǎn)向了能否穩(wěn)定支撐從百億到萬億參數(shù)、從稠密模型到MoE架構(gòu)、從單模態(tài)到多模態(tài)的完整模型譜系訓(xùn)練,并能在萬卡乃至更大規(guī)模集群上實(shí)現(xiàn)高效擴(kuò)展。
在演講中,王雁鵬系統(tǒng)拆解了大規(guī)模訓(xùn)練中集群穩(wěn)定性、線性擴(kuò)展與模型生態(tài)三大核心挑戰(zhàn)的攻堅(jiān)路徑,并回應(yīng)了行業(yè)對MoE時(shí)代硬件路徑的關(guān)切。
他認(rèn)為,即便是參數(shù)激增的MoE模型,“小芯片搭大集群”的路徑依然可行,其關(guān)鍵在于極致的通信優(yōu)化與系統(tǒng)級協(xié)同設(shè)計(jì)。
![]()
為完整呈現(xiàn)王雁鵬的思考,在不改變原意的基礎(chǔ)上,量子位對演講內(nèi)容進(jìn)行了整理編輯,希望能給你帶來更多啟發(fā)。
MEET2026智能未來大會是由量子位主辦的行業(yè)峰會,近30位產(chǎn)業(yè)代表與會討論。線下參會觀眾近1500人,線上直播觀眾350萬+,獲得了主流媒體的廣泛關(guān)注與報(bào)道。
核心觀點(diǎn)梳理
國產(chǎn)芯片的替代有一個(gè)漸進(jìn)式的過程,昆侖芯從第一代開始已經(jīng)做到了在搜索線上系統(tǒng)全量用推理,真正難的是在大規(guī)模訓(xùn)練場景。現(xiàn)在Scale換了一個(gè)維度,變成了模型參數(shù)的Scale和任務(wù)訓(xùn)練規(guī)模的Scale,由此帶來了整個(gè)系統(tǒng)層面的Scale,映射到硬件上就有不同的size、各種形狀、不同的切分策略和并行策略。當(dāng)前重要發(fā)展方向是MoE,它在某種程度上延續(xù)了原有的Scaling Law,能夠繼續(xù)擴(kuò)大參數(shù)規(guī)模,同時(shí)不增加激活參數(shù)規(guī)模。但系統(tǒng)層面會面臨新的挑戰(zhàn):模型參數(shù)變得更大、輸入序列變長,通信占比顯著提升,占比提升意味著整個(gè)模型架構(gòu)都要有變化。當(dāng)前我們在百度Qianfan VL、百度蒸汽機(jī)都取得較領(lǐng)先的模型效果,并已經(jīng)實(shí)現(xiàn)全棧基于昆侖芯的訓(xùn)練。以下為王雁鵬演講全文:
真正的困難在大規(guī)模訓(xùn)練場景里
大家好,我是來自百度智能云的王雁鵬,我很長一段時(shí)間都在負(fù)責(zé)AI基礎(chǔ)設(shè)施建設(shè)的工作。今天想跟大家分享的內(nèi)容是,我們?nèi)绾卧谏a(chǎn)環(huán)境中規(guī)模化應(yīng)用我們的國產(chǎn)芯片
最近國產(chǎn)芯片熱度很高,很多產(chǎn)品陸續(xù)上市,也獲得了很高估值。似乎國產(chǎn)芯片馬上就要在大規(guī)模生產(chǎn)環(huán)境落地。但同時(shí),英偉達(dá)仍然保持極高的利潤率和上漲的估值,市場仍然在購買其產(chǎn)品。
這兩個(gè)看似矛盾的現(xiàn)象背后,其實(shí)反映了一個(gè)事實(shí):要真正把國產(chǎn)芯片用起來,難度依然非常大。不僅如此,除了英偉達(dá)之外的國際芯片供應(yīng)商,也同樣沒有在大規(guī)模訓(xùn)練場景中真正跑起來。
國產(chǎn)替代一定是漸進(jìn)式過程。大家都知道在推理場景中問題不大,例如昆侖芯從第一代起就已在搜索線上系統(tǒng)實(shí)現(xiàn)全量推理,真正困難在大規(guī)模訓(xùn)練場景里面。
第一大挑戰(zhàn):集群穩(wěn)定性
大規(guī)模訓(xùn)練往往是上萬卡的同步系統(tǒng),任何一臺卡中斷都可能導(dǎo)致任務(wù)重啟。
比如,在100張卡的時(shí)候有效訓(xùn)練時(shí)間是99%,但當(dāng)1%時(shí)間因?yàn)橹袛嗬速M(fèi)的話,線性擴(kuò)展到一萬張卡則意味著整個(gè)集群不可用了。因此,第一個(gè)要解決的便是集群穩(wěn)定性問題。
在芯片層面,GPU天生是高故障率器件:晶體管數(shù)量多、算力高、功耗大,同時(shí)專注于計(jì)算導(dǎo)致監(jiān)控能力弱,整體比CPU的故障率高出多個(gè)量級。
在這方面我們有兩類經(jīng)驗(yàn):
1、事前精細(xì)化監(jiān)控與驗(yàn)證:
我們必須假設(shè)芯片可能存在各種問題——運(yùn)行變慢、精度異常、數(shù)據(jù)不一致等,因此需要系統(tǒng)級手段提前定位可能的故障,而不能依賴芯片自身的報(bào)錯(cuò)能力。尤其是在靜默錯(cuò)誤場景中,系統(tǒng)需要能夠精準(zhǔn)定位故障節(jié)點(diǎn),否則訓(xùn)練會長期無法復(fù)現(xiàn)。
2、故障后的快速恢復(fù)能力:
無論故障率如何,總要避免大規(guī)模重算,因此我們構(gòu)建了透明Checkpoint和快速恢復(fù)機(jī)制,盡量減少損失。
第二大挑戰(zhàn):讓集群真正擴(kuò)展起來
一個(gè)萬卡集群必須實(shí)現(xiàn)線性擴(kuò)展,否則只有千卡、兩千卡的規(guī)模意義不大。
我們大致經(jīng)歷了三個(gè)階段:
百卡集群上,驗(yàn)證技術(shù)可行性,關(guān)鍵在于RDMA通信技術(shù)的適配與優(yōu)化。
千卡集群上,由于網(wǎng)絡(luò)不再對等,比如我們不能把任何兩個(gè)芯片或者兩臺機(jī)器看成在網(wǎng)絡(luò)任何地方部署性能都一樣,因此也需要做好網(wǎng)絡(luò)親和性調(diào)度等復(fù)雜優(yōu)化。
萬卡集群則是更大的挑戰(zhàn),面對多任務(wù)、多并行策略(PP、TP、EP 等)帶來的流量競爭,必須實(shí)現(xiàn)芯片與網(wǎng)絡(luò)的聯(lián)合設(shè)計(jì)。
![]()
我們的核心邏輯叫:XPU驅(qū)動的any to any的通信
以XPU為核心,在通信過程中繞過CPU各種影響,直接用XPU驅(qū)動我們的網(wǎng)絡(luò)。針對不同流量有不同優(yōu)先級做整個(gè)任務(wù)的最優(yōu),經(jīng)過這一點(diǎn)我們可以把大規(guī)模擴(kuò)展做上去。
第三大挑戰(zhàn):模型生態(tài)與精度體系
英偉達(dá)最強(qiáng)的護(hù)城河并不只是硬件,而是過去十多年沉淀的模型生態(tài):成千上萬種模型變體、算子體系、框架適配,這些都讓英偉達(dá)在訓(xùn)練精度上保持絕對穩(wěn)定性。
在大模型時(shí)代,由于Transformer這套架構(gòu)相對統(tǒng)一,國產(chǎn)芯片迎來了機(jī)會。
但可能很多人忽略的一點(diǎn)是:
現(xiàn)在Scale換了一個(gè)維度,變成了模型參數(shù)的Scale和任務(wù)規(guī)模的Scale。而這意味著模型參數(shù)可以有不同的規(guī)模,例如十億、百億、千億,同時(shí)我們可以跑到不同硬件平臺上,比如百卡、千卡、萬卡,這兩個(gè)維度的Scale則會帶來整個(gè)系統(tǒng)的Scale。
![]()
不同于原來模型架構(gòu)的Scale,算子映射到硬件上面會有不同的size,不同形狀,不同并行的策略,這個(gè)情況下算子能不能穩(wěn)定地跑出來。我們看到它會在精度和性能上都會存在挑戰(zhàn),尤其是精度方面的挑戰(zhàn)。換了一個(gè)平臺,甚至可能因?yàn)椤八阕訉懙貌粚Α薄ⅰ熬炔钜稽c(diǎn)”都可能導(dǎo)致兩個(gè)月的訓(xùn)練白跑。
因此我們做了高度泛化的算子體系,針對不同的算子的size做了高強(qiáng)度的泛化,同時(shí)在泛化基礎(chǔ)上還做到小規(guī)模驗(yàn)證精度,避免每次都使用萬卡對比,從而保證大規(guī)模訓(xùn)練的可靠性。
MoE模型與多模態(tài)模型的新挑戰(zhàn)
當(dāng)前重要的發(fā)展方向是MoE,它能在不提升激活規(guī)模的情況下擴(kuò)展模型參數(shù),延續(xù)Scaling Law。
但MoE基礎(chǔ)上對系統(tǒng)架構(gòu)也帶來新的挑戰(zhàn),模型參數(shù)變大了,輸入序列變長,意味著通信占比提升了,對整個(gè)模型架構(gòu)都會有改變
因此需要極致的通信優(yōu)化,以及顯存的協(xié)同,與計(jì)算overlap,來完成MoE系統(tǒng)的適配。
![]()
我們的結(jié)論是,即便是MoE模型,小芯片搭大集群的方式依然可行
多模態(tài)模型則帶來另一類問題,不同的模態(tài)會帶來不同的訓(xùn)練強(qiáng)度,不同模態(tài)的計(jì)算,還用原來的同構(gòu)拆分方法的話會導(dǎo)致訓(xùn)練的效率非常低,典型情況下MFU可能都不到10%。
![]()
針對這個(gè)需要做異構(gòu)數(shù)據(jù)均衡的調(diào)度,適配異構(gòu)并行策略,使得系統(tǒng)能夠根據(jù)我們workload動態(tài)地做并行策略。不管模型是什么樣的,都能找到最優(yōu)的運(yùn)行策略適配模型,在這一塊需要做優(yōu)化。
衡量國產(chǎn)芯片“能否真正用起來”的標(biāo)準(zhǔn),我們認(rèn)為有兩個(gè)關(guān)鍵維度:
模型覆蓋能力:覆蓋大語言模型、多模態(tài)、文生視頻等完整體系。集群規(guī)模能力:從百卡到千卡再到萬卡全覆蓋。
目前我們在模型覆蓋上基本達(dá)到主流大模型體系,在規(guī)模上已能跑萬卡任務(wù),未來還會向數(shù)萬卡推進(jìn)。
![]()
最近大家關(guān)注TPU,就是因?yàn)镚oogle能夠用非常優(yōu)秀的Gemini證明TPU的訓(xùn)練能力——模型綁定硬件,硬件才能真正被接受。
同樣,昆侖芯也需要綁定優(yōu)秀的自研模型。
當(dāng)前我們在百度Qianfan VL、百度蒸汽機(jī)都取得較領(lǐng)先的模型效果,并已經(jīng)實(shí)現(xiàn)全棧基于昆侖芯的訓(xùn)練。未來我們會繼續(xù)努力,讓更先進(jìn)的模型在我們昆侖芯上面全棧訓(xùn)練出來。





京公網(wǎng)安備 11011402013531號