
![]()
“云端之外,端側(cè)AI也是國(guó)產(chǎn)芯片下一個(gè)主戰(zhàn)場(chǎng)。”
作者丨趙之齊
編輯丨包永剛
2025年12月12-13日,第八屆GAIR全球人工智能與機(jī)器人大會(huì)在深圳·博林天瑞喜來(lái)登酒店正式啟幕。
作為AI產(chǎn)學(xué)研投界的標(biāo)桿盛會(huì),GAIR自2016年創(chuàng)辦以來(lái),始終堅(jiān)守“傳承+創(chuàng)新”內(nèi)核,始終致力于連接技術(shù)前沿與產(chǎn)業(yè)實(shí)踐。
在人工智能逐步成為國(guó)家競(jìng)爭(zhēng)核心變量的當(dāng)下,算力正以前所未有的速度重塑技術(shù)路徑與產(chǎn)業(yè)結(jié)構(gòu)。13日舉辦的“AI算力新十年”專(zhuān)場(chǎng)聚焦智能體系的底層核心——算力,從架構(gòu)演進(jìn)、生態(tài)構(gòu)建到產(chǎn)業(yè)化落地展開(kāi)系統(tǒng)討論,試圖為未來(lái)十年的中國(guó)AI產(chǎn)業(yè),厘清關(guān)鍵變量與發(fā)展方向。
IO資本創(chuàng)始合伙人趙占祥,專(zhuān)注于硬科技與半導(dǎo)體領(lǐng)域的早期及成長(zhǎng)期投資,在大會(huì)上,他發(fā)表了題為《大模型時(shí)代,國(guó)產(chǎn)AI芯片破局的幾種新技術(shù)路線(xiàn)》 的演講。
![]()
長(zhǎng)期關(guān)注半導(dǎo)體與硬科技的他,近幾年密切觀(guān)察著國(guó)產(chǎn)AI芯片在現(xiàn)實(shí)約束下的演進(jìn)路徑。“今年國(guó)產(chǎn)GPU的市場(chǎng)占有率已接近一半,在先進(jìn)制程受限的背景下,單純沿著GPU的既有路線(xiàn)繼續(xù)追趕英偉達(dá),必須依靠新的技術(shù)路徑”,他開(kāi)宗明義。
從這一判斷出發(fā),趙占祥系統(tǒng)梳理了過(guò)去一年國(guó)內(nèi)涌現(xiàn)出的多條探索路線(xiàn),覆蓋云端、邊緣、端側(cè)、IoT末端以及先進(jìn)封裝等多個(gè)層面。
云端方向,趙占祥重點(diǎn)提到TPU、Hybrid Bonding(混合鍵合)、大容量SRAM推理芯片以及大規(guī)模分布式互聯(lián)等方案。這些路線(xiàn)的共同點(diǎn),是繞開(kāi)對(duì)HBM和先進(jìn)工藝的高度依賴(lài),通過(guò)系統(tǒng)設(shè)計(jì)獲得整體性能提升。“英偉達(dá)自己流片的成本只占四分之一,一半的成本在HBM上”,他說(shuō),“如果帶寬能上去,本質(zhì)上就是用存力去抵消算力不足。”
在他看來(lái),許多值得關(guān)注的變化,也正發(fā)生在端側(cè)和末端。除了在演講中梳理多條新興端側(cè)芯片路線(xiàn)外,趙占祥在演講結(jié)束后也與雷峰網(wǎng)展開(kāi)對(duì)談,進(jìn)一步解釋了他為何在格外看重端側(cè)市場(chǎng),以及這些方向如何在現(xiàn)實(shí)約束下跑通商業(yè)閉環(huán)。(作者長(zhǎng)期關(guān)注半導(dǎo)體、算力上下游等方向,歡迎添加微信Ericazhao23交流。)
01
對(duì)話(huà):
端側(cè)芯片市場(chǎng)大,工程師紅利是商業(yè)閉環(huán)關(guān)鍵
雷峰網(wǎng):您在演講中分享了很多端側(cè)AI的案例,為什么今年著重看端側(cè)芯片市場(chǎng)?
趙占祥:接下來(lái)AI技術(shù)要真正落地,就要靠端側(cè)。這個(gè)市場(chǎng)未來(lái)規(guī)模肯定也是海量,全球PC與平板的出貨量大約四億臺(tái)、手機(jī)十幾億臺(tái),這些都是端側(cè)芯片巨大需求的基礎(chǔ)。
更重要的是,AI硬件未來(lái)的機(jī)會(huì)是中國(guó)的。
軟件生態(tài)的客戶(hù)群體集中在國(guó)內(nèi),這給中國(guó)芯片廠(chǎng)商創(chuàng)造了天然優(yōu)勢(shì)。就像藍(lán)牙耳機(jī)領(lǐng)域——中國(guó)占據(jù)全球90%的市場(chǎng)份額,核心芯片也幾乎都是中國(guó)廠(chǎng)商供應(yīng)。這種生態(tài)邏輯和Arm很相似,可以說(shuō),如果沒(méi)有中國(guó)廠(chǎng)商,就沒(méi)有今天Arm的產(chǎn)業(yè)影響力。
雷峰網(wǎng):但有一種說(shuō)法認(rèn)為,部分端側(cè)芯片的出貨量有限、成本利潤(rùn)又比較低,難以覆蓋生產(chǎn)成本。那么,端側(cè)芯片想實(shí)現(xiàn)商業(yè)閉環(huán),重點(diǎn)會(huì)在什么地方?
趙占祥:可以看看瑞芯微的例子,他們現(xiàn)在利潤(rùn)表現(xiàn)很好,核心就是過(guò)去十年里,把服務(wù)做到了極致。比如,他們能做到無(wú)原廠(chǎng)接入的情況下直接替換,所以大家在深圳想做AI硬件,會(huì)優(yōu)先想到瑞芯微。他們各種解決方案都有,這種重服務(wù)的模式就是中國(guó)工程師紅利的體現(xiàn)。
美國(guó)廠(chǎng)商就做不到這一點(diǎn),他們更擅長(zhǎng)把開(kāi)發(fā)平臺(tái)打磨到極致,但服務(wù)能力弱;中國(guó)廠(chǎng)商或許在性能上稍遜色,但能通過(guò)深度適配滿(mǎn)足不同產(chǎn)品需求,這種落地能力在AI商業(yè)化階段,反而成了核心優(yōu)勢(shì),可以通過(guò)“堆人”做好服務(wù)。
雷峰網(wǎng):目前來(lái)說(shuō),端側(cè)芯片的發(fā)展主要面臨什么瓶頸?
趙占祥:首先是功耗,當(dāng)前的AI手機(jī)芯片是跑不了大模型的,算力不夠、存儲(chǔ)容量不夠,大模型對(duì)內(nèi)存的消耗還是太大了,這也是為什么現(xiàn)在光羽芯辰和微納核芯在推PIM+3D DRAM的方案,就是通過(guò)存內(nèi)計(jì)算,讓內(nèi)存直接承擔(dān)計(jì)算任務(wù)、再用3D堆疊封裝提升存儲(chǔ)容量,也能降低整體功耗。
不過(guò),除了技術(shù)還有生態(tài)的能力。對(duì)新入局的NPU創(chuàng)業(yè)公司來(lái)說(shuō),手機(jī)生態(tài)的壁壘太高了:華為有自己的芯片生態(tài),小米、OPPO高端機(jī)主要用高通芯片,vivo X系列高端機(jī)用聯(lián)發(fā)科,這些新NPU公司怎么和主芯片廠(chǎng)商建立合作,是很重要的。
雷峰網(wǎng):預(yù)計(jì)明年在端側(cè)這邊,會(huì)有哪些應(yīng)用能率先規(guī)模化落地嗎?
趙占祥:現(xiàn)在末端AI的形態(tài),主要是指環(huán)、眼鏡等可穿戴設(shè)備,還有各類(lèi)傳感器和智能家居、AI硬件。不過(guò),接下來(lái)爆發(fā)力最強(qiáng)的多模態(tài)AI硬件應(yīng)該就是AI眼鏡了,明年大概率會(huì)迎來(lái)銷(xiāo)量暴漲,保守估計(jì)能賣(mài)幾千萬(wàn)部,核心驅(qū)動(dòng)力就是成本下降。
目前已有中國(guó)廠(chǎng)商在日本賣(mài)的一款智能眼鏡,售價(jià)才幾十塊錢(qián),雖然只是加上個(gè)耳機(jī)功能,但銷(xiāo)量非常大。未來(lái)AI眼鏡的發(fā)展路徑,應(yīng)該是“先降成本、再升體驗(yàn)”,未來(lái)AI眼鏡完全有可能降到普通眼鏡的價(jià)格,就像現(xiàn)在買(mǎi)個(gè)太陽(yáng)鏡只要一百塊錢(qián)那樣。
雷峰網(wǎng):那在末端AI這邊,要實(shí)現(xiàn)商業(yè)閉環(huán)會(huì)有哪些比較可行的路徑?
趙占祥:末端最后應(yīng)該也會(huì)跑出極致低功耗的AI芯片公司,或者Arm這樣的IP供應(yīng)商。比如智源匠芯,就是賣(mài)IP授權(quán)的,做SoC、電源管理、傳感器、MCU等芯片的廠(chǎng)商可以買(mǎi)他們的IP集成進(jìn)去,這種IP的伸縮性特別好,能支撐起完整的生態(tài)供應(yīng)鏈。
而且,IP模式之所以能形成閉環(huán),關(guān)鍵在于“量大”。低功耗AI IP成本很低,芯片公司如果自己研發(fā),不僅要花錢(qián)招人,效果還未必好,直接采購(gòu)反而更劃算。就像藍(lán)牙耳機(jī)芯片一年出貨三十億顆,哪怕每顆收一毛錢(qián)授權(quán)費(fèi),也能有三個(gè)億的收入了。
![]()
02
演講全文
精彩演講回顧
以下是趙占祥演講的精彩內(nèi)容,雷峰網(wǎng)作了不改變?cè)獾恼砼c編輯:
前面幾位嘉賓主要分享了國(guó)產(chǎn)GPU的發(fā)展路徑。正如剛才羅總提到的,今年國(guó)產(chǎn)GPU的市場(chǎng)占有率已接近一半。在先進(jìn)制程受限的背景下,單純沿著GPU的既有路線(xiàn)繼續(xù)追趕英偉達(dá),很難在性能上超越英偉達(dá),所以必須依靠新的技術(shù)路徑。
自去年起,國(guó)內(nèi)又涌現(xiàn)了一二十家創(chuàng)新的芯片公司,嘗試通過(guò)新的架構(gòu)設(shè)計(jì)和工藝路線(xiàn),探索大模型時(shí)代AI芯片的發(fā)展方向。今天,我將圍繞這些技術(shù)路線(xiàn)展開(kāi)分享。
首先我們回顧下美國(guó)對(duì)華出口管制的演進(jìn)。
2022至2024年間,相關(guān)限制“變本加厲”,核心集中在先進(jìn)計(jì)算與先進(jìn)制程領(lǐng)域,包括光刻機(jī)、HBM、先進(jìn)封裝,還有混合鍵合和人員流動(dòng)限制等關(guān)鍵環(huán)節(jié)。在這樣的環(huán)境下,中國(guó)要依賴(lài)EUV工藝向2nm等先進(jìn)制程演進(jìn),難度還是很大的。
我也列一下國(guó)內(nèi)在不同方向上的創(chuàng)新技術(shù)路線(xiàn),包括云端的AI芯片、邊緣的AI芯片、端側(cè)的AI芯片、IoT末端的AI芯片和先進(jìn)封裝。中國(guó)真正強(qiáng)的是,我們可以把應(yīng)用做好,有工程師紅利,我們?cè)诟鱾€(gè)領(lǐng)域都有不同的定制化方案和創(chuàng)新的解決路線(xiàn)。
![]()
三大路線(xiàn)破制程限制:TPU、Hybrid Bonding、SRAM
首先,是數(shù)據(jù)中心的AI芯片。
第一條路線(xiàn),是超維無(wú)際的TPU路線(xiàn)。Google最新發(fā)布的Gemini3模型,就是基于TPU進(jìn)行訓(xùn)練。目前,包括OpenAI、Anthropic、xAI在內(nèi)的多家AI巨頭,已向Google下單采購(gòu)TPU。現(xiàn)在Google正式對(duì)外銷(xiāo)售TPU芯片了,已經(jīng)是全球出貨量?jī)H次于英偉達(dá)的AI芯片產(chǎn)品。
TPU的核心特征在于以“超節(jié)點(diǎn)性能”為目標(biāo),而非單卡性能。其優(yōu)勢(shì)包括更大規(guī)模的超節(jié)點(diǎn)架構(gòu)、更高性?xún)r(jià)比,以及相對(duì)友好的軟件生態(tài)。在不依賴(lài)CUDA的前提下,通過(guò)系統(tǒng)級(jí)設(shè)計(jì)獲得整體性能提升,同時(shí)減少對(duì)先進(jìn)制程、HBM以及NV/IBSwitch的依賴(lài),從而顯著降低成本——甚至達(dá)到遠(yuǎn)超英偉達(dá)十倍以上的超高性?xún)r(jià)比。
之后,是算苗科技的3D-TokenPU,這條路線(xiàn)的核心在于Hybrid Bonding(混合鍵合)技術(shù)。進(jìn)入大模型時(shí)代后,對(duì)數(shù)據(jù)存儲(chǔ)的要求是更高的。其實(shí)英偉達(dá)自己流片的成本只占1/4,1/2的成本則花在HBM上。如果我們用Hybrid Bonding的方式,相比HBM的帶寬是更高的,現(xiàn)在HBM的帶寬就是幾個(gè)TB/s,等于是用存力抵消了算力不足的問(wèn)題。
第三,是芯感未來(lái)的大容量SRAM推理芯片。這個(gè)方案以SRAM為核心,相比于GPGPU,具備三項(xiàng)顯著優(yōu)勢(shì):
低時(shí)延,可實(shí)現(xiàn)毫秒級(jí)響應(yīng);低成本,單位性能成本相比傳統(tǒng)GPGPU提高了10倍;低功耗,無(wú)需HBM,也不依賴(lài)先進(jìn)制程,從而顯著降低制造難度和能耗。
接下來(lái),是比特智路的百萬(wàn)卡分布式互聯(lián)方案。在超大規(guī)模集群中,網(wǎng)絡(luò)成為關(guān)鍵瓶頸,傳統(tǒng)無(wú)損網(wǎng)絡(luò)在萬(wàn)卡規(guī)模下可用性下降明顯。比特智路就采用基于以太網(wǎng)、允許丟包的互聯(lián)方案,使系統(tǒng)具備更強(qiáng)的可擴(kuò)展性,有望支持百萬(wàn)卡級(jí)別的分布式集群。
再來(lái)看看邊緣芯片的發(fā)展。
![]()
首先,英偉達(dá)近期發(fā)布Spark AI Station,搭載GB10芯片。未來(lái)家庭場(chǎng)景中,NAS有可能從單純的存儲(chǔ)中心演進(jìn)為計(jì)算中心,就都要配一個(gè)邊緣AI芯片。攝像頭等設(shè)備也會(huì)從被動(dòng)監(jiān)控變成主動(dòng)認(rèn)知,自然就需要大模型的計(jì)算能力,這一變化為國(guó)產(chǎn)方案提供了落地優(yōu)勢(shì)。
Nanotrix公司提出的LPU架構(gòu),采用四層3D DRAM堆疊,內(nèi)存帶寬可達(dá)24TB/s。GB10處理的Token在每秒個(gè)位數(shù),但這個(gè)相比傳統(tǒng)方案,其Token處理能力可以達(dá)到每秒上百個(gè)。
在機(jī)器人等領(lǐng)域,當(dāng)前芯片仍是被英偉達(dá)Orin壟斷的,國(guó)產(chǎn)芯片目前最大的問(wèn)題就是算力沒(méi)有那么高,用得最多的瑞芯微只有幾個(gè)TOPS,智能體的GPU算力可以做得更高。
存算一體+三維架構(gòu),跑通端側(cè)AI芯片的“不可能三角”
而端側(cè)AI芯片,主要是手機(jī)以及各種智能終端。
首先是燁知芯路線(xiàn),他們走的是蘋(píng)果NPU路線(xiàn)。蘋(píng)果的NPU從2017年開(kāi)始做,做到現(xiàn)在8年的時(shí)間了,迭代了很多代,已經(jīng)是很成功的NPU了。
它的優(yōu)勢(shì)在于強(qiáng)通用性,能支持所有AI網(wǎng)絡(luò);其次是高能效比,蘋(píng)果的NPU已經(jīng)不需要比參數(shù)了,它的能耗比相比于傳統(tǒng)的CPU和GPU,有10倍以上的優(yōu)勢(shì),相比其他的AI芯片,面積只有1/2至1/4。
此外,還有高效編譯器以及良好的可擴(kuò)展性。所以蘋(píng)果主要是易用性做得非常好,而不是一味地追求算力的性能和參數(shù)。
之后,是光羽芯辰的端側(cè)AI芯片,這也是燧原參與的一家公司。他們用的是3D DRAM+PIM。3D DRAM是堆疊封裝的技術(shù),而 PIM 在此基礎(chǔ)上引入計(jì)算邏輯,使端側(cè)設(shè)備在更小面積、更低成本和功耗條件下實(shí)現(xiàn)更高算力。
![]()
微納核芯則采用了全球首創(chuàng)的三維存算一體3D-CIM架構(gòu),兼顧了高性能、低功耗與低成本這個(gè)“不可能三角”。在存儲(chǔ)芯片中引入計(jì)算邏輯,相當(dāng)于將NPU核心直接集成至DRAM中。這樣做的優(yōu)勢(shì)在于,手機(jī)系統(tǒng)無(wú)需額外增加AI芯片,內(nèi)存芯片本身即可承擔(dān)計(jì)算功能,與CPU協(xié)同工作,整體芯片數(shù)量不增加,功耗較低,Token生成能力可達(dá)每秒百級(jí)。
還有一種方案,是韌槃科技的 LPDDR-PIM方案,能夠?qū)崿F(xiàn)高帶寬、低功耗。在DDR的DRAM里面,每個(gè)Bank旁邊放了一個(gè)計(jì)算板塊,合起來(lái)之后,帶寬可以做到1-2TB/s,在手機(jī)上可以跑30-70億大模型。
接下來(lái),是末端AI芯片。
末端AI芯片的核心訴求是超低功耗處理能力。
例如,智源匠芯做的是模型、架構(gòu)與電路多層協(xié)同的“深度自適應(yīng)”處理器核,推出兩類(lèi)產(chǎn)品:一類(lèi)為mW(毫瓦)級(jí)功耗,可實(shí)現(xiàn)10–300 GOPS;另一類(lèi)為μW(微瓦)級(jí)功耗,面向?qū)δ芎囊髽O致的應(yīng)用場(chǎng)景,算力可達(dá)幾個(gè)GOPS。例如在關(guān)鍵傳感器等場(chǎng)景中,可直接集成該類(lèi)AI核。
此外,3D DRAM的發(fā)展高度依賴(lài)先進(jìn)封裝。最近我看到一家深圳的公司,他們就是做先進(jìn)封裝設(shè)備核心零部件的,現(xiàn)在整個(gè)產(chǎn)能都拉滿(mǎn)了。芯片公司讓先進(jìn)封裝廠(chǎng)擴(kuò)產(chǎn),先進(jìn)封裝廠(chǎng)讓設(shè)備公司擴(kuò)產(chǎn),設(shè)備公司讓上游模塊廠(chǎng)商、組件廠(chǎng)商擴(kuò)產(chǎn),整個(gè)產(chǎn)業(yè)鏈從前幾年的無(wú)人問(wèn)津、到現(xiàn)在產(chǎn)能拉爆,明年的產(chǎn)能還會(huì)更加緊張。甚至,有些設(shè)備廠(chǎng)商的訂單都已經(jīng)排到了明年下半年,整個(gè)行情都被AI算力帶起來(lái)了。
在先進(jìn)封裝需求推動(dòng)下,又有一些新的機(jī)會(huì)涌現(xiàn)。
比如,電容、電感等器件,傳統(tǒng)電容電感主要部署在PCB板上,占用面積較大;而在先進(jìn)封裝中,這些器件需要內(nèi)嵌至芯片內(nèi)部,只能采用硅電容方案,應(yīng)用于高性能SoC、AI算力芯片及高速光模塊里面,所以硅電容未來(lái)的需求是很巨大的。
以蘋(píng)果電腦為例,單個(gè)主芯片需要的硅電容數(shù)量可達(dá)8–11顆,用量非常大。相關(guān)核心技術(shù),包括半導(dǎo)體MOS工藝、3D納米結(jié)構(gòu)、深溝式技術(shù)及高容積率PICS技術(shù)。以前放在PCB板上,器件壞了之后把它拿下來(lái)?yè)Q一下就可以了,但現(xiàn)在不可能把芯片拆了拿出來(lái)?yè)Q,可靠性要求更高,門(mén)檻相比之前高了很多。
齊力半導(dǎo)體是一家從事先進(jìn)封裝產(chǎn)線(xiàn)的公司,產(chǎn)品涵蓋2.5D與3D封裝,其中3D封裝就是在2.5D的基礎(chǔ)上引入了TSV技術(shù)。
在混合鍵合技術(shù)下,可以實(shí)現(xiàn)數(shù)十至數(shù)百TB級(jí)別的帶寬能力,這也對(duì)檢測(cè)設(shè)備提出了更高要求。過(guò)去檢測(cè)設(shè)備主要服務(wù)于先進(jìn)制程,但當(dāng)前先進(jìn)封裝需求快速增長(zhǎng),對(duì)微凸塊3D檢測(cè)和全流程缺陷檢測(cè)提出了更高要求——這么多顆芯片里,一旦焊接或鍵合存在缺陷,可能導(dǎo)致多顆芯片同時(shí)報(bào)廢,成本極高。隨著堆疊層數(shù)增加,良率下降問(wèn)題更加突出,就只能依賴(lài)高精度檢測(cè)設(shè)備保證質(zhì)量,以此控制成本。
而在3D封裝中,層間焊接之間如果有空隙,就難以通過(guò)電子束、光學(xué)或X射線(xiàn)檢測(cè)發(fā)現(xiàn),往往需要依賴(lài)超聲波檢測(cè)技術(shù)。這項(xiàng)技術(shù)在晶圓鍵合領(lǐng)域的應(yīng)用范圍正在擴(kuò)大,國(guó)內(nèi)的思波微也已經(jīng)推出用于先進(jìn)封裝的超聲檢測(cè)設(shè)備。
![]()
再介紹一下光電合封,它被認(rèn)為是下一代AI算力的基石。與傳統(tǒng)光模塊方案相比,其在功耗、集成度、可靠性和部署效率方面具備明顯優(yōu)勢(shì)。具體來(lái)看,功耗可以降低約3.5倍,集成度提升約63倍,可靠性提升約10倍,部署時(shí)間縮短約1.3倍。國(guó)內(nèi)已經(jīng)有企業(yè)在該方向開(kāi)展產(chǎn)品布局。
最后簡(jiǎn)單介紹IO資本。IO資本是一家長(zhǎng)期專(zhuān)注于硬科技領(lǐng)域的財(cái)務(wù)顧問(wèn)機(jī)構(gòu)。這一頁(yè)展示的是近年來(lái)已完成上市的項(xiàng)目,后續(xù)也有多家企業(yè)正在推進(jìn)上市進(jìn)程。目前,我們所服務(wù)和陪伴的硬科技獨(dú)角獸企業(yè)數(shù)量已超過(guò)30家,這里列舉了一些代表性案例。
![]()





京公網(wǎng)安備 11011402013531號(hào)