2025年12月12-13日,第八屆GAIR全球人工智能與機器人大會在深圳·博林天瑞喜來登酒店正式啟幕。
作為AI產學研投界的標桿盛會,GAIR自2016年創辦以來,始終堅守“傳承+創新”內核,始終致力于連接技術前沿與產業實踐。
在人工智能逐步成為國家競爭核心變量的當下,算力正以前所未有的速度重塑技術路徑與產業結構。13日舉辦的“AI算力新十年”專場聚焦智能體系的底層核心——算力,從架構演進、生態構建到產業化落地展開系統討論,試圖為未來十年的中國AI產業,厘清關鍵變量與發展方向。
IO資本創始合伙人趙占祥,專注于硬科技與半導體領域的早期及成長期投資,在大會上,他發表了題為《大模型時代,國產AI芯片破局的幾種新技術路線》 的演講。
![]()
長期關注半導體與硬科技的他,近幾年密切觀察著國產AI芯片在現實約束下的演進路徑。“今年國產GPU的市場占有率已接近一半,在先進制程受限的背景下,單純沿著GPU的既有路線繼續追趕英偉達,必須依靠新的技術路徑”,他開宗明義。
從這一判斷出發,趙占祥系統梳理了過去一年國內涌現出的多條探索路線,覆蓋云端、邊緣、端側、IoT末端以及先進封裝等多個層面。
云端方向,趙占祥重點提到TPU、Hybrid Bonding(混合鍵合)、大容量SRAM推理芯片以及大規模分布式互聯等方案。這些路線的共同點,是繞開對HBM和先進工藝的高度依賴,通過系統設計獲得整體性能提升。“英偉達自己流片的成本只占四分之一,一半的成本在HBM上”,他說,“如果帶寬能上去,本質上就是用存力去抵消算力不足。”
在他看來,許多值得關注的變化,也正發生在端側和末端。除了在演講中梳理多條新興端側芯片路線外,趙占祥在演講結束后也與雷峰網展開對談,進一步解釋了他為何在格外看重端側市場,以及這些方向如何在現實約束下跑通商業閉環。(作者長期關注半導體、算力上下游等方向,歡迎添加微信 Ericazhao23 交流。)
對話:端側芯片市場大,工程師紅利是商業閉環關鍵
雷峰網:您在演講中分享了很多端側AI的案例,為什么今年著重看端側芯片市場?
趙占祥:接下來AI技術要真正落地,就要靠端側。這個市場未來規模肯定也是海量,全球PC與平板的出貨量大約四億臺、手機十幾億臺,這些都是端側芯片巨大需求的基礎。
更重要的是,AI硬件未來的機會是中國的。
軟件生態的客戶群體集中在國內,這給中國芯片廠商創造了天然優勢。就像藍牙耳機領域——中國占據全球90%的市場份額,核心芯片也幾乎都是中國廠商供應。這種生態邏輯和Arm很相似,可以說,如果沒有中國廠商,就沒有今天Arm的產業影響力。
雷峰網:但有一種說法認為,部分端側芯片的出貨量有限、成本利潤又比較低,難以覆蓋生產成本。那么,端側芯片想實現商業閉環,重點會在什么地方?
趙占祥:可以看看瑞芯微的例子,他們現在利潤表現很好,核心就是過去十年里,把服務做到了極致。比如,他們能做到無原廠接入的情況下直接替換,所以大家在深圳想做AI硬件,會優先想到瑞芯微。他們各種解決方案都有,這種重服務的模式就是中國工程師紅利的體現。
美國廠商就做不到這一點,他們更擅長把開發平臺打磨到極致,但服務能力弱;中國廠商或許在性能上稍遜色,但能通過深度適配滿足不同產品需求,這種落地能力在AI商業化階段,反而成了核心優勢,可以通過“堆人”做好服務。
雷峰網:目前來說,端側芯片的發展主要面臨什么瓶頸?
趙占祥:首先是功耗,當前的AI手機芯片是跑不了大模型的,算力不夠、存儲容量不夠,大模型對內存的消耗還是太大了,這也是為什么現在有公司在推PIM+3D DRAM的方案,就是通過存內計算,讓內存直接承擔計算任務、再用3D堆疊封裝提升存儲容量,也能降低整體功耗。
不過,除了技術還有生態的能力。對新入局的NPU創業公司來說,手機生態的壁壘太高了:華為有自己的芯片生態,小米、OPPO高端機主要用高通芯片,vivo X系列高端機用聯發科,這些新NPU公司怎么和主芯片廠商建立合作,是很重要的。
雷峰網:預計明年在端側這邊,會有哪些應用能率先規模化落地嗎?
趙占祥:現在末端AI的形態,主要是指環、眼鏡等可穿戴設備,還有各類傳感器和智能家居、AI硬件。不過,接下來爆發力最強的多模態AI硬件應該就是AI眼鏡了,明年大概率會迎來銷量暴漲,保守估計能賣幾千萬部,核心驅動力就是成本下降。
目前已有中國廠商在日本賣的一款智能眼鏡,售價才幾十塊錢,雖然只是加上個耳機功能,但銷量非常大。未來AI眼鏡的發展路徑,應該是“先降成本、再升體驗”,未來AI眼鏡完全有可能降到普通眼鏡的價格,就像現在買個太陽鏡只要一百塊錢那樣。
雷峰網:那在末端AI這邊,要實現商業閉環會有哪些比較可行的路徑?
趙占祥:末端最后應該也會跑出極致低功耗的AI芯片公司,或者Arm這樣的IP供應商。比如有公司就是賣IP授權的,做SoC、電源管理、傳感器、MCU等芯片的廠商可以買他們的IP集成進去,這種IP的伸縮性特別好,能支撐起完整的生態供應鏈。
而且,IP模式之所以能形成閉環,關鍵在于“量大”。低功耗AI IP成本很低,芯片公司如果自己研發,不僅要花錢招人,效果還未必好,直接采購反而更劃算。就像藍牙耳機芯片一年出貨三十億顆,哪怕每顆收一毛錢授權費,也能有三個億的收入了。
演講全文
以下是趙占祥演講的精彩內容,雷峰網作了不改變原意的整理與編輯:
前面幾位嘉賓主要分享了國產GPU的發展路徑。正如剛才羅總提到的,今年國產GPU的市場占有率已接近一半。在先進制程受限的背景下,單純沿著GPU的既有路線繼續追趕英偉達,很難在性能上超越英偉達,所以必須依靠新的技術路徑。
自去年起,國內又涌現了一二十家創新的芯片公司,嘗試通過新的架構設計和工藝路線,探索大模型時代AI芯片的發展方向。今天,我將圍繞這些技術路線展開分享。
首先我們回顧下美國對華出口管制的演進。
2022至2024年間,相關限制“變本加厲”,核心集中在先進計算與先進制程領域,包括光刻機、HBM、先進封裝,還有混合鍵合和人員流動限制等關鍵環節。在這樣的環境下,中國要依賴EUV工藝向2nm等先進制程演進,難度還是很大的。
我也列一下國內在不同方向上的創新技術路線,包括云端的AI芯片、邊緣的AI芯片、端側的AI芯片、IoT末端的AI芯片和先進封裝。中國真正強的是,我們可以把應用做好,有工程師紅利,我們在各個領域都有不同的定制化方案和創新的解決路線。
三大路線破制程限制:TPU、Hybrid Bonding、SRAM
首先,是數據中心的AI芯片。
第一條路線,是TPU路線。Google最新發布的Gemini3模型,就是基于TPU進行訓練。目前,包括OpenAI、Anthropic、xAI在內的多家AI巨頭,已向Google下單采購TPU。現在Google正式對外銷售TPU芯片了,已經是全球出貨量僅次于英偉達的AI芯片產品。
TPU的核心特征在于以“超節點性能”為目標,而非單卡性能。其優勢包括更大規模的超節點架構、更高性價比,以及相對友好的軟件生態。在不依賴CUDA的前提下,通過系統級設計獲得整體性能提升,同時減少對先進制程、HBM以及NV/IBSwitch的依賴,從而顯著降低成本——甚至達到遠超英偉達十倍以上的超高性價比。
之后,是3D-TokenPU,這條路線的核心在于Hybrid Bonding(混合鍵合)技術。進入大模型時代后,對數據存儲的要求是更高的。其實英偉達自己流片的成本只占1/4,1/2的成本則花在HBM上。如果我們用Hybrid Bonding的方式,相比HBM的帶寬是更高的,現在HBM的帶寬就是幾個TB/s,等于是用存力抵消了算力不足的問題。
第三,是大容量SRAM推理芯片。這個方案以SRAM為核心,相比于GPGPU,具備三項顯著優勢:
低時延,可實現毫秒級響應;低成本,單位性能成本相比傳統GPGPU提高了10倍;低功耗,無需HBM,也不依賴先進制程,從而顯著降低制造難度和能耗。
接下來,是百萬卡分布式互聯方案。在超大規模集群中,網絡成為關鍵瓶頸,傳統無損網絡在萬卡規模下可用性下降明顯。有公司就采用基于以太網、允許丟包的互聯方案,使系統具備更強的可擴展性,有望支持百萬卡級別的分布式集群。
再來看看邊緣芯片的發展。
![]()
首先,英偉達近期發布Spark AI Station,搭載GB10芯片。未來家庭場景中,NAS有可能從單純的存儲中心演進為計算中心,就都要配一個邊緣AI芯片。攝像頭等設備也會從被動監控變成主動認知,自然就需要大模型的計算能力,這一變化為國產方案提供了落地優勢。
有公司提出的LPU架構,采用四層3D DRAM堆疊,內存帶寬可達24TB/s。GB10處理的Token在每秒個位數,但這個相比傳統方案,其Token處理能力可以達到每秒上百個。
在機器人等領域,當前芯片仍是被英偉達Orin壟斷的,國產芯片目前最大的問題就是算力沒有那么高,用得最多的瑞芯微只有幾個TOPS,智能體的GPU算力可以做得更高。
存算一體+三維架構,跑通端側AI芯片的“不可能三角”
而端側AI芯片,主要是手機以及各種智能終端。
首先,一種是蘋果NPU路線。蘋果的NPU從2017年開始做,做到現在8年的時間了,迭代了很多代,已經是很成功的NPU了。
它的優勢在于強通用性,能支持所有AI網絡;其次是高能效比,蘋果的NPU已經不需要比參數了,它的能耗比相比于傳統的CPU和GPU,有10倍以上的優勢,相比其他的AI芯片,面積只有1/2至1/4。
此外,還有高效編譯器以及良好的可擴展性。所以蘋果主要是易用性做得非常好,而不是一味地追求算力的性能和參數。
之后,是3D DRAM+PIM的端側方案。3D DRAM是堆疊封裝的技術,而 PIM 在此基礎上引入計算邏輯,使端側設備在更小面積、更低成本和功耗條件下實現更高算力。
微納核芯則采用了全球首創的三維存算一體3D-CIM架構,兼顧了高性能、低功耗與低成本這個“不可能三角”。在存儲芯片中引入計算邏輯,相當于將NPU核心直接集成至DRAM中。這樣做的優勢在于,手機系統無需額外增加AI芯片,內存芯片本身即可承擔計算功能,與CPU協同工作,整體芯片數量不增加,功耗較低,Token生成能力可達每秒百級。
接下來,是末端AI芯片。末端AI芯片的核心訴求是超低功耗處理能力。
此外,3D DRAM的發展高度依賴先進封裝。最近我看到一家深圳的公司,他們就是做先進封裝設備核心零部件的,現在整個產能都拉滿了。芯片公司讓先進封裝廠擴產,先進封裝廠讓設備公司擴產,設備公司讓上游模塊廠商、組件廠商擴產,整個產業鏈從前幾年的無人問津、到現在產能拉爆,明年的產能還會更加緊張。甚至,有些設備廠商的訂單都已經排到了明年下半年,整個行情都被AI算力帶起來了。
在先進封裝需求推動下,又有一些新的機會涌現。
比如,電容、電感等器件,傳統電容電感主要部署在PCB板上,占用面積較大;而在先進封裝中,這些器件需要內嵌至芯片內部,只能采用硅電容方案,應用于高性能SoC、AI算力芯片及高速光模塊里面,所以硅電容未來的需求是很巨大的。
以蘋果電腦為例,單個主芯片需要的硅電容數量可達8–11顆,用量非常大。相關核心技術,包括半導體MOS工藝、3D納米結構、深溝式技術及高容積率PICS技術。以前放在PCB板上,器件壞了之后把它拿下來換一下就可以了,但現在不可能把芯片拆了拿出來換,可靠性要求更高,門檻相比之前高了很多。
齊力半導體是一家從事先進封裝產線的公司,產品涵蓋2.5D與3D封裝,其中3D封裝就是在2.5D的基礎上引入了TSV技術。
在混合鍵合技術下,可以實現數十至數百TB級別的帶寬能力,這也對檢測設備提出了更高要求。過去檢測設備主要服務于先進制程,但當前先進封裝需求快速增長,對微凸塊3D檢測和全流程缺陷檢測提出了更高要求——這么多顆芯片里,一旦焊接或鍵合存在缺陷,可能導致多顆芯片同時報廢,成本極高。隨著堆疊層數增加,良率下降問題更加突出,就只能依賴高精度檢測設備保證質量,以此控制成本。
而在3D封裝中,層間焊接之間如果有空隙,就難以通過電子束、光學或X射線檢測發現,往往需要依賴超聲波檢測技術。這項技術在晶圓鍵合領域的應用范圍正在擴大,國內的思波微也已經推出用于先進封裝的超聲檢測設備。
![]()
再介紹一下光電合封,它被認為是下一代AI算力的基石。與傳統光模塊方案相比,其在功耗、集成度、可靠性和部署效率方面具備明顯優勢。具體來看,功耗可以降低約3.5倍,集成度提升約63倍,可靠性提升約10倍,部署時間縮短約1.3倍。國內已經有企業在該方向開展產品布局。
最后簡單介紹IO資本。IO資本是一家長期專注于硬科技領域的財務顧問機構。這一頁展示的是近年來已完成上市的項目,后續也有多家企業正在推進上市進程。目前,我們所服務和陪伴的硬科技獨角獸企業數量已超過30家。





京公網安備 11011402013531號