半導(dǎo)體產(chǎn)業(yè)縱橫
在ASIC市場,近日聽到的一些言論是相悖的。
全球眾多ASIC項(xiàng)目中,90%會(huì)失敗這句話來自英偉達(dá)CEO黃仁勛。
黃仁勛對(duì)于 ASIC 的評(píng)價(jià)并不算多。因此相關(guān)言論一出,市場上關(guān)于 ASIC 成長性的討論瞬間多了起來,各種猜測層出不窮。
黃仁勛表示,相較于英偉達(dá)主打通用GPU架構(gòu),ASIC專為特定任務(wù)打造,雖在單一用途上效能與效率極高,但缺乏靈活性與擴(kuò)展性。這種單點(diǎn)優(yōu)化策略,難以應(yīng)對(duì)AI應(yīng)用快速演進(jìn)的現(xiàn)實(shí)。黃仁勛評(píng)價(jià)ASIC時(shí)并非否認(rèn)其價(jià)值,而是強(qiáng)調(diào)入場門檻與運(yùn)維難度都很高。他以谷歌TPU為例稱,其團(tuán)隊(duì)是全球最強(qiáng)ASIC團(tuán)隊(duì),但即便如此,谷歌Gemini模型仍同時(shí)部署在英偉達(dá)GPU上。
但市場上另一種聲音同樣有依據(jù)在 ASIC 的迅猛發(fā)展中,英偉達(dá)已嗅到危險(xiǎn)的信號(hào)。
01ASIC,趕超GPU?
在算力芯片市場,ASIC的簇?fù)碚呖刹⒉凰闵佟T贏SIC芯片大廠、云巨頭等助推下,AI算力市場正在迎來新的臨界點(diǎn)。
根據(jù)野村證券的最新報(bào)告,目前英偉達(dá)GPU占 AI 服務(wù)器市場 80% 以上,ASIC 僅占 8%-11%。
然而,從出貨量的角度來看,情況正在發(fā)生變化。到2025 年,谷歌的 TPU 出貨量預(yù)計(jì)將達(dá)到 150-200 萬臺(tái),亞馬遜 AWS Trainium 2 ASIC 約為 140-150 萬臺(tái),而英偉達(dá)的 AI GPU 供應(yīng)量將超過 500-600 萬臺(tái)。
供應(yīng)鏈調(diào)查顯示,Google 和 AWS 的 AI TPU/ASIC 的總出貨量已經(jīng)達(dá)到 Nvidia AI GPU 出貨量的 40%-60%。
隨著meta 于 2026 年開始大規(guī)模部署其自主開發(fā)的 ASIC 解決方案,Microsoft 將于 2027 年開始大規(guī)模部署,預(yù)計(jì)ASIC 總出貨量將在 2026 年的某個(gè)時(shí)候超過英偉達(dá) GPU 出貨量。
這也意味著,屬于ASIC的時(shí)代將正式到來。
OpenAI宣布測試谷歌TPU的消息也進(jìn)一步點(diǎn)燃市場熱情。據(jù)悉,人工智能(AI)技術(shù)大廠OpenAI 已開始租用谷歌的AI芯片,以支持旗下ChatGPT 和其他產(chǎn)品的計(jì)算需求。對(duì)此OpenAI回應(yīng)稱,目前沒有使用谷歌自研芯片來驅(qū)動(dòng)產(chǎn)品的計(jì)劃。
不過,OpenAI 發(fā)言人指出,雖然公司的AI 實(shí)驗(yàn)室確實(shí)正在初步測試部分谷歌的TPU,但目前尚無計(jì)劃大規(guī)模采用。
目前,OpenAI 主要依賴英偉達(dá)的GPU以及AMD 的AI 芯片來滿足其日益成長的AI計(jì)算需求。為了降低對(duì)于英偉達(dá)、AMD的依賴,OpenAI 也正在開發(fā)自家芯片,計(jì)劃今年達(dá)成tape-out里程碑,即芯片設(shè)計(jì)完成并送交制造。
上一位采用谷歌TPU而引起轟動(dòng)的是蘋果。去年7月,蘋果在官網(wǎng)的一篇論文中披露,其訓(xùn)練模型采用了谷歌研發(fā)的第四代AI ASIC芯片TPUv4和更新一代的芯片TPUv5。
在去年之前,與英偉達(dá)GPU相比,谷歌的 TPU還像是一位名不見經(jīng)傳的小將,如今看來,似乎已有實(shí)力與英偉達(dá)GPU展開一番較量。
但是在筆者看來,ASIC芯片是否在未來有望碾壓GPU?這更像一個(gè)偽命題。
02ASIC,核心優(yōu)勢
市場普遍認(rèn)為,ASIC 芯片正成為 AI 芯片的重要分支。但是ASIC究竟以何種優(yōu)勢給GPU帶來沖擊?以及具體帶來哪些沖擊,相關(guān)討論卻較少。
針對(duì)一系列問題,筆者將對(duì)此展開討論。
根據(jù)承擔(dān)任務(wù)的不同,AI芯片主要可以分為兩類,它們分別是AI訓(xùn)練芯片和AI推理芯片。
2025年,全球AI推理算力需求呈現(xiàn)爆發(fā)式增長,特別是在端側(cè)應(yīng)用場景中。這對(duì)于ASIC來說,也是一個(gè)契機(jī)。
首先說一下什么是推理。
推理是用已訓(xùn)練好的模型處理數(shù)據(jù) 的過程(比如用訓(xùn)練好的圖像識(shí)別模型識(shí)別照片、用語音模型轉(zhuǎn)寫語音)。一旦模型部署,其算法邏輯(如 CNN 的卷積層、Transformer 的注意力機(jī)制)、計(jì)算流程(輸入輸出格式、精度需求)會(huì)長期固定,幾乎不需要調(diào)整。
這種固定性 正好匹配 ASIC 的核心優(yōu)勢 為單一任務(wù)定制硬件架構(gòu):可以直接將推理算法的計(jì)算邏輯、數(shù)據(jù)路徑固化 到芯片中,去掉所有無關(guān)的通用計(jì)算單元(如 GPU 中用于訓(xùn)練的動(dòng)態(tài)調(diào)度模塊、通用內(nèi)存控制器),讓硬件資源 100% 服務(wù)于推理計(jì)算。
同理,ASIC在訓(xùn)練任務(wù)中的能力就相對(duì)弱一點(diǎn)。因?yàn)橛?xùn)練任務(wù)算法迭代快,需求靈活。ASIC 若用于訓(xùn)練,算法更新時(shí),芯片面臨失效風(fēng)險(xiǎn),性價(jià)比要低得多。
推理場景對(duì)能效比(每瓦功耗能提供的算力)和 成本 的敏感度遠(yuǎn)高于訓(xùn)練,而 ASIC 在這兩方面具有碾壓性優(yōu)勢。
能效比方面,谷歌TPU v5e TPU的能效比是英偉達(dá)H100 的 3 倍。
成本方面,AWS的Trainium 2 在推理任務(wù)中性價(jià)比比 H100 高 30%-40%,谷歌的TPUv5、亞馬遜的 Trainium2 單位算力成本僅為英偉達(dá) H100 的 70% 和 60%。
一個(gè)大模型可能只需要幾十到幾百張訓(xùn)練芯片(如 GPU),但推理階段可能需要數(shù)萬甚至數(shù)十萬張芯片(比如 ChatGPT 的推理集群規(guī)模是訓(xùn)練集群的 10 倍以上)。因此ASIC 的 定制化 設(shè)計(jì)可以降低單芯片成本。
VerifiedMarketResearch數(shù)據(jù)顯示,2023年AI推理芯片市場規(guī)模為158億美元,預(yù)計(jì)到2030年將達(dá)到906億美元,在2024-2030年預(yù)測期內(nèi)的復(fù)合年增長率為22.6%。
當(dāng)前的推理場景正呈現(xiàn)ASIC 與 GPU 共存競爭的格局,ASIC芯片市場空間巨大。
近日,博通CEO Hock Tan與CFO Kirsten Spears也在會(huì)議中強(qiáng)調(diào),該公司AI推理領(lǐng)域的訂單顯著增加,該公司目前正與四個(gè)潛在的AI XPU客戶緊密合作,計(jì)劃在今年為摩根大通認(rèn)為的Arm/軟銀和OpenAI等主要客戶完成第一代AI XPU產(chǎn)品的流片。
再看訓(xùn)練市場的競爭態(tài)勢。AI訓(xùn)練芯片市場,幾乎沒有幾家競爭者,英偉達(dá)一家就占據(jù)了 AI 訓(xùn)練市場 90% 以上份額,其 Blackwell 架構(gòu)支持 1.8 萬億參數(shù)模型訓(xùn)練,且 NVlink 6 技術(shù)實(shí)現(xiàn) 72 卡集群無縫互聯(lián)。
上文提到,訓(xùn)練任務(wù)的靈活性 與 GPU 架構(gòu)天然契合,此外,英偉達(dá)通過CUDA 平臺(tái)構(gòu)建了難以撼動(dòng)的軟件生態(tài):90% 以上的 AI 框架(TensorFlow、PyTorch)原生支持 CUDA,開發(fā)者無需重寫代碼即可調(diào)用 GPU 算力。這種生態(tài)慣性使得即使 AMD、華為等廠商推出性能接近的訓(xùn)練芯片,用戶遷移成本依然極高。
有業(yè)內(nèi)人士向半導(dǎo)體產(chǎn)業(yè)縱橫表示,模型架構(gòu)的穩(wěn)定性是 ASIC 發(fā)揮價(jià)值的核心前提模型穩(wěn)定時(shí),ASIC 的低成本、高效能優(yōu)勢能充分釋放;模型快速迭代甚至出現(xiàn)革命性變革時(shí),ASIC 容易因適配滯后而失效。
這也是為什么業(yè)內(nèi)一些專家將ASIC市場規(guī)模爆發(fā)的節(jié)點(diǎn)指向2026年。ASIC 的設(shè)計(jì)周期長達(dá) 1-2 年,而 AI 模型迭代速度極快(如大模型從 GPT-3 到 GPT-4 僅用 1 年)。若 ASIC 設(shè)計(jì)時(shí)錨定的模型過時(shí)(如 Transformer 替代 CNN),芯片可能直接失效。
而如今隨著大模型的發(fā)展,算法初步固化。再加上ASIC成本的持續(xù)下探,它也便有了更好展示自己的舞臺(tái)。
至于ASIC是否會(huì)替代GPU?在筆者看來這個(gè)問題為時(shí)尚早。
短時(shí)間內(nèi)看,ASIC 和 GPU 的競爭,本質(zhì)是 效率 與 靈活性 的權(quán)衡,二者暫時(shí)并非互相替代關(guān)系。ASIC 在特定場景的優(yōu)勢,無法打破 GPU 的生態(tài)壁壘;而 GPU 的通用性,讓它在復(fù)雜任務(wù)中難以被替代。未來,兩者會(huì)借助混合架構(gòu)(如 GPU + ASIC 加速卡)和異構(gòu)計(jì)算(如 CUDA 與定制指令集協(xié)同),實(shí)現(xiàn)資源最優(yōu)配置。
未來隨著 AI 市場的發(fā)展,究竟需要何種芯片,尚難定論。
03芯片龍頭,紛紛切入ASIC
除了谷歌,國內(nèi)外均有多家AI芯片公司選擇擁抱ASIC。
meta
meta的核心算力負(fù)載來源于推薦系統(tǒng)場景,具備自研強(qiáng)調(diào)專用性的ASIC芯片的土壤。
meta于2023年和2024年分別推出MTIA V1和MTIA V2芯片。此外,meta還計(jì)劃2026年推出MTIA V3芯片,預(yù)計(jì)將搭載高端HBM,與V1/V2芯片專注于廣告與社交網(wǎng)絡(luò)等特定任務(wù)不同,有望擴(kuò)展應(yīng)用至模型的訓(xùn)練與推理任務(wù)。
亞馬遜AWS
AWS在AI芯片的布局主要包含推理芯片Inferentia和訓(xùn)練芯片Trainium兩大系列。
自2020年以來,亞馬遜發(fā)布了三代Trainium芯片。其中Trainium3性能或較上一代提升2倍,能效提升40%,搭載該芯片的UltraServers性能預(yù)計(jì)提升4倍。
微軟
2023年11月,微軟在Ignite技術(shù)大會(huì)上發(fā)布了首款自家研發(fā)的AI芯片Azure Maia 100,以及應(yīng)用于云端軟件服務(wù)的芯片Azure Cobalt。兩款芯片將由臺(tái)積電代工,采用5nm制程技術(shù)。
Cobalt是基于Arm架構(gòu)的通用型芯片,具有128個(gè)核心,Maia 100是一款專為 Azure 云服務(wù)和 AI 工作負(fù)載設(shè)計(jì)的 ASIC 芯片,用于云端訓(xùn)練和推理的,晶體管數(shù)量達(dá)到1050億個(gè)。這兩款芯片將導(dǎo)入微軟Azure數(shù)據(jù)中心,支持OpenAI、Copilot等服務(wù)。
下一代Maia v2的設(shè)計(jì)已確定,后端設(shè)計(jì)及量產(chǎn)交付由GUC負(fù)責(zé)。除深化與GUC的合作外,微軟還引入美滿電子共同參與Maiav2進(jìn)階版的設(shè)計(jì)開發(fā),以強(qiáng)化自研芯片的技術(shù)布局,有效分散開發(fā)過程中的技術(shù)與供應(yīng)鏈風(fēng)險(xiǎn)。
在國內(nèi)ASIC芯片方面,華為和寒武紀(jì)表現(xiàn)突出。
華為海思旗下昇騰系列處理器自誕生以來,憑借其強(qiáng)勁的算力和創(chuàng)新的設(shè)計(jì),特別是昇騰910B,在技術(shù)和應(yīng)用上都取得了顯著突破。
寒武紀(jì)作為國內(nèi)AI芯片設(shè)計(jì)領(lǐng)域的佼佼者,在推理計(jì)算及邊緣設(shè)備AI加速方面市場競爭力日益凸顯。寒武紀(jì)的旗艦產(chǎn)品MLU590專注于AI訓(xùn)練與推理。
在全球 AI 芯片競爭中,國產(chǎn) ASIC 芯片既面臨挑戰(zhàn),也迎來歷史性機(jī)遇。通過持續(xù)創(chuàng)新和技術(shù)突破,國產(chǎn) ASIC 正逐步擴(kuò)大市場份額。
04ASIC芯片,兩大受益者
在ASIC市場,目前博通以55%~60%的份額位居第一,Marvell以13%~15%的份額位列第二。
博通在AI芯片領(lǐng)域的核心優(yōu)勢在于定制化ASIC芯片和高速數(shù)據(jù)交換芯片,其解決方案廣泛應(yīng)用于數(shù)據(jù)中心、云計(jì)算、HPC(高性能計(jì)算)和5G基礎(chǔ)設(shè)施等領(lǐng)域。博通的ASIC芯片業(yè)務(wù)已成為其核心增長點(diǎn)。財(cái)報(bào)披露,定制AI芯片(ASIC)銷售額預(yù)計(jì)占第二季度總AI半導(dǎo)體收入的70%,達(dá)308億美元(約合450億美元)。
目前,博通已與三家超大規(guī)模云服務(wù)提供商(如谷歌、meta、字節(jié)跳動(dòng))合作,并新增OpenAI、蘋果等客戶,未來計(jì)劃擴(kuò)展至七家大型科技企業(yè)。其中博通有兩個(gè)大合作備受關(guān)注:第一是meta與博通已合作開發(fā)了前兩代AI訓(xùn)練加速處理器,目前雙方正加速推進(jìn)第三代MTIA芯片的研發(fā),預(yù)計(jì)2024年下半年至2025年將取得重要進(jìn)展。
Marvell的定制ASIC業(yè)務(wù)正成為其強(qiáng)勁增長的核心動(dòng)力之一。Marvell的具體業(yè)務(wù)中,數(shù)據(jù)中心業(yè)務(wù)占據(jù)75%左右,屬于高成長業(yè)務(wù)。這部分業(yè)務(wù)包括SSD 控制器、高端以太網(wǎng)交換機(jī)(Innovium)及定制 ASIC 業(yè)務(wù)(亞馬遜 AWS 等定制化芯片),主要應(yīng)用于云服務(wù)器、邊緣計(jì)算等場景。
根據(jù)公司交流及產(chǎn)業(yè)鏈信息推測,Marvell 當(dāng)前的 ASIC 收入主要來自亞馬遜的 Trainium 2 和谷歌的 Axion Arm CPU 處理器,而公司與亞馬遜合作的Inferential ASIC 項(xiàng)目也將在 2025 年(即 2026 財(cái)年)開始量產(chǎn)。公司與微軟合作的 Microsoft Maia 項(xiàng)目,有望在 2026 年(即 2027 財(cái)年)。





京公網(wǎng)安備 11011402013531號(hào)