![]()
劉勁 段磊 李嘉欣/文
算力是人工智能最重要的基礎(chǔ)設(shè)施和發(fā)展引擎。AI算力的代表企業(yè)英偉達(NVIDIA)憑借性能先進的產(chǎn)品和難以復制的生態(tài),在AI訓練及推理芯片領(lǐng)域建立起了近乎壟斷的領(lǐng)導地位,成為地球上價值最高的上市公司。截至2025年11月,英偉達的市值約為4.5萬億美元,2025年第三季度營收的同比增長約為62%。
英偉達并不缺少挑戰(zhàn)者,在美國有傳統(tǒng)芯片巨頭安謀(AMD)和英特爾,也有谷歌的TPU、亞馬遜的Trainium(訓練芯片)和Inferentia(推理芯片)等科技巨頭的自研算力,還有Cerebras、Groq等專注機器學習優(yōu)化架構(gòu)的新銳挑戰(zhàn)者;中國市場也有華為、寒武紀、燧原等快速成長的AI算力芯片廠商。但到目前為止,他們都很難稱得上是英偉達的對手,難以撼動其領(lǐng)導地位。不過,未來這一點未必不會改變。
競爭壁壘
AI算力芯片有兩個主要應(yīng)用場景:訓練和推理。訓練是模型從大量數(shù)據(jù)中“學習”知識(調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)),推理是把訓練好的模型用在實際場景中。
在大模型發(fā)展的初期和中期,訓練算力是核心瓶頸,決定了模型的“高度”,是算力芯片的戰(zhàn)略制高點。因此,我們在此著重討論訓練。
英偉達在訓練算力上有統(tǒng)治性的地位。這種優(yōu)勢來自兩個方面:先進的技術(shù)和生態(tài)的壟斷。
主流大模型的參數(shù)規(guī)模已達千億、萬億級別,訓練時要對海量數(shù)據(jù)進行大規(guī)模計算,單機算力早已遠遠不夠,必須依托大規(guī)模芯片集群完成訓練;要令這復雜而成本高昂的訓練易于展開、效率高、穩(wěn)定可靠,還需要一整套的軟件系統(tǒng)和工具來作為連接訓練工程師、算力芯片和模型的橋梁。
因此,我們大致可以將訓練對算力芯片的要求拆解成單芯片性能(單卡性能)、互聯(lián)能力和軟件生態(tài)三部分。
單芯片性能原本主要指計算能力(FLOPS,每秒浮點運算次數(shù))。訓練大模型需要加載海量參數(shù)、進行大量的數(shù)據(jù)快速吞吐,所以還需要為訓練芯片配置大容量高帶寬的存儲(HBM)。
因為工藝的差異,廠商通常會把顯存和算力芯片做成獨立的芯片,然后封裝在一起或在電路板上進行集成,所以叫單卡性能更準確。用戶們會關(guān)注單卡的計算能力、顯存容量與帶寬、計算精度、功率與能效等。
英偉達在單卡性能上處于行業(yè)頂尖水平,但競爭對手也在追趕,尤其是AMD的最新產(chǎn)品在主要性能指標上已經(jīng)達到接近英偉達同期產(chǎn)品的水平。不過,對于AMD等企業(yè)的壞消息是:單卡的性能迫近英偉達,并不足以撼動其在AI訓練領(lǐng)域的領(lǐng)先優(yōu)勢。
互聯(lián)能力對大模型訓練非常重要。大模型訓練本質(zhì)上是“分布式并行計算”問題,互聯(lián)就是分布式的“血管與神經(jīng)”。前沿大模型的訓練已經(jīng)要求數(shù)萬張算力卡的互聯(lián)并行工作,這對大模型廠商是極具挑戰(zhàn)的工程,對算力芯片廠商的要求也極高。
英偉達憑借專有互聯(lián)技術(shù)NVlink、高性能的通信交換硬件NVSwitch等做到了萬卡級的高效、穩(wěn)定互聯(lián)。其他AI芯片企業(yè)實際落地的集群規(guī)模大部分仍停留在千卡規(guī)模,且很多是采用切割成多個小規(guī)模集群的方式進行部署,與英偉達的純?nèi)f卡并行計算集群差距很大。
互聯(lián)的規(guī)模、質(zhì)量、穩(wěn)定性對算力利用效率、訓練時間、訓練成本甚至訓練成功與否都有顯著影響,選擇次優(yōu)方案帶來的潛在損失,可能遠大于成本的節(jié)省,這令英偉達方案有極大的吸引力。這導致即便其他廠商的互聯(lián)技術(shù)能有提升,其缺乏大規(guī)模的落地商用實踐去發(fā)現(xiàn)問題和優(yōu)化方案,無疑加大了他們在互聯(lián)能力上挑戰(zhàn)英偉達的難度。
除了技術(shù)上的優(yōu)勢之外,英偉達更重要的優(yōu)勢在于對算力生態(tài)的統(tǒng)治地位。這個生態(tài)優(yōu)勢來自軟件,而不是硬件。和硬件不同,軟件有很強的網(wǎng)絡(luò)效應(yīng),因此能對用戶產(chǎn)生巨大的黏性。
CUDA是英偉達有20年積累的GPU并行計算的編程平臺,這個平臺上提供了成熟的開發(fā)和調(diào)試工具、豐富且經(jīng)過充分驗證的軟件庫和函數(shù)庫、海量的文檔和教程支持,讓開發(fā)者的工作變得更簡單、高效。400多萬開發(fā)者通過貢獻開源庫和工具、反饋bug(漏洞)和提供最佳實踐,又令CUDA的軟件生態(tài)變得更好。
英偉達的其他軟件和工具又能和CUDA生態(tài)配合,對用戶形成更強粘性,如英偉達提供的大模型開發(fā)框架NeMoframework、幫助企業(yè)快速部署AI的NVIDIAAIEnterprise等。
除了開發(fā)者,學術(shù)界研究員發(fā)表的最新AI論文(如Transformer架構(gòu)的變體),其開源代碼通常只在英偉達GPU上驗證過。如果用其他芯片,研究者可能需要自己去寫底層適配代碼,才能跑通新模型。這意味著使用英偉達,研究者能最早用上最先進的技術(shù)。
更進一步,全球的高校計算機專業(yè)、AI實驗室,教學和實驗用的設(shè)備幾乎全是英偉達的GPU。一個剛畢業(yè)的AI工程師,大概率已經(jīng)熟練掌握了CUDA編程。如果一家公司決定使用非英偉達芯片,他們可能需要花費巨大的成本來培訓員工學習新的開發(fā)環(huán)境。
這種生態(tài)優(yōu)勢有很強的延展性,會吸引眾多玩家的深度參與。比如,Py-Torch和TensorFlow是最流行的深度學習框架,分別由meta和Google主導,但卻和英偉達的CUDA有深度的生態(tài)協(xié)同。某種程度上,它們是生長在CUDA這個生態(tài)系統(tǒng)上的,將CUDA的生態(tài)組件像積木一樣構(gòu)建在自己的底層中。它們憑借CUDA的并行計算能力觸達百萬開發(fā)者,又反過來作為生態(tài)的一部分鞏固了CUDA和英偉達的競爭優(yōu)勢。
生態(tài)優(yōu)勢實際上是一種網(wǎng)絡(luò)效應(yīng)。在自然市場中,弱網(wǎng)絡(luò)很難和強勢網(wǎng)絡(luò)競爭,因為隨著網(wǎng)絡(luò)規(guī)模增長,網(wǎng)絡(luò)價值/競爭力呈現(xiàn)超線性的增長(梅特卡夫定律描述為網(wǎng)絡(luò)的價值和用戶數(shù)的平方成正比)。英偉達一旦在這種強網(wǎng)絡(luò)效應(yīng)的競爭中勝出,就有了非常深的護城河。
相對弱勢領(lǐng)域
一個萬卡訓練的超大模型,在部署做推理的時候是不需要這么多卡的,通常僅需要幾張到幾十張卡互聯(lián)。因為訓練時要計算前向傳播、反向傳播、梯度計算、參數(shù)更新的任務(wù),推理時只需要計算前向傳播;顯存的存儲任務(wù)也大幅減少。
這意味著人們對推理芯片的互聯(lián)能力要求大幅降低,甚至在一些應(yīng)用場景下,人們還會把模型蒸餾、量化,使其更小以便可以通過單卡完成部署,智能駕駛芯片就是典型例子。
相較于訓練場景,推理場景下英偉達的生態(tài)優(yōu)勢就沒有那么顯著了。模型訓練完成時就已經(jīng)是一個算法框架確定的成品了,對英偉達豐富的開發(fā)生態(tài)依賴度降低。
此外,行業(yè)已經(jīng)發(fā)展出成熟的跨平臺遷移辦法,可以把英偉達芯片訓練好的模型轉(zhuǎn)換成ONNX等中間格式,再編譯部署到其他的算力平臺進行推理工作。
因此,理論上,英偉達在大模型推理領(lǐng)域的統(tǒng)治力遠不如在訓練領(lǐng)域,但這也只是比較而言。實際上,英偉達在推理市場仍占據(jù)超過70%的市場份額,因為綜合考慮性能、價格、穩(wěn)定性、開發(fā)成本、學習成本、遷移成本等,英偉達在推理芯片領(lǐng)域的性價比仍很有競爭力。
根據(jù)我們對某大廠工程師的訪談結(jié)果,將模型從英偉達平臺遷移至其他品牌集群,可能會導致開發(fā)周期延長6個月,成本增加40%。
誰能挑戰(zhàn)英偉達
任何與英偉達的競爭都必須面對來自技術(shù)和生態(tài)兩方面的挑戰(zhàn)。
由于生態(tài)的壁壘遠高于技術(shù)的壁壘,要想成功,競爭者就只有兩種選項:如果不能避開生態(tài)的劣勢,競爭者就必須在技術(shù)上有非常大的超越;如果技術(shù)上沒有很大的超越,就必須利用經(jīng)濟以外的方法,人為形成一個保護性的市場,避開與英偉達在生態(tài)上的正面競爭。
在美國,英偉達的挑戰(zhàn)者主要來自技術(shù)方面——定制AI芯片(ASIC芯片)。近期,谷歌發(fā)布的表現(xiàn)優(yōu)異的大模型Gemini3,就是完全基于谷歌TPU訓練的。ASIC和GPU的競爭前景取決于犧牲靈活性換取的計算效率是否劃算。
從CPU到GPU再到TPU為代表的ASIC發(fā)展,有些像物種的演變,從通用到適應(yīng)環(huán)境和需求的特化。CPU有最高的適應(yīng)性,幾乎支持運行任何程序和代碼。GPU為圖形渲染這個生態(tài)位演化,大幅簡化了核心,犧牲了在復雜控制邏輯和高度不規(guī)則任務(wù)上的效率,但通過堆疊數(shù)千個簡單的核心,擅長同時處理大量相似的計算任務(wù),后來發(fā)現(xiàn)這一點也適合用于AI計算。ASIC芯片更進一步,只保留和優(yōu)化支持AI計算(矩陣乘法、卷積計算等)的電路,去除所有不必要的單元。自然,ASIC芯片在做AI計算時效率、功耗等方面就更有優(yōu)勢,但一旦模型結(jié)構(gòu)/算法范式變動太大,就容易“過時”。
這種來自技術(shù)的挑戰(zhàn),在短期內(nèi)不會對英偉達產(chǎn)生實質(zhì)性影響,因為技術(shù)上的跨越并非巨大,但生態(tài)上的劣勢卻是全方位的。
在中國市場,英偉達遇到的挑戰(zhàn)更為根本。
隨著美國政府禁止英偉達將先進的芯片出售給中國市場,中國市場就被動地變成“被保護”的市場,英偉達的生態(tài)優(yōu)勢無處發(fā)力。
中國的大模型廠商、云廠商、廣大開發(fā)者、技術(shù)人員原本都是英偉達生態(tài)的一部分,但現(xiàn)在即使他們想用CUD-A,也面臨很大限制。
禁令使中國AI產(chǎn)業(yè)中短期面臨陣痛,因為國產(chǎn)算力芯片和生態(tài)還不成熟,要面對算力效率下降的局面。對于中國算力芯片企業(yè)而言,這又是重大的發(fā)展機遇期。因為在正常的市場情況下,華為很難說服開發(fā)者放棄好用的CUDA,改用不成熟的CANN(ComputeArchitec-tureforNeuralNetworks)生態(tài)。
如今,很多開發(fā)者開始轉(zhuǎn)向?qū)W習CANN等平臺,也出現(xiàn)不少抱怨之聲,包括平臺的技術(shù)問題、需要付出很多學習成本、需要經(jīng)歷“踩坑之路”等等。但這也意味著,隨著更多開發(fā)者投入,這些生態(tài)會逐漸成熟。等到學習、遷移成本被“消化”,未來即使禁令解除,他們也不一定愿意回去了。
這種地緣政治造成的舊霸主網(wǎng)絡(luò)效應(yīng)失效和新生本土網(wǎng)絡(luò)崛起的故事,在互聯(lián)網(wǎng)時代屢見不鮮,中國大部分互聯(lián)網(wǎng)巨頭的崛起都與此有關(guān)。芯片和互聯(lián)網(wǎng)有所差異,技術(shù)突破困難得多,但其生態(tài)的網(wǎng)絡(luò)效應(yīng)邏輯高度類似。
因此,美國對中國的芯片禁運,目的本是為限制中國AI技術(shù)的發(fā)展,但副作用卻是給英偉達催生了一個長期的強勁對手。
在我們本次研究即將完成之際,美國政府對中國出口英偉達芯片的最新政策發(fā)生了重大轉(zhuǎn)變。2025年12月8日,美國政府批準了英偉達向中國市場出售較為先進的H200芯片,但附帶了政府收入分成和客戶審查的條款。這反映出美國意識到原來的禁運做法會削弱英偉達的長期競爭力,轉(zhuǎn)而通過梯度管控的做法保持芯片技術(shù)代差的同時,維持英偉達的生態(tài)影響力。
中國市場和政府該如何接招?原來的特供版H20和國產(chǎn)領(lǐng)先AI芯片處在大致相當?shù)男阅軈^(qū)間,而H200的算力大約是H20的6倍,顯存容量約為1.5倍,綜合來看訓練時的表現(xiàn)大概領(lǐng)先數(shù)倍到十倍以上。
理性的應(yīng)對策略既不是一禁了之,也不是無條件放開。為了更大的大局——人工智能領(lǐng)域的競爭力,必要的采購應(yīng)該被允許,比如短期內(nèi)國產(chǎn)芯片無法滿足的核心AI項目、前沿大模型的訓練和探索性研究等。但另一方面,完全的市場競爭可能令剛剛起步的國產(chǎn)AI芯片不堪重負,中國需要設(shè)計一套機制來鼓勵和扶持國內(nèi)AI芯片企業(yè)的發(fā)展,讓他們有機會在一個相對或局部被保護的市場發(fā)展自己的生態(tài)。
戰(zhàn)略考量
需要提醒的是,在看待包括AI技術(shù)在內(nèi)的科技競爭時,人們?nèi)菀追傅囊粋€錯誤是國產(chǎn)替代思維,但如果僅僅用國產(chǎn)替代來解決卡脖子問題就會引發(fā)一個新的問題:世界上其它國家會不會也做同樣的事情,對來自中國的技術(shù)產(chǎn)生卡脖子的擔憂?如果其它國家也采取國產(chǎn)替代的策略來排擠中國科技,我們豈不是又回到了自我封閉的道路?
和英偉達的競爭一定是生態(tài)與生態(tài)之間的競爭,所以開源思維是最優(yōu)解。
開源的戰(zhàn)略意義在于構(gòu)建一個遠超14億人的全球性網(wǎng)絡(luò),放大人才數(shù)量和創(chuàng)新效率,打破脫鉤陷阱。
華為在今年8月宣布將其對標CUDA生態(tài)的CANN和Mind工具鏈全面開源開放,正是這種思維的體現(xiàn)。
開源生態(tài)可以快速匯聚全球開發(fā)者的智慧,更快地發(fā)現(xiàn)并修復錯誤,貢獻代碼,提出新的功能和優(yōu)化辦法。因為是開源的,理論上國內(nèi)外的其他芯片廠商也可以加入到這一生態(tài)(實際因為芯片架構(gòu)、指令集差異,目前較為困難),這就能更有凝聚力地打造一個開放、有競爭力的生態(tài)。
(劉勁系大灣區(qū)人工智能應(yīng)用研究院理事、特聘專家,長江商學院會計與金融學教授,段磊系大灣區(qū)人工智能應(yīng)用研究院研究總監(jiān),李嘉欣系大灣區(qū)人工智能應(yīng)用研究院研究員)
免責聲明:本文觀點僅代表作者本人,供參考、交流,不構(gòu)成任何建議。





京公網(wǎng)安備 11011402013531號