![]()
昆侖芯超節點產品。 南都記者 楊柳 攝
如果你想通過官網查看國產AI芯片公司的最新產品信息,恐怕要失望而歸了:最新的芯片型號時常并不會出現在產品菜單上,更不用說芯片的具體參數信息。這是國產AI芯片公司過去幾年力求低調的縮影。“這幾年做芯片比較敏感,我們出來講的也比較少。”一位與大廠關聯密切的芯片公司負責人坦言。
但近期,隨著華為、百度等大廠接連公開宣布AI芯片的迭代路線圖,阿里的平頭哥芯片亮相央視《新聞聯播》,悶聲做事的狀態突然間被打破。未來三年,華為將發布四款昇騰AI芯片;按照百度的規劃,接下來兩年有兩款昆侖芯AI芯片即將上市。與百度僅披露芯片型號與用途相比,華為給出的信息更為翔實,將互聯帶寬、算力、內存等外界關注的芯片參數悉數公開。“我們從2020年直到去年啥都不敢講,今年就‘秀了點肌肉’。”華為輪值董事長徐直軍在9月中旬接受媒體群訪時感慨。
“里程碑式的轉折。”國際投資研究機構盛博(Bernstein)中國半導體高級分析師林清源向南都記者表示,從市場端看,國產芯片公司需要向客戶呈現清晰的產品路線圖,以搶占英偉達留下的市場蛋糕。此外,外界原本擔心英偉達H20供應中斷,資本市場會對國內互聯網大廠產生負面反饋。但國產AI算力方案的推出,反而讓投資者看到,大廠未來可以依賴國產算力的供給獲得發展,也促使這些有自研芯片的公司更高調地開始對外溝通其芯片進展。
在林清源看來,國產半導體供應鏈的突圍,推動芯片順利流片,也讓國產AI芯片未來幾年的產品迭代具備較高可預見性。據其觀察,對于國內的7納米先進邏輯芯片產線,在被美國完全禁止進口、占比約三成的半導體設備上,國產方案如今已基本填補了美國制裁帶來的空白。過去國產設備仍停留在測試階段,但自今年以來,已陸續導入量產線。“先進制程的整個供應鏈已經度過了最艱難的階段。”林清源說,這提升了先進制程芯片制造后續產能擴產的確定性。
不可否認,國產AI芯片的性能與海外巨頭依然差距明顯。徐直軍在9月18日的華為全聯接大會上重申了過去的論斷:中國半導體制造工藝將在相當長時間處于落后狀態,可持續的算力只能基于實際可獲得的芯片制造工藝。因此,“超節點+集群”成為華為、百度、阿里等大廠應對AI算力需求的解決方案。這一方案是華為CEO任正非口中的“用數學補物理”策略,不過非常考驗芯片廠商在通信、散熱等方面的系統性能力。
“全球AI芯片是雙雄爭霸下的非對稱競爭。”國產EDA(電子設計自動化)企業上海合見工業軟件集團有限公司總經理徐昀提到,所謂“非對稱”,指的是中國智算芯片在工藝制程、單卡算力、單卡內存容量和帶寬等維度,均落后于以英偉達為代表的北美智算芯片,但可以借助超節點的組網,完成對后者的性能超越。“中國芯更需要互聯能力。”
華為打響第一槍 百度最新接棒
從芯片、超節點再到集群,華為對技術參數披露的“顆粒度”之細,可謂近年來罕見
在國產AI芯片陣營中,華為昇騰的頭號地位毋庸置疑。以至于英偉達創始人黃仁勛也不得不將華為視作“強大的競爭對手”,直言“低估華為這樣的競爭對手是愚蠢的”。
華為在2018年發布首款昇騰AI芯片310,2019年迭代至昇騰910,其性能超過英偉達同時代的V100 GPU。但隨著2020年美國制裁、臺積電斷供,華為自研AI芯片步入艱難時刻。從2020年開始的約五年時間內,華為僅在昇騰910系列內升級,先后推出910B和910C。這一狀況正在轉變。
今年9月中旬,華為開始對外表露自己的AI算力雄心。徐直軍在2025全聯接大會上宣布,2026至2028年三年間,華為將相繼推出昇騰950、960和970三大系列。其中,950系列包括950PR、950DT兩種型號,分別于2026年一季度和四季度推出,均支持FP8等低精度數據格式。昇騰950PR采用了華為自研的低成本HBM——HiBL 1.0,相比高性能、高價格的HBM,能夠大大降低推理預填充階段的成本。
無獨有偶,華為推出P/D分離兩款芯片前,英偉達在9月9日也發布了一款基于最新Rubin架構打造的GPU芯片Rubin CPX,充當面向計算密集型預填充階段優化的專用芯片,預計于2026年年底上市。這是海外首個在芯片層面實現P/D分離的實踐。
華為預計在2026年四季度推出Atlas 950超節點產品,緊接著在2027年四季度迭代至Atlas 960超節點,最大可支持15488張昇騰960芯片。基于這兩款超節點,華為同時發布Atlas 950 SuperCluster和Atlas 960 SuperCluster兩款超節點集群,算力規模分別超過50萬卡和達到百萬卡。
從芯片、超節點再到集群,華為對技術參數披露的“顆粒度”之細,可謂近年來罕見。林清源認為,這說明華為“是真的有料”。
華為甚至不憚于直接叫板英偉達。英偉達預計2026年下半年發布NVL144系統,徐直軍拿Atlas 950超節點與之對比稱:卡的規模是英偉達NVL144的56.8倍,總算力是其6.7倍,內存容量是其15倍,達到1152 TB,互聯帶寬是其62倍。
一位業內人士向記者分析,按理說,華為本來是最不應該對外來講芯片技術細節的。如今華為站出來“打響第一槍”,這代表了一個關鍵的轉折。
11月13日,百度接棒公布旗下昆侖芯的業務路線圖:2026年年初上市M100芯片,針對大規模推理場景優化設計,主打性價比;2027年年初上市M300芯片,面向超大規模多模態模型的訓練和推理需求。另外,2026年上半年和下半年,百度預計將推出“天池256超節點”和“天池512超節點”。從2027年下半年開始,昆侖芯將陸續推出千卡和四千卡的超節點。按照規劃,昆侖芯預計于2029年上市新一代的N系列芯片,2030年點亮百萬卡昆侖芯單集群。
相較于華為,百度對于芯片和超節點的參數介紹有限。據南都記者了解,百度的超節點產品在GPU、CPU、內存等核心部件上實現了國產化。一臺基于昆侖芯P800的64卡超節點,換算成單卡算力,大致為英偉達A100 SXM版本算力的一半。
昆侖芯前身為百度智能芯片及架構部,于2021年4月完成獨立融資,并由百度芯片首席架構師歐陽劍出任昆侖芯公司的CEO。天眼查顯示,截至目前,昆侖芯完成了6筆融資,最新一起發生在今年7月。百度為昆侖芯的控股股東。
另有不具名業內人士向記者分析,百度此時選擇披露AI芯片路線圖,除了有華為在前面打樣,或許也與昆侖芯尋求IPO的壓力有關。
根據公開信息,市場上已多次傳出昆侖芯籌備IPO的傳聞。南都記者于11月中旬看到,昆侖芯在Boss直聘、脈脈等招聘平臺釋出投融資律師崗位,其工作職責便包括:IPO全流程管理、協助招股書與監管文件、上市后公司治理與監管對接等。然而,在記者向公司方面求證IPO事宜后,該招聘崗位隨即被關閉。
超節點補足 單顆芯片性能短板
只有依靠超節點和集群,才能規避中國芯片制造工藝受限,為中國提供AI算力支持和供給
與非網10月下旬發布的一份問卷調查報告顯示,43%的受訪者認為,云端國產AI芯片的核心競爭力在于萬卡以上互聯的集群擴展性。
由于國產芯片先進制程被卡在7納米節點,華為與百度的AI算力路線圖,紛紛把超節點和集群作為突圍關鍵。9月24日的2025云棲大會上,阿里也發布磐久AI Infra 2.0超節點,兼容多種AI芯片,單柜擁有128顆AI芯片。
徐直軍在接受媒體群訪時表示,“超節點+集群”是華為在極限制裁下被逼出來的范式。只有依靠超節點和集群,才能規避中國的芯片制造工藝受限,為中國提供源源不斷的AI算力支持和供給。
作為2025年被華為帶火的概念,超節點為何如此重要?林清源介紹,計算集群依靠橫向擴展(scale-out)架構下,集群的互聯效率很低,模型訓練時需要先將任務拆成許多份在不同的節點之間運行,顯著增加了并行計算的協調難度,這會“讓大模型訓練非常痛苦”。
于是,縱向擴展(scale-up)的超節點方案走向臺前,以突破通信性能瓶頸。華為當前已面市的超節點方案為CloudMatrix 384,搭載了384顆昇騰910C芯片。芯片研究機構SemiAnalysis在一份報告中指出,CloudMatrix 384直接與基于英偉達GB200芯片的NVL72系統展開競爭,在某些指標上甚至超越了英偉達的機架級解決方案。CloudMatrix 384的昇騰芯片數量是NVL72系統的五倍,足以彌補每顆芯片性能僅為英偉達GB200三分之一的不足。
華為副總裁、公共事業軍團CEO李俊風在10月下旬一場峰會上說,CloudMatrix 384超節點在兩三年前就已經開始規劃,今年順利推出,表現非常不錯。華為接下來將推出更大規模的超節點,以解決美國對華單芯片制裁的問題。
“現在全世界能夠提供人工智能算力的只有中國和美國,而且我們現在不需要美國。最近英偉達CEO說(在中國的AI芯片)市場份額從95%降到0,(這是)因為包括華為和其他AI芯片公司可以自己提供。”李俊風表示。
林清源認為,在先進制程被卡在7納米節點的背景下,不同國產AI芯片的單顆性能差距將日漸縮小,后續考驗的是芯片廠商的集群組網能力。華為的組網能力從其已發布的技術文檔來看有許多創新點,后續則等待芯片制造產能的釋放,向市場推出真正的產品完成商業化驗證。
大規模AI算力集群建設依靠芯片廠商的系統化能力積累,除了高門檻的通信優化,還包括散熱、故障修復等方面的實力。
“為什么看起來不錯的一款芯片,在訓練上用就是一件很困難的事?”百度智能云AI計算首席科學家王雁鵬在11月中旬一場昆侖芯的論壇上指出,硬件的穩定性是其中一大挑戰。推理場景下,一臺機器就能運行一個推理實例。即使發生故障,影響范圍也僅限于當時所服務的少量用戶。訓練任務則截然不同。當前主流大模型的訓練規模往往達到萬卡級別,訓練過程高度同步,意味著任何一塊芯片出現故障,整個集群都必須暫停并重新啟動。
王雁鵬表示,硬件穩定性問題不可避免,因為晶體管的集成度高、功耗高,隨之帶來故障率的攀升。即便是英偉達的GPU,也存在故障的可能。由于國產芯片的質量控制能力尚無法與英偉達匹敵,故障率在國產AI芯片上被放大。因此,在集群上線運行之前,需要進行完善的故障檢測。
集群還有可能在運行過程中出現“靜默故障”,也就是沒有任何一塊芯片報錯,但是訓練結果出錯。如果無法精準定位到具體出故障的卡上,“整個集群可能就完蛋了。”王雁鵬說,集群必須做到在出現故障時能夠快速自愈和恢復,如此才能獲得一個相對穩定的算力平臺。
在訓練與推理市場“搶蛋糕”
上半年中國GenAI IaaS服務市場中,推理場景占比升至42%,訓練場景占比則降至58%
盡管市面上出現形形色色的訓推一體AI芯片,但真正能用于大模型訓練的非常稀少。林清源說,當廠商貼出“訓推一體”的標簽,很多時候可以直接將其等同為推理芯片。
此前有云廠商人士告訴記者,國產AI芯片用于大模型訓練任務難度很高,華為昇騰幾乎是唯一可用于大模型訓練的芯片。但Bernstein今年7月的一份報告提到,即便是華為昇騰當前的主打型號910C,大部分應用仍然是推理。
基于國產算力開展大模型訓練,需付出額外的算力成本與時間代價。今年3月,科大訊飛董事長劉慶峰在接受南都等媒體采訪時透露,2024年10月,科大訊飛便完成了深度推理模型的技術路線驗證。然而,為了在國產算力平臺上進行訓練,公司不得不花費額外兩個月時間來進行適配工作。所以,使用全國產算力訓練模型的代價,不僅體現在國產AI芯片的使用成本更高,也體現在訓練消耗的時間更長,拖慢了模型發布的進度。百度是繼華為之后,近期公開宣稱已將自研芯片集群用于大模型訓練的廠商。
即便有了可供模型訓練的國產芯片,AI模型公司是否有意愿采用依然有待觀察。徐直軍在接受媒體群訪時類比稱:“就像談戀愛,不談的話,你怎么知道對方的優缺點。合適不合適,你要談一下、要用一下,在用的過程中有問題就解決問題。”
面對大模型訓練這塊難啃的市場,許多國產AI芯片廠商涌入模型推理領域。一方面,推理芯片的設計難度和數據處理規模相對較低;另一方面,AI應用的日益普及,帶動推理算力需求高漲。根據市場調研機構IDC10月21日發布的數據,2025年上半年的中國GenAI IaaS服務市場中,推理場景占比上升至42%,訓練場景占比則降低至58%。
百度智能云混合云部總經理杜海判斷,國產芯片已可以滿足當前最先進模型的推理使用。如果將單機擴至更大的集群,國產推理芯片有能力承載萬億參數級別模型的使用。
當前,推理芯片市場的競爭呈現碎片化特征,不僅有所謂訓推一體的芯片廠商,也有專門面向推理場景的企業,如商湯芯片業務拆分出來的曦望公司。在技術路線上,推理芯片市場不僅存在海光信息、沐曦、壁仞這些GPGPU(通用GPU)玩家,ASIC(專用集成電路)的廠商也表現搶眼,如寒武紀、華為、阿里平頭哥等。
互聯網廠商如何直面推理芯片市場的激烈競爭?昆侖芯高級產品總監蕭放表示,昆侖芯可以聚焦特定場景做針對性的差異化設計,在架構層面引入適配的特殊工藝,形成性能優勢與性價比優勢。還可以和百度算法團隊密切合作,在芯片設計的長周期過程中提前預判算法演進趨勢。
背靠中國頭號云廠商阿里云的平頭哥,也因此被一些市場人士看好。“大的云廠商,自己做的芯片一定是有市場的,谷歌就是一個很好的案例。”林清源認為,大廠自研AI芯片的下游需求非常明確。即使不對外出售自研的芯片,將其并入云服務的生意中讓外部客戶來使用,也等效于在賣芯片。相較于外購第三方芯片,使用自研芯片避免了為外部供應商的高毛利買單,從而節省很大一筆成本。
昆侖芯等大廠旗下芯片公司,實際上并不滿足于內部使用。例如,今年8月21日,昆侖芯對外宣布中標中國移動集采項目十億級訂單,該項目面向推理型的AI通用計算設備。林清源表示,如果大廠的自研芯片進入外部市場去“卷”,要么得擁有特別突出的性能,要么剛好它們為某個場景做的深度優化適合外部市場需求,此外就只能單純地去比拼性價比了。
采寫:南都記者 楊柳
制圖:黃亞嵐(豆包AI生成)





京公網安備 11011402013531號