李彥宏有些無奈。
“過去,AI產業結構像一個正金字塔,最底層的芯片拿到了絕大部分的價值;芯片之上的模型,賺到的錢可能不到芯片的1/10;模型之上的AI應用,又小了一個數量級。”在百度世界大會上,百度創始人李彥宏說道,“這個產業結構是非常不健康的,是不可持續的,因為芯片并不直接產生價值,應用才能夠產生價值。”
但更無奈的是,在當前的宏觀和產業環境下,要打破這種倒掛結構,要賺模型層或者應用層十倍以及百倍的價值,最好的辦法就是把芯片層重新掌握在自己手里。
百度不得不自研芯片。在英偉達的“芯片鐵幕”之下,這不是百度一家公司面臨的問題,無論是海外廠商如亞馬遜、微軟、谷歌以及OpenAI,還是國內企業如阿里、華為、騰訊,都不得不啟動自研芯片戰略。
百度的昆侖芯團隊成立于2011年,很早就參與到了AI計算產業的新周期,在大模型時代有了極大的加速,從早年的AlexNet以及更早的語音識別模型,開始用FPGA做計算加速,再到后來的大型推薦系統流行,昆侖芯開始自己做芯片。
2021年,昆侖芯從百度集團拆分,也趕上了大模型萌芽階段,著手定義面向大模型的新一代芯片,譬如P800。
本次大會上,百度智能云事業群總裁沈抖公布了兩款自研AI芯片,昆侖芯M100和M300,以及天池256和512超節點的相關規劃。
![]()
大模型之后,芯片更簡單還是更難?
以前芯片廠商需要面對不同場景、不同數據、不同算法以及不同應用,很難形成規模和系統的迭代。
Transformer的出現統一了模型架構,把輸入輸出都統一成Token,統一的框架也帶來了計算架構的統一,芯片廠商在做芯片時,可以有非常明確的目標,實現極致的性能,并且可以充分利用整個產業鏈的供給能力,實現更低讓成本做的非常低,更好的計算芯片直接推動應用發展,應用繁榮又能夠給計算芯片帶來更大的規模,產業由此進入正循環。
新技術帶來產業的新變化,從技術可行到產業可行,某種程度而言,做一個為當前大模型定向優化的芯片更容易了。
但是,新的挑戰在于技術沒有邊界,應用也沒有邊界,所有做算力的團隊都無法百分百確定,未來大模型乃至AI產業會朝著什么方向發展,典型如Scaling Law,模型參數從百億、千億到萬億級模型,大幅推高算力、能源、基礎設施成本,應用的生長也幾乎不可預測,
這也意味著,面向未來而做的芯片變得更難了。雖然無法精準預測未來,至少可以確定大方向,算力最終繞不開兩個根本問題:效率問題與規模問題。
隨著大模型應用全面滲透,人均每天的 Token 消耗動輒數萬甚至百萬級,幾年前一張 GPU 每秒只能處理十幾個 Token,現在行業都在追求從算力卡中榨出更多的tokens,直接關乎最企業終的競爭力。
例如降低計算精度:從 BF16 到 FP8、FP4,通過犧牲冗余精度換取數倍算力提升,每一次精度下降,對應算力倍數提升;再如,模型訓練方式在變,芯片架構也必須跟著變,不斷針對模型架構上優化整個芯片的PPA。
如今做芯片,已經不能只做芯片,系統才是把算力真正釋放出來的關鍵環節,超節點就是一個實證。超節點不是新概念,但在大模型時代終于找到了“剛需場景”。服務器內聯數十甚至上百張卡,再到未來的千節點互聯,相比單機單卡,這類系統能帶來量級上的成本下降。
效率問題人人都能理解,而規模問題只有足夠大的規模才能真正感受到。從千卡到幾萬卡,再到未來可能出現的百萬卡集群,系統會在某些閾值上發生“質變”,成百上千的隱性問題會同時涌現。
例如穩定性急劇下降,在千卡規模下,98%的穩定性還能接受;但到了萬卡,這個數字會指數式下跌,任何節點的波動都會被放大成系統級故障。訓練的精度也難以保障,大量微小差異會在長時間訓練后,可能累積成最終精度的大幅偏差,而這樣的驗證往往需要 2~3 個月,是極其昂貴的學習成本。
當 AI 應用以指數方式增長,算力不再是簡單的“堆卡”,而是站上了一條新的工程學和科學探索路線。
昆侖芯的路線
過去幾年,昆侖芯已經量產了三代,第一代更多部署在百度內部的數據中心,第二代開始面向市場全面開放,如今已有大量企業用戶在大規模使用,第三代則趕上了大模型時代的浪潮,無論推理還是訓練,都在互聯網、運營商、金融、能源等行業得到了廣泛落地。
據悉,目前百度內部絕大多數的大模型推理任務,都由昆侖芯P800支持,百度還基于P800的5000卡單一集群,高性價比地訓練出了領先的多模態模型,目前該訓練集群已經擴展到萬卡以上,可用于訓練更大規模的模型。
在本次大會上,M100 與 M300 系列正式亮相。M100針對大規模推理場景做了優化,同時也是一顆全能型芯片,MoE模型的推理性能大幅提升,將在2026年初正式上市。
M300 定位高端,兼具強推理與強訓練能力,針對超大規模的多模態模型的訓練和推理任務做了深入優化,將于2027年初正式上市。
昆侖芯的軟件棧高度兼容主流 CUDA 生態,從編程語法到深度學習框架,都能無縫適配。據透露,昆侖芯的客戶不局限于互聯網產業,從電信運營商的核心系統,再到能源、電力、金融等行業,都已經有落地項目。
不止是在百度內部廣泛使用,昆侖芯也在互聯網、金融、能源、制造、交通和教育等多個行業落地,包括招商銀行、南方電網、中國鋼研、國家管網、吉利汽車以及國內頭部互聯網大廠和運營商等上百家客戶,交付規模從幾十卡到數萬卡。
沈抖現場也表示, 單芯片的強大是基礎條件,現在的大模型訓練和推理都不是一顆芯片能完成的,而是多顆芯片協同工作,尤其在MoE模型上,卡與卡之間的通信量急劇增加,需要把幾十張、上百張卡組成一個超節點,讓它們像“一顆超級芯片”一樣緊密連接,大幅提升卡間通信效率。
“超節點”方案非常考驗AI infra廠商在芯片、內存、通信、供電、冷卻上的全棧協同能力。
2025年4月,百度基于昆侖芯P800上市了32卡和64卡的超節點,在現有超節點的基礎上,天池256將256張P800放到同一個節點內,相比4月發布的超節點,單實例的卡間互聯總帶寬提升4倍,性能提升50%以上。
對比同等卡數的P800集群,天池256超節點在主流大模型的推理任務上,單卡吞吐提升超過3.5倍。
天池512同樣基于P800,它在天池256基礎上,卡數翻倍,卡間互聯總帶寬也再翻一倍,單個天池512超節點,就能完成萬億參數模型的訓練,這兩款超節點產品,將分別在明年上半年和下半年正式上市。
另外,百度也在基于新發布的昆侖芯M系列研發千卡級別的超節點,從27年下半年開始,將陸續推出相應的千卡、四千卡超節點。“未來5年,昆侖芯每年都會推出新產品”,沈抖表示。 (本文作者 | 張帥,編輯 | 蓋虹達)
更多對全球市場、跨國公司和中國經濟的深度分析與獨家洞察,歡迎訪問 Barron's巴倫中文網官方網站




京公網安備 11011402013531號