智東西
作者 陳駿達
編輯 漠影一、AI云建設熱潮持續,全棧能力成關鍵競爭力二、新架構新應用層出不窮,百度AI Infra能力如何持續演進?三、自研算力基座支撐文心訓推,獲行業頭部企業采用結語:上下游整合成大勢所趨,百度搶先交卷全棧方案
![]()
算力,正成為大模型時代名符其實的“新石油”。
上周三,國際能源署發布的報告為這一觀點提供了有力佐證。2025年,全球數據中心的投資預計將達到約5800億美元,遠超今年5400億美元的全球石油供應投資額。這一400億美元的投資差額,折射出市場對AI發展潛力的認可。
越來越多的企業開始意識到,算力不僅是支撐AI模型訓練和推理的基礎資源,更是推動產業創新與智能化升級的核心要素。傳統的基礎設施體系在模型規模爆炸式增長、推理需求多樣化以及實時性要求更高的趨勢下,已逐漸顯露瓶頸。伴隨應用場景的不斷豐富與技術體系的快速迭代,以算力為核心的AI Infra(AI基礎設施)體系必須順勢升級。
正是在這一大背景下,百度在剛剛落幕的百度世界大會上,系統展示了其在AI Infra上的最新探索。
從今年上半年點亮的昆侖芯P800三萬卡集群,到支撐萬卡集群實現98%有效訓練時長的百舸平臺,再到會上最新發布的昆侖芯最新一代產品、天池256/天池512超節點。百度已構建起一個覆蓋芯片、集群到平臺的全棧式、規模化AI Infra解決方案。
在競爭日益激烈的AI云戰場上,誰能率先構建起穩定、可擴展、成本可控的全棧AI Infra體系,誰就有望在未來的競爭中占據更主動的戰略高地。而百度在本屆百度世界大會展示的全棧AI Infra能力,或許正是其在下一輪AI云競爭中亮出的底牌。
構建覆蓋芯片、集群、平臺等領域的全棧AI Infra能力,正在成為AI行業頭部玩家競相投入的核心方向。
在海外市場,這一趨勢尤為明顯。谷歌依托長期發展的TPU(張量處理單元),形成了以TPU為核心的高度定制化AI算力體系,使其在大模型訓練與推理服務中形成獨特的技術優勢。
亞馬遜AWS多年來持續押注自研芯片,并與其云服務深度綁定,以實現更高能效比和更低成本。
模型廠商OpenAI的動作同樣具有標志性,他們聯手博通自研AI加速器,還布局獨立AI云服務業務。這不僅是為了提升未來模型迭代效率,更是為了減少對外部算力供應鏈的依賴,確保核心競爭力的可持續性。
與此同時,作為全球AI產業鏈最關鍵的算力供應商之一,英偉達也在不斷構建自己的AI能力版圖。除了不斷提升GPU性能外,英偉達還深入高速互聯等關鍵領域,并向云端延伸,推出NIM推理微服務等。英偉達越來越像一家完整的AI基礎設施公司,而不僅僅是芯片供應商。
這些案例共同指向一個明確趨勢:AI云競爭的本質正在從單一算力供應,轉向對底層硬件、系統架構、編譯優化、算力調度、模型服務等全鏈路的深度整合。在這一全棧體系中,芯片提供底層算力支撐,并需與云端的系統設計、模型框架和軟件生態保持緊密協同。上下層在架構、調度與優化上的合力,才能讓AI云體系在性能、資源利用和擴展性上實現更優的整體表現。
視角轉向國內,百度是國內較早開啟自研AI芯片的廠商之一。早在2011年,昆侖芯團隊便啟動了FPGA AI加速器項目,是國內最早源?真實業務場景的AI芯?研發團隊,2018年,百度正式啟動昆侖芯研發,并完成了3次迭代。
不僅如此,百度還是國內最早提出AI云概念的廠商之一。早在2020年,百度智能云便開啟了“云智一體”戰略,將云計算和AI緊密融合。根據IDC今年發布的《中國AI公有云服務市場份額,2024》報告,去年,中國AI公有云服務市場規模達195.9億元,百度智能云以24.6%的市場份額位居第一,連續六年、累計十次蟬聯中國AI公有云市場冠軍。
![]()
憑借從芯片、集群到平臺的全棧布局,百度不僅在算力供給上建立了堅實優勢,也在AI云服務中形成了獨特的競爭壁壘。
然而,在快速變化的AI領域,沒有玩家能在固守現有技術和模式的情況下持續領先。隨著新模型架構和應用不斷涌現,算力需求和系統復雜性呈指數級增長,傳統技術和算力體系很容易被更靈活、高效、全棧化的競爭者超越。
百度世界大會分論壇上,昆侖芯認為在大模型“新應用”的背景下,越來越多“非計算任務”正被“計算化”,很多AI Agent或應用就是把以前非計算的任務用計算實現。
當前涌現的大量新應用正在改變傳統任務的執行方式,從AI編程、智能搜索,到具備規劃能力Al Agent,過去依賴人工決策與操作的任務,如今正逐步交由機器自動完成。以往用戶需耗費大量時間檢索、比較與判斷,而現在僅需Agent消耗數萬至十萬級Token即可自動實現。隨著Agent商業化的加速,應用生態規模迅速擴大,最直觀的體現是Token消耗量的激增。
未來,Token將像水電一樣,作為不可或缺的基礎要素,深度融入社會生活的各個領域。百度智能云混合云部總經理杜海認為,未來的算力需求短期內可能達到現有推理算力幾十倍甚至百倍的規模。面對這些挑戰,國產AI Infra該如何升級?
芯片層面,在百度世界大會上,百度集團執行副總裁、百度智能云事業群總裁沈抖亮出了昆侖芯未來五年的路線圖。今年,昆侖芯已實現單集群三萬卡點亮,并發布了百度天池32超節點和64超節點;2026年-2027年,兩款昆侖芯新品和百度天池256超節點、百度天池512超節點都將陸續上市。
上述硬件的優化方向,與當前AI模型的演進路徑高度契合。本次發布的昆侖芯新品重點面向大規模推理以及超大規模多模態訓練與推理場景進行優化,而這些正是當下大模型發展的關鍵方向。天池超節點則專門針對大規模訓推場景。
天池256超節點相比其今年4月發布的超節點方案,卡間互聯總帶寬提升4倍,主流大模型推理任務單卡tokens吞吐提升3.5倍。天池512超節點最高支持512卡極速互聯,卡間互聯總帶寬提升1倍,單節點可完成萬億參數模型訓練。
![]()
然而,光憑硬件本身,也支撐大規模AI訓練需求,配套的計算平臺、供應鏈和團隊都需要同步優化,以滿足新架構、新應用帶來的新需求。
百度已經在打造三萬卡集群的過程中,深刻把握到萬卡級AI Infra的復雜性。杜海稱,這一系統性工程不僅要解決由服務器、光模塊到機房節奏在內的超大規模供應鏈協同,還需依托研發、運維和調度體系的全鏈路協作與技術優化,確保集群能力的線性提升、穩定性和故障自愈能力。
百度智能云AI計算首席科學家王雁鵬認為,訓練和推理的差異,使硬件穩定性成為首要挑戰。推理可以容忍單機故障,但訓練往往涉及上萬塊GPU的同步計算。王雁鵬指出:“如果百卡訓練的有效計算時間是99%,擴展到萬卡,有效訓練時間可能歸零。”為此,百度智能云建立了全面的故障檢測體系,通過通信庫實現對慢節點和故障卡的精準定位。
從百卡擴展到千卡乃至萬卡,網絡拓撲、任務調度和通信策略都需要相應變化。百度智能云的思路是結合自身芯片和網絡特點,進行軟硬件協同優化。他們提出了XPU驅動的通信模式,實現跳過CPU的高效XPU直通通信,并通過多平面高算出的網絡設計和優化的通信策略,實現萬卡帶寬有效性達95%,幾乎接近理想線性擴展。
隨著AI模型架構不斷迭代,國產AI芯片的生態也面臨更高要求。英偉達顯卡的CUDA生態支持百種模型架構,形成了國產算力追趕路上難以繞開的“護城河”。王雁鵬認為,國產算力若要在大模型時代迎頭趕上,必須建立高泛化算子體系,在小規模驗證中確保大規模訓練的精度和性能,最終保證算子覆蓋度和正確性。
此外,隨著上千億、萬億參數的MoE模型出現,以及多模態模型(視覺、語音等)的引入,系統通信占比上升、顯存壓力增大、負載高度異構。面對這些挑戰,百度智能云團隊通過分層存儲等方式,讓國產集群運行MoE模型的效率接近GPU集群。而異構并行通信策略則將多模態模型算力利用率提升至50%左右,與傳統的稠密模型類似。
百度在百舸平臺上將上述一整套能力進行了整合。用戶可以通過百舸平臺以標準化、產品化的方式,使用國產優質算力和上述各種技術手段,建設高效的基礎設施、提升模型訓練效果,并加速推理性能。
這套全棧AI Infra能力,已經廣泛應用在百度的內部業務中。經過十余年技術積累和三次迭代,百度的國產化算力底座如今不僅能穩定支持搜索、推薦等百度核心業務,還逐步成為承載百度?模型訓練與推理的核心算力引擎。
例如,Qianfan-VL-3B、Qianfan-VL-8B、Qianfan-VL-70B這三款主打OCR全場景識別和復雜版面文檔理解兩大能力的SOTA級模型,正是在5000卡的昆侖芯集群上,利用百度的全棧AI Infra能力訓練而來的。支持“無限時長”生成的百度蒸汽機視頻生成模型,是全球首個中文音視頻一體化生成模型,發布時在權威榜單VBench-12V上位列全球第一。這一模型,是在6000卡的昆侖芯集群上煉成的。
![]()
▲百度蒸汽機生成了今年百度世界大會的開場視頻
除了支持百度內部業務之外,百度智能云已經基于百舸平臺和昆侖芯,對外規模化提供算力服務。基于“百度百舸AI計算平臺+昆侖芯P800”構建的國產萬卡集群,率先成為首家通過信通院《面向大規模智算服務集群的穩定運行能力要求》測評的國產萬卡級別集群,且在基礎設施、集群調度、模型訓練保障等核心測評維度上,獲得最高等級“五星級”。
在算力規模化應用的過程中,硬件是基礎,但遠非全部。百度百舸作為軟硬一體、全棧優化的計算平臺,通過整合AI基礎設施、資源管理、工程與模型訓推加速等關鍵服務,幫助企業解決“有硬件卻用不好”的痛點,充分釋放算力的潛能,將其轉化為真實場景中的生產力。
百舸平臺不僅適用于昆侖芯,也能幫助廣大企業根據自身需求打造穩定、可靠的算力底座。分論壇上,北京人形機器人創新中心大模型負責人鞠笑竹分享了團隊在百舸平臺上開發機器人大模型的經歷。雙方合作最初圍繞數據展開,隨后擴展到VLM等多類大模型的訓練,覆蓋數據與算力的全鏈條支持。在構建并開源RoboMind數據集的過程中,創新中心基于百舸平臺完成了模型訓練與真機部署測試,形成“數據—訓練—驗證”的完整閉環。
同時,百舸的算力環境不僅加速了“慧思開物具身智能平臺”的研發,還支撐創新中心成功訓練了72B的開源具身多模態大模型Pelican-VL 1.0,整體訓練效率得到顯著提升。Pelican-VL 1.0可幫助人形機器人更好地感知空間與時間,實現自然的具身交互,并在訓練過程中實現自我糾錯與持續迭代,在多項基準測試中達到國際領先水平。
鞠笑竹表示,Pelican-VL在基線基礎上性能提升20.3%,超過同級別開源模型10.6%,成為開源具身性能最好的大腦模型。
![]()
▲Pelican-VL開源鏈接:pelican-vl.github.io
從某種意義上來說,百舸平臺讓創新中心可以專注科學探索本身,而無需擔憂算力基礎設施這一老大難問題。百度智能云也是首家全面適配RDT、π0和GR00T N1.5三大主流開源具身VLA模型的云廠商。通過針對性的訓推工程優化,世界模型的推理性能可提升超過36%、訓練加速20%以上;視覺語言模型(VLM)訓練則提超40%。
除此之外,百度智能云還幫助招商銀行、國家電網、中國鋼研、同濟大學、北京大學等頭部機構與企業實現國產算力的規模化部署,成為眾多?業智能化轉型的底層算力支撐。
在百度世界大會的分論壇上,百度智能云混合云部總經理杜海分享了一個頗為有趣且深刻的觀察:與傳統CPU時代“層層標準化、相互獨立”的技術結構不同,當下的大模型體系從芯片、云基礎設施、框架到模型與應用之間存在極強的耦合度——不同廠商的芯片在設計模式、指令和調用方式上差異巨大,要想充分發揮性能,算子、框架乃至模型本身都必須深度感知底層拓撲。
這意味著AI產業正在形成從應用到模型、框架、云基礎設施再到芯片的端到端垂直結構,各領域的頭部公司為了掌控能力和效率,不可避免地走向上下游深度整合。在新一輪AI云競爭全面打響之時,全棧AI Infra能力的建設,不再是一種可選項,而是面向未來競爭的“必答題”。百度,已經率先交出了自己的答卷。





京公網安備 11011402013531號