文|未來圖靈
2025年,全球AI領域迎來史上最洶涌的開源潮。
從DeepSeek全面開源大模型,到百度宣布文心大模型加入開源陣營,技術民主化的呼聲似乎達到頂峰。然而,當開發者們歡呼人人可用時,一場由算力、數據和云服務構建的隱形壟斷正在悄然成型。
Synergy研究集團2025年Q1報告顯示,全球云基礎設施支出達940億美元,同比增長23%,其中60%份額被亞馬遜AWS(29%)、微軟Azure(20%)和谷歌云(11%)瓜分。不單單是收入,60%的高質量訓練數據也都集中于5家科技巨頭手中。
6月5日智通財經消息稱,人工智能基礎設施建設持續擴張,亞馬遜宣布將投資100億美元擴建其位于北卡羅來納州的數據中心集群。
開源代碼只是第一步,真正的門檻是算力和數據。某國內AI初創公司CTO向未來圖靈坦言,我們能用開源模型,但訓練成本動輒千萬美元,實時數據還要向大廠購買,這就像給你免費菜譜,但食材只在天價超市出售。
算力霸權
開源模型的普及并未削弱硬件巨頭的統治力,反而強化了其壟斷地位。
據Synergy研究集團數據顯示,到2024年底,超大規模運營商運營的大型數據中心數量已攀升至1,136個,相較于2019年實現了數量翻倍的增長。而且該機構預測,在未來數年,每年新增的數據中心數量將維持在130-140個。
在全球云服務市場中,亞馬遜、微軟和谷歌牢牢占據著主導地位。從地區分布來看,美國掌控著全球數據中心總容量的54%,占據絕對優勢;中國以16%的占比位居第二;歐洲則占比15%。
Synergy首席分析師約翰?丁斯代爾指出:在歷史進程中,數據中心的平均規模增長較為平緩,呈漸進式發展,但近幾個季度,企業對AI基礎設施建設的強烈需求,徹底打破了這一常規態勢,使得數據中心規模增長呈現爆發式增長。
2025年第一季度,全球企業在云基礎設施服務方面的投入達到了940億美元之巨。與2024年第一季度相比,支出增長了23%,增長金額高達175億美元,其中公共基礎設施即服務(IaaS)和平臺即服務(PaaS)占據了市場的大部分份額。
約翰丁斯代爾分析道:雖然增長在不同地區和服務領域都有體現,但人工智能顯然起到了重要作用。生成式人工智能特定服務的增長在140%到160%之間。
AI發展所引發的算力需求,正在重塑全球數據中心格局以及云服務市場的投入走向。
開源是否真的帶來了平等?
實際上,當所有人都能拿到模型代碼,但訓練成本和實時數據壁壘依然將中小玩家拒之門外。
以英偉達為例,英偉達自2021年起推出DGX Super Pod的云訂閱服務,用戶可按月租賃算力。到了2025年,客戶已無法直接獲取服務,而是需要通過 CoreWeave、Lambda Labs等云廠商間接租賃算力。作為英偉達的核心合作伙伴,CoreWeave憑借優先獲得GPU資源的優勢,構建起 GPU即服務(GPUaaS)的商業模式。
目前CoreWeave的大型客戶包括微軟、英偉達、meta、IBM、Mistral和Cohere等,其中微軟更是貢獻了 62% 的業務量。此外,CoreWeave的算力服務也逐步滲透到金融、制藥等高性能計算需求較高的行業。華爾街量化交易公司Jane Street,以及多個生物制藥企業,均依賴CoreWeave的算力支持其模型訓練和數據分析。
據悉2025年,CoreWeave計劃進一步擴大數據中心網絡,新增10座數據中心。
對于AI算力供應商而言,數據中心的擴張不僅代表著計算能力的提升,也直接影響客戶的服務質量和算力成本,隨著全球AI訓練任務的規模不斷增長,數據中心的算力密度成為企業競爭的關鍵要素。
此外有消息稱,CoreWeave手握超過25萬張英偉達的GPU,英偉達不僅是其核心供應商,更是其戰略股東之一。
硬件采購的門檻更是令人咋舌。據公開資料顯示,香港數碼港2024年10月啟用的超算中心采用英偉達DGX H800 GPU,每個節點月租金達32萬港幣(約合人民幣29萬元),若采購多節點集群,成本將遠超2.5億元。英偉達最新財報也顯示,其數據中心業務單價持續攀升,2025財年第四季度數據中心營收達356億美元,同比增長93%。
不僅如此,英偉達最新發布的芯片針對主流開源模型進行了深度優化,這一巧合背后隱藏著巨大的利益關聯。據了解,為實現這種優化,英偉達投入了價值27億美元的適配合作。當開發者為了追求模型的高性能而不得不采購特定硬件時,開源模型在不知不覺中淪為了最隱蔽的捆綁銷售工具。
專業數據被私有化
開源模型的另一大壁壘是數據。Mozilla基金會2024年的報告指出,Common Crawl的爬取范圍已被Facebook、《紐約時報》等頭部網站大幅限制,導致其數據無法代表整個網絡,尤其缺乏專業領域的深度內容。
高質量數正在流失。據Common Crawl的統計數據顯示,2023年后,《紐約時報》等頭部網站限制爬取,其頁面數量同比下降37%,而低質量網站占比從2019年的12%升至2024年的21%。
大廠雖通過開源基礎模型(如Transformer架構)建立技術標準,卻借助云服務、數據管道、開發工具實現隱性控制。此前騰訊元寶的《用戶協議》。其中一項條款約定,對于用戶向騰訊元寶輸入的內容,騰訊可以獲得幾乎所有場景的使用權,且授權是無地域限制的、永久的、免費的。
被曝光后,3月1日到3月5日之間,元寶《用戶協議》進行了三次修改,調整了騰訊對輸入內容的使用范圍、授權方式。
同時,騰訊公關總監張軍在朋友圈回應道:非常抱歉給大家造成困擾。使用元寶時輸入和輸出的內容,權利歸您或相應權利人所有人,使用元寶并不會改變歸屬。最新版本已經增加數據管理功能,相關內容都不會用于大模型優化。
目前,騰訊元寶的頁面新增了體驗優化計劃開關,關閉后,用戶輸入的內容將不再用于訓練AI。
開源模型的致命誘惑在于其完美的雙贏假象。
正如網友匿蟒 所言,(算法 + 算力 + 數據)× 時間 = 模型,模型才是能用的東西,而算法只是門檻之一。
開源運動的初衷是技術平權,但在AI時代,算法自由≠資源自由。當算力、數據、生態成為新的壟斷壁壘,開源可能只是巨頭圈地運動的開始。
未來的AI競爭,不僅是代碼之爭,更是基礎設施與規則制定權的爭奪。如果沒有政策干預和生態創新,人人可用的理想終將淪為少數人掌控的現實。





京公網安備 11011402013531號