2025 年末,一份來自斯坦福大學(xué)人本人工智能研究院(Stanford Institute for Human-Centered Artificial Intelligence,簡稱 HAI)與 DigiChina 項目聯(lián)合發(fā)布了一項政策簡報,對中國開放權(quán)重 AI 模型的全球崛起這一在硅谷引發(fā)熱議卻鮮少被系統(tǒng)分析的話題進(jìn)行了深入解讀。
這份題為《超越 DeepSeek:中國多元化的開放權(quán)重 AI 生態(tài)系統(tǒng)及其政策影響》的報告,發(fā)布于 12 月初,由 Caroline Meinhardt、Sabina Nong、Graham Webster 等五位研究者聯(lián)合撰寫。
![]()
圖丨相關(guān)報告(HAI)
報告試圖厘清一個現(xiàn)實:當(dāng) DeepSeek 在今年 1 月以一款推理模型震驚全球投資者、讓英偉達(dá)市值單日蒸發(fā)近千億美元時,這家杭州初創(chuàng)公司并非中國 AI 領(lǐng)域的唯一選手。它只是一個更龐大、更多元生態(tài)系統(tǒng)的冰山一角。
從追趕到領(lǐng)跑
報告援引的多項數(shù)據(jù)指向一個明確結(jié)論:在開源大模型領(lǐng)域,中國已從追趕者變?yōu)轭I(lǐng)跑者。所謂開放權(quán)重,指的是模型的參數(shù)權(quán)重可供下載、使用和修改,開發(fā)者能夠在官方應(yīng)用或 API 之外獨立運行這些模型,并根據(jù)自身需求進(jìn)行調(diào)整。
根據(jù) Hugging Face 平臺的下載統(tǒng)計,阿里巴巴旗下的 Qwen(通義千問)模型系列在 2025 年 9 月正式超越 meta 的 Llama,成為該平臺下載量最高的大語言模型家族。截至 12 月中旬,Qwen 累計下載量已達(dá)約 3.85 億次,而 Llama 約為 3.46 億次。另一組數(shù)據(jù)同樣值得關(guān)注:2024 年 8 月至 2025 年 8 月間,中國開發(fā)者的模型下載量占 Hugging Face 總下載量的 17.1%,首次超過美國的 15.8%。這組數(shù)據(jù)由麻省理工學(xué)院與 Hugging Face 聯(lián)合追蹤,經(jīng) ATOM 項目分析后公布。
![]()
圖丨開源模型的累積下載量(HAI)
衍生模型的增長曲線更能說明問題。自 2025 年 1 月起,基于 Qwen 和 DeepSeek 的衍生模型上傳數(shù)量持續(xù)攀升,到 9 月份時,中國模型的衍生版本已占 Hugging Face 當(dāng)月新增衍生模型的 63%。這意味著全球開發(fā)者社區(qū)正在以前所未有的速度圍繞中國模型構(gòu)建應(yīng)用生態(tài)。
報告重點剖析了四個具有代表性的中國模型家族。
Qwen 由阿里云開發(fā),定位于多語言和多模態(tài)能力最強(qiáng)的通用模型,支持 119 種語言,采用 Apache 2.0 許可證開源;DeepSeek-R1 以推理能力見長,在數(shù)學(xué)和復(fù)雜問題求解方面表現(xiàn)突出,同時也提供了多個蒸餾版本供資源受限的開發(fā)者使用;月之暗面(Moonshot AI)的 Kimi K2 聚焦于代碼生成和智能體任務(wù),強(qiáng)調(diào)快速推理;智譜 AI(現(xiàn)更名為 Z.ai)的 GLM-4.5 則走均衡路線,通過多專家訓(xùn)練整合推理、編程和視覺能力。
![]()
(HAI)
芯片受限下的效率優(yōu)先策略
從技術(shù)架構(gòu)看,這些模型普遍采用了混合專家(Mixture of Experts,MoE)架構(gòu)。MoE 的核心優(yōu)勢在于效率,它能讓模型在有限的計算資源下獲得更好的性能,訓(xùn)練和推理速度都更快。這并非巧合。
由于美國自 2022 年起對先進(jìn) AI 芯片實施出口管制,中國開發(fā)者被迫在算力受限的條件下尋找替代方案。DeepSeek 在 2024 年底和 2025 年初發(fā)布的模型,正是 MoE 架構(gòu)的標(biāo)桿應(yīng)用。以 DeepSeek-V3 為例,雖然總參數(shù)量高達(dá) 6,710 億,但單次推理僅激活 370 億參數(shù),既保證了性能,又大幅降低了運行成本。
另一個值得關(guān)注的轉(zhuǎn)變是許可證條款的自由化。
2024 年發(fā)布的 Qwen 2.5 曾對最小和最大規(guī)格的模型施加了研究用途限制,同期的 DeepSeek V3 也限制了商業(yè)使用和再分發(fā)。但到了 2025 年,Qwen3 和 DeepSeek R1 全部采用了最寬松的開源許可證,前者是 Apache 2.0,后者是 MIT License。這種轉(zhuǎn)變的背后,既有吸引全球開發(fā)者社區(qū)的商業(yè)考量,也有中國開發(fā)者希望借開放姿態(tài)在國際 AI 圈建立學(xué)術(shù)信譽(yù)的訴求。
有意思的是,這場開放潮流甚至影響了此前堅持閉源路線的玩家。百度 CEO 李彥宏曾是中國科技圈里最堅定的閉源擁躉,他多次公開強(qiáng)調(diào)私有模型的商業(yè)優(yōu)勢。然而到了 2025 年 6 月,百度還是向市場妥協(xié),將旗艦產(chǎn)品文心一言(ERNIE)4.5 以開放權(quán)重形式發(fā)布。用李彥宏自己的話說:“當(dāng)模型開源時,人們出于好奇自然想嘗試一下。”
政策支持與商業(yè)模式
報告作者們特別指出,中國官方在開放權(quán)重 AI 發(fā)展中扮演的角色復(fù)雜而微妙。頂層設(shè)計的支持確實存在:早在 2017 年的《新一代人工智能發(fā)展規(guī)劃》中,“開源”和“開放”就被明確列為推動國家創(chuàng)新戰(zhàn)略的關(guān)鍵詞匯。
2023 年 10 月發(fā)布的《全球人工智能治理倡議》和 2025 年 7 月發(fā)布的《全球人工智能治理行動計劃》,則將開源 AI 提升至國際話語權(quán)爭奪的高度,強(qiáng)調(diào)“平等的 AI 發(fā)展和使用權(quán)”,與美國的出口管制形成對比。
但報告同時也提醒讀者警惕過度簡化。DeepSeek 的成功似乎與政府扶持關(guān)系不大,這家公司脫胎于私募量化基金幻方,直到 V3 發(fā)布引發(fā)廣泛關(guān)注后,其創(chuàng)始人梁文鋒才進(jìn)入更廣泛的公眾視野。
換句話說,中國開放權(quán)重 AI 的繁榮更多是市場競爭、人才積累和工程文化共同作用的結(jié)果,而非自上而下的規(guī)劃產(chǎn)物。
當(dāng)然,政府的角色也并非完全缺席。地方政府正在為參與開源社區(qū)的 AI 組織和項目提供定向財政支持;學(xué)術(shù)機(jī)構(gòu)被鼓勵將開源貢獻(xiàn)納入科研績效考核;算力基礎(chǔ)設(shè)施的建設(shè)也得到了國家層面的資源傾斜。據(jù)不完全統(tǒng)計,已有不少地方公共服務(wù)部門將 DeepSeek 模型的本地化版本集成到相關(guān)系統(tǒng)中,這些系統(tǒng)通常由數(shù)據(jù)管理部門與技術(shù)伙伴負(fù)責(zé)部署和微調(diào)。
從商業(yè)模式角度看,中國開放權(quán)重模型開發(fā)者正在探索多元化的變現(xiàn)路徑,但長期的規(guī)模化兌現(xiàn)與可持續(xù)性仍有待市場檢驗。
阿里巴巴作為云服務(wù)提供商,將 Qwen 定位為“AI 操作系統(tǒng)”,試圖通過企業(yè)和政府客戶對模型的采用帶動云計算業(yè)務(wù)增長,HP、阿斯利康據(jù)稱已成為其客戶。新加坡國家 AI 計劃選擇基于 Qwen3 構(gòu)建旗艦?zāi)P停赡転榘⒗镌茙頄|南亞市場的商業(yè)流量。
DeepSeek 和智譜則走輕資產(chǎn)路線,沒有自建大規(guī)模云基礎(chǔ)設(shè)施,而是采取協(xié)作部署策略,為不同云和算力提供商的客戶提供本地化服務(wù)。總體而言,與西方同行類似,中國開發(fā)者目前仍依賴間接變現(xiàn):通過廣泛采用的開放模型培育用戶基礎(chǔ),再將其引導(dǎo)至付費產(chǎn)品和服務(wù)。
老調(diào)子還沒唱完
報告最后用相當(dāng)篇幅討論了政策影響,歸納為四個維度:全球獲取與依賴性、AI 治理、AI 安全、地緣政治競爭,毫無疑問的又是美國智庫討論中國技術(shù)議題時的標(biāo)準(zhǔn)模板。
關(guān)于技術(shù)獲取,報告指出高性能中國模型的廣泛可用,為資源有限的低收入和中等收入國家提供了獲取先進(jìn) AI 能力的新路徑。當(dāng)模型性能趨同于前沿水平時,這些國家的采用者可能更看重負(fù)擔(dān)得起、穩(wěn)定可靠的服務(wù),而非追逐最高基準(zhǔn)分?jǐn)?shù)。
中國模型“夠好用”、許可證寬松、使用成本低,恰好契合這一需求。這一邏輯在發(fā)達(dá)國家同樣適用:Airbnb CEO Brian Chesky 在 11 月透露,公司傾向于使用 Qwen 而非 ChatGPT 為客服聊天機(jī)器人供電,原因很簡單:“又快又便宜”。
治理和安全維度則再次搬出了那些熟悉的論調(diào)。報告聲稱使用中國模型可能“繼承內(nèi)置的內(nèi)容審查邏輯”,數(shù)據(jù)“可能物理傳輸至中國”,面臨“被政府或商業(yè)競爭對手獲取的風(fēng)險”。在安全層面,報告引用美國政府 AI 測試中心 CAISI 的評估稱 DeepSeek 模型被越獄攻擊突破的概率是美國同類模型的 12 倍。
最后一個維度依舊是地緣政治競爭。DeepSeek R1 的發(fā)布直接改變了美國對開放權(quán)重 AI 的政策態(tài)度。特朗普總統(tǒng)稱其為“警醒時刻”,白宮 AI 事務(wù)負(fù)責(zé)人 David Sacks 則將其作為推行聯(lián)邦層面 AI 去監(jiān)管政策的依據(jù)。
2025 年 7 月,白宮發(fā)布《美國 AI 行動計劃》,將開放權(quán)重模型提升為戰(zhàn)略資產(chǎn),同時強(qiáng)調(diào)加強(qiáng)對中國等對手的出口管制。一個月后,OpenAI 時隔近六年首次發(fā)布開放權(quán)重模型,采用 Apache 2.0 許可證——Sam Altman 在與記者的晚餐中坦承,中國開源模型的競爭是促使他們做出這一決定的重要因素:“如果我們不這么做,世界將主要建立在中國開源模型之上。這確實是我們決策中的一個重要考量。”
當(dāng)然,盡管這份報告離不開這些模板化的框架,但其價值仍在于它提供了一個相對完整的圖景:中國開放權(quán)重 AI 生態(tài)系統(tǒng)的參與者多元,包括 DeepSeek、阿里巴巴這樣的明星,也包括智譜、月之暗面、百川、零一萬物等一眾“小巨頭”,以及北京智源人工智能研究院這樣的非營利機(jī)構(gòu);它們的技術(shù)路線各有側(cè)重,許可證策略趨向?qū)捤桑虡I(yè)模式仍在摸索;政府支持確實存在,但并非唯一驅(qū)動力;全球擴(kuò)散已成事實,政策影響正在顯現(xiàn)。
對于那些仍將 DeepSeek 視為“中國 AI 的全部故事”的觀察者而言,這份報告是一次必要的校準(zhǔn)。而對于那些試圖以簡單的“趕超”或“落后”敘事框定中美 AI 競爭的人來說,它提供了更多需要消化的復(fù)雜性:當(dāng)模型能力差距縮小,真正的競爭會越來越像生態(tài)競爭、工程競爭、成本競爭與合規(guī)競爭疊加的系統(tǒng)戰(zhàn)。把這些變量看清楚,才更接近“中文模型是否超越全球同行”這個問題在產(chǎn)業(yè)層面的真實答案。
參考資料:
1.https://hai.stanford.edu/policy/beyond-deepseek-chinas-diverse-open-weight-ai-ecosystem-and-its-policy-implications
運營/排版:何晨龍





京公網(wǎng)安備 11011402013531號