![]()
2025年,全球AI大模型競爭持續提速,底層技術的競爭焦點也逐步轉移。
作為新型研發機構,北京智源人工智能研究院(BAAI)見證了技術的關鍵轉折。2020年,智源最早推動了國內大語言模型的研發和開源。2024年初,智源開始全面聚焦多模態、世界模型、具身智能等下一代技術的研發。
近日,《中國新聞周刊》專訪了智源研究院院長王仲遠,探討技術轉折點上的挑戰、機遇與中國路徑。
多模態是新戰場
《中國新聞周刊》:今年,AI大模型領域發生了哪些變化?
王仲遠:今年,大語言模型的競爭已步入相對成熟的階段,產業化全面推進。上半年,我們清楚地看到,國內從事基礎大模型研發,尤其是專注于大語言模型訓練的公司在快速收斂,這有助于減少重復投入,避免資源浪費。
近期,尤其在10月份之后,國內外涌現出一系列多模態模型,相關技術實現顯著突破,引領新一輪發展浪潮。多模態模型已成為新的核心戰場,關鍵挑戰在于如何在一個模型內實現跨模態的理解與生成,世界模型也開始涌現。整體看,AI技術仍在加速發展。
這一趨勢符合技術演進的規律。可以預見的是,大語言模型在數據使用方面會面臨越來越多的約束,模型性能提升的速率也明顯放緩。目前,全世界仍有海量圖像、音頻、視頻、3D及傳感器數據等多模態數據尚未被有效地開發用于訓練。
當前,AI正加速從數字世界邁向物理世界。多模態的發展將為AI下一代的技術帶來重大突破,與硬件系統相結合,催生具身智能;與微觀世界研究相結合,則推動AI for Science(AI4S,AI驅動的科學研究)走向深入。
《中國新聞周刊》:多模態模型競爭加劇后,中美競爭形勢會如何變化?
王仲遠:在谷歌相繼推出Gemini 3 Pro、Nano Banana Pro等模型后,谷歌在多模態智能方面展現出較為成熟的能力。這種能力依賴于谷歌強大的數據和工程體系,背后是一個復雜的系統,而非單一模型的結果。在進入垂直領域做定制化應用時,模型仍面臨一定的適配難度。
坦率地說,中國同美國在多模態模型方面的差距正在被拉大,但我認為這只是短期性的。去年,我們普遍認為中國大模型整體落后于美國2—3年;到今年年初,這一差距就縮短至兩三個月。隨著國內外頂尖模型的迭代,這種差距是動態變化的。
在產業的“水面”之下,中國仍然有眾多優秀的科研機構和企業在不斷追趕,探索模型架構的創新。這是一場馬拉松式的競賽,需要耐心和持續投入。我們既要正視差距,也要對中國的創新生態有堅定信心。
《中國新聞周刊》:產業落地的挑戰與機會在哪里?
王仲遠:無論是B端(企業級)還是C端(消費級)用戶,用戶對產品的效果與體驗的要求非常敏感。現在已有很多產品在背后集成了Agent(智能體)能力,通過提升用戶的工作效率,實現了較高頻次的使用。但是,真正意義上的“超級C端應用”尚未出現,這至少需要達到95%的用戶滿意度。它不能只停留在UI(用戶界面)創新上,更需要在模型核心能力、使用體驗方面實現實質性突破。
對于創業公司而言,關鍵是要找準自身定位,避免一擁而上、一哄而散。應明確在哪些核心技術或垂直場景上要保持自身特色和競爭優勢,聚焦特定領域,清楚規劃B端或C端的商業化路徑。目前,很多基于大語言模型的Agent產品在能力上仍有不足,多模態模型技術本身尚未收斂,Agent的發展仍處于探索期,真正的爆發時刻尚未到來。
中國的開源生態已經起到支柱作用
《中國新聞周刊》:開源怎樣改變了中國模型的生態位?
王仲遠:今年,中國企業提供的開源生態在全球起到了支柱性作用,尤其是DeepSeek、阿里的通義千問(Qwen)等產品級的大語言模型。以智源研究院為例,過去兩年,我們開源了200多款模型,100多個涵蓋語言、語音、圖像、視頻和具身智能等多種模態的數據集,模型的全球下載量達到6.9億次,剛在11月底開源的一個具身數據集下載量已超百萬次。
開源生態是否能構建全球影響力,關鍵在于能否解決用戶或開源社區的痛點問題,這是一個更接近市場化的競爭機制。
計算機、AI領域的快速發展很大程度上得益于開源開放,從業者往往愿意第一時間公布成果。每個人的工作都可以建立在“巨人的肩膀”上,基于別人的開源工作做改進,再把自己的成果進一步開源,形成良性循環。很多全世界的頂尖科學家都非常支持開源開放,認為這能惠及全行業的發展。
由于資本和政策導向,美國的頂尖模型以閉源為主。中國的資源比之海外相對有限,不得不用更加高效能的方式來使用資源、訓練模型。開源的選擇,是現實環境和工程師優勢共同作用的結果。不過,坦誠來說,由于模型訓練成本很高,選擇開源的企業會面臨如何保持競爭優勢,怎樣影響ROI(投資回報率)等挑戰。
過去幾十年,開源和閉源生態一直是共存的,例如,電腦操作系統Windows是封閉生態,Linux是開放生態;移動操作系統iOS是封閉生態,安卓是開放生態,大模型生態也可能呈現類似格局。
世界模型帶來全新起跑線
《中國新聞周刊》:李飛飛、楊立昆(Yann LeCun)等巨頭都在探討的世界模型是什么?與傳統模型區別的關鍵是什么?
王仲遠:過去幾年,隨著具身智能、智能駕駛等技術等快速演進,除了理解文本、生成內容,AI還需要具備對真實世界感知和推理的能力。世界模型跟很多技術概念都有相關性,例如多模態、視頻生成、空間智能等。回歸本源,世界模型應當反映了智能體對在世界中生存的一種基礎感知。
今年10月底,智源發布了原生多模態世界模型“悟界·Emu3.5”,基于統一的自回歸架構,提出了世界模型的一種構建路徑。其中展現出的世界模型核心能力包括連貫地推演長時程的視覺敘事、在虛擬探索中保持時空一致性,甚至為開放世界中的具身智能體規劃行動。
“下一個狀態”應如何展示?我們認為它應該是包羅萬象的,體現為對全模態輸入的統一處理。舉個例子,人腦僅憑觸覺就可以判斷一個人出現了流感相關癥狀,并據此做出服用藥物或去醫院的決策,這時,人腦的世界模型處理的是觸感這一模態,僅靠視頻生成無法達成。
由于資源有限,我們目前更多只是在驗證并拓展這條技術路線的可行性。世界模型的定義和技術路線還沒有形成共識。目前,中國和美國的研究都處于極早期階段,探索活躍程度都很高,處于同一起跑線上。
《中國新聞周刊》:世界模型的研究下一步面臨哪些挑戰?
王仲遠:我們提出的多模態世界模型技術路線,可以復用大語言模型的基礎設施,但即便如此,研發與訓練成本仍然很高。一方面,我們要持續推進訓練與推理的效率優化;另一方面,我們要去探索更具顛覆性的模型架構。
目前,訓練大模型的能耗可能堪比一座小型城市的發電量,這與僅消耗10—20瓦功率的人腦運行機制形成鮮明對比。我們正從神經科學與人腦學習機制中獲得啟發,探索改變大模型訓練方式的新路徑,但相關研究仍處于特別早期,距離形成可落地的系統與產品還需要時間。
記者:王詩涵(wangshihan@chinanews.com)
編輯:閔杰





京公網安備 11011402013531號