2025年,對人形機器人和具身智能賽道的創業者而言,都是特殊的一年。在產業端,不斷迭代新的產品;在一級市場,這些初創公司成為投資者青睞的標的公司。
7月10日,在2025年新京報貝殼財經年會建設開源之都:智AI未來,生態共澎湃主論壇上,北京大學助理教授、銀河通用機器人創始人及首席技術官、智源學者王鶴博士出席并發表題為《合成數據賦能的具身大模型開啟工商業場景規模化落地》的主旨演講。
![]()
人形機器人并不是一個新鮮的事物,從早稻田大學發布的全球第一個能自主行動的人形機器人WABOT-1再到波士頓動力早期的Atlas機器人,機器人一直存在,卻并不智能。2022年大模型在全球范圍內掀起的熱潮,讓無數研究者看到了新的方向,最早將人工智能和機器人研究相結合,重新定義機器人的能力邊界,王鶴正是其中之一。
王鶴認為,一些通用大模型對于機器人而言并不具備可操作性,因此多模態模型的下一步發展方向就是將機器人的動作作為輸出模態,這就是當下具身智能與大模型融合的一個新趨勢,即VLA(Vision-Language-Action)大模型,通俗理解就是能夠讓機器人自主理解指令并依靠手眼腦身協調來執行任務。
從2021年斯坦福大學博士畢業到回國加入北大任教,創立并領導了北大具身感知與交互實驗室,王鶴一直在探索機器人視覺和操控的可泛化性。“具身智能是目前真正推動制造業、生產服務業以及創造新質生產力的一個關鍵領域。”王鶴說。
但這個領域與傳統的制造業并不完全相同,人形機器人要能“干活”,離不開一個會思考的大腦,只有讓機器人本體承載具身大模型,機器人才會擁有自主決策的能力。王鶴坦言,“結合目前產業發展現狀來看,數據短缺是制約人形機器人大規模落地應用的根本原因。我們需要的可能是上百億的數據,機器人才能達到泛化的能力,但今天公開的數據集僅有百萬條這個量級,中間差了好幾個數量級,這是目前具身智能領域發展最大的瓶頸。”王鶴說。
投資界和產業界喜歡將具身智能的發展史與自動駕駛的發展史進行類比,但王鶴指出目前人形機器人和新能源汽車行業相比,仍有兩個挑戰:一是汽車的出貨量遠高于人形機器人企業,即便是像特斯拉等頭部人形機器人企業的出貨數量和頭部車企幾百萬的出貨量仍有很大的差距;二是汽車售出后也能夠讓車主駕駛自動回傳數據,現階段人形機器人還不能像買車一樣馬上產生使用價值。也就是說,具身智能領域面臨的挑戰來自兩方面,第一是人形機器人存量不足;第二是單純依賴真實采集數據成本過高。
“但這并不代表沒有解決困境的方式,事實上在具身智能冷啟動的時代,中國企業是有機會領跑的,不完全依賴真實數據的采集,而是更多使用合成數據在仿真器里進行大規模的強化學習,探索與真實世界的交互方式,提升具身大模型的訓練效率和泛化效果。”王鶴分析。為此,銀河通用自研仿真數據合成管線,迄今為止已積累了億級真實應用場景數據及百億級的合成仿真數據,利用這些合成數據進行技能學習,機器人Galbot 可以直接將所學技能泛化到真實世界中,現已在全球率先進行了大規模的VLA真實落地實踐。
編者注:以下為北京大學助理教授、銀河通用機器人創始人及首席技術官、智源學者代表王鶴在2025年貝殼財經年會上的主題演講全文(根據錄音整理,略有刪減)
一、人形機器人能否產生新質生產力,主要取決于具身智能的發展
尊敬的各位領導,來賓,非常榮幸今天在2025貝殼財經年會代表具身智能與人形機器人產業分享我們企業、學術界、研究界對于該行業的一些實踐和思考。首先,我的主題比較偏技術方向,但這背后反映的是我們中國新一代研究人員、新生代企業家們努力去引領、試圖去“領跑”的一些嘗試。
銀河通用實際上是一家很新的公司,我們2023年5月注冊成立于海淀,是一家基于具身大模型的通用機器人研發公司,我們的愿望是用通用機器人賦能千行百業,服務千家萬戶。正如黃市長、李部長所言,具身智能是推動制造業、生產性服務業及新質生產力的關鍵領域。
過去兩年,中美及全球在具身智能領域風起云涌,代表性事件包括多模態大模型推出、特斯拉發布人形機器人Optimus。自2023年銀河通用創立以來,中國目前約有200家人形機器人和具身智能企業。
但人形機器人和具身智能并非傳統意義上的制造業企業,其核心不僅是制造人形機器人本體,更要有自主干活的智能,也就是具身智能,即通過手眼腦協調,以模型推動機器人自主干活,充分利用人類身體,實現人能干的活機器人都能干,這就是通用機器人。
當前中國制造業不斷發展,已用諸多自動化、流程化方式實現汽車制造業多個環節無人化,形成“黑燈工廠”。制造業正在走強,但尚未達到“智造”,人工智能尤其是基于數據驅動的人工智能占比不高。這并非中國制造業獨有現狀,人形機器人真正自主干活在全球均未大規模應用。
實際上,人形機器人行業并非新鮮事物。上世紀60年代,日本開始研究機器人,到世紀之交波士頓動力推出機器人,已有近60年發展歷程。如今一些知名人形機器人企業已退出歷史舞臺。
因此,人形機器人能否產生新質生產力,主要取決于具身智能的發展。
二、VLA是具身智能與大模型融合的新趨勢,阻礙是缺少數據
大模型對具身智能有極大的推動性作用。大語言模型吸收互聯網大量語料后,如豆包大模型已能流暢無延遲對話。多模態大模型能看懂圖并據此語言回答,如GPT-4V、GPT-4o及國內DeepSeek、通義千問均推出多模態大模型。
但這些通用大模型仍不足以讓機器人干活。例如,讓機器人拿面前的話筒,大語言模型可能會說“好的你可以伸出右手抓住話筒,并把它拿起”,這樣的語言描述不夠,因為機器人手臂有6、7個電機,靈巧手可能有十幾二十個電機,機器人需要的是每個電機輸出多少扭矩的信息才能執行。模型說“請拿起來”,但機器人無法理解,因為模型不具備可操作性。
所以多模態大模型要做的是將視覺感知和語言交互等作為輸入,機器人動作作為輸出,這是具身智能與大模型融合的新趨勢,即VLA(Vision-Language-Action)大模型。雖由美國谷歌提出,但目前全球學術界和產業界均在深入研究。
該領域研究最大阻礙是缺少數據。
以自動駕駛為例,其數據來自車主駕駛。人形機器人行業面臨兩大挑戰:以銀河通用為例,即便今年計劃量產千臺,也仍與頭部車企數百萬臺的出貨量有差距。車賣出后車主駕駛可自動回傳數據,而今天大多數人形機器人存在的問題是,買回家后幾乎全靠遙控器操作,與車買回家即能駕駛帶來價值有巨大差異。這就是為什么這么火的產業,目前剛達到千臺的水平,當然跟制造的供應鏈和成熟度有關系,但要推到萬臺、百萬臺,推到能彌補未來中國老齡化、少子化導致的生產力缺口、勞動力缺口,我們還有很漫長的道路。這里面一定需要智能,一定需要數據。
關于數據問題,美國的解決方法是人穿動捕服或用遙控器操縱機器人采集數據。這存在兩大劣勢:存量不足,短期內無法將人形機器人造到上百萬臺;第二賣給客戶的無應用功能的機器人無法采集有效的任務數據,且耗時,遙控機器人干活比人自己干還慢。這兩個劣勢都導致具身智能缺乏源源不斷的數據。
我們的數據需求是干各種事情,可能需要上百億條數據,對應到Token可能需要上萬億,至少達到當前大模型的Token數才能實現泛化。目前公開的最大數據集僅100萬條,相差4、5個數量級,這是具身智能發展的最大瓶頸。
三、利用合成數據在具身智能冷啟動時代先行推進
但中國企業在人形機器人賽道有“領跑”機會,就是使用合成數據,而非完全依賴真實世界的數據,在具身智能冷啟動時代先行推進。
也就是通過數字資產制造大量運動軌跡和標簽,在仿真器里進行大規模強化學習,探索交互、物體使用方式,研究仿真器數據到真實世界的遷移,即Sim2Real(從仿真到現實),實現從數據資產到運動軌跡到Sim2Real的全鏈條。這一技術路線是我在斯坦福大學讀博士到加入北京大學后一直在推動的。
該技術路線可使用消費級顯卡進行圖片渲染,整體管線可大規模批量復制,數據制造成本遠低于在真實世界進行采集。基于完全無需真實世界采集的十億級合成大數據,我們訓練出端到端具身大模型GraspVLA,這是世界首個以合成數據為唯一預訓練動作數據的具身基礎抓取大模型。
在真實世界中,這樣的預訓練大模型采集效率極高。例如拆箱水,我們僅需一個工人采集,200條軌跡,訓練出的模型就能很好地分拆一箱水。這樣的預訓練大模型還能應對新飲品,如農夫山泉和東方樹葉,從4瓶改為3瓶,蓋子從綠色改為紅色、白色,大小高度變化,模型無需采集新數據、重新訓練,可直接泛化。這表明具身智能擁有十億級別數據后,能舉一反三,對一個任務僅需一天下午采集,就能在同類物品間自動泛化,大幅降低具身智能應用的數據成本,使企業能用得起相關解決方案。
我們推出全球首個人形機器人智慧零售解決方案,在北京的店里,機器人真實抓藥。訂單下到倉后,無需人員24小時值守,由人形機器人操作,涉及從貨架區、密集擺放區精巧抽出藥盒、拉開柜子抽屜取藥等,24小時不間斷送藥,滿足夜間病人需求。目前北京已有10家門店,今年計劃在北京、上海、深圳等城市開設100家藥店。
我們的具身大模型還可以賦能四足機器人陪伴逛商場。算法實時給出跟隨軌跡,借助室內自動駕駛技術讓機器狗靈巧移動。在人流密集、無箭頭指引的商場,面對各種動態遮擋,這都是基于合成數據技術生成的端到端模型實現的。
最后總結一下,在目前人形機器人賽道,我們要有自己的領先技術,要有定義這個行業風向標的能力,銀河通用用合成數據打造的具身大模型,把各種能力融為一體,在過去短短兩年時間內完成了數輪融資,并且累計融資了24億元人民幣。
我非常感謝國家出臺的相關政策引導,以及產業方和頭部VC支持,我相信作為中國具身智能領軍企業,銀河通用將持續“領跑”,引領行業走出一條比新能源汽車更輝煌的路線,真正開啟生產力人形機器人的落地時代。
謝謝大家。
新京報貝殼財經記者 張晗





京公網安備 11011402013531號