![]()
新智元報道
編輯:定慧
中國具身智能「全明星日」現場齊聚30+頂流大佬,現場卻先吵翻了天!具身智能架構要不要推倒重來?真機還是仿真誰當C位?硬件、甲方、數據飛輪輪番上場——這場4小時真心話局,或許決定機器人能不能真正走進你家門。
2025年,注定是具身智能的「爆發之年」。
如果說大模型是數字世界的「大腦」,那么具身智能就是讓AI擁有「身體」,真正走進物理世界。
昨天下午,北京鼎好大廈,智源具身2025 OpenDay現場,空氣燥熱得仿佛盛夏。
30多位明星具身公司的CEO/CTO、聯創齊聚現場,這哪里是智源開放日,分明是中國具身智能產業的「全明星日」!
智源研究院院長王仲遠站在臺前,身后是悟界·Emu3.5多模態世界大模型和RoboBrain2.0具身大腦的最新技術演進。
但他此刻的角色,更像是一位超級鏈接者,將產、學、研、用的頂流們匯聚于此,試圖在喧囂中厘清行業的真實脈絡。
從「具身Transformer」是否存在,到「數據飛輪」靠仿真還是真機,再到「甲方爸爸」的靈魂拷問。
大佬們不再避諱分歧,而是展開了直擊靈魂的對話與互懟。
三場圓桌,四輪激辯,不僅撥開了行業的迷霧,也為具身智能的未來厘清了方向。
激辯一
具身智能需要自己的「Transformer」嗎?
在「BAAI 模型會客廳」環節,氣氛從一開始就充滿了火藥味。
主持人拋出了一個直擊靈魂的問題:具身智能會收斂到由某一個統一架構主導嗎?我們需要具身版的Transformer嗎?
![]()
這是一個關于「大一統」的賭注。
招商局集團AI首席科學家張家興率先開炮,給出了一個極具顛覆性的觀點:「我們不能沿著過去三年大模型發展的結構(LLM/VLM)走下去。」
他認為,現在的VLA(視覺-語言-動作)架構在視覺和動作之間夾雜了語言,這不符合人類操作的本質。
「人在開車時可以聊天,說明視覺和動作是直連的。具身智能需要一個Action First(動作優先)的架構,而不是Language First。」
清華大學助理教授、星海圖聯合創始人趙行對此表示贊同。他描繪了一個理想的架構圖景:一個Large Action Model(大動作模型),它依賴于視覺,最后才加入語言。
「更重要的是,它必須是一個閉環模型。大語言模型是一問一答的開環,而具身智能是動作-反饋-調整的閉環。」
然而,北京大學助理教授、銀河通用創始人及首席技術官王鶴則從現實角度潑了一盆冷水。
他指出,雖然Transformer架構在吞吐多模態數據上表現出色,但在動作輸出上,行業尚未找到收斂的路徑。
「我們今天的數據遠遠不夠。地球上目前可能只有1000家頭部廠商,每家有1000個人形機器人「居民」,這樣稀缺的數量不足以撐起探索出一個Action First的架構。」
智源研究院院長王仲遠則站在了終局思維的高度。
他堅信終極狀態一定會有相對統一的架構,這也是智源布局Emu系列多模態世界模型的原因。
「但這種大一統模型的出現,可能需要具身智能互聯網的出現——即當數以千萬計的機器人進入真實場景,累積了海量數據之后。」
結論:現在的VLA架構可能只是過渡態,行業正在呼喚一種剝離語言中心主義、以動作為核心的全新架構。但在數據爆發之前,大家依然只能「戴著鐐銬起舞」。
激辯二
數據飛輪,信「仿真」還是信「真機」?
如果說架構是骨架,數據就是血液。
在數據獲取的路徑上,嘉賓們分成了鮮明的兩派,互不相讓。
「真實派」以星海圖趙行和智元機器人羅劍嵐為代表。
趙行強調「In scaling law we trust」,但他眼中的Scaling必須基于真實世界的數據采集,真實、數量和多樣性。「我們不會僅僅在數采場里采,更多要到真實場景里去。」
羅劍嵐則補充道,未來的數據飛輪必須通過機器人自主產生,「不僅僅靠遙操,而是機器人與環境交互產生數據,形成正反饋。」
「仿真派」的聲音同樣強勁。
加速進化創始人&CEO程昊坦言:「我們現在用仿真數據多一些,因為快。」他認為這是一個螺旋上升的過程,落地遇到Corner Case搞不定時,必須大量上仿真數據。
「很多底層控制,如足式行走、跳舞,全部是通過仿真習得的。」王鶴直言:在真實世界做強化學習太難了,你甚至沒法遙操一個靈巧手去感知它到底扎沒扎到。」
但他同時指出:「仿真不是為了否定真實世界,而是提供一個base Controller(基礎控制器),讓我們有能力在真實世界把數據飛輪真正轉起來。」
智源研究院則提供了一條「第三條道路」。
王仲遠提出,人類的學習是從觀察世界(視頻)開始,再到互動(真機)。
因此,智源堅持從海量長視頻數據中做基座模型學習(Emu3.5的思路),再結合真機數據和強化學習進行微調。
共識達成:沒有一種數據能包打天下。視頻數據提供通識,仿真數據提供基礎運動能力,而稀缺的真機數據則是通向物理AGI的「金門票」。
激辯三
硬件是瓶頸嗎?誰在定義誰?誰在限制誰?
當視線轉向「BAAI硬件會客廳」,話題變得更加務實。
2025年被嘉賓們形容為「虹吸」、「涌現」和「量產」的一年。
![]()
智元機器人合伙人、具身業務部總裁姚卯青將硬件的瓶頸分為兩類:線性瓶頸和非線性瓶頸。
「關節發熱、扭矩密度低、電池續航,這些是線性瓶頸,每年都在進步;但軟件和大模型的泛化能力,是非線性瓶頸,你不知道突破點在哪一天。」
他坦承,雖然算法在爆發,但從第一性原理看,硬件距離人類的靈巧度和可靠性還差得遠,「硬件依然是瓶頸。」
因時機器人創始人&CEO蔡穎鵬作為關鍵硬件的代表,指出了物理世界的殘酷性:「軟件可以迭代,但硬件有物理極限。一旦涉及到底層材料和底層物理原理,突破非常難。」
那么,究竟是模型定義硬件,還是硬件定義模型?
在這個問題上,全場達成了一種微妙的默契:都不是,是場景在定義一切。
原力靈機聯合創始人&CEO唐文斌一針見血:「我不信完全統一的構型能解決所有問題。只有場景才定義了硬件形態。」他呼吁行業回歸價值閉環,「不要為了人形而人形」。
北京人形機器人創新中心CTO唐劍則補充了一個生動的細節:「以前是本體團隊做好扔給運控,運控調好扔給算法。現在必須雙向奔赴。軟件團隊要告訴硬件,不是越輕越好,上下肢比例更重要。」
激辯四
從Demo到落地,還要跨過幾個坑?
最后的「BAAI產業會客廳」是整場活動最「接地氣」也最「扎心」的環節。
盡管呼聲震天,真正的「殺手級應用」尚未出現。是在工廠里擰螺絲?還是進家庭疊衣服?行業在「偽需求」和「真場景」之間艱難摸索。
![]()
來自能源、通信、制造一線的「甲方爸爸」們,給熱火朝天的具身智能潑了一盆冷水,也指了一條明路。
「客戶不為泛化買單,只為解決問題買單。」
優必選工業&優奇聯創CEO楊繼峰的話擲地有聲。
他指出,客戶不會因為你用了大模型就多付錢,他們只關心效率。目前的痛點在于,具身智能尚未達到工業體系要求的「拐點」,導致每個項目都是定制化的「0或1」,無法形成規模效應。
中國聯通具身智能首席專家李凱總結了甲方愿意買單的「三高」場景:高復雜度、高危險性、高成本。
他分享了一個失敗案例:在軸承工廠,AI檢出率如果達不到98%,就無法替代老工人;如果只是降低了老工人的勞動強度而不能替代人力,那對企業來說就是零價值。
「全生命周期的運營才是關鍵,有沒有人考慮過機器人的IP防護等級?有沒有人考慮過連續無故障工作時間(MTBF)?」
海信杭研總監張名舉則用一組數據揭示了家庭場景的艱難:「中國人每人每天平均有118分鐘家務。」
他認為,機器人進家庭不能指望「全能管家」,而應是「特種兵+生態」。「比如洗衣服,機器人負責拿,洗衣機負責洗,這需要家電與機器人的配合,而不是讓機器人把所有事都干了。」
軟通天擎創始人黃鵬提出了「場景再造」的概念。他認為,現在的環境是為人設計的,機器人很難直接適應。必須對場景進行標準化改造,讓數據結構化,模型才能跑起來。
智源研究院:做具身時代的「送水人」
在長達三個小時的激辯中,我們看到了焦慮,更看到了希望。
如果說去年的具身智能還在討論「是什么」,今年的重點已經變成了「怎么做」。
在這場集體突圍中,智源研究院的角色耐人尋味。
它沒有親自下場做本體或產品,而是默默地開源了RoboBrain具身大腦、Emu3.5多模態世界大模型、RoboCOIN數據集以及真機評測平臺。
Emu3.5:用海量長視頻數據訓練,打造世界模型的基座模型,解決數據饑渴。
RoboBrain 和 RoboOS:提供跨異構本體的大腦和小腦,解決「不通用」的痛點。
RoboCOIN:全球本體數量最多、標注精細的真機數據集,打破數據孤島。
RoboChallenge:聯合Hugging Face等建立評測標準,解決「自賣自夸」的亂象。
![]()
面對行業的碎片化,智源研究院選擇了一條難而正確的路:做公共基礎設施,做技術路線的探路者。
正如智源研究院院長王仲遠在開場時所說:「我們就是希望,為行業鋪設基石。」
當所有人都想做淘金者時,智源選擇做那個賣鏟子、修路、通水電的人。
這場OpenDay不僅展示了技術,更展示了一種生態的號召力——將學術界的象牙塔、產業界的練兵場和資本市場的加速器連接在一起。
2025年,也是具身智能去偽存真的關鍵之年,正如會場內掌聲所證明的:
當鋪路人足夠堅定,同行者足夠眾多,種子就已經在這一刻埋下。
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!





京公網安備 11011402013531號