![]()
機器之心報道
編輯:冷貓
最近機器人和 AI 相關領域的讀者或多或少都在關注 IROS。
IROS(IEEE/RSJ International Conference on Intelligent Robots and Systems)由日本機器人學會(RSJ)與 IEEE RAS 于 1988 年聯合創辦,會議聚焦智能機器人領域,內容更多以機器人為主。
今年的 IROS 是第二次進入中國內地,在杭州舉行。
這次機器之心受邀參加了「2025 美團機器人研究院學術年會」,這次美團的學術年會作為 IROS 的分會場在杭州國際博覽中心舉辦。我們走進了 IROS 會場,感受濃濃的學術氛圍和討論熱情。
![]()
這次學術年會以「機致生活(Robotics for better life)」為主題,具身智能與零售服務的結合,是美團機器人最大的愿景和商業理念。
美團機器人研究院自 2022 年成立以來,致力于搭建連接產業與學術的開放科研平臺,推動產學研用的合作發展。近一年來,美團在低空物流、具身智能等核心賽道上持續加碼,推動前沿的學術探索高效轉化為可落地的產業價值。
令我們印象深刻的是,美團無人機配送服務已經能夠初具規模,并且已經開啟全球化運營。另外,美團是全國唯一民航局批準在全國所有城市運營,甚至包括夜間飛行的無人飛行器
![]()
美團副總裁毛一年發表主題演講
除去一些商業化的思想和成績以外,我們自然更加關注各類學術成果的進展。
在這一次 IROS 會議中,美團機器人研究院共有 6 篇相關工作參會。據毛一年介紹,今年最具代表性的研究成果是「DINO-X:開放世界目標檢測與理解的算法研究」,在無人機飛行、視覺語義識別,具身智能行為等實際應用場景中有非常高的實用價值。
![]()
作為一年一度的學術年會,美團邀請了學術界和產業界的多位明星人物,會場內可謂是大咖云集。
本次參會的重磅人物有:
美團副總裁、美團機器人研究院理事長毛一年、香港大學教授席寧、禾賽科技 CEO 李一帆、自變量機器人 CEO 王潛、宇樹科技 CEO 王興興、清華大學助理教授許華哲、清華大學丁文伯教授、浙江大學許超教授、清華大學趙明國教授等等。
現場,美團副總裁毛一年、香港大學教授席寧、禾賽科技創始人李一帆、自變量機器人 CEO 王潛都發表了主題演講,展示了各自對于人工智能時代下的具身智能發展的見解和碰撞。
我們在現場完整聽完演講后發現,不論是學術界大咖還是產業界的領軍人物,對于具身智能和人工智能在不久將來的發展方向的觀點有著驚人的相似點
香港大學教授席寧:物理與數據的對抗協作
重點放在最前面。
席寧教授認為目前的研究核心就在于:「怎么從傳統的機器人規劃范式中脫離出來,更有效地利用人工智能的方法。」
![]()
眾所周知,讓機器人做一件事需要解決四個問題:任務規劃,軌跡 / 路徑規劃,感知測量與反饋控制。
軌跡規劃
在軌跡規劃這一塊,傳統的方法是以物理知識驅動的,根據物理定律來決定一些軌跡的形成。在進入人工智能時代后,機器學習模型更加高效,數據驅動的大模型能夠具備很強的任務處理能力。
但問題是數據驅動的模型無法遵從工程領域的物理特性,也不具備可解釋性。于是,將物理世界的規律與數據驅動的大模型相結合成為了一個很好的研究方向。
席教授提出了GAT(Generative Adversarial Tri-model)模型,動機是解決純機器學習模型無法遵循工程領域基本物理支配定律的問題。
簡單來說,GAT 模型就是讓物理和數據兩個模型互相學習,最后收斂到一個規劃。但與 GAN 的對抗模型不同,GAN 是對抗博弈,GAT 是合作博弈。
![]()
席教授舉了一個彎曲移動電纜線束的例子,物理模型中包含了線纜的物理性質,數據驅動的神經網絡模型能夠進行任務規劃,兩個模型進行博弈后實現機械臂的規劃控制,不僅實現了非常好的模型轉移性,同樣也具備物理的可解釋性。
關于 GAT 模型,請參閱論文:
![]()
論文標題:Machine learning based on a generative adversarial tri-model論文鏈接:https://www.nature.com/articles/s41598-025-05320-6
感知與測量
在人工智能時代里,大模型已經具備了一定程度的智能,能夠輔助機器人的任務規劃。但大模型能夠告訴機器人先后動作,但無法告訴機器人「門」在哪里。
因此,具身智能對空間關系、時序關系或是交互關系,都需要進行感知。
從自然界開始,自然界的生物感知信息的進化,是從點的測量到集合(成像)的測量。
![]()
現有的感知和測量數據,各類模態的數據最終都是回到向量空間進行處理,通過不同模態下的向量差作為損失對機器人進行控制。
對于越來越多,越來越復雜的感知信息,傳統的向量數據已經不夠高效了,我們亟需改變數據模式,用更利于感知的數學方法來描述感知過程,通過信息壓縮得到核心的感知信息,并直接通過感知信息實現控制。
因此,席教授提出了非向量空間模型(Non-Vector Space Models),控制原理同樣簡單,通過模型集合差以代替向量差進行控制。
![]()
這一切的核心就是新的壓縮感知的過程。席教授以追蹤線纜位置的任務舉例,做傳統圖像特征提取的情況下,如果線纜換成不同的方向就會導致特征變化,采用壓縮感知就能避免特征變化導致的跟蹤失敗。
機器人控制
機器人的軌跡是一個時間函數。席教授認為這不是一個合理現象。
「我們為什么要依據地球圍著太陽轉的規律來控制機器人?」
![]()
在軌跡和動作規劃上,人是怎么做的?
人的動作是以感知為基礎的參照系,通過感知決定動作。席教授認為,感知作為參考(Perceptive Reference)是具身智能的基礎。
![]()
最后舉個例子,機器人的路徑如果按時間為參照,遇到障礙物時就需要重新進行規劃;如果采用傳感器為參照系,以傳感器感知的信息來規劃軌跡,各類情況都已經在任務規劃中包含,就無需重規劃操作。
自變量 CEO 王潛:大一統的基礎模型什么樣
重點放在最前面。
很多人認為具身智能是「把 DeepSeek 塞到宇樹里面去」,但王潛認為:「具身智能是基礎模型。」
![]()
具身智能和現有的大模型完全不同,具身智能涉及到物理世界的交互。
物理世界的隨機性非常的大。物理過程很難被其他模態準確描述。
目前的研究情況下,Locomotion 和 Navigation 都已經基本能夠收斂,而 Manipulation 則剛起步,嚴重受制于隨機性的物理世界。物理世界中各種物體的先驗,分布都差異非常大,會遇到傳統的虛擬世界模型不會碰到的問題。
例如,虛擬世界中識別到的水瓶,在物理世界中可能存在瓶蓋蓋不緊這類很難識別的情況,會導致相同的交互取得一個漏水一個不漏水的大相徑庭的結果。
基礎模型的特征
王潛認為,具身智能模型首先是端到端的。
物理接觸的復雜性決定了端到端的必要性,斷絕了分層模型的可能性。具身智能遠遠不等于「LLM + 動作生成」的范式。
其次,具身智能模型必須是通才模型
雖說專用模型能夠實現某個任務下很好的能力,但只有通才模型才可以學到不同任務之間的共同結構(Common Structure),這種現象有點類似大模型的「涌現」現象,在一定規模的學習后能夠遷移到更多任務上。
最后,基礎模型一定基于物理世界。物理智能不可能涌現自虛擬世界。
![]()
具身智能的最終方法論:物理世界的通用統一模型。
而目前具身智能的研究熱門 VLA 模型正是通往通義具身智能大模型的一條過渡的路徑。
數據,還是數據
我們從大模型里學到了什么?
Scaling Law 告訴我們,我們需要更多的算力,更多的數據。
大模型時代的范式轉移:大模型逐漸從算法驅動轉變為數據驅動的現實困境,我們在數據上能進行的工作遠遠大于在模型本身上能做的事情。
![]()
在現有人類互聯網數據已經接近干涸的時候,要想構建一個更好的模型,數據質量和多樣性比數據數量更重要。王潛認為,更高的數據質量和多樣性能夠帶來很多數量級的效率差。
在具身智能領域,模仿學習已經逼近了人類數據量的極限。在未來,只有體驗學習才能夠突破數據瓶頸,這也是 Richard Sutton 的觀點。
圓桌:一些龐大的話題
在會議最后的圓桌環節,丁文伯、王興興、許超、許華哲和趙明國,以探究具身智能發展的「第一性原理」為主題,進行了一些有關未來的對話。
![]()
圓桌探討具身智能發展的「第一性原理」
王興興:在硬件領域,商品成本最終跟重量相關,這是很直觀的第一性原理。但在軟件和 AI 領域上有些模糊,關于「什么是智能」的問題還不夠透徹,需要像牛頓定律一樣再總結提煉。
許超:具身智能是「軀體和靈魂」的合二為一。未來的模式是「牛頓 + 辛頓」,牛頓和辛頓「握手」,是未來的一種新架構。 軀體和靈魂結合,既能夠保留物理規律,又能夠結合神經網絡的數據驅動學習能力。具身智能要具備小腦,中腦,大腦以及云腦。
許華哲:首先,智能是由欲望驅動的,人類的智能源于生存和探索的欲望。具身智能要「給機器人自己的欲望」。
第二是先驗,「為什么馬一生下來幾分鐘就會走路,而我們訓練機器狗需要幾十年的(并行)時間?」生物 DNA 天然攜帶一些先驗,在如何將先驗移植到神經網絡是很重要的一部分。
第三是經驗,經驗是完成這個世界的閉環。用自己的行為產生的數據才能完成小眾且必須完成的事情。
趙明國:第一性原理一定是一個偏簡單的詞
第一,不能說具身智能是大模型做的,否則一切都是大模型的子課題,還需要再定義。第二,凡事都用智能的方面考慮問題。具身智能有三個模塊組成:外部物理世界變為信息源(傳感),信息處理與推理,輸出變為物理世界的能量。最后這三者的信息和能量需要流動,這是系統真正的生命力。
總結
雖說受限于篇幅,我們很難把整場會議的完整內容都進行覆蓋。但是我們對于這次美團機器人研究院學術年會中,學術界和產業界,關于具身智能領域的研究觀點做了一個整理。
如果仔細研究這些偏向學術的觀點就會發現,不論是學界還是業界,在具身智能的研究發展領域的觀點驚人的統一。
大家都認同「物理世界的復雜性」,都提及了「物理與數據的結合」,都提出了「構建具身智能模型」的思考。
「大模型 + 自動化 = 具身智能」的認知早就過時了,我想我們應該期待真正的具身智能模型的到來。
最后以圓桌論壇每位嘉賓的寄語作為結尾:
王興興:大腦里有夢想就可以實現。
許超:追尋好奇心,不要死卷分數。
許華哲:循此苦旅,以抵繁星。
趙明國:油門踩到底,加速進化。





京公網安備 11011402013531號