
近日,浙江大學流體動力與機電系統國家重點實驗室發布了重磅綜述論文《A Comprehensive Review of Humanoid Robots》,該論文系統梳理了人形機器人的發展歷程、關鍵技術、應用場景及未來趨勢。作為國內最具影響力的人形機器人研究團隊之一,浙大團隊基于其在人形機器人研發過程中的深厚積累,結合對全球技術發展的前瞻性觀察,為業界提供了一份極具參考價值的技術路線圖。
論文不僅詳細分析了從ASIMO到Atlas、從Optimus到Figure 01等國際代表性機器人的技術演進,還重點介紹了包括浙大"悟空"系列在內的中國原創人形機器人成果,全面展現了人形機器人從機械結構到智能控制的最新進展。以下是對這篇重要論文內容的翻譯整理和精要解讀,希望能為行業同仁提供有益參考。

1. 引言
人形機器人是國家技術進步的關鍵領域,代表著一個充滿希望的新興產業,是未來經濟和工業競爭的關鍵。這些機器人將對國家經濟和社會發展產生深遠影響。通過整合先進制造、新型材料和人工智能等前沿技術,人形機器人旨在模仿并最終超越人類能力。
人形機器人技術和產業在全球范圍內正快速發展。2022年,特斯拉的Optimus首次亮相,重塑了人們對人形機器人功能邊界的認知。2023年,大型語言模型的快速進步加速了具身智能的出現。目前,人形機器人正處于產業化前沿,展現出巨大的市場潛力。
實現人形機器人的廣泛應用面臨幾個關鍵挑戰:穩定的全身控制、智能升級、人機交互和系統集成。克服這些挑戰是推動人形機器人進入主流應用的關鍵。
2. 人形機器人的發展歷程
1969年,日本早稻田大學的Ichiro Kato創造了第一個雙足機器人,它只有下半身,由液壓和電纜牽引實現靜態行走。1972年,第一個全身人形機器人問世。此后,人形機器人發展經歷了幾個階段:從基礎理論方法和系統形成,到關鍵技術的快速發展和系統多樣化。目前,人形機器人已進入由應用驅動的產業化階段,面向產品方向發展,未來有望實現低成本、大規模生產和應用。
國際代表性機器人
本田ASIMO:本田于1986年開始人形機器人研究,1996年開發出P2模型,2000年推出ASIMO。該機器人后來實現了9公里/小時的奔跑速度,掌握了單腿或雙腿跳躍、爬樓梯以及各種交互技能,展示了踢球、擰瓶蓋、倒水等任務。由于生產成本高和可擴展性有限,ASIMO項目于2018年終止。
波士頓動力Atlas:波士頓動力公司從2009年開始人形機器人研究,2013年發布了Atlas,專為災難救援設計。十年間,公司在虛擬模型控制、非線性模型預測控制等方面取得突破,使Atlas能執行跑酷、舞蹈等復雜動作。2024年4月,波士頓動力推出完全電動版Atlas,關節可360°旋轉。
特斯拉Optimus:特斯拉2022年推出Optimus原型機,2023年的Optimus Gen2實現了穩定行走、抓取物體,并使用自動駕駛技術進行環境感知和智能導航。
Figure AI:Figure AI發布的Figure 01展示了制作咖啡等能力。2024年3月,Figure AI與OpenAI合作,將多模態大型模型集成到Figure 01中,使其能實現環境感知、流暢人機對話等功能。
中國代表性機器人
中國在20世紀90年代開始了人形機器人研究,國防科技大學、哈爾濱工業大學、清華大學、北京理工大學和浙江大學等機構取得了重要研究成果。
北京理工大學匯童機器人:北京理工大學于2000年開始人形機器人研究,2001年發布了匯童bhr-1,該機器人可以獨立行走,最高行走速度達2公里/小時。經過多次迭代,該機器人掌握了打太極拳、與人類打乒乓球和防跌倒等技能。
浙江大學悟空機器人:浙江大學開發的"悟空I"可以與人類或其他機器人進行數百回合的乒乓球比賽,引起了國際關注。"悟空IV"最高時速超過6公里/小時,跳躍高度為0.5米,可以爬上25°的斜坡和10厘米高的臺階,適應各種地形,包括戶外表面、草地、泥地、樓梯和斜坡。
企業產品:優必選科技于2012年開始開發人形機器人產品,發布了Walker系列。2023年,宇樹科技推出了H1,2024年發布了第二代人形機器人G1。此外,小米、傅利葉、追覓和小鵬等公司也發布了人形機器人原型或產品。
3. 人形機器人頭部組件
隨著人形機器人融入社會和家庭環境,機器人的頭部,特別是面部,在傳達情感、提供社交線索和建立人機交互中的信任方面發揮著關鍵作用。有效的設計必須在功能性和心理舒適性之間取得平衡,超越"恐怖谷"效應。
由于"恐怖谷"效應,出現了兩種截然不同的設計方法:一種是有意設計不太像人類的人形機器人頭部,另一種是盡可能使人形機器人頭部像人類。根據擬人化程度,人形機器人頭部可分為非擬人化和擬人化兩類。
3.1 非擬人化人形機器人頭部
非擬人化人形機器人頭部分為兩類:完全沒有人類外觀(如使用電子屏幕作為面部)和含有部分人類特征但缺乏逼真皮膚和頭發的機器人。
第一類主要在工業環境中使用,執行自主運輸或工廠物流等任務,頭部主要容納傳感器,如激光雷達、深度相機等。例如,Unitree的H1人形機器人頭部作為深度相機的安裝平臺,Boston Dynamics的Electric Atlas具有帶光環的大型圓形顯示屏。
第二類通常用于需要與用戶交互的領域,如接待、服務、教育和醫療保健。這些機器人具有一些類似人類的面部特征,可以做出簡單表情。一種簡單實現方法是使用數字面部,通過屏幕、投影儀或LED顯示。另一種方法是使用機械結構實現動態面部表情,這些機器人通常采用卡通般的外觀,以增強親和力。

3.2 擬人化人形機器人頭部
擬人化人形機器人頭部通常配備逼真的仿生皮膚和頭發,非常接近人類,通常很難與實際人類區分。擬人化人形機器人頭部的發展經歷了三個主要階段:

3.2.1 擬人化外觀
擬人化人形機器人頭部需要具有高度類似人類的外觀,特別是逼真的面部。實現這一點需要逼真的皮膚、驅動皮膚運動的機械結構以及傳感器系統。
材料方面,Frubber是一種專門用于機器人面部的皮膚材料,由海綿狀人造橡膠和泡沫混合而成,具有適度的硬度,允許自然表情。驅動方法包括電動(使用電機和連桿)、氣動(使用氣動執行器)和軟材料變形(使用形狀記憶合金等)。

3.2.2 擬人化運動
擬人化人形機器人頭部需要執行自然的人類運動,包括眼神接觸、唇同步和富有表現力的面部表情。
眼神接觸對建立人機交互中的信任和親密感至關重要。自然的眼睛運動需要與頸部運動協調,確保符合人類心理物理原理。唇同步則將音頻與機器人頭部唇部運動匹配,對于真實的人機交互至關重要。
表情生成使機器人能根據接收到的外部信息生成擬人化表情。方法可分為基于視覺、音頻、觸覺和多模態數據的表情生成。例如,Hu等人開發的Emo機器人使用兩個深度學習模型預測人類面部表情并生成運動命令。
3.2.3 擬人化心理學
在第三階段,擬人化人形機器人頭部整合了擬人化心理學,使用情感模型和情感狀態管理系統模擬人類情感反應。
情感模型包括離散型(如Ekman的六種基本情感)、維度型(如Russell的二維效價-喚醒模型)和其他專門類型。基于情感模型,情感狀態管理系統結合實時交互數據和機器人設定的性格來細化情感表達。例如,Han等人提出的方法使用模糊Kohonen聚類網絡生成自然表情,實現情感的平滑過渡。
4. 人形機器人身體組件
人形機器人旨在復制人類的身體和認知能力,其組件是硬件和軟件系統的復雜組合。
4.1 硬件架構
4.1.1 機械結構和自由度分析
人形機器人的機械結構在決定機器人的多功能性和復制人類運動的效率方面起著關鍵作用。自由度(DOF)是定義機器人運動范圍和執行復雜任務能力的關鍵指標。
為實現多功能性,研究人員設計了受人類骨骼系統啟發的機械結構,通常允許20-40個自由度。優化過程包括減少執行器數量以減輕重量,將質量集中在軀干附近以減少四肢慣性,以及限制關節靈活性以保持控制精度。
關節是人形機器人運動能力的關鍵。常見做法是使用級聯減速齒輪或諧波驅動器增加扭矩,執行器通常遠程安裝,通過各種機構驅動關節。上肢機械結構設計中,先進人形機器人如Unitree G1的手臂通常有七個自由度,以避免運動中的奇點,確保更廣泛的運動范圍和靈活性。靈巧手通常每只手有6到20個自由度。下肢結構通常包含六個自由度,包括髖關節、膝關節和踝關節。

4.1.2 傳感器系統
傳感器為人形機器人提供了與環境交互所需的感官輸入。
視覺傳感器:大多數先進人形機器人配備激光雷達、RGB(-D)相機或兩者組合。RGB(-D)相機提供視覺和實時深度信息,但在低光或強光環境中可能不準確。激光雷達提供高度準確的深度數據,不受環境光影響,但需要較高的計算能力處理。
觸覺傳感器:觸覺對理解復雜場景和精細操作至關重要。常見觸覺傳感器包括陣列傳感器(壓電、電容和電阻式)和基于視覺的觸覺傳感器。盡管后者具有更高分辨率,但尺寸較大,阻礙了與靈巧手的集成。
聽覺傳感器:麥克風對人形機器人與環境和人類的通信至關重要。2、4或6麥克風陣列最常用,麥克風數量增加提高定位準確性,但也增加計算成本。
控制傳感器:力/力矩傳感器(通常由應變片制成)和慣性測量單元(IMU,集成加速度計、陀螺儀等)用于基本控制。IMU數據會隨時間產生累積誤差,通常需要與視覺傳感器結合校正。
4.1.3 動力系統
動力系統對人形機器人實現精確運動和高效操作至關重要,其選擇和配置直接影響機器人的敏捷性、穩定性、精度和整體操作效率。
伺服電機:高度集成的驅動系統,以高精度、快速響應和出色控制性能為特點,通常用作小型關節和手部組件的驅動器。能實現高精度定位和快速響應,但在高速運行和頻繁啟停時能耗較高。
液壓系統:通過流體壓力傳遞力,主要應用于需要高負載能力和功率的場景,如下肢。能提供較大輸出力和精確力控制,但涉及復雜管道和閥門網絡,能量轉換效率相對較低。
氣動系統:通過壓縮空氣驅動執行器,適合中低負載應用。結構簡單、組件少,維護容易,能快速響應,提供良好的靈活性控制,但精度有限且輸出功率較低。
4.2 軟件架構

人形機器人身體的軟件架構分為操作系統和通信方案。
操作系統:包括實時操作系統(RTOS)和機器人操作系統(ROS)。RTOS如QNX和VxWorks在可靠性和精度方面至關重要,而開源的Xenomai和PREEMPT_RT更經濟實惠。ROS提供了用于構建機器人應用的工具、庫和約定,支持廣泛的硬件平臺。
通信方案:EtherCAT是一種高性能工業以太網協議,在人形機器人中廣泛使用。它實現了控制器與多個伺服驅動器和傳感器之間的實時數據傳輸,具有低延遲、高刷新率和分布式時鐘同步能力。
5. 人形機器人的關鍵技術
人形機器人依賴多種關鍵技術使其能夠自主運行并與環境有效互動,包括環境感知、自主導航、運動控制和智能操作。
5.1 環境感知
環境感知算法使用傳感器信號建模機器人自身狀態及其周圍環境,分為內部狀態估計和外部環境感知。

狀態估計:高精度、低延遲的姿態估計是實現自主導航、人機交互和魯棒控制的基礎。姿態估計通常整合來自多種傳感器的觀測,包括視覺、慣性測量單元和腿部里程計。視覺前端可分為直接方法和間接方法,后端則通過濾波或優化方法解決最大后驗估計問題。
魯棒定位:機器人視覺定位通過將機器人的視覺觀測與預先存在的地圖匹配來估計位置和方向。定位過程包括位置識別(找到最相似的參考幀)和姿態估計(解決當前幀與參考幀之間的相對姿態)。主要挑戰包括視覺外觀變化、視角變化、感知別名和可擴展性。
三維占用預測:三維占用預測輸出體素級狀態和語義標簽,對機器人決策和路徑規劃至關重要。相關研究從MonoScene到VoxFormer、TPVFormer等不斷發展,基準測試如OpenOccupancy和SurroundOcc的建立促進了該領域研究。然而,人形機器人的運動環境比自動駕駛車輛更復雜,對感知模型提出了更高要求。
5.2 自主導航

人形機器人導航框架通常包括全局規劃、局部規劃和腳步規劃三個部分。
全局規劃:傳統全局路徑規劃算法依賴預建地圖,使用圖搜索或基于采樣的方法生成無碰撞路徑。近年來,稀疏拓撲地圖被用于替代密集地圖,減少計算成本,同時保留關鍵信息。多模態導航(使用視覺和語言線索)也是一個新興研究方向。
局部規劃:處理動態障礙物避讓。基于規則的方法使用模塊化設計,計算效率高且可解釋,但適應性有限;基于監督學習的方法從專家示范數據中學習,但依賴數據集分布;基于強化學習的方法通過試錯學習策略,提供靈活性和適應性,但安全性和可解釋性需要增強。
腳步規劃:選擇合適的腳步位置對提高機器人移動性至關重要。啟發式方法在平坦表面有效,而基于優化的方法能根據特定標準找到最優解。近期研究將基于優化的精確軌跡與基于學習的魯棒控制策略相結合,顯著提升了越野性能。
5.3 運動控制
運動控制使人形機器人能在復雜環境中使用四肢導航,面臨在行走、奔跑或穿越不平坦地形時保持平衡的挑戰。
基于模型的方法:核心是平衡控制器,研究基于運動學和動力學建模的穩定性標準和規劃控制方法。穩定性標準如零力矩點(ZMP)、壓力中心(CoP)和捕獲點在人形機器人控制中廣泛采用。質心(CoM)運動規劃方法、混合零動態(HZD)方法和模型預測控制(MPC)也是常用技術。這些方法具有高可解釋性,但依賴準確建模和手動參數調整。

基于學習的方法:利用數據驅動技術從經驗中學習運動策略,適用于傳統模型難以捕捉復雜互動的環境。基于強化學習(RL)的控制器從機器人傳感器接收觀測狀態和參考軌跡,控制機器人動作。運動重定向技術將源角色的運動數據轉移到目標角色,如Holden等人使用共享潛在變量模型適應不同人形角色間的運動。這些方法在處理高自由度、復雜動力學模型和傳感器限制方面表現優異。
5.4 智能操作

智能操作是區分人形機器人與簡單機器人系統的關鍵能力,涉及任務規劃、感知和運動控制的復雜集成。
任務規劃:確定實現特定目標所需的動作序列。包括基于符號推理的任務規劃(如層次化規劃、約束驅動、采樣驅動和基于優化的規劃)、大型語言模型實現的任務規劃(如Ahn等人將LLMs與現實世界背景結合)和基于閉環LLM的自校正任務規劃(如W. Huang等人提出的基于反饋的內在推理機制)。

技能學習:訓練機器人獲取和改進執行任務所需的運動技能。單任務技能學習針對特定動作,如靈巧手操作和雙臂協調;多任務技能學習開發統一策略處理多種任務,利用大型視覺語言模型提取結構化任務和環境信息;長時操作涉及長時間內執行一系列動作的任務,通常通過層次化強化學習或層次化模仿等方法解決。

6. 潛在應用場景
人形機器人有廣泛的潛在應用領域,每個領域提供獨特的機遇和挑戰。
普通工人:隨著工業化國家人口老齡化和勞動力短缺,人形機器人可替代傳統勞動力執行制造業中的重復性和枯燥任務。例如,特斯拉的Optimus在機器人工廠中展示了應用潛力。
互動服務提供者:人形機器人可在餐廳或旅游景點擔任導游,或在公司擔任接待員。如Pepper設計用于在商業環境中幫助人們互動,Promobot可作為博物館工作人員。
家庭助手:隨著技術進步,家庭機器人將更加可靠,不僅協助基本家務,還可照顧老年人和病人,幫助行走、取放物品、進行康復訓練,并監控健康狀況。
探險者和救援者:人形機器人可在危險環境如地下礦山、核電站和火災現場執行任務,甚至進入人類無法到達的區域。NASA的Valkyrie機器人被設想用于空間探索任務。
7. 開放式挑戰與總體趨勢
隨著人形機器人向更廣泛應用邁進,必須解決幾個關鍵挑戰,同時把握新興趨勢,以充分發揮其潛力。

7.1 開放式挑戰
外觀設計:取得類似人類特質與簡化之間的平衡,避免"恐怖谷"效應。擬人化機器人需要更精細的皮膚紋理模擬材料、仿生皮膚和先進觸覺材料,以增強真實感。
情感互動:實現自然微表情需要高自由度執行器、微型化機械設計和柔軟靈活材料。多模態情感感知要求機器人通過視覺、聽覺和觸覺線索讀取人類情感,同時能自動調整并逐漸表達情感。
安全與穩健性:確保人形機器人在獲得更大自主性和互聯性的同時,能抵抗網絡攻擊、故障和不可預測的環境條件,這對敏感領域的部署至關重要。
7.2 總體趨勢
成本效益的機器人平臺:降低研發和制造成本是使人形機器人在消費市場廣泛采用的關鍵。隨著商業化和大規模生產,價格有望下降,促進更廣泛應用。
模塊化和接口標準化:開發標準化、可互換組件的機器人,創造更適應性強的系統,更易維護、升級和定制。這種模塊化方法減少開發時間,降低成本,促進創新。
具身智能:人形機器人需要準確感知環境,包括物體、障礙物和人類情感意圖。自我學習能力、安全性和倫理考慮也至關重要。更靈活的手部結構和抓取操作策略將實現接近自然手部的靈活性和多功能性。
通過解決這些挑戰并順應發展趨勢,人形機器人將朝著具身智能發展,實現更高水平的自主性、靈活性和人機協作,促進在各種領域的廣泛應用,從家庭護理到醫療保健,再到工業服務。
論文鏈接:
https://onlinelibrary.wiley.com/doi/10.1002/smb2.12008
3DCV





京公網安備 11011402013531號