![]()
實現(xiàn)通用機器人的類人靈巧操作能力,是機器人學領域長期以來的核心挑戰(zhàn)之一。近年來,視覺 - 語言 - 動作 (Vision-Language-Action,VLA) 模型在機器人技能學習方面展現(xiàn)出顯著潛力,但其發(fā)展受制于一個根本性瓶頸:高質量操作數(shù)據(jù)的獲取。
ByteDance Seed 團隊最新的研究論文《End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy》[1],針對這一關鍵問題提出了解決方案。
該研究的核心貢獻在于提出了共享自主 (Shared Autonomy) 框架,通過合理劃分人類操作員與自主 AI 系統(tǒng)的控制職責——人通過 VR 遙操作控制機械臂 (負責高層定位和避障),DexGrasp-VLA 自主控制靈巧手 (負責精細抓握),消除了同時遙操作臂和靈巧手的需求,大幅降低操作員認知負荷,有效解決了機器人部署中最關鍵的數(shù)據(jù)采集成本問題。通過將數(shù)據(jù)采集效率提升至可規(guī)模化的水平,它為靈巧操作技術從實驗室走向工業(yè)應用奠定了基礎。
![]()
Data collection and training pipeline for DexGrasp-VLA policy and arm-hand VLA policies.[1]
觸覺增強的 DexGrasp-VLA 策略通過共享自主框架高效采集數(shù)據(jù),結合臂手特征增強模塊訓練端到端策略,并通過糾正性人機閉環(huán)實現(xiàn)持續(xù)優(yōu)化。
基于共享自主框架的端到端機械臂 - 靈巧手 VLA 策略學習:通過 DexGrasp AI 進行高效遙操作:
![]()
https://mp.weixin.qq.com/s/g2mk5elCiAhnjZ5A8dLbeQ
一、四大核心:實現(xiàn)了從數(shù)據(jù)采集到策略優(yōu)化的閉環(huán)
論文的核心問題在于如何為高自由度靈巧手 + 機械臂系統(tǒng)高效地采集高質量的演示數(shù)據(jù),以訓練出具備通用操作能力的 VLA 策略。高自由度五指靈巧手的控制復雜度遠超傳統(tǒng)的兩指夾爪,對數(shù)據(jù)質量和控制精度提出了更高的要求。
![]()
該研究構建了一個由四大核心模塊組成的完整技術體系,實現(xiàn)了從數(shù)據(jù)采集到策略優(yōu)化的閉環(huán)。
1. 核心策略: DexGrasp-VLA,打造共享自主框架的基石
DexGrasp-VLA 是一個專為靈巧手設計的自主抓取策略,是本文共享自主框架的基石。它是一個多模態(tài) VLA 模型,其輸入不僅包括語言指令、視覺和本體感知,更關鍵的是集成了觸覺反饋。
該策略的實現(xiàn)得益于其所搭載的靈巧手 - 星動紀元星動 XHAND1 的硬件能力。星動 XHAND1 是一款全直驅 12 自由度的五指靈巧手,其指尖集成了高分辨率的觸覺傳感器。這些傳感器能夠提供合力向量和空間接觸分布(環(huán)繞指端 270 度,120 點空間觸覺陣列)兩種關鍵觸覺特征。DexGrasp-VLA 正是利用這些高保真度的觸覺數(shù)據(jù),實現(xiàn)了力適應性抓取 (Force-Adaptive Grasping),能夠根據(jù)物體的形態(tài)而動態(tài)調整握力,從而在不捏碎易碎品的同時穩(wěn)固抓取重物。
![]()
Tactile-based DexGrasp-VLA for hand control [1]
在雜亂桌面場景中使用 DexGrasp-VLA 進行清桌操作。
![]()
https://mp.weixin.qq.com/s/g2mk5elCiAhnjZ5A8dLbeQ
2. 人機臂手協(xié)同共享框架,高效采集高質量操作數(shù)據(jù)
共享自主框架將控制任務按照運動域進行拆分:
人類操作者通過 VR 端主要負責機械臂的大范圍移動與整體姿態(tài)控制;DexGrasp-VLA則專注于自主控制星動 XHAND 1 靈巧手的 12 個獨立自由度,實現(xiàn)精細操作。
![]()
Fully manual teleoperation versus the proposed Shared Autonomy [1]
這樣的設計源于臂與手在運動學本質上的巨大差異 —— 機械臂強調穩(wěn)定、連續(xù)、較長時間尺度的軌跡控制,而靈巧手則必須處理柔順接觸、快速響應與高頻細節(jié)動作。正因如此,將復雜度最高的手部控制交由 AI 自動處理,可以顯著減輕人類操作者的認知及操作負擔。操作者無需再時刻處理每一根手指的微小動作,只需專注于大方向和策略性決策。
最終,這套分工機制讓系統(tǒng)能夠更高效地采集高質量的臂手協(xié)同演示數(shù)據(jù),為后續(xù)訓練具備通用操作能力的 VLA 策略打下穩(wěn)定基礎。
3. 臂手特征增強模塊,實現(xiàn)更自然、更魯棒的宏觀 - 微觀動作協(xié)調
為了解決臂手協(xié)調這一復雜問題,論文提出了臂手特征增強 (Arm-Hand Feature Enhancement) 模塊。
![]()
Arm-hand feature enhancement for the VLA policy [1]
該模塊旨在建模和融合臂和手在運動學上的差異特征。它采用三流架構:共享任務表示、手臂專用編碼器和手部專用編碼器。這種解耦設計避免了傳統(tǒng)單體架構模型對臂手差異的忽視,使得最終的策略能夠實現(xiàn)更自然、更魯棒的宏觀 - 微觀動作協(xié)調。
4. 持續(xù)優(yōu)化機制:糾正性人機閉環(huán),讓機器人能夠從失敗中學習
該研究引入了糾正性人機閉環(huán) (Corrective Human-in-the-Loop) 機制,讓機器人能夠從失敗中學習。當機器人抓取失敗時,人類操作員可以立即接管并演示正確的操作方法。系統(tǒng)會自動記錄這次失敗的過程和人類糾正后的成功過程,并將這兩段數(shù)據(jù)作為「難題案例」加入訓練集。
通過這種方式,策略能夠不斷迭代優(yōu)化,逐步學會應對各種邊緣案例 (corner cases), 變得越來越聰明和可靠。
![]()
Corrective human-in-the-loop teleoperation system [1]
端到端的機械臂 - 靈巧手 VLA 策略
![]()
https://mp.weixin.qq.com/s/g2mk5elCiAhnjZ5A8dLbeQ
二、星動 XHAND1 全直驅 + 觸覺顯著提升策略的協(xié)調性和魯棒性
![]()
Hardware setup of the integrated robotic system.[1]
硬件平臺:主要使用星動 XHAND1 靈巧手和 UR3e 機械臂。為驗證泛化性,還使用了 RY-H2 靈巧手。視覺系統(tǒng): 3 臺 RGB-D 相機 (2 臺外部,1 臺腕部),提供多視角視覺輸入。測試對象:超過 50 種日常物品,包括未在訓練中見過的物體,以測試泛化能力。觸覺感知的有效性星動 XHAND1 提供的高保真觸覺反饋是實現(xiàn)魯棒抓取的必要條件。當視覺被剝奪時,正是星動 XHAND1 的觸覺傳感器陣列提供了維持穩(wěn)定抓握所需的信息。實驗數(shù)據(jù)顯示:
![]()
無觸覺:成功率僅為 21%。僅有觸覺合力反饋:成功率提升至 70%。合力反饋 + 空間觸覺分布:成功率高達 90%。這種高成功率直接來源于星動 XHAND1 的兩個特性:高靈敏度觸覺:能夠精確感知與易碎品接觸時的微小力變化高精度位控:能夠根據(jù)觸覺反饋,精確輸出目標位置,避免捏碎物體
![]()
![]()
Representative cases of grasping cylindrical and spherical objects, visualizing the distribution of surface contacts measured by tactile sensors at fingertips.[1]
臂手特征增強模塊的有效性對比了使用和不使用「臂手特征增強模塊」的策略在三個場景下的表現(xiàn): (1) 星動 XHAND1 (12-DoF 全主動,270° 環(huán)繞觸覺陣列 (120 點)); (2) RY-H2 (11-DoF:6 主動 + 5 欠驅動,無觸覺); (3) 遮擋右側相機。此外對比欠驅的 RY-H2,算法能夠更充分地利用全直驅 星動 XHAND1 的多關節(jié)靈活性,實現(xiàn)更自然的協(xié)調動作
![]()
此結果證明該模塊顯著提升了策略的協(xié)調性和魯棒性。糾正性人機閉環(huán)的有效性通過不斷注入人類糾正的失敗案例 (如物體方向錯誤、位置在角落等),迭代訓練策略。該機制能有效實現(xiàn)策略的持續(xù)改進和對邊緣案例的泛化。
三、靈巧操作高質量數(shù)據(jù)采集效率提升 25%
該研究通過提出共享自主框架,推動了靈巧操作領域高質量數(shù)據(jù)采集效率提升 25%,使單人每小時可采集更多條數(shù)據(jù),并將完整開發(fā) - 部署周期壓縮至一天以內,從根本上解決了 VLA 模型訓練的數(shù)據(jù)瓶頸問題。
該研究通過在超過 50 種物體上實現(xiàn)約 90% 的抓取成功率這一接近工業(yè)標準的性能水平,推動了靈巧操作技術從概念驗證向實際部署的關鍵跨越,為機器人在柔性制造、智能物流和服務機器人等領域的大規(guī)模應用鋪路。
![]()
Grasping diverse objects with variations in size, color, and material properties.[1]
未來工作
論文展望了三個主要的未來研究方向。當前框架主要在抓取任務上得到了驗證,未來可以通過引入更多專用的 AI 輔助控制器 (VLA Copilot 模塊),將其拓展至物體重定向、精密插放和長時程操作等更復雜的場景。
雖然觸覺反饋對抓取穩(wěn)定性至關重要,但在端到端臂手控制中仍面臨噪聲干擾和時序錯位等挑戰(zhàn),因此需要探索更智能的融合機制,例如根據(jù)任務階段動態(tài)調整觸覺、視覺和本體感受的權重。
此外,當前的糾正機制仍需人工介入,這在一定程度上限制了系統(tǒng)的可擴展性。未來可以借助強化學習實現(xiàn)系統(tǒng)的自主錯誤識別和恢復,并利用視覺 - 語言模型感知任務復雜度和環(huán)境風險,智能地決定何時獨立運行、何時請求人類協(xié)助,最終實現(xiàn)從人機協(xié)作向完全自主的平滑過渡。
參考文獻
[1] End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy: VR Teleoperation Augmented by Autonomous Hand VLA Policy for Efficient Data Collection. ByteDance Seed. 2025.(https://arxiv.org/pdf/2511.00139)





京公網(wǎng)安備 11011402013531號