henry 發自 凹非寺
量子位 | 公眾號 QbitAI
做靈巧手如果不會用工具,跟咸魚(夾爪)有什么區別?
別急,能擰螺絲、掄錘子,玩“轉”各類工具的靈巧手,這就來了。

上面這位擰螺絲的“老師傅”,出自銀河通用最新推出的靈巧手神經動力學模型DexNDM
在DexNDM的加持下,靈巧手實現了從能動到能用的飛躍,通過分布有偏的真實數據訓練,無需成功示例,即可精準彌合Sim2Real鴻溝,首次讓通用靈巧手能夠對多類物體實現穩定、多姿態、多軸向的旋轉操作。
跨物體精準操控:從微小零件到大書本、長棍、復雜幾何體,首次實現跨類別、跨尺寸、跨姿態的穩定旋轉。任意姿態多軸旋轉:無論手掌朝上、朝下或側向,均能沿任意軸向進行穩定、持續的旋轉。高靈巧高魯棒遙操作:可自如地抓、轉、擰各類工具,勝任擰螺絲、家具組裝等長程、復雜操作任務。彌合Sim2Real的鴻溝:無需成功操作數據,僅憑分布有偏的真實數據即可完成高精度學習,克服靈巧操作Sim2Real的差距,實現了“從0到1”的突破。

這下,離流水線和廚房里的靈巧機器人,真不遠了!
手內操作的通用策略
如上所述,DexNDM的核心突破在于首次在真實世界中突破了手掌任意朝向的物體旋轉限制,實現了跨物體、跨姿態的穩定手內旋轉(In-Hand Rotation)工具操作(Tool Use)
具體來說,DexNDM能在極具挑戰的手腕姿態下(如手掌朝下或側向),實現長物體沿長邊的連續旋轉,以及小物體在多種轉軸下的穩定旋轉。
![]()
在操作對象上,DexNDM能處理從小型到細長、從簡單幾何到復雜結構的多種物體。
![]()
那么,這是怎么做到的呢?
![]()
這里的關鍵在于DexNDM的關節級神經動力學模型( JOINT-WISE NEURAL DYNAMICS MODEL)
不同于以往整手建模的方式,DexNDM將復雜的手–物交互拆解到關節級,讓每個關節獨立預測自身的下一狀態,完成整手的運動預測。
這種分解不僅顯著提升了數據利用效率,還能增強模型在不同物體、姿態下的泛化能力。
為了學習到具有良好泛化性的動力學模型,團隊開發了一套全自動數據收集策略
![]()
在任務無關的隨機擾動下,機器人能自主生成豐富的接觸數據,不用人工重置,也不會頻繁“翻車”。
這樣,模型可以在廉價、可擴展的數據上學習到足夠豐富的交互動力學。
基于此,研究者進一步訓練了一個殘差策略網絡,用于彌合仿真到現實的差距,使仿真中學到的基礎策略能夠順利遷移到真實世界。
在策略學習上,DexNDM采用了“從專家到通才(expert-to-generalist)”的訓練流程:
先針對不同長寬比與幾何復雜度的物體訓練多個專家策略,再將它們融合提煉為一個統一的通用策略,從而實現跨任務、跨形態的穩定操作。
仿真與真實環境的測試表明,DexNDM的操作靈活性、魯棒性與泛化能力都得到了顯著提升:
不僅首次在手掌朝下的姿態下,實現了10–16cm長物體沿長軸的空中完整旋轉,還能夠穩定泛化到更多、更具挑戰性的物體類型。
![]()
此外,研究還將這套通用旋轉策略作為底層技能接入遙操作系統
操作者只需通過VR控制器給出臂端位姿或旋轉軸等高層指令,DexNDM即可自主完成手指層面的精細控制。
這種方式克服了傳統遙操作在精細操作中的根本難題——人手與機械手在自由度、傳感和動力學上的不匹配。
借助DexNDM,機器人不僅能“抓得穩、放得準”,還能完成復雜的、涉及旋轉的手—物—物交互,實現工具使用與長程裝配等對系統魯棒性要求極高的任務,真正邁向“能轉能用”的靈巧操作。
從簡單抓取到精細操作
值得一提的是,DexNDM解決的是機器人研究中最具挑戰性的手內操作中的關鍵問題——手內旋轉(in-hand rotation)。
這一突破之所以意義重大,是因為它直接推動了機器人從簡單能力向精細操作能力的跨越。
整體來看,機器人的能力大致可分為運動能力操作能力兩類。
運動能力,是我們熟悉的“跑”“跳”“翻”——以及保持全身穩定的whole-body control
如今,機器人不再需要被繩子吊著防摔,甚至在人為干擾下仍能穩住身形,各種翻跟頭、跳舞的demo展示也是層出不窮。
而站穩之后,想讓機器人真正具備生產力,關鍵還在于——操作(manipulation)
![]()
所謂操作,就是機器人真正“動手干活”的能力,它包括:
抓取:改變物體相對于機器人本體的位置,如拿起/放下物體。環境輔助操作:借助外界完成任務,如桌子,平臺等。柔性物體操作:處理衣物、繩索、液體等。手內操作:在不借助外部環境或支撐的情況下,僅通過機械手的手指運動和調整抓取姿勢來改變物體在手掌中的位置和姿態,如DexNDM對應的手內旋轉。工具操作:涉及與環境或另一個物體持續、強烈的物理接觸,通常用于完成特定的精細任務。
雖然目前大部分的末端執行器都能很好地完成抓取任務,但簡單抓取的應用范圍十分有限,主要集中在上下料、分揀等場景,遠未觸及真正的工業級生產力。
因此,靈巧操作必須從“能抓能放”邁向“能轉能用”,以實現更復雜、更精細的動作。
然而,這恰恰是機器人研究中最難啃的骨頭。
機器人先驅Rodney Brooks曾說:
靈巧操作是通用機器人部署中最艱難的前沿。
原因很簡單,靈巧手雖帶來了比夾爪更高的自由度,但也帶來了成倍的控制難度。
馬斯克也曾感嘆:
人類的手極其精密復雜……它可以揮棒、穿針、彈琴,也能拆車裝車。若要造出真正通用的人形機器人,必須先解決手的問題。
![]()
可以說,想實現真正通用的靈巧操作,就必須攻克靈巧手的精細操作。
其中,手內旋轉和工具使用能力正成為學界研究的焦點,代表了靈巧操作向更高維度發展的趨勢。
前者讓機器人能靈活調整抓取姿態,使操作更順手,后者則讓機器人真正能“干活”,擰螺絲、砸釘子、切割、組裝。
但這兩項能力,也正是難度的巔峰。它們涉及復雜且快速變化的手–物接觸和手–物–物交互,是靈巧操作皇冠上的明珠。
而DexNDM的突破,就在于此。它同時攻克了“旋轉”和“使用”這兩大難題:既能實現高精度的手內旋轉,也能靈活處理多種工具的操作任務。
更重要的是,只有當機器人能可靠地完成這類操作,語言、視覺等高層智能規劃,才能真正落地為具體的動作與執行。
這正是通用機器人與具身智能落地的關鍵瓶頸。
不過,要做到這一點,并不容易。
通用的手內旋轉策略
直觀地看,在擰螺絲這樣的場景中,靈巧手無法像手掌朝上時那樣依賴重力來穩定物體。
為了不讓螺絲刀滑落,模型必須精確控制更多的自由度,實現對姿態、力和接觸的協調控制。
過去的手內操作方法大多只能處理特定物體或固定姿態,依賴昂貴或定制化硬件,難以推廣到更通用的場景。
其根源在于靈巧手本身的高自由度(人手有21個自由度,加上手腕就有27個自由度)與復雜耦合:關節彼此影響,手與物體之間的接觸不斷變化,建模極其困難。
再加上執行過程中存在自遮擋、傳感不完全等問題,模型往往無法準確捕捉這些微妙的動力學細節。
更棘手的是,仿真與現實之間的動力學差距依舊巨大。許多策略在仿真環境下表現完美,一旦進入現實就“翻車”。而想依靠真實數據修正,又要承擔高昂的采集成本和失敗風險。
例如,CMU與meta在《Science Robotics》封面論文 “NeuralFeels with Neural Fields” 中引入視覺-觸覺融合模型,以彌補純視覺感知的不足,但依然難以跨越Sim-to-Real的鴻溝。
![]()
ICRA 2023的BACH (Belt-Augmented Compliant Hand) 則通過皮帶增強的柔性機械手實現了手腕向下的旋轉操作,但這種特殊結構難以遷移,也帶來了額外的硬件成本。

類似地,DexCtrl在旋轉軸通用性上取得進展,卻仍受限于物體復雜度。
![]()
而DexGen雖能執行擰螺絲任務,卻缺乏對目標物體運動的精確控制。

在這些方法中,我們可以窺見,當前的手內操作方法往往局限于特定場景(如固定手腕朝向)、只能處理有限集合的常規物體,或依賴昂貴、定制化硬件。即便在單一維度(如旋轉軸)上實現了通用性,仍難以在多維操作中保持穩定表現。
在這樣的背景下,DexNDM實現了實質性飛躍——首次構建了能夠跨物體類別、跨姿態任務的通用手內操作策略。
它不僅為遙操作系統的數據生成與策略遷移提供了堅實基礎,也為靈巧操作的工業化落地奠定了條件:樣本效率更高、泛化性更強、能力可復用,為具身智能研究提供了新的底層基礎設施。
同時,遙操應用也可進一步擴展至廣泛的任務類型,協助獲取各類任務所需的操作數據。
生產力即產品
DexNDM的意義不僅在于一個新的模型,更在于它推動了靈巧操作這一“皇冠上的明珠”從學術研究走向了可復用的生產力基礎設施。
從最初的搬箱、上下料,到如今能擰螺絲、砸釘子、裝配家具、使用工具,靈巧操作正逐步從機械重復勞動者,進化為真正具備操作智慧的“生產力單元”。
借助這一底層能力,機器人不再局限于演示性的“抓取放置”,而能在工業裝配、家具組裝、工具使用等多場景中實現可擴展部署,持續提升實際生產力。
在典型的裝配任務中,這一“能干活的機器人”的雛形已初現端倪:
第一步,靈巧手使用螺絲刀,將電路板核心部件固定。
它能在手內微調螺絲刀的姿態,使其在最順手的角度下施力;對準M2微小螺絲孔后,精準施壓旋入,既不打滑也不損板。
第二步,安裝音量旋鈕。
五指協同穩握木質旋鈕,調整內螺紋與軸心對位后,完成大角度旋轉——就像擰緊瓶蓋那樣流暢。
第三步,安裝裝飾性部件。
靈巧手先夾持鉚釘定位,再旋轉調整小錘的握姿,輕敲入位,力量精準、節奏分明。
這三步展示了從手內旋轉到多指協調、從靜態操作到動態敲擊的全鏈路靈巧控制,也標志著靈巧操作正在從“抓取”走向“使用工具”,從“重復動作”邁向“任務理解”,成為真正的生產力。
正如銀河通用機器人創始人、CTO王鶴所說:
如果大模型提倡的是智能即產品,那么具身智能提倡的就是生產力即產品。
最后,讓我們回到開頭的問題:靈巧手和夾爪的區別是什么?
——生產力。
論文鏈接:https://arxiv.org/abs/2510.08556
項目網站:https://meowuu7.github.io/DexNDM/





京公網安備 11011402013531號