IT之家 12 月 17 日消息,智元 AGIBOT 今日官宣,來自香港大學(xué)、智元 AGIBOT、復(fù)旦大學(xué)和上海創(chuàng)智學(xué)院的聯(lián)合研究團(tuán)隊(duì)提出了 WholeBodyVLA,這是一種面向真實(shí)世界的人形機(jī)器人全身 Vision–Language–Action 框架。
![]()
該工作基于智元靈犀 X2 研究發(fā)布,將 VLA 擴(kuò)展至雙足人形機(jī)器人的全身控制,驗(yàn)證了其在全身 loco-manipulation 任務(wù)中的可行性。




與原地操作相比,loco-manipulation 的難點(diǎn)不在于單一技能,而在于行走與操作必須在同一任務(wù)中長期、穩(wěn)定地協(xié)同發(fā)生。圍繞這一挑戰(zhàn),WholeBodyVLA 總結(jié)出限制 loco-manipulation 發(fā)展的兩個(gè)核心問題:真機(jī)數(shù)據(jù)稀缺以及運(yùn)動(dòng)執(zhí)行中的不穩(wěn)定性,并引入兩項(xiàng)關(guān)鍵方案:
從人類視頻中學(xué)習(xí):通過從第一視角人類視頻中學(xué)習(xí)移動(dòng)與操作的潛在動(dòng)作表示,模型能夠不依賴大規(guī)模機(jī)器人遙操數(shù)據(jù),直接獲取對(duì) loco-manipulation 行為的統(tǒng)一語義理解,從而顯著緩解人形機(jī)器人遙操作數(shù)據(jù)稀缺、采集成本高的問題。面向移動(dòng)操作的 RL 控制器:將通用連續(xù)運(yùn)動(dòng)控制目標(biāo)簡化為一組離散運(yùn)動(dòng)指令,僅保留 loco-manipulation 必要的強(qiáng)化學(xué)習(xí)訓(xùn)練目標(biāo),從而顯著提升了控制器在運(yùn)動(dòng)執(zhí)行時(shí)的穩(wěn)定性。
研究團(tuán)隊(duì)在智元靈犀 X2 人形機(jī)器人上進(jìn)行了大量真機(jī)實(shí)驗(yàn)驗(yàn)證,發(fā)現(xiàn) WholeBodyVLA 具有以下能力:
01、 大范圍、長程移動(dòng)操作任務(wù)

02、 距離泛化性
得益于統(tǒng)一潛在動(dòng)作學(xué)習(xí)階段獲取的 manipulation-aware locomotion 知識(shí),WholeBodyVLA 能從不同的位置出發(fā)、并停止在目標(biāo)物體處完成操作任務(wù)。


03、 操作泛化性
得益于統(tǒng)一潛在動(dòng)作學(xué)習(xí)階段獲取的 manipulation 知識(shí),WholeBodyVLA 也對(duì)不同的場景、物體、位置表現(xiàn)出一定的操作泛化性。


04、 地形泛化性
得益于 LMO 改進(jìn)的運(yùn)控穩(wěn)定性,WholeBodyVLA 能夠在干擾地形上仍然保持基本準(zhǔn)確的移動(dòng)方向和平衡。


總的來說,WholeBodyVLA 展示了 VLA 擴(kuò)展到雙足人形機(jī)器人自主全身控制的可行路徑。通過從人類視頻中學(xué)習(xí),并結(jié)合針對(duì)移動(dòng)操作的 RL 控制器,WholeBodyVLA 使機(jī)器人能夠在真實(shí)世界中穩(wěn)定完成行走與操作交織的長時(shí)序任務(wù),為推動(dòng)人形機(jī)器人走向制造、服務(wù)、物流等復(fù)雜場景提供重要基礎(chǔ)。
![]()
IT之家附項(xiàng)目鏈接如下:





京公網(wǎng)安備 11011402013531號(hào)