12月17日,讓人形機(jī)器人能夠像人一樣完成裝箱、搬運(yùn)、推車等移動(dòng)操作任務(wù),一直是人們對(duì)具身智能的期待。近日,來(lái)自香港大學(xué)、智元AGIBOT、復(fù)旦大學(xué)和上海創(chuàng)智學(xué)院的聯(lián)合研究團(tuán)隊(duì)提出了WholeBodyVLA,一種面向真實(shí)世界的人形機(jī)器人全身 Vision–Language–Action框架。該工作基于智元靈犀X2研究發(fā)布,將VLA擴(kuò)展至雙足人形機(jī)器人的全身控制,驗(yàn)證了其在全身loco-manipulation任務(wù)中的可行性。

與原地操作相比,loco-manipulation的難點(diǎn)不在于單一技能,而在于行走與操作必須在同一任務(wù)中長(zhǎng)期、穩(wěn)定地協(xié)同發(fā)生。
據(jù)介紹,WholeBodyVLA通過(guò)從人類第一視角視頻中學(xué)習(xí)移動(dòng)與操作的潛在動(dòng)作表示,以降低對(duì)昂貴機(jī)器人遙操作數(shù)據(jù)的依賴。同時(shí),研究團(tuán)隊(duì)設(shè)計(jì)了一種面向移動(dòng)操作的強(qiáng)化學(xué)習(xí)控制器,通過(guò)簡(jiǎn)化控制目標(biāo)來(lái)提升運(yùn)動(dòng)執(zhí)行的穩(wěn)定性。
實(shí)驗(yàn)驗(yàn)證顯示,該框架使機(jī)器人能在不同起始位置走向目標(biāo)并完成操作,并對(duì)場(chǎng)景和物體表現(xiàn)出一部分泛化能力,在干擾地形上也能保持基本的移動(dòng)方向與平衡。研究團(tuán)隊(duì)表示,該工作為將視覺(jué)-語(yǔ)言-動(dòng)作(VLA)范式擴(kuò)展至雙足人形機(jī)器人全身控制提供了可行路徑。








京公網(wǎng)安備 11011402013531號(hào)