人形機(jī)器人自主控制新突破：智元等實(shí)現(xiàn)VLA驅(qū)動(dòng)全身協(xié)同

IP屬地中國·北京 IT之家 時(shí)間：2025-12-17 16:17:53

IT之家 12 月 17 日消息，智元 AGIBOT 今日官宣，來自香港大學(xué)、智元 AGIBOT、復(fù)旦大學(xué)和上海創(chuàng)智學(xué)院的聯(lián)合研究團(tuán)隊(duì)提出了 WholeBodyVLA，這是一種面向真實(shí)世界的人形機(jī)器人全身 Vision–Language–Action 框架。

該工作基于智元靈犀 X2 研究發(fā)布，將 VLA 擴(kuò)展至雙足人形機(jī)器人的全身控制，驗(yàn)證了其在全身 loco-manipulation 任務(wù)中的可行性。

與原地操作相比，loco-manipulation 的難點(diǎn)不在于單一技能，而在于行走與操作必須在同一任務(wù)中長期、穩(wěn)定地協(xié)同發(fā)生。圍繞這一挑戰(zhàn)，WholeBodyVLA 總結(jié)出限制 loco-manipulation 發(fā)展的兩個(gè)核心問題：真機(jī)數(shù)據(jù)稀缺以及運(yùn)動(dòng)執(zhí)行中的不穩(wěn)定性，并引入兩項(xiàng)關(guān)鍵方案：
從人類視頻中學(xué)習(xí)：通過從第一視角人類視頻中學(xué)習(xí)移動(dòng)與操作的潛在動(dòng)作表示，模型能夠不依賴大規(guī)模機(jī)器人遙操數(shù)據(jù)，直接獲取對(duì) loco-manipulation 行為的統(tǒng)一語義理解，從而顯著緩解人形機(jī)器人遙操作數(shù)據(jù)稀缺、采集成本高的問題。面向移動(dòng)操作的 RL 控制器：將通用連續(xù)運(yùn)動(dòng)控制目標(biāo)簡化為一組離散運(yùn)動(dòng)指令，僅保留 loco-manipulation 必要的強(qiáng)化學(xué)習(xí)訓(xùn)練目標(biāo)，從而顯著提升了控制器在運(yùn)動(dòng)執(zhí)行時(shí)的穩(wěn)定性。
研究團(tuán)隊(duì)在智元靈犀 X2 人形機(jī)器人上進(jìn)行了大量真機(jī)實(shí)驗(yàn)驗(yàn)證，發(fā)現(xiàn) WholeBodyVLA 具有以下能力：
01、 大范圍、長程移動(dòng)操作任務(wù)

02、 距離泛化性
得益于統(tǒng)一潛在動(dòng)作學(xué)習(xí)階段獲取的 manipulation-aware locomotion 知識(shí)，WholeBodyVLA 能從不同的位置出發(fā)、并停止在目標(biāo)物體處完成操作任務(wù)。

03、 操作泛化性
得益于統(tǒng)一潛在動(dòng)作學(xué)習(xí)階段獲取的 manipulation 知識(shí)，WholeBodyVLA 也對(duì)不同的場景、物體、位置表現(xiàn)出一定的操作泛化性。

04、 地形泛化性
得益于 LMO 改進(jìn)的運(yùn)控穩(wěn)定性，WholeBodyVLA 能夠在干擾地形上仍然保持基本準(zhǔn)確的移動(dòng)方向和平衡。

總的來說，WholeBodyVLA 展示了 VLA 擴(kuò)展到雙足人形機(jī)器人自主全身控制的可行路徑。通過從人類視頻中學(xué)習(xí)，并結(jié)合針對(duì)移動(dòng)操作的 RL 控制器，WholeBodyVLA 使機(jī)器人能夠在真實(shí)世界中穩(wěn)定完成行走與操作交織的長時(shí)序任務(wù)，為推動(dòng)人形機(jī)器人走向制造、服務(wù)、物流等復(fù)雜場景提供重要基礎(chǔ)。

IT之家附項(xiàng)目鏈接如下：

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

Windows 11任務(wù)欄至今仍無法自由移動(dòng)！微軟終于給出原因：沒用舊代碼

東安動(dòng)力首臺(tái)轉(zhuǎn)子發(fā)動(dòng)機(jī)R05E點(diǎn)火成功，2027年量產(chǎn)

挑戰(zhàn)液態(tài)海洋共識(shí)：NASA研究稱土衛(wèi)六含太陽系最大“冰沙”

曝TikTok交易達(dá)成，美國和字節(jié)跳動(dòng)各掌握一家公司

AI賦能流程神州數(shù)碼汽車行業(yè)AI 應(yīng)用落地研討會(huì)在滬舉辦

希迪智駕港交所上市，成港股首家商用車智能駕駛公司

全站最新

Windows 11任務(wù)欄至今仍無法自由移動(dòng)！微軟終于給出原因：沒用舊代碼

東安動(dòng)力首臺(tái)轉(zhuǎn)子發(fā)動(dòng)機(jī)R05E點(diǎn)火成功，2027年量產(chǎn)

挑戰(zhàn)液態(tài)海洋共識(shí)：NASA研究稱土衛(wèi)六含太陽系最大“冰沙”

曝TikTok交易達(dá)成，美國和字節(jié)跳動(dòng)各掌握一家公司

熱門推薦

基于阿里千問，烏干達(dá)打造本土大模型

比亞迪正式進(jìn)入伊拉克市場，推出BYD SHARK 6

金沙酒業(yè)營銷負(fù)責(zé)人更迭，王維龍離職，韓玉國接棒

Windows 11任務(wù)欄至今仍無法自由移動(dòng)！微軟終于給出原因：沒用舊代碼

東安動(dòng)力首臺(tái)轉(zhuǎn)子發(fā)動(dòng)機(jī)R05E點(diǎn)火成功，2027年量產(chǎn)

挑戰(zhàn)液態(tài)海洋共識(shí)：NASA研究稱土衛(wèi)六含太陽系最大“冰沙”

曝TikTok交易達(dá)成，美國和字節(jié)跳動(dòng)各掌握一家公司

AI賦能流程神州數(shù)碼汽車行業(yè)AI 應(yīng)用落地研討會(huì)在滬舉辦

希迪智駕港交所上市，成港股首家商用車智能駕駛公司

千問App辟謠：全員大會(huì)集體吃豆包圖是AI生成的

你的“大廠經(jīng)驗(yàn)”，在AI面前可能一文不值

科學(xué)與健康|改寫生命演化史！2025我國古生物學(xué)研究在多領(lǐng)域取得突破

他設(shè)計(jì)的手機(jī)賣了1.5億臺(tái) | 我們的四分之一世紀(jì)

VEX機(jī)器人亞洲公開賽在京開幕，全球近30國青少年選手參賽

拼多多：趙佳臻獲任聯(lián)席董事長，與陳磊共同擔(dān)任集團(tuán)聯(lián)席董事長兼聯(lián)席CEO