封面新聞?dòng)浾?邊雪
12 月 18 日,封面新聞?dòng)浾邚谋本┤诵螜C(jī)器人創(chuàng)新中心獲悉,國內(nèi)首個(gè)且唯一通過具身智能國標(biāo)測試的具身VLA大模型 XR-1,以及配套的數(shù)據(jù)基礎(chǔ)RoboMIND 2.0、ArtVIP最新版開源。基于上述開源成果,能夠推動(dòng)具身智能行業(yè)追尋最本質(zhì)需求,讓機(jī)器人真正在各類應(yīng)用場景下能干活并且會(huì)干活,推動(dòng)國內(nèi)具身智能行業(yè)邁向“全自主、更好用”的新階段。
據(jù)工作人員介紹,聚焦“讓機(jī)器人能干活、會(huì)干活”的核心訴求,北京人形打造了通用機(jī)器人平臺(tái)“具身天工”、通用具身智能平臺(tái)“慧思開物”。圍繞“具身天工”平臺(tái),北京人形已發(fā)布具身天工2.0、天軼2.0等多類型通用本體,為人形機(jī)器人干活奠定物理本體基礎(chǔ)。而具身大腦和小腦的協(xié)同是人形機(jī)器人干活的另一前提,目前圍繞“慧思開物”,北京人形已開源WoW(我悟)世界模型和Pelican-VL(天鶘)等具身大腦相關(guān)成果。
本次開源的系列內(nèi)容,是面向具身小腦能力的VLA模型XR-1,以及為XR-1等模型提供數(shù)據(jù)訓(xùn)練支持的RoboMIND 2.0和ArtVIP。
當(dāng)前,具身智能行業(yè)面臨著一個(gè)核心痛點(diǎn):AI 技術(shù)雖能實(shí)現(xiàn)文本創(chuàng)作、視頻生成等虛擬場景應(yīng)用,但機(jī)器人在物理世界中往往難以完成 “拿東西”“遞東西” 等基礎(chǔ)任務(wù),這背后是 “視覺感知” 與 “動(dòng)作執(zhí)行” 的割裂。
機(jī)器人雖能識(shí)別物體,卻只能依賴預(yù)設(shè)指令執(zhí)行動(dòng)作,如同 “只會(huì)死記硬背的笨學(xué)生”,一旦環(huán)境出現(xiàn)微小變化便會(huì)失效。為啃下這塊技術(shù)硬骨頭,北京人形聚焦核心技術(shù)攻堅(jiān),打造出具備 “知行合一”能力的XR-1具身小腦大模型。

機(jī)器人拿取物品。(受訪者供圖)
值得注意的是,北京人形首創(chuàng)的UVMC(多模態(tài)視動(dòng)統(tǒng)一表征)技術(shù)是關(guān)鍵,通過它,能夠搭建起視覺與動(dòng)作的映射橋梁,讓機(jī)器人將看到的畫面瞬間轉(zhuǎn)化為身體的本能反應(yīng),像人類條件反射般自然做出正確的應(yīng)對(duì)動(dòng)作。例如:機(jī)器人在執(zhí)行倒水任務(wù)時(shí)看到正在倒水的杯子被拿走了,就本能地停止倒水;當(dāng)杯口被遮住,就自然地?fù)荛_遮住的人手,繼續(xù)倒。 這一關(guān)鍵的技術(shù)創(chuàng)新讓機(jī)器人具備了“本能反應(yīng)”,可以游刃有余地應(yīng)對(duì)復(fù)雜多變的現(xiàn)實(shí)世界,以及工作場景中的突發(fā)情況,從而真正做到全自主完成工作任務(wù)。
XR-1的多構(gòu)型預(yù)訓(xùn)練能力,使具身天工2.0具備全身多關(guān)節(jié)絲滑擬人控制,可實(shí)現(xiàn)大幅彎腰下蹲并精準(zhǔn)抓取隨機(jī)擺放的物料箱,完成復(fù)雜倒料任務(wù);物料分揀任務(wù)需要機(jī)器人具備精準(zhǔn)識(shí)別和高動(dòng)態(tài)抓取零件以及準(zhǔn)確分類的能力,基于XR-1框架微調(diào)后的輕量級(jí)VLA模型,使得機(jī)器人具備快速精確物料分揀能力。
在業(yè)內(nèi)首個(gè)連續(xù)開關(guān)穿行5扇門的任務(wù)場景中,機(jī)器人面對(duì)綠色柵欄門時(shí),能主動(dòng)展開雙臂適配結(jié)構(gòu)并協(xié)同底盤通過;遇到藍(lán)色下壓把手門,便自然下壓推門;穿越紅色窄門時(shí)動(dòng)態(tài)收肩調(diào)姿;推開黑色重門時(shí)穩(wěn)力同步前行;識(shí)別推拉門后則沿軌精準(zhǔn)滑動(dòng)。關(guān)門階段更可反向切換推拉策略,全程無需人工干預(yù)。這一能力源于XR-1模型對(duì)場景的實(shí)時(shí)理解與動(dòng)作預(yù)測,讓天軼2.0真正具備了在復(fù)雜環(huán)境中“看得懂、做得對(duì)、走得穩(wěn)”的全自主操作本能。
剛剛過去的11月,由中國電子技術(shù)標(biāo)準(zhǔn)化研究院基于編制中的國家標(biāo)準(zhǔn)《人工智能具身智能大模型系統(tǒng)技術(shù)要求》正式發(fā)布了“求索”具身智能測評(píng)基準(zhǔn)EIBench,同時(shí)邀請(qǐng)了多家國內(nèi)頂尖具身智能團(tuán)隊(duì)參與了首次測評(píng)。在本次測評(píng)中,北京人形機(jī)器人創(chuàng)新中心的XR-1模型成為了唯一一個(gè)通過測試的VLA模型,獲得CESI-CTC-20251103具身智能測試證書,也成為了全國首個(gè)獲此殊榮的VLA模型。
“為解決具身智能優(yōu)質(zhì)數(shù)據(jù)的稀缺問題,北京人形在2024年12月推出了大規(guī)模多構(gòu)型智能機(jī)器人數(shù)據(jù)集和Benchmark——RoboMIND,發(fā)布后吸引全球眾多頂尖實(shí)驗(yàn)室與開發(fā)者接入使用,累計(jì)下載量已超15萬次。”據(jù)工作人員介紹,在RoboMIND 1.0階段,包含了10萬條機(jī)器人操作軌跡,覆蓋4種機(jī)器人本體,涉及5大場景下的479個(gè)任務(wù)、38種技能,并且引入了ACT、DP、OpenVLA、RDT 4種模型驗(yàn)證。





京公網(wǎng)安備 11011402013531號(hào)