北京人形XR-1模型開源！推動(dòng)具身智能邁入“全自主、更好用”新階段？｜科技觀察

IP屬地中國·北京 封面新聞 時(shí)間：2025-12-20 14:10:19

封面新聞?dòng)浾?邊雪
12 月 18 日，封面新聞?dòng)浾邚谋本┤诵螜C(jī)器人創(chuàng)新中心獲悉，國內(nèi)首個(gè)且唯一通過具身智能國標(biāo)測試的具身VLA大模型 XR-1，以及配套的數(shù)據(jù)基礎(chǔ)RoboMIND 2.0、ArtVIP最新版開源。基于上述開源成果，能夠推動(dòng)具身智能行業(yè)追尋最本質(zhì)需求，讓機(jī)器人真正在各類應(yīng)用場景下能干活并且會(huì)干活，推動(dòng)國內(nèi)具身智能行業(yè)邁向“全自主、更好用”的新階段。
據(jù)工作人員介紹，聚焦“讓機(jī)器人能干活、會(huì)干活”的核心訴求，北京人形打造了通用機(jī)器人平臺(tái)“具身天工”、通用具身智能平臺(tái)“慧思開物”。圍繞“具身天工”平臺(tái)，北京人形已發(fā)布具身天工2.0、天軼2.0等多類型通用本體，為人形機(jī)器人干活奠定物理本體基礎(chǔ)。而具身大腦和小腦的協(xié)同是人形機(jī)器人干活的另一前提，目前圍繞“慧思開物”，北京人形已開源WoW（我悟）世界模型和Pelican-VL（天鶘）等具身大腦相關(guān)成果。
本次開源的系列內(nèi)容，是面向具身小腦能力的VLA模型XR-1，以及為XR-1等模型提供數(shù)據(jù)訓(xùn)練支持的RoboMIND 2.0和ArtVIP。
當(dāng)前，具身智能行業(yè)面臨著一個(gè)核心痛點(diǎn)：AI 技術(shù)雖能實(shí)現(xiàn)文本創(chuàng)作、視頻生成等虛擬場景應(yīng)用，但機(jī)器人在物理世界中往往難以完成 “拿東西”“遞東西” 等基礎(chǔ)任務(wù)，這背后是 “視覺感知” 與 “動(dòng)作執(zhí)行” 的割裂。
機(jī)器人雖能識(shí)別物體，卻只能依賴預(yù)設(shè)指令執(zhí)行動(dòng)作，如同 “只會(huì)死記硬背的笨學(xué)生”，一旦環(huán)境出現(xiàn)微小變化便會(huì)失效。為啃下這塊技術(shù)硬骨頭，北京人形聚焦核心技術(shù)攻堅(jiān)，打造出具備 “知行合一”能力的XR-1具身小腦大模型。

機(jī)器人拿取物品。（受訪者供圖）
值得注意的是，北京人形首創(chuàng)的UVMC（多模態(tài)視動(dòng)統(tǒng)一表征）技術(shù)是關(guān)鍵，通過它，能夠搭建起視覺與動(dòng)作的映射橋梁，讓機(jī)器人將看到的畫面瞬間轉(zhuǎn)化為身體的本能反應(yīng)，像人類條件反射般自然做出正確的應(yīng)對(duì)動(dòng)作。例如：機(jī)器人在執(zhí)行倒水任務(wù)時(shí)看到正在倒水的杯子被拿走了，就本能地停止倒水；當(dāng)杯口被遮住，就自然地?fù)荛_遮住的人手，繼續(xù)倒。這一關(guān)鍵的技術(shù)創(chuàng)新讓機(jī)器人具備了“本能反應(yīng)”，可以游刃有余地應(yīng)對(duì)復(fù)雜多變的現(xiàn)實(shí)世界，以及工作場景中的突發(fā)情況，從而真正做到全自主完成工作任務(wù)。
XR-1的多構(gòu)型預(yù)訓(xùn)練能力，使具身天工2.0具備全身多關(guān)節(jié)絲滑擬人控制，可實(shí)現(xiàn)大幅彎腰下蹲并精準(zhǔn)抓取隨機(jī)擺放的物料箱，完成復(fù)雜倒料任務(wù)；物料分揀任務(wù)需要機(jī)器人具備精準(zhǔn)識(shí)別和高動(dòng)態(tài)抓取零件以及準(zhǔn)確分類的能力，基于XR-1框架微調(diào)后的輕量級(jí)VLA模型，使得機(jī)器人具備快速精確物料分揀能力。
在業(yè)內(nèi)首個(gè)連續(xù)開關(guān)穿行5扇門的任務(wù)場景中，機(jī)器人面對(duì)綠色柵欄門時(shí)，能主動(dòng)展開雙臂適配結(jié)構(gòu)并協(xié)同底盤通過；遇到藍(lán)色下壓把手門，便自然下壓推門；穿越紅色窄門時(shí)動(dòng)態(tài)收肩調(diào)姿；推開黑色重門時(shí)穩(wěn)力同步前行；識(shí)別推拉門后則沿軌精準(zhǔn)滑動(dòng)。關(guān)門階段更可反向切換推拉策略，全程無需人工干預(yù)。這一能力源于XR-1模型對(duì)場景的實(shí)時(shí)理解與動(dòng)作預(yù)測，讓天軼2.0真正具備了在復(fù)雜環(huán)境中“看得懂、做得對(duì)、走得穩(wěn)”的全自主操作本能。
剛剛過去的11月，由中國電子技術(shù)標(biāo)準(zhǔn)化研究院基于編制中的國家標(biāo)準(zhǔn)《人工智能具身智能大模型系統(tǒng)技術(shù)要求》正式發(fā)布了“求索”具身智能測評(píng)基準(zhǔn)EIBench，同時(shí)邀請(qǐng)了多家國內(nèi)頂尖具身智能團(tuán)隊(duì)參與了首次測評(píng)。在本次測評(píng)中，北京人形機(jī)器人創(chuàng)新中心的XR-1模型成為了唯一一個(gè)通過測試的VLA模型，獲得CESI-CTC-20251103具身智能測試證書，也成為了全國首個(gè)獲此殊榮的VLA模型。
“為解決具身智能優(yōu)質(zhì)數(shù)據(jù)的稀缺問題，北京人形在2024年12月推出了大規(guī)模多構(gòu)型智能機(jī)器人數(shù)據(jù)集和Benchmark——RoboMIND，發(fā)布后吸引全球眾多頂尖實(shí)驗(yàn)室與開發(fā)者接入使用，累計(jì)下載量已超15萬次。”據(jù)工作人員介紹，在RoboMIND 1.0階段，包含了10萬條機(jī)器人操作軌跡，覆蓋4種機(jī)器人本體，涉及5大場景下的479個(gè)任務(wù)、38種技能，并且引入了ACT、DP、OpenVLA、RDT 4種模型驗(yàn)證。

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

消息稱某廠新機(jī)將全系搭載1216雙揚(yáng)聲器等，或?yàn)闃s耀WIN

閃電快訊｜摩爾線程GPU技術(shù)路線圖首次公開，展示全棧技術(shù)成果

香港創(chuàng)科局張曼莉最新發(fā)聲！

「真還傳」后，首次開講科技春晚，羅永浩要祭出什么大招？

字節(jié)跳動(dòng)與手機(jī)廠商合作，AI手機(jī)的“鴻蒙智行”時(shí)代要來了？

消息稱蘋果為iPhone Fold嘗試UFG玻璃，技術(shù)難點(diǎn)待解

全站最新

消息稱某廠新機(jī)將全系搭載1216雙揚(yáng)聲器等，或?yàn)闃s耀WIN

閃電快訊｜摩爾線程GPU技術(shù)路線圖首次公開，展示全棧技術(shù)成果

香港創(chuàng)科局張曼莉最新發(fā)聲！

「真還傳」后，首次開講科技春晚，羅永浩要祭出什么大招？

熱門推薦

消息稱某廠新機(jī)將全系搭載1216雙揚(yáng)聲器等，或?yàn)闃s耀WIN

Altman直面1.4萬億美元質(zhì)疑：只要算力還短缺，OpenAI就必須繼續(xù)燒錢

閃電快訊｜摩爾線程GPU技術(shù)路線圖首次公開，展示全棧技術(shù)成果

奧爾特曼腦機(jī)公司分拆獨(dú)立，要用超聲波“聽”你的想法

谷歌仍是最大威脅！奧爾特曼坦言O(shè)penAI將常態(tài)化AI紅色警報(bào)

香港創(chuàng)科局張曼莉最新發(fā)聲！

「真還傳」后，首次開講科技春晚，羅永浩要祭出什么大招？

字節(jié)跳動(dòng)與手機(jī)廠商合作，AI手機(jī)的“鴻蒙智行”時(shí)代要來了？

消息稱蘋果為iPhone Fold嘗試UFG玻璃，技術(shù)難點(diǎn)待解

QCY N20耳機(jī)開啟新品預(yù)約，129元享大動(dòng)圈與50dB降噪

摩爾線程發(fā)布新一代GPU架構(gòu)，打造MUSA生態(tài)對(duì)標(biāo)英偉達(dá)CUDA

預(yù)售價(jià)9999元，摩爾線程發(fā)布AI算力筆記本

國產(chǎn)算力邁入“萬卡”時(shí)代：摩爾線程發(fā)布新一代GPU架構(gòu)，中科曙光發(fā)布萬卡超集群

全球首臺(tái)商用超臨界二氧化碳發(fā)電機(jī)組成功商運(yùn)

ESG戰(zhàn)略升級(jí)：AI與綠色金融賦能從成本壓力到全球競爭力