![]()
新智元報道
編輯:定慧
剛剛,這個開源的VLA一站式平臺,不僅讓UR5e真機實現了100%成功率,還在五大仿真環境中全面領先,最高性能提升高達46%,而且還支持RTX 4090訓練!
現在的機器人是真的有點「卷啊」!
隨手搜了下,全球的機器人「型號」也太多了吧。
全球具身智能領域的機器人型號和形態,也已經遠遠不止圖中這些。
![]()
但不管機器人怎么設計,當下具身智能的核心能力都是視覺—語言—動作(VLA,Vision-Language-Action)模型。
可以說,VLA是具身智能的關鍵一步。
但是VLA技術發展迅猛的同時,卻面臨諸多的挑戰。
比如,VLA技術分散化嚴重,有太多框架和模型可選;研發流程繁瑣,算法對比評測耗時耗力,并且欠缺公平性;VLA研發無法快速使用最新VLM進行迭代等等。
目前國內外的解決方案,更多是在數據層、模型層和仿真層各自進行統一化嘗試,比如:
數據層:Open-X Embodiment用統一格式聚合了22種機器人、百萬級真實軌跡;LeRobot推出標準化數據格式/工具鏈,方便采集與共享。
模型層:OpenVLA 7B號稱在多機型操控上達SOTA,并支持LoRA/量化與多數據混合。
最近,由Dexmal 原力靈機重磅開源的Dexbotic,則構建了一個「VLA統一平臺」。
Dexbotic作為具身智能VLA模型一站式科研服務平臺,可以為VLA科研提供基礎設施,加速研究效率。
官網:
https://dexbotic.com/
Paper:
https://dexbotic.com/dexbotic_tech_report.pdf
GitHub:
https://github.com/Dexmal/dexbotic
Hugging Face:
https://huggingface.co/collections/Dexmal/dexbotic-68f20493f6808a776bfc9fc4
可以說,Dexboitic是邁向具身智能的關鍵一步!
VLA模型一站式科研服務平臺
Dexbotic是一個基于PyTorch的開源VLA代碼庫。
Dexbotic的開源,旨在為VLA研究領域提供一個一站式的開源工具箱。
![]()
Dexbotic整體架構圖
Dexbotic的核心目標是把「視覺-語言模型(VLM)」與各類動作專家(Action Expert, AE)策略統一到一個模塊化框架里,并提供更強的預訓練模型與實驗腳手架。
而且,可以在同一套環境下快速復現與對比Pi0、OpenVLA-OFT、CogACT、MemoryVLA等主流VLA策略。
在仿真器上,Dexbotic的預訓練模型實現了巨大增益。
在主流仿真器的效果
在5個仿真平臺上的,Dexbotic都取得了不錯的結果。
· SimplerEnv
SimplerEnv旨在縮小仿真環境與真實世界之間的差距。
Dexbotic主要測試了WidowX機器人僅使用視覺匹配套件的情況,包含四項任務:
將勺子放在毛巾上、將胡蘿卜放在盤子上、堆疊立方體以及將茄子放入黃色籃子中。
![]()
SimplerEnv的結果表明,Dexbotic極大提升了操控任務的穩定性與泛化性。
Dexbotic版本(DB-*)在所有任務上顯著優于原始模型,在平均準確率上:
DB-CogACT提升了18.2%;
DB-OFT相比官方OpenVLA-OFT實現了46.2%的絕對性能提升。
DB-MemoryVLA成功率達到84.4%,較官方版本提升12.5%。
![]()
· CALVIN
CALVIN專注于長周期語言條件機器人操作任務。
![]()
Dexbotic的預訓練使模型在長期依賴任務中表現更穩健、泛化更強。
Dexbotic版本在CALVIN的長時序任務中同樣優于原版;
DB-CogACT平均任務長度從3.25→4.06,說明更好地完成多指令串行任務;
同時,DB-OFT也在所有指標上略有提升。
![]()
· ManiSkill2
ManiSkill2主要聚焦基礎抓取放置操作,檢驗模型的3D感知與空間推理能力。
![]()
在五項代表性任務上評估實驗結果:
PickCube(拾取立方體)
StackCube(堆疊立方體)
PickSingleYCB(拾取單個 YCB 物體)
PickSingleEGAD(拾取單個 EGAD 物體)
PickClutterYCB(拾取雜亂 YCB 物體)
Dexbotic版本(DB-*)在所有任務上顯著優于原始模型:
DB-OFT提升幅度高達42%;
DB-CogACT提升幅度高達18%;
![]()
· RoboTwin2.0
RoboTwin2.0是新推出的仿真基準測試平臺。
它改進了仿真到現實的轉換,包含50項雙臂任務和五種機器人實體。
Dexbotic基于四項精心挑選的任務進行比較:調整瓶子位置、抓取滾筒、放置空杯子和擺放手機支架。
![]()
Dexbotic版本在所有任務上提升顯著;
特別是在「放置空杯子」任務中提升接近3倍(11%到30%);
![]()
· LIBERO
LIBERO包含五個任務套件:
LIBERO-Spatial,主要考察物體在不同位置的擺放能力;
LIBERO-Object,要求在固定場景布局中完成多種物體的抓取與箱內放置;
LIBERO-Goal,評估在固定布局下執行多樣化操作的能力;
LIBERO-Long(又稱LIBERO-10),包含10個涉及多場景多操作的長期目標;
LIBERO-90是LIBERO-10的擴展版本,提供了更具挑戰性的基準測試。
![]()
當前,最先進VLA在該基準上的性能已接近飽和。
通過應用Dexbotic預訓練模型,CogACT和MemoryVLA等策略均能獲得額外性能提升。
相較于CogACT基線,DB-CogACT在四項任務套件中的平均成功率提高了1.3個百分點。
![]()
不管是排序、尋找還是分類,Dexbotic的表現都堪稱完美。
真機演示
相比仿真,真機效果更能說明模型的能力。
真實場景實驗表明Dexbotic能完成多種日常任務。
值得關注的是,在擺放盤子和搜尋綠盒任務中分別實現了100%和80%的成功率。
![]()
下面視頻展示了100%成功率的UR5e疊盤子。
以及使用ARX 5來選找綠色方塊。
對于「撕碎廢紙」和「將薯條倒入盤子」這類操作任務,現有VLA策略確實面臨挑戰。
真機測試中,Dexbotic驗證了,如MemoryVLA等前沿VLA策略能夠解決「按順序按下按鈕」這類長周期且需記憶的任務(60%成功率)。
![]()
開源硬件——DOS-W1
具身智能的研究發展離不開開源硬件的支撐。
有鑒于此,Dexmal原力靈機也推出了其首款開源硬件產品——Dexbotic Open Source-W1(DOS-W1)。
![]()
DOS-W1采用完全開源的硬件設計,即將開源所有的文檔、BOM、設計圖紙、組裝方案、相關代碼;采用大量的快拆結構與可替換模塊,這極大地降低了機器人的使用門檻、改造便利性和維護便利性;同時,其符合人體工學的抗疲勞設計,有效提升了操作人員的舒適度與數據采集效率。
據悉,Dexmal原力靈機也將與各產業伙伴一起,持續豐富Dexbotic Open Source系列,以開源硬件助力具身智能前沿研究,加速機器人技術在真實物理世界的落地與應用。
「軟硬件」之外,Dexbotic全面覆蓋訓練需求,既支持阿里云、火山引擎等大規模云端訓練平臺,也兼容消費級GPU(如RTX 4090顯卡)的本地訓練方案。
針對UR5、Franka、ALOHA等主流機器人,Dexbotic也提供了統一訓練數據格式,并開源通用部署腳本支持用戶自定義部署。
可以看到,Dexbotic預訓練模型在多種仿真器中,都給傳統VLA策略帶來了額外提升。
他們是如何做到的?
在開源的技術報告中,我們發現了Dexbotic的諸多創新,尤其是在模型層的設計上。
Dexbotic架構創新
Dexbotic代碼庫的整體架構主要包含三大核心層級:數據層(Data Layer)、模型層(Model Layer)和實驗層 (Experiment Layer)。
![]()
數據層:統一格式
數據層定義了Dexdata統一格式以整合多源數據并優化存儲空間。
基于Dexdata格式的數據,系統將自動執行數據處理流程,提取圖像、文本及狀態信息用于模型訓練。
![]()
模型層:統一模塊化VLA框架
Dexbotic在模型層面的創新主要集中在構建一個統一的模塊化VLA框架。
并在此基礎上預訓練了更強大的基礎模型(DexboticVLM)和一系列性能優越的機器人專用預訓練模型。
此外,框架兼容主流LLM的開源接口,集成了具身操作和導航功能,預留了未來全身控制的接口擴展能力。
![]()
·DexboticVLM
為了解決現有VLA模型依賴過時VLM的問題,Dexbotic選擇從頭開始預訓練自己的VLM。
DexboticVLM集成了先進組件:視覺編碼器CLIP和Qwen2.5,雙層MLP作為投影器。
這個自研的DexboticVLM是后續所有預訓練模型的基礎。
基于DexboticVLM,Dexbotic提供了一系列性能遠超原始開源版本的預訓練模型。
這些模型分為離散和連續兩種:
1、離散預訓練模型 (Dexbotic-base)
第一種是一個通用的VLA策略預訓練模型。
它在DexboticVLM的基礎上,使用了大規模、多樣化的機器人數據進行了進一步的預訓練。
訓練數據非常廣泛,包括Open-X Embodiment數據集的子集、來自多個模擬器(如RLBench, Libero, Maniskill2)的數據,以及真實的機器人數據(如UR5)。
2、連續預訓練模型
第二種是專為特定視覺語言動作策略設計的預訓練連續模型。
對于連續預訓練模型,Dexbotic還提供了單臂和雙臂任務的兩個版本。
單臂連續模型 (Dexbotic-CogACT):
它使用Dexbotic-base來初始化VLM部分,并隨機初始化動作專家(DiT頭)。
該模型使用了包含Dexbotic收集的私有數據集進行訓練。該私有數據集涵蓋了8種不同的單臂真實機器人(如UR5, Franka, Unitree Z1等)執行的52個操控任務。
這極大地增強了模型的泛化能力。
混合臂(雙臂)連續模型:
原始的CogACT策略并不支持多視圖和雙臂設置。
Dexbotic通過修改模型架構擴展了CogACT的能力。
實驗層:實驗導向型開發框架
實驗層是Dexbotic體系中最核心的組成部分。
Dexbotic創新性地引入實驗腳本機制,定義了基礎實驗腳本,用戶根據自己的需求修改最少量的實驗配置,即可開展新的實驗,在確保系統穩定性的同時支持快速實驗迭代開發。
實驗層是Dexbotic VLA模型開發與復現的核心接口層,研究者只需通過實驗腳本即可實現模型配置、訓練與部署。
實驗層的設計遵循三個核心原則 :
實驗中心化(Experiment-Centric)
不依賴復雜YAML配置文件,而采用腳本化配置模式,讓研究者能以最少代碼完成實驗定義。
高可擴展性與可復用性
通過「分層配置 + 工廠注冊 + 入口分發」機制,支持對模型、任務、數據、優化器等模塊的靈活替換。
保持穩定與可維護性
所有實驗都基于同一base_exp模板,可繼承并重寫字段,防止配置碎片化。
![]()
Dexbotic訓練流水線
推理服務
Dexbotic還為不同開發者提供推理服務。
Dexbotic提供了一個輕量化的遠程推理架構,支持在云端或本地執行機器人控制。
推理服務分為三個關鍵模塊:
DexClient(客戶端):位于機器人端或用戶本地;向服務器發送推理請求;負責執行返回的動作序列。
Web API(服務器端):基于Flask Service構建;接收來自DexClient的數據;調用模型執行推理;返回動作結果。
VLA模型(推理核心):接收圖像與文本指令;執行多模態特征提取與推理;輸出連續或離散的機器人動作。
![]()
Dexbotic致力于打造具身智能的基礎運行層
具身智能研究長期以來的一個核心痛點是「碎片化」。
不同機構使用不同的框架、模型架構和數據格式,導致研究者難以復現、比較和迭代他人的工作。
Dexbotic正是在這種背景下提出,其學術和工程創新性體現在以下幾點:
自研構建了新型基礎模型DexboticVLM
擴展了SOTA模型的能力范圍
在工程上提出統一模塊化框架
提出了以「實驗為中心」的開發范式
同步開源軟硬件,降低研究門檻
為VLA貢獻一份力
在VLA開源領域,還存在其他幾個重量級參與者,比如通用機器人學習工具庫LeRobot。
LeRobot和Dexbotic都是旨在解決行業碎片化、推動機器人研究標準化的重要開源工具箱。
Dexbotic不僅補充了LeRobot的生態,更在多個關鍵環節提供了針對性的「升級」:
1、核心能力從「過時」到「最新」
Dexbotic的核心創新之一是提供了DexboticVLM。
許多現有的VLA模型(包括LeRobot等工具支持的模型)都構建在如Llama2等相對過時的LLM之上。
它不再依賴舊的LLM,而是集成了最新的LLM(如Qwen2.5)和視覺編碼器從頭預訓練。
2、數據格式的升級:更高效的存儲
Dexbotic引入了統一的Dexdata格式。
該格式專門為VLA訓練設計,通過優化的存儲方式(如mp4視頻和json),顯著節省了模型訓練所需的存儲空間。
3、開發范式的升級:從「配置」到「實驗」
傳統AI框架(包括LeRobot)大量依賴yaml文件進行配置,這在處理復雜VLA策略時可能變得繁瑣。
Dexbotic創新地采用了「以實驗為中心」(Experiment-Centric)的開發框架。
用戶通過繼承和修改exp腳本來定義實驗。
這種方式被認為比yaml配置更靈活,允許用戶在不影響全局配置的情況下快速開發新實驗。
LeRobot將重點和核心放在「易用性」與「社區生態」。
它像是一個「VLA模型和數據集的Hugging Face」,目標是降低普通用戶的門檻,讓所有人都能輕松訪問、下載、訓練和分享機器人模型,更側重于可復現性。
![]()
Dexbotic核心是「高性能」與「統一標準」。
它更像是一個「高性能VLA研究框架」,目標是解決碎片化和提升性能基線,為專業開發者提供一個更強、更統一的「基礎運行層」,更側重于沖擊SOTA。
從架構設計重點更能看出二者的區別。
Dexbotic以「實驗層 (Experiment Layer)」為核心,這是Dexbotic最重要的部分。
它摒棄了傳統的yaml配置文件,用戶通過繼承base_exp腳本并覆蓋參數來定義新實驗。
這種設計的本質是為了讓研究者在保持代碼庫穩定的同時,能極其敏捷地開發和修改實驗(例如快速切換模型或任務)。
LeRobot以「統一API(Unified API)」和「Hub集成」為核心。
其架構的本質是簡化工作流,將數據處理、模型訓練和評估封裝在一致的API下,重點在于開箱即用。
原力靈機在VLA領域全面布局
除了在平臺層面發力,打造Dexbotic,原力靈機還試圖構建一個更全面的評測基準。
機器人正在走入現實世界,但目前仍缺乏統一、可復現的基準測試方法。
比如有些算法在仿真環境表現優異,但是很難在現實世界復現。
就是為了解決這個問題。
RoboChallenge是全球首個大規模多任務的真機基準測試平臺。
![]()
Dexbotic鼓勵用戶利用該開源工具箱開發更多的現實機器人任務,并在其官網上提供了豐富的真實世界任務可視化案例。
同時,Dexbotic建議用戶將基于其開發的策略提交至RoboChallenge平臺,以便在真實場景中進行公平的對比。
![]()
《星球大戰》的設定中,機器人是無法使用「原力」的。
機器人缺乏生物體所擁有的「生命之力」,因此被認為無法感知或使用原力,這些機器沒有感知原力的能力。
但隨著具身智能不可阻擋的進入物理世界,如何給這些機器賦予「原力」,或許是一個需要提上議程的話題。
如何讓機器人都可以用上「原力」?
這就是Dexbotic和RoboChallenge背后,原力靈機試圖解決的問題。
One More Thing
10月23日晚19:00,Dexmal原力靈機創始團隊成員汪天才將現身直播間,講解開源一站式VLA工具箱Dexbotic。
歡迎大家預約觀看、線上交流 : )





京公網安備 11011402013531號