![]()
當前,具身智能正處在從實驗室演示邁向規(guī)模化商用的關(guān)鍵轉(zhuǎn)折點。
據(jù)不完全統(tǒng)計,僅2025年前7個月,我國具身智能領(lǐng)域就已發(fā)生投融資事件108起,公開融資規(guī)模超過271億元,數(shù)量和金額均超過2024年全年。人形機器人作為具身智能的重要載體,其產(chǎn)業(yè)規(guī)模被普遍認為有望超越新能源汽車。
然而,在資本與熱度背后,整個領(lǐng)域正面臨標準化缺失帶來的發(fā)展瓶頸:各大研究機構(gòu)各自為戰(zhàn),技術(shù)路線分散、實驗難以復現(xiàn)、工程效率低下,形成了一座座“技術(shù)巴別塔”。
學術(shù)界雖已涌現(xiàn)Pi0、OpenVLA、CogACT等代表性模型,產(chǎn)業(yè)界也在持續(xù)推動機器人實現(xiàn)“聽得懂、看得懂、做得對”,但不同團隊采用的框架、基座與接口各不相同,導致研究成果難以橫向?qū)Ρ龋I(yè)落地也缺乏統(tǒng)一的技術(shù)底座。
這樣的背景下,Dexmal原力靈機在2025年推出了一站式視覺-語言-動作(VLA)開源工具箱——Dexbotic。
它以“實驗為中心”為核心設(shè)計理念,結(jié)合跨模態(tài)預(yù)訓練模型DexboticVLM與配套開源硬件DOS-W1,構(gòu)建出一個軟硬件協(xié)同的具身智能基礎(chǔ)設(shè)施。Dexbotic不只是一個模型框架,更像是具身智能領(lǐng)域的底層系統(tǒng),為研究者和工程團隊提供了可復現(xiàn)、可擴展、可落地的統(tǒng)一底座,幫助行業(yè)擺脫重復造輪子的困境。
那么,現(xiàn)在的具身智能行業(yè)面臨著哪些挑戰(zhàn)?為什么一個像Dexbotic一樣的VLA模型工具箱如此不可或缺?
![]()
在過去幾年里,具身智正在成為人工智能領(lǐng)域最具潛力的研究方向。
從RT-2到OpenVLA,再到Pi0,越來越多的研究試圖讓機器人同時“看得懂”“聽得懂”“做得到”。
然而,隨著研究不斷深入,一個根本性挑戰(zhàn)浮出水面:VLA領(lǐng)域正陷入一場巴別塔困境,它的復雜度不僅在算法,更在實驗體系的割裂與工程鏈條的低效。就像神話故事中那座因語言混亂而永遠未能建成的高塔,當前VLA研究雖目標一致,卻因技術(shù)路線、開發(fā)框架和評估標準的割裂,導致整個領(lǐng)域難以形成合力、構(gòu)建起統(tǒng)一的技術(shù)大廈。
盡管論文數(shù)量與模型規(guī)模迅速增長,VLA研究卻陷入了結(jié)構(gòu)性割裂。每個團隊都有自己的模型結(jié)構(gòu)、訓練管線和數(shù)據(jù)格式,有的用JAX,有的用TensorFlow,大部分轉(zhuǎn)向PyTorch。看似同一個任務(wù),模型結(jié)構(gòu)和接口等底層實現(xiàn)卻完全不兼容,復現(xiàn)一個實驗往往要從零搭建環(huán)境。
這種割裂直接拖慢了研究進程。進行算法對比評測時,研究人員需要為每一種不同的VLA策略配置多份獨立的實驗環(huán)境、適配不同的數(shù)據(jù)格式,并手動調(diào)整復雜的參數(shù)配置文件。大量時間被耗費在“配環(huán)境”和“跑通代碼”上,而非算法創(chuàng)新本身。結(jié)果就是,實驗難以復現(xiàn)、性能無法公平比較,模型迭代也遠遠落后于基礎(chǔ)大模型的進步節(jié)奏。
![]()
并且,大多數(shù)現(xiàn)有的VLA模型往往基于過時、不同時期的VLM核心進行構(gòu)建。它們無法快速集成最新的、性能更強大的大型語言模型,導致VLA模型的感知和語言理解能力無法與前沿LLM發(fā)展保持同步,從而限制了機器人處理復雜、泛化任務(wù)的能力。
碎片化的巴別塔困境不僅讓具身智能研究陷入效率困境,也讓產(chǎn)業(yè)界望而卻步。機器人廠商想應(yīng)用VLA,卻發(fā)現(xiàn)不同模型難以遷移;高校和研究機構(gòu)想復現(xiàn)論文,卻要從頭搭建環(huán)境。整個領(lǐng)域像在并行造輪子,進展雖快,卻缺少一條能讓研究成果持續(xù)疊加的公共底座。
在這樣的背景下,學界與產(chǎn)業(yè)界逐漸認識到:具身智能的下一階段突破,將由開源體系所驅(qū)動。產(chǎn)業(yè)迫切需要一套統(tǒng)一、開放、可復現(xiàn)的框架,使VLA研究能像大語言模型一樣實現(xiàn)標準化與模塊化。
換言之,當前領(lǐng)域最迫切需要的不是又一個模型,而是一個能終結(jié)巴別塔困境的開源基礎(chǔ)設(shè)施——一個能讓實驗、代碼、數(shù)據(jù)與模型高效循環(huán)的開放體系,以此凝聚社區(qū)力量,引領(lǐng)具身智能的協(xié)同演進。
![]()
在這樣一個割裂的研究生態(tài)中,Dexbotic的出現(xiàn)顯得格外及時。
2025年,Dexmal原力靈機推出了Dexbotic,一整套基于PyTorch的開源VLA模型工具箱,試圖解決具身智能發(fā)展道路上的系統(tǒng)性瓶頸。
首先,一個強大統(tǒng)一的底座讓VLA領(lǐng)域的快速復現(xiàn)、公平比較成為可能。
Dexbotic的核心設(shè)計理念是統(tǒng)一。它將所有VLA方法重新抽象為兩大模塊:視覺語言模型(VLM)與動作專家(ActionExpert)。VLM由視覺編碼器、投影層和大語言模型組成,用于理解視覺與指令信息;ActionExpert則負責將這些信息轉(zhuǎn)化為具體動作,無論是DiffusionTransformer、MLP還是MoE,都可以在同一接口下實現(xiàn)。
![]()
這種架構(gòu)實現(xiàn)了VLA在結(jié)構(gòu)層面的標準化:不同團隊、不同算法、不同機器人不再割裂,而能在同一框架中被復現(xiàn)、比較和擴展。
并且,Dexbotic不僅提供框架,還自帶了強大的預(yù)訓練模型基座。團隊自研的DexboticVLM采用CLIP作為視覺編碼器,結(jié)合Qwen2.5語言模型,并通過跨模態(tài)對齊預(yù)訓練,讓模型在理解視覺信息與語言指令的關(guān)聯(lián)上更為精準。與以往基于LLaMA2的方案相比,它在感知和語言理解能力上都有顯著提升。以 SimplerEnv-Bridge基準測試為例,Dexbotic版本的CogACT(DB-CogACT)的平均成功率絕對值超越了官方CogACT 18.2% ,而DB-OFT的平均成功率則絕對提升了46.2% ,充分展示了Dexbotic預(yù)訓練模型的強大性能。
![]()
在系統(tǒng)設(shè)計上,Dexbotic的強大性能遠不止軟件層面。它支持多構(gòu)型本體(multi-configuration embodiment),能夠在單臂、雙臂、移動操作平臺乃至全身控制任務(wù)間無縫切換。無論是humanoid機器人、倉儲機械臂,還是服務(wù)類機器人,都可以在同一架構(gòu)下共享訓練邏輯與模型能力,使具身智能的研究從單一平臺走向多樣形態(tài)的協(xié)同發(fā)展。
其次,如果說統(tǒng)一架構(gòu)解決了“能否運行”的問題,那么Dexbotic引入的“以實驗為中心”的開發(fā)范式,則進一步解決了“能否高效運行”的挑戰(zhàn)。
作為對LeRobot等機器人學習框架的升級,Dexbotic進一步優(yōu)化了實驗定義流程。Dexbotic通過Python腳本定義實驗,用戶只需繼承基礎(chǔ)實驗?zāi)0澹╞aseExp),修改少量字段,即可構(gòu)建新的實驗流程。這讓整個開發(fā)過程從調(diào)配置變成了寫邏輯,更貼近研究者的思維習慣,讓VLA研究回歸實驗本質(zhì)。
架構(gòu)上,Dexbotic分為三層:數(shù)據(jù)層、模型層與實驗層。
數(shù)據(jù)層負責整合和標準化多構(gòu)型本體的數(shù)據(jù),將來自不同機器人平臺的原始信息統(tǒng)一轉(zhuǎn)化為Dexdata格式。這一格式兼容UR5、Franka、ALOHA等多種真實機器人及多視角輸入,使得不同實驗之間的數(shù)據(jù)能夠無縫互通;模型層匯聚了包括Pi0、MemoryVLA在內(nèi)的多種主流VLA算法,為研究者提供標準化的實現(xiàn)和統(tǒng)一的接口,方便在同一框架下進行復現(xiàn)、比較與擴展,而實驗層則是整個系統(tǒng)的中樞,承擔快速開發(fā)與部署的功能。它既支持在阿里云與火山引擎等云平臺上運行,也能在消費級顯卡上完成訓練與測試,確保模型能夠在各類主流仿真環(huán)境及真實機器人上穩(wěn)定落地。
![]()
基于這一架構(gòu),Dexbotic將VLA的開發(fā)周期從月、周級別縮短至天級別。研究者不再需要重復搭建環(huán)境,僅需幾行腳本即可完成實驗驗證、模型微調(diào)與性能比對。
值得注意的是,Dexbotic在設(shè)計之初就為未來的“全身智能”接口預(yù)留了接口。它已經(jīng)實現(xiàn)了操控與導航的統(tǒng)一,并為全身控制下拓展空間。這意味著,機器人未來不僅能伸手,還能走過去伸手;不僅能理解任務(wù),還能自主規(guī)劃執(zhí)行路徑。
為了讓這一具身智能的研究底座真正連接物理世界,Dexmal原力靈機也同步推出了首款開源硬件產(chǎn)品——Dexbotic Open Source - W1(DOS-W1)。
這款硬件采用全面開源的設(shè)計理念,計劃公開包括技術(shù)文檔、物料清單、結(jié)構(gòu)圖紙、組裝指南及核心代碼在內(nèi)的所有資料。模塊化的快拆結(jié)構(gòu)與可替換部件大幅降低了實驗搭建與維護的門檻,符合人體工學的抗疲勞設(shè)計則提升了長時間操作與數(shù)據(jù)采集的舒適度與穩(wěn)定性。
![]()
未來,Dexmal原力靈機將聯(lián)合更多產(chǎn)業(yè)伙伴,持續(xù)拓展Dexbotic Open Source系列產(chǎn)品,以開源硬件為載體,讓具身智能研究從仿真走向現(xiàn)實,加速機器人技術(shù)在實際場景中的落地與應(yīng)用。
而這些設(shè)計不僅體現(xiàn)在工程實踐上,更在研究方法上帶來重要革新。
從學術(shù)角度看,Dexbotic的貢獻在于讓VLA研究第一次具備了結(jié)構(gòu)化、可復現(xiàn)、可擴展的標準;從工程角度看,它提供了通用的底層模塊與實驗接口,打通了數(shù)據(jù)、模型、控制三者之間的壁壘;而從生態(tài)角度看,它為具身智能建立了一個真正開放的合作平臺,讓研究成果能夠以模塊化形式共享與演化。
可以說,Dexbotic正在為具身智能從局部控制邁向整體認知鋪路:它不只是一個框架,更接近于具身大腦的雛形。
![]()
Dexbotic的推出,正在推動具身智能研究進入加速發(fā)展階段。
它讓VLA從碎片走向統(tǒng)一,從實驗走向生態(tài)。
對于學術(shù)界而言,這意味著公平與復現(xiàn)。長期以來,具身智能研究面臨著算法復現(xiàn)困難、實驗標準不一的問題。不同團隊采用的數(shù)據(jù)集、訓練框架乃至評估指標各不相同,導致結(jié)果難以橫向比較,研究壁壘高筑。Dexbotic提供了統(tǒng)一的代碼庫與預(yù)訓練模型,打破了實驗復現(xiàn)的壁壘,讓不同算法能夠在同一基線上公平比較。研究者可以在同一平臺上對比Pi0、CogACT、OpenVLA等不同策略,真正隔離出算法差異;實驗可復現(xiàn)、結(jié)果可量化讓學術(shù)競爭回歸科學本質(zhì)。
在工程與產(chǎn)業(yè)層面,Dexbotic降低了VLA落地的門檻。對于眾多企業(yè),尤其是資源有限的中小團隊而言,從零開始構(gòu)建并訓練一個成熟的VLA模型,意味著巨大的時間與資金成本。Dexbotic提供的“模塊即用”式解決方案,允許開發(fā)者直接在其預(yù)訓練模型基礎(chǔ)上,針對特定機器人平臺與應(yīng)用場景進行高效微調(diào)。這種“模塊即用”的工程思路將大幅壓縮從實驗到產(chǎn)品的周期,使中小團隊也能快速驗證具身智能應(yīng)用。
![]()
而從更宏觀的視角看,Dexbotic的開源或?qū)⑼苿泳呱碇悄茏呦驑藴驶?/strong>它通過提供統(tǒng)一的代碼實現(xiàn)、模型接口與評估基準,將全球的研究與工程力量匯聚到同一個開放生態(tài)中,確保了不同技術(shù)路徑的可復現(xiàn)性與公平可比性。當越來越多的模型、算法和數(shù)據(jù)匯聚在同一個開放生態(tài)中,創(chuàng)新的速度將被成倍放大。
在現(xiàn)實測試中,Dexbotic已經(jīng)展示出強勁的泛化能力。在UR5、Franka、ALOHA等多種機器人平臺上,它穩(wěn)定完成復雜任務(wù):擺盤成功率100%,堆疊碗具90%,搜索物體80%。而這正是具身智能的最終目標:從代碼走向動作,從模擬走向現(xiàn)實。
具身智能的持續(xù)發(fā)展,離不開像Dexbotic這樣的基礎(chǔ)設(shè)施支持。它讓研究和工程的邊界變得模糊,讓算法與機器人真正合為一個系統(tǒng)。它不僅加速了VLA研究的節(jié)奏,也讓具身智能的發(fā)展路徑變得更清晰。
![]()
Dexbotic為全球研究者提供了一套統(tǒng)一的評測基礎(chǔ):通過統(tǒng)一的數(shù)據(jù)格式、工具鏈,并聯(lián)動RoboChallenge大規(guī)模真機評測標準,令不同機器人能夠在相同的基準與開放生態(tài)下公平競賽。可以說,Dexbotic奠定技術(shù)底層,RoboChallenge則點亮場景高光,二者共同勾勒出從實驗室到真實應(yīng)用的完整閉環(huán)。
或許在不遠的將來,當我們談?wù)摍C器人如何理解世界、與人協(xié)作時,Dexbotic這個名字,會像操作系統(tǒng)或編譯器一樣,成為這場變革背后看不見的基礎(chǔ);而RoboChallenge這樣的標桿測試,則將持續(xù)為這個快速演進的領(lǐng)域樹立真實世界的衡量標準和創(chuàng)新燈塔。
![]()





京公網(wǎng)安備 11011402013531號