在人工智能和機器人技術快速發展的今天,視覺 - 語言 - 行動(VLA)模型被廣泛認為是構建通用機器人的關鍵。然而,許多現有的 VLA 模型(如 OpenVLA、RT-2等)在處理復雜的非結構化環境時暴露出一個嚴重的短板:空間失明。它們依賴于2D RGB 圖像作為視覺輸入,導致模型在三維空間中的表現受限,難以準確判斷物體的深度和位置。
為了解決這一問題,原力靈機的研究團隊推出了一種全新的 VLA 框架 ——GeoVLA。該框架在保持現有視覺 - 語言模型(VLM)強大預訓練能力的同時,采用了創新的雙流架構。具體來說,GeoVLA 引入了專用的點云嵌入網絡(PEN)和空間感知動作專家(3DAE),使機器人具備真正的三維幾何感知能力。這一設計不僅在仿真環境中取得了領先的性能,更在真實世界的各種魯棒性測試中表現出色。
GeoVLA 的核心邏輯在于將任務進行解耦:讓 VLM 負責 “看懂是什么”,讓點云網絡負責 “看清在哪里”。這個全新的端到端框架包含了三個關鍵組件的協同工作,分別是語義理解流、幾何感知流和動作生成流。這種方法使得模型能夠更精準地進行任務。
在一系列實驗中,GeoVLA 展現出了明顯的優勢。在 LIBERO 基準測試中,GeoVLA 的成功率高達97.7%,超越了之前的 SOTA 模型。此外,在 ManiSkill2等更加復雜的物理仿真測試中,GeoVLA 的表現也相當出色,尤其在處理復雜物體和視角變化時,保持了較高的成功率。
更為令人矚目的是,GeoVLA 在分布外場景中的魯棒性,證明了其在應對各種不確定性和變化條件下的強大適應能力。這一突破將為未來的機器人應用帶來新的可能性,推動智能機器人技術向更高水平邁進。
項目地址:https://linsun449.github.io/GeoVLA/





京公網安備 11011402013531號