![]()
這項由上海人工智能實驗室Intern Robotics團隊發表于2025年10月15日的研究,提出了一個名為InternVLA-M1的統一視覺-語言-動作框架。有興趣深入了解的讀者可以通過論文編號arXiv:2510.13778v1查詢完整論文。
當你告訴朋友"把桌上的紅色蘋果放到籃子里"時,朋友能立刻理解你的意思,知道要找哪個蘋果,明白籃子在哪里,然后準確地完成這個動作。但對于機器人來說,這卻是一個極其復雜的挑戰。如何讓機器人既能理解人類的語言指令,又能在三維空間中準確定位物體并執行動作,一直是人工智能領域的難題。
上海人工智能實驗室的研究團隊提出了一個突破性的解決方案——InternVLA-M1框架。這個框架的核心理念是"空間引導的視覺-語言-動作訓練",簡單來說就是讓機器人先學會"在哪里行動",然后再學會"如何行動"。就像教孩子做家務時,我們首先告訴他"蘋果在桌子上,籃子在椅子旁邊",然后再教他"輕輕地拿起蘋果,慢慢放進籃子"。
研究團隊構建了一個包含超過300萬個多模態訓練樣本的龐大數據集,其中230萬個專門用于空間推理訓練。他們還開發了一個能夠自動生成24.4萬個可泛化抓取-放置場景的仿真引擎。這個框架采用了獨特的雙階段訓練策略:第一階段專注于空間理解能力的培養,第二階段則將這種空間理解能力轉化為具體的機器人控制能力。
實驗結果令人振奮。在SimplerEnv Google Robot測試中,InternVLA-M1比沒有空間引導的版本提升了14.6%的成功率。在WidowX平臺上提升了17%,在LIBERO Franka測試中提升了4.3%。在包含200個任務和3000多個物體的大規模仿真測試中,平均改善了6.2%。更令人印象深刻的是,在真實世界的雜亂環境中,該系統在未見過的物體和新配置上取得了20.6%的提升,在長時程推理密集型場景中,性能超越現有方法10%以上。
一、雙系統架構:讓機器人既會思考又會行動
InternVLA-M1的設計靈感來源于人類認知的雙系統理論。當我們要完成一個復雜任務時,大腦中有兩套系統在工作:一個是負責深度思考和規劃的"慢系統",另一個是負責快速執行的"快系統"。
在InternVLA-M1中,研究團隊將這一理念轉化為了具體的技術實現。系統包含一個VLM規劃器作為"慢而可靠的系統2推理器",和一個動作專家作為"快速的系統1控制器"。當機器人接收到指令時,VLM規劃器首先像一個經驗豐富的管家一樣,仔細分析任務要求,識別關鍵物體的位置,制定詳細的行動計劃。然后,動作專家接過這些高層次的計劃,快速將其轉化為精確的機器人控制信號。
這種架構的妙處在于明確分工。VLM規劃器專注于理解和推理,它不需要擔心具體的關節角度或力度控制,只需要告訴動作專家"去抓桌子左邊的紅色杯子,然后放到右邊的藍色托盤上"。而動作專家則專門負責執行,它知道如何控制機器人的每個關節,如何調整抓取力度,如何規避障礙物。
為了讓這兩個系統能夠有效協作,研究團隊設計了一個巧妙的"空間提示"機制。當給機器人下達任務指令時,系統會自動在原始指令后添加一些空間相關的提示,比如"找出如何執行這個任務,然后定位需要的關鍵物體"。這樣做的目的是顯式激活在空間基礎訓練階段學到的空間感知能力,確保規劃器能夠充分利用其空間推理能力。
整個系統共包含約41億個參數,在單張RTX 4090顯卡上運行,內存占用約12GB。通過FlashAttention技術,VLM組件達到了約10幀每秒的推理速度,動作執行還可以通過分塊處理和KV緩存進一步加速。
二、空間引導訓練:教會機器人"看懂"空間關系
傳統的機器人訓練方法往往將語言理解和動作執行混在一起學習,就像讓一個人同時學習外語和駕駛技術。而InternVLA-M1采用了一種更加科學的分階段學習策略,首先讓機器人掌握空間理解能力,然后再將這種能力應用到具體的動作控制中。
第一階段被稱為"空間基礎預訓練",就像給孩子上幾何課一樣。研究團隊精心構建了一個包含230萬個空間推理數據的訓練集,涵蓋了四種核心的空間任務:物體檢測、點定位、軌跡預測和多模態理解。這些任務看似簡單,實際上是機器人空間智能的基礎。
在物體檢測任務中,系統學會識別圖像中的各種物體并用邊界框標出它們的位置,就像給照片中的每個人臉畫框一樣。點定位任務則更加精細,要求系統能夠準確指出物體的特定部分,比如"杯子的把手在哪里"或"書本的左上角在哪里"。軌跡預測任務訓練系統理解物體的運動路徑,這對于抓取和放置動作至關重要。
第二階段是"空間引導的動作后訓練",這時VLM規劃器和動作專家開始協同工作。在這個階段,系統不再僅僅學習識別空間關系,而是學習如何將空間理解轉化為實際的機器人動作。訓練過程采用了兩種策略:空間提示和協同訓練。
空間提示就像給機器人的指令加上了"空間眼鏡"。比如原始指令是"收拾桌子",系統會自動將其擴展為"收拾桌子。識別所有相關物品及其與容器的空間關系。"雖然VLM不會顯式回答這個輔助提示,但這種提示的存在提高了系統在操作任務中的空間感知能力和泛化性能。
協同訓練則確保空間理解能力和動作執行能力能夠相互促進。訓練過程在機器人軌跡數據和空間基礎數據之間交替進行。對于軌跡數據,VLM骨干網絡和動作專家都通過預測噪聲的L2損失進行優化。對于空間基礎數據,只有VLM骨干網絡通過下一個令牌預測進行更新。這種協同訓練方案既強化了空間推理能力,又支持了高效的端到端優化。
三、大規模數據構建:用仿真世界訓練真實技能
要訓練一個真正智能的機器人,需要大量多樣化的訓練數據。就像學習駕駛需要在各種路況下練習一樣,機器人也需要在各種環境和任務中積累經驗。但在現實世界中收集如此大量的機器人操作數據既昂貴又耗時,因此研究團隊構建了一個高度逼真的仿真環境。
這個仿真系統建立在GenManip和Isaac Sim平臺之上,擁有一個包含14716個物體、200多張桌子、80多種光照條件和1676種紋理的龐大資源庫。這些資源的多樣性確保了生成數據的豐富性,就像一個巨大的虛擬世界,里面有各種形狀、大小、顏色和材質的物品。
數據生成過程采用了物理學和渲染分離的設計。規劃器記錄結構化的場景和軌跡數據,包括關節狀態、物體位置和動作信息,然后由渲染器在隨機化的光照、材質和視角下重放這些數據。這種分離設計大大提高了效率,避免了失敗情況下的計算浪費。
為了確保生成的任務都是可執行的,系統還包含了嚴格的驗證機制。每個候選軌跡都要在物理仿真中執行一次進行閉環驗證,然后場景圖驗證器檢查任務目標是否達成。只有既能成功執行又能通過驗證的軌跡才會被接受,確保所有收集的數據都是物理上可行且任務完整的。
除了基礎的抓取和放置任務,研究團隊還專門構建了244K個封閉循環樣本的InternData M1數據集。這個數據集采用與真實評測相同的物體集合和位置分布,通過可擴展的數據管線處理。每個合成樣本都經過嚴格驗證以確保正確性和一致性。為了進一步增強視覺多樣性,系統還引入了光照條件和紋理映射的受控隨機化。
為了支撐VLM預訓練的大規模端到端數據生成,研究團隊構建了一個高度可擴展、靈活且全自動化的仿真管線。這個管線能夠從隨機化的物體布局和光照條件生成多樣化的操作軌跡。通過利用物體姿態、物體網格和機器人狀態等特權仿真信號,系統能夠通過場景圖求解器快速生成場景布局,并基于物體網格計算候選抓取點。
四、全面評估:從仿真到現實的卓越表現
為了全面驗證InternVLA-M1的性能,研究團隊設計了一系列從簡單到復雜、從仿真到現實的評估實驗。這些實驗就像給機器人安排了一系列"考試",從基礎的物體抓取到復雜的長時程任務規劃。
在SimplerEnv基準測試中,InternVLA-M1展現了出色的性能。這個測試平臺專門設計用來檢驗機器人對視覺外觀變化的魯棒性,包括WidowX和Google Robot兩個平臺,涵蓋短時程原子任務,以及光照、顏色、表面紋理和攝像頭姿態的受控變化。在Google Robot視覺匹配任務中,InternVLA-M1達到了80.7%的平均成功率,比基線版本提升了14.6%。在視覺聚合任務中達到76.0%,提升了12.5%。在WidowX平臺上,平均成功率達到71.7%,提升了17.0%。
LIBERO基準測試則考驗機器人在更復雜場景中的表現。這是一個基于Franka機械臂的語言條件操作測試套件,包含多樣化的場景和專家演示。測試分為四個子集:LIBERO-Spatial(相同物體,不同空間布局)、LIBERO-Object(固定布局,不同物體)、LIBERO-Goal(固定物體和布局,不同目標)和LIBERO-Long(更長的任務,跨越多個物體、布局和操作)。InternVLA-M1在所有子集上都表現優異,平均成功率達到95.9%,特別是在空間推理和長時程任務上優勢明顯。
為了測試真實世界的泛化能力,研究團隊構建了一個包含200個抓取-放置任務的大規模仿真評估環境。這個環境中的每個任務操作的物體都互不相同,包括背景物體在內總共覆蓋了超過3000個物品和容器。評估分為四種設置:分布內、未見物體、新背景和未見指令。結果顯示,配備中期訓練的InternVLA-M1在所有設置下都持續優于GR00T N1.5,平均增益為6.2%。
在真實世界的雜亂場景抓取-放置任務中,InternVLA-M1展現了強大的指令跟隨能力。實驗使用Franka Research 3機械臂配備Robotiq 2F-85夾爪,設置兩個Intel RealSense D435攝像頭進行RGB視覺輸入。測試涵蓋了23個已見物體和5個已見容器的分類任務。通過與合成數據的協同訓練,InternVLA-M1在未見物體和新配置上實現了20.6%的成功率提升。
五、長時程推理:讓機器人具備規劃和適應能力
InternVLA-M1的一個突出優勢是其在長時程推理密集型任務中的表現。這類任務不僅要求機器人能夠執行單個動作,更需要它們能夠制定計劃、監控進度、適應變化,就像一個有經驗的管家能夠獨立完成復雜的家務安排。
研究團隊設計了五種不同類型的長時程任務來測試系統的規劃能力。桌面整理任務要求Franka機器人根據高級語義類別將物體分類到容器中,確保桌面上的所有物品最終都被放置到正確的容器中。這個任務涉及五個已見容器和五個物體類別:水果、玩具、蔬菜、瓶子和零食。每個評估實例涉及將一到三個類別的物體分類到各自的容器中。
抽屜整理任務則更加復雜,要求機器人完成三個連續步驟:打開指定抽屜(上層或下層),將目標物體放入其中,然后關閉抽屜。這個任務需要精確的時序推理和協調操作能力。三明治制作任務要求機器人按照預定義的菜譜組裝三明治,食材和盤子放置在機器人基座前50×70厘米的區域內。
數學計算任務考驗機器人的邏輯推理能力,要求機器人解決數學問題并按下對應正確答案的彩色按鈕(紅色、黃色或藍色)。商品購買任務則使用ARX LIFT2雙臂機器人,要求識別并將帶有正確價格標簽的物體放入籃子,給定1到9的數字線索。
在這些長時程任務中,InternVLA-M1持續優于基線方法。在分布內設置下,各項任務的成功率都顯著高于GR00T N1.5和π0。更令人印象深刻的是,系統在面對物理干擾和任務重規劃時仍能保持強勁性能。
物理干擾測試模擬了真實環境中的不確定性,比如在抽屜整理任務中,機器人打開抽屜后人為將其關閉,或在抓取過程中移動目標物體。任務重規劃測試則在執行過程中引入新的指令,比如在將物體放入抽屜但未關閉之前,突然要求機器人"也把奶牛玩具放到上層抽屜"。
結果顯示,InternVLA-M1在這些壓力測試中表現出了卓越的適應性。系統能夠感知環境變化并相應調整行動計劃,在桌面整理任務中,當容器意外移動時,InternVLA-M1能夠跟蹤新的容器位置并完成放置。在需要任務重規劃時,系統能夠實時修訂其子任務序列并繼續執行正確的動作。
六、技術創新的深層機制
InternVLA-M1的成功源于幾個關鍵的技術創新。首先是潛在規劃通過空間提示的實現機制。為了連接VLM規劃器與動作專家,系統采用了一個輕量級查詢變換器,以VLM規劃器產生的潛在規劃嵌入為條件。這個查詢變換器通過將可變長度輸入令牌映射到固定的可學習查詢令牌集合來穩定專家學習和推理。
查詢變換器實現為k層交叉注意模塊,其中查詢令牌選擇性地關注VLM的k個中間層。為了顯式激活空間基礎預訓練期間學到的空間感知能力,系統采用了空間提示策略。在一般物體操作任務中,系統會在任務指令后添加簡單提示,如"找出如何執行它,然后定位需要的關鍵物體"。
考慮到先前研究表明動作和VLM模塊之間的直接梯度流可能扭曲多模態知識,研究團隊在查詢變換器內引入了梯度衰減因子。這種方法衰減從動作專家傳播回VLM的梯度(例如,通過0.5的因子),從而在保持規劃器語義推理能力的同時仍然實現有效的聯合優化。
雙重監督策略是另一個關鍵創新。雙系統架構支持訓練過程中的多模態監督和動作監督。在每個訓練步驟中,來自兩種數據類型的批次被聯合處理,模型計算來自兩個監督信號的損失。結果梯度被聚合并應用于單個優化更新,確保感知和控制是協同適應的而不是孤立學習的。
具體來說,VLM規劃器與廣泛的空間基礎數據對齊,涵蓋物體檢測、可供性識別和視覺軌跡規劃等任務。同時,動作專家在機器人演示數據上訓練,使其能夠將這些空間先驗專門化為具身特定的運動命令。這種雙重監督策略在高級語義感知和低級運動控制之間建立了內聚聯系,這對于在仿真和現實世界設置中的魯棒指令跟隨至關重要。
七、從仿真到現實的遷移能力
InternVLA-M1在仿真到現實遷移方面表現出了卓越的能力,這在機器人學習領域一直是一個重大挑戰。系統在真實世界雜亂場景抓取-放置任務中的表現充分證明了這一點。
實驗設置采用了嚴格的域適應測試。研究團隊將所有可用的物體和容器資產分為互不相交的已見集和未見集。只有已見集包含在訓練數據中,而兩個集合都在測試期間進行評估以衡量模型泛化到新物體的能力。評估包括五種設置:分布內、未見物體、未見物體位置、未見物體方向和未見指令。
結果顯示,InternVLA-M1的兩個變體在分布內設置下都展現了優異性能,持續優于GR00T N1.5和π0。更重要的是,包含InternData-M1協同訓練的版本在視覺泛化方面有顯著提升,在新物體上的表現得到改善。這表明合成數據作為有限真實世界演示的有效補充。
由于真實世界數據收集無法詳盡覆蓋空間工作區,仿真數據豐富了物體位置和方向的分布,導致在未見配置的物體放置和姿態方面有substantially更好的泛化。此外,InternVLA-M1在給定新穎指令時保持魯棒性能,突出了其跨多樣化語言表達泛化的能力。
仿真到現實遷移的成功還體現在相機標定的精確性上。為了確保仿真與真實世界的對齊,研究團隊使用ArUco標記對所有攝像頭進行標定,確保其內在和外在參數與真實世界攝像頭匹配,從而保持一致的視點幾何。這種精心的標定確保了仿真中學到的空間理解能夠準確轉移到真實環境中。
合成數據的質量控制也是關鍵因素。每個合成樣本都經過嚴格驗證以確保正確性和一致性。系統不僅驗證軌跡的物理可行性,還檢查任務目標的完成情況。這種雙重驗證機制確保了訓練數據的高質量,為現實世界的成功遷移奠定了堅實基礎。
八、與現有方法的對比優勢
InternVLA-M1相比現有方法的優勢是全方位的。在傳統的分層機器人系統中,通常依賴基于規則的任務分解和手動設計的規劃啟發式方法,這種剛性的符號任務結構與低級運動控制之間的分離使得這些系統難以自動擴展到更復雜和多樣化的任務。
相比之下,近期的數據驅動VLA模型雖然利用預訓練視覺語言模型和大規模遙操作數據集直接學習機器人控制,但這些模型往往過度擬合細粒度運動行為,同時在涉及絕對或相對位置的高級語言指令上泛化不足。它們未能充分將空間先驗納入執行中。
InternVLA-M1通過空間引導訓練策略有效解決了這些問題。系統明確地將空間先驗編碼為可轉移的知識,這些先驗一旦建立,具身特定學習就可以專注于具體控制策略。這種分工明確了空間先驗作為通用基礎的作用,同時將具身特定細節留給下游適應。
在性能對比中,InternVLA-M1在多個基準測試上都取得了顯著提升。在SimplerEnv Google Robot測試中,相比最強基線CogACT的74.8%,InternVLA-M1達到了80.7%。在WidowX測試中,相比最強基線GR00T N1.5的61.9%,InternVLA-M1達到了71.7%。在LIBERO測試中,相比最強基線π0.5-KI的94.3%,InternVLA-M1達到了95.9%。
更重要的是,InternVLA-M1在保持高性能的同時還展現了更好的泛化能力。在未見物體、新背景、未見指令等挑戰性設置下,系統都能保持相對穩定的性能,而許多基線方法在這些設置下性能顯著下降。
計算效率方面,InternVLA-M1也表現出色。盡管系統包含41億參數,但通過優化的架構設計和高效的推理策略,在單張RTX 4090顯卡上就能實現實時運行。VLM組件達到約10幀每秒的推理速度,動作執行還可通過分塊處理和KV緩存進一步加速。
歸根結底,InternVLA-M1代表了機器人學習領域的一個重要進步。通過將空間理解作為連接語言指令和機器人動作的橋梁,系統成功解決了傳統方法在泛化能力和執行精度之間的權衡問題。這種空間引導的訓練范式為構建真正智能、能夠在復雜現實環境中可靠工作的通用機器人提供了新的思路。
研究團隊不僅提供了完整的代碼、模型和數據集,還建立了詳細的評估基準,為后續研究奠定了堅實基礎。隨著這項技術的進一步發展和完善,我們有理由期待在不久的將來看到更加智能和實用的機器人助手進入我們的日常生活,真正實現人機協作的美好愿景。這項研究證明了空間推理作為可擴展和有韌性的通用機器人統一原則的重要性,為機器人智能的未來發展指明了方向。
Q&A
Q1:InternVLA-M1的雙系統架構是如何工作的?
A:InternVLA-M1采用了類似人類認知的雙系統設計,包含一個VLM規劃器作為"慢而可靠的思考系統"和一個動作專家作為"快速執行系統"。當機器人接收指令時,VLM規劃器先分析任務、識別物體位置、制定行動計劃,然后動作專家將這些高層規劃轉化為精確的機器人控制信號,實現了思考與行動的有效分工。
Q2:空間引導訓練相比傳統機器人訓練有什么優勢?
A:傳統方法往往將語言理解和動作執行混合訓練,而InternVLA-M1采用分階段策略,先讓機器人掌握空間理解能力(識別物體位置、理解空間關系),再將這種能力應用到動作控制中。這就像先教孩子認識方向再教開車,效果更好。實驗顯示這種方法在各種測試中都比基線版本提升了10-20%的成功率。
Q3:InternVLA-M1能處理哪些類型的機器人任務?
A:InternVLA-M1可以處理從簡單的抓取-放置到復雜長時程規劃的各種任務,包括桌面整理、抽屜操作、三明治制作、數學計算、商品購買等。系統不僅能執行單個動作,還能制定多步驟計劃、適應環境變化、處理物理干擾,甚至在任務執行過程中接受新指令并重新規劃。





京公網安備 11011402013531號