![]()
這項由西湖大學MiLAB實驗室的趙涵等研究人員于2024年10月發表在arXiv預印本平臺上的研究(論文編號:2510.14902v1),為機器人視覺-語言-動作模型帶來了革命性的改進。該研究團隊包括來自浙江大學、西湖大學、南方科技大學和香港科技大學(廣州)的多位研究者,他們共同開發了一個名為VLA?的智能框架,讓機器人能夠像人類一樣在遇到陌生物品時主動"上網搜索"來學習新知識。
想象一下,當你第一次看到一個從未見過的廚房用具時,你會怎么做?你可能會拿起手機搜索"這是什么東西",了解它的用途和使用方法。現在,研究團隊讓機器人也擁有了這種能力。傳統的機器人就像一個只會按照食譜做菜的廚師,一旦遇到食譜上沒有的食材就束手無策。而VLA?就像給這個廚師配備了一臺智能手機和無線網絡,讓它能夠在遇到新食材時立即查詢相關信息,學會如何處理。
當前的視覺-語言-動作模型雖然在處理訓練數據中見過的物品時表現出色,但面對全新的物品概念時卻常常失效。這就好比一個只在中餐廳工作過的廚師突然被要求制作意大利菜,由于缺乏相關經驗,往往會手足無措。VLA?的創新之處在于為機器人建立了一套完整的"學習新知識"體系,讓它能夠主動獲取、理解并應用新信息。
這個突破性框架的核心理念是"即時學習"。當機器人遇到訓練數據中沒有的新物品時,它不會像傳統模型那樣直接放棄,而是會啟動一系列智能模塊來獲取相關知識。整個過程包括任務規劃、網絡搜索、物體檢測和任務驗證等多個環節,就像一個完整的問題解決流水線。
研究團隊選擇OpenVLA作為基礎執行模型,這相當于為機器人提供了一個強大的"大腦"。然后在此基礎上添加了各種外部工具模塊,讓機器人能夠調用網絡搜索、視覺識別等功能。這種設計思路類似于給智能手機安裝各種應用程序,每個應用都有特定的功能,協同工作時能夠解決復雜問題。
為了驗證這個框架的有效性,研究團隊基于LIBERO仿真環境設計了一套全新的測試體系。他們創建了三個不同難度級別的測試環境:簡單級別主要測試顏色變化的適應能力,中等級別涉及物品形狀和材質的變化,困難級別則包含完全陌生的物品概念。這種分層測試就像駕照考試中的科目一、科目二和科目三,每個級別都有特定的考核重點。
一、智能任務分解:讓復雜變簡單
VLA?框架的第一個核心組件是任務規劃模塊,它的作用就像一個經驗豐富的項目經理,能夠將復雜的工作任務分解成一系列簡單明確的步驟。當你告訴機器人"把藍白相間的瓷碗放到爐子上"時,規劃模塊會自動將這個指令分解為"拿起藍白相間的瓷碗"和"將瓷碗放置到爐子上"兩個基本動作。
這種分解過程并非簡單的文字切割,而是需要深入理解任務的邏輯結構。研究團隊使用GLM-4.1V-9B-Thinking模型作為規劃器的"大腦",這個模型經過專門訓練,能夠識別動作的先后順序和依賴關系。比如,在執行"打開抽屜并把碗放進去"這樣的復合任務時,規劃器會明確識別出必須先執行"打開抽屜"這個前置動作,然后才能執行"放置物品"的后續動作。
為了確保規劃結果的可靠性,研究團隊設計了嚴格的輸出約束條件。每個子任務必須包含確切的一個動作動詞,比如"拿起"、"移動"或"打開",同時必須明確指定相關的物品和位置。這種設計就像給機器人制定了一套標準化的"工作手冊",確保每個指令都清晰明確,不會產生歧義。
規劃模塊還配備了三層后處理機制來應對可能出現的錯誤。第一層是自動語言提取,能夠從模型輸出中識別關鍵信息。第二層是錯誤檢測和重新生成機制,當提取失敗時會要求模型重新輸出。第三層是硬編碼的任務特定解析,當前兩層都失敗時提供最后的保障。這種多重保護機制確保無論模型輸出什么內容,最終傳遞給后續模塊的都是有效且高質量的信息。
除了基本的任務分解功能,規劃模塊還具備處理復雜情況的能力。當遇到需要多步驟協調的任務時,比如"先打開微波爐,再把杯子放進去,最后關閉微波爐",規劃器能夠正確識別這種時序依賴關系,確保動作按照合理的順序執行。這種智能分解能力為整個框架的成功運行奠定了堅實基礎。
二、視覺認知升級:從"看見"到"理解"
VLA?的視覺處理系統就像給機器人配備了一雙既能"看見"又能"思考"的智慧眼睛。傳統的機器人視覺系統只能識別訓練時見過的物品,就像一個只認識蘋果和橙子的孩子,突然看到芒果時就完全不知所措。而VLA?的視覺系統則具備了主動學習新物品的能力。
當系統遇到無法識別的物品時,它會啟動一個"雙重判斷"機制。首先檢查是否能夠在圖像中找到該物品的有效邊界框,同時并行檢查是否已經有相關的輔助關鍵詞信息。如果任一信號缺失,系統就會觸發視覺搜索分支,自動從網絡下載相關圖片,將這些圖片組合成一個2×3的拼貼畫,然后結合結構化的文本提示發送給GLM理解模塊進行分析。
GLM理解模塊的工作原理頗為巧妙。它會分析從網絡獲取的參考圖片和當前場景中的目標物品,生成五個簡潔的描述性關鍵詞。這些關鍵詞專門用于描述物品的基本屬性,比如顏色、形狀、功能和尺寸等。例如,當遇到"藍白相間的瓷碗"時,系統可能會生成"圓形"、"陶瓷"、"藍色"、"白色"、"容器"這樣的關鍵詞。這些關鍵詞既支持后續的重新檢測,也會被儲存在視覺記憶中供未來任務使用。
視覺處理的下一步是精確定位和分割。系統使用增強后的關鍵詞信息重新運行MMGroundingDINO檢測器,嘗試在場景中定位目標物品。一旦成功檢測到物品位置,系統就會使用SAM2.1-L分割模型將邊界框轉換為像素級精確的遮罩。這個過程就像用彩色透明貼紙精確標記出物品的輪廓,讓機器人能夠準確知道目標物品的確切位置和形狀。
為了幫助機器人更好地區分不同類型的物品,系統采用了顏色編碼策略。操作對象(比如需要抓取的碗)和位置目標(比如放置的桌子)使用不同的顏色調色板進行標記。這種設計讓下游的執行模塊能夠利用角色感知的顏色線索來學習動作與圖像的對應關系。
整個視覺處理流程體現了"即時學習"的核心理念。系統不是簡單地拒絕處理未知物品,而是積極地將陌生輸入轉換為熟悉的表示形式。通過將新概念分解為基本屬性并將其錨定到已知概念上,系統實現了有效的跨領域泛化。這種方法的理論基礎在于認知科學的研究發現:當先驗知識可用且可訪問時,它能夠促進新信息的理解和記憶。
三、語言智能轉換:化生疏為熟悉
VLA?的語言處理組件承擔著將"外星語言"翻譯成"本地方言"的重要任務。當機器人遇到訓練詞匯表中沒有的新詞匯時,語言模塊就像一個精通多種語言的翻譯官,能夠找到最合適的對應詞匯進行替換。
語言處理的核心機制是智能替換系統。當系統收到包含陌生詞匯的指令時,比如"把茅臺酒放到架子上",而"茅臺酒"這個詞匯在訓練數據中從未出現過,語言模塊就會啟動替換程序。它首先檢查該詞匯是否在已知詞匯列表中,如果不在,就會調用GLM模型生成一個合適的替換詞。
GLM理解模塊在進行語言替換時會綜合考慮多種信息源。它會分析第一張圖像中的物品邊界框和得分信息,參考從網絡搜索獲得的拼貼圖像,結合原始提示文本、網絡獲取的關鍵詞、已知詞匯列表,以及外部API提供的描述信息。基于這些豐富的上下文信息,模型能夠生成準確的替換映射。
例如,當遇到"茅臺酒"這個陌生概念時,系統可能會將其替換為訓練數據中的"酒瓶"或"瓶子"。這種替換不是簡單的同義詞匹配,而是基于功能和屬性相似性的智能映射。替換后的詞匯必須是機器人在訓練過程中學會操作的熟悉概念,這樣才能確保后續的動作執行能夠成功。
為了提高替換效率和準確性,系統建立了文本記憶機制。每當成功生成一個有效的替換映射時,這個對應關系就會被記錄在語言模塊的文本記憶中。當相同的詞匯再次出現時,系統可以直接使用存儲的映射,而無需重新進行復雜的分析過程。這種記憶機制大大提高了系統的響應速度和一致性。
語言處理的最后一步是任務列表修復。在確定所有替換映射后,系統會相應地替換目標詞匯,并修復最終的任務列表,消除長鏈信息傳播可能導致的錯誤。最終輸出的指令完全使用機器人熟悉的詞匯,確保執行模塊能夠正確理解和執行。
這種語言轉換策略的巧妙之處在于它保持了指令的語義完整性,同時將表達方式調整為機器人能夠理解的形式。就像一個好的翻譯不僅要逐字翻譯,還要確保譯文在目標語言環境中同樣自然流暢。研究結果表明,這種語言替換機制是整個框架中最關鍵的組件之一,對于處理包含新穎概念的復合指令效果尤為顯著。
四、執行監控雙保險:確保任務順利完成
VLA?框架的執行和判斷系統就像一個經驗豐富的工程監理,不僅要確保每個施工步驟都按計劃進行,還要能夠及時發現問題并采取補救措施。這個系統包含兩個核心組件:智能驗證器和自適應執行器。
驗證器模塊使用經過特殊訓練的Qwen2.5-VL-3B-Instruct模型作為"質量檢查員"。為了讓這個檢查員更好地適應LIBERO環境和任務分解規則,研究團隊專門構建了一個精細化的訓練數據集。他們從LIBERO數據集的原始視覺記錄中提取視頻片段,為每個片段生成對應當前子任務的文本提示,并添加標注來指示子任務是否已完成以及系統是否可以繼續執行下一個子任務。
驗證器的工作方式相當智能化。它會根據不同的任務動詞采用不同的驗證策略。對于"拿取"類任務,驗證器會檢查目標物品是否已被抓取并從表面抬起。對于"放置"類任務,它會確認物品是否已放置到指定位置且機械臂已經離開。對于"開啟"或"關閉"類任務,它會驗證設備是否達到了預期的狀態。
除了基本的任務完成驗證,系統還設計了故障恢復機制。當驗證器發現機械臂卡住或處于異常狀態時,恢復檢測器會使用動態閾值來判斷是否需要干預。一旦檢測到異常,系統會強制將當前任務設置為"抬起機械爪",經過固定的步驟數后,再恢復之前被中斷的子任務并繼續執行。這種機制就像給機器人配備了"重啟"按鈕,能夠從卡頓狀態中自動恢復。
執行器部分則負責實際的動作控制。底層的VLA模型經過特殊微調,能夠處理上級規劃和視覺處理模塊產生的結構化輸入。特別值得注意的是,訓練數據中的視覺信息被重新格式化,原始的第三人稱RGB視頻被替換為帶有透明彩色遮罩的增強視頻。這種處理方式讓機器人能夠更好地理解物品的邊界和屬性。
在數據集準備過程中,研究團隊使用了與主框架相同的視覺和語言模塊來構建遮罩視頻和相應的任務列表。這確保了訓練時和實際使用時的一致性。同時,視覺和語言記憶在數據集準備階段就已經編碼了領域內任務的信息,為后續的跨領域評估提供了公平的比較基礎。
為了進一步提高執行效果,系統在微調和評估過程中使用了增強的任務文本提示。這些提示采用"現在執行當前子任務,整體任務是所有子任務的組合"的格式,讓VLA既知道當前應該做什么,也了解整體目標是什么。這種雙重上下文信息顯著改善了下游執行性能。
五、突破性實驗成果:數據說話
研究團隊設計了一套全面的實驗來驗證VLA?框架的有效性,就像給新開發的汽車進行全方位的路試。他們不僅要測試系統在標準環境下的表現,更重要的是驗證它在面對完全陌生情況時的適應能力。
實驗環境基于LIBERO仿真平臺構建了三個難度遞增的測試場景。簡單級別主要涉及顏色變化,比如將原本的黑色碗改為橙色系列。中等級別包含更復雜的物品替換,例如將酒瓶重新著色為天藍色并重命名為藍色瓶子,將木制柜子替換為白色柜子。困難級別則引入了完全陌生的概念,比如將酒瓶完全重新設計為茅臺酒的外觀,將黑色碗重新設計為藍白相間的瓷碗圖案。
在最具挑戰性的困難級別測試中,VLA?取得了令人印象深刻的成果。與其他最先進的模型相比,VLA?在困難環境中達到了76.2%的成功率,超過了π0模型16.2個百分點,比OpenVLA-OFT高出28.8個百分點。更重要的是,在所有自定義環境中,VLA?實現了81.5%的平均成功率,同時在原始領域內任務上沒有出現性能下降。
具體任務的表現更能說明系統的能力。在處理"茅臺酒-架子"任務時,VLA?的成功率達到72%,而π0僅為44%。在"碗-盤子"任務中,VLA?達到88%的成功率,遠超π0的16%。這些結果表明,通過明確地將陌生輸入重新格式化為模型已知的分布,VLA?在面對分布外變化時比競爭基線更加穩健。
為了深入理解各個組件的貢獻,研究團隊進行了詳細的消融實驗。當移除透明遮罩功能時,平均成功率從76.2%下降到64.8%,降幅達11.4個百分點。在需要大量交互和場景復雜的任務中,遮罩的作用更加明顯,比如"開抽屜"任務成功率下降26個百分點,"碗-柜子"任務下降22個百分點。
語言替換機制的重要性更為突出。當關閉語義替換功能時,系統性能出現了最大幅度的下降,平均成功率從76.2%暴跌至51.2%,降幅達25個百分點。在包含新穎概念的復合任務中,這種影響尤為嚴重,"茅臺酒-架子"任務成功率下降56個百分點,"碗-盤子"任務下降72個百分點。
網絡搜索和記憶檢索功能的移除也會顯著影響性能,平均成功率下降11個百分點至65.2%。有趣的是,在一些簡單場景中,檢索功能可能會引入噪聲,導致輕微的性能下降。但對于包含陌生品牌概念的任務,其積極作用是決定性的。
當移除所有關鍵模塊并完全采用原始Agentic Robot框架時,系統性能幾乎完全崩潰,平均成功率僅為26.2%,比VLA?低50個百分點。許多困難任務的成功率直接降為零,這充分證明了VLA?各個組件設計的重要性和有效性。
六、技術創新的深層意義
VLA?框架的技術創新遠超出表面的性能提升,它代表了機器人智能發展的一個重要范式轉變。傳統的機器人系統就像一個只會按照既定程序工作的工廠機器,而VLA?則更像一個具備學習能力的智能助手,能夠在遇到新情況時主動尋找解決方案。
這種"即時學習"能力的實現基于幾個關鍵的技術洞察。首先是知識分解和重組的思想。當面對陌生概念時,系統不是試圖直接理解它,而是將其分解為基本屬性,然后與已知概念建立聯系。這種方法借鑒了人類認知的基本機制,正如認知科學研究表明的那樣,先驗知識的存在能夠促進新信息的理解和記憶。
系統設計的另一個重要創新是模塊化架構。不同于端到端的訓練方法,VLA?采用了分工明確的模塊組合策略。這種設計不僅提高了系統的可解釋性和可維護性,還使得針對特定問題的優化變得更加可行。當某個模塊出現問題時,可以獨立進行調試和改進,而不需要重新訓練整個系統。
從計算效率的角度來看,VLA?的設計也頗為巧妙。雖然系統增加了額外的處理模塊,但通過"首次認知+記憶復用"的設計,后續調用的成本大大降低。視覺和語言模塊在首次推理時需要約20秒的時間,但后續使用存儲的記憶時可以極快完成。這種設計在保證功能強大的同時,也考慮了實際應用中的效率要求。
更重要的是,VLA?為解決機器人領域的長期挑戰提供了新思路。傳統方法試圖通過擴大訓練數據集來覆蓋更多概念,但這種方法在面對開放世界的無限可能性時必然存在局限。VLA?則提供了一種更加靈活和可擴展的解決方案,通過工具調用和外部知識整合來擴展系統能力。
這種方法論的轉變也反映了人工智能發展的更大趨勢。從追求單一模型的全能性,轉向構建能夠協同工作的專業化模塊系統。這種趨勢在大語言模型的工具調用能力、多模態模型的專業化分工等方面都有所體現。VLA?在機器人領域的成功應用,為這種發展方向提供了有力的驗證。
從實際應用的角度來看,VLA?的技術路線更加符合現實世界的需求。現實環境中不斷出現新的物品、新的品牌、新的概念,要求機器人系統具備快速適應的能力。傳統的重新訓練方法不僅成本高昂,而且時間周期長,難以滿足快速變化的需求。VLA?提供的即時學習能力為解決這一問題開辟了新的可能性。
說到底,VLA?框架最大的價值在于它證明了一個重要觀點:智能系統不需要事先了解世界上的所有事物,只要它具備學習新事物的能力就足夠了。這種能力讓機器人從被動的執行者轉變為主動的學習者,為未來的通用人工智能發展指明了方向。
當然,這項研究也還存在一些局限性。目前的框架設計仍然相對固化,在處理更加復雜和多樣化的任務時可能需要進一步的擴展。同時,研究還主要局限在仿真環境中,真實世界的應用還需要更多的驗證和優化。但無論如何,VLA?為機器人智能的發展開啟了一個充滿可能性的新篇章,讓我們對未來的智能機器人助手充滿期待。
研究團隊的這項工作不僅在技術層面取得了突破,更在理念層面為整個領域提供了新的思考方向。它告訴我們,構建真正智能的機器人系統不是要讓它們記住所有可能的情況,而是要讓它們學會如何面對未知的挑戰。這種能力,正是人類智能最寶貴的特質之一。
Q&A
Q1:VLA?框架與傳統機器人系統有什么根本區別?
A:傳統機器人系統只能處理訓練時見過的物品,遇到新物品就會失效。VLA?則像給機器人配備了"搜索大腦",當遇到陌生物品時能主動上網搜索相關信息,學會如何處理新概念,實現了從被動執行到主動學習的轉變。
Q2:VLA?的"即時學習"是如何實現的?
A:當系統遇到未知物品時,會啟動智能搜索機制:首先從網絡下載相關圖片組成拼貼畫,然后用AI模型分析生成描述關鍵詞,接著將陌生概念轉換為已知詞匯,最后用彩色遮罩標記物品位置。整個過程就像人類查字典學新詞一樣。
Q3:這項技術在實際應用中表現如何?
A:在包含完全陌生概念的困難測試中,VLA?成功率達到76.2%,比其他先進模型高出16-28個百分點。比如處理從未見過的"茅臺酒"時成功率達72%,而傳統方法只有44%。目前還主要在仿真環境中驗證,真實世界應用仍需進一步研究。





京公網安備 11011402013531號