![]()
這項由獨立研究員伊利亞·拉爾琴科、格列布·扎林和阿卡什·卡納塔克組成的團隊完成的突破性研究,在2025年12月9日發(fā)表的論文中詳細介紹了他們?nèi)绾卧贐EHAVIOR挑戰(zhàn)賽中奪得冠軍。該論文題為《Vision-Language-Action模型的任務適應:2025年BEHAVIOR挑戰(zhàn)賽第一名解決方案》,有興趣深入了解的讀者可以通過arXiv:2512.06951v1查詢完整論文。
想象一下,如果有一個機器人助手能夠像人類一樣在家中自如地完成各種家務活動,從簡單的開收音機到復雜的烹飪熱狗,那會是怎樣的體驗?這正是BEHAVIOR挑戰(zhàn)賽想要實現(xiàn)的目標。這個比賽要求AI系統(tǒng)在逼真的虛擬家庭環(huán)境中完成50種不同的家務任務,每個任務都需要機器人具備類似人類的靈活性和智能。
研究團隊面臨的挑戰(zhàn)就像是要培養(yǎng)一個完美的家庭助手。這個助手不僅要能看懂環(huán)境,理解任務,還要能用兩只手協(xié)調(diào)完成復雜動作,甚至在房間里自如移動。更難的是,它需要在一個政策模型下處理所有50種不同的任務,就像一個真正的全能助手。
團隊基于Pi0.5架構(gòu)開發(fā)了他們的解決方案,這就像是在一個已經(jīng)很聰明的助手基礎上進行升級改造。他們的創(chuàng)新包括引入了相關(guān)噪聲流匹配技術(shù),這種方法能讓機器人的動作序列更加流暢自然。同時,他們還開發(fā)了可學習的混合層注意機制和System 2階段跟蹤系統(tǒng)來解決模糊狀態(tài)的問題。
最終,他們的方法在所有50個任務上達到了26%的q分數(shù),在公開和私人排行榜上都獲得了第一名。這個成績看似不高,但考慮到任務的復雜性和多樣性,這已經(jīng)是一個remarkable的突破。就像一個剛學會做家務的孩子,雖然還不能每次都完美完成,但已經(jīng)展現(xiàn)出了驚人的學習能力和適應性。
一、家務機器人面臨的重重挑戰(zhàn)
BEHAVIOR挑戰(zhàn)賽可以說是目前最具挑戰(zhàn)性的家庭機器人測試。這個比賽要求機器人在逼真的虛擬環(huán)境中完成50種不同的家務活動,就像要求一個人在陌生的房子里完成從簡單到復雜的各種任務。
整個挑戰(zhàn)的核心在于長期任務執(zhí)行能力。每個任務平均需要6.6分鐘才能完成,最長的任務甚至需要14分鐘。這就像要求機器人保持專注力完成一系列連貫的動作,中間不能出錯。任何一個小失誤都可能導致整個任務鏈的崩潰,就像多米諾骨牌效應一樣。
機器人還必須具備雙手協(xié)調(diào)能力。它配備了兩個七自由度的機械臂,每個都有平行夾爪。這種設計讓它能夠像人類一樣用雙手配合完成復雜操作,比如一只手扶住物體,另一只手進行精細操作。
移動導航也是一大挑戰(zhàn)。機器人需要在雜亂的室內(nèi)環(huán)境中自如移動,避開障礙物,找到目標位置。同時,它還要處理來自頭部和兩個手腕攝像頭的多視角圖像信息,就像人類通過眼睛和觸覺同時感知環(huán)境一樣。
最具挑戰(zhàn)性的是任務多樣性要求。50種不同的活動涵蓋了家庭生活的方方面面,從整理物品到烹飪食物,每種任務都有其獨特的要求和操作序列。機器人必須用同一個策略模型或少數(shù)幾個檢查點來處理所有這些任務,這就像要求一個人成為全能的家務專家。
評估環(huán)境使用OmniGibson仿真平臺,基于NVIDIA Isaac Sim構(gòu)建,提供了高度真實的物理效果和渲染效果。每個任務都會在10個不同的場景中進行測試,初始條件隨機化,確保機器人的泛化能力。性能通過q分數(shù)來衡量,這個指標結(jié)合了成功率和子任務完成的部分分數(shù)。
二、機器人學習的核心難題
長期家務操作面臨著幾個根本性挑戰(zhàn),每一個都像是機器人學習路上的重大障礙。
首先是誤差累積問題。當任務需要數(shù)千個時間步才能完成時,即使是很小的預測誤差也會像雪球一樣越滾越大。就像走路時稍微偏離方向,時間長了就會完全迷失。這要求機器人要么具備極其精確的預測能力,要么擁有強大的錯誤恢復機制。
非馬爾可夫狀態(tài)是另一個巨大挑戰(zhàn)。許多任務狀態(tài)在視覺上看起來幾乎相同,但實際含義完全不同。舉個例子,機器人在任務開始時拿著收音機和在任務結(jié)束時拿著收音機,從攝像頭看到的畫面可能一模一樣,但需要執(zhí)行的動作卻截然不同。沒有對過去動作的記憶或明確的階段跟蹤,策略無法區(qū)分這些狀態(tài),可能會執(zhí)行錯誤的動作。
缺乏恢復示范數(shù)據(jù)也是一個嚴重問題。訓練數(shù)據(jù)完全由成功的演示組成,就像學習資料只包含標準答案,沒有錯誤案例的處理方法。當機器人偏離演示軌跡時(這在誤差累積的情況下不可避免),它會遇到訓練期間從未見過的狀態(tài)。在這種分布外的情況下,策略必須能夠自行泛化并找到恢復方法。
多模態(tài)動作分布使問題變得更加復雜。許多狀態(tài)允許多種有效的動作序列,比如使用哪只手、先抓哪個物體等。同一任務的不同演示在訓練數(shù)據(jù)中以不同速度完成,這增加了學習的難度。機器人需要在這些多樣的解決方案中找到最適合當前情況的路徑。
三、創(chuàng)新解決方案的核心思路
研究團隊基于Pi0.5架構(gòu)開發(fā)了他們的解決方案,Pi0.5是一個使用流匹配來預測動作序列的視覺-語言-動作模型。他們的修改方案通過一系列創(chuàng)新組件來解決前述挑戰(zhàn)。
在建模動作結(jié)構(gòu)方面,團隊發(fā)現(xiàn)機器人動作表現(xiàn)出強烈的相關(guān)性,包括時間相關(guān)性(平滑軌跡)和跨維度相關(guān)性(協(xié)調(diào)關(guān)節(jié)運動)。他們明確地對這種結(jié)構(gòu)進行建模,使用從N(0, βΣ + (1-β)I)采樣的相關(guān)噪聲進行訓練,其中Σ是經(jīng)驗動作協(xié)方差,β=0.5。這種方法使訓練更加高效,并在推理期間實現(xiàn)了原理性的修補。
為了提供非馬爾可夫上下文,團隊引入了System 2階段跟蹤系統(tǒng)。模型預測當前任務階段,投票機制過濾嘈雜的預測以保持穩(wěn)定的階段估計。這些階段信息與任務嵌入融合并反饋給模型,從而解決模糊狀態(tài)問題。
在結(jié)合學習與啟發(fā)式方面,純學習方法在缺乏恢復數(shù)據(jù)的情況下表現(xiàn)不佳。團隊通過從失敗分析中得出的糾正規(guī)則來補充學習策略,這些簡單的啟發(fā)式能夠檢測并從常見失敗模式中恢復,比如意外的夾爪關(guān)閉。
團隊還應用了可學習的混合層注意機制,允許每個動作專家層關(guān)注所有VLM層的學習線性組合,而不是任意決定動作專家層應該如何關(guān)注VLM層。
在訓練方面,團隊使用多樣本流匹配技術(shù),每次VLM前向傳播計算15個預測,以減少梯度方差,同時分攤昂貴的視覺-語言計算成本。
在推理時,團隊應用動作壓縮技術(shù),通過三次樣條將26個預測動作壓縮到20個執(zhí)行步驟,實現(xiàn)1.3倍的加速。
團隊還通過移除文本處理并使用可訓練的任務嵌入來簡化VLM部分,而不是文本提示。技術(shù)上這去除了"VLA"和"VLM"術(shù)語中的"L",但為了簡單起見,他們保留了這些名稱。
四、任務嵌入:從語言到專用編碼
原始的Pi0.5使用語言嵌入來指定任務,就像通過自然語言告訴機器人要做什么。研究團隊將這種方式替換為針對BEHAVIOR-1K結(jié)構(gòu)化任務的特定任務嵌入。
BEHAVIOR挑戰(zhàn)賽的一個關(guān)鍵特點是泛化需求非常有限。只有50個任務同時出現(xiàn)在訓練和評估數(shù)據(jù)中,這意味著策略不需要明確地泛化到自然語言描述的新任務。機器人只需要掌握這固定的50種家務活動。
團隊沒有處理自然語言提示,而是使用可訓練的任務嵌入,為50個任務中的每一個使用一個2048維的嵌入,從零開始訓練。這種方法就像給每種家務活動分配一個專用的"身份證",機器人可以直接識別和理解。
這種簡化對于BEHAVIOR-1K是合理的,原因包括幾個方面。首先,只有50個不同的任務組成固定集合,不需要處理無限可能的自然語言指令。其次,任務語義隱含在演示數(shù)據(jù)中,機器人可以通過觀察學習任務的本質(zhì)。第三,這種方法移除了語言模型處理的開銷,提高了計算效率。最后,它允許模型直接學習任務特定的特征,而不需要通過語言理解這個中間步驟。
五、System 2:階段預測與融合系統(tǒng)
團隊面臨的一個重大挑戰(zhàn)是非馬爾可夫狀態(tài)的存在,這意味著當前任務狀態(tài)不足以預測正確的下一個動作。機器人可能在同一任務的開始和結(jié)束看到幾乎相同的圖像,但需要執(zhí)行完全不同的動作。
為了解決這個問題,團隊添加了一個簡單的System 2系統(tǒng)。這個系統(tǒng)基于圖像和任務嵌入預測任務的當前階段,應用投票邏輯來過濾不正確的預測,并在后續(xù)步驟中將其用作模型的額外輸入。
在階段預測方面,每個任務基于演示長度被分為5到15個階段。系統(tǒng)使用VLM輸出上的線性分類器來預測當前階段。15是所有任務中階段數(shù)的最大值,無效階段在softmax之前被屏蔽為負無窮。階段預測在訓練數(shù)據(jù)上達到了約99%的準確率,為動作預測提供了可靠的上下文。
在階段-任務融合方面,團隊使用多種學習表示(正弦-余弦編碼、任務特定學習嵌入和門控組合)將任務嵌入與階段信息融合。這為模型提供了5個任務相關(guān)的令牌。
六、可學習的混合層注意機制
在不同的VLA模型中,流匹配或擴散動作頭與VLM部分的結(jié)合方式各不相同,團隊沒有看到明確的優(yōu)勝者。因此,他們決定讓模型自己決定關(guān)注哪些層以及如何關(guān)注。
在訓練和推理期間,團隊首先計算VLM部分所有層的鍵值緩存,然后使用可學習的權(quán)重和偏差對其進行轉(zhuǎn)換。對于每個動作專家層j,他們計算轉(zhuǎn)換后的鍵和值作為所有VLM層的線性組合。
這種設計具有幾個特點。模型可以關(guān)注任何VLM層,權(quán)重可以選擇早期、中期或后期層。它可以通過關(guān)注多個層的加權(quán)平均來形成平滑組合。它可以從數(shù)據(jù)中學習,無需手動架構(gòu)搜索。
這種方法在參數(shù)效率方面表現(xiàn)優(yōu)異。對于18個動作專家層中的每一個,團隊只需要學習18個標量系數(shù)加上一個偏差張量,分別用于鍵和值。團隊對鍵和值使用不同的系數(shù),因為沒有理由讓它們相同。
初始化時,權(quán)重設為單位矩陣,偏差設為0,因此模型從Pi0.5的層到層注意開始。由于團隊從預訓練的Pi0.5權(quán)重開始,經(jīng)過大量微調(diào)后,單位初始化已經(jīng)是一個很好的先驗。觀察到的學習偏差顯示,模型傾向于更多關(guān)注最后的VLM層,盡管這可能是噪聲。團隊預期這種方法對從頭訓練的模型或從非機器人VLM初始化的模型會有更大的效果。
七、自定義注意力掩碼的層次結(jié)構(gòu)
團隊使用層次化的注意力模式,將可靠的輸入與嘈雜的輸入隔離開來。這種設計就像建立了一個信息處理的等級制度,確保最重要和最可靠的信息能夠得到適當?shù)奶幚怼?/p>
圖像令牌之間以及與任務令牌之間使用雙向注意力。任務令牌與圖像進行雙向交互。階段令牌關(guān)注圖像、任務和本體狀態(tài)。狀態(tài)令牌關(guān)注圖像、任務、階段和其他狀態(tài)令牌。FAST令牌關(guān)注所有前綴令牌并彼此因果關(guān)注。動作專家令牌在彼此之間使用雙向注意力,關(guān)注除FAST之外的所有其他前綴令牌。
這種設計的基本原理很清晰。圖像和任務嵌入是最可靠的輸入,直接來源于觀察,具有確定性。團隊防止它們關(guān)注更嘈雜的輸入,如機器人狀態(tài)(在推理期間可能漂移)或預測階段(可能不正確)。這保持了視覺特征的清潔。
在System 2中,只有圖像和任務嵌入用于預測當前階段。為了避免目標泄漏,它們不應該關(guān)注階段令牌。FAST令牌自回歸地預測動作,因此它們關(guān)注所有前綴令牌并彼此因果關(guān)注(僅在訓練期間使用)。動作專家令牌同時預測整個塊,因此它們在彼此之間使用雙向注意力,同時關(guān)注除FAST之外的所有前綴令牌。
八、Delta動作空間與時間戳歸一化
團隊不是預測絕對關(guān)節(jié)位置,而是預測delta動作,也就是相對于當前狀態(tài)的變化量。這種方法就像告訴機器人"向前移動10厘米"而不是"移動到坐標(x,y,z)",提供了更好的泛化性能。
具體來說,團隊預測的delta動作是目標位置與當前位置的差值。這種表示方法提供了對初始配置的不變性,在不同起始狀態(tài)下具有更好的泛化能力,并且更容易學習平滑軌跡。
團隊還實施了按時間戳歸一化的技術(shù)。對于每個動作維度和塊中的索引,他們計算該特定時間點的均值和標準差,然后進行歸一化。
為什么要按時間戳歸一化?動作分布在軌跡內(nèi)隨時間變化。塊中的初始動作非常接近當前狀態(tài)(小delta),而后期動作變化更大。按時間戳歸一化使整個時間范圍內(nèi)的學習問題更加均勻。需要注意的是,速度和夾爪位置被排除在按時間戳歸一化之外。
九、相關(guān)噪聲:流匹配的結(jié)構(gòu)化方法
團隊的關(guān)鍵創(chuàng)新之一是在流匹配訓練和推理期間明確建模動作相關(guān)性。這種方法認識到機器人動作并不是獨立的隨機事件,而是具有內(nèi)在結(jié)構(gòu)和相關(guān)性的協(xié)調(diào)運動。
機器人動作在兩個方面表現(xiàn)出強相關(guān)性。時間相關(guān)性表現(xiàn)為相鄰時間步的動作相似,形成平滑軌跡。跨維度相關(guān)性表現(xiàn)為關(guān)節(jié)速度的協(xié)調(diào),例如軀干關(guān)節(jié)一起移動。
標準流匹配使用獨立的高斯噪聲,這創(chuàng)造了一個訓練問題。早期去噪步驟(t≈1)很困難,但一旦進行幾個去噪步驟,模型學會了相關(guān)結(jié)構(gòu),后期預測就變得簡單。
團隊的解決方案是生成已經(jīng)匹配動作結(jié)構(gòu)的相關(guān)噪聲。這使得所有去噪步驟的難度更加平衡。他們從訓練集估計完整的相關(guān)矩陣,將標準化的動作序列展平為高維向量,然后計算樣本協(xié)方差。
為了穩(wěn)健性,團隊應用收縮正則化,使用純協(xié)方差矩陣可能不穩(wěn)定,因此他們應用收縮正則化,其中β∈[0,1]是收縮參數(shù),團隊使用β=0.5作為平衡選擇。
要采樣相關(guān)噪聲,團隊使用Cholesky分解,然后生成相關(guān)噪聲。使用相關(guān)噪聲,流匹配插值在t=1(純噪聲)時,x1=ε具有與真實動作相同的相關(guān)結(jié)構(gòu)。模型即使在最嘈雜的步驟也能看到合理的動作模式。在t∈(0,1)時,插值在整個去噪過程中保持相關(guān)結(jié)構(gòu)。這使得訓練任務更加均勻,并保持不同去噪步驟的難度更加平衡。
十、多樣本流匹配:減少訓練方差
標準流匹配為每次觀察計算一個動作預測,為每個批次元素隨機采樣(t, ε)。這在訓練信號中引入了顯著的方差,就像每次練習都使用不同的難度等級,學習效果不夠穩(wěn)定。
流匹配損失有兩個隨機性時間采樣和噪聲采樣。團隊可以在多個流樣本之間分攤昂貴的VLM前向傳播,并減少結(jié)果梯度的隨機性。
團隊的算法包括三個步驟。首先進行VLM前向傳播,為所有前綴令牌計算KV緩存一次。然后進行多樣本動作預測,對每個樣本采樣不同的(tn, εn),計算嘈雜動作,運行動作專家。最后進行反向傳播,梯度通過所有N個樣本流回。
這種方法在保持計算效率的同時顯著減少了訓練方差,就像用多個角度同時觀察同一個問題,得到更穩(wěn)定可靠的學習信號。
十一、訓練策略與多任務學習
團隊采用兩階段訓練策略。首先進行多任務訓練,在所有50個任務上同時訓練。這個階段在8×H200 GPU上進行了15天的不間斷訓練。然后進行任務組特定微調(diào),根據(jù)驗證結(jié)果將任務分為最佳(最高成功率)、良好(分數(shù)>0)、較差(分數(shù)~0)組,分別訓練。這個階段每組大約需要1周。
團隊的總損失是三個組件的加權(quán)組合:動作損失、階段預測損失和FAST輔助損失。動作損失是在N個樣本上平均的流匹配損失。階段預測損失是權(quán)重為0.1的階段分類交叉熵損失。FAST輔助損失權(quán)重為0.05(從初始訓練的0.1降低)。
最終提交使用4個任務特定檢查點,根據(jù)任務ID自動切換。團隊的總競賽預算約為13000美元,個人花費約3000美元用于實驗和評估,Nebius贊助10000美元用于8×H200 GPU的主要訓練運行。
十二、推理優(yōu)化:相關(guān)感知修補與動作壓縮
為了確保平滑的動作序列并解決局部多模態(tài),團隊使用滾動修補策略。他們不是直接執(zhí)行所有預測的動作,而是采用軟修補策略。
具體過程是預測30個動作,執(zhí)行前26個動作,保存最后4個動作作為初始條件,然后在下一次預測中生成30個新動作,使前4個幾乎匹配保存的動作,最后重復這個過程。
關(guān)鍵挑戰(zhàn)是如何在尊重相關(guān)結(jié)構(gòu)的同時約束初始動作。樸素的方法對前4個動作應用硬約束,對其余部分不進行調(diào)整。這在動作4和5之間的邊界創(chuàng)建不連續(xù)性,模型預測不尊重修補和自由動作之間的相關(guān)性,每個流匹配步驟的輸入變得分布外。
團隊的方法使用學習的相關(guān)結(jié)構(gòu)傳播修正。將相關(guān)矩陣分區(qū)為修補和自由部分,然后在每個去噪步驟中,在模型預測后計算修補維度上的期望狀態(tài),計算加法修正,應用硬約束,并將修正傳播到自由維度。
修正矩陣編碼在修補維度上給定修正的情況下,每個自由維度應該調(diào)整多少,確保平滑過渡。團隊使用數(shù)值穩(wěn)定的求解器預計算這個矩陣一次。
團隊僅在早期去噪步驟(t>0.3)期間應用修補修正。在早期t時,保持約束和相關(guān)性對平滑軌跡至關(guān)重要。在后期t(接近目標)時,模型應該有完全的自由來適應當前觀察。這種"軟"修補允許在觀察變化時偏離初始計劃。
在動作壓縮方面,相對于演示數(shù)據(jù)加速動作執(zhí)行可以通過允許每個時段更多的預測周期和更多恢復失敗的嘗試來提高任務完成率。團隊應用類似的原理,使用三次樣條插值預測26個動作在30Hz,執(zhí)行20步在30Hz,加速比為1.3倍。
團隊使用三次樣條插值生成平滑的中間動作,而不是線性重采樣,后者可能引入抖動。他們將基礎速度維度按1.3倍縮放以適應更快的執(zhí)行,關(guān)節(jié)速度保持不變,因為它們已經(jīng)標準化,控制器處理時間。當夾爪狀態(tài)顯著變化時,團隊禁用壓縮,許多失敗與抓取相關(guān),因此當機器人試圖抓取物體時,他們放慢速度并給策略更多時間。
十三、階段跟蹤與糾正規(guī)則
模型在每個推理步驟預測當前階段。由于單個預測可能嘈雜,團隊采用多數(shù)投票方案確保穩(wěn)定的階段轉(zhuǎn)換。他們維護三個最近階段預測的滑動窗口,在每個推理步驟,模型輸出階段logits,團隊取argmax獲得預測階段,并將此預測附加到歷史緩沖區(qū)。
階段轉(zhuǎn)換遵循基于預測歷史的三個規(guī)則。前向轉(zhuǎn)換:如果三個預測中至少兩個指示下一階段,團隊前進到該階段并清除歷史。這種多數(shù)投票防止單個嘈雜預測的過早轉(zhuǎn)換,同時仍允許響應式進展。跳躍檢測:如果三個預測一致指示當前階段+2,這表明機器人比預期更快完成階段或階段已經(jīng)滿足,團隊前進一個階段以追趕,然后清除歷史。回滾:如果三個預測一致指示前一階段,團隊回滾一個階段,這處理需要重新嘗試子任務的情況。要求一致同意使回滾比前向轉(zhuǎn)換更保守。
任何階段轉(zhuǎn)換后,預測歷史被清除,以防止陳舊預測影響未來轉(zhuǎn)換。
BEHAVIOR-1K數(shù)據(jù)集非常干凈,不包含恢復演示。在實踐中,如果策略失敗任何動作,很有可能最終處于分布外狀態(tài)并完全卡住。所有任務中最常見的失敗之一是抓取失敗并在空氣中關(guān)閉夾爪。幾乎沒有訓練數(shù)據(jù)顯示機器人在關(guān)閉夾爪后打開夾爪,這導致完全失敗,因為機器人被卡住無法執(zhí)行任何動作。
為了解決這個問題,團隊實施了一個簡單規(guī)則:如果夾爪關(guān)閉,但在相同階段的訓練數(shù)據(jù)中從未關(guān)閉,團隊將其視為失敗抓取并完全打開夾爪。這個糾正規(guī)則單獨使選定任務的成功率大約翻倍,其中抓取物體是常見失敗模式。
團隊開始嘗試更細粒度的任務特定規(guī)則,但最終只添加了一個"turning_on_radio"任務的簡單規(guī)則(如果達到最終階段但未成功則回滾2個階段)。團隊認為這種方法在改善結(jié)果方面有潛力,但不可擴展或可泛化,因此沒有進一步追求。
十四、評估結(jié)果與分析
在標準化評估協(xié)議下,BEHAVIOR-1K挑戰(zhàn)賽使用50個家務活動,每個任務10個評估時段,具有固定實例和隨機初始條件。成功指標包括目標條件滿足(二元和部分),時間限制是任務特定的,為演示數(shù)據(jù)集中平均人類任務完成時間的2倍。
團隊在前5名團隊中獲得第一名,公開和私人評估之間幾乎沒有差異。在他們的案例中,部分成功貢獻了大約一半的總分。團隊達到了26%的q分數(shù),這個成績雖然看似不高,但考慮到任務的復雜性和多樣性,已經(jīng)是一個顯著的成就。
分析顯示,一些任務幾乎已經(jīng)解決,除非在特別棘手的初始條件下。對于成功率為0的任務,團隊觀察到它們通常不是普遍不可能的,而是通常包含一個需要非常高精度操作的棘手步驟,或者是超出當前模型限制的仔細遵循的序列。
任務持續(xù)時間似乎不是根本障礙。較長的任務只是有更多步驟,這使得完全成功更加困難,但部分成功仍然非常可實現(xiàn)。
團隊對失敗模式進行了分析,標記了一部分任務的多選失敗原因。靈巧性問題占主導地位,約占失敗的三分之一,這主要是機器人無法可靠地拾取或釋放物品的笨拙性。順序錯誤是另一個主要問題,許多任務需要特定順序,另一個常見問題是決定提前完成。混淆行為可能由機器人進入分布外狀態(tài)引起。機器人有時在嘗試蹲下從地板拾取物品時開始向后倒。推理問題出現(xiàn)在機器人應該選擇局部非顯而易見的動作時。搜索問題中,去噪過程中的隨機性在持續(xù)探索方面效果驚人,但可能導致重復遍歷同一區(qū)域。
十五、跨任務學習帶來的恢復行為
從跨任務學習中出現(xiàn)的恢復行為是改善模型的關(guān)鍵因素。單任務模型沒有表現(xiàn)出恢復行為,在所有50個任務上訓練的相同架構(gòu)展現(xiàn)出廣泛的恢復行為,如拾取掉落的物體。
一般來說,更多訓練提高了各任務的成功率,但對某些任務,多任務模型表現(xiàn)更差。團隊假設這可能是由于任務持續(xù)時間短,因此在數(shù)據(jù)集中相對權(quán)重低,或者由于具有相似視覺特征的不同任務之間的混淆。
在主訓練運行期間,團隊定期分支檢查點并在1-2個任務上進行微調(diào)。在訓練早期,這給出了顯著的性能提升,但在后期階段,主運行達到了可比性能,表明訓練不足是主要限制因素。
團隊的分析突出了當前VLA模型靈巧操作、System-2風格組件指導IL策略和多樣化預訓練數(shù)據(jù)集的主要焦點問題,以擴大模型產(chǎn)生有意義動作的流形。這表明在這個挑戰(zhàn)上的工作與現(xiàn)實世界問題相關(guān)。
由于預算限制,團隊沒有運行完整的消融研究。小規(guī)模實驗顯示,模型對圖像質(zhì)量出人意料地寬容。比較224×224生成與720×720縮放沒有導致有意義的變化。更令人驚訝的是,用于評估的云提供商中的機器不支持NGX,這導致了容易察覺的圖像質(zhì)量下降,但對成功率的影響很小。
推理參數(shù)的小變化(執(zhí)行動作數(shù)、執(zhí)行加速、投票歷史長度)沒有顯示顯著變化。極端變化導致分數(shù)下降。夾爪打開糾正規(guī)則在13個任務的39個時段子集上顯示q分數(shù)增加2.2倍。
說到底,這項研究展示了如何讓機器人真正學會做家務這件事。雖然26%的成功率聽起來不高,但考慮到這些任務的復雜性,這已經(jīng)是一個了不起的成就。就像教會一個孩子做家務一樣,機器人現(xiàn)在不僅能夠理解要做什么,還能在遇到困難時想辦法解決問題。
更重要的是,這項研究證明了一個重要觀點:讓機器人學會多種不同的任務,比只教它做一件事情要好得多。當機器人學會了洗碗、整理房間、烹飪等各種技能后,它在遇到意外情況時就能運用這些經(jīng)驗找到解決辦法,就像掉落的物品,單獨訓練的機器人可能就傻眼了,但學過多種任務的機器人知道要把它撿起來。
雖然距離真正實用的家務機器人還有一段路要走,但這項研究為我們指明了方向。未來的機器人助手可能會越來越聰明,越來越可靠,最終真正成為我們生活中的得力幫手。這項由獨立研究員完成的突破性工作,為整個機器人學習領域樹立了新的標桿,有興趣深入了解技術(shù)細節(jié)的讀者可以通過arXiv:2512.06951v1查詢完整的研究論文。
Q&A
Q1:BEHAVIOR挑戰(zhàn)賽到底考驗機器人什么能力?
A:BEHAVIOR挑戰(zhàn)賽要求機器人在虛擬家庭環(huán)境中完成50種不同的家務任務,包括簡單的開收音機到復雜的烹飪熱狗。機器人需要具備雙手協(xié)調(diào)操作、室內(nèi)導航、多視角感知和長期任務執(zhí)行能力,每個任務平均需要6.6分鐘完成,最長可達14分鐘。
Q2:這個研究團隊的相關(guān)噪聲流匹配技術(shù)有什么特別之處?
A:傳統(tǒng)方法使用獨立的隨機噪聲訓練機器人,但這個團隊發(fā)現(xiàn)機器人動作具有內(nèi)在相關(guān)性,比如相鄰時間步的動作應該平滑連接,關(guān)節(jié)運動需要協(xié)調(diào)。他們使用結(jié)構(gòu)化的相關(guān)噪聲進行訓練,讓機器人從一開始就學會協(xié)調(diào)性動作,使訓練更高效、動作更自然。
Q3:為什么機器人做家務的成功率只有26%?
A:26%的成功率實際上是一個重大突破,因為這些家務任務極其復雜。每個任務需要數(shù)千個連續(xù)動作,任何小錯誤都會累積放大,而且機器人必須用同一個模型處理50種完全不同的任務。就像要求一個人成為全能家務專家,能夠完美處理從烹飪到清潔的所有活動。





京公網(wǎng)安備 11011402013531號