亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

機器人學會做家務!斯坦福大學讓AI機器人拿下家務挑戰(zhàn)賽冠軍

IP屬地 中國·北京 科技行者 時間:2025-12-16 18:05:21


這項由獨立研究員伊利亞·拉爾琴科、格列布·扎林和阿卡什·卡納塔克組成的團隊完成的突破性研究,在2025年12月9日發(fā)表的論文中詳細介紹了他們?nèi)绾卧贐EHAVIOR挑戰(zhàn)賽中奪得冠軍。該論文題為《Vision-Language-Action模型的任務適應:2025年BEHAVIOR挑戰(zhàn)賽第一名解決方案》,有興趣深入了解的讀者可以通過arXiv:2512.06951v1查詢完整論文。

想象一下,如果有一個機器人助手能夠像人類一樣在家中自如地完成各種家務活動,從簡單的開收音機到復雜的烹飪熱狗,那會是怎樣的體驗?這正是BEHAVIOR挑戰(zhàn)賽想要實現(xiàn)的目標。這個比賽要求AI系統(tǒng)在逼真的虛擬家庭環(huán)境中完成50種不同的家務任務,每個任務都需要機器人具備類似人類的靈活性和智能。

研究團隊面臨的挑戰(zhàn)就像是要培養(yǎng)一個完美的家庭助手。這個助手不僅要能看懂環(huán)境,理解任務,還要能用兩只手協(xié)調(diào)完成復雜動作,甚至在房間里自如移動。更難的是,它需要在一個政策模型下處理所有50種不同的任務,就像一個真正的全能助手。

團隊基于Pi0.5架構(gòu)開發(fā)了他們的解決方案,這就像是在一個已經(jīng)很聰明的助手基礎上進行升級改造。他們的創(chuàng)新包括引入了相關(guān)噪聲流匹配技術(shù),這種方法能讓機器人的動作序列更加流暢自然。同時,他們還開發(fā)了可學習的混合層注意機制和System 2階段跟蹤系統(tǒng)來解決模糊狀態(tài)的問題。

最終,他們的方法在所有50個任務上達到了26%的q分數(shù),在公開和私人排行榜上都獲得了第一名。這個成績看似不高,但考慮到任務的復雜性和多樣性,這已經(jīng)是一個remarkable的突破。就像一個剛學會做家務的孩子,雖然還不能每次都完美完成,但已經(jīng)展現(xiàn)出了驚人的學習能力和適應性。

一、家務機器人面臨的重重挑戰(zhàn)

BEHAVIOR挑戰(zhàn)賽可以說是目前最具挑戰(zhàn)性的家庭機器人測試。這個比賽要求機器人在逼真的虛擬環(huán)境中完成50種不同的家務活動,就像要求一個人在陌生的房子里完成從簡單到復雜的各種任務。

整個挑戰(zhàn)的核心在于長期任務執(zhí)行能力。每個任務平均需要6.6分鐘才能完成,最長的任務甚至需要14分鐘。這就像要求機器人保持專注力完成一系列連貫的動作,中間不能出錯。任何一個小失誤都可能導致整個任務鏈的崩潰,就像多米諾骨牌效應一樣。

機器人還必須具備雙手協(xié)調(diào)能力。它配備了兩個七自由度的機械臂,每個都有平行夾爪。這種設計讓它能夠像人類一樣用雙手配合完成復雜操作,比如一只手扶住物體,另一只手進行精細操作。

移動導航也是一大挑戰(zhàn)。機器人需要在雜亂的室內(nèi)環(huán)境中自如移動,避開障礙物,找到目標位置。同時,它還要處理來自頭部和兩個手腕攝像頭的多視角圖像信息,就像人類通過眼睛和觸覺同時感知環(huán)境一樣。

最具挑戰(zhàn)性的是任務多樣性要求。50種不同的活動涵蓋了家庭生活的方方面面,從整理物品到烹飪食物,每種任務都有其獨特的要求和操作序列。機器人必須用同一個策略模型或少數(shù)幾個檢查點來處理所有這些任務,這就像要求一個人成為全能的家務專家。

評估環(huán)境使用OmniGibson仿真平臺,基于NVIDIA Isaac Sim構(gòu)建,提供了高度真實的物理效果和渲染效果。每個任務都會在10個不同的場景中進行測試,初始條件隨機化,確保機器人的泛化能力。性能通過q分數(shù)來衡量,這個指標結(jié)合了成功率和子任務完成的部分分數(shù)。

二、機器人學習的核心難題

長期家務操作面臨著幾個根本性挑戰(zhàn),每一個都像是機器人學習路上的重大障礙。

首先是誤差累積問題。當任務需要數(shù)千個時間步才能完成時,即使是很小的預測誤差也會像雪球一樣越滾越大。就像走路時稍微偏離方向,時間長了就會完全迷失。這要求機器人要么具備極其精確的預測能力,要么擁有強大的錯誤恢復機制。

非馬爾可夫狀態(tài)是另一個巨大挑戰(zhàn)。許多任務狀態(tài)在視覺上看起來幾乎相同,但實際含義完全不同。舉個例子,機器人在任務開始時拿著收音機和在任務結(jié)束時拿著收音機,從攝像頭看到的畫面可能一模一樣,但需要執(zhí)行的動作卻截然不同。沒有對過去動作的記憶或明確的階段跟蹤,策略無法區(qū)分這些狀態(tài),可能會執(zhí)行錯誤的動作。

缺乏恢復示范數(shù)據(jù)也是一個嚴重問題。訓練數(shù)據(jù)完全由成功的演示組成,就像學習資料只包含標準答案,沒有錯誤案例的處理方法。當機器人偏離演示軌跡時(這在誤差累積的情況下不可避免),它會遇到訓練期間從未見過的狀態(tài)。在這種分布外的情況下,策略必須能夠自行泛化并找到恢復方法。

多模態(tài)動作分布使問題變得更加復雜。許多狀態(tài)允許多種有效的動作序列,比如使用哪只手、先抓哪個物體等。同一任務的不同演示在訓練數(shù)據(jù)中以不同速度完成,這增加了學習的難度。機器人需要在這些多樣的解決方案中找到最適合當前情況的路徑。

三、創(chuàng)新解決方案的核心思路

研究團隊基于Pi0.5架構(gòu)開發(fā)了他們的解決方案,Pi0.5是一個使用流匹配來預測動作序列的視覺-語言-動作模型。他們的修改方案通過一系列創(chuàng)新組件來解決前述挑戰(zhàn)。

在建模動作結(jié)構(gòu)方面,團隊發(fā)現(xiàn)機器人動作表現(xiàn)出強烈的相關(guān)性,包括時間相關(guān)性(平滑軌跡)和跨維度相關(guān)性(協(xié)調(diào)關(guān)節(jié)運動)。他們明確地對這種結(jié)構(gòu)進行建模,使用從N(0, βΣ + (1-β)I)采樣的相關(guān)噪聲進行訓練,其中Σ是經(jīng)驗動作協(xié)方差,β=0.5。這種方法使訓練更加高效,并在推理期間實現(xiàn)了原理性的修補。

為了提供非馬爾可夫上下文,團隊引入了System 2階段跟蹤系統(tǒng)。模型預測當前任務階段,投票機制過濾嘈雜的預測以保持穩(wěn)定的階段估計。這些階段信息與任務嵌入融合并反饋給模型,從而解決模糊狀態(tài)問題。

在結(jié)合學習與啟發(fā)式方面,純學習方法在缺乏恢復數(shù)據(jù)的情況下表現(xiàn)不佳。團隊通過從失敗分析中得出的糾正規(guī)則來補充學習策略,這些簡單的啟發(fā)式能夠檢測并從常見失敗模式中恢復,比如意外的夾爪關(guān)閉。

團隊還應用了可學習的混合層注意機制,允許每個動作專家層關(guān)注所有VLM層的學習線性組合,而不是任意決定動作專家層應該如何關(guān)注VLM層。

在訓練方面,團隊使用多樣本流匹配技術(shù),每次VLM前向傳播計算15個預測,以減少梯度方差,同時分攤昂貴的視覺-語言計算成本。

在推理時,團隊應用動作壓縮技術(shù),通過三次樣條將26個預測動作壓縮到20個執(zhí)行步驟,實現(xiàn)1.3倍的加速。

團隊還通過移除文本處理并使用可訓練的任務嵌入來簡化VLM部分,而不是文本提示。技術(shù)上這去除了"VLA"和"VLM"術(shù)語中的"L",但為了簡單起見,他們保留了這些名稱。

四、任務嵌入:從語言到專用編碼

原始的Pi0.5使用語言嵌入來指定任務,就像通過自然語言告訴機器人要做什么。研究團隊將這種方式替換為針對BEHAVIOR-1K結(jié)構(gòu)化任務的特定任務嵌入。

BEHAVIOR挑戰(zhàn)賽的一個關(guān)鍵特點是泛化需求非常有限。只有50個任務同時出現(xiàn)在訓練和評估數(shù)據(jù)中,這意味著策略不需要明確地泛化到自然語言描述的新任務。機器人只需要掌握這固定的50種家務活動。

團隊沒有處理自然語言提示,而是使用可訓練的任務嵌入,為50個任務中的每一個使用一個2048維的嵌入,從零開始訓練。這種方法就像給每種家務活動分配一個專用的"身份證",機器人可以直接識別和理解。

這種簡化對于BEHAVIOR-1K是合理的,原因包括幾個方面。首先,只有50個不同的任務組成固定集合,不需要處理無限可能的自然語言指令。其次,任務語義隱含在演示數(shù)據(jù)中,機器人可以通過觀察學習任務的本質(zhì)。第三,這種方法移除了語言模型處理的開銷,提高了計算效率。最后,它允許模型直接學習任務特定的特征,而不需要通過語言理解這個中間步驟。

五、System 2:階段預測與融合系統(tǒng)

團隊面臨的一個重大挑戰(zhàn)是非馬爾可夫狀態(tài)的存在,這意味著當前任務狀態(tài)不足以預測正確的下一個動作。機器人可能在同一任務的開始和結(jié)束看到幾乎相同的圖像,但需要執(zhí)行完全不同的動作。

為了解決這個問題,團隊添加了一個簡單的System 2系統(tǒng)。這個系統(tǒng)基于圖像和任務嵌入預測任務的當前階段,應用投票邏輯來過濾不正確的預測,并在后續(xù)步驟中將其用作模型的額外輸入。

在階段預測方面,每個任務基于演示長度被分為5到15個階段。系統(tǒng)使用VLM輸出上的線性分類器來預測當前階段。15是所有任務中階段數(shù)的最大值,無效階段在softmax之前被屏蔽為負無窮。階段預測在訓練數(shù)據(jù)上達到了約99%的準確率,為動作預測提供了可靠的上下文。

在階段-任務融合方面,團隊使用多種學習表示(正弦-余弦編碼、任務特定學習嵌入和門控組合)將任務嵌入與階段信息融合。這為模型提供了5個任務相關(guān)的令牌。

六、可學習的混合層注意機制

在不同的VLA模型中,流匹配或擴散動作頭與VLM部分的結(jié)合方式各不相同,團隊沒有看到明確的優(yōu)勝者。因此,他們決定讓模型自己決定關(guān)注哪些層以及如何關(guān)注。

在訓練和推理期間,團隊首先計算VLM部分所有層的鍵值緩存,然后使用可學習的權(quán)重和偏差對其進行轉(zhuǎn)換。對于每個動作專家層j,他們計算轉(zhuǎn)換后的鍵和值作為所有VLM層的線性組合。

這種設計具有幾個特點。模型可以關(guān)注任何VLM層,權(quán)重可以選擇早期、中期或后期層。它可以通過關(guān)注多個層的加權(quán)平均來形成平滑組合。它可以從數(shù)據(jù)中學習,無需手動架構(gòu)搜索。

這種方法在參數(shù)效率方面表現(xiàn)優(yōu)異。對于18個動作專家層中的每一個,團隊只需要學習18個標量系數(shù)加上一個偏差張量,分別用于鍵和值。團隊對鍵和值使用不同的系數(shù),因為沒有理由讓它們相同。

初始化時,權(quán)重設為單位矩陣,偏差設為0,因此模型從Pi0.5的層到層注意開始。由于團隊從預訓練的Pi0.5權(quán)重開始,經(jīng)過大量微調(diào)后,單位初始化已經(jīng)是一個很好的先驗。觀察到的學習偏差顯示,模型傾向于更多關(guān)注最后的VLM層,盡管這可能是噪聲。團隊預期這種方法對從頭訓練的模型或從非機器人VLM初始化的模型會有更大的效果。

七、自定義注意力掩碼的層次結(jié)構(gòu)

團隊使用層次化的注意力模式,將可靠的輸入與嘈雜的輸入隔離開來。這種設計就像建立了一個信息處理的等級制度,確保最重要和最可靠的信息能夠得到適當?shù)奶幚怼?/p>

圖像令牌之間以及與任務令牌之間使用雙向注意力。任務令牌與圖像進行雙向交互。階段令牌關(guān)注圖像、任務和本體狀態(tài)。狀態(tài)令牌關(guān)注圖像、任務、階段和其他狀態(tài)令牌。FAST令牌關(guān)注所有前綴令牌并彼此因果關(guān)注。動作專家令牌在彼此之間使用雙向注意力,關(guān)注除FAST之外的所有其他前綴令牌。

這種設計的基本原理很清晰。圖像和任務嵌入是最可靠的輸入,直接來源于觀察,具有確定性。團隊防止它們關(guān)注更嘈雜的輸入,如機器人狀態(tài)(在推理期間可能漂移)或預測階段(可能不正確)。這保持了視覺特征的清潔。

在System 2中,只有圖像和任務嵌入用于預測當前階段。為了避免目標泄漏,它們不應該關(guān)注階段令牌。FAST令牌自回歸地預測動作,因此它們關(guān)注所有前綴令牌并彼此因果關(guān)注(僅在訓練期間使用)。動作專家令牌同時預測整個塊,因此它們在彼此之間使用雙向注意力,同時關(guān)注除FAST之外的所有前綴令牌。

八、Delta動作空間與時間戳歸一化

團隊不是預測絕對關(guān)節(jié)位置,而是預測delta動作,也就是相對于當前狀態(tài)的變化量。這種方法就像告訴機器人"向前移動10厘米"而不是"移動到坐標(x,y,z)",提供了更好的泛化性能。

具體來說,團隊預測的delta動作是目標位置與當前位置的差值。這種表示方法提供了對初始配置的不變性,在不同起始狀態(tài)下具有更好的泛化能力,并且更容易學習平滑軌跡。

團隊還實施了按時間戳歸一化的技術(shù)。對于每個動作維度和塊中的索引,他們計算該特定時間點的均值和標準差,然后進行歸一化。

為什么要按時間戳歸一化?動作分布在軌跡內(nèi)隨時間變化。塊中的初始動作非常接近當前狀態(tài)(小delta),而后期動作變化更大。按時間戳歸一化使整個時間范圍內(nèi)的學習問題更加均勻。需要注意的是,速度和夾爪位置被排除在按時間戳歸一化之外。

九、相關(guān)噪聲:流匹配的結(jié)構(gòu)化方法

團隊的關(guān)鍵創(chuàng)新之一是在流匹配訓練和推理期間明確建模動作相關(guān)性。這種方法認識到機器人動作并不是獨立的隨機事件,而是具有內(nèi)在結(jié)構(gòu)和相關(guān)性的協(xié)調(diào)運動。

機器人動作在兩個方面表現(xiàn)出強相關(guān)性。時間相關(guān)性表現(xiàn)為相鄰時間步的動作相似,形成平滑軌跡。跨維度相關(guān)性表現(xiàn)為關(guān)節(jié)速度的協(xié)調(diào),例如軀干關(guān)節(jié)一起移動。

標準流匹配使用獨立的高斯噪聲,這創(chuàng)造了一個訓練問題。早期去噪步驟(t≈1)很困難,但一旦進行幾個去噪步驟,模型學會了相關(guān)結(jié)構(gòu),后期預測就變得簡單。

團隊的解決方案是生成已經(jīng)匹配動作結(jié)構(gòu)的相關(guān)噪聲。這使得所有去噪步驟的難度更加平衡。他們從訓練集估計完整的相關(guān)矩陣,將標準化的動作序列展平為高維向量,然后計算樣本協(xié)方差。

為了穩(wěn)健性,團隊應用收縮正則化,使用純協(xié)方差矩陣可能不穩(wěn)定,因此他們應用收縮正則化,其中β∈[0,1]是收縮參數(shù),團隊使用β=0.5作為平衡選擇。

要采樣相關(guān)噪聲,團隊使用Cholesky分解,然后生成相關(guān)噪聲。使用相關(guān)噪聲,流匹配插值在t=1(純噪聲)時,x1=ε具有與真實動作相同的相關(guān)結(jié)構(gòu)。模型即使在最嘈雜的步驟也能看到合理的動作模式。在t∈(0,1)時,插值在整個去噪過程中保持相關(guān)結(jié)構(gòu)。這使得訓練任務更加均勻,并保持不同去噪步驟的難度更加平衡。

十、多樣本流匹配:減少訓練方差

標準流匹配為每次觀察計算一個動作預測,為每個批次元素隨機采樣(t, ε)。這在訓練信號中引入了顯著的方差,就像每次練習都使用不同的難度等級,學習效果不夠穩(wěn)定。

流匹配損失有兩個隨機性時間采樣和噪聲采樣。團隊可以在多個流樣本之間分攤昂貴的VLM前向傳播,并減少結(jié)果梯度的隨機性。

團隊的算法包括三個步驟。首先進行VLM前向傳播,為所有前綴令牌計算KV緩存一次。然后進行多樣本動作預測,對每個樣本采樣不同的(tn, εn),計算嘈雜動作,運行動作專家。最后進行反向傳播,梯度通過所有N個樣本流回。

這種方法在保持計算效率的同時顯著減少了訓練方差,就像用多個角度同時觀察同一個問題,得到更穩(wěn)定可靠的學習信號。

十一、訓練策略與多任務學習

團隊采用兩階段訓練策略。首先進行多任務訓練,在所有50個任務上同時訓練。這個階段在8×H200 GPU上進行了15天的不間斷訓練。然后進行任務組特定微調(diào),根據(jù)驗證結(jié)果將任務分為最佳(最高成功率)、良好(分數(shù)>0)、較差(分數(shù)~0)組,分別訓練。這個階段每組大約需要1周。

團隊的總損失是三個組件的加權(quán)組合:動作損失、階段預測損失和FAST輔助損失。動作損失是在N個樣本上平均的流匹配損失。階段預測損失是權(quán)重為0.1的階段分類交叉熵損失。FAST輔助損失權(quán)重為0.05(從初始訓練的0.1降低)。

最終提交使用4個任務特定檢查點,根據(jù)任務ID自動切換。團隊的總競賽預算約為13000美元,個人花費約3000美元用于實驗和評估,Nebius贊助10000美元用于8×H200 GPU的主要訓練運行。

十二、推理優(yōu)化:相關(guān)感知修補與動作壓縮

為了確保平滑的動作序列并解決局部多模態(tài),團隊使用滾動修補策略。他們不是直接執(zhí)行所有預測的動作,而是采用軟修補策略。

具體過程是預測30個動作,執(zhí)行前26個動作,保存最后4個動作作為初始條件,然后在下一次預測中生成30個新動作,使前4個幾乎匹配保存的動作,最后重復這個過程。

關(guān)鍵挑戰(zhàn)是如何在尊重相關(guān)結(jié)構(gòu)的同時約束初始動作。樸素的方法對前4個動作應用硬約束,對其余部分不進行調(diào)整。這在動作4和5之間的邊界創(chuàng)建不連續(xù)性,模型預測不尊重修補和自由動作之間的相關(guān)性,每個流匹配步驟的輸入變得分布外。

團隊的方法使用學習的相關(guān)結(jié)構(gòu)傳播修正。將相關(guān)矩陣分區(qū)為修補和自由部分,然后在每個去噪步驟中,在模型預測后計算修補維度上的期望狀態(tài),計算加法修正,應用硬約束,并將修正傳播到自由維度。

修正矩陣編碼在修補維度上給定修正的情況下,每個自由維度應該調(diào)整多少,確保平滑過渡。團隊使用數(shù)值穩(wěn)定的求解器預計算這個矩陣一次。

團隊僅在早期去噪步驟(t>0.3)期間應用修補修正。在早期t時,保持約束和相關(guān)性對平滑軌跡至關(guān)重要。在后期t(接近目標)時,模型應該有完全的自由來適應當前觀察。這種"軟"修補允許在觀察變化時偏離初始計劃。

在動作壓縮方面,相對于演示數(shù)據(jù)加速動作執(zhí)行可以通過允許每個時段更多的預測周期和更多恢復失敗的嘗試來提高任務完成率。團隊應用類似的原理,使用三次樣條插值預測26個動作在30Hz,執(zhí)行20步在30Hz,加速比為1.3倍。

團隊使用三次樣條插值生成平滑的中間動作,而不是線性重采樣,后者可能引入抖動。他們將基礎速度維度按1.3倍縮放以適應更快的執(zhí)行,關(guān)節(jié)速度保持不變,因為它們已經(jīng)標準化,控制器處理時間。當夾爪狀態(tài)顯著變化時,團隊禁用壓縮,許多失敗與抓取相關(guān),因此當機器人試圖抓取物體時,他們放慢速度并給策略更多時間。

十三、階段跟蹤與糾正規(guī)則

模型在每個推理步驟預測當前階段。由于單個預測可能嘈雜,團隊采用多數(shù)投票方案確保穩(wěn)定的階段轉(zhuǎn)換。他們維護三個最近階段預測的滑動窗口,在每個推理步驟,模型輸出階段logits,團隊取argmax獲得預測階段,并將此預測附加到歷史緩沖區(qū)。

階段轉(zhuǎn)換遵循基于預測歷史的三個規(guī)則。前向轉(zhuǎn)換:如果三個預測中至少兩個指示下一階段,團隊前進到該階段并清除歷史。這種多數(shù)投票防止單個嘈雜預測的過早轉(zhuǎn)換,同時仍允許響應式進展。跳躍檢測:如果三個預測一致指示當前階段+2,這表明機器人比預期更快完成階段或階段已經(jīng)滿足,團隊前進一個階段以追趕,然后清除歷史。回滾:如果三個預測一致指示前一階段,團隊回滾一個階段,這處理需要重新嘗試子任務的情況。要求一致同意使回滾比前向轉(zhuǎn)換更保守。

任何階段轉(zhuǎn)換后,預測歷史被清除,以防止陳舊預測影響未來轉(zhuǎn)換。

BEHAVIOR-1K數(shù)據(jù)集非常干凈,不包含恢復演示。在實踐中,如果策略失敗任何動作,很有可能最終處于分布外狀態(tài)并完全卡住。所有任務中最常見的失敗之一是抓取失敗并在空氣中關(guān)閉夾爪。幾乎沒有訓練數(shù)據(jù)顯示機器人在關(guān)閉夾爪后打開夾爪,這導致完全失敗,因為機器人被卡住無法執(zhí)行任何動作。

為了解決這個問題,團隊實施了一個簡單規(guī)則:如果夾爪關(guān)閉,但在相同階段的訓練數(shù)據(jù)中從未關(guān)閉,團隊將其視為失敗抓取并完全打開夾爪。這個糾正規(guī)則單獨使選定任務的成功率大約翻倍,其中抓取物體是常見失敗模式。

團隊開始嘗試更細粒度的任務特定規(guī)則,但最終只添加了一個"turning_on_radio"任務的簡單規(guī)則(如果達到最終階段但未成功則回滾2個階段)。團隊認為這種方法在改善結(jié)果方面有潛力,但不可擴展或可泛化,因此沒有進一步追求。

十四、評估結(jié)果與分析

在標準化評估協(xié)議下,BEHAVIOR-1K挑戰(zhàn)賽使用50個家務活動,每個任務10個評估時段,具有固定實例和隨機初始條件。成功指標包括目標條件滿足(二元和部分),時間限制是任務特定的,為演示數(shù)據(jù)集中平均人類任務完成時間的2倍。

團隊在前5名團隊中獲得第一名,公開和私人評估之間幾乎沒有差異。在他們的案例中,部分成功貢獻了大約一半的總分。團隊達到了26%的q分數(shù),這個成績雖然看似不高,但考慮到任務的復雜性和多樣性,已經(jīng)是一個顯著的成就。

分析顯示,一些任務幾乎已經(jīng)解決,除非在特別棘手的初始條件下。對于成功率為0的任務,團隊觀察到它們通常不是普遍不可能的,而是通常包含一個需要非常高精度操作的棘手步驟,或者是超出當前模型限制的仔細遵循的序列。

任務持續(xù)時間似乎不是根本障礙。較長的任務只是有更多步驟,這使得完全成功更加困難,但部分成功仍然非常可實現(xiàn)。

團隊對失敗模式進行了分析,標記了一部分任務的多選失敗原因。靈巧性問題占主導地位,約占失敗的三分之一,這主要是機器人無法可靠地拾取或釋放物品的笨拙性。順序錯誤是另一個主要問題,許多任務需要特定順序,另一個常見問題是決定提前完成。混淆行為可能由機器人進入分布外狀態(tài)引起。機器人有時在嘗試蹲下從地板拾取物品時開始向后倒。推理問題出現(xiàn)在機器人應該選擇局部非顯而易見的動作時。搜索問題中,去噪過程中的隨機性在持續(xù)探索方面效果驚人,但可能導致重復遍歷同一區(qū)域。

十五、跨任務學習帶來的恢復行為

從跨任務學習中出現(xiàn)的恢復行為是改善模型的關(guān)鍵因素。單任務模型沒有表現(xiàn)出恢復行為,在所有50個任務上訓練的相同架構(gòu)展現(xiàn)出廣泛的恢復行為,如拾取掉落的物體。

一般來說,更多訓練提高了各任務的成功率,但對某些任務,多任務模型表現(xiàn)更差。團隊假設這可能是由于任務持續(xù)時間短,因此在數(shù)據(jù)集中相對權(quán)重低,或者由于具有相似視覺特征的不同任務之間的混淆。

在主訓練運行期間,團隊定期分支檢查點并在1-2個任務上進行微調(diào)。在訓練早期,這給出了顯著的性能提升,但在后期階段,主運行達到了可比性能,表明訓練不足是主要限制因素。

團隊的分析突出了當前VLA模型靈巧操作、System-2風格組件指導IL策略和多樣化預訓練數(shù)據(jù)集的主要焦點問題,以擴大模型產(chǎn)生有意義動作的流形。這表明在這個挑戰(zhàn)上的工作與現(xiàn)實世界問題相關(guān)。

由于預算限制,團隊沒有運行完整的消融研究。小規(guī)模實驗顯示,模型對圖像質(zhì)量出人意料地寬容。比較224×224生成與720×720縮放沒有導致有意義的變化。更令人驚訝的是,用于評估的云提供商中的機器不支持NGX,這導致了容易察覺的圖像質(zhì)量下降,但對成功率的影響很小。

推理參數(shù)的小變化(執(zhí)行動作數(shù)、執(zhí)行加速、投票歷史長度)沒有顯示顯著變化。極端變化導致分數(shù)下降。夾爪打開糾正規(guī)則在13個任務的39個時段子集上顯示q分數(shù)增加2.2倍。

說到底,這項研究展示了如何讓機器人真正學會做家務這件事。雖然26%的成功率聽起來不高,但考慮到這些任務的復雜性,這已經(jīng)是一個了不起的成就。就像教會一個孩子做家務一樣,機器人現(xiàn)在不僅能夠理解要做什么,還能在遇到困難時想辦法解決問題。

更重要的是,這項研究證明了一個重要觀點:讓機器人學會多種不同的任務,比只教它做一件事情要好得多。當機器人學會了洗碗、整理房間、烹飪等各種技能后,它在遇到意外情況時就能運用這些經(jīng)驗找到解決辦法,就像掉落的物品,單獨訓練的機器人可能就傻眼了,但學過多種任務的機器人知道要把它撿起來。

雖然距離真正實用的家務機器人還有一段路要走,但這項研究為我們指明了方向。未來的機器人助手可能會越來越聰明,越來越可靠,最終真正成為我們生活中的得力幫手。這項由獨立研究員完成的突破性工作,為整個機器人學習領域樹立了新的標桿,有興趣深入了解技術(shù)細節(jié)的讀者可以通過arXiv:2512.06951v1查詢完整的研究論文。

Q&A

Q1:BEHAVIOR挑戰(zhàn)賽到底考驗機器人什么能力?

A:BEHAVIOR挑戰(zhàn)賽要求機器人在虛擬家庭環(huán)境中完成50種不同的家務任務,包括簡單的開收音機到復雜的烹飪熱狗。機器人需要具備雙手協(xié)調(diào)操作、室內(nèi)導航、多視角感知和長期任務執(zhí)行能力,每個任務平均需要6.6分鐘完成,最長可達14分鐘。

Q2:這個研究團隊的相關(guān)噪聲流匹配技術(shù)有什么特別之處?

A:傳統(tǒng)方法使用獨立的隨機噪聲訓練機器人,但這個團隊發(fā)現(xiàn)機器人動作具有內(nèi)在相關(guān)性,比如相鄰時間步的動作應該平滑連接,關(guān)節(jié)運動需要協(xié)調(diào)。他們使用結(jié)構(gòu)化的相關(guān)噪聲進行訓練,讓機器人從一開始就學會協(xié)調(diào)性動作,使訓練更高效、動作更自然。

Q3:為什么機器人做家務的成功率只有26%?

A:26%的成功率實際上是一個重大突破,因為這些家務任務極其復雜。每個任務需要數(shù)千個連續(xù)動作,任何小錯誤都會累積放大,而且機器人必須用同一個模型處理50種完全不同的任務。就像要求一個人成為全能家務專家,能夠完美處理從烹飪到清潔的所有活動。

免責聲明:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。

最近2019年日本中文免费字幕| 久久久久久久极品内射| 欧美日韩一区二区在线观看视频| 国产吞精囗交久久久| 亚洲精品wwww| 亚洲国产av一区二区三区| 欧美一二三视频| 久久一区国产| 日韩免费一区二区三区| 亚洲欧洲日本在线| 乱码一区二区三区| 亚洲男人第一av网站| 波多野结衣在线观看视频| 国产精品一二三在线| 国产成人亚洲综合a∨猫咪| av在线观看地址| 色老汉一区二区三区| 中文字幕第二区| 久久久久久成人| 日本成人中文字幕在线视频| 日韩视频在线免费播放| 精品久久久久久久中文字幕 | 精品无码av一区二区三区不卡| 欧美va亚洲va在线观看蝴蝶网| 国产精品1000| 91视频九色网站| 久久精品欧美日韩精品| 超碰人人cao| 在线日韩第一页| 少妇一级淫片免费看| av电影一区二区三区| 欧美吻胸吃奶大尺度电影 | 国产精品成人av久久| 国产女人精品视频| 久久久99久久| 无码成人精品区在线观看| 精品国内自产拍在线观看| 久久三级福利| 国产免费黄视频| 亚洲国产精品专区久久| а√天堂资源在线| 大桥未久一区二区三区| 欧美美女一区二区三区| 国语对白做受69按摩| 欧美日本国产精品| 日韩欧美国产黄色| 青青国产在线观看| 欧美成人蜜桃| 色播五月激情综合网| 精品成人av一区二区在线播放| 国产精品久久久久久久久久直播| 亚洲欧美日韩一区二区三区在线观看| a天堂中文字幕| 国产成人一区二区在线| 国产精品午夜春色av| 少妇按摩一区二区三区| 国产国产精品人在线视| 欧美激情一区二区三区蜜桃视频 | 亚洲福利一区二区| 久久精品99久久久久久| 精品欧美一区二区久久久伦| 色悠久久久久综合欧美99| 四虎影院在线免费播放| 亚洲一区二区精品在线| 日韩欧美高清在线| 天天操天天操天天| 岛国毛片在线播放| 欧美大片免费看| 337p粉嫩大胆色噜噜噜噜亚洲| 97伦伦午夜电影理伦片| 国产在线观看不卡| 一区二区三区蜜桃| 97超碰人人干| 一本久久a久久精品vr综合| 欧美精品色综合| 亚洲乱熟女一区二区| 亚洲熟妇av日韩熟妇在线| 在线观看日韩www视频免费| 国产美女娇喘av呻吟久久| 一区二区三区人妻| 国产成人精品午夜| 一区二区三区精品在线| 无码无套少妇毛多18pxxxx| 一区二区三区观看| 亚洲欧美制服中文字幕| 国产·精品毛片| 国产精品免费无码| 精品中文字幕一区| 日韩一级大片在线观看| 老司机午夜精品视频| 国产伦理在线观看| 国产欧美精品日韩精品| 一本高清dvd不卡在线观看 | 久久久久成人黄色影片| 免费在线观看黄色av| 午夜午夜精品一区二区三区文| 亚洲第一网站男人都懂| 国产精品77777| 永久免费看片视频教学| 视频一区三区| 一区二区三欧美| 久久综合资源网| 国产污视频在线观看| 免费看污污视频| 久久亚洲精品一区| 中文字幕国产精品一区二区| 五月天综合激情网| www.浪潮av.com| 九九热这里只有精品6| 亚洲嫩草精品久久| 国产精品国产一区二区三区四区 | 五月婷婷深深爱| 自拍视频一区二区| 国产综合18久久久久久| 亚洲国产另类久久精品| 99这里只有久久精品视频| 久一区二区三区| 日韩国产一级片| 欧美亚洲激情在线| 色婷婷综合久久久久中文一区二区 | 久久成年人网站| av成人免费观看| 亚洲成色999久久网站| av电影在线观看一区| 久久久精品免费看| 一本色道无码道dvd在线观看| 国产精品爽爽ⅴa在线观看| 7878成人国产在线观看| 激情五月播播久久久精品| 欧美黄色aaa| 美女日批免费视频| 成人福利网站在线观看11| 精品欧美一区二区在线观看 | 欧美日韩国产首页在线观看| 国产尤物一区二区在线| 欧美一区二区激情视频| 亚洲欧美aaa| 精品一卡二卡三卡四卡日本乱码| 在线激情影院一区| 亚洲v精品v日韩v欧美v专区| 免费成人你懂的| 国产精品99无码一区二区| 国产亚洲精品网站| 91九色偷拍| 国产午夜精品视频| 亚洲成人免费视频| 激情亚洲综合在线| 日韩免费av网站| 成年女人免费视频| 无码毛片aaa在线| 国产精品日韩欧美| 国产视频精品久久久| 成人免费在线播放视频| 久久一日本道色综合久久| 欧美成人aaa片一区国产精品| 激情婷婷综合网| 久久久久久亚洲精品不卡4k岛国| 久久精品夜夜夜夜夜久久| 色屁屁一区二区| 91在线视频网址| 狠狠综合久久av一区二区| 午夜国产福利一区二区| 亚洲另类第一页| 一区二区精品在线| 国产一区深夜福利| 最新国产成人av网站网址麻豆| 日韩欧美精品免费在线| 91女厕偷拍女厕偷拍高清| 亚洲xxx在线| 国产一级久久久| 国产激情第一页| 欧美精品久久久久久久免费| 99免费在线观看视频| 欧美交受高潮1| 亚洲国产日韩欧美综合久久| 五月激情六月综合| 久久伊99综合婷婷久久伊| 成人免费观看在线视频| 国产精品成人aaaa在线| 欧美精品黑人猛交高潮| 六月丁香婷婷在线| 日韩中文字幕av在线| 国产精品影院在线观看| 日韩综合中文字幕| 欧美一区二区三区视频免费播放 | 国产噜噜噜噜噜久久久久久久久| 永久免费毛片在线播放不卡| 欧美色综合影院| 亚洲日本中文字幕区| 国产成人福利片| 午夜视频免费看| 中文在线观看av| 欧美三根一起进三p| 亚洲男人在线天堂| 热久久精品免费视频| 天天成人综合网| 久久久久久久久一区| 国产欧美日韩综合精品| 久久久久久美女| 一区二区欧美亚洲| 亚洲国产精品电影在线观看| 欧美伊人精品成人久久综合97 | 欧美在线三级电影| 一区二区三区国产精品| 欧美国产在线观看| a级高清视频欧美日韩| 日本午夜一本久久久综合| 国产成人精品av在线观| 久久久久久无码精品大片| 九九视频免费在线观看| 亚洲av无码一区二区三区人| 蜜桃色一区二区三区| 鲁一鲁一鲁一鲁一色| 91制片厂免费观看| 欧美日韩精品免费观看视一区二区| 91久久久久久国产精品| 国产成人在线播放| 欧美做爰性生交视频| 国产69精品久久久久99| 欧美精品在线视频观看| 色综合伊人色综合网站| 亚洲最新av在线| 亚洲精品视频中文字幕| 亚洲国产欧美日韩精品| 欧美一区二区三区四区久久| 欧美丰满美乳xxx高潮www| 欧美午夜精品免费| 日本高清不卡视频| 色综合天天做天天爱| 亚洲高清在线视频| 亚洲18女电影在线观看| 亚洲综合成人在线视频| 综合分类小说区另类春色亚洲小说欧美| 久久久久久一二三区| 久久―日本道色综合久久| 91女人视频在线观看| 久久新电视剧免费观看| 99精品视频一区二区| 91首页免费视频| 久久久久高清精品| 国产精品久久777777| 国产精品电影一区二区| 国产精品久久久久久久久果冻传媒| 国产精品天美传媒| 国产精品第四页| 悠悠色在线精品| 亚洲v日本v欧美v久久精品| 欧美日韩国产激情| 色综合天天综合色综合av | 欧美精品一区三区| 欧美激情亚洲自拍| 欧美亚洲国产另类| 国产精品人成电影在线观看| 91久久伊人青青碰碰婷婷| 波多野结衣久草一区| 精品不卡在线| 一区二区在线不卡| 国产精品网站免费| 日韩av手机版| 亚洲欧美日韩中文字幕在线观看| 男女一区二区三区| 欧美xxxx精品| 久久无码精品丰满人妻| 好吊色在线视频| 一级特黄色大片| 四虎精品一区二区三区| 久久99精品久久只有精品| 成人毛片在线观看| 国产农村妇女毛片精品久久麻豆| 亚洲精品成人天堂一二三| 欧美性xxxx极品高清hd直播| 正在播放一区二区| 亚洲天堂男人的天堂| 久久99热精品这里久久精品| 国产国产精品人在线视| 国产精选一区二区| 成人手机在线播放| 国产精品视频黄色| 欧美无人区码suv| 久久久91视频| 国产欧美一级片| 巨乳诱惑日韩免费av| 国产成人aaa| 亚洲视频在线一区| 日本高清不卡aⅴ免费网站| 精品奇米国产一区二区三区| 久久亚洲精品一区二区| 国产精品入口日韩视频大尺度| 加勒比在线一区二区三区观看| 亚洲激情免费视频| 超碰成人在线播放| 性欧美精品男男| 国产女主播喷水视频在线观看| 日批视频在线播放| av在线播放不卡| 亚洲午夜国产一区99re久久| 日韩欧美综合一区| 久久99国产精品自在自在app | 天天操夜夜操av| 中文字幕人妻精品一区| 日本va欧美va精品| 国产精品久久久99| 91麻豆精品国产91久久久久久 | jizzjizzjizz国产| 中文字幕无码乱码人妻日韩精品| 免费高清视频精品| 亚洲男人的天堂一区二区| 7777精品伊人久久久大香线蕉的 | 色丁香久综合在线久综合在线观看| 精品捆绑美女sm三区| 欧美激情免费观看| 国产原创精品| 自拍偷拍 国产| 97精品在线播放| 99久久国产热无码精品免费| 岛国一区二区在线观看| 欧美午夜丰满在线18影院| 亚洲无限av看| 亚洲一区国产精品| 午夜免费福利小电影| 91久久免费视频| 国产偷人妻精品一区二区在线| www.欧美亚洲| 欧美日韩在线免费视频| 九色成人免费视频| 欧美主播一区二区三区美女 久久精品人 | 亚洲成人福利片| 国产一区二区动漫| 91系列在线播放| 日韩av播放器| 人妻少妇精品一区二区三区| 亚洲 欧美 激情 另类| 亚洲欧洲日韩女同| 日韩精品在线看| 95av在线视频| 日韩av手机版| 欧美videossex极品| 国产精品18久久久久久vr| 色狠狠色噜噜噜综合网| 国模精品视频一区二区| 亚洲一区二区三区午夜| 中文人妻一区二区三区| 99久久婷婷国产一区二区三区 | 欧美一二三四在线| 日韩免费在线看| 欧美人成在线观看| 伊人久久久久久久久久久久久久| 亚洲av成人无码网天堂| 亚洲一二三四在线观看| 中文字幕亚洲欧美一区二区三区| 国产精品对白一区二区三区| 国产福利精品一区二区三区| 国产一级片免费视频| 久久免费看少妇高潮| 亚洲高清久久久久久| 99九九视频| 国产成人精品综合久久久久99| ,亚洲人成毛片在线播放| 国产欧美精品国产国产专区| 亚洲美女av电影| 精品午夜一区二区| 欧美精品黑人猛交高潮| 狂野欧美一区| 欧美怡红院视频| 91精品久久久久久久久| 亚洲天堂伊人网| 国产乱码精品一区二区三区精东| 亚洲日本护士毛茸茸| 久久6免费高清热精品| 日韩一级免费看| 欧美精品久久久久性色| 成人97人人超碰人人99| 亚洲精品久久久久久久久| 国内一区二区三区在线视频| 久久午夜夜伦鲁鲁片| 人禽交欧美网站| 在线观看91精品国产麻豆| 成人网在线免费看| 成人免费播放视频| 六月丁香色婷婷| 色先锋久久av资源部| 国产精品第2页| 中文字幕一区久久| 性做久久久久久久久久| 红桃视频成人在线观看| 国产精品国产福利国产秒拍 | 中文字幕日韩一区| 欧美国产日本高清在线 | 国内精品国产三级国产99| 久久久久久久久97| 国产色综合久久| 欧美另类在线观看| 欧美激情国产精品日韩| 国产老女人乱淫免费| 欧美性xxxx| 92裸体在线视频网站| 97伦伦午夜电影理伦片| 国产成人精品影视| 国产亚洲精品久久| 激情六月天婷婷| 中文字幕第2页| 午夜精品久久久久影视| 国产精品美女免费看| 一级黄色电影片| 久久99精品久久久久婷婷| 日韩禁在线播放| 欧美高清中文字幕| 自拍偷拍福利视频| 欧美日韩精品国产| 成人免费在线看片|