就在不久前,機器人初創(chuàng)公司 Generalist AI 發(fā)布了他們的 GEN-0 模型,聲稱首次在機器人領(lǐng)域建立了類似語言模型的 scaling law,即隨著預(yù)訓(xùn)練數(shù)據(jù)和計算量的增加,下游任務(wù)性能呈現(xiàn)可預(yù)測的冪律提升。
他們的訓(xùn)練數(shù)據(jù)規(guī)模達(dá)到驚人的 27 萬小時真實世界操作視頻,遠(yuǎn)超目前公開的任何機器人數(shù)據(jù)集。這一發(fā)現(xiàn)在業(yè)內(nèi)引發(fā)了廣泛關(guān)注,因為它意味著機器人智能可能終于踏上了與大語言模型類似的可預(yù)測增長軌道。
今天,另一家知名的機器人初創(chuàng) Physical Intelligence 又發(fā)表了一項研究,從另一個角度佐證了規(guī)模效應(yīng)的存在,而且揭示了一個此前容易被忽略的現(xiàn)象:不僅機器人策略本身會從規(guī)模中獲益,從異質(zhì)數(shù)據(jù)源汲取知識的能力同樣是規(guī)模的產(chǎn)物。
![]()
圖丨相關(guān)論文(Physical Intelligence)
具體而言,當(dāng) VLA(Vision-Language-Action,視覺-語言-動作)模型在足夠多樣化的場景、任務(wù)和機器人形態(tài)上完成預(yù)訓(xùn)練之后,一種此前難以實現(xiàn)的能力會以“涌現(xiàn)”的方式出現(xiàn):模型突然具備了從人類視頻中學(xué)習(xí)技能并遷移到機器人執(zhí)行的能力。而在預(yù)訓(xùn)練規(guī)模不足時,無論你怎么精心設(shè)計對齊機制,這種跨具身形態(tài)的遷移效果都難以令人滿意。
![]()
(Physical Intelligence)
讓機器人觀看人類操作視頻來學(xué)習(xí)技能,是業(yè)內(nèi)目前探索的重要路徑之一。它的吸引力顯而易見:人類視頻俯拾皆是,而機器人示范數(shù)據(jù)的采集成本高昂且進展緩慢。然而現(xiàn)實是,直接把人類視頻喂給機器人模型訓(xùn)練,效果往往令人失望。
視覺上,人類的手與機器人的夾爪形態(tài)迥異;運動學(xué)上,人體關(guān)節(jié)自由度與機器人末端執(zhí)行器的動作空間天差地別。這道“跨具身形態(tài)”的鴻溝橫亙在人機之間,此前的解決方案大多依賴于各種精心設(shè)計的對齊技術(shù),關(guān)鍵點追蹤、潛在動作編碼、獎勵建模、仿射變換等等。Physical Intelligence 這項研究的核心貢獻(xiàn)在于表明,在足夠的預(yù)訓(xùn)練規(guī)模下,這些顯式對齊步驟可能根本不需要。
這項研究由 Physical Intelligence 聯(lián)合 Georgia Tech 的研究人員完成。第一作者 Simar Kareer 是 Georgia Tech 計算機視覺方向的博士生,此前他就以 EgoMimic 項目在業(yè)內(nèi)嶄露頭角。那套系統(tǒng)用 meta 的 Project Aria 眼鏡錄制人類第一人稱視頻,讓機器人通過模仿學(xué)習(xí)掌握疊衣服等家務(wù)技能,性能提升幅度達(dá) 400%。
EgoMimic 的成功依賴于一系列精心設(shè)計的跨域?qū)R技術(shù),這也是此前該領(lǐng)域的通行做法。而這次的新研究則試圖回答一個更激進的問題:如果完全不做顯式對齊,純粹依靠預(yù)訓(xùn)練規(guī)模,能否讓模型自己學(xué)會跨越具身形態(tài)的鴻溝?
為此,研究團隊設(shè)計了一套簡單到近乎粗暴的聯(lián)合訓(xùn)練方案。他們把人類視頻當(dāng)作 VLA 訓(xùn)練混合數(shù)據(jù)中的“又一種機器人形態(tài)”來處理,采用與機器人數(shù)據(jù)完全相同的訓(xùn)練目標(biāo):低層級的末端執(zhí)行器軌跡預(yù)測和高層級的子任務(wù)語言預(yù)測。
人類手部的 3D 姿態(tài)通過手勢追蹤技術(shù)提取,映射為類似機器人末端執(zhí)行器的相對運動;子任務(wù)標(biāo)注則與機器人數(shù)據(jù)的標(biāo)注格式保持一致。在微調(diào)階段,人類數(shù)據(jù)與對應(yīng)任務(wù)的機器人數(shù)據(jù)按 50:50 的比例混合。沒有任何域適應(yīng)模塊,沒有對抗訓(xùn)練,沒有手工設(shè)計的特征對齊。
研究團隊刻意不去額外“照顧”模型,把那些常見的域適應(yīng)與顯式對齊組件都拿掉,只保留最樸素的共同訓(xùn)練配方,用這種近乎苛刻的設(shè)置來檢驗:模型能否僅憑預(yù)訓(xùn)練打下的基礎(chǔ),把這些異質(zhì)數(shù)據(jù)真正消化并轉(zhuǎn)化為可執(zhí)行的策略。
實驗結(jié)果呈現(xiàn)出一條清晰的分界線。當(dāng) VLA 模型沒有經(jīng)過預(yù)訓(xùn)練或只在有限數(shù)據(jù)上預(yù)訓(xùn)練時,加入人類視頻非但沒有幫助,有時甚至?xí)a(chǎn)生負(fù)遷移效應(yīng)。但隨著預(yù)訓(xùn)練數(shù)據(jù)的多樣性逐步提升,從 25% 到 50%、75%,直至完整的多機器人跨形態(tài)預(yù)訓(xùn)練,人類視頻帶來的增益開始顯著上升。在他們的四項泛化基準(zhǔn)測試中,最強版本的模型幾乎將整體性能翻了一番。
![]()
(Physical Intelligence)
這四項基準(zhǔn)覆蓋了不同維度的泛化挑戰(zhàn)。場景泛化測試中,機器人需要在從未見過的公寓里整理調(diào)料架或梳妝臺,而這些新場景只出現(xiàn)在人類視頻中。物體泛化測試中,機器人要收拾桌上的新廚具,同樣是人類數(shù)據(jù)引入的品類。最具說服力的是任務(wù)泛化測試:機器人數(shù)據(jù)只演示過把雞蛋放進蛋托的動作,而人類視頻額外展示了按顏色分揀雞蛋的操作。
結(jié)果是,未經(jīng)人類數(shù)據(jù)訓(xùn)練的模型只會隨機放置,分揀正確率約 57%;而聯(lián)合訓(xùn)練后的模型達(dá)到了 78% 的準(zhǔn)確率,平均每次多正確放置 4 個雞蛋。機器人從人類視頻中學(xué)會了“分揀”這個它從未在機器人示范中見過的語義概念。
而且,這種能力并非線性增長,而是在跨過某個預(yù)訓(xùn)練門檻后才突然顯現(xiàn)出來。
以雞蛋分揀任務(wù)為例,單純增加預(yù)訓(xùn)練多樣性并不能讓只用機器人數(shù)據(jù)訓(xùn)練的模型學(xué)會分揀,因為分揀這個概念根本不存在于機器人數(shù)據(jù)中。但增加預(yù)訓(xùn)練多樣性卻能讓模型更有效地從人類視頻中獲取這一知識。
類似地,在梳妝臺整理任務(wù)上,50% 預(yù)訓(xùn)練規(guī)模以下的模型從人類視頻中獲益甚微甚至出現(xiàn)負(fù)遷移,但在 75% 到 100% 的預(yù)訓(xùn)練規(guī)模區(qū)間,增益開始穩(wěn)定累積。這種非線性的涌現(xiàn)模式與大語言模型中觀察到的現(xiàn)象如出一轍:某些能力不是漸進出現(xiàn)的,而是在跨越特定規(guī)模門檻后突然“解鎖”。
研究團隊進一步分析了這種涌現(xiàn)現(xiàn)象背后的機理。通過對模型最后一層視覺令牌的 t-SNE 降維可視化,他們發(fā)現(xiàn)了一個有趣的規(guī)律:在弱預(yù)訓(xùn)練條件下,人類數(shù)據(jù)和機器人數(shù)據(jù)的表征呈現(xiàn)出明顯的分離態(tài)勢,模型似乎在用兩套不同的“語言”理解這兩類數(shù)據(jù)。但隨著預(yù)訓(xùn)練多樣性增加,兩類數(shù)據(jù)的表征開始逐漸重疊,最終趨于高度混合。
換言之,充分多樣化的預(yù)訓(xùn)練使得模型形成了“具身無關(guān)”的中間表示,人類手臂的揮動和機械臂的伸展在這個表示空間里可以被映射到語義相近的區(qū)域。這就解釋了為什么顯式對齊變得不再必要,模型自己完成了這項工作。
另外,這項研究也揭示,人類數(shù)據(jù)并不是萬能的。在某些任務(wù)上,人類視頻的效果接近于直接使用目標(biāo)機器人數(shù)據(jù),研究團隊在整理梳妝臺和分揀雞蛋任務(wù)上觀察到了這一點。但在收拾餐桌的測試中,真實機器人數(shù)據(jù)仍然明顯優(yōu)于人類數(shù)據(jù)。
研究者將人類數(shù)據(jù)與來自另一款 UR5 機器人的跨形態(tài)遷移數(shù)據(jù)做了對比,發(fā)現(xiàn)兩者表現(xiàn)出相似的遷移特性:都比基線有所提升,但都不及目標(biāo)機器人自身的數(shù)據(jù)。所以,在 VLA 的數(shù)據(jù)混合策略中,人類視頻更應(yīng)該被視為一種有價值的補充數(shù)據(jù)源,而非完全替代方案。
另一個細(xì)節(jié)是腕部相機的作用。研究團隊讓人類數(shù)據(jù)采集者佩戴類似機器人腕部相機的微型攝像頭,以縮小傳感器配置上的域差距。在某些任務(wù)上,這些額外視角確實帶來了性能提升,但在另一些任務(wù)上影響甚微。這提示我們,人類數(shù)據(jù)采集的傳感器配置可能需要根據(jù)目標(biāo)任務(wù)的特點進行權(quán)衡。
目前困擾整個行業(yè)的核心瓶頸之一是高質(zhì)量機器人示范數(shù)據(jù)的采集成本。遙操作需要專業(yè)人員花費大量時間,而且容易引入操作失誤。如果人類視頻能夠有效補充機器人數(shù)據(jù),那么數(shù)據(jù)采集的邊際成本將大幅降低。普通人佩戴智能眼鏡從事日常活動產(chǎn)生的視頻流,理論上都可以成為機器人學(xué)習(xí)的素材。
Figure AI 最近宣布的 Project Go-Big 計劃走的就是這條路線,他們與房地產(chǎn)巨頭 Brookfield 合作,打算從其遍布全球的十萬余套住宅單元中大規(guī)模采集人類生活視頻,并聲稱已經(jīng)實現(xiàn)了從純?nèi)祟愐曨l到機器人導(dǎo)航的零樣本遷移。
不過,Physical Intelligence 的研究也給這種愿景設(shè)置了一個前提條件:想要有效利用人類視頻,你首先得有一個足夠強大的預(yù)訓(xùn)練基礎(chǔ)。沒有經(jīng)過充分多樣化預(yù)訓(xùn)練的模型,拿到再多人類視頻也是枉然。也就是說,你必須先投入大量資源構(gòu)建多樣化的機器人預(yù)訓(xùn)練數(shù)據(jù)集,才能“解鎖”從人類視頻中學(xué)習(xí)的能力。
![]()
(Physical Intelligence)
還有一點值得關(guān)注:這項研究使用的人類數(shù)據(jù)量相當(dāng)有限,每個任務(wù)僅 3 到 5 小時,遠(yuǎn)不及網(wǎng)絡(luò)上可獲取的海量人類活動視頻。研究者也坦承,他們目前的數(shù)據(jù)采集方式仍然是片段式的,尚未涉足“在野”環(huán)境下的被動采集。未來如何有效利用這些非結(jié)構(gòu)化、非片段式的人類視頻數(shù)據(jù),仍是一個開放問題。但至少,這項研究確立了一個重要的基線:在適當(dāng)?shù)念A(yù)訓(xùn)練條件下,即便是相對少量的人類視頻也能產(chǎn)生可觀的遷移效果。
回顧整個發(fā)現(xiàn)的內(nèi)在邏輯,其實并不難理解。充分多樣化的預(yù)訓(xùn)練迫使模型學(xué)會抽象,因為它必須找到不同機器人形態(tài)、不同場景、不同任務(wù)之間的共性才能有效泛化。
這種被迫形成的抽象能力,恰好也是跨越人機鴻溝所需要的。當(dāng)模型的內(nèi)部表示不再緊密綁定于某一種特定的視覺外觀或運動學(xué)參數(shù),而是捕捉到更高層級的語義和意圖,人類手臂和機械手臂之間的差異就變得不再是無法逾越的障礙。
大語言模型領(lǐng)域的研究者很早就注意到,某些能力只有在模型規(guī)模跨越特定門檻后才會涌現(xiàn)。現(xiàn)在看來,機器人基礎(chǔ)模型也存在類似的規(guī)模門檻效應(yīng),只不過這里的“規(guī)模”不僅指參數(shù)量,更關(guān)鍵的是預(yù)訓(xùn)練數(shù)據(jù)在場景、任務(wù)和具身形態(tài)三個維度上的多樣性。對于那些正在規(guī)劃機器人數(shù)據(jù)采集策略的團隊來說,這是一個值得認(rèn)真對待的發(fā)現(xiàn):數(shù)據(jù)量固然重要,但數(shù)據(jù)的多樣性可能更加關(guān)鍵。
參考資料:
1.https://www.pi.website/download/human_to_robot.pdf
2.https://www.pi.website/research/human_to_robot
運營/排版:何晨龍





京公網(wǎng)安備 11011402013531號