henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
1米3的機(jī)器人小土豆,三步上籃也可以如此絲滑。

別誤會(huì),這臺(tái)宇樹(shù)G1暫時(shí)還不準(zhǔn)備參加NBA選秀,但它剛解鎖的 “現(xiàn)實(shí)世界打籃球” 技能,離上“村BA”首發(fā)應(yīng)該不遠(yuǎn)了。
據(jù)悉,這是全球首個(gè)能在真實(shí)場(chǎng)景中完成籃球動(dòng)作的機(jī)器人demo,來(lái)自香港科技大學(xué)的研究團(tuán)隊(duì)。

雖然團(tuán)隊(duì)還沒(méi)公開(kāi)完整的技術(shù)細(xì)節(jié),但結(jié)合他們此前讓機(jī)器人“打籃球”的工作,這次很可能是在之前研究的基礎(chǔ)上,進(jìn)一步改良而來(lái)。
接下來(lái),讓我們一窺究竟。
SkillMimic-v2
首先是被收錄于SIGGRAPH 2025的SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations。

SkillMimic-V2旨在解決交互演示強(qiáng)化學(xué)習(xí)(RLID)中演示軌跡稀疏、含噪且覆蓋不足的難題。
其通過(guò)引入拼接軌跡圖(STG)與狀態(tài)轉(zhuǎn)移場(chǎng)(STF)、自適應(yīng)軌跡采樣(ATS)等技術(shù),成功地在低質(zhì)量數(shù)據(jù)條件下,訓(xùn)練出了兼具魯棒恢復(fù)能力與技能遷移能力的復(fù)雜交互策略 。

當(dāng)前,通過(guò)動(dòng)作捕捉等方式收集的數(shù)據(jù)往往存在以下缺陷:
稀疏性 (Sparse):演示數(shù)據(jù)僅覆蓋了有限的技能變體,缺乏技能之間的過(guò)渡軌跡。
不連貫性 (Disconnected):不同的技能片段是獨(dú)立的,缺乏自然的連接。
噪聲 (Noisy):數(shù)據(jù)中包含物理上不可行的狀態(tài)或誤差(例如手與物體的穿模、接觸位置偏差),這在精細(xì)操作任務(wù)中會(huì)導(dǎo)致嚴(yán)重的訓(xùn)練失敗。
這些有缺陷的數(shù)據(jù)無(wú)法捕捉到技能變體和轉(zhuǎn)換的完整頻譜。
不過(guò),相比直接去收集更好的數(shù)據(jù),研究認(rèn)為盡管演示數(shù)據(jù)是稀疏和嘈雜的,但存在無(wú)限的物理可行軌跡 。
這些潛在的軌跡天然地能夠橋接不同的技能,或者從演示狀態(tài)的鄰域中涌現(xiàn)出來(lái)。
這就形成了一個(gè)連續(xù)的、可能的技能變體和轉(zhuǎn)換空間,從而可以利用這些不完美的演示數(shù)據(jù),訓(xùn)練出平滑、魯棒的策略。

基于以上認(rèn)識(shí),研究提出三個(gè)關(guān)鍵步驟發(fā)現(xiàn)并學(xué)習(xí)這些潛在軌跡:
拼接軌跡圖 (Stitched Trajectory Graph, STG):為了解決技能間的連接問(wèn)題(如從運(yùn)球切換到投籃),算法在不同演示軌跡之間尋找相似狀態(tài)。如果在兩個(gè)不同技能的軌跡中發(fā)現(xiàn)相似狀態(tài),就建立一條連接,并用掩碼標(biāo)記中間的過(guò)渡幀。這構(gòu)建了一個(gè)宏觀的圖結(jié)構(gòu),允許策略學(xué)習(xí)未在原始數(shù)據(jù)中出現(xiàn)的技能轉(zhuǎn)換。
狀態(tài)轉(zhuǎn)移場(chǎng) (State Transition Field, STF):訓(xùn)練時(shí)不只從參考軌跡的特定點(diǎn)開(kāi)始,而是從其鄰域內(nèi)隨機(jī)采樣狀態(tài)初始化。對(duì)于鄰域內(nèi)的任意采樣狀態(tài),計(jì)算其與參考軌跡中所有狀態(tài)的相似度,找到最佳匹配目標(biāo)。如果起點(diǎn)與目標(biāo)點(diǎn)距離較遠(yuǎn),算法會(huì)插入N個(gè)掩碼狀態(tài)(Masked States)。這些狀態(tài)不計(jì)算獎(jiǎng)勵(lì),僅作為時(shí)間緩沖,迫使RL策略學(xué)習(xí)如何從偏離狀態(tài)“歸位”到參考軌跡,從而形成一個(gè)具有恢復(fù)能力的“場(chǎng)” 。
自適應(yīng)軌跡采樣 (Adaptive Trajectory Sampling, ATS):根據(jù)當(dāng)前策略在某段軌跡上的表現(xiàn)(獎(jiǎng)勵(lì)值)動(dòng)態(tài)調(diào)整采樣概率。獎(jiǎng)勵(lì)越低(越難學(xué))的片段,被采樣的概率越高。這解決了長(zhǎng)序列中因局部失敗導(dǎo)致整個(gè)鏈條斷裂的問(wèn)題。
由此,技能轉(zhuǎn)換和泛化能力能夠遠(yuǎn)超最初不包含任何技能轉(zhuǎn)換或錯(cuò)誤恢復(fù)的稀疏演示,實(shí)現(xiàn)更高效地技能學(xué)習(xí)與泛化性。
比如,在仿真環(huán)境(Isaac Gym)中,機(jī)器人可以在受到干擾時(shí),仍可以完成上籃動(dòng)作。

還能實(shí)現(xiàn)運(yùn)球-投籃間的技能轉(zhuǎn)換。
實(shí)驗(yàn)表明,相比此前的SOTA (SkillMimic)方法,SkillMimic-V2在困難技能(如 Layup)上的成功率從0提升到了91.5%。技能轉(zhuǎn)換成功率 (TSR) 更是從2.1%飆升至94.9%。

SkillMimic
接下來(lái)是SkillMimic-V2的前作——SkillMimic: Learning Basketball Interaction Skills from Demonstrations,這篇論文入選了CVPR 2025 Highlight。

SkillMimic旨在解決物理模擬人-物交互(HOI)中傳統(tǒng)方法依賴(lài)繁瑣手工獎(jiǎng)勵(lì)設(shè)計(jì)且難以在統(tǒng)一框架下掌握多樣化技能的難題。
其通過(guò)引入統(tǒng)一HOI模仿獎(jiǎng)勵(lì)與接觸圖(Contact Graph)、分層技能復(fù)用等技術(shù),成功地在單一獎(jiǎng)勵(lì)配置下,訓(xùn)練出了兼具精準(zhǔn)接觸控制與長(zhǎng)程任務(wù)組合能力的通用交互策略。

研究pipeline包含三個(gè)部分:
首先,采集真實(shí)籃球運(yùn)動(dòng)技能,構(gòu)建一個(gè)龐大的人機(jī)交互(HOI)運(yùn)動(dòng)數(shù)據(jù)集。
其次,訓(xùn)練一個(gè)技能策略,通過(guò)模仿相應(yīng)的HOI數(shù)據(jù)來(lái)學(xué)習(xí)交互技能,設(shè)計(jì)了一個(gè)統(tǒng)一的HOI模仿獎(jiǎng)勵(lì)機(jī)制,用于模仿各種不同的HOI狀態(tài)轉(zhuǎn)換。
最后,是訓(xùn)練一個(gè)高級(jí)控制器(HLC),用于復(fù)用已學(xué)習(xí)的技能來(lái)處理復(fù)雜任務(wù),同時(shí)使用極其簡(jiǎn)單的任務(wù)獎(jiǎng)勵(lì)。
其中,SkillMimic方法的關(guān)鍵在于:
統(tǒng)一的HOI模仿獎(jiǎng)勵(lì)(Unified HOI Imitation Reward):放棄針對(duì)每種技能單獨(dú)設(shè)計(jì)獎(jiǎng)勵(lì),而是設(shè)計(jì)一套通用的獎(jiǎng)勵(lì)配置,通過(guò)模仿HOI數(shù)據(jù)集來(lái)學(xué)習(xí)所有技能 。
分層學(xué)習(xí)架構(gòu)(Hierarchical Solution):低層:交互技能策略(IS Policy):通過(guò)SkillMimic框架學(xué)習(xí)各種基礎(chǔ)交互技能(如運(yùn)球、上籃)。高層:高級(jí)控制器(HLC):訓(xùn)練一個(gè)高級(jí)策略來(lái)復(fù)用和組合已習(xí)得的IS策略,以完成長(zhǎng)程復(fù)雜任務(wù)(如連續(xù)得分)。
數(shù)據(jù)驅(qū)動(dòng):構(gòu)建了兩個(gè)數(shù)據(jù)集BallPlay-V(基于視頻估算)和BallPlay-M(基于光學(xué)動(dòng)捕,精度更高),包含約35分鐘的多樣化籃球交互數(shù)據(jù) 。
實(shí)驗(yàn)表明,SkillMimic能夠使用同一套配置學(xué)會(huì)多種風(fēng)格的籃球技能(運(yùn)球、上籃、投籃等),成功率顯著高于DeepMimic和AMP。

在演示中,我們可以看到,仿真環(huán)境的機(jī)器人能夠?qū)崿F(xiàn)繞圈運(yùn)球等高級(jí)技能。
PhysHOI
如果追溯SkillMimic作者的工作,就會(huì)發(fā)現(xiàn)早在2023年,論文PhysHOI: Physics-based Imitation of Dynamic Human-Object Interaction就試圖讓仿真中的機(jī)器人能夠根據(jù)演示學(xué)習(xí)籃球技能。

為實(shí)現(xiàn)這一點(diǎn),PhysHOI在當(dāng)時(shí)提出了一種基于物理仿真的動(dòng)態(tài)人-物交互(HOI)模仿學(xué)習(xí)框架。

簡(jiǎn)單來(lái)說(shuō),給定參考的HOI數(shù)據(jù),將當(dāng)前的模擬HOI狀態(tài)與參考HOI狀態(tài)一起輸入策略模型。
策略輸出動(dòng)作,并通過(guò)物理模擬器生成下一步的模擬HOI狀態(tài),然后將運(yùn)動(dòng)學(xué)獎(jiǎng)勵(lì)與接觸-抓取(CG)獎(jiǎng)勵(lì)加權(quán)結(jié)合,并優(yōu)化策略以最大化期望回報(bào)。
重復(fù)上述過(guò)程直至收斂,即可復(fù)現(xiàn)參考數(shù)據(jù)中的HOI技能。

除此之外,為防止運(yùn)動(dòng)學(xué)模仿獎(jiǎng)勵(lì)陷入最優(yōu)解,研究還引入了接觸圖(Contact Graph)——
給定一個(gè)HOI幀,接觸圖節(jié)點(diǎn)包含所有身體部位和物體。每條邊都是一個(gè)二元接觸標(biāo)簽,表示接觸與否。為了簡(jiǎn)化計(jì)算,還可以將多個(gè)身體部位聚合到一個(gè)節(jié)點(diǎn)中,形成聚合接觸圖。
同時(shí),為了彌補(bǔ)HOI場(chǎng)景的不足,研究還引入了全身籃球技巧的BallPlay數(shù)據(jù)集。

在實(shí)驗(yàn)中,PhysHOI在不同大小的籃球操作上表現(xiàn)出了魯棒性。
One more thing
值得一提的是,在PhysHOI、SkillMimic 、SkillMimic-v2三篇工作中,王蔭槐都擔(dān)任了核心角色,網(wǎng)友調(diào)侃他是“籃球科研第一人”。

王蔭槐是香港科技大學(xué)的博士二年級(jí)學(xué)生,導(dǎo)師為譚平教授。
在此之前,他碩士就讀于北京大學(xué),本科畢業(yè)于西安電子科技大學(xué),并于IDEA Research、宇樹(shù)科技以及上海人工智能實(shí)驗(yàn)室等機(jī)構(gòu)進(jìn)行實(shí)習(xí)。
從2023年在仿真環(huán)境的小試牛刀,到這次直接讓機(jī)器人在真實(shí)環(huán)境中打球,得益于機(jī)器人本體的發(fā)展,這速度真是很快了!

參考鏈接
[1]https://x.com/NliGjvJbycSeD6t/status/1991536374097559785
[2]https://wyhuai.github.io/info/
[3]https://ingrid789.github.io/SkillMimicV2/
[4]https://wyhuai.github.io/physhoi-page/[5]https://ingrid789.github.io/SkillMimic/





京公網(wǎng)安備 11011402013531號(hào)