![]()
機器之心發(fā)布
機器之心編輯部
在 Physical Intelligence 最新的成果 π0.6 論文里,他們介紹了 π0.6 迭代式強化學(xué)習(xí)的思路
![]()
其中有我們熟悉的 Yuke Zhu 的研究,也有他們自己(Chelsea Finn、Sergey Levine)的一些研究,我們之前對這些工作一直有跟蹤和介紹。此外,還有來自國內(nèi)具身智能團隊的工作,比如清華大學(xué)、星動紀(jì)元的研究。隨著 π*0.6 的發(fā)布,VLA+online RL 成為了一個行業(yè)共識的非常有前景的研究方向(深扒了Π*0.6的論文,發(fā)現(xiàn)它不止于真實世界強化學(xué)習(xí)、英偉達也來做VLA在真實世界自我改進的方法了)大語言模型從SFT到RL的發(fā)展方向也逐漸在具身研究中清晰明朗。
一、為什么VLA+RL很重要
![]()
圖注:VLA模型依賴研讀微調(diào)
在具身智能(Embodied AI)領(lǐng)域,科學(xué)家們正在嘗試將強大的視覺-語言模型(VLM)應(yīng)用到機器人的底層控制中,這就是所謂的VLA模型。通常,這些模型是通過模仿人類專家的示范數(shù)據(jù)(監(jiān)督微調(diào),SFT)來學(xué)習(xí)的。
![]()
圖注:模仿學(xué)習(xí)的局限
但是,僅靠模仿是不夠的。如果機器人遇到了從未見過的情況,或者專家數(shù)據(jù)不夠完美,機器人就會不知所措。
而正如我們在深扒了Π*0.6的論文,發(fā)現(xiàn)它不止于真實世界強化學(xué)習(xí)所說的,模仿學(xué)習(xí)能讓機器人成功做出動作,但是讓它每次都成功是非常難的。如果想讓機器人非常魯棒、持久的工作,需要借助強化學(xué)習(xí)的力量。相較于離線強化學(xué)習(xí)通常受限于演示數(shù)據(jù)的質(zhì)量,模型很難超越提供數(shù)據(jù)的專家,在線 RL 允許智能體通過試錯來發(fā)現(xiàn)更優(yōu)解
二、強化學(xué)習(xí)應(yīng)用在VLA的三大難點?
![]()
圖注:VLA RL的難點
理論上,強化學(xué)習(xí)(RL)可以讓機器人通過與環(huán)境互動、試錯來持續(xù)進步,但是這其實不是一件容易的事情
![]()
圖注:LLM和具身在RL上的區(qū)別
將類似 GPT 這樣的大模型與強化學(xué)習(xí)結(jié)合(如 RLHF)在聊天機器人領(lǐng)域非常成功,但在控制物理機器人時卻困難重重:
環(huán)境差異:聊天機器人是在離線數(shù)據(jù)集上訓(xùn)練的,而機器人需要在物理世界中實時探索。物理任務(wù)通常周期長、獎勵稀疏(做完一整套動作才算成功),這使得學(xué)習(xí)非常困難。模型坍塌與不穩(wěn)定性:研究發(fā)現(xiàn),如果直接對巨大的 VLA 模型(數(shù)十億參數(shù))進行在線強化學(xué)習(xí),模型很容易出現(xiàn)“災(zāi)難性遺忘”或訓(xùn)練崩潰,導(dǎo)致性能甚至不如微調(diào)前。算力負(fù)擔(dān):在本地機器上對幾十億參數(shù)的模型進行全量梯度的強化學(xué)習(xí)更新,對硬件要求極高,通常超出了本地機器人控制器的算力極限。
三、星動紀(jì)元 iRe-VLA 最先突破 VLA 強化學(xué)習(xí)困境,也是 π*0.6 的引用來源
對于VLA的強化學(xué)習(xí)困境,行業(yè)內(nèi)其實有三種類型的解決方案:
第一種:外掛式干預(yù):一些嘗試不敢輕易觸碰龐大的 VLA 參數(shù)。比如V-GPS (Value-Guided Policy Steering)訓(xùn)練一個通用的價值函數(shù),在推理時,讓 VLA 生成多個候選動作,用價值函數(shù)對它們進行打分和重排序,選擇最好的動作執(zhí)行;DSRL訓(xùn)練一個小型的 RL 策略來優(yōu)化擴散模型的輸入噪聲,通過改變輸入噪聲來“引導(dǎo)”凍結(jié)的 VLA 生成高價值動作。這種方法雖然安全,但 VLA沒有真正發(fā)生質(zhì)變。第二種:暴力美學(xué):VLAC為代表的工作嘗試直接用 PPO 等算法全量微調(diào) VLA。雖然勇氣可嘉,但大模型在 RL 訓(xùn)練中極易出現(xiàn)災(zāi)難性遺忘和模型坍塌(Model Collapse),且對算力的要求很高。第三種是從探索到內(nèi)化的循環(huán)。讓我們眼前一亮的是一篇以前沒有跟蹤過的,清華和UC Berkeley的《Improving Vision-Language-Action Model with online Reinforcement Learning》(通過在線強化學(xué)習(xí)改進視覺-語言-動作模型),來自于清華大學(xué)助理教授、星動紀(jì)元創(chuàng)始人陳建宇老師組。星動紀(jì)元這項研究是全球最早將在線RL引入VLA的工作,在ICRA發(fā)表,π*0.6 也引用了該工作,是中美兩方在RL上的頂尖對話。
這兩篇文章代表了第三種路徑。它們不再盲目地套用 RL 算法,而是利用監(jiān)督微調(diào)(SFT)將 RL 探索出的高價值行為(成功軌跡或高優(yōu)勢動作)穩(wěn)定地內(nèi)化為模型的原生能力。
π*0.6 不在此詳細贅述。我們來看下 iRe-VLA。
![]()
論文:Improving Vision-Language-Action Model with online Reinforcement Learning論文鏈接:https://arxiv.org/abs/2501.16664
iRe-VLA 的作者設(shè)計了一個兩階段循環(huán)迭代的學(xué)習(xí)流程。這個流程的核心思想是:分而治之,動靜結(jié)合。
星動紀(jì)元:iRe-VLA 模型架構(gòu)設(shè)計
VLA 模型由兩部分組成:
VLM 主干(大腦):使用預(yù)訓(xùn)練的大型視覺-語言模型(如 BLIP-2),負(fù)責(zé)理解圖像和指令,擁有豐富的世界知識。
Action Head(四肢):一個輕量級的動作輸出層(由 Token Learner 和 MLP 構(gòu)成),負(fù)責(zé)將 VLM 的深層特征轉(zhuǎn)化為具體的機器人控制信號(如機械臂的移動、夾爪的開合)。
為了提高效率,作者還使用了LoRA(低秩適應(yīng))技術(shù),避免全量微調(diào)所有參數(shù)。
![]()
圖注:模型架構(gòu)
核心流程:兩個階段的交替
iRe-VLA 方法不是一次性訓(xùn)練,而是在以下兩個階段中反復(fù)迭代:
第一階段:在線強化學(xué)習(xí)(探索與發(fā)現(xiàn))
![]()
圖注:穩(wěn)定探索
在這個階段,機器人的目標(biāo)是去試錯,探索如何完成新任務(wù)。
凍結(jié)大腦(Freeze VLM):為了防止模型崩潰和減少計算量,作者凍結(jié)了巨大的 VLM 主干參數(shù)。只練四肢(Train Action Head):僅訓(xùn)練輕量級的 Action Head。同時引入一個Critic Head(評價網(wǎng)絡(luò))來輔助訓(xùn)練。優(yōu)勢:因為只更新很少的參數(shù),訓(xùn)練非常穩(wěn)定,而且計算量很小,可以在本地機器(如單張 4090 顯卡)上高效運行。機器人通過不斷嘗試,找到了一些能夠成功完成任務(wù)的軌跡(Success Trajectories)。
第二階段:監(jiān)督學(xué)習(xí)(鞏固與內(nèi)化)
在第一階段,機器人可能只是碰巧學(xué)會了操作,為了讓這種能力真正融入模型,需要進行第二階段。
![]()
圖注:融合與升華
全模型微調(diào):解凍 VLM 主干,對整個模型(包括 LoRA 參數(shù))進行訓(xùn)練。混合數(shù)據(jù):訓(xùn)練數(shù)據(jù)不僅包含第一階段探索到的新成功軌跡,還混合了原始的專家示范數(shù)據(jù)。優(yōu)勢:這不僅利用了大模型的強大表達能力來記住新技能,還因為混合了舊數(shù)據(jù),有效防止了災(zāi)難性遺忘(即學(xué)會了新任務(wù),忘了舊任務(wù))。這一步計算量大,通常放在云端服務(wù)器(如 A100 集群)上進行。
![]()
圖注:兩階段
總結(jié):機器人先在“小參數(shù)模式”下大膽探索(階段1),找到方法后,再在“全參數(shù)模式”下把經(jīng)驗固化到大腦中(階段2),如此循環(huán)往復(fù)。
![]()
圖注:循環(huán)往復(fù)
三、 實驗結(jié)果與分析
![]()
圖注:三種情況的實驗結(jié)果分析
作者在仿真環(huán)境(metaWorld, Franka Kitchen)和真實世界(Panda 機械臂)中進行了大量實驗,驗證了該方法的有效性。
訓(xùn)練穩(wěn)定性對比
實驗顯示,如果使用標(biāo)準(zhǔn)的 PPO 算法直接微調(diào) VLA 模型,成功率曲線震蕩劇烈,甚至在很多任務(wù)上性能下降(變差了)。而 iRe-VLA 的曲線則穩(wěn)步上升,證明了“分階段凍結(jié)參數(shù)”對于穩(wěn)定訓(xùn)練至關(guān)重要。
![]()
圖注:曲線對比
仿真環(huán)境表現(xiàn)
![]()
圖注:仿真環(huán)境中具備壓倒性優(yōu)勢
metaWorld & Franka Kitchen:在這些基準(zhǔn)測試中,iRe-VLA 不僅在原本學(xué)過的任務(wù)上表現(xiàn)更好(例如從 43% 提升到 83%),還能通過在線探索學(xué)會完全沒見過的任務(wù)。
對比 SFT:相比僅進行監(jiān)督微調(diào)的模型,經(jīng)過 iRe-VLA 迭代后的模型在所有任務(wù)類別(專家任務(wù)、RL 訓(xùn)練任務(wù)、未見過的測試任務(wù))上的成功率都有顯著提升。
![]()
圖注:不同后訓(xùn)練策略的對比
真實世界挑戰(zhàn)(Real-World Panda)
這是最令人印象深刻的部分。作者讓機器人去抓取它從未見過的物體(如形狀不規(guī)則的茄子、胡蘿卜)。
![]()
圖注:真實世界的提升
初始狀態(tài):僅靠專家數(shù)據(jù)(SFT),機器人抓取這些新物體的成功率只有 35% 左右。訓(xùn)練后:經(jīng)過 iRe-VLA 的在線學(xué)習(xí)(利用 SACfD 算法提高樣本效率),抓取成功率飆升到了 80%。泛化能力:更有趣的是,訓(xùn)練后的模型去抓取完全未參與訓(xùn)練的第三類物體,成功率也從 37% 提升到了 61%。這說明通過強化學(xué)習(xí),模型不僅學(xué)會了抓茄子,還變得更聰明、更通用了。
![]()
圖注:實驗和成功率
消融實驗:為什么要解凍 VLM?
作者做了一個對比實驗:如果在第二階段依然凍結(jié) VLM,只訓(xùn)練 Action Head(即 iRe-VLA-freeze),效果如何?
結(jié)果顯示,如果不解凍 VLM,模型的性能提升會遇到瓶頸。這證明了在第二階段解凍大模型參數(shù)是必要的,這樣才能利用大模型深層的特征表示能力來徹底掌握復(fù)雜技能,并提升泛化性。
![]()
圖注:消融實驗
四、 結(jié)論與意義
這篇文章提出了一種切實可行的方案,解決了大模型在機器人控制中落地難的問題。
穩(wěn)定性:解決了大模型直接上 RL 容易訓(xùn)崩的問題。經(jīng)濟性:巧妙地分配了算力,讓本地機器人負(fù)責(zé)輕量級探索,云端服務(wù)器負(fù)責(zé)重量級消化,符合實際部署場景。持續(xù)學(xué)習(xí):證明了機器人可以通過自我探索,在不遺忘舊技能的前提下,不斷掌握新物體和新任務(wù)的操作技能。
![]()
圖注:該架構(gòu)的優(yōu)點
國內(nèi)的星動紀(jì)元的iRe-VLA 的基礎(chǔ)上,海外的PI π*0.6,都為我們揭示出了VLA在線強化學(xué)習(xí)技術(shù)的發(fā)展前景。這條路還有很多未盡的研究話題,比如如何高效探索與稀疏獎勵下的新技能學(xué)習(xí),如何面向大規(guī)模 VLA 構(gòu)造穩(wěn)定可擴展 RL 算法等。
未來發(fā)展,我們拭目以待。
![]()





京公網(wǎng)安備 11011402013531號