henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
看似輕描淡寫(xiě),實(shí)則力透紙背。
Physical Intelligence刷屏全網(wǎng)的機(jī)器人基礎(chǔ)模型π*0.6,一亮相就秀出了實(shí)力:
讓機(jī)器人連續(xù)一整天制作意式濃縮咖啡,數(shù)小時(shí)不間斷折疊各類衣物,還能精準(zhǔn)組裝工廠所需的包裝紙箱。
π*0.6的加持下,這些任務(wù)的成功率都達(dá)到了90%以上。
![]()
然而,仔細(xì)閱讀論文就會(huì)發(fā)現(xiàn),比起連做13個(gè)小時(shí)咖啡,π*0.6真正的突破在于引入了一種更直覺(jué)的學(xué)習(xí)方法——Recap:
指導(dǎo):用人類示范教它基礎(chǔ)動(dòng)作輔導(dǎo):糾錯(cuò)指導(dǎo)讓它修正錯(cuò)誤練習(xí):從自主經(jīng)驗(yàn)中不斷優(yōu)化、變得更強(qiáng)
這徹底扭轉(zhuǎn)了過(guò)去機(jī)器人只會(huì)逼近 “真值” 的模仿學(xué)習(xí)模式,讓機(jī)器人能從自己的錯(cuò)誤中成長(zhǎng)。
就連網(wǎng)友也直呼:
從錯(cuò)誤中學(xué)習(xí),這不比人都強(qiáng)?
![]()
最強(qiáng)VLA模型——π*0.6
π*0.6延續(xù)了Physical Intelligence此前一貫的VLA(視覺(jué)-語(yǔ)言-動(dòng)作模型)路線,是今年四月份發(fā)布π0.5以來(lái)最新的VLA模型。
![]()
總的來(lái)說(shuō),π*0.6的核心貢獻(xiàn)在于提出了一種通用訓(xùn)練方法——基于優(yōu)勢(shì)條件策略的經(jīng)驗(yàn)與糾偏強(qiáng)化學(xué)習(xí)(RL with Experience & Corrections via Advantage-conditioned Policies,RECAP)。
![]()
RECAP讓VLA能夠使用獎(jiǎng)勵(lì)反饋和人類介入進(jìn)行訓(xùn)練,其主要包含三個(gè)階段:
離線RL:基于多機(jī)器人、多任務(wù)的示范數(shù)據(jù)(包括失敗數(shù)據(jù))訓(xùn)練價(jià)值函數(shù)和策略微調(diào):用人類示范將π*0.6適配到具體任務(wù)(咖啡/折衣服/組裝盒子)在線階段:機(jī)器人自主執(zhí)行任務(wù),獲得稀疏獎(jiǎng)勵(lì),并結(jié)合專家在線糾偏,更新價(jià)值函數(shù),再通過(guò)優(yōu)勢(shì)條件化改進(jìn)策略
![]()
接下來(lái),讓我們具體來(lái)看。
首先,對(duì)于為什么RECAP選擇價(jià)值函數(shù),而不是標(biāo)準(zhǔn)的策略梯度,這里有個(gè)關(guān)鍵的巧思。
一方面,真實(shí)機(jī)器人數(shù)據(jù)極度異構(gòu):包括人類示范、專家干預(yù)、以及機(jī)器人在不同策略下的執(zhí)行軌跡。標(biāo)準(zhǔn)的策略梯度方法需要on-policy的新鮮數(shù)據(jù),難以有效吸收這些歷史混合數(shù)據(jù),因此天然不適合具身場(chǎng)景。
另一方面,VLA模型基于Flow Matching生成連續(xù)動(dòng)作,這類模型沒(méi)有顯式的log π(a|s),導(dǎo)致無(wú)法像傳統(tǒng)策略那樣對(duì)直接求梯度。
換句話說(shuō),PPO、REINFORCE 這些算法在這種模型結(jié)構(gòu)上根本施展不開(kāi)。
因此,RECAP沒(méi)有走傳統(tǒng)RL的路線,而是采用了一個(gè)巧妙的“優(yōu)勢(shì)條件化”策略:
模型仍按監(jiān)督學(xué)習(xí)方式訓(xùn)練,但額外給它一個(gè)輸入,告訴它當(dāng)前動(dòng)作的優(yōu)勢(shì)值(advantage)。優(yōu)勢(shì)越高,代表“這個(gè)動(dòng)作更值得模仿”。
于是整個(gè)流程變成了:
價(jià)值函數(shù)負(fù)責(zé)評(píng)價(jià) → 優(yōu)勢(shì)條件化負(fù)責(zé)表達(dá) → VLA用監(jiān)督學(xué)習(xí)吸收所有數(shù)據(jù)
換句話說(shuō),RECAP用價(jià)值函數(shù)判斷動(dòng)作質(zhì)量,再用優(yōu)勢(shì)條件化把原本需要RL求解的策略更新,重新寫(xiě)成了大模型最擅長(zhǎng)的監(jiān)督學(xué)習(xí)問(wèn)題。
![]()
訓(xùn)練價(jià)值函數(shù)與策略提取
為了讓模型從異構(gòu)數(shù)據(jù)中學(xué)習(xí),首先需要訓(xùn)練一個(gè)能夠識(shí)別“好壞”的價(jià)值函數(shù)。無(wú)論數(shù)據(jù)來(lái)自哪里(演示或自主嘗試),處理過(guò)程如下:
計(jì)算經(jīng)驗(yàn)回報(bào):對(duì)每條軌跡,從當(dāng)前時(shí)間步到結(jié)束計(jì)算累計(jì)回報(bào),并歸一化、離散化成201個(gè)區(qū)間,為價(jià)值函數(shù)提供訓(xùn)練目標(biāo)。訓(xùn)練分布式價(jià)值函數(shù):用多任務(wù)分布式價(jià)值函數(shù)預(yù)測(cè)離散價(jià)值分布,通過(guò)最小化交叉熵?fù)p失進(jìn)行訓(xùn)練,再提取連續(xù)價(jià)值函數(shù),得到每個(gè)狀態(tài)-動(dòng)作的實(shí)際價(jià)值。計(jì)算優(yōu)勢(shì)(advantage):用動(dòng)作的實(shí)際回報(bào)減去價(jià)值函數(shù)預(yù)測(cè),得到優(yōu)勢(shì)值,并二值化形成高/低優(yōu)勢(shì)指標(biāo),作為策略訓(xùn)練的額外輸入,引導(dǎo)模型選擇更優(yōu)動(dòng)作。
有了優(yōu)勢(shì)信號(hào),我們就能實(shí)現(xiàn)高效的策略提取。這種方法完美滿足了前文提到的對(duì)離線RL的需求:
充分利用多樣化的離策略數(shù)據(jù):包括最初的人類示范、專家干預(yù),以及機(jī)器人自主執(zhí)行的軌跡(既有最新策略的,也有早期策略的)。可擴(kuò)展性:方法需要能夠應(yīng)用于大型VLA模型,包括那些使用流匹配(flow matching)或擴(kuò)散(diffusion)生成動(dòng)作的模型。同時(shí)利用優(yōu)劣數(shù)據(jù):既要有效利用近似最優(yōu)的動(dòng)作,也要利用次優(yōu)動(dòng)作的數(shù)據(jù),這對(duì)于通過(guò)自主經(jīng)驗(yàn)提升策略尤其重要。
通過(guò)這種設(shè)計(jì),RECAP成功地在不依賴昂貴在線PPO更新的情況下,利用混合質(zhì)量的離線數(shù)據(jù)實(shí)現(xiàn)了機(jī)器人的自我進(jìn)化。
在線階段:專家糾錯(cuò) + 自主經(jīng)驗(yàn)
在機(jī)器人自主執(zhí)行階段,RECAP通過(guò)兩類數(shù)據(jù)持續(xù)優(yōu)化策略:
專家糾錯(cuò):專家遠(yuǎn)程干預(yù)糾正嚴(yán)重錯(cuò)誤(如紙箱折疊順序顛倒),每一次糾錯(cuò)動(dòng)作都會(huì)被標(biāo)記為“正向優(yōu)勢(shì)”,訓(xùn)練模型學(xué)習(xí)如何恢復(fù)錯(cuò)誤。自主經(jīng)驗(yàn):模型自主完成的軌跡,無(wú)論成功還是失敗,都納入訓(xùn)練數(shù)據(jù)。通過(guò)價(jià)值函數(shù)和優(yōu)勢(shì)指標(biāo),自動(dòng)篩選有效信號(hào),優(yōu)化精細(xì)動(dòng)作。
模型架構(gòu)與性能
π*0.6是在π0.6基礎(chǔ)上構(gòu)建的,而π0.6又是對(duì)π0.5的升級(jí)版本。
![]()
π0.6的Backbone從Pi0、π0.5的Gemma(2.6B)擴(kuò)展到Gemma3(4B),Action Expert參數(shù)量也升級(jí)到了860M。
在模型架構(gòu)方面,π0.6延續(xù)了π0π0.5架構(gòu),通過(guò)流匹配(flow matching) 和離散動(dòng)作token 輸出生成動(dòng)作片段。
從實(shí)驗(yàn)來(lái)看,研究團(tuán)隊(duì)在三個(gè)高難度的現(xiàn)實(shí)任務(wù)中評(píng)估了模型:折疊多樣化的衣物、組裝紙箱(工廠環(huán)境)和制作濃縮咖啡。
在最難的任務(wù)(如折疊多樣化衣物和制作咖啡)中,RECAP將任務(wù)的吞吐量(每小時(shí)成功次數(shù))提高了一倍以上,相比于僅進(jìn)行監(jiān)督微調(diào)(SFT)的模型,RECAP將任務(wù)失敗率降低了約2倍。
![]()
與此同時(shí),模型表現(xiàn)出極高的穩(wěn)定性,例如連續(xù)13小時(shí)制作咖啡、連續(xù)2小時(shí)折疊衣物而無(wú)需人為重置。
從失敗經(jīng)驗(yàn)中學(xué)習(xí)
正如開(kāi)頭提到的,Recap最具啟發(fā)性的地方,莫過(guò)于它讓機(jī)器人能夠從錯(cuò)誤經(jīng)驗(yàn)中學(xué)習(xí)
俗話說(shuō)“失敗乃成功之母”,但在傳統(tǒng)的模仿學(xué)習(xí),乃至更廣泛的監(jiān)督學(xué)習(xí)中,逼近真值或最優(yōu)解通常被認(rèn)為是最直接、最有效的策略。
這種方法在大規(guī)模語(yǔ)言模型(LLM)和其他機(jī)器學(xué)習(xí)系統(tǒng)上確實(shí)表現(xiàn)出色,數(shù)學(xué)上也簡(jiǎn)潔優(yōu)雅。
然而,對(duì)于現(xiàn)實(shí)世界的機(jī)器人,僅僅知道如何做對(duì),卻不知道如何從錯(cuò)誤中恢復(fù),就會(huì)成為關(guān)鍵障礙。
在LLM等生成靜態(tài)輸出的AI系統(tǒng)中,監(jiān)督學(xué)習(xí)假設(shè)數(shù)據(jù)是獨(dú)立同分布(i.i.d.),預(yù)測(cè)輸出不會(huì)影響后續(xù)輸入,因此偶爾的偏差不會(huì)帶來(lái)致命問(wèn)題。
![]()
但對(duì)于需要持續(xù)與外界互動(dòng)的系統(tǒng),例如機(jī)器人,情況則完全不同。
模仿學(xué)習(xí)中模型的每一次動(dòng)作都會(huì)影響未來(lái)狀態(tài),一旦出現(xiàn)輕微錯(cuò)誤,就可能進(jìn)入訓(xùn)練數(shù)據(jù)未覆蓋的新?tīng)顟B(tài),從而觸發(fā)滾雪球式誤差。這些錯(cuò)誤疊加后,任務(wù)可能徹底失敗。
因此,要想讓機(jī)器人“每次都成功”,光靠復(fù)制示范數(shù)據(jù)是不夠的。
解決之道在于:讓視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型能夠從自身實(shí)際犯過(guò)的錯(cuò)誤中學(xué)習(xí),就像人類通過(guò)練習(xí)不斷糾正失誤一樣。
問(wèn)題在于,這些經(jīng)歷該如何標(biāo)注?如果簡(jiǎn)單地讓模型復(fù)制過(guò)去的行為,它只會(huì)學(xué)會(huì)重復(fù)錯(cuò)誤。關(guān)鍵是如何從“壞數(shù)據(jù)”中提煉出有效的訓(xùn)練信號(hào)。
Recap通過(guò)指導(dǎo)中輔以糾正,練習(xí)中輔以強(qiáng)化來(lái)實(shí)現(xiàn)這一點(diǎn):
教練式糾偏(corrections)當(dāng)機(jī)器人犯錯(cuò)時(shí),專家通過(guò)遙操作介入,示范如何恢復(fù)、如何更好地完成任務(wù)。
不同于傳統(tǒng)的示范教學(xué),這里不是教“該怎么做”,而是教“當(dāng)事情出錯(cuò)時(shí)該如何修正”。
這種針對(duì)性糾偏彌補(bǔ)了傳統(tǒng)模仿數(shù)據(jù)的不足,是防止錯(cuò)誤累積的關(guān)鍵。
強(qiáng)化學(xué)習(xí)(reinforcement learning)
然而,僅僅依靠人類提供糾正措施是遠(yuǎn)遠(yuǎn)不夠的,機(jī)器人需要自主學(xué)習(xí)。
機(jī)器人需要根據(jù)一個(gè)回合的總體結(jié)果自行判斷其行為的好壞,并迭代地學(xué)習(xí)執(zhí)行好的行為,同時(shí)避免壞的行為。
由此,就引出了基于對(duì)錯(cuò)獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)。
如上文所說(shuō),為了實(shí)現(xiàn)強(qiáng)化學(xué)習(xí),核心在于解決信用分配(credit assignment)的問(wèn)題。
比如,要知道機(jī)器人執(zhí)行的哪些動(dòng)作導(dǎo)致了好的結(jié)果,哪些動(dòng)作導(dǎo)致了壞的結(jié)果。
這里,Recap通過(guò)訓(xùn)練一個(gè)價(jià)值函數(shù)(value function)來(lái)應(yīng)對(duì)這一挑戰(zhàn),它可以預(yù)測(cè)當(dāng)前狀態(tài)相較于其他狀態(tài)的優(yōu)劣。
![]()
△圖源:Reinforcement learning: An introduction
舉例來(lái)說(shuō),在經(jīng)典的格子世界中,智能體會(huì)通過(guò)一次次嘗試更新每個(gè)狀態(tài)的價(jià)值:落在好格子上,價(jià)值提高;掉進(jìn)壞格子里,價(jià)值降低。
隨著價(jià)值評(píng)估逐漸準(zhǔn)確,智能體自然會(huì)傾向于選擇那些通向高價(jià)值狀態(tài)的動(dòng)作。
同樣的邏輯放到機(jī)器人身上:價(jià)值函數(shù)的變化為模型提供了一個(gè)簡(jiǎn)單而強(qiáng)大的判斷信號(hào)。
讓價(jià)值上升的動(dòng)作:代表機(jī)器人朝任務(wù)成功更近了一步,應(yīng)當(dāng)被強(qiáng)化;讓價(jià)值下降的動(dòng)作:意味著偏離目標(biāo),需要被抑制或修正。
舉例來(lái)說(shuō),在折疊衣服任務(wù)中(左圖),紅色區(qū)域表示機(jī)器人突然將衣服拉起的錯(cuò)誤動(dòng)作,對(duì)應(yīng)價(jià)值下降;而綠色區(qū)域表示機(jī)器人正確完成折疊時(shí),價(jià)值上升。
![]()
可以說(shuō),價(jià)值函數(shù)幫助機(jī)器人識(shí)別“關(guān)鍵步驟”與“錯(cuò)誤來(lái)源”,讓它真正具備在復(fù)雜真實(shí)環(huán)境中從經(jīng)驗(yàn)中變強(qiáng)的能力。
當(dāng)訓(xùn)練好價(jià)值函數(shù)后,下一步是“策略抽取”:讓策略(即VLA模型)以價(jià)值變化為條件進(jìn)行訓(xùn)練。
所有數(shù)據(jù)——包括成功和未成功——都被保留,同時(shí)告知模型哪些動(dòng)作是有效的、哪些動(dòng)作應(yīng)避免。
這種優(yōu)勢(shì)條件化(advantage-conditioned)訓(xùn)練能夠讓模型在保留全部經(jīng)驗(yàn)的前提下,從失敗中學(xué)習(xí),從而表現(xiàn)超越單純示范數(shù)據(jù)的水平。
綜上,Recap不僅讓機(jī)器人學(xué)會(huì)了執(zhí)行任務(wù),更重要的是,它讓機(jī)器人學(xué)會(huì)了自我糾正和優(yōu)化策略,為后續(xù)復(fù)雜任務(wù)的魯棒性和效率提升提供了可擴(kuò)展的解決方案。
與此同時(shí),如果從好數(shù)據(jù)(示范)少,壞數(shù)據(jù)(錯(cuò)誤經(jīng)驗(yàn))多的視角來(lái)看,π*0.6 的突破可能更具深遠(yuǎn)意義 ——
它證明了機(jī)器人能從真實(shí)執(zhí)行中收集的 “不完美經(jīng)驗(yàn)” 里,提煉出高效的學(xué)習(xí)信號(hào),這也為后續(xù)機(jī)器人研究開(kāi)辟了全新思路,提供了極具價(jià)值的探索方向。
[1]https://www.pi.website/download/pistar06.pdf
[2]https://www.pi.website/blog/pistar06
[3]https://www.physicalintelligence.company/download/pi05.pdf
[4]https://x.com/svlevine/status/1990574916622856290





京公網(wǎng)安備 11011402013531號(hào)