![]()
費森俞,上海創(chuàng)智學(xué)院 & 同濟大學(xué)博士一年級學(xué)生,導(dǎo)師趙憲忠教授,研究方向為 VLA 強化學(xué)習(xí)后訓(xùn)練。王思尹,上海創(chuàng)智學(xué)院 & 復(fù)旦大學(xué)博士二年級學(xué)生,導(dǎo)師邱錫鵬教授,研究方向為多模態(tài)具身智能。為本文共同第一作者。
龔經(jīng)經(jīng),上海創(chuàng)智學(xué)院全時導(dǎo)師。邱錫鵬,復(fù)旦大學(xué)教授,上海創(chuàng)智學(xué)院全時導(dǎo)師。為本文共同通訊作者。
你是否想過,機器人也能像人一樣,從失敗中學(xué)習(xí),不斷自我提升
當(dāng)前,視覺語言動作(VLA)模型在機器人操作任務(wù)中表現(xiàn)出色,但其性能嚴重依賴專家示范數(shù)據(jù),不僅成本高昂,還存在「示范偏差」,性能難以突破人類上限。而強化學(xué)習(xí)雖好,卻常因「獎勵稀疏」問題,讓機器人無法從失敗中真正受益。
![]()
![]()
論文鏈接:https://arxiv.org/pdf/2511.15605代碼倉庫:https://github.com/sii-research/siiRL技術(shù)文檔:https://siirl.readthedocs.io/en/latest/examples/embodied_srpo_example.html
動機與貢獻
近期研究表明,強化學(xué)習(xí)作為一種有效的后訓(xùn)練策略,能顯著提升 VLA 模型在分布內(nèi)與分布外的性能。在強化學(xué)習(xí)方法中,基于組優(yōu)化的方法(如 GRPO)因其簡潔高效的學(xué)習(xí)范式,已成為 VLA-RL 的重要技術(shù)路徑,但其仍面臨獎勵信號稀疏的挑戰(zhàn)。該問題在 VLA 領(lǐng)域尤為突出:多輪軌跡推理的計算成本極高,對失敗軌跡信息的低效利用嚴重降低了訓(xùn)練效率。雖有研究嘗試通過過程監(jiān)督提供密集反饋,但這些方法通常依賴專家示范或人工任務(wù)分解來定義中間進展,其固有的擴展性局限與自主學(xué)習(xí)目標(biāo)存在根本矛盾。
![]()
圖 1:GRPO 等方法僅依賴稀疏的結(jié)果獎勵,學(xué)習(xí)信號有限;手動設(shè)計的過程獎勵(PRM)需要成本高昂的外部示范或任務(wù)微調(diào);而 SRPO 框架提出了自參考范式,有效利用失敗軌跡。
為應(yīng)對獎勵稀疏挑戰(zhàn),我們提出自我參考學(xué)習(xí)范式,以模型自身生成的成功軌跡作為參照標(biāo)準(zhǔn),評估并引導(dǎo)失敗嘗試。與 GRPO 僅利用結(jié)果性獎勵進行優(yōu)勢估計不同,我們的方法能更高效地利用完整軌跡批,這一范式將監(jiān)督問題的核心從「如何獲取專家標(biāo)簽」轉(zhuǎn)變?yōu)椤溉绾螐淖陨沓晒?jīng)驗中提取漸進式獎勵」。
該范式的核心挑戰(zhàn)在于如何量化成功與失敗軌跡之間的行為相似性,以評估任務(wù)完成進度。傳統(tǒng)像素級世界模型存在跨領(lǐng)域泛化能力不足或需要大量任務(wù)特定微調(diào)的問題,我們發(fā)現(xiàn)潛在世界表征天然捕捉了跨環(huán)境可遷移的行為進展模式,使得無需精確環(huán)境重建或領(lǐng)域特定訓(xùn)練即可實現(xiàn)魯棒的軌跡比較。
基于以上洞察,我們提出自參考策略優(yōu)化(SRPO),貢獻主要包括以下三方面:
1. 提出 SRPO 框架,通過利用模型生成的成功軌跡為失敗嘗試提供漸進式獎勵,緩解獎勵稀疏性問題,消除對專家示范或任務(wù)特定工程的依賴。
2. 提出基于潛在世界表征的漸進式獎勵方法,克服傳統(tǒng)像素級世界模型的泛化局限與領(lǐng)域特定訓(xùn)練需求。
3. 實驗結(jié)果表明,我們的方法在 LIBERO 基準(zhǔn)測試中達到 SOTA 性能,在 LIBERO-Plus 上展現(xiàn)出強大泛化能力,并驗證了獎勵建模的真機可遷移性。
技術(shù)方案
如圖 2 所示,SRPO 通過一種「向成功者學(xué)習(xí)」的直觀方式,幫助機器人智能體在復(fù)雜任務(wù)中更有效地學(xué)習(xí)。該方案主要包含如下核心環(huán)節(jié):
![]()
圖 2: 策略推理過程產(chǎn)生的軌跡被收集到動態(tài)參考集中,行為相似性被建模為潛在世界空間中的軌跡距離,以此算出的漸進式獎勵在 KL 正則化的約束下用于優(yōu)勢估計和策略優(yōu)化。
1. 同策略軌跡收集:每次策略更新后,模型將推理時產(chǎn)生的所有軌跡數(shù)據(jù)存入動態(tài)參考集,并根據(jù)任務(wù)完成情況劃分為「成功」與「失敗」兩組。
2. 世界表征提取與聚類:SRPO 將參考集中的每條軌跡都編碼到世界模型的潛在表征空間中,該表征可以理解為對整個任務(wù)過程的濃縮概括,包含物理世界的本質(zhì)規(guī)律。值得注意的是,這種表征完全基于對原始觀測的直接建模,不依賴于人類發(fā)明的「語言」或「符號」作為中介。
3. 漸進式獎勵及策略更新:對于參考集中的成功軌跡,SRPO 計算其表征聚類中心作為典型成功范式,通過計算每條失敗軌跡到最近典型成功表征的距離來作為進度度量,距離越大說明與成功越遠,即進度越低,通過批次歸一化將距離變?yōu)?0 到 1 之間的連續(xù)漸進式獎勵,進而使用 PPO 式的目標(biāo)函數(shù)更新策略。
問題建模
![]()
![]()
世界進展獎勵模型
![]()
![]()
![]()
自參考策略優(yōu)化
![]()
優(yōu)化目標(biāo):采用 PPO 風(fēng)格的裁剪目標(biāo)函數(shù),并添加 KL 散度正則項以保持策略穩(wěn)定性:
![]()
![]()
實驗結(jié)果
僅用 200 步強化學(xué)習(xí),成功率從 48.9% 飆升至 99.2%
表 1 表明,SRPO 僅憑第三視角圖像與語言指令,不僅優(yōu)于依賴 0/1 獎勵的 SimpleVLA-RL、RLinf 等強化學(xué)習(xí)基線,也超越了需要人工設(shè)計階段獎勵的 TGRPO 等方案,超越多個依賴腕部視角、本體感知、3D 輸入的復(fù)雜模型,突顯 SRPO 在信息利用上的高效性。
![]()
表 1: SRPO 僅通過第三視角觀測,在 LIBERO 上取得了 SOTA 性能。策略輸入符號說明:T (第三視角),I (語言指令),P (本體數(shù)據(jù)),W (腕部視角),D (深度)。
泛化能力實測:一舉超越 15w 步監(jiān)督學(xué)習(xí)基線
表 2 表明,在更具挑戰(zhàn)的 LIBERO-Plus 泛化測試中,SRPO 帶來的性能提升高達 167%。即便未使用任何泛化場景數(shù)據(jù)進行訓(xùn)練,僅通過 SRPO 自身的探索學(xué)習(xí),泛化性能仍然超越 SFT 模型。
![]()
表 2: SRPO 在 LIBERO-Plus 泛化性測試基準(zhǔn)上的表現(xiàn)顯著優(yōu)于其基線。
獎勵信號:物理世界的「內(nèi)行視角」
圖 3 中,我們以「將馬克杯放進微波爐并關(guān)門」(兩階段時序任務(wù),仿真環(huán)境)和收拾桌面(五個重復(fù)性「抓取 - 放置」任務(wù),真實環(huán)境)兩個典型任務(wù)為例,展示 SRPO 在獎勵構(gòu)建上的優(yōu)勢:相較于易受視覺干擾,無法反映真實進度的像素級方法,或缺乏物理規(guī)律理解,獎勵波動劇烈的通用視覺模型,我們的獎勵曲線平滑、單調(diào),符合物理世界進展規(guī)律
![]()
圖 3: 仿真環(huán)境 (a-c) 和真實環(huán)境 (d-f) 中漸進式獎勵對比圖。
效率優(yōu)勢顯著
效率方面,在圖 4 中,對于 LIBERO 長時序任務(wù),初始模型 One-shot SFT 成功率僅 17.3%,SRPO 僅用 219 步即提升至 98.6%,相比同期 GRPO,性能提升 15.3%,相較 150k 步的 full-shot SFT 模型性能提升 12.9%。
![]()
圖 4: SRPO 與 GRPO 的訓(xùn)練效率比較。
獎勵建模真機實測
![]()
![]()
圖 5: 相較于 SFT 基線,SRPO 獎勵構(gòu)建方法在真實世界任務(wù)上成功率有顯著提升。
激發(fā)創(chuàng)造性:讓機器人學(xué)會「自主尋路」
此外,我們發(fā)現(xiàn) SRPO 訓(xùn)練后,模型能夠自主探索出多種專家軌跡中不存在的新路徑與抓取姿態(tài),如圖 6 所示。說明 SRPO 不僅能提升成功率,更能激發(fā)機器人超越示范、自主探索新的解決策略。
![]()
圖 6: 模型推理過程中末端執(zhí)行器軌跡記錄圖。
![]()
我們發(fā)現(xiàn),SRPO 是其零成本的代替方案,是一個「免費的午餐」
![]()
![]()
結(jié)語
告別昂貴的數(shù)據(jù)標(biāo)注和復(fù)雜的獎勵設(shè)計,SRPO 僅憑模型自身的成功經(jīng)驗與物理世界常識,即可實現(xiàn)性能躍遷。無需訓(xùn)練價值模型,無需人工獎勵工程,無需密集專家示范,SRPO 實現(xiàn)了讓機器人從「模仿」走向「創(chuàng)造」,從「依賴」走向「自主」,為 VLA 強化學(xué)習(xí)開辟了一條充滿希望的新路徑。





京公網(wǎng)安備 11011402013531號