亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當(dāng)前位置: 首頁 ? 資訊 ? 新科技 ? 正文

告別專家依賴,讓機器人學(xué)會自我參考,僅需200步性能飆升至99.2%

IP屬地 中國·北京 機器之心Pro 時間:2025-12-10 16:22:39



費森俞,上海創(chuàng)智學(xué)院 & 同濟大學(xué)博士一年級學(xué)生,導(dǎo)師趙憲忠教授,研究方向為 VLA 強化學(xué)習(xí)后訓(xùn)練。王思尹,上海創(chuàng)智學(xué)院 & 復(fù)旦大學(xué)博士二年級學(xué)生,導(dǎo)師邱錫鵬教授,研究方向為多模態(tài)具身智能。為本文共同第一作者。

龔經(jīng)經(jīng),上海創(chuàng)智學(xué)院全時導(dǎo)師。邱錫鵬,復(fù)旦大學(xué)教授,上海創(chuàng)智學(xué)院全時導(dǎo)師。為本文共同通訊作者。

你是否想過,機器人也能像人一樣,從失敗中學(xué)習(xí),不斷自我提升

當(dāng)前,視覺語言動作(VLA)模型在機器人操作任務(wù)中表現(xiàn)出色,但其性能嚴重依賴專家示范數(shù)據(jù),不僅成本高昂,還存在「示范偏差」,性能難以突破人類上限。而強化學(xué)習(xí)雖好,卻常因「獎勵稀疏」問題,讓機器人無法從失敗中真正受益。





論文鏈接:https://arxiv.org/pdf/2511.15605代碼倉庫:https://github.com/sii-research/siiRL技術(shù)文檔:https://siirl.readthedocs.io/en/latest/examples/embodied_srpo_example.html

動機與貢獻

近期研究表明,強化學(xué)習(xí)作為一種有效的后訓(xùn)練策略,能顯著提升 VLA 模型在分布內(nèi)與分布外的性能。在強化學(xué)習(xí)方法中,基于組優(yōu)化的方法(如 GRPO)因其簡潔高效的學(xué)習(xí)范式,已成為 VLA-RL 的重要技術(shù)路徑,但其仍面臨獎勵信號稀疏的挑戰(zhàn)。該問題在 VLA 領(lǐng)域尤為突出:多輪軌跡推理的計算成本極高,對失敗軌跡信息的低效利用嚴重降低了訓(xùn)練效率。雖有研究嘗試通過過程監(jiān)督提供密集反饋,但這些方法通常依賴專家示范或人工任務(wù)分解來定義中間進展,其固有的擴展性局限與自主學(xué)習(xí)目標(biāo)存在根本矛盾。



圖 1:GRPO 等方法僅依賴稀疏的結(jié)果獎勵,學(xué)習(xí)信號有限;手動設(shè)計的過程獎勵(PRM)需要成本高昂的外部示范或任務(wù)微調(diào);而 SRPO 框架提出了自參考范式,有效利用失敗軌跡。

為應(yīng)對獎勵稀疏挑戰(zhàn),我們提出自我參考學(xué)習(xí)范式,以模型自身生成的成功軌跡作為參照標(biāo)準(zhǔn),評估并引導(dǎo)失敗嘗試。與 GRPO 僅利用結(jié)果性獎勵進行優(yōu)勢估計不同,我們的方法能更高效地利用完整軌跡批,這一范式將監(jiān)督問題的核心從「如何獲取專家標(biāo)簽」轉(zhuǎn)變?yōu)椤溉绾螐淖陨沓晒?jīng)驗中提取漸進式獎勵」。

該范式的核心挑戰(zhàn)在于如何量化成功與失敗軌跡之間的行為相似性,以評估任務(wù)完成進度。傳統(tǒng)像素級世界模型存在跨領(lǐng)域泛化能力不足或需要大量任務(wù)特定微調(diào)的問題,我們發(fā)現(xiàn)潛在世界表征天然捕捉了跨環(huán)境可遷移的行為進展模式,使得無需精確環(huán)境重建或領(lǐng)域特定訓(xùn)練即可實現(xiàn)魯棒的軌跡比較。

基于以上洞察,我們提出自參考策略優(yōu)化(SRPO),貢獻主要包括以下三方面:

1. 提出 SRPO 框架,通過利用模型生成的成功軌跡為失敗嘗試提供漸進式獎勵,緩解獎勵稀疏性問題,消除對專家示范或任務(wù)特定工程的依賴。

2. 提出基于潛在世界表征的漸進式獎勵方法,克服傳統(tǒng)像素級世界模型的泛化局限與領(lǐng)域特定訓(xùn)練需求。

3. 實驗結(jié)果表明,我們的方法在 LIBERO 基準(zhǔn)測試中達到 SOTA 性能,在 LIBERO-Plus 上展現(xiàn)出強大泛化能力,并驗證了獎勵建模的真機可遷移性。

技術(shù)方案

如圖 2 所示,SRPO 通過一種「向成功者學(xué)習(xí)」的直觀方式,幫助機器人智能體在復(fù)雜任務(wù)中更有效地學(xué)習(xí)。該方案主要包含如下核心環(huán)節(jié):



圖 2: 策略推理過程產(chǎn)生的軌跡被收集到動態(tài)參考集中,行為相似性被建模為潛在世界空間中的軌跡距離,以此算出的漸進式獎勵在 KL 正則化的約束下用于優(yōu)勢估計和策略優(yōu)化。

1. 同策略軌跡收集:每次策略更新后,模型將推理時產(chǎn)生的所有軌跡數(shù)據(jù)存入動態(tài)參考集,并根據(jù)任務(wù)完成情況劃分為「成功」與「失敗」兩組。

2. 世界表征提取與聚類:SRPO 將參考集中的每條軌跡都編碼到世界模型的潛在表征空間中,該表征可以理解為對整個任務(wù)過程的濃縮概括,包含物理世界的本質(zhì)規(guī)律。值得注意的是,這種表征完全基于對原始觀測的直接建模,不依賴于人類發(fā)明的「語言」或「符號」作為中介。

3. 漸進式獎勵及策略更新:對于參考集中的成功軌跡,SRPO 計算其表征聚類中心作為典型成功范式,通過計算每條失敗軌跡到最近典型成功表征的距離來作為進度度量,距離越大說明與成功越遠,即進度越低,通過批次歸一化將距離變?yōu)?0 到 1 之間的連續(xù)漸進式獎勵,進而使用 PPO 式的目標(biāo)函數(shù)更新策略。

問題建模





世界進展獎勵模型







自參考策略優(yōu)化



優(yōu)化目標(biāo):采用 PPO 風(fēng)格的裁剪目標(biāo)函數(shù),并添加 KL 散度正則項以保持策略穩(wěn)定性:





實驗結(jié)果

僅用 200 步強化學(xué)習(xí),成功率從 48.9% 飆升至 99.2%

表 1 表明,SRPO 僅憑第三視角圖像與語言指令,不僅優(yōu)于依賴 0/1 獎勵的 SimpleVLA-RL、RLinf 等強化學(xué)習(xí)基線,也超越了需要人工設(shè)計階段獎勵的 TGRPO 等方案,超越多個依賴腕部視角、本體感知、3D 輸入的復(fù)雜模型,突顯 SRPO 在信息利用上的高效性。



表 1: SRPO 僅通過第三視角觀測,在 LIBERO 上取得了 SOTA 性能。策略輸入符號說明:T (第三視角),I (語言指令),P (本體數(shù)據(jù)),W (腕部視角),D (深度)。

泛化能力實測:一舉超越 15w 步監(jiān)督學(xué)習(xí)基線

表 2 表明,在更具挑戰(zhàn)的 LIBERO-Plus 泛化測試中,SRPO 帶來的性能提升高達 167%。即便未使用任何泛化場景數(shù)據(jù)進行訓(xùn)練,僅通過 SRPO 自身的探索學(xué)習(xí),泛化性能仍然超越 SFT 模型。



表 2: SRPO 在 LIBERO-Plus 泛化性測試基準(zhǔn)上的表現(xiàn)顯著優(yōu)于其基線。

獎勵信號:物理世界的「內(nèi)行視角」

圖 3 中,我們以「將馬克杯放進微波爐并關(guān)門」(兩階段時序任務(wù),仿真環(huán)境)和收拾桌面(五個重復(fù)性「抓取 - 放置」任務(wù),真實環(huán)境)兩個典型任務(wù)為例,展示 SRPO 在獎勵構(gòu)建上的優(yōu)勢:相較于易受視覺干擾,無法反映真實進度的像素級方法,或缺乏物理規(guī)律理解,獎勵波動劇烈的通用視覺模型,我們的獎勵曲線平滑、單調(diào),符合物理世界進展規(guī)律



圖 3: 仿真環(huán)境 (a-c) 和真實環(huán)境 (d-f) 中漸進式獎勵對比圖。

效率優(yōu)勢顯著

效率方面,在圖 4 中,對于 LIBERO 長時序任務(wù),初始模型 One-shot SFT 成功率僅 17.3%,SRPO 僅用 219 步即提升至 98.6%,相比同期 GRPO,性能提升 15.3%,相較 150k 步的 full-shot SFT 模型性能提升 12.9%。



圖 4: SRPO 與 GRPO 的訓(xùn)練效率比較。

獎勵建模真機實測





圖 5: 相較于 SFT 基線,SRPO 獎勵構(gòu)建方法在真實世界任務(wù)上成功率有顯著提升。

激發(fā)創(chuàng)造性:讓機器人學(xué)會「自主尋路」

此外,我們發(fā)現(xiàn) SRPO 訓(xùn)練后,模型能夠自主探索出多種專家軌跡中不存在的新路徑與抓取姿態(tài),如圖 6 所示。說明 SRPO 不僅能提升成功率,更能激發(fā)機器人超越示范、自主探索新的解決策略。



圖 6: 模型推理過程中末端執(zhí)行器軌跡記錄圖。



我們發(fā)現(xiàn),SRPO 是其零成本的代替方案,是一個「免費的午餐」





結(jié)語

告別昂貴的數(shù)據(jù)標(biāo)注和復(fù)雜的獎勵設(shè)計,SRPO 僅憑模型自身的成功經(jīng)驗與物理世界常識,即可實現(xiàn)性能躍遷。無需訓(xùn)練價值模型,無需人工獎勵工程,無需密集專家示范,SRPO 實現(xiàn)了讓機器人從「模仿」走向「創(chuàng)造」,從「依賴」走向「自主」,為 VLA 強化學(xué)習(xí)開辟了一條充滿希望的新路徑。

免責(zé)聲明:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。

全站最新
亚洲国产免费av| 亚洲欧美黄色片| 久久色精品视频| 一级片视频免费| 91在线高清免费观看| 国产精品伊人色| 欧美日韩在线免费观看视频| 亚洲欧洲精品成人久久奇米网| 99re精彩视频| 精品日韩一区二区三区| 日本一区二区三区四区五区| 日本精品久久中文字幕佐佐木 | 国产一区二区调教| 男人的天堂成人| 天天综合色天天| 国精产品视频一二二区| 久久久久久中文| 麻豆精品国产传媒mv男同| 欧美在线观看视频免费| 欧美探花视频资源| 免费看一级一片| 国产精品日韩欧美| 91小视频免费看| 欧美在线a视频| 国产亚洲人成网站在线观看| 精品国产无码一区二区| 色99中文字幕| 欧美日韩国产区| 疯狂试爱三2浴室激情视频| 欧美亚洲第一区| 成年人网站91| 一区二区三区四区毛片| 国产一区av在线| 三级网站免费观看| 黄色一级片av| 欧美欧美欧美欧美首页| 国产成人自拍偷拍| 日本不卡一区| 色呦呦一区二区三区| 青青草激情视频| 91久久国产精品91久久性色| 国产女人aaa级久久久级| 91人妻一区二区| 欧美伦理91i| 国产福利一区在线| 激情文学亚洲色图| 久久精品视频va| 久久国产尿小便嘘嘘| 国产精品拍拍拍| 日韩中文字幕国产精品| 激情久久五月天| 国产探花在线观看视频| 欧美激情免费看| 99精品一区二区三区| 日本性生活一级片| 欧美一区亚洲一区| 国产欧美精品在线观看| 国产熟妇搡bbbb搡bbbb| 国产精品日日做人人爱| 亚洲日本护士毛茸茸| 国产67194| 精品视频一区二区| 色综合久久天天综合网| 精品一区二三区| 亚洲一区二区三区四区中文| 91麻豆精品国产自产在线观看一区| 国产又黄又粗又猛又爽| 欧美另类videosbestsex日本| 亚洲成人黄色在线| 人人爽香蕉精品| 日本亚洲一区二区三区| 日本中文字幕成人| 亚洲最大色网站| 亚洲av中文无码乱人伦在线视色| 亚洲精品在线免费| 精品第一国产综合精品aⅴ| 亚洲另类在线观看| 可以免费看的黄色网址| 亚洲国产精品视频在线观看 | 在线播放亚洲激情| 国产在线精品一区二区不卡了| 日本高清免费观看| 国外成人在线视频| 亚洲国产高清aⅴ视频| 熟女av一区二区| 久久一区二区三区欧美亚洲| 欧美中文字幕久久| 丰满少妇被猛烈进入| 久久久久久久久久久免费视频| 中文字幕国产日韩| 成人av在线电影| 国产毛片久久久久久久| 国产高清精品一区二区| 欧美日韩中文另类| 五十路在线视频| 91欧美一区二区三区| 日本a级片电影一区二区| 亚洲美女偷拍久久| 波多野结衣高清视频| 国产人妻777人伦精品hd| 日韩视频免费在线| 97国产精品videossex| 亚洲综合视频网站| 一区二区三区电影| 亚洲性猛交xxxxwww| av不卡在线播放| 黄色a级片在线观看| 亚洲精品成人自拍| 在线精品国产欧美| 国产日韩欧美精品电影三级在线| 国产又大又黑又粗免费视频| 久久久天堂国产精品| 爽爽爽爽爽爽爽成人免费观看| 久久在线观看免费| 久久久久99精品成人片三人毛片| 91黄色在线看| 国内精品久久久久| 午夜精品一区在线观看| 国产尤物在线观看| 波多野结衣xxxx| 96国产粉嫩美女| 日韩免费在线观看| 国产高清不卡二三区| 欧美丰满艳妇bbwbbw| 17c丨国产丨精品视频| 韩国福利视频一区| 精品久久香蕉国产线看观看亚洲| 天天操天天舔天天干| 日本黄色录像片| 欧美精品成人一区二区在线观看 | 国模私拍视频一区| 日韩欧美大尺度| 免费一级欧美片在线观看| 国产18无套直看片| 亚洲av首页在线| 高清一区二区三区日本久| 亚洲日本电影在线| 天堂在线观看视频| 黄色av免费播放| 一本二本三本亚洲码| 97精品国产91久久久久久| 欧美亚洲国产一区二区三区va| 久久99精品久久久久久动态图| 一级黄色录像视频| 国产精品97在线| 亚洲专区在线视频| 亚洲日韩欧美视频一区| 亚洲女人小视频在线观看| 农村少妇久久久久久久| 亚洲aaa视频| 欧美亚洲精品一区二区| 国产综合视频在线观看| 亚洲精品乱码久久久久久按摩观| 国产精品免费视频网站| 天天操天天干天天爽| 国精产品久拍自产在线网站| 午夜精品久久久久久久无码| 97超碰人人看人人 | 国产精品 欧美在线| 精品视频在线免费| 欧美国产精品v| 韩国中文字幕hd久久精品| 成人18视频免费69| 久久久久久香蕉| 久久久福利视频| 久久久久久有精品国产| 日韩一级黄色大片| 国产精品久久久久久亚洲毛片| 久久中文精品| 国产成人无码精品久在线观看| 在线a免费观看| 夜夜春亚洲嫩草影视日日摸夜夜添夜| 孩xxxx性bbbb欧美| 精品国产一区a| 亚洲午夜激情网站| 国产真实乱子伦精品视频| 一本色道久久综合精品婷婷| 男人的天堂官网| 欧美韩国日本在线| 久中文字幕一区| 欧美一级高清免费播放| 亚洲片在线资源| 91九色02白丝porn| 丁香桃色午夜亚洲一区二区三区| 国产成人a人亚洲精品无码| 国产探花视频在线| 日韩欧美理论片| 韩国无码av片在线观看网站| 97se在线视频| 777午夜精品福利在线观看| 亚洲成人免费在线视频| 日韩欧美福利视频| 亚洲日本欧美天堂| 99久久精品国产麻豆演员表| 老**午夜毛片一区二区三区| 精人妻无码一区二区三区| 精品无码一区二区三区蜜臀| 国产福利在线免费| 男人插女人视频在线观看| 久久爱av电影| 欧美在线一区二区三区四| 亚洲欧美在线免费观看| 欧美精品日韩精品| 夜夜亚洲天天久久| 久久综合给合久久狠狠狠97色69| 美女视频一区二区| 亚洲av无码国产精品永久一区 | 日韩av色综合| 深夜福利91大全| 色综合天天综合| 一区二区欧美精品| 久久久久久久综合狠狠综合| 国产制服丝袜一区| 天堂精品中文字幕在线| av网站在线观看免费| 日韩 欧美 综合| 天天综合天天做| youjizz亚洲女人| 日韩无码精品一区二区| 九九精品久久久| 久在线观看视频| 久久男人资源站| 懂色av一区二区三区四区五区| 91久热免费在线视频| 国产精品久久久久久久av大片| 欧美—级a级欧美特级ar全黄| 中国人与牲禽动交精品| 日韩精品福利在线| 日韩视频在线你懂得| 欧美日韩在线观看一区二区| 国产精品久99| 一区二区中文视频| 国产日本一区二区| 久久久久国产精品麻豆ai换脸| 成人v精品蜜桃久久一区| 日本亚洲最大的色成网站www| www.黄色小说.com| 国产三级小视频| 国产成人三级一区二区在线观看一| 波多野结衣家庭主妇| 无码人妻精品一区二区三区蜜桃91| 久久免费视频精品| 欧美精品色哟哟| 99鲁鲁精品一区二区三区| 青青草成人免费视频| 色综合久久五月| 亚洲成人av免费在线观看| 极品白嫩丰满美女无套| 永久看看免费大片| 成人性生交免费看| 亚洲欧美日本一区二区| 亚洲图片 自拍偷拍| 国内自拍第二页| 日韩大尺度视频| 欧产日产国产精品98| 欧美做受xxxxxⅹ性视频| 国产一级久久久久毛片精品| 欧美色图17p| 青娱乐国产在线| 日韩 欧美 中文| 国产亚洲欧美久久久久| 国产成人无码精品久在线观看| 91在线视频免费播放| 九九热在线免费观看| 中国女人一级一次看片| 亚洲综合精品视频| 国产白浆在线观看| 天堂在线一区二区| 极品少妇一区二区| 国产馆精品极品| 2欧美一区二区三区在线观看视频 337p粉嫩大胆噜噜噜噜噜91av | 116极品美女午夜一级| 在线视频免费一区二区| 丝袜亚洲另类欧美重口| 97视频在线观看成人| 日本精品久久久| 国产高清在线不卡| 亚洲一区二区三区毛片| 亚洲综合国产精品| 欧美污视频久久久| 亚洲精品久久久久久一区二区| 精品人妻人人做人人爽| 国产成a人亚洲精v品在线观看| 91人人澡人人爽人人精品| 精品999在线| 精品无码人妻一区| 国产一级片免费看| 99久久国产热无码精品免费| 美日韩一级片在线观看| 久久精品夜色噜噜亚洲a∨| 一区二区激情小说| 欧美精品粉嫩高潮一区二区| 91精品婷婷国产综合久久 | 97免费在线视频| 国产欧美日韩最新| 欧美日韩国产精品一卡| 久久久久久久久久网| av电影在线播放| 久草视频免费在线| 91亚洲国产精品| 国内精品免费午夜毛片| 亚洲一区二区三区毛片 | 国产四区在线观看| 第一区免费在线观看| 日本不卡视频一区| 国内免费精品视频| 日本免费一区视频| 91蜜桃免费观看视频| 日韩欧美精品在线观看| 日韩高清a**址| 国产成人黄色av| 色一情一乱一伦一区二区三区丨| 国产一级不卡毛片| 久久久久9999| 亚洲成人第一网站| 久久精品国产久精国产| 中文字幕字幕中文在线中不卡视频| 在线不卡欧美精品一区二区三区| 国产午夜精品一区二区三区| 91精品久久久久久久久| 青少年xxxxx性开放hg| 亚洲一区二区三区四区av| 日本在线视频免费| 日韩成人一区二区三区在线观看| 国产精品久久毛片| 日韩精品在线一区二区| 高清欧美一区二区三区| 蜜桃av噜噜一区二区三区| 久久久999免费视频| 99久久免费看精品国产一区| 国产嫩bbwbbw高潮| 国模一区二区三区白浆| 亚洲va欧美va天堂v国产综合| 欧美日韩国产片| 色综合久久88色综合天天看泰| 国产欧美日韩综合精品二区| 91黄色小网站| 国产成人自拍网站| 日韩国产欧美在线播放| 亚洲三级小视频| 亚洲精品久久久久中文字幕欢迎你| 国产成人精品电影| 波多野结衣三级在线| 国产肉体xxxx裸体784大胆| 亚洲自拍偷拍另类| 久久久久久久综合日本| 日韩亚洲欧美成人一区| 国产精彩精品视频| 亚洲色婷婷久久精品av蜜桃| 免费国偷自产拍精品视频| 探花国产精品一区二区| 九九**精品视频免费播放| 91成人免费网站| 国语自产精品视频在线看抢先版图片 | 一区二区三区美女视频| 国产一区二区三区日韩欧美| 国产日韩精品电影| www国产黄色| 久久久久久久9999| 久草精品在线观看| 亚洲成人av电影在线| 亚洲国产欧美一区二区丝袜黑人| 亚洲一区美女视频在线观看免费| 国产成人手机视频| 中国一级免费毛片| 国产精品 日产精品 欧美精品| 欧美乱熟臀69xxxxxx| 国产精品极品尤物在线观看| 日本日本19xxxⅹhd乱影响| 国产欧美小视频| 国产在线精品免费av| 欧美精品日韩精品| 91麻豆桃色免费看| 成人免费毛片播放| 日韩精品在线一区二区三区| 欧美激情一区二区在线| 欲色天天网综合久久| 色姑娘综合网| 日本黄区免费视频观看| 奇米色777欧美一区二区| 日本韩国欧美国产| 成人精品在线视频| 国产精品二区视频| 日韩性xxxx| 91久久一区二区| 91久久综合亚洲鲁鲁五月天| 色呦色呦色精品| www.午夜激情| 国产精品欧美极品| 欧美激情a在线| 怡红院av亚洲一区二区三区h| 成人精品在线看| 久久久.com| www国产精品视频| 97在线日本国产| 亚洲视频中文字幕| 午夜精品三级久久久有码| 日韩三级在线播放| 亚洲国内精品视频| 久久精品国产久精国产| 欧亚乱熟女一区二区在线| 国产精品人成电影| 99久久精品一区| avhd101老司机| 国产精品视频免费观看| 亚洲免费视频一区二区| 国产在线精品一区二区三区| 91精彩刺激对白露脸偷拍| 久久精品国产第一区二区三区| 在线视频综合导航|