亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

用動作分塊突破RL極限,伯克利引入模仿學習,超越離線/在線SOTA

IP屬地 中國·北京 編輯:陸辰風 機器之心Pro 時間:2025-07-14 16:29:48



機器之心報道

編輯:杜偉、冷貓

如今,強化學習(Reinforcement Learning,RL)在多個領域已取得顯著成果。

在實際應用中,具有長時間跨度和稀疏獎勵特征的任務非常常見,而強化學習方法在這類任務中的表現仍難令人滿意。

傳統強化學習方法在此類任務中的探索能力常常不足,因為只有在執行一系列較長的動作序列后才能獲得獎勵,這導致合理時間內找到有效策略變得極其困難。

假如將模仿學習(Imitation Learning, IL)的思路引入強化學習方法,能否改善這一情況呢?

模仿學習通過觀察專家的行為并模仿其策略來學習,通常用于強化學習的早期階段,尤其是在狀態空間和動作空間巨大且難以設計獎勵函數的場景。

近年來,模仿學習不僅在傳統的強化學習中取得了進展,也開始對大語言模型(LLM)產生一定影響。近日,加州大學伯克利分校的研究者提出了一種名為Q-chunking的方法,該方法將動作分塊(action chunking)—— 一種在模仿學習中取得成功的技術 —— 引入到基于時序差分(Temporal Difference, TD)的強化學習中。

該方法主要解決兩個核心問題:一是通過時間上連貫的動作序列提升探索效率;二是在避免傳統 n 步回報引入偏差的前提下,實現更快速的值傳播。



論文標題:Reinforcement Learning with Action Chunking論文地址:https://www.alphaxiv.org/overview/2507.07969v1代碼地址:https://github.com/ColinQiyangLi/qc

如下圖 1 左所示,Q-chunking(1)使用動作分塊來實現快速的價值回傳,(2)通過時間連貫的動作進行有效探索。圖 1 右中,本文方法首先在離線數據集上進行 100 萬步的預訓練(灰色部分),然后使用在線數據更新,再進行另外 100 萬步的訓練(白色部分)。



問題表述與研究動機

Q-chunking 旨在解決標準強化學習方法在復雜操作任務中存在的關鍵局限性。

在傳統強化學習中,智能體在每一個時間步上逐一選擇動作,這常常導致探索策略效率低下,表現為抖動、時間不連貫的動作序列。這一問題在稀疏獎勵環境中尤為嚴重 —— 在此類環境中,智能體必須執行較長的、協調一致的動作序列才能獲得有效反饋。

研究者提出了一個關鍵見解:盡管馬爾可夫決策過程中的最優策略本質上是馬爾可夫性的,但探索過程卻可以從非馬爾可夫性、時間上擴展的動作中顯著受益。這一觀察促使他們將「動作分塊」這一原本主要用于模仿學習的策略引入到時序差分學習中。

該方法特別面向離線到在線的強化學習場景(offline-to-online RL),即智能體先從預先收集的數據集中進行學習,再通過在線交互進行微調。這一設定在機器人應用中尤為重要,因為在線數據采集成本高且可能存在安全風險。

方法概覽

Q-chunking 將標準的 Q-learning 擴展至時間擴展的動作空間,使策略不再僅預測單一步驟的動作,而是預測連續 h 步的動作序列。該方法主要包含兩個核心組成部分:

擴展動作空間學習



算法實現

研究者展示了Q-chunking框架的兩種實現方式:

QC(帶有隱式 KL 約束的 Q-chunking)

該分支通過「從 N 個中選擇最優」(best-of-N)的采樣策略,隱式地施加 KL 散度約束。其方法如下:

1. 在離線數據上訓練一個流匹配行為策略 f_ξ(?|s)

2. 對于每個狀態,從該策略中采樣 N 個動作序列(action chunks)

3. 選擇具有最大 Q 值的動作序列:a* = arg max_i Q (s, a_i)

4. 使用該動作序列進行環境交互與 TD 更新

QC-FQL(帶有 2-Wasserstein 距離約束的 Q-chunking)

該實現基于 FQL(Flow Q-learning)框架:

1. 保持一個獨立的噪聲條件策略 μ_ψ(s, z)

2. 訓練該策略以最大化 Q 值,并通過正則項使其靠近行為策略

3. 使用一種蒸餾損失函數,對平方的 2-Wasserstein 距離進行上界估計

4. 引入正則化參數 α 來控制約束強度

實驗設置及結果

關于實驗環境和數據集,研究者首先考慮 6 個稀疏獎勵的機器人操作任務域,任務難度各不相同,包括如下:

來自 OGBench 基準的 5 個任務域:scene-sparse、puzzle-3x3-sparse,以及 cube-double、cube-triple 和 cube-quadruple,每個任務域包含 5 個任務;來自 robomimic 基準中的 3 個任務。

對于 OGBench,研究者使用默認的「play-style」數據集,唯獨在 cube-quadruple 任務中,使用了一個規模為 1 億大小的數據集。

關于基線方法比較,研究者主要使用了以加速「價值回傳」為目標的已有方法,以及此前表現最好的「離線到在線」強化學習方法,包括BFN(best-of-N)、FQL、BFN-n / FQL-n 以及 LPD、RLPD-AC

下圖 3 中展示了 Q-chunking 與基線方法在 5 個 OGBench 任務域上的整體性能表現,下圖 4 中展示了在 3 個 robomimic 任務上的單獨性能表現。其中在離線階段(圖中為灰色),QC 表現出具有競爭力的性能,通常可以比肩甚至有時超越了以往最優方法。而在在線階段(圖中為白色),QC 表現出極高的樣本效率,尤其是在 2 個最難的 OGBench 任務域(cube-triple 和 quadruple)中,其性能遠超以往所有方法(特別是 cube-quadruple 任務)。

下圖 5 為消融實驗,比較了 QC 與其變體 QC-FQL、以及 2 種 n 步回報的基線方法(BFN-n 和 FQL-n)。這些 n 步回報基線方法沒有利用時間擴展的 critic 或 policy,因此其性能顯著低于 QC 和 QC-FQL。實際上,它們的表現甚至常常不如 1 步回報的基線方法 BFN 和 FQL,這進一步突顯了在時間擴展動作空間中進行學習的重要性。



接下來探討的問題是:為什么動作分塊有助于探索?研究者在前文提出了一個假設:動作分塊策略能夠生成在時間上更連貫的動作,從而帶來更好的狀態覆蓋和探索效果。

為了進行實證,他們首先可視化了訓練早期 QC 與 BFN 的末端執行器運動軌跡,具體如下圖 7 所示。可以看到,BFN 的軌跡中存在大量停頓(在圖像中心區域形成了一個大而密集的簇),特別是在末端執行器下壓準備抓取方塊時。而 QC 的軌跡中則明顯停頓較少(形成的簇更少且更淺),并且其在末端執行器空間中的狀態覆蓋更加多樣化。

為了對動作的時間連貫性進行定量評估,研究者在訓練過程中每 5 個時間步記錄一次 3D 末端執行器位置,并計算相鄰兩次位置差向量的平均 L2 范數。如果存在較多停頓或抖動動作,該平均范數會變得較小,因此可以作為衡量動作時間連貫性的有效指標。

正如圖 7(右)所示,在整個訓練過程中,QC 的動作時間連貫性明顯高于 BFN。這一發現表明,QC 能夠提高動作的時間連貫性,從而解釋了其更高的樣本效率。



更多細節內容請參考原論文。

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

全站最新
国产精品第二十页| 日韩视频在线免费观看| 色香阁99久久精品久久久| 欧美最猛性xxxxx免费| 国产精品推荐精品| 日韩精品免费一区| 999久久久精品视频| 超薄肉色丝袜一二三| youjizz在线视频| 神宫寺奈绪一区二区三区| 国产成人精品亚洲日本在线桃色| 欧美韩国日本一区| 欧美主播一区二区三区美女| 国产午夜精品视频免费不卡69堂| 日韩av成人在线| 欧美一区国产一区| 青青草原成人网| 成年人在线观看av| 黄色免费av网站| 青椒成人免费视频| 自拍偷拍欧美激情| 日韩视频一区二区在线观看| 欧美多人乱p欧美4p久久| 97超碰在线播放| 亚洲国产精品无码观看久久| 欧美夫妇交换xxx| 国产污污视频在线观看| 久久亚洲欧洲| 中文字幕一区二区三| 欧美夫妻性生活| 欧美国产第一页| 精品国产一区二区三区四区精华 | 秋霞成人午夜伦在线观看| 国产天堂亚洲国产碰碰| 欧美日本在线看| 欧美二区乱c黑人| 精品一区二区国产| 亚洲色图久久久| 日韩高清dvd碟片| 亚洲精品综合久久| 国产午夜精品美女毛片视频| 欧美日韩的一区二区| 欧美巨猛xxxx猛交黑人97人| 精品高清视频| 在线黄色免费观看| 国产精品999久久久| 日本怡春院一区二区| 亚洲激情五月婷婷| 亚洲国产一区自拍| 国产精品自在线| 欧美狂野激情性xxxx在线观| 久久久久国产精品区片区无码| 日韩熟女一区二区| 国产不卡视频一区二区三区| 色综合久久天天综合网| 亚洲午夜未删减在线观看| 亚洲一区二区三区香蕉| 国产高清精品在线观看| 裸体武打性艳史| 丝袜美腿亚洲色图| 一区二区三区鲁丝不卡| 国产一区二区三区丝袜| 国产福利久久精品| 在线观看国产一级片| 日韩美女黄色片| 激情小说亚洲一区| 日韩欧美精品中文字幕| 美日韩精品视频免费看| 手机成人在线| 人妻丰满熟妇av无码久久洗澡| 91超薄丝袜肉丝一区二区| 91捆绑美女网站| 日韩欧美一区二区三区在线| 国产精品久久久久久久午夜| 成年人午夜免费视频| 亚洲熟女毛茸茸| 日本不卡一区二区| 偷拍一区二区三区| 久久99国产精品自在自在app| 日韩精品一线二线三线| 制服丝袜在线第一页| 国产视频一区二区三区四区五区| 中文字幕精品—区二区四季| 亚洲精品小视频| 国产无套精品一区二区| 可以看的av网址| 国产精品久久久久久久久毛片 | 精品国产sm最大网站免费看| 国产精品久久久久久久久免费看 | 一区二区三区免费网站| 自拍偷拍亚洲欧美| 日韩精品一区二区三区丰满 | 日本黄色特级片| 囯产精品久久久久久| 伊人色综合久久天天人手人婷| 神马国产精品影院av| 日韩欧美一区二区三区四区五区| 亚洲天堂网一区二区| 香蕉人妻av久久久久天天| 天天综合日日夜夜精品| 97精品视频在线| 欧美日韩性生活片| 国产成人在线观看网站| 97久久精品人人爽人人爽蜜臀| 91精品久久久久久蜜臀| 成人精品一区二区三区| 亚洲精品第三页| 国产露脸国语对白在线| 亚洲黄色性网站| 欧美日本高清视频| 波多野结衣av一区二区全免费观看| 国产大学生自拍| 成人午夜电影久久影院| 亚洲精品videossex少妇| 精品一区二区国产| 三上悠亚影音先锋| 久久99久久99小草精品免视看| 欧美日韩国产不卡| 亚洲jizzjizz日本少妇| 一起草最新网址| www.国产.com| 欧美性猛交xxxx乱大交3| 日韩av免费一区| 亚洲精品视频导航| 国产伦精品一区二区三区四区| 亚洲少妇最新在线视频| 欧美肥老妇视频| 日韩欧美国产综合在线| youjizz在线视频| 中文字幕日韩精品一区| 欧美猛男性生活免费| 国产精品无码人妻一区二区在线 | 日韩视频在线观看一区| 国产精品人人做人人爽人人添| 精品国偷自产在线视频| 黄色一级片黄色| 一级成人黄色片| 亚洲精品国产无天堂网2021 | 午夜精品久久久久久久无码| 波多野结衣一本一道| 亚洲三级久久久| 97精品国产91久久久久久| 狠狠操精品视频| 国产农村老头老太视频| 欧美日韩综合视频| 国产在线观看不卡| 中文成人无字幕乱码精品区| 美腿丝袜亚洲三区| 91精品国产欧美一区二区成人| av一区二区三区四区电影| 制服 丝袜 综合 日韩 欧美| 国产福利91精品| 亚洲视频一区二区三区| 亚洲国产一二三精品无码| 色屁屁影院www国产高清麻豆| 亚洲欧洲综合另类在线| 欧美一级高清免费播放| 天天久久综合网| 久久最新视频| 精品免费视频一区二区| 五月天亚洲综合小说网| 亚洲国产综合久久| 亚洲麻豆国产自偷在线| 国产成人精品一区二区| 亚洲国产精品狼友在线观看| 久久精品国内一区二区三区| 日韩成人在线视频网站| 蜜臀在线免费观看| 国产精品久久久久久久久夜色| 亚洲专区一二三| 国产精品男人的天堂| 国产精品入口麻豆| 国产精品一区二区在线观看不卡| 亚洲欧美中文在线视频| 免费网站在线观看视频| 6—12呦国产精品| 欧美在线视频日韩| 精品日韩电影| 久久亚洲AV无码| 亚洲蜜臀av乱码久久精品蜜桃| 国产成人中文字幕| 亚洲中文字幕无码一区| 国产激情视频一区二区三区欧美 | 久久久久久少妇| 香港成人在线视频| 99r国产精品视频| 亚洲欧美精品aaaaaa片| 中文字幕免费不卡| 国产成人精品网站| 四虎国产精品成人免费入口| www国产成人| 91av在线影院| 亚洲制服丝袜在线播放| 不卡电影免费在线播放一区| 欧美老妇交乱视频| 久久久久久久久久毛片| 国产在线一区观看| 日韩中文综合网| 777一区二区| 黄一区二区三区| 久久精品视频在线播放| 在线观看免费视频高清游戏推荐| 青青草成人在线观看| 中文字幕亚洲一区二区三区| 北条麻妃视频在线| 蜜桃视频在线观看一区| 亚洲天堂网站在线观看视频| 久久久久久久久久久久久久国产| 老司机精品导航| 国产一区二区日韩精品欧美精品| 亚洲中文字幕久久精品无码喷水| 秋霞影院一区二区| 日韩中文有码在线视频| 国产亚洲视频一区| 国产成人在线免费观看| 欧美大片免费观看| 国产激情第一页| 久久久久久久久免费| 国产成人一区二区三区| 欧洲性xxxx| 亚洲精品视频在线看| 国产91亚洲精品一区二区三区| 精品无码一区二区三区电影桃花| 婷婷六月综合亚洲| 免费国产一区二区| 亚洲天堂av片| 欧美日韩大陆在线| av久久久久久| 四虎免费在线观看| 中文字幕亚洲欧美| 亚洲精品无码久久久久久久| 成人91在线观看| 人人爽久久涩噜噜噜网站| 中文字幕有码在线播放| 亚洲免费在线观看| 国产一区福利视频| 久操视频在线免费观看| 日韩欧美在线综合网| jizzjizz国产精品喷水| 久久国产福利国产秒拍| 欧美激情一级二级| av网站免费在线看| 一区二区三区国产精品| 久久综合一区二区三区| 91tv国产成人福利| 日韩经典中文字幕| 九九热99视频| 99re这里都是精品| 国产一区欧美二区三区| 日本视频www| 欧美日韩黄色一区二区| 999一区二区三区| 久久成人综合网| 91国产在线精品| 九九热视频在线免费观看| 大桥未久av一区二区三区| 在线成人性视频| 香港三日本三级少妇66| 久久成人av网站| 无码人妻精品一区二区中文| 一区二区三区免费在线观看| 日本亚洲欧洲精品| 亚洲国产精品国自产拍久久| 中文字幕久久久av一区| 精品人妻一区二区三区日产| 国产精品美女www爽爽爽| 国产三区二区一区久久| 亚洲天堂手机在线| 亚洲欧美在线x视频| 久久久久亚洲av无码网站| 国产欧美一区二区精品久导航 | 久久久精品网| 九九久久精品一区| 美国黑人一级大黄| 欧美三级免费观看| 国产在线视频在线| 韩国理伦片一区二区三区在线播放| 性色av一区二区三区红粉影视| 三级黄色录像视频| 欧美主播一区二区三区| 国产传媒欧美日韩成人| 91精品国产三级| 亚洲色婷婷久久精品av蜜桃| 亚洲精品美女久久| 国产suv精品一区二区69| 欧性猛交ⅹxxx乱大交| 日韩影院免费视频| 精品国产区一区二| 久久丁香综合五月国产三级网站| 久久蜜桃一区二区| 一区二区三区成人| 色天天综合色天天久久| 色综合一区二区三区| 精品黑人一区二区三区久久| 精品久久人人做人人爽| 一区二区三区视频观看| 久久久久久久爱| 国产精品对白刺激| 久久精品中文字幕一区二区三区| 三区精品视频观看| 日韩欧美亚洲v片| 黄频视频在线观看| 精品欧美一区免费观看α√| 久久久久免费精品| 黄色a级三级三级三级| 在线天堂www在线国语对白| 日韩 欧美 综合| 亚洲精品国产av| 久久99精品国产麻豆婷婷 | 狠狠久久五月精品中文字幕| 欧美xxxxx牲另类人与| 中国人与牲禽动交精品| 国产成人精品av| 国产精品一区二区三区不卡| 日韩高清av| 天天爽人人爽夜夜爽| 一道本在线观看| 久久中文字幕无码| 亚洲va天堂va欧美ⅴa在线| 久久99精品久久只有精品| 国产激情精品久久久第一区二区 | 亚洲国内精品视频| 操日韩av在线电影| 国产精品综合久久久| 欧美视频免费看欧美视频| 这里只有久久精品| 中文字幕乱码无码人妻系列蜜桃| 久久99精品国产.久久久久久| 欧美日韩一区二区免费在线观看 | 国产日韩一区欧美| 国产精品自拍片| 岛国精品资源网站| 亚洲第一区av| 久久久久久久久久久电影| 欧美综合视频在线观看| 久久人人爽人人| 久久久久久久中文| 另类小说第一页| 亚洲视频在线观看免费视频| 国产精品一区二区在线播放| 亚洲国产美女搞黄色| 精品国产乱码久久久久久老虎| 国模视频一区二区三区| 日韩精品一区二区三区四区五区| 爱福利视频一区二区| 男人天堂资源网| 蜜乳av一区二区三区| 亚洲精品少妇30p| 国产午夜精品一区二区三区| 国模精品一区二区三区色天香| 久久av一区二区三区漫画| 日日摸日日碰夜夜爽av | 国产精品麻豆一区| www日本高清| a一级免费视频| 欧美熟妇乱码在线一区 | 亚洲精品成人在线| 久久精品视频免费播放| 欧美日韩一区综合| 污污免费在线观看| 成人无码一区二区三区| 午夜在线成人av| 欧美二区在线播放| 日韩中文字幕一区| 亚洲美女精品视频| 中文字幕精品无码一区二区| 91在线观看免费视频| 91麻豆精品国产91久久久资源速度 | 国产91综合网| 欧美亚男人的天堂| 国产成人精品在线播放| 大西瓜av在线| 亚洲视频重口味| 精品亚洲国产成人av制服丝袜| 欧美日韩国产精品一区| 欧美成人午夜免费视在线看片| 日韩性感在线| 大陆极品少妇内射aaaaa| 日韩av网站在线播放| 麻豆91小视频| 欧美色图在线观看| 亚洲网站在线播放| 日韩精品综合在线| 一级黄色a毛片| 亚洲一区在线看| 欧美一区第一页| 免费看污污网站| 国产av一区二区三区精品| 伊人色综合久久天天| 日本亚洲欧洲色α| 激情五月婷婷久久| 亚洲xxxx天美| 色婷婷亚洲综合| 国产精品一国产精品最新章节| 好吊色视频在线观看| 综合久久久久久| 国产精品日韩一区二区免费视频| 欧美日韩精品一区二区三区视频播放| 无码av中文一区二区三区桃花岛| 99在线国产| 超碰手机在线观看| 亚洲成人精品在线观看| 成人免费看片网站| 久久婷婷一区二区| 成人一区二区三区中文字幕| 久久天天躁日日躁| 日本特黄在线观看| 你懂的网站在线| 精品久久久久99| 免费观看中文字幕|