亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

快手提出熵比裁剪方法,從局部約束到全局穩(wěn)定的關(guān)鍵一躍

IP屬地 中國·北京 機器之心Pro 時間:2025-12-16 20:16:04



本研究由快手科技語言大模型團隊完成,核心作者蘇振鵬,潘雷宇等。快手語言大模型團隊聚焦在基礎(chǔ)語言大模型研發(fā)、Agent RL 等前沿技術(shù)創(chuàng)新等方向,積累務(wù)實的探索 AGI 的能力邊界,并不斷推進 AI 領(lǐng)域新技術(shù)和新產(chǎn)品的發(fā)展。此前,該團隊已開源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型,其中 Klear-Reasoner-8B 在數(shù)學(xué)和代碼的基準測試上達到了同參數(shù)級別模型的 SOTA 效果。

在大語言模型的后訓(xùn)練階段,強化學(xué)習(xí)已成為提升模型能力和對齊質(zhì)量的核心范式。然而,在廣泛采用的 off-policy 的訓(xùn)練范式中,更新當前策略的數(shù)據(jù)由舊的行為策略生成,導(dǎo)致分布漂移的問題的發(fā)生,這通常會將策略推至信任域之外,使強化學(xué)習(xí)的訓(xùn)練變得不穩(wěn)定。

盡管 PPO 通過重要性采樣的裁剪機制緩解了部分問題,但它僅能約束已采樣動作的概率變化,忽略了未采樣動作的全局分布漂移。為了應(yīng)對這些挑戰(zhàn),快手研究團隊提出了一種創(chuàng)新的熵比裁剪方法。該方法從全新的視角切入,通過約束策略熵的相對變化來穩(wěn)定全局分布,為強化學(xué)習(xí)訓(xùn)練提供了更加可靠的控制手段。



論文標題:Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning論文地址:https://arxiv.org/pdf/2512.05591

研究背景

強化學(xué)習(xí)訓(xùn)練過程中長期面臨信任域偏離的挑戰(zhàn)。目前,業(yè)界用于大模型的強化學(xué)習(xí)常采用 off-policy 訓(xùn)練范式,用于更新當前策略的數(shù)據(jù)由舊的行為策略生成,導(dǎo)致新舊策略之間存在分布漂移。主流方法通常采用重要性采樣來糾正此類偏差,但其固有的高方差可能導(dǎo)致更新步長不穩(wěn)定,仍存在信任域偏離的風(fēng)險。這種偏離具體表現(xiàn)為訓(xùn)練過程中梯度范數(shù)和策略熵的劇烈波動。

PPO 算法是解決信任域偏離問題的主流方案,主要有兩種形式:

PPO-penalty:在目標函數(shù)中加入 KL 散度懲罰項,對新舊策略的分布差異進行全局約束。但是懲罰系數(shù)非常敏感,且對每個動作概率施加逐點約束可能會抑制探索。PPO-Clip:通過將重要性采樣比率限制在固定區(qū)間內(nèi),形成局部信任域,裁剪過大的更新以降低方差。該方法更魯棒且易于調(diào)參,但其約束僅作用于已采樣的動作,未采樣的動作則完全不受約束。

隨著訓(xùn)練迭代的不斷進行,這部分未受約束的動作分布會持續(xù)漂移,最終威脅策略的穩(wěn)定性。例如,假設(shè)動作空間為 {a, b, c, d},舊策略的概率分布為 {0.85, 0, 0.15, 0},經(jīng)過多次迭代后,新策略的概率分布變?yōu)?{0.82, 0.064, 0.07, 0.046}。盡管采樣動作 a 的概率變化微小,PPO-Clip 不會觸發(fā)裁剪,但其余動作的分布已發(fā)生顯著偏移。

ERC 機制:從全局視角穩(wěn)定策略分布

受 PPO-clip 啟發(fā),論文提出了熵比裁剪(ERC)機制,當新舊策略間的熵變化超出允許范圍時,ERC 直接對樣本梯度進行截斷。ERC 并非取代 PPO-Clip,而是對其形成補充:PPO-Clip 僅約束采樣動作的局部更新幅度,而 ERC 將熵比限制在一個適中的區(qū)間內(nèi),從而緩解整體策略分布的漂移。

首先,論文提出了熵比指標,其被定義為新舊策略在同一 token 上熵的相對變化。具體的,它被形式化定義為下式:



不同于重要性采樣比率,熵比可以測量整個動作分布(包括未采樣動作)的變化,提供了對策略全局漂移的度量。另外,論文還對采樣動作概率與熵比的關(guān)系進行可視化,如下圖所示:



當采樣動作較低或者較高時,全局分布偏移變得更加明顯。

在將熵比作為策略分布的全局變化指標引入后,論文進一步將其集成到現(xiàn)有強化學(xué)習(xí)目標中,旨在約束新舊策略之間全局分布的變化。以 DAPO 為例,其 ERC 目標可形式化如下:



如果某個 token 的更新導(dǎo)致熵比超出預(yù)設(shè)范圍,ERC 會直接截斷其對應(yīng)的梯度,以防止全局分布和策略熵的劇烈波動。與在整個訓(xùn)練過程中持續(xù)限制策略的 KL 約束不同,熵比僅在新策略的熵發(fā)生顯著偏離時才被激活。這種方法既能防止策略分布的突然崩潰,又保留了足夠的探索能力。

實驗結(jié)果

為驗證 ERC 方法的穩(wěn)定性和性能上的有效性,論文在多個數(shù)學(xué)推理基準上進行了系統(tǒng)實驗,包括 AIME24、AIME25、HMMT25、MATH500 、AMC23 和 Olympiad。所有實驗均基于 DeepSeek-R1-Distill-Qwen 模型(1.5B 與 7B)進行訓(xùn)練。實驗結(jié)果如下表所示。



與現(xiàn)有的 RL 基線方法相比,集成 ERC 后,模型幾乎在所有基準測試上的性能都得到了一致提升。值得注意的是,在 AIME25 和 HMMT25 等更具挑戰(zhàn)性的基準上,性能增益更為顯著,凸顯了 ERC 在復(fù)雜推理場景中的強大潛力。此外,該方法在 1.5B 和 7B 兩種參數(shù)規(guī)模上均取得了一致的改進,進一步證明了其在不同模型容量下的魯棒性和可擴展性。



為了進一步驗證 ERC 對訓(xùn)練動態(tài)的影響,論文比較了不同方法下熵和梯度范數(shù)的演化過程,如上圖所示。傳統(tǒng)的裁剪方法在訓(xùn)練過程中常表現(xiàn)出較大的熵值波動和不穩(wěn)定的梯度。相比之下,ERC 引入了全局熵比約束,熵值軌跡和梯度范數(shù)更加穩(wěn)定,在基準上的評測結(jié)果也不斷提升。

深入分析:ERC 如何工作?

增強信任域約束

如下圖所示,ERC 的裁剪機制有效地強化了信任域約束。具體而言,被熵比邊界裁剪的 token 主要位于信任域的邊界附近。這表明,ERC 從全局分布的視角出發(fā),能夠識別并限制可能導(dǎo)致策略偏離的更新,而這些更新正是 PPO-Clip 的局部約束所忽略的。因此,ERC 與 PPO-Clip 以互補的方式協(xié)同工作,共同減輕信任域偏離,增強訓(xùn)練穩(wěn)定性。



通過 ERC 保持探索

為了理解 ERC 對模型探索行為的影響,論文分析了在訓(xùn)練中被熵比約束裁剪的 token 的熵分布,如下圖所示,大多數(shù)被 ERC 裁剪的 token 集中在低熵區(qū)域,而高熵 token 在優(yōu)化過程中通常被保留。這表明 ERC 優(yōu)先抑制那些過于確定性、信息增益有限的 token 的更新,而不會過度約束模型的探索動態(tài)。



裁剪比例分析

實驗結(jié)果顯示,ERC 引入的全局分布約束顯著提高了裁剪比例。PPO-Clip 下的裁剪比例通常保持在 0.02% 左右,而 ERC 將此數(shù)值提高了近三個數(shù)量級,達到約 20%。這種顯著差異源于兩種約束機制的根本不同:PPO-Clip 僅調(diào)控局部采樣動作的重要性比率,越界情況本就罕見;而 ERC 超越了這種局部約束,通過熵比融入了全局分布信號,使其能夠識別并裁剪大量在全局分布層面偏離信任區(qū)域的 token 更新。

盡管 ERC 的裁剪比例顯著更高,但其在最終性能和訓(xùn)練穩(wěn)定性上均持續(xù)超越 PPO-Clip 基線。這個看似違反直覺的結(jié)果揭示了一個關(guān)鍵見解:ERC 主要移除了那些會使訓(xùn)練不穩(wěn)定的噪聲更新。被 ERC 裁剪的 token 大多集中在低熵區(qū)域,這表明 ERC 抑制了過于確定性且可能有害的更新,同時保留了模型在其他地方的探索行為。

對比與泛化能力

論文還將 ERC 與其他穩(wěn)定方法進行了對比,并驗證了其在其他強化學(xué)習(xí)算法中的泛化能力。

與 KL 正則化的對比:ERC 在 AIME24 和 AIME25 基準上均優(yōu)于 PPO-penalty(即 KL 正則化方法)。KL 散度施加的是逐點約束,要求新舊策略對每個動作的概率分布都保持接近,這種嚴格的局部調(diào)控雖然可以穩(wěn)定訓(xùn)練,但不可避免地限制了有效的策略探索。而 ERC 實現(xiàn)了分布層面的軟約束,通過監(jiān)控熵比來關(guān)注整體策略分布的演變,在維持訓(xùn)練穩(wěn)定性的同時鼓勵更高效的探索。與熵正則化的對比:ERC 的表現(xiàn)顯著優(yōu)于在強化學(xué)習(xí)訓(xùn)練中直接加入熵懲罰項的方法。熵正則化只能緩解單向的不穩(wěn)定性(熵崩塌),而 ERC 的雙向裁剪機制能有效應(yīng)對策略演化中熵值波動的兩個方向,確保策略的探索行為在合理可控的范圍內(nèi)平穩(wěn)演變。與序列級裁剪(GSPO)的對比:在 DeepSeek-R1-Distill-Qwen-7B 上的實驗表明,結(jié)合了 PPO-Clip 和 ERC 的 token 級裁剪方法相較于序列級裁剪方法(如 GSPO)仍具有明顯優(yōu)勢。值得注意的是,ERC 與序列級裁剪是正交的,可以同時使用。更廣泛的適用性:除了 DAPO,論文還將 ERC 與 GPPO 方法結(jié)合。實驗表明,將 ERC 集成到 GPPO 中同樣能帶來一致的性能提升,為 ERC 在不同 RL 算法中的普遍有效性提供了有力證據(jù)。這表明 ERC 不僅是現(xiàn)有重要性比率裁剪技術(shù)的補充組件,也有潛力作為一個獨立且魯棒的約束機制來穩(wěn)定策略優(yōu)化。

免責聲明:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。

国产精品羞羞答答| 亚洲不卡在线观看| 久久久成人av| 99热99热| 久久99国产综合精品免费| 亚洲精品国精品久久99热一| 制服.丝袜.亚洲.中文.综合懂| av在线亚洲天堂| 色欧美片视频在线观看在线视频| 国产手机精品在线| 久久免费精品国产| 国产激情av在线| 美女脱光内衣内裤视频久久网站 | 尤物九九久久国产精品的特点| 亚洲欧美自偷自拍| 男人日女人逼逼| 欧美精品久久久久久久多人混战 | 亚洲欧洲黄色网| 亚洲a v网站| 日韩精品一区二区在线观看| 欧美日韩一区二区视频在线观看| 不卡av在线免费观看| 少妇久久久久久久久久| 色综合欧美在线视频区| 亚洲一区二区三区成人在线视频精品 | 国产精品萝li| 亚洲国产私拍精品国模在线观看| 高潮无码精品色欲av午夜福利| 国产一区玩具在线观看| 国产成人精品在线看| 黄色网zhan| 国产精品免费免费| 欧美做受高潮中文字幕| 亚洲福利视频一区二区| 国产一区 在线播放| 亚洲人成亚洲人成在线观看| 国产伦精品一区二区三区免.费| 精品在线一区| 亚洲精品大片www| 国内精品400部情侣激情| 国产婷婷一区二区| 国产无遮挡裸体免费视频| 国产精品视频精品| 国产精品欧美久久久久一区二区| 蜜桃传媒视频麻豆一区| 国产精品人成在线观看免费| 国产女主播在线播放| 欧美国产日韩亚洲一区| 妺妺窝人体色777777| 国产不卡av在线| 国产a久久麻豆| 18禁一区二区三区| 一区二区欧美在线| 日韩在线视频免费播放| 国产精品免费无遮挡| 精品一卡二卡三卡四卡日本乱码| 伊人成年综合网| 久久久久久亚洲精品| 久久一日本道色综合| 色婷婷一区二区三区av免费看| 色一区在线观看| 不卡av免费在线| 日本一区二区三区在线观看| 亚洲美女爱爱视频| 色老汉av一区二区三区| 国产视频一区二区不卡| 中文字幕网址在线| 91精品国产高清自在线| 永久看片925tv| 成人精品免费网站| 欧美成人性色生活仑片| 久青草视频在线播放| 91麻豆精品成人一区二区| 亚洲欧洲日韩av| 999视频在线观看| 成人午夜视频福利| 天天干在线影院| 日韩一区二区欧美| 97人人爽人人| 懂色av一区二区三区免费观看| 国产美女99p| a级高清视频欧美日韩| 水蜜桃一区二区| 日韩一区二区三区高清免费看看| www.天天射.com| 一本大道综合伊人精品热热| 手机在线免费毛片| 超碰caoprom| 精品久久人人做人人爰| 欧美xxxx黑人又粗又长精品| 扒开伸进免费视频| 国产精品系列在线观看| 免费看黄色的视频| 国产精品久久久一区麻豆最新章节| 日本精品一区二区三区在线| 久久精品国产77777蜜臀| 自拍偷拍亚洲欧美| 日韩黄色免费网站| 99精品人妻少妇一区二区| 日韩精品在线观看一区| 亚洲国产精品成人久久蜜臀| 国产午夜大地久久| 国产亚洲人成a一在线v站| 国产一卡二卡三卡| 精品国产一区二区三区久久久| 在线不卡中文字幕播放| 日韩欧美卡一卡二| 欧美videofree性高清杂交| 精品乱人伦小说| 亚洲人永久免费| 永久555www成人免费| 欧美成人激情视频| 欧美在线视频一二三| 亚洲成人网久久久| 色婷婷国产精品综合在线观看| 自拍偷拍欧美激情| 国产精品国产馆在线真实露脸 | 日韩精品一区二区三区四区 | 久久99国产精品久久| 日本一区二区黄色| 亚洲日本欧美日韩高观看| 日本激情一区二区三区| 久青草视频在线播放| 亚洲精品综合久久中文字幕| 欧美在线 | 亚洲| 日韩视频第二页| 中文亚洲视频在线| 国产成人精品一区二区三区网站观看 | 亚洲乱码av中文一区二区| 久久久久99| 五月天婷婷亚洲| 欧美成人午夜激情视频| av电影在线观看一区| 国产一二三四五区| 成人免费福利在线| 懂色aⅴ精品一区二区三区蜜月| 丁香六月婷婷综合| 亚洲一区二区三区午夜| 精品久久人人做人人爱| 日韩黄色在线观看| 97精品人人妻人人| 国产精品劲爆视频| 亚洲综合免费观看高清在线观看 | 精品人妻无码一区二区三区蜜桃一| 欧美人成在线观看| www亚洲欧美| 久久久久99精品国产片| 国模无码国产精品视频| 亚洲高清视频一区二区| 日韩www在线| 国产激情一区二区三区| 一级黄色片网址| 久久99热只有频精品91密拍| 91精品福利在线一区二区三区| 五月天激情开心网| 99精品一区二区三区无码吞精| 国产在线观看精品| 欧美日韩三级视频| 日韩经典一区二区| 西西444www无码大胆| 久久www免费人成精品| 精品黑人一区二区三区久久| 国产激情精品久久久第一区二区| 精品一区二区三区蜜桃在线| 另类视频在线观看+1080p| 亚洲第一中文字幕在线观看| 粉嫩aⅴ一区二区三区四区| 日本中文在线视频| 超薄肉色丝袜足j调教99| 久久久精品一区二区| 最新日韩av在线| 国产精品一区二区av白丝下载| 在线观看免费不卡av| 91欧美激情另类亚洲| 日韩美女视频在线| 9色porny自拍视频一区二区| 国产无遮挡aaa片爽爽| 精品中文字幕av| 国产精品www网站| 91精品综合久久久久久| 成人精品一区二区三区四区| 黄网站免费在线| 99久久久无码国产精品6| 国产精品久久久久久亚洲调教| 在线免费视频一区二区| 狠狠色丁香九九婷婷综合五月| 永久免费看片直接| www在线观看免费| 国产精品久久视频| 欧美大片拔萝卜| 久久精品人人做人人综合| 中文字幕乱码一区二区| 色悠悠在线视频| 色综合久久久久久久久五月| 欧美高清在线观看| 欧美视频在线观看一区| 99麻豆久久久国产精品免费| 欧美 亚洲 另类 激情 另类| 亚洲一区二区三区三州| 日韩一区免费观看| 97免费视频在线| 欧美一级片免费看| 久久精品亚洲一区二区三区浴池| 一区二区三区精彩视频| av无码av天天av天天爽| 永久免费看av| 国产精品第七影院| 亚洲精品国产精品自产a区红杏吧| 国产精品久线在线观看| 天堂在线资源网| 欧美丰满熟妇bbbbbb| 在线观看的毛片| 蜜桃在线一区二区三区精品| 欧美国产视频日韩| 欧美一区二区三区影视| 国产精品无码永久免费888| 无码国产精品一区二区色情男同| 999福利视频| www.色偷偷.com| 欧美日韩日本网| 秋霞av国产精品一区| 亚洲国产成人久久综合| 亚洲一区二区三区国产| 国产一区二区免费在线| 中文字幕在线观看视频一区| 男人舔女人下部高潮全视频| 国产成人精品视频免费看| 精品日产一区2区三区黄免费| 久久久久久97| 亚洲国产成人在线播放| 欧美日韩中文在线| 久久久久国产免费免费| 日韩影院精彩在线| 波多野结衣理论片| 人妻无码一区二区三区免费| 污视频网址在线观看| 国产又粗又大又爽的视频| 成人黄色片视频网站| 69视频在线免费观看| 亚洲欧美日韩一区二区在线| 欧美调教femdomvk| 亚洲视频每日更新| av亚洲精华国产精华| 久久九九精品| www.av88| 国产亚洲精品久久久久久打不开| 日韩av无码一区二区三区不卡| 日韩欧美亚洲天堂| 亚洲mv在线看| 国产精华一区| 国产精品久久久久一区二区| 欧美日韩不卡合集视频| 亚洲人成网7777777国产| 51久久夜色精品国产麻豆| 亚洲国产日韩精品| 中文字幕精品一区| 成人精品视频一区| 激情久久久久久久久久久久久久久久| av网站在线免费看| 国产黄色免费视频| 男人天堂中文字幕| 欧美日韩午夜视频| jizz中文字幕| 色综合久久久无码中文字幕波多| av网址在线观看免费| 97av中文字幕| 亚洲欧洲日韩精品| 欧美精品一区二区三区在线看午夜| 成人h猎奇视频网站| 日韩美女视频免费看| 国外视频精品毛片| 久久99精品国产99久久6尤物| 在线观看欧美日韩| 亚洲美女又黄又爽在线观看| 日韩精品中文字幕一区二区三区 | 久久99精品国产麻豆婷婷| 污污的视频网站在线观看| 国产哺乳奶水91在线播放| 中文字幕乱伦视频| 99久久久久久久久| 国产成人无码精品久在线观看| 亚洲色图综合区| 极品久久久久久| 91视频免费在线看| 欧美精品xxxxx| 久久99久久久| 国产精品suv一区二区| 国产无遮挡免费视频| 日韩精品视频免费播放| 亚洲免费黄色网址| 亚洲精品国产无码| 91精品国产乱码久久| 夜夜狠狠擅视频| 精品人妻一区二区三区换脸明星| 国产成人精品av在线观| 亚洲免费成人网| 亚洲三区在线播放| 日产国产高清一区二区三区| 麻豆精品精品国产自在97香蕉| 开心九九激情九九欧美日韩精美视频电影| 久久精品国产清高在天天线| 日本中文字幕一区| 国产一区二三区好的| 成人妖精视频yjsp地址| 久久综合九色综合欧美就去吻 | 欧美一区观看| 亚洲精品国产精品国自产| 一区二区高清视频| 国产人妻777人伦精品hd| 18岁视频在线观看| 制服下的诱惑暮生| 国产ts在线播放| caoporn91| 美女又爽又黄免费视频| 国产又粗又猛又黄又爽| 日本高清视频网站| 国产专区欧美精品| 91蜜桃免费观看视频| 最新国产成人在线观看| 都市激情亚洲色图| 日韩欧美亚洲国产精品字幕久久久| 亚洲经典中文字幕| 久久精品视频导航| 国产97在线亚洲| 国产精品久久久一区二区三区| 欧美日韩综合久久| 久久久久久人妻一区二区三区| 99视频在线免费| 亚洲欧美色图视频| 久久久久亚洲av成人片| 欧美另类高清videos的特点| 免费国产黄色片| 国内久久精品视频| 中文字幕一区二区在线观看| 日本韩国欧美三级| 精品亚洲永久免费精品| 久久免费国产视频| 国产激情美女久久久久久吹潮| 国产精品亚洲天堂| 亚洲一级片av| 91 在线视频| 国产黄色大片网站| 国产大陆a不卡| 夜夜精品浪潮av一区二区三区| 欧美一卡2卡3卡4卡| 免费不卡在线观看av| 99国产盗摄| 欧美一级视频免费看| 无码成人精品区在线观看| 国产精品日日夜夜| 香蕉视频网站在线| 国产日产亚洲精品系列| 欧美少妇xxx| 久久好看免费视频| 91精品中国老女人| www.国产在线播放| 天天插天天射天天干| 亚洲国产成人精品女人久久| 蜜臀久久久99精品久久久久久| 久久久91精品国产一区二区精品 | 2024国产精品| 欧美性xxxxxxxx| 欧美插天视频在线播放| 操一操视频一区| 欧美 激情 在线| 亚洲a∨无码无在线观看| 国产精品久久777777换脸| 成人性生交大片免费看中文 | 丰满少妇乱子伦精品看片| 亚洲av成人无码久久精品老人 | 米奇777在线欧美播放| 欧美高清在线一区| 日韩区在线观看| 全球成人中文在线| 2021国产视频| 亚洲精品女人久久久| 中文字幕久久网| 久久先锋影音av鲁色资源网| 欧美日韩成人激情| 98精品在线视频| avove在线观看| 97在线观看免费视频| 黄色av小说在线观看| 亚洲图片你懂的| 日韩激情视频在线| 91视频婷婷| 99热一区二区| 国产99免费视频| 91亚洲资源网| 欧美成人猛片aaaaaaa| 国产乱肥老妇国产一区二 | 国产原创剧情av| 亚洲网站在线免费观看| 久久久五月婷婷| 日韩成人中文电影| 国产精品二区二区三区| 中文字幕资源在线观看| 青青艹在线观看| 久久精品视频在线免费观看| 日韩精品极品视频免费观看| 国产传媒一区二区三区| 四虎国产精品永久免费观看视频| 真实的国产乱xxxx在线91| 国产精品你懂的在线欣赏| 一本色道久久综合亚洲精品小说| 精品综合久久久| 国产精品1000部啪视频| 丝袜a∨在线一区二区三区不卡| 色婷婷综合五月| 国产精品日韩欧美|