![]()
本研究由快手科技語言大模型團隊完成,核心作者蘇振鵬,潘雷宇等。快手語言大模型團隊聚焦在基礎(chǔ)語言大模型研發(fā)、Agent RL 等前沿技術(shù)創(chuàng)新等方向,積累務(wù)實的探索 AGI 的能力邊界,并不斷推進 AI 領(lǐng)域新技術(shù)和新產(chǎn)品的發(fā)展。此前,該團隊已開源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型,其中 Klear-Reasoner-8B 在數(shù)學(xué)和代碼的基準測試上達到了同參數(shù)級別模型的 SOTA 效果。
在大語言模型的后訓(xùn)練階段,強化學(xué)習(xí)已成為提升模型能力和對齊質(zhì)量的核心范式。然而,在廣泛采用的 off-policy 的訓(xùn)練范式中,更新當前策略的數(shù)據(jù)由舊的行為策略生成,導(dǎo)致分布漂移的問題的發(fā)生,這通常會將策略推至信任域之外,使強化學(xué)習(xí)的訓(xùn)練變得不穩(wěn)定。
盡管 PPO 通過重要性采樣的裁剪機制緩解了部分問題,但它僅能約束已采樣動作的概率變化,忽略了未采樣動作的全局分布漂移。為了應(yīng)對這些挑戰(zhàn),快手研究團隊提出了一種創(chuàng)新的熵比裁剪方法。該方法從全新的視角切入,通過約束策略熵的相對變化來穩(wěn)定全局分布,為強化學(xué)習(xí)訓(xùn)練提供了更加可靠的控制手段。
![]()
論文標題:Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning論文地址:https://arxiv.org/pdf/2512.05591
研究背景
強化學(xué)習(xí)訓(xùn)練過程中長期面臨信任域偏離的挑戰(zhàn)。目前,業(yè)界用于大模型的強化學(xué)習(xí)常采用 off-policy 訓(xùn)練范式,用于更新當前策略的數(shù)據(jù)由舊的行為策略生成,導(dǎo)致新舊策略之間存在分布漂移。主流方法通常采用重要性采樣來糾正此類偏差,但其固有的高方差可能導(dǎo)致更新步長不穩(wěn)定,仍存在信任域偏離的風(fēng)險。這種偏離具體表現(xiàn)為訓(xùn)練過程中梯度范數(shù)和策略熵的劇烈波動。
PPO 算法是解決信任域偏離問題的主流方案,主要有兩種形式:
PPO-penalty:在目標函數(shù)中加入 KL 散度懲罰項,對新舊策略的分布差異進行全局約束。但是懲罰系數(shù)非常敏感,且對每個動作概率施加逐點約束可能會抑制探索。PPO-Clip:通過將重要性采樣比率限制在固定區(qū)間內(nèi),形成局部信任域,裁剪過大的更新以降低方差。該方法更魯棒且易于調(diào)參,但其約束僅作用于已采樣的動作,未采樣的動作則完全不受約束。
隨著訓(xùn)練迭代的不斷進行,這部分未受約束的動作分布會持續(xù)漂移,最終威脅策略的穩(wěn)定性。例如,假設(shè)動作空間為 {a, b, c, d},舊策略的概率分布為 {0.85, 0, 0.15, 0},經(jīng)過多次迭代后,新策略的概率分布變?yōu)?{0.82, 0.064, 0.07, 0.046}。盡管采樣動作 a 的概率變化微小,PPO-Clip 不會觸發(fā)裁剪,但其余動作的分布已發(fā)生顯著偏移。
ERC 機制:從全局視角穩(wěn)定策略分布
受 PPO-clip 啟發(fā),論文提出了熵比裁剪(ERC)機制,當新舊策略間的熵變化超出允許范圍時,ERC 直接對樣本梯度進行截斷。ERC 并非取代 PPO-Clip,而是對其形成補充:PPO-Clip 僅約束采樣動作的局部更新幅度,而 ERC 將熵比限制在一個適中的區(qū)間內(nèi),從而緩解整體策略分布的漂移。
首先,論文提出了熵比指標,其被定義為新舊策略在同一 token 上熵的相對變化。具體的,它被形式化定義為下式:
![]()
不同于重要性采樣比率,熵比可以測量整個動作分布(包括未采樣動作)的變化,提供了對策略全局漂移的度量。另外,論文還對采樣動作概率與熵比的關(guān)系進行可視化,如下圖所示:
![]()
當采樣動作較低或者較高時,全局分布偏移變得更加明顯。
在將熵比作為策略分布的全局變化指標引入后,論文進一步將其集成到現(xiàn)有強化學(xué)習(xí)目標中,旨在約束新舊策略之間全局分布的變化。以 DAPO 為例,其 ERC 目標可形式化如下:
![]()
如果某個 token 的更新導(dǎo)致熵比超出預(yù)設(shè)范圍,ERC 會直接截斷其對應(yīng)的梯度,以防止全局分布和策略熵的劇烈波動。與在整個訓(xùn)練過程中持續(xù)限制策略的 KL 約束不同,熵比僅在新策略的熵發(fā)生顯著偏離時才被激活。這種方法既能防止策略分布的突然崩潰,又保留了足夠的探索能力。
實驗結(jié)果
為驗證 ERC 方法的穩(wěn)定性和性能上的有效性,論文在多個數(shù)學(xué)推理基準上進行了系統(tǒng)實驗,包括 AIME24、AIME25、HMMT25、MATH500 、AMC23 和 Olympiad。所有實驗均基于 DeepSeek-R1-Distill-Qwen 模型(1.5B 與 7B)進行訓(xùn)練。實驗結(jié)果如下表所示。
![]()
與現(xiàn)有的 RL 基線方法相比,集成 ERC 后,模型幾乎在所有基準測試上的性能都得到了一致提升。值得注意的是,在 AIME25 和 HMMT25 等更具挑戰(zhàn)性的基準上,性能增益更為顯著,凸顯了 ERC 在復(fù)雜推理場景中的強大潛力。此外,該方法在 1.5B 和 7B 兩種參數(shù)規(guī)模上均取得了一致的改進,進一步證明了其在不同模型容量下的魯棒性和可擴展性。
![]()
為了進一步驗證 ERC 對訓(xùn)練動態(tài)的影響,論文比較了不同方法下熵和梯度范數(shù)的演化過程,如上圖所示。傳統(tǒng)的裁剪方法在訓(xùn)練過程中常表現(xiàn)出較大的熵值波動和不穩(wěn)定的梯度。相比之下,ERC 引入了全局熵比約束,熵值軌跡和梯度范數(shù)更加穩(wěn)定,在基準上的評測結(jié)果也不斷提升。
深入分析:ERC 如何工作?
增強信任域約束
如下圖所示,ERC 的裁剪機制有效地強化了信任域約束。具體而言,被熵比邊界裁剪的 token 主要位于信任域的邊界附近。這表明,ERC 從全局分布的視角出發(fā),能夠識別并限制可能導(dǎo)致策略偏離的更新,而這些更新正是 PPO-Clip 的局部約束所忽略的。因此,ERC 與 PPO-Clip 以互補的方式協(xié)同工作,共同減輕信任域偏離,增強訓(xùn)練穩(wěn)定性。
![]()
通過 ERC 保持探索
為了理解 ERC 對模型探索行為的影響,論文分析了在訓(xùn)練中被熵比約束裁剪的 token 的熵分布,如下圖所示,大多數(shù)被 ERC 裁剪的 token 集中在低熵區(qū)域,而高熵 token 在優(yōu)化過程中通常被保留。這表明 ERC 優(yōu)先抑制那些過于確定性、信息增益有限的 token 的更新,而不會過度約束模型的探索動態(tài)。
![]()
裁剪比例分析
實驗結(jié)果顯示,ERC 引入的全局分布約束顯著提高了裁剪比例。PPO-Clip 下的裁剪比例通常保持在 0.02% 左右,而 ERC 將此數(shù)值提高了近三個數(shù)量級,達到約 20%。這種顯著差異源于兩種約束機制的根本不同:PPO-Clip 僅調(diào)控局部采樣動作的重要性比率,越界情況本就罕見;而 ERC 超越了這種局部約束,通過熵比融入了全局分布信號,使其能夠識別并裁剪大量在全局分布層面偏離信任區(qū)域的 token 更新。
盡管 ERC 的裁剪比例顯著更高,但其在最終性能和訓(xùn)練穩(wěn)定性上均持續(xù)超越 PPO-Clip 基線。這個看似違反直覺的結(jié)果揭示了一個關(guān)鍵見解:ERC 主要移除了那些會使訓(xùn)練不穩(wěn)定的噪聲更新。被 ERC 裁剪的 token 大多集中在低熵區(qū)域,這表明 ERC 抑制了過于確定性且可能有害的更新,同時保留了模型在其他地方的探索行為。
對比與泛化能力
論文還將 ERC 與其他穩(wěn)定方法進行了對比,并驗證了其在其他強化學(xué)習(xí)算法中的泛化能力。
與 KL 正則化的對比:ERC 在 AIME24 和 AIME25 基準上均優(yōu)于 PPO-penalty(即 KL 正則化方法)。KL 散度施加的是逐點約束,要求新舊策略對每個動作的概率分布都保持接近,這種嚴格的局部調(diào)控雖然可以穩(wěn)定訓(xùn)練,但不可避免地限制了有效的策略探索。而 ERC 實現(xiàn)了分布層面的軟約束,通過監(jiān)控熵比來關(guān)注整體策略分布的演變,在維持訓(xùn)練穩(wěn)定性的同時鼓勵更高效的探索。與熵正則化的對比:ERC 的表現(xiàn)顯著優(yōu)于在強化學(xué)習(xí)訓(xùn)練中直接加入熵懲罰項的方法。熵正則化只能緩解單向的不穩(wěn)定性(熵崩塌),而 ERC 的雙向裁剪機制能有效應(yīng)對策略演化中熵值波動的兩個方向,確保策略的探索行為在合理可控的范圍內(nèi)平穩(wěn)演變。與序列級裁剪(GSPO)的對比:在 DeepSeek-R1-Distill-Qwen-7B 上的實驗表明,結(jié)合了 PPO-Clip 和 ERC 的 token 級裁剪方法相較于序列級裁剪方法(如 GSPO)仍具有明顯優(yōu)勢。值得注意的是,ERC 與序列級裁剪是正交的,可以同時使用。更廣泛的適用性:除了 DAPO,論文還將 ERC 與 GPPO 方法結(jié)合。實驗表明,將 ERC 集成到 GPPO 中同樣能帶來一致的性能提升,為 ERC 在不同 RL 算法中的普遍有效性提供了有力證據(jù)。這表明 ERC 不僅是現(xiàn)有重要性比率裁剪技術(shù)的補充組件,也有潛力作為一個獨立且魯棒的約束機制來穩(wěn)定策略優(yōu)化。





京公網(wǎng)安備 11011402013531號