從繁雜技巧到極簡方案：ROLL團隊帶來RL4LLM新實踐

IP屬地中國·北京 編輯：趙云飛機器之心Pro 時間：2025-08-22 16:23:48

本研究由淘天集團算法技術—未來生活實驗室與愛橙科技智能引擎事業部聯合完成，核心作者劉子賀，劉嘉順，賀彥程和王維塤等。未來生活實驗室匯聚淘天集團的算力、數據與頂尖技術人才，專注于大模型、多模態等前沿 AI 方向，致力于打造基礎算法、模型能力及各類 AI Native 應用，引領 AI 在生活消費領域的技術創新。愛橙科技則在大模型訓練與優化方面具有豐富的實踐經驗。雙方此前聯合開源了高效大模型強化學習訓練框架 ROLL，此次論文工作同樣是基于 ROLL 框架的實踐探索。
近年來，強化學習（Reinforcement Learning, RL）在提升大語言模型（LLM）復雜推理能力方面展現出顯著效果，廣泛應用于數學解題、代碼生成等任務。通過 RL 微調的模型常在推理性能上超越僅依賴監督微調或預訓練的模型。也因此催生了大量的相關研究。但隨之而來的，是一系列令人困惑的現象：不同研究提出了不同的 RL 優化技巧，卻缺乏統一的實驗對比和機制解釋，有的甚至得出相互矛盾的結論。對于研究者和工程師而言，這種 “方法多、結論亂” 的局面，反而增加了落地應用的難度。
為此，阿里巴巴淘天集團和愛橙科技聯合多所高校，基于自研并開源的 RL 框架ROLL，開展了系統化研究。通過大規模實驗，全面評估了當前主流 RL for LLM 方法中的關鍵技術組件，揭示其在不同設置下的有效性以及每類策略的底層機制，并最終提出一種僅包含兩項核心技術的簡化算法 ——Lite PPO，在多個基準上表現優于集成多種技巧的復雜方案。

論文《Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning》論文鏈接：https://arxiv.org/pdf/2508.08221
問題背景：技術多樣性帶來的選擇困境
當前 RL4LLM 領域發展迅速，但存在以下問題：
標準不一：歸一化方式、剪裁策略、損失聚合、樣本過濾規則等策略存在多種實現方案，彼此之間缺乏統一比較基礎。結論不一：不同研究因模型初始性能、數據分布、超參設置等差異，得出相互矛盾的結果，導致實際應用中難以判斷某項技術是否真正有效。機制解釋不足：多數方法缺乏對 “為何有效” 的理論或實證分析，導致技術使用趨于經驗化，形成 “調參依賴”。
針對上述問題，該研究旨在回答兩個核心問題：
不同 RL 優化技術在何種條件下有效？背后的機制是什么？是否存在更簡單、穩定且通用的技術組合？

公平競技場：用統一框架拆解 RL 技巧
為了確保公平對比和結論可靠，該研究設計了嚴格的實驗體系：
統一實現平臺：所有實驗基于開源的 ROLL 框架完成，避免因工程實現差異引入偏差。清晰基線設定：以基于 REINFORCE 算法計算優勢值的 PPO 損失（無價值函數）作為基線，逐項添加對應算法技術，精確量化每個模塊的真實效果。多種場景覆蓋：涵蓋不同模型規模（4B/8B）、模型類型（base 模型與 Instruct 模型）、任務難度（Easy/Medium/Hard）下的實驗分析。訓練集從開源數據集（SimpleRL-Zoo-Data, DeepMath 等）中采樣過濾，按照難度等級劃分為為：Easy, Medium, Hard

各難度數據集中 rollout 8 次的正確次數分布。
解耦式評估：將歸一化、剪裁策略、損失形式、過濾機制等關鍵模塊獨立測試，避免多因素耦合干擾判斷。多維度評估任務：在六個數學推理數據集上進行測試，覆蓋從基礎算術到國際數學奧林匹克難度的問題。

不同模型在不同數據難度下的準確率和回答長度變化趨勢。為了確保對比清晰直觀，所有曲線均使用相同的參數進行平滑處理。
核心發現：技巧并非普適，需因 “場景” 而異
優勢歸一化：Group-Mean + Batch-Std 最穩健
理論介紹
優勢歸一化通過平移 / 縮放優勢值，降低梯度方差，穩定更新。常見的兩種歸一化方式包括：
組內歸一化（Group-level）：同一問題的 K 條響應之間做對比，強化組內相對優劣。

批次歸一化（Batch-level）：對整個批次內的 N*K 個響應進行獎勵歸一化，利用更大樣本估計方差，抑制極端樣本主導梯度。

關鍵發現
1. 對獎勵分布的敏感性：
組內歸一化（Group-level）在不同獎勵設置下都更穩定，尤其在稀疏 / 偏斜分布下。批次歸一化（Batch-level）對獎勵分布的偏斜高度敏感，在數據分布不平衡的情況下更容易崩潰，因為少數極端樣本會主導優勢估計。

各個模型在不同優勢歸一化方式下的準確率變化趨勢。
2. 標準差項的風險：
當樣本獎勵分布高度集中的場景下（例如簡單數據集下幾乎全對的樣本分布），標準差極小會放大梯度，導致訓練不穩定乃至崩潰。去掉標準差（僅做均值平移）在此類場景更穩健；在高方差場景下，兩種方式差異不大。

左圖：在不同難度數據上的標準差變化趨勢。右圖：在批次歸一化下移除標準差前后的準確率變化趨勢。
3. 混合方案的優勢：
實驗發現，“組內均值 + 批次標準差”的混合歸一化更穩健，旨在兼顧局部相對比較的語義合理性與全局方差估計的統計穩健性。

各個模型上不同標準差計算方式的準確率變化趨勢。
裁剪機制：Clip-Higher 并非普適
理論介紹
PPO 通過限制新舊策略概率比的變化，避免過大步長導致策略崩塌。但其同等限制上 / 下方向變化，常會過度壓制低概率 token 的提升，導致熵快速下降、探索不足。
Clip-Higher：DAPO 提出將上界放寬（上行允許更大更新，下行保持保守），給 “潛力 token” 更大爬升空間，緩解熵塌陷，促進結構性探索。

生效機制解析：
1. 模型能力依賴性：
對于對齊后的 Instruct 模型，提升上剪裁閾值（ε_high）能有效減緩熵值下降，促進探索。。對于未對齊的 base 模型，單純擴大上剪裁范圍作用十分有限，甚至可能擾亂優化過程、降低整體表現。形成這一差異的原因可能在于：基礎模型初始表現不穩定，如果一開始就貿然增大探索空間，容易出現非預期行為導致優化偏離正確方向；相反，經過對齊的模型分布更均勻，適度增加上限能釋放潛藏 “優質” 輸出（詳見論文 Figure 10）。

各個模型在不同裁剪上限下的訓練趨勢對比。

各個模型在使用不同裁剪上限下的熵變化趨勢。
2. 從語言結構視角解析：
當采用低上界時，被剪裁頻發的是 “語篇連接詞”（如 "therefore,"" "if"），它們往往開啟新推理分支，被抑制會壓縮思維路徑。將上界放寬后，剪裁焦點轉向 “功能詞”（如 "is", "the" 等），連接詞更自由，推理結構更豐富，同時保留句法骨架穩定。

左圖：不同裁剪上限下的 token ratio 可視化展示。右圖：出現頻率最高的前 20 個被剪裁的 token
3. 上界選擇的 “Scaling Law”：
針對不同大小的模型，參數調節需要差異化：在較小規模（如 4B 參數）情況下，隨著剪裁閾值增加，模型性能持續提升；而更大規模（如 8B），性能提升存在拐點，閾值過高則效果反而減弱。因此，剪裁參數應根據模型體量靈活設置，尋求最優解。

各個模型使用不同裁剪上限的準確率變化趨勢。
損失聚合方式：token-level 更適合 base 模型
理論介紹
當前主流方案分別有 sequence-level loss 和 token-level loss：
序列級損失：聚焦于句子或樣本整體，適合結構已對齊、輸出穩定的模型。

詞元級損失：以 token 為基本單位，每個 token 都對總 loss 平均貢獻，抑制短句偏置，補足長推理激勵；

關鍵發現：
基礎模型：采用 token-level 的損失聚合方式更優，收斂速度和準確率大幅提升；對齊模型：采用 sequence-level 的損失聚合方式普遍更優。

各個模型上采用不同損失聚合方式的準確率變化趨勢。
過長樣本過濾：效用依賴于模型輸出特征
理論介紹
訓練時設定最大生成長度，復雜推理常被截斷，尚未給出結論就被判負，形成 “錯誤懲罰” 噪聲，污染學習信號。過濾策略：對超長 / 截斷樣本的獎勵進行屏蔽，避免把 “尚未完成” 當成 “錯誤”, 從而引入噪聲。
實驗發現
1. 推理長度影響：
當最大生成長度設為 8k tokens 時，應用過長樣本過濾能有效提升模型的訓練質量，并且能夠縮短輸出的響應長度。當長度限制放寬至 20k tokens，模型有更充分的空間完成復雜推理，生成的響應長度增加。此時，被過濾的樣本更多是重復或無法自然終止的退化輸出，而這類樣本本身占比有限且學習價值較低，從而導致過濾操作帶來的增益減弱。結果表明，overlong filtering 的實際效用高度依賴于模型在當前數據下的輸出特征，需按場景動態調整。

不同訓練長度下是否使用超長樣本過濾的實驗表現。
2. 生效機制探究：
通過對過濾掉的樣本類型進行統計，發現引入 Overlong Filtering 能夠降低訓練中 “不能正確預測 EOS 導致重復生成” 的比例（repeat-ratio），這表明其增強了模型的終止建模能力。

左圖：在不同訓練長度下，正確回答和錯誤回答的重復樣本分布。右圖：在采用和未采用超長樣本截斷場景下的重復樣本分布。
極簡新范式：Lite PPO—— 兩步勝五技
綜合上述系統分析，該研究提出 Lite PPO—— 一個僅包含兩項技術的簡化 RL 流程：
混合優勢歸一化（組內均值 + 批次標準差）；token-level 損失聚合。
在以基礎模型為初始策略的設置下，Lite PPO 在多個數學推理任務上達到甚至超過 DAPO 等融合五項技巧的復雜方法的表現。其優勢體現在：
訓練過程更穩定；超參敏感性更低；工程實現簡單；性能更優。
這充分說明：“技巧堆疊” 并非性能提升的主要途徑，合理的組合能帶來更強的魯棒性和高效性。

結論
本文貢獻主要體現在三方面：
1. 建立首個系統性對比框架
對歸一化、剪裁、損失聚合、樣本過濾等關鍵技術進行了獨立、可控的實證分析，明確了各項技術的適用邊界。
2. 驗證極簡設計的優越性
提出的 Lite PPO 方案表明，復雜的 “多技巧堆疊” 并非必要。在多數實際場景下，精簡而有針對性的技術組合反而更具魯棒性和可擴展性。
3. 推動可復現與標準化研究
基于開源 ROLL 框架開展實驗，所有配置公開，為后續研究提供了可復現基準，有助于提升領域透明度與協作效率。
從中我們獲得如下啟發：
開發者的建議：別再追求 “trick 大全”，應根據模型類型（base/Align）、任務特性（長度、難度）、獎勵設計等實際需求，有針對性地配置合理技巧。學術界的啟示：新方法若想 “立得住”，必須重視廣泛適用性與易復現性。Lite PPO 的成功案例表明，RL 優化未必復雜即優，而是貴在精粹。
關于 ROLL 團隊
本研究由阿里巴巴 ROLL 團隊完成。ROLL 是一套面向高效、可擴展、易用的強化學習訓練框架，支持從十億到千億參數大模型的優化訓練，已在多個場景中展現出顯著性能提升。
此次論文正是 ROLL 團隊在開源框架實踐中的又一次探索成果，未來，ROLL 團隊將持續關注 RL 社區發展并分享更多實踐經驗。同時，我們也將繼續完善自研的 ROLL 框架，以靈活地適應各種技術，為在各種場景中有效應用強化學習提供實用支持。
項目地址：github.com/alibaba/ROLL

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

時間的“相對論”：為什么我們總覺得時間越跑越快？『心靈加油站』（271）

VC為何關心比鄰星之旅？滴水湖畔“仰望星空”，上海這樣求解未來

《電腦愛好者》雜志公眾號注銷、官網無法訪問，創刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產了？

王力宏伴舞機器人高難度后空翻后穩穩落地，馬斯克點贊！

長城歐拉出奇招：“一車多動力”打破單點競爭

全站最新

時間的“相對論”：為什么我們總覺得時間越跑越快？『心靈加油站』（271）

VC為何關心比鄰星之旅？滴水湖畔“仰望星空”，上海這樣求解未來

《電腦愛好者》雜志公眾號注銷、官網無法訪問，創刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產了？

熱門推薦

時間的“相對論”：為什么我們總覺得時間越跑越快？『心靈加油站』（271）

VC為何關心比鄰星之旅？滴水湖畔“仰望星空”，上海這樣求解未來

《電腦愛好者》雜志公眾號注銷、官網無法訪問，創刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產了？

王力宏伴舞機器人高難度后空翻后穩穩落地，馬斯克點贊！

長城歐拉出奇招：“一車多動力”打破單點競爭

上饒農商行被罰240萬，上饒銀行被罰170萬

2025年流星雨迎來謝幕演出小熊座流星雨22日極大

雷軍轉發！小米汽車又獲獎再引發輿論安全追問

鴻蒙正奔騰！解碼中國自主操作系統的生態成熟好用的極限突圍

我國成功發射通信技術試驗衛星二十三號

寶馬3系全球產量突破1800萬輛，50年傳奇仍在繼續

降息，突發！集體拉升，近8萬人爆倉！

給AI一雙眼睛：XR眼鏡正在重塑下一代智能終端

摩爾線程技術路線圖全面公開！刷新國產GPU推理天花板，新架構能效飆10倍