冗長響應縮減80%，DeepSeek GRPO獲得顛覆性改進，微軟GFPO問世

IP屬地中國·北京 編輯：蘇婉清機器之心Pro 時間：2025-08-14 18:39:57

機器之心報道
編輯：Panda
用過 DeepSeek-R1 等推理模型的人，大概都遇到過這種情況：一個稍微棘手的問題，模型像陷入沉思一樣長篇大論地推下去，耗時耗算力，結果卻未必靠譜。現在，我們或許有了解決方案。
這兩天，微軟研究員 Dimitris Papailiopoulos 在上曝出一個新成果：Group Filtered Policy Optimization（GFPO）—— 一種顛覆性的強化學習算法。

GFPO 能同時權衡訓練與測試階段的計算開銷，可在提升準確率的同時，將推理中因強化學習帶來的多余 token 長度削減多達80%！

數據很驚人，但這究竟是如何做到的呢？
就在剛剛，GFPO 終于上線 arXiv，所有細節首次公開，高效強化學習的新玩法即將揭曉。

論文標題：Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning論文地址：https://arxiv.org/abs/2508.09726
欲知 GFPO，先看 GRPO
在介紹 GFPO 之前，有必要先看看 DeepSeek 提出的組相對策略優化（GRPO）。
GRPO 基于近端策略優化（PPO）算法，但進行了簡化，即不再需要使用價值模型來估計基線優勢。具體操作是對每個問題采樣多個響應，并使用它們的平均獎勵作為基線，而其優化的目標仍然是與 PPO 類似的裁剪替代目標（clipped surrogate objective）。
寫成公式的話，如果令 θ 表示模型參數，q 表示問題，o 表示從舊策略 π_θ_old 采樣的響應，則 GRPO 目標可以寫成：

需要注意的是，盡管這里展示了標準的 GRPO 損失歸一化公式，但包括 verl 和 TRL 在內的多個開源強化學習庫都默認為 GRPO 使用了 DAPO token 級損失歸一化，這也是該微軟團隊在實驗中使用的方法。
GRPO 的一個關鍵限制在于它依賴于單一的標量獎勵信號，這使得它難以聯合優化多個期望得到的響應屬性，例如簡潔性和準確度。結果就是，GRPO 確實能提高準確度，但也會讓響應長度大幅增加。
GFPO 正是為了解決這個問題而生的，它可以同時優化多個響應屬性。
組過濾策略優化：GFPO
GFPO 是一種簡單而有效的方法，可以針對想要的響應屬性進行有針對性的策略優化。
GFPO 會為每個問題采樣更大的候選響應組，從而擴大響應池以包含更多具有所需特性的候選響應，然后在計算策略梯度時顯式地過濾這些特性。雖然將簡潔性或信息量等所需屬性直接編碼到標量獎勵中是看似自然的做法，但同時編碼多個特性卻可能很難，尤其是在必須保證正確性的情況下。
數據過濾則是一種隱式、靈活的獎勵塑造形式 —— 類似于使用選擇性采樣來放大特定模型行為的迭代式自我改進方法。在此顯式過濾步驟分離出所需的響應后，將在所選組內使用標準獎勵來計算相對優勢。因此，GFPO 無需復雜的獎勵工程，即可同時優化多個所需屬性（例如長度和準確度）。
由于這里的目標是減少強化學習中響應長度的膨脹，因此該團隊主要研究的是在保持與 GRPO 相當的準確度的用時，使用 GFPO 來優化縮短響應長度。
給定一個問題 q，從當前策略采樣大量響應 G = {o_1, ..., o_G}。GFPO 并不會在所有響應上平等地訓練，而是會根據用戶指定的指標應用選擇步驟，過濾出大小為 k 的最符合期望的響應子集，然后進行訓練。之后，為每個響應計算一個指標得分并進行相應排序，從中選出前 k 個響應，形成留存子集 S ? G（算法 1）。這里，該團隊定義了一個二元掩碼 m ∈ {0, 1}^G，其中 m_i = 1 表示被選中響應，m_i = 0 表示被拒絕響應。

下面是 GFPO 的形式化定義：

這里使用 S 中響應層面的獎勵的平均值 (μ_S) 和標準差 (σ_S) 對所選子集 S 中響應的優勢進行歸一化。這樣一來，便可以有意義地比較已表現出所需屬性的響應，從而確保 GFPO 優先考慮過濾子集中獎勵最高的響應。不在 S 中的響應的優勢為零，從而可有效地被排除在策略更新之外。
因此，GFPO 的主要干預措施是在優勢估計層面，使其可與任何 GRPO 變體兼容，例如 DAPO、Dr. GRPO 或帶有 Dual-Clip PPO 損失的 GRPO。
雖然通過采樣更多響應，GFPO 會導致更高的訓練時間計算成本，但由于學習到的策略比 GRPO 能產生更短的響應，因此這部分成本可以被抵消。
盡管 GFPO 是通用的，可以適應各種評分指標，但微軟在這里的實驗中研究的是旨在減少響應長度膨脹的指標：
響應長度：使用短響應進行訓練能直接鼓勵實現簡潔性。token 效率（獎勵/長度）：使用高 token 效率的響應進行訓練可鼓勵簡潔性，但如果較長響應能「證明」其正當性，則仍可允許較長響應。
其他指標（例如事實性、多樣性或外部質量得分）也可以集成到 GFPO 中，以優化不同的目標屬性。
自適應難度的 GFPO
該團隊還提出了 GFPO 變體：自適應難度 GFPO，見算法 2，其目標是將更多的訓練信號分配給更難的問題。

在訓練的每個步驟中，通過計算為每個問題采樣的響應的平均獎勵來估計問題難度 —— 較低的平均獎勵意味著難度更高。
為了自適應地調整留存響應的數量 (k)，該團隊使用了一個輕量級 t-digest 數據結構維護提示詞難度的流式摘要。t-digest 可以有效地近似迄今為止所有提示詞難度（獎勵均值）的四分位數，從而能夠將新問題分類到相對難度的桶（bucket）中。
基于此分類，該團隊為每個問題分配一個留存響應數量目標 k：簡單 4 個，中等 6 個，困難和非常困難的問題 8 個（從 16 個樣本中選取）。這種動態課程可以對簡單提示詞進行更積極的過濾，并對困難提示詞進行更多探索。難度桶的數量和每個桶的 k 是此方法的超參數。
自適應難度 GFPO 可高效利用訓練計算，將梯度更新集中在最需要的地方。它能幫助模型減少簡單示例（正確率已經很高）的冗長程度，同時通過保留更多推理鏈來保持更難提示詞的準確度。
該團隊表示：「據我們所知，這是首個能根據問題難度動態調整有效分組規模的算法。」
基于 GFPO 的實驗發現
那么，GFPO 的表現如何呢？基于 14B 參數的 Phi-4-reasoning 模型，該團隊開展了實驗。
他們評估了三種 GFPO 變體：
Shortest k/G：留存 G 中的 k 個最短響應，同時改變 k 和分組規模 G，以研究它們對長度縮減的影響。token 效率：留存 G 中 k 個每 token 獎勵效率最高的響應，使用 k = 8，G = 16（與基準 Shortest k/G 設置一致）。自適應難度：留存 G 中 k 個最短的響應，k 根據實時難度估算動態選擇（4、6、8，8 表示簡單→非常難），G = 16。
更多實驗細節請參閱原論文，這里我們重點看看該團隊得到的一些發現。

發現 1：「少思考」需要多采樣：在不增加分組規模的情況下減少保留的響應（Shortest 6/8 GFPO）不會減少響應長度。
發現 2：留存響應的百分比 (k/G) 可控制長度壓力：降低 k 或提高 G 會進一步縮短長度；該團隊觀察到保留 25-33% 的響應是最佳的，保留比例越小，增益越小。最短 4/24 是最佳長度優化的 GFPO 變體，可最大程度地減少過長響應。

發現 3：token 效率（獎勵 / 長度）優化帶來了最大幅度的縮減：在保持準確度的同時，額外長度減少了 70.9% (AIME 25)、84.6% (AIME 24)、79.7% (GPQA)、82.6% (OmniMATH) 和 79.7% (LiveCodeBench)。這些縮減在訓練過程中會略微增加方差。
發現 4：自適應難度 GFPO 在同等計算量下優于 Shortest-k 算法：根據問題難度自適應地確定 k 值，在 4/5 基準測試中，與同等計算量下的 Shortest-k 算法相比，其長度縮減效果更佳。

發現 5：GFPO 可緩解分布外（OOD）長度膨脹：GRPO 會增加分布外任務的響應長度，但準確度并未提高；而 GFPO 則在略微提高準確度的同時，抑制了這種膨脹。

發現 6：
GFPO 在所有難度級別上都會縮短響應。token 效率 GFPO 在簡單、中等和困難問題上實現了最大程度的縮減 —— 在簡單問題上，其響應甚至比 SFT 模型更短，同時準確度與 GRPO 相當。Shortest 8/24 GFPO 由于其強大的過濾功能，在最難問題上實現了最大程度的縮減。

發現 7：
自適應難度 GFPO 在中等難度和極難問題上的準確度超越 GRPO，同時將過長問題縮短了 47%-60%。更大的分組規模提高了難題的準確度：自適應難度（k = 8，G = 16）在難題上略有下降，但 Shortest 8/24 算法可通過更多采樣找到簡潔的正確響應，從而與 GRPO 的準確度相當。
發現 8：即使在固定難度下，較長的響應準確度也會降低：在較難的問題中，推理的最佳點出現在 12k-16k 個 token 左右。
發現 9：在最長的響應四分位數中，GFPO 的準確度優于 GRPO。
發現 10：GFPO 可減少極端冗長：將 ≥ 20k 個 token 的響應比例從 32% 降至 22%，同時能以較短的長度解決更難的問題（在 GFPO 中，用 ≤ 5k 個 token 回答的問題比 GRPO 的難度高 9 倍）。

發現 11：哪種 GFPO 變體效果最佳？
token 效率：長度縮減效果最強，準確度略有下降難度自適應：在最難問題上，通過穩健的長度縮減獲得了最佳準確度Shortest 8/24：在管理準確度與長度的權衡方面非常有效

發現12：GFPO 可大幅降低推理解答和驗證階段的冗長程度，在 AIME 25 上，解答中減少了 94.4% 的多余長度，驗證步驟中減少了 66.7% 的多余長度。

https://x.com/DimitrisPapail/status/1955652396572721184
https://x.com/DimitrisPapail/status/1955653211819270337

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

小紅書社區架構再調整，開始發力「優質中長視頻」

浩云長盛彭軼峰：兼容并蓄和系統性思維是應對IDC行業急速迭代的生存法則

硅谷還在Vibe Coding，中國AI搶先！一句話做應用能不能賺錢？

一場“無人”的馬拉松 | 兩說

OpenAI被曝正尋求千億美元融資，估值或達7500億美元

新華視點｜全鏈發力逐夢星空河南打造商業航天產業“星”征程

全站最新

小紅書社區架構再調整，開始發力「優質中長視頻」

浩云長盛彭軼峰：兼容并蓄和系統性思維是應對IDC行業急速迭代的生存法則

硅谷還在Vibe Coding，中國AI搶先！一句話做應用能不能賺錢？

一場“無人”的馬拉松 | 兩說

熱門推薦

小紅書社區架構再調整，開始發力「優質中長視頻」

Gemini3Flash 正式面向 Perplexity Pro 與 Max 用戶開放

字節跳動推出 TRAE CN 企業版，助力高效編程

浩云長盛彭軼峰：兼容并蓄和系統性思維是應對IDC行業急速迭代的生存法則

硅谷還在Vibe Coding，中國AI搶先！一句話做應用能不能賺錢？

自研視頻生成大模型全球受追捧，國產AI視頻服務加速全球化進程

美銀：印度已成全球最活躍AI大模型市場，龐大年輕人口淪為硅谷“試驗田”

一場“無人”的馬拉松 | 兩說

OpenAI被曝正尋求千億美元融資，估值或達7500億美元

新華視點｜全鏈發力逐夢星空河南打造商業航天產業“星”征程

菜鳥聯手天貓超市加碼淘寶閃購

上海國際網文周發布出海報告：拉美市場崛起，全球市場格局重塑

華為MatePad 11.5平板2026款現身官網，最高12GB+256GB規格

全球首款商用2nm手機芯片：三星Exynos 2600規格再曝

郭明錤：AI危機倒逼蘋果激進創新