亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

冗長響應縮減80%,DeepSeek GRPO獲得顛覆性改進,微軟GFPO問世

IP屬地 中國·北京 編輯:蘇婉清 機器之心Pro 時間:2025-08-14 18:39:57

機器之心報道

編輯:Panda

用過 DeepSeek-R1 等推理模型的人,大概都遇到過這種情況:一個稍微棘手的問題,模型像陷入沉思一樣長篇大論地推下去,耗時耗算力,結果卻未必靠譜。現在,我們或許有了解決方案。

這兩天,微軟研究員 Dimitris Papailiopoulos 在 上曝出一個新成果:Group Filtered Policy Optimization(GFPO)—— 一種顛覆性的強化學習算法。



GFPO 能同時權衡訓練與測試階段的計算開銷,可在提升準確率的同時,將推理中因強化學習帶來的多余 token 長度削減多達80%!



數據很驚人,但這究竟是如何做到的呢?

就在剛剛,GFPO 終于上線 arXiv,所有細節首次公開,高效強化學習的新玩法即將揭曉。



論文標題:Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning論文地址:https://arxiv.org/abs/2508.09726

欲知 GFPO,先看 GRPO

在介紹 GFPO 之前,有必要先看看 DeepSeek 提出的組相對策略優化(GRPO)。

GRPO 基于近端策略優化(PPO)算法,但進行了簡化,即不再需要使用價值模型來估計基線優勢。具體操作是對每個問題采樣多個響應,并使用它們的平均獎勵作為基線,而其優化的目標仍然是與 PPO 類似的裁剪替代目標(clipped surrogate objective)。

寫成公式的話,如果令 θ 表示模型參數,q 表示問題,o 表示從舊策略 π_θ_old 采樣的響應,則 GRPO 目標可以寫成:



需要注意的是,盡管這里展示了標準的 GRPO 損失歸一化公式,但包括 verl 和 TRL 在內的多個開源強化學習庫都默認為 GRPO 使用了 DAPO token 級損失歸一化 ,這也是該微軟團隊在實驗中使用的方法。

GRPO 的一個關鍵限制在于它依賴于單一的標量獎勵信號,這使得它難以聯合優化多個期望得到的響應屬性,例如簡潔性和準確度。結果就是,GRPO 確實能提高準確度,但也會讓響應長度大幅增加。

GFPO 正是為了解決這個問題而生的,它可以同時優化多個響應屬性。

組過濾策略優化:GFPO

GFPO 是一種簡單而有效的方法,可以針對想要的響應屬性進行有針對性的策略優化。

GFPO 會為每個問題采樣更大的候選響應組,從而擴大響應池以包含更多具有所需特性的候選響應,然后在計算策略梯度時顯式地過濾這些特性。雖然將簡潔性或信息量等所需屬性直接編碼到標量獎勵中是看似自然的做法,但同時編碼多個特性卻可能很難,尤其是在必須保證正確性的情況下。

數據過濾則是一種隱式、靈活的獎勵塑造形式 —— 類似于使用選擇性采樣來放大特定模型行為的迭代式自我改進方法 。在此顯式過濾步驟分離出所需的響應后,將在所選組內使用標準獎勵來計算相對優勢。因此,GFPO 無需復雜的獎勵工程,即可同時優化多個所需屬性(例如長度和準確度)。

由于這里的目標是減少強化學習中響應長度的膨脹,因此該團隊主要研究的是在保持與 GRPO 相當的準確度的用時,使用 GFPO 來優化縮短響應長度。

給定一個問題 q,從當前策略采樣大量響應 G = {o_1, ..., o_G}。GFPO 并不會在所有響應上平等地訓練,而是會根據用戶指定的指標應用選擇步驟,過濾出大小為 k 的最符合期望的響應子集,然后進行訓練。之后,為每個響應計算一個指標得分并進行相應排序,從中選出前 k 個響應,形成留存子集 S ? G(算法 1)。這里,該團隊定義了一個二元掩碼 m ∈ {0, 1}^G,其中 m_i = 1 表示被選中響應,m_i = 0 表示被拒絕響應。



下面是 GFPO 的形式化定義:



這里使用 S 中響應層面的獎勵的平均值 (μ_S) 和標準差 (σ_S) 對所選子集 S 中響應的優勢進行歸一化。這樣一來,便可以有意義地比較已表現出所需屬性的響應,從而確保 GFPO 優先考慮過濾子集中獎勵最高的響應。不在 S 中的響應的優勢為零,從而可有效地被排除在策略更新之外。

因此,GFPO 的主要干預措施是在優勢估計層面,使其可與任何 GRPO 變體兼容,例如 DAPO、Dr. GRPO 或帶有 Dual-Clip PPO 損失的 GRPO。

雖然通過采樣更多響應,GFPO 會導致更高的訓練時間計算成本,但由于學習到的策略比 GRPO 能產生更短的響應,因此這部分成本可以被抵消。

盡管 GFPO 是通用的,可以適應各種評分指標,但微軟在這里的實驗中研究的是旨在減少響應長度膨脹的指標:

響應長度:使用短響應進行訓練能直接鼓勵實現簡潔性。token 效率(獎勵/長度):使用高 token 效率的響應進行訓練可鼓勵簡潔性,但如果較長響應能「證明」其正當性,則仍可允許較長響應。

其他指標(例如事實性、多樣性或外部質量得分)也可以集成到 GFPO 中,以優化不同的目標屬性。

自適應難度的 GFPO

該團隊還提出了 GFPO 變體:自適應難度 GFPO,見算法 2,其目標是將更多的訓練信號分配給更難的問題。



在訓練的每個步驟中,通過計算為每個問題采樣的響應的平均獎勵來估計問題難度 —— 較低的平均獎勵意味著難度更高。

為了自適應地調整留存響應的數量 (k),該團隊使用了一個輕量級 t-digest 數據結構維護提示詞難度的流式摘要。t-digest 可以有效地近似迄今為止所有提示詞難度(獎勵均值)的四分位數,從而能夠將新問題分類到相對難度的桶(bucket)中。

基于此分類,該團隊為每個問題分配一個留存響應數量目標 k:簡單 4 個,中等 6 個,困難和非常困難的問題 8 個(從 16 個樣本中選取)。這種動態課程可以對簡單提示詞進行更積極的過濾,并對困難提示詞進行更多探索。難度桶的數量和每個桶的 k 是此方法的超參數。

自適應難度 GFPO 可高效利用訓練計算,將梯度更新集中在最需要的地方。它能幫助模型減少簡單示例(正確率已經很高)的冗長程度,同時通過保留更多推理鏈來保持更難提示詞的準確度。

該團隊表示:「據我們所知,這是首個能根據問題難度動態調整有效分組規模的算法。」

基于 GFPO 的實驗發現

那么,GFPO 的表現如何呢?基于 14B 參數的 Phi-4-reasoning 模型,該團隊開展了實驗。

他們評估了三種 GFPO 變體:

Shortest k/G:留存 G 中的 k 個最短響應,同時改變 k 和分組規模 G,以研究它們對長度縮減的影響。token 效率:留存 G 中 k 個每 token 獎勵效率最高的響應,使用 k = 8,G = 16(與基準 Shortest k/G 設置一致)。自適應難度:留存 G 中 k 個最短的響應,k 根據實時難度估算動態選擇(4、6、8,8 表示簡單→非常難),G = 16。

更多實驗細節請參閱原論文,這里我們重點看看該團隊得到的一些發現。





發現 1:「少思考」需要多采樣:在不增加分組規模的情況下減少保留的響應(Shortest 6/8 GFPO)不會減少響應長度。

發現 2:留存響應的百分比 (k/G) 可控制長度壓力:降低 k 或提高 G 會進一步縮短長度;該團隊觀察到保留 25-33% 的響應是最佳的,保留比例越小,增益越小。最短 4/24 是最佳長度優化的 GFPO 變體,可最大程度地減少過長響應。



發現 3:token 效率(獎勵 / 長度)優化帶來了最大幅度的縮減:在保持準確度的同時,額外長度減少了 70.9% (AIME 25)、84.6% (AIME 24)、79.7% (GPQA)、82.6% (OmniMATH) 和 79.7% (LiveCodeBench)。這些縮減在訓練過程中會略微增加方差。

發現 4:自適應難度 GFPO 在同等計算量下優于 Shortest-k 算法:根據問題難度自適應地確定 k 值,在 4/5 基準測試中,與同等計算量下的 Shortest-k 算法相比,其長度縮減效果更佳。



發現 5:GFPO 可緩解分布外(OOD)長度膨脹:GRPO 會增加分布外任務的響應長度,但準確度并未提高;而 GFPO 則在略微提高準確度的同時,抑制了這種膨脹。



發現 6:

GFPO 在所有難度級別上都會縮短響應。token 效率 GFPO 在簡單、中等和困難問題上實現了最大程度的縮減 —— 在簡單問題上,其響應甚至比 SFT 模型更短,同時準確度與 GRPO 相當。Shortest 8/24 GFPO 由于其強大的過濾功能,在最難問題上實現了最大程度的縮減。



發現 7:

自適應難度 GFPO 在中等難度和極難問題上的準確度超越 GRPO,同時將過長問題縮短了 47%-60%。更大的分組規模提高了難題的準確度:自適應難度(k = 8,G = 16)在難題上略有下降,但 Shortest 8/24 算法可通過更多采樣找到簡潔的正確響應,從而與 GRPO 的準確度相當。

發現 8:即使在固定難度下,較長的響應準確度也會降低:在較難的問題中,推理的最佳點出現在 12k-16k 個 token 左右。

發現 9:在最長的響應四分位數中,GFPO 的準確度優于 GRPO。

發現 10:GFPO 可減少極端冗長:將 ≥ 20k 個 token 的響應比例從 32% 降至 22%,同時能以較短的長度解決更難的問題(在 GFPO 中,用 ≤ 5k 個 token 回答的問題比 GRPO 的難度高 9 倍)。



發現 11:哪種 GFPO 變體效果最佳?

token 效率:長度縮減效果最強,準確度略有下降難度自適應:在最難問題上,通過穩健的長度縮減獲得了最佳準確度Shortest 8/24:在管理準確度與長度的權衡方面非常有效



發現12:GFPO 可大幅降低推理解答和驗證階段的冗長程度,在 AIME 25 上,解答中減少了 94.4% 的多余長度,驗證步驟中減少了 66.7% 的多余長度。



https://x.com/DimitrisPapail/status/1955652396572721184

https://x.com/DimitrisPapail/status/1955653211819270337

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

台湾佬中文在线| 在线视频欧美亚洲| 成人一区二区视频| 亚洲自拍偷拍综合| 欧美乱大交xxxxx| 女人被男人躁得好爽免费视频| 国产精品97在线| 久久久久免费看| www.成人在线| 日韩黄色av网站| 国偷自产av一区二区三区小尤奈| 中文字幕 亚洲一区| 亚洲人成色777777精品音频| 欧美人妖巨大在线| 日韩av理论片| 无码任你躁久久久久久老妇| 国产乱码精品一区二三区蜜臂| 舔着乳尖日韩一区| 91精品国产91久久久久久| 精产国品一二三区| 国产一区二区福利| 香蕉视频在线观看黄| 任你操这里只有精品| 国产亚洲精品综合一区91| 99re在线视频免费观看| 国产美女精品久久久| 成人av网站在线播放| 国产精品久久福利| 欧美成人精精品一区二区频| 97中文字幕在线| 成人羞羞国产免费图片| 在线成人一区二区| 天天影视色综合| av在线免费不卡| 成人精品福利视频| 久久久黄色大片| 亚洲毛片一区二区| 国产高潮视频在线观看| 亚洲日本在线视频观看| 日本一区视频在线观看| 蜜臀精品一区二区三区在线观看| 在线观看视频99| 30一40一50老女人毛片| 香蕉影视欧美成人| 黄色片免费在线观看视频| 精品一区二区三区免费观看| 国产精品美女在线| 日本中文字幕第一页| 亚洲精品在线网站| 国产黑丝在线观看| 在线影院国内精品| 欧美日韩一区二区三区69堂| 国产精品国模大尺度视频| 激情六月天婷婷| 欧美激情一区二区三区不卡 | xxxx欧美18另类的高清| 亚洲AV成人无码精电影在线| 欧美亚洲动漫制服丝袜| 中文字幕亚洲影院| 精品久久久久久国产91| xxww在线观看| 欧美性猛交xxxx乱大交退制版| 国产一区二区视频免费在线观看| 久久精品日产第一区二区三区高清版 | 欧美日韩午夜视频| 亚洲国产精品美女| 糖心vlog免费在线观看| 亚洲人成网站在线播| 欧美成人黄色网| 美女999久久久精品视频| 国产精品一区二区三区四| 欧美激情欧美激情| wwwav在线播放| 国产在线高清精品| 久久精品国产久精国产爱| 亚洲精品在线免费看| 国产精品久久久久精k8 | 国产精品一区二区欧美黑人喷潮水| 久久久久久一区二区| 日本熟妇毛茸茸丰满| 国产精品免费区二区三区观看 | 久久久一本二本三本| 91福利在线免费观看| 国产麻豆a毛片| 91精品国产高清久久久久久91| 日韩av一二三| 黄色a级片免费看| 欧美精品aⅴ在线视频| 国产精品 欧美 日韩| 欧美最顶级的aⅴ艳星| 国产乱码精品一区二区三区忘忧草| 你真棒插曲来救救我在线观看| 欧美亚洲免费在线一区| 国产精品美女毛片真酒店| 国产欧美一区二区三区久久| 2020日本不卡一区二区视频| 日本r级电影在线观看| xxxx性欧美| 国产精品夜夜爽| 国产wwwxx| 中文字幕日韩专区| 韩国av一区二区三区四区| 国产精品九九九九九九| 国产综合内射日韩久| 久草福利在线观看| 国产免费内射又粗又爽密桃视频| 亚洲国产欧美日韩另类综合| 久久精品—区二区三区舞蹈| 国产不卡在线观看| 亚洲在线中文字幕| 日本高清www免费视频| 国产精品久久九九| 色美美综合视频| 成人久久精品人妻一区二区三区| 免费观看国产精品视频| 久久av在线播放| 久久精品男人天堂av| 校园春色 亚洲| 美国av在线播放| 在线观看亚洲视频| 久久综合久久综合亚洲| 久艹视频在线观看| wwwjizzjizzcom| 色偷偷噜噜噜亚洲男人的天堂| 99免费精品视频| 日韩精品成人一区| 国产三区在线视频| 欧美在线观看一区二区三区| 亚洲午夜精品在线| 99热这里只有精| 成人在线观看一区二区| 亚洲永久在线观看| 日韩三级在线免费观看| 丁香一区二区三区| 久草国产精品视频| 一二三四视频社区在线| 国产精品日韩电影| 日韩精品一区二区三区四区视频| 国产馆精品极品| 午夜一区二区三区四区| 亚洲激情在线观看视频| 91久久精品国产91久久| 亚洲乱码国产乱码精品精天堂| 欧美激情资源网| 色综合免费视频| youjizz亚洲女人| xx欧美撒尿嘘撒尿xx| 日韩欧美一区三区| 欧美图片激情小说| 色网综合在线观看| 国产老肥熟一区二区三区| 无码国精品一区二区免费蜜桃| 国产一区二区在线不卡| 亚洲色图 激情小说| 国产精品国产三级国产专区51| 国产精品劲爆视频| 亚洲人成自拍网站| 欧美日韩精品在线| 26uuu久久天堂性欧美| 图片区 小说区 区 亚洲五月| 久久久久久久久97| 香蕉视频色在线观看| 日本丰满少妇黄大片在线观看| 91香蕉电影院| 欧美中文字幕视频| 久久视频在线免费观看| 欧美精品一区二区三区很污很色的 | 亚洲看片网站| 91沈先生播放一区二区| 国产精品自拍偷拍| 91小视频网站| 999精品视频一区二区三区| 亚洲av成人精品毛片| 色啦啦av综合| 成人黄色在线观看| 亚洲精品国产精品国产自| 人妻91麻豆一区二区三区| 又色又爽又高潮免费视频国产| 777午夜精品福利在线观看| 欧美亚洲一区二区三区四区| 欧美一区二区在线视频观看| 日韩成人高清在线| 91网站在线播放| 亚洲网站在线免费观看| 中文字幕免费视频| 尤物av无码色av无码| 国精产品99永久一区一区| 欧美日本高清视频| 91成人国产精品| 久久久99精品免费观看不卡| 日韩中文字幕亚洲一区二区va在线| 少妇影院在线观看| 久久久高清视频| 激情综合网俺也去| 最新视频 - x88av| 91精品视频在线| 91精品国产91久久久| 国产香蕉精品视频一区二区三区| 精品日韩一区二区三区 | 欧美综合视频在线观看| 日韩码欧中文字| 久久久美女艺术照精彩视频福利播放| 国产成+人+日韩+欧美+亚洲| 国产视频第一页| 国产精品18p| 永久免费看黄网站| 精品人伦一区二区| 国产精品成人国产乱| 影音先锋黄色资源| 精品久久久久av| 奇米影视亚洲色图| 国产一区二区三区乱码| 日韩精品欧美专区| 成人免费大片黄在线播放| 91在线观看免费观看| 国产精品久久久久久亚洲调教| 欧美日韩国产二区| 91精品国产91久久久久久最新| 久久久久久久国产精品视频| 777精品视频| 国产精品一 二 三| 成人综合av网| 国产伦精品一区二区三区四区视频 | 丰满少妇xbxb毛片日本| www,av在线| 久久久久久无码精品人妻一区二区| 在线观看国产中文字幕| 久久出品必属精品| 一本加勒比波多野结衣| 国产精品天天干| 精品无码一区二区三区电影桃花| 99免费在线观看| 国产情侣在线播放| 黑人精品欧美一区二区蜜桃| 丰满亚洲少妇av| 中文字幕一区二区三| 色综合婷婷久久| 亚洲美腿欧美激情另类| 精品国产一区二区三区四区在线观看 | 亚洲欧美日韩中文字幕一区二区三区| 国产精品美女www爽爽爽| 精品久久久久久久大神国产| 亚洲超丰满肉感bbw| 欧美性bbwbbwbbwhd| 无码人妻aⅴ一区二区三区日本| 国内外免费激情视频| 熟妇人妻久久中文字幕| 99久久久无码国产精品不卡| 香蕉影院在线观看| 另类小说一区二区三区| 亚洲婷婷综合久久一本伊一区 | 亚洲天堂一区在线| 亚洲欧洲精品视频| 国产日韩高清在线| 欧美一区二区大片| 8x拔播拔播x8国产精品| 自拍另类欧美| 亚洲色图欧美另类| caoporn国产| 成人国产精品视频| 欧美欧美午夜aⅴ在线观看| 欧美激情在线有限公司| 日韩精品福利视频| 欧洲熟妇的性久久久久久| 国产伦精品一区二区三区视频我| 久久久青草婷婷精品综合日韩| 亚洲精品成人悠悠色影视| 亚洲无av在线中文字幕| 91老司机在线| 日韩av片网站| 亚洲中文字幕无码爆乳av| www久久精品| 日韩精品在线观看网站| 国产伦精品一区二区| 精品人妻一区二区免费视频| 精品久久无码中文字幕| 一区二区三区在线免费视频| 精品中文字幕在线2019| 丰满爆乳一区二区三区| 国产91精品一区| 国产婷婷色一区二区三区| 一区二区三区视频免费在线观看| 亚洲开发第一视频在线播放| 顶臀精品视频www| 丁香天五香天堂综合| 欧美日韩一区中文字幕| 久久riav| 日韩成人毛片视频| 久久伊99综合婷婷久久伊| 日韩在线播放av| 国产精品99久久免费黑人人妻| 一级黄色大片免费| 天天色综合天天| 91亚洲国产成人久久精品网站| 香蕉视频1024| 国产高清不卡一区二区| 国产乱子轮精品视频| 日本视频在线观看免费| 亚洲三级在线免费观看| 日本一区二区三区四区视频| av电影中文字幕| 99国产精品99久久久久久| 久久精品国产96久久久香蕉| 国产午夜伦鲁鲁| av av片在线看| 亚洲国产高清高潮精品美女| 黄色一级片黄色| 国产成人三级在线播放 | 国产无码精品视频| 午夜一区二区三区视频| 国产激情美女久久久久久吹潮| 免费人成年激情视频在线观看| 亚洲欧洲99久久| 国产成人精品福利一区二区三区 | 国产精品成人v| a级片在线观看免费| 色中色一区二区| 青少年xxxxx性开放hg| 人成网站在线观看| 久久国产精品久久久久久久久久| 色诱av手机版| 中文字幕国产精品一区二区| 国产经品一区二区| 高潮毛片又色又爽免费 | 欧美成人精品一区| 国产精品无码电影| 亚洲最色的网站| 国产树林野战在线播放| 久久99久久久欧美国产| 国产精品1234| 这里只有精品999| 日韩性生活视频| 人妻一区二区视频| 欧美日韩国产高清一区| 一区二区免费av| 亚洲综合色噜噜狠狠| 日本福利视频在线观看| av一区二区三区在线| 好看的日韩精品视频在线| 久久国产精品色婷婷| 草莓视频一区| 免费成人你懂的| 国产精品一级久久久| 免费美女久久99| 精品蜜桃一区二区三区| av男人天堂网| 国产精品第二页| 丝袜脚交一区二区| 国产日本一区二区三区| 久久爱www久久做| 相泽南亚洲一区二区在线播放| 国产精品小仙女| 婷婷四房综合激情五月| 国产高清无密码一区二区三区| 欧美日韩另类丝袜其他| 成人在线视频首页| 成人午夜免费在线视频| 亚洲欧洲在线观看av| 青青草原国产在线视频| 欧美老女人第四色| 国产真实乱人偷精品| 欧美xxx久久| 久草成人在线视频| 久久久久久久久电影| 色综合久久久久久| 久久日韩精品| 中文字幕一区二区不卡| 欧美日韩久久婷婷| 亚洲国产精品大全| 日本熟女毛茸茸| 国产精品一区二区三区久久久| 国产高清在线观看免费不卡| 国产黄色激情视频| 91视频一区二区三区| 亚洲五月六月| 日韩欧美成人精品| 99视频只有精品| 国产精品白嫩初高中害羞小美女| 国产精品一区免费视频| 国产精品免费成人| 日韩成人在线电影网| 国产精品无码一区二区桃花视频 | 欧美风情第一页| 国产区精品视频| 国产精品麻豆网站| 亚洲ⅴ国产v天堂a无码二区| 欧美亚洲激情视频| 久久青草欧美一区二区三区| 国内av一区二区| 最新91在线视频| 国产精品一卡二卡| 中国特级黄色片| 欧美在线视频网| 欧美激情一区二区| 国产黄在线免费观看| 国产亚洲福利社区| 欧洲一区二区三区在线| 中文字幕一区二区三区免费看| 欧美日韩国产一二| 欧美日韩黄视频| 黑人精品一区二区| 美女少妇一区二区| 久久99亚洲热视| 久久久亚洲精品石原莉奈| 中文字幕有码在线播放| 51国产成人精品午夜福中文下载| 欧美丝袜一区二区| 国产免费黄色大片| 人人爽人人av| 欧美诱惑福利视频|