亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

字節&MAP重塑大模型推理算法優化重點

IP屬地 中國·北京 編輯:馮璃月 量子位 時間:2025-08-11 10:19:01

字節&MAP團隊投稿 發自 凹非寺
量子位 | 公眾號 QbitAI

強化學習(RL)范式雖然顯著提升了大語言模型(LLM)在復雜任務中的表現,但其在實際應用中仍面臨傳統RL框架下固有的探索難題。

一個普遍存在的現象是:在訓練過程中,模型的熵值迅速下降,推理路徑趨于固化,導致“利用(exploitation)”遠超“探索(exploration)”,嚴重失衡。

這種過早收斂不僅削弱了模型的多樣性生成能力,也限制了其性能上限的進一步突破。

受OpenAI經典論文《First Return, Then Explore》中“先返回,再探索”思想的啟發,來自字節跳動、MAP,曼徹斯特大學的聯合團隊提出了一種全新的結構化探索框架:First Return, Entropy-Eliciting Explore(FR3E)。



該方法通過識別推理軌跡中具有高不確定性的關鍵token,并以此為錨點引導后續的多樣化展開,系統性地重建了LLM在強化學習中的探索機制,旨在實現利用與探索之間的動態平衡,從而釋放RL訓練的更高潛力。

值得一提的是,FR3E發布后,《First Return, Then Explore》的作者之一Jeff Clune還在X(原 Twitter)上轉發了這篇文章。



算法框架

FR3E的算法框架分為兩個階段:

第一階段:First Return



在該階段,模型對每條prompt進行多次rollout,自由探索可能的解題路徑,并收集相應的軌跡及其獎勵信號。

隨后,采用拒絕采樣(rejection sampling)策略過濾掉全正確的樣本(避免對已掌握知識的重復學習),并針對剩余樣本構建基準路徑:對于存在部分正確結果的prompt,選取其中一條正確軌跡作為基準;

對于全部錯誤的prompt,則隨機選取一條作為參考路徑。

在此基礎上,計算基準路徑中每個token的生成熵,篩選出top-n個高熵token作為關鍵決策點。

這些關鍵點將整條軌跡劃分為n+1個partial rollout。通過將原始prompt與前n個partial rollout依次拼接(最后一個包含答案的部分被排除),形成n+1個中間狀態(state),初始狀態即為原始prompt本身。

第二階段:Entropy-Eliciting Explore



基于構建的多狀態prompt組,FR3E在GRPO++(融合了拒絕采樣與Clip-Higher機制的GRPO變體)的基礎上,進一步引入動態優勢調制機制,以更精細地調控學習信號。具體而言,通過引入了一個優勢調制因子,它基于從上一個狀態到當前狀態的價值邊際改善來縮放學習信號。

優勢調制因子定義為:



調控后的Advantage定義為:





表示當前state prompt中的partial rollout部分對最終答案有正向影響,此時需要適當降低它的advantage,防止模型過早鎖定當前推理路徑,保留探索空間。

反之,當



則意味著當前state prompt中的partial rollout部分對思考過程沒有或有負向影響,需要放大其優勢信號,激勵模型在該節點進行更積極的探索,以突破推理瓶頸。

在數據構建方面,團隊采用雙難度混合策略:低難度數據來自DeepScaler,用于穩定訓練初期的收斂過程;

高難度數據則取自SimpleRL中難度等級為3–5的樣本,旨在激發模型的深層推理能力。這種組合既保障了訓練穩定性,又提供了足夠的挑戰性以推動能力躍遷。

實驗結果

為全面評估FR3E的有效性,團隊在多個權威數學推理基準上進行了實驗,包括GSM8K、Math500、Minerva Math、Gaokao2023en、OlympiadBench、College Math以及AIME24。并在Qwen2.5-7B、Qwen2.5-Math-7B和Qwen2.5-32B三種模型上進行了評測。



實驗結果表明,FR3E在多個基準上均顯著優于強基線GRPO++,展現出更強的泛化與推理能力。



尤其值得注意的是,在訓練動態分析中,FR3E展現出更持久的探索行為:其熵值衰減更緩慢,響應長度更長,特別是在Qwen2.5-Math-7B這類已微調模型上,成功突破了傳統方法中熵值長期處于低位的“僵化”困境,實現了探索能力的再激活。



此外,通過對多次rollout結果的統計監控,團隊發現FR3E顯著提升了“全正確”軌跡的數量,同時大幅降低了“全錯誤”軌跡的比例。

這表明,原本僅能部分解出或完全失敗的問題,在FR3E的訓練機制下,逐步演化為穩定、完整的正確解答路徑,真正實現了從“部分成功”到“全面突破”的躍遷。

綜上所述,FR3E提出了一種新穎且高效的結構化探索范式,直面LLM在強化學習中“探索不足”的核心瓶頸。

通過“先返回、再探索”的兩階段設計,結合高熵錨點識別與動態優勢調制機制,FR3E不僅有效延緩了模型的過早收斂,更顯著提升了復雜推理任務中的性能上限。

實驗充分驗證了FR3E在多個數學推理基準上的優越性,尤其在提升探索多樣性、增強長程推理穩定性方面表現突出。

更重要的是,該方法所體現的“結構化反饋 + 自適應調節”思想,具備良好的可擴展性。團隊期待FR3E所倡導的探索機制,能夠為未來大模型的強化學習訓練提供新的范式參考。

論文地址:https://arxiv.org/pdf/2507.07017

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

91超碰中文字幕久久精品| 怡红院av一区二区三区| 顶级嫩模精品视频在线看| 日本黄色大片视频| 午夜精品久久久久久久99热黄桃| 免费av一级片| 精品一区二区成人精品| 97久久人人超碰| 中文字幕在线不卡视频| 婷婷中文字幕综合| 欧美高清视频不卡网| 精品爽片免费看久久| www.日韩视频| 国产精品一区二区久久久久| 久久五月天婷婷| 欧美日韩在线免费观看视频| 久久精品视频16| 日本wwwxx| 久久艹精品视频| 国产人妻精品一区二区三区| 国产一区日韩二区欧美三区| 亚洲天堂精品视频| 欧美日韩一区二区三区四区五区 | 欧美第一黄色网| 国产精品夜色7777狼人| 亚洲v日韩v欧美v综合| 午夜dv内射一区二区| 粉嫩av蜜桃av蜜臀av| 看片网址国产福利av中文字幕| 亚洲av无码国产综合专区| 国产一区二区免费视频| 亚洲一区二区在线观看视频 | 久久久91精品国产一区二区精品| 亚洲午夜在线电影| 亚洲福利视频专区| 日本久久亚洲电影| 亚洲第一综合网站| 亚洲一级Av无码毛片久久精品| 欧美爱爱小视频| 丁香花免费高清完整在线播放| 成av人片一区二区| 91成人网在线| 久久久久久久999精品视频| 久久久久久国产精品一区| 成人午夜视频免费在线观看| 久草福利资源在线| 久久青草久久| 亚洲成av人片在线观看无码| 中文字幕日韩欧美精品在线观看| 91九色偷拍| 久久九九国产视频| 奇米影视第四色777| 免费在线观看精品| 欧美日韩国产在线| 欧美丰满少妇xxxxx做受| 欧美一区二区三区四区五区六区 | 精品国产_亚洲人成在线| 国产二区视频在线播放| 男女羞羞免费视频| 久久草av在线| 欧美日韩中字一区| 青青久久av北条麻妃海外网| 草草草视频在线观看| 肉色超薄丝袜脚交69xx图片| 日韩高清不卡一区二区| 福利微拍一区二区| 欧洲成人在线视频| 成人免费视频91| 欧美日韩精品一区二区三区视频播放| 久久精品国产精品亚洲综合| 在线国产电影不卡| 日韩国产精品一区二区| 超碰97免费观看| 国产wwwwxxxx| 高清久久久久久| 国产丝袜精品视频| 亚洲欧美电影在线观看| 182在线观看视频| 国产成人亚洲综合a∨婷婷| 91精品国产色综合久久不卡蜜臀| 91超碰rencao97精品| 中文字幕18页| 蜜桃91丨九色丨蝌蚪91桃色| 日韩一级视频免费观看在线| 精品亚洲第一| 国产精品suv一区二区88| 粉嫩蜜臀av国产精品网站| 亚洲美腿欧美激情另类| 艳母动漫在线观看| 久久精品久久久久久久| 亚洲国产欧美日韩另类综合| 国产精品激情自拍| 国产福利在线观看视频| 国产精品中文字幕欧美| 亚洲欧美另类在线观看| 欧美少妇在线观看| 一区精品在线观看| 欧美调教femdomvk| 欧美一区二区影视| 亚洲精品国产精品乱码| 一卡二卡欧美日韩| 99国精产品一二二线| 永久免费看mv网站入口| 国产精品久久久久久久蜜臀| 日韩69视频在线观看| 在线精品视频播放| 99久久久国产精品| 97成人精品视频在线观看| 欧美国产在线一区| 国产一区二区导航在线播放| 久久亚洲精品网站| 天堂av手机在线| 亚洲一区二区三区四区不卡| 久久成人这里只有精品| www..com日韩| 蜜桃av免费在线观看| 神宫寺奈绪一区二区三区| 亚洲高清三级视频| 亚洲欧美日韩国产中文在线| 成人精品久久av网站| 午夜精产品一区二区在线观看的| 精品国产一区二区亚洲人成毛片| 日韩精品一区二区亚洲av| 国产福利精品av综合导导航| 久久99久久久欧美国产| 成人网在线免费观看| 师生出轨h灌满了1v1| 不卡免费追剧大全电视剧网站| 国产精品欧美日韩久久| 天天爱天天做天天爽| 国产成人精品影视| 在线观看视频亚洲| 一级在线观看视频| 永久免费看mv网站入口亚洲| 黄色一级视频片| 国产欧美一区二区精品秋霞影院| 超级碰在线观看| 激情小视频网站| 国产在线视频一区二区三区| 成人淫片在线看| 西西44rtwww国产精品| 日韩在线免费av| 亚洲成人激情小说| 日本午夜精品一区二区三区电影| 日韩成人xxxx| 一级黄色录像视频| 国产精品综合久久| 中文字幕亚洲欧美一区二区三区| 丰满岳乱妇国产精品一区| 亚洲欧洲av一区二区| 亚洲国产无码精品| 日韩一级视频免费观看在线| 国产精品免费视频xxxx| 日韩一级片大全| 久久久精品国产一区二区| 熟妇高潮一区二区高潮| aaa黄色大片| 国产精品免费看一区二区三区| 国产91精品免费| 欧美日韩视频免费在线观看| 亚洲美女视频在线观看| 91免费人成网站在线观看18| 国产成人av资源| 91精品视频大全| 成人性生交大片免费看中文网站| 午夜伦理一区二区| 精品国产一区二区三区无码| 91精品国产91久久久久久一区二区| 在线播放av网址| 日韩精品一区二| 中文字幕精品无码亚| 色丁香久综合在线久综合在线观看| 亚洲人成无码网站久久99热国产 | 久久99亚洲热视| 不卡视频一二三| 国产精品九九九九九| 日韩av影视综合网| 国产精品1000部啪视频| 亚洲成人激情在线观看| 久久久久性色av无码一区二区| 亚洲香蕉av在线一区二区三区| 日本www在线视频| 韩国成人精品a∨在线观看| 日本免费成人网| 理论片在线不卡免费观看| 国产精品一区二区黑人巨大| 91九色在线观看| 精品高清一区二区三区| 国产精品美女呻吟| 国产真实乱对白精彩久久| 久久综合久久色| 日韩黄色av网站| 亚洲色图丝袜美腿| 99精品人妻国产毛片| 国产成人精品福利一区二区三区| 成人久久久精品国产乱码一区二区| 高清视频欧美一级| 国产美女在线精品| 亚洲天堂小视频| 国产精品综合视频| 日韩视频精品| 最近2019年好看中文字幕视频| 国产视频不卡一区| av黄色一级片| 91久久嫩草影院一区二区| 亚洲第一福利视频在线| 久久青青草原一区二区| 欧美日韩国产一区中文午夜| 黄色av网站免费| 最好看的中文字幕| 日本成人三级电影网站| 中文字幕欧美日韩va免费视频| 国产日韩免费视频| 国产在线视频欧美一区二区三区| 久久99精品一区二区三区| 亚洲国产日韩在线一区| 欧美高跟鞋交xxxxxhd| 开心激情五月网| 国产精品mp4| 日韩av在线影院| 午夜影院免费体验区| 亚洲综合自拍网| 日韩欧美在线一区二区| 亚洲成在线观看| 亚洲 欧美 国产 另类| 日韩精品xxxx| 欧美成人午夜电影| 精品一区二区三区在线观看国产| 激情无码人妻又粗又大| av无码精品一区二区三区| 色噜噜狠狠色综合网| 夜夜嗨av一区二区三区免费区 | 中文字幕一区二区三区乱码在线 | 国产人妻大战黑人20p| 日韩中文字幕网站| 国产激情一区二区三区| 久久久久久穴| 极品美妇后花庭翘臀娇吟小说| 国产精品.com| 久久好看免费视频| 国产黄色录像视频| 欧美人伦禁忌dvd放荡欲情| 久久综合久色欧美综合狠狠| 日韩av在线天堂| 欧美xxxxxbbbbb| 国产成人精品免费视频大全最热 | 亚洲女人****多毛耸耸8| 中文字幕av一区 二区| 国产精品伦理一区| 在线观看日本中文字幕| 狠狠久久综合婷婷不卡| 91成人在线观看国产| 亚洲老头老太hd| 精品少妇一区二区三区免费观看| 亚洲韩国日本中文字幕| 国产精品果冻传媒潘| 精品亚洲夜色av98在线观看| 国产成人av一区二区| 午夜精品久久久久久久99老熟妇| 欧美黄色一区二区三区| 天堂在线视频观看| av一区二区三区四区| 午夜欧美2019年伦理| 一区二区三区精密机械公司| 欧美日韩一卡二卡三卡| 亚洲一本大道在线| 欧美激情一区二区三区四区 | 亚洲熟女www一区二区三区| 99国产精品免费视频| 国产又大又黄又粗的视频| 国产精品久久久久久av福利| 国产精品久久久久久久久免费相片| 精品午夜福利在线观看| 免费国产a级片| 91精品久久香蕉国产线看观看| 亚洲国产精品一区二区久| 日韩一区和二区| 精品国产一区久久| 亚洲乱码国产乱码精品精| 欧美综合欧美视频| 欧美日韩精品高清| 亚洲精品视频免费观看| 亚洲黄色在线网站| 国产精品成人在线| 色欧美片视频在线观看在线视频| 91福利免费视频| 北条麻妃亚洲一区| 日韩av免费在线看| 在线一区二区日韩| 久久色视频免费观看| 久久97超碰国产精品超碰| 国产很黄免费观看久久| 蜜桃av一区二区三区电影| 久久99这里只有精品| 激情综合色播五月| 91蜜桃网址入口| 日韩精品电影在线| 欧美日韩一级在线观看| 日本a级片视频| 中文字幕有码av| 久久国产精品久久| 美女精品久久久| 精品欧美乱码久久久久久| 欧美自拍偷拍午夜视频| 五月综合激情婷婷六月色窝| 亚洲视频在线一区二区| 国产成人在线观看| 久久精品第一页| 少妇视频在线播放| 蜜桃av免费看| 日本三级理论片| 亚洲AV成人无码一二三区在线| 国产欧美一区二区三区网站| 亚洲成人av福利| 九九热在线精品视频| 日本一区二区精品| 一本一道久久a久久综合蜜桃| 西西大胆午夜视频| 亚洲国产精品三区| av7777777| 九一在线免费观看| 99免费在线视频| 91啪九色porn原创视频在线观看| 亚洲精品视频在线观看网站| 国产精品久久夜| 777午夜精品视频在线播放| 久久久精品日本| www.99r| 国产一级一级片| 色婷婷在线影院| 亚洲精品一区二区三区蜜桃| 综合电影一区二区三区 | 欧美一区二区大片| 欧美亚洲国产成人精品| 亚洲一级片av| 久久99精品国产| 日韩欧美第一区| 国产精品久久精品| 国产尤物99| 一级肉体全黄裸片| 国产一区久久久| 欧美日韩一区二区在线观看视频| 日韩精品视频在线| 一区二区在线免费视频| 国产精品一国产精品最新章节| 色婷婷狠狠18| 午夜性色福利视频| 亚洲欧美日韩天堂一区二区| 国产精品免费一区二区三区四区| mm131亚洲精品| 婷婷色在线视频| 伊人久久综合97精品| 黄色国产一级视频| 香蕉视频禁止18| 黄色大全在线观看| 欧美日韩一本到| 欧美一区二区三区成人久久片| 亚洲直播在线一区| 日韩写真欧美这视频| 亚洲一区二区精品久久av| 国产·精品毛片| 四虎永久在线精品免费网址| 欧美精品一本久久男人的天堂| 91淫黄看大片| 狠狠色伊人亚洲综合成人| 色哦色哦哦色天天综合| 国产精品有限公司| 可以在线观看av的网站| 美国一区二区三区在线播放 | 久久免费看少妇高潮v片特黄| 9l视频白拍9色9l视频| 91大学生片黄在线观看| 国产经品一区二区| 国产精品欧美激情| 午夜欧美大片免费观看| 在线观看视频亚洲| 欧美va亚洲va国产综合| 欧美三级日韩三级| 色域天天综合网| 婷婷激情综合网| 亚洲激情av在线| 国产精品家庭影院| 国产欧美日韩激情| 久久久精品人体av艺术| 99国产精品久久久久久久久久| 欧美aaaaa成人免费观看视频| 人妻无码中文字幕免费视频蜜桃| 91麻豆成人精品国产| 黄色片中文字幕| 日本一区二区三区免费视频| 在线观看天堂av| 免费黄在线观看| 快灬快灬一下爽蜜桃在线观看| 日本三级日本三级日本三级极| 天美一区二区三区| 成人三级做爰av| www.久久com| 久久精品无码一区二区三区毛片 | 国产偷久久久精品专区| 国产剧情久久久久久| 国产美女主播一区| 91久久国产精品| 97人人香蕉| 精品国产乱码久久久久久郑州公司| 高清不卡日本v二区在线| 成人精品一二区| 久久久久资源| 亚洲国产日韩综合一区| 免费在线精品视频| 中国丰满人妻videoshd|