亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

北大彭一杰教授課題組提出RiskPO,風險度量優(yōu)化重塑大模型后訓練

IP屬地 中國·北京 機器之心Pro 時間:2025-10-15 14:09:35



該項目由北京大學彭一杰教授課題組完成,第一作者為任韜,其他作者包括江金陽、楊暉等。

研究背景與挑戰(zhàn):大模型后訓練陷入「均值陷阱」,推理能力難破界

當強化學習(RL)成為大模型后訓練的核心工具,「帶可驗證獎勵的強化學習(RLVR)」憑借客觀的二元反饋(如解題對錯),迅速成為提升推理能力的主流范式。從數(shù)學解題到代碼生成,RLVR 本應推動模型突破「已知答案采樣」的局限,真正掌握深度推理邏輯 —— 但現(xiàn)實是,以 GRPO 為代表的主流方法正陷入「均值優(yōu)化陷阱」。

這些基于均值的優(yōu)化策略,過度聚焦高概率輸出序列,卻忽略了「低概率但高信息密度」的推理路徑:模型訓練早期就會出現(xiàn)熵坍縮,過早喪失探索能力;面對全錯的難題時,優(yōu)勢函數(shù)直接歸零,模型在薄弱環(huán)節(jié)完全無法學習。最終結(jié)果是,大模型看似在 Pass@1 等短視指標上有提升,實則推理邊界從未拓寬,更無法應對 AIME 競賽題、復雜代碼生成這類高難度任務。如何讓模型主動「啃硬骨頭」,成為大模型后訓練的關鍵瓶頸。



AIME2024 上的學習表現(xiàn)

技術(shù)方案概述:用「風險度量」破局,MVaR + 捆綁策略雙管齊下

為解決傳統(tǒng)均值優(yōu)化的缺陷,北大團隊提出 RiskPO,核心突破在于將風險規(guī)避(risk-averse)理念融入優(yōu)化目標,用「關注獎勵分布左尾(難任務)」替代「追求整體均值」,從根本上引導模型突破推理短板。



論文鏈接:https://arxiv.org/abs/2510.00911v1代碼鏈接:https://github.com/RTkenny/RiskPO









為配合 MVaR 目標,團隊提出「多問題捆綁」策略,將多個問題打包成 bundle 計算獎勵,把稀疏的二進制反饋轉(zhuǎn)化為更豐富的分布信號,徹底解決「難題零梯度」問題—— 比如將 5 個數(shù)學題打包后,模型能從整體得分中捕捉到「部分正確」的學習信號,而非單個題目非對即錯的極端反饋。



算法架構(gòu)圖

實驗:三大任務全面碾壓,難問題上優(yōu)勢更顯著

好的技術(shù)方案,終要靠硬指標說話。北大團隊在數(shù)學推理、代碼生成、多模態(tài)推理三大領域的 10 余個數(shù)據(jù)集上,用數(shù)據(jù)證明了 RiskPO 的突破性 —— 尤其在最能體現(xiàn)推理能力的「硬任務」上,優(yōu)勢遠超 GRPO 及其變體。

在數(shù)學推理領域,RiskPO 在 AIME24(美國數(shù)學邀請賽)任務上表現(xiàn)驚艷:Pass@32 得分比 GRPO 高出近 7 個百分點,比最強基線 DAPO 提升 6.7 個百分點;即便是相對簡單的 MATH500 數(shù)據(jù)集,其 Pass@1 也達到 81.8%,超出 GRPO 2.6 個百分點。

更關鍵的是,隨著評估指標從 Pass@1 轉(zhuǎn)向 Pass@8、Pass@16,RiskPO 的優(yōu)勢持續(xù)擴大 ——這意味著模型不僅能給出更優(yōu)的單條答案,還能探索更多有效推理路徑,真正突破了「采樣效率優(yōu)化」的局限。



數(shù)學推理任務



Pass@k 學習曲線

在跨領域任務中,RiskPO 同樣穩(wěn)定領先:代碼生成任務 LiveCodeBench 上,Pass@1 比 GRPO 提升 1 個百分點;多模態(tài)幾何推理任務 Geo3K 上,準確率達到 54.5%,優(yōu)于 DAPO 的 54.3%。這種「全場景增益」,證明了風險度量優(yōu)化的泛化能力。



其他任務

理論 + 消融:熵坍縮緩解有依據(jù),參數(shù)設計有章法

RiskPO 的性能突破,并非依賴工程調(diào)參,而是有扎實的理論支撐和嚴謹?shù)南趯嶒烌炞C。



高熵更新定理

從理論層面,團隊證明了「風險規(guī)避更新」能有效緩解熵坍縮:通過分析策略熵的變化機制,發(fā)現(xiàn) RiskPO 的 MVaR 目標函數(shù)能降低「優(yōu)勢 - 對數(shù)概率」的相關性 —— 相比 GRPO,模型不會過度強化已掌握的易任務,從而保持更高的熵值和探索能力。

實驗中也能清晰看到:訓練 500 步后,GRPO 的熵值已趨近于 0,而 RiskPO 仍能維持 0.2 以上的熵水平,確保對難任務的持續(xù)探索。



訓練集 DAPOMATH-17k 上的各項指標

值得注意的是,在訓練過程中,若僅觀察以均值為核心的指標曲線(如平均獎勵),GRPO 與 RiskPO 的表現(xiàn)幾乎難分伯仲,甚至 RiskPO 因更高的探索性還伴隨輕微波動;但切換到風險敏感指標(如下尾 RVaR、MVaR 獎勵)時,兩者差距立刻凸顯 ——RiskPO 的曲線始終保持顯著領先,且隨訓練推進持續(xù)攀升。

這種「均值相近、風險指標懸殊」的現(xiàn)象,再結(jié)合最終測試集上 RiskPO 在 Pass@k(尤其是高 k 值)、難任務(如 AIME 競賽題)上的優(yōu)勢,進一步印證了:均值目標只能讓模型在「已知能力范圍內(nèi)優(yōu)化采樣效率」,而風險度量目標才是推動模型突破推理邊界、真正提升核心能力的理想方向。



不同風險偏好對比實驗



結(jié)果顯示,風險尋求模型的熵值在訓練早期就劇烈坍縮—— 訓練 150 步后熵值已降至 0.1 以下,遠低于 RiskPO 的 0.2;性能上,風險尋求模型在訓練 50 步后便進入平臺期,MATH 數(shù)據(jù)集 Pass@1 僅從 52% 提升至 54%,而 RiskPO 則持續(xù)優(yōu)化至 56%,實現(xiàn) 1.5 倍的提升幅度。

這一對比清晰證明,聚焦易任務的風險尋求策略會加速模型「固步自封」,只有風險規(guī)避才能驅(qū)動模型突破推理邊界

免責聲明:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。

全站最新
制服丝袜激情欧洲亚洲| 亚洲午夜精品久久久久久性色| 91久久国产综合| 国产精品福利在线观看网址| 国产色产综合产在线视频| 亚洲第九十七页| 国产精品女人久久久久久| 亚洲国产一二三| 免费黄色av片| av在线com| 久久九九精品99国产精品| 久久久91精品国产一区二区三区| 国产精品综合激情| 日韩精品大片| 在线看国产精品| 九九热久久免费视频| 天天操天天干天天玩| 免费99精品国产自在在线| 一区二区三区美女视频| 丰满岳乱妇国产精品一区| 日本少妇xxx| 欧美在线日韩精品| 亚洲高清久久久久久| 国产日韩欧美a| 亚洲精品国产精品乱码视色| 亚洲综合激情视频| 国产欧美在线看| 欧美午夜电影在线播放| 懂色一区二区三区免费观看| 日本中文字幕久久| 国产ts丝袜人妖系列视频| 先锋影音日韩| 国产精品国产三级国产aⅴ9色| 欧美日韩国产一级| 国产精品拍天天在线| 久久一区亚洲| 久久久精品免费看| 添女人荫蒂视频| 国产精品后入内射日本在线观看| 亚洲天堂网在线视频| 九九热这里只有精品免费看| 一个色综合av| 久久综合狠狠综合久久激情| 精品综合久久久久久8888| 亚洲av成人无码网天堂| 丝袜美腿亚洲色图| 亚洲精品视频网| 97人妻精品一区二区三区| 亚洲精品视频网| 亚洲av无码乱码国产精品| 中国a一片一级一片| 国产一级18片视频| 中文字幕日韩国产| 亚洲第一视频在线播放| 免费看国产片在线观看| 久久综合影音| jizz一区二区| 国产精品素人一区二区| 精品香蕉在线观看视频一| 亚洲午夜久久久影院| 欧美成aaa人片免费看| 欧美有码在线视频| 狠狠色噜噜狠狠色综合久| 男人的天堂视频在线| 好男人www社区| 摸摸摸bbb毛毛毛片| 久久不卡免费视频| 日一区二区三区| 国产午夜精品在线观看| 欧美三级视频在线播放| 亚洲偷熟乱区亚洲香蕉av| 国产不卡一区二区在线播放| 日韩福利影院| 伊人五月天婷婷| 久久久久99精品成人| 精品黑人一区二区三区| 国产精品福利电影一区二区三区四区 | 日本激情一区二区| 91在线观看一区二区| 亚洲国产一区视频| 中文字幕日韩av综合精品| 欧美诱惑福利视频| 亚洲视频精品一区| 国产精品成人免费一区久久羞羞| 三级黄色录像视频| 亚洲狼人综合网| 91蜜桃在线免费视频| 在线看国产日韩| 一本一本久久a久久精品综合小说| 性欧美亚洲xxxx乳在线观看| 国产精品区二区三区日本| 潘金莲一级淫片aaaaa免费看| 亚洲自拍第三页| 国产精品1000| 蜜桃视频一区二区| 红桃av永久久久| 欧美成人精品在线| 亚洲巨乳在线观看| 大胸美女被爆操| 午夜av入18在线| 色偷偷成人一区二区三区91| 欧美专区第一页| 97av中文字幕| 中文字幕在线观看视频免费| 中文字幕av不卡| 色综合伊人色综合网| 四虎影院一区二区三区| 全程偷拍露脸中年夫妇| 久久人人97超碰com| 九九精品视频在线观看| 欧美精品久久久久久久久久久| 国产精品二区一区二区aⅴ| 久久久蜜桃精品| 国产丝袜一区二区三区| 天堂精品视频| 天堂在线免费观看视频| 一个色妞综合视频在线观看| 成人天堂噜噜噜| eeuss中文字幕| 欧美国产一区视频在线观看| 欧美亚洲一区在线| 国产伦精品一区二区三区妓女| 激情小说亚洲一区| 欧美精品一区三区| 欧美日韩一区二区三区四区五区六区| 免费在线观看日韩欧美| 久久中文字幕国产| 国产中文字幕一区二区| 亚洲码国产岛国毛片在线| 999国内精品视频在线| 日本高清不卡码| 欧美精品久久久久久久多人混战 | 2018中文字幕第一页| 希岛爱理中文字幕| ...av二区三区久久精品| 国自产精品手机在线观看视频| 亚洲 自拍 另类小说综合图区| 欧美人妻精品一区二区三区| 亚洲一区自拍偷拍| 99久久一区三区四区免费| 91香蕉国产线在线观看| 成人免费观看视频| 69av在线视频| 能直接看的av| 欧美日韩在线视频一区二区| 国产日韩精品综合网站| 成人免费视频入口| 亚洲成av人片| 一本久久a久久精品vr综合| 日韩黄色一级大片| 日韩欧美的一区| 污污污污污污www网站免费| 好吊色在线观看| 久久久国产成人精品| 2一3sex性hd| 国产91高潮流白浆在线麻豆| 国产免费一区视频观看免费| 久久久久97国产| 欧美日韩在线视频一区| 欧美精品一区免费| 国产一区二区视频在线| 久久精品国产久精国产一老狼 | 国语对白永久免费| 欧美精品视频www在线观看| 亚洲国产精品一区二区第一页| 天天操天天干天天爱| 久久久久久久激情视频| 亚洲欧洲综合网| 欧美一卡2卡三卡4卡5免费| 激情六月天婷婷| xnxx国产精品| 亚洲国产日韩欧美| 久久9热精品视频| 欧美国产第一页| 久久精品国产亚洲av无码娇色 | 欧美成人手机在线| 波多野结衣啪啪| 亚洲欧美一区二区三| 欧美综合第一页| 欧美日韩在线视频免费播放| 中文字幕欧美日本乱码一线二线 | 欧美综合国产精品久久丁香| 综合久久中文字幕| 2019日本中文字幕| 婷婷丁香花五月天| 色七七在线观看| 日韩成人av网址| 亚洲av成人精品毛片| 成人免费无码av| 亚洲天堂免费在线| 国产成人av一区二区三区在线观看| 中文字幕永久有效| 免费97视频在线精品国自产拍| 超碰福利在线观看| 精品国产91洋老外米糕| 老牛国产精品一区的观看方式| 色一情一区二区三区四区| 欧美日韩在线看| 一级特黄免费视频| 毛片在线视频播放| 久久久999精品免费| 国产欧美一区二区精品久导航 | 国产在线乱码一区二区三区| zjzjzjzjzj亚洲女人| 国产精品久久久久999| 亚洲国产成人精品视频| 国产深喉视频一区二区| 中文字幕视频三区| 91久久精品国产91久久| 亚洲欧洲国产日韩| 国产毛片aaa| 中文字幕日韩精品久久| 国产情侣在线视频| 中文字幕在线看视频国产欧美在线看完整 | 激情久久av一区av二区av三区| 怡春院在线视频| 最新国产精品自拍| 国产一区视频在线播放| 欧美色精品天天在线观看视频| 玖玖视频精品| 农村老熟妇乱子伦视频| 国产精品国色综合久久| 永久免费毛片在线播放不卡| 亚洲精品第一国产综合野| 国产视频在线免费观看| 国产一区二区三区在线观看网站| 国产中文字幕免费| 日本丰满大乳奶| 91在线视频精品| 日韩欧美一区中文| 久久尤物电影视频在线观看| 三级影片在线观看| 亚洲人成色77777| 国产精品久久久久免费| 一本色道久久综合亚洲精品小说 | 精品国产中文字幕| 久久中文久久字幕| 精品美女一区二区| 中文字幕一区二区三区蜜月| 另类小说综合欧美亚洲| 亚洲色图综合区| 日韩国产精品一区二区| 热99在线视频| 亚洲国产精品成人va在线观看| 亚洲二区视频在线| 国产乱子轮xxx农村| 激情综合网俺也去| 日韩av综合网站| 欧美日韩黄色一区二区| 国产精品久久久久影院色老大 | 国产精品视频你懂的| 国产在线观看你懂的| 国产一级爱c视频| 久久成人资源| 日本在线观看天堂男亚洲 | 成人免费网站在线| 欧美俄罗斯乱妇| 色妞色视频一区二区三区四区| 精品国产精品一区二区夜夜嗨| 国产亚洲视频系列| 精品一二三四区| 国产美女www爽爽爽视频| 久久精品视频1| 欧美成人aaaaⅴ片在线看| 手机av在线不卡| 2025中文字幕| 人妻丰满熟妇av无码区app| 女人帮男人橹视频播放| 成人免费看片'免费看| 欧美国产综合在线| 日韩精品在线中文字幕| 亚洲精品久久久久久久蜜桃臀| 欧美狂野激情性xxxx在线观| 哪个网站能看毛片| 国产精品宾馆在线精品酒店| av免费网站观看| 国产青青在线视频| 在线观看日本www| 97在线免费公开视频| 国产一区二区三区在线观看视频| 精品国产免费人成电影在线观看四季| 一本一道久久a久久精品| 欧美日韩专区在线| 在线精品播放av| 久久精品视频一| 国产成人综合久久| 国产玖玖精品视频| 精品视频导航| 欧美一级片免费播放| 99999精品| 国产在线一二区| av手机免费看| 国产精品456露脸| 欧美极品aⅴ影院| 一本一道久久a久久精品| 日韩免费福利电影在线观看| 自拍偷拍欧美激情| 欧美一区二区网站| 亚洲片av在线| 国产成人鲁鲁免费视频a| 日韩欧美一区二区在线观看| 国产在线观看福利| 日韩福利视频在线| 国产无遮挡aaa片爽爽| 久久午夜精品一区二区| 国产精品久久久久影院| 亚洲二区在线视频| 久久视频国产精品免费视频在线| 国产精品高清网站| 日韩欧美亚洲天堂| 国产又粗又猛又爽又黄| 中文在线字幕免费观| 麻豆精品一区二区三区| 精品成人av一区| 欧美福利视频网站| 超级碰在线观看| 欧美日韩高清在线一区| 婷婷综合在线视频| 国产美女精品人人做人人爽| 亚洲一区在线视频观看| 欧美寡妇偷汉性猛交| 亚洲一卡二卡三卡| 午夜精品一区二区三级视频| 麻豆久久久久久久| 亚瑟在线精品视频| 日韩av电影在线网| 色婷婷激情视频| 国产aⅴ一区二区三区| 黑人与娇小精品av专区| 国产999精品久久久| 春日野结衣av| 国产黄色一区二区| 7777精品伊人久久久大香线蕉超级流畅 | 中文一区二区完整视频在线观看| 深夜成人在线观看| 妞干网在线免费视频| 国产 日韩 欧美 精品| 欧美一区二区人人喊爽| 亚洲www视频| 国产一二三四区| 亚洲视频中文字幕| 久久国产精品影视| 中文字幕三级电影| 日本怡春院一区二区| 日韩av在线高清| 国产97在线 | 亚洲| 免费成人美女在线观看.| 尤物tv国产一区| 日日橹狠狠爱欧美超碰| 波多野结衣绝顶大高潮| 欧美一卡2卡三卡4卡5免费| 国产美女在线一区| 蜜桃av综合| 欧美黄色片免费观看| 久久精品国产亚洲av久| 中文字幕巨乱亚洲| 日本精品久久久| 人妻体内射精一区二区三区| 国产精品色哟哟网站| 91成人伦理在线电影| 动漫性做爰视频| japanese国产| 一区二区亚洲欧洲国产日韩| 四虎成人在线播放| 国产精品欧美精品| 国产精品一区二区欧美| 一区二区三区www污污污网站| 亚洲乱码一区二区| 波多野结衣三级视频| 亚洲欧洲av在线| 亚洲人久久久| 蜜桃视频第一区免费观看| 国产成人久久久| 蜜臀久久精品久久久用户群体| 欧美日韩一区二区欧美激情| 青青草原成人| 久久99久久99小草精品免视看| 国产精品高清在线| 国产精品欧美激情在线| 在线中文字幕日韩| 国产精品第九页| 日韩久久免费av| 免费看污片网站| 欧美性大战久久久久久久| 成人做爰www看视频软件| 色综合视频在线观看| 日本亚洲一区二区三区| 一本久久a久久免费精品不卡| 国产精品久久久久7777| 国产精品视频在线看| 久久久亚洲国产精品| 国产日韩av一区| 国产av人人夜夜澡人人爽麻豆| 欧美高清一级片在线观看| 国产精品jizz在线观看老狼| 久久无码av三级| 中国 免费 av| 亚洲美女精品一区| 欧美一级特黄a| 欧美日韩在线播放三区| 毛茸茸多毛bbb毛多视频| 精品国产露脸精彩对白| 真实国产乱子伦对白在线| 亚洲欧美综合另类中字| 一级黄色在线观看| 亚洲自拍欧美另类| 欧美精彩视频一区二区三区| 午夜免费看毛片| 亚洲精品成人久久电影| 暗呦丨小u女国产精品|