亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

以判別式監督學習強化推理LLM,解決難度偏差和熵崩塌難題

IP屬地 中國·北京 機器之心Pro 時間:2025-10-28 12:17:41



作者介紹:德州農工大學博士生李港,專注于設計和應用高效算法到大規模機器學習和人工智能任務,包括增強大型基礎模型的后訓練算法、對抗性魯棒學習算法和分布魯棒性學習算法。曾發表數篇論文在 NeurIPS、ICML、KDD 等頂會, 并作為主要貢獻者之一發布了針對不平衡分類任務的知名軟件包 LibAUC。

DeepSeek-R1 的成功吸引了人們對群體相對策略優化(GRPO)作為大型推理模型(LRM)強化學習方法的廣泛關注。

在本文中,作者分析了二元獎勵(binary reward)設置下的 GRPO 優化目標,發現了由其群體相對優勢函數引起的問題難度偏差的固有局限性,并且揭示了 GRPO 與傳統判別式監督學習方法之間的聯系。

基于這些分析發現,作者提出了一個新穎的判別式約束優化(DisCO)框架來強化大型推理模型。該框架基于判別式學習的基本原則:增加正確答案的得分,同時減少錯誤答案的得分。

與 GRPO 及其變體相比,DisCO 具有以下優勢:

它通過采用判別式優化目標完全消除了難度偏差通過使用非裁剪評分函數和約束優化方法,解決了 GRPO 及其變體的熵不穩定性,得到了長期穩定的訓練動態;它允許結合先進的判別式學習技術來解決數據不平衡問題,例如在訓練過程中一些問題的錯誤答案遠遠多于正確答案。

在增強大型模型的數學推理能力方面的實驗表明,DisCO 大幅優于 GRPO 及其改進版本(如 DAPO),在 1.5B 模型的六個基準任務中,平均增益比 GRPO 高 7%,比 DAPO 高 6%。值得注意的是,最大響應長度(max response length)為8k 的 DisCO甚至優于最大響應長度為 32k 的 GRPO。

論文以「5,5,5,5」的高分被 NeurIPS 2025 接收。



論文標題:DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization論文地址:https://arxiv.org/abs/2505.12366開源模型地址:https://huggingface.co/collections/ganglii/disco-681b705decb9979e65614d65GitHub 地址:https://github.com/Optimization-AI/DisCO

GRPO 的難度偏差問題分析

GRPO 的核心思想在于對輸入問題 q 生成多個輸出,并定義群體相對優勢函數。當采用期望形式而非經驗平均時,其優化目標為:







其中:



從上面的變式分析中,作者有兩個重要發現:

1. 與判別式監督學習的聯系



2. 難度偏差(Difficulty Bias)





提出方法:判別式強化學習

1. 判別式目標函數(類似 AUC 優化)

基于上述與 AUC 最大化聯系的分析發現,作者直接從判別式學習的原則重新設計了新的判別式強化學習框架:



為了避免其他研究發現的由裁剪操作引起的熵崩塌現象,作者設計選擇非裁剪評分函數, 例如



2. 基于 DRO 的判別式目標函數(類似局部 AUC 優化)

基于判別式學習原則設計目標函數的一個優點是能夠利用文獻中先進監督學習技術來改進訓練。推理模型的強化學習微調的一個關鍵挑戰就是稀疏獎勵,這導致答案生成的不平衡。具體來說,對于一些問題,錯誤答案的輸出的數量可能大大超過正確答案的數量,這反映了一個經典的數據不平衡問題。這個問題在判別式學習領域中得到了廣泛的研究。

為了解決這個問題,作者利用局部 AUC 優化設計了分布魯棒性優化(DRO)目標:



3. 約束優化(穩定訓練)

為了穩定訓練,作者借鑒 TRPO 中的信任域思想,加入 KL 散度約束,形成以下優化問題:



不同于 TRPO 的二階優化方法,作者采用近期發展的一種非凸不等式約束優化策略,將約束替換為平滑的方形鉸鏈懲罰項 (squred hinge penalty):





實驗結果與分析

測試效果對比

作者采用平均 16 次輸出的 Pass@1 作為評價指標,在六個數學基準數據集上評估了 DisCO 和其他基線方法。

從下表觀察到,作者提出的 DisCO 方法始終顯著優于其他基線方法。值得注意的是,訓練和推理長度均為 8k 的 DisCO (log-L)比 GRPO 平均提高了 7%,超過了以最大 24k 長度訓練并以 32k 長度評估的 DeepScaleR-1.5B-Preview。在 7B 模型實驗中,DisCO 也大幅優于所有基線方法,比 GRPO 平均提高了 3.5%



在上面這張表格中,作者展示了多種強化學習方法在 1.5B 模型上的效果對比。作者也加入了 OpenAI 的 o1-preview 模型作為參考基線。 表中的 MRL(Max Response Length)表示訓練或測試時使用的最大響應長度,限制模型能生成多長的推理結果。 其中用陰影標注的模型,是其他團隊所訓練的成果,相應的指標也來自他們的原始論文或 DeepScalaR 項目。除了這些以外,其余結果要么來自現有模型的直接評估,要么是基于不同方法訓練后得到的結果。 值得注意的是,表格下半部分的所有方法,都是基于相同的數據集(DeepScaleR),對 DeepSeek-R1-Distill-Qwen-1.5B 模型進行微調的結果。其中,DS 是 DeepSeek-R1 的縮寫,DSR 是 DeepScalaR 的縮寫。



訓練動態對比

隨著大規模強化學習訓練成為改進推理模型的核心技術,學習算法的穩定性至關重要,因為學習穩定性決定了學習算法是否適用于大規模訓練。作者從訓練獎勵和生成熵的角度比較了不同方法的訓練動態。

從下圖對 1.5B 和 7B 模型進行微調的實驗中,我們可以看到,由于 GRPO、GRPO-ER、Dr. GRPO 的熵崩塌和 DAPO 的熵過度增長,它們都只能獲得早熟的確定性策略或高度隨機的策略,所有基線都出現了過早飽和。使用 KL 散度正則化的 TRPA 在后面的步驟中也觀察到不穩定的生成熵。

相比之下,作者提出的 DisCO 使用兩種非裁剪評分函數的方法最為穩定,訓練獎勵不斷增加,生成熵保持相對穩定。



上圖展示不同方法在訓練過程中的動態表現:左邊兩張圖展示的是在訓練 1.5B 模型時的訓練情況,右邊兩張圖則對應于訓練 7B 模型。圖 (a) 和 (c) 展示了訓練獎勵隨訓練步數的變化情況,獎勵是對每一步中用于訓練的問題所生成答案的平均得分。圖 (b) 和 (d) 展示的是生成結果的熵值(反映輸出的多樣性)隨訓練步數的變化趨勢。

消融實驗



從下圖中可以看到,作者提出的每個組件在 DisCO 的改進中都很重要,其中使用非裁剪評分函數是至關重要的。



總結

在這項工作中,作者提出了一種新的判別式約束優化框架用于強化大型推理模型,避免了難度偏差和熵崩塌問題。數學推理實驗表明,與 GRPO 及其最近的變體相比,本文方法具有顯著的優越性。

雖然這項工作主要關注的是二元獎勵,但是對于非二元獎勵,可以考慮利用監督學習中排序目標函數或者其他新穎的評分函數來進行設計。作者將應用判別式約束優化微調更大的模型或其他推理任務留作后續研究。

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

国产一级不卡毛片| 国产91色在线观看| 激情久久久久久久久久久久久久久久 | 亚洲色图17p| 日本一区免费视频| 亚洲人成色777777老人头| 欧美美女黄色网| 亚洲欧美激情视频| 亚洲一区二区视频在线观看| 国产无遮挡裸体免费视频| 欧美日韩国产综合草草| 久久久久麻豆v国产| 久久久久久久爱| 久久精品亚洲国产| 欧美三电影在线| 国产精品一区二区你懂的| chinese国产精品| 久久久精品一区二区涩爱| 男女性杂交内射妇女bbwxz| 国内精品美女av在线播放| 国产精品久久国产精麻豆99网站| 国产精品一区一区三区| 国产成人精品视频免费| 亚洲欧美日韩天堂一区二区| 国产乱子伦精品无码码专区| 一区二区三区国产福利| 欧美一级二级三级| 久久久久久久有限公司| 精品五月天久久| 欧美日韩一级视频| 日韩午夜在线播放| 久久精品国产精品| 国产成人亚洲精品自产在线| 特黄特黄一级片| 先锋影音亚洲资源| 久久精品第九区免费观看| 久久精品免视看| a级大片在线观看| 91精品国产综合久久香蕉| 91极品美女在线| 日韩精品自拍偷拍| 中文幕一区二区三区久久蜜桃| 午夜精品久久久久久久久久| 一本色道**综合亚洲精品蜜桃冫| 不卡的av一区| 日本中文字幕在线| 国产日韩欧美高清| 在线观看亚洲一区| 欧美日韩视频在线观看一区二区三区| 午夜精品一区在线观看| 亚洲一区二区欧美日韩| 色哟哟精品一区| 一级黄色片在线播放| 色七七在线观看| 亚洲一区二区三区成人在线视频精品| 亚洲电影中文字幕| 男人的天堂成人| 在线视频不卡国产| 国内外成人免费在线视频| 国产精品视频一区二区三| 国产激情视频一区二区三区欧美| 久久69精品久久久久久久电影好| 99re这里只有| 亚洲欧美自拍视频| a在线观看免费| 精品综合免费视频观看| 国产精品福利一区二区三区| 精品国产成人在线| 真实的国产乱xxxx在线91| 污污网站免费看| 天堂精品视频| 国产精品扒开腿做爽爽爽的视频| 亚洲人成无码www久久久| 国产性猛交普通话对白| 国产一级二级三级| www.久久成人| 精品99久久久久久| 亚洲成人福利视频| 欧美体内she精视频| 欧美成人综合一区| 久久精品视频6| 日韩国产在线观看一区| 9人人澡人人爽人人精品| 亚洲欧洲韩国日本视频| 欧美日本一区二区在线观看| 亚洲制服丝袜在线| 欧美精品一区二区久久久| 日韩a一级欧美一级| 狠狠躁狠狠躁视频专区| 九九热精品免费视频| 国产精品―色哟哟| av一区二区三| 欧美男女性生活在线直播观看| 亚洲在线第一页| 日本熟妇毛耸耸xxxxxx| 欧美日韩一区二区三区视频| 99电影网电视剧在线观看| 亚洲一二区在线| 久久婷婷中文字幕| 久久精品视频5| 一二三四社区欧美黄| 一本色道**综合亚洲精品蜜桃冫| 99v久久综合狠狠综合久久| 国产麻豆欧美日韩一区| 久久午夜电影网| 欧美三级日韩三级| 中文字幕综合在线观看| 中文字幕乱码av| 国产欧美一区二区三区沐欲| 清纯唯美亚洲综合| 亚洲精品久久久久avwww潮水| 99在线免费观看视频| 亚洲精品18在线观看| 成人免费淫片视频软件| 97久久久久久久| 极品美女销魂一区二区三区 | 日韩精品在线不卡| 亚洲精品国产精品国自产网站按摩| 日本精品久久久久| 欧美一区二区三区免费视| 日本美女xxx| 国产曰批免费观看久久久| 色与欲影视天天看综合网| 久久免费福利视频| 玖草视频在线观看| 伊人影院综合网| 久久伊人蜜桃av一区二区| 97精品久久久中文字幕免费| 久久这里只有精品18| 欧亚乱熟女一区二区在线| 熟妇人妻系列aⅴ无码专区友真希| 99视频国产精品免费观看a| 久久国产婷婷国产香蕉| 日韩欧美二区三区| 午夜激情福利电影| 狠狠色狠色综合曰曰| 91国偷自产一区二区三区观看 | 偷偷色噜狠狠狠狠的777米奇| 91在线观看污| 亚洲精品91美女久久久久久久| 久久久视频精品| 免费观看污网站| 欧美精品少妇一区二区三区| 久久精品国产成人av| 国产精品揄拍500视频| 日本一级淫片免费放| 久久精品欧美一区二区三区不卡 | 国产精品18久久久久久久久 | 欧美色另类天堂2015| 国产精品久久波多野结衣| 国产美女网站在线观看| aaa毛片在线观看| 亚洲国产欧美一区二区三区丁香婷| 欧美精品成人一区二区在线观看| 色悠久久久久综合欧美99| 99re这里只有精品在线| 国产一区一区三区| 欧美日韩精品欧美日韩精品一 | 久久国产精品影院| 色偷偷久久人人79超碰人人澡| 久久琪琪电影院| 日韩欧美综合视频| 日韩av免费在线| 高清乱码毛片入口| 日韩精品中文字幕久久臀| 亚洲av综合色区无码另类小说| 欧美一区二区免费视频| 国产日韩欧美自拍| 国产精品午夜电影| 婷婷中文字幕在线观看| 成年无码av片在线| 精品国产31久久久久久| 国产91免费在线观看| 在线观看av日韩| 欧美一级片在线播放| av在线不卡电影| 精品国产乱码久久久久久88av| 亚洲欧洲无码一区二区三区| 亚洲国产精品一区二区久| 在线看成人av| 午夜视频在线观看一区| 日韩影视精品| 精品爽片免费看久久| 国产不卡精品视频| 国产中文字幕日韩| 精品影视av免费| 日韩欧美国产免费| 天堂资源在线播放| 99影视tv| 国产精品美女一区二区| 亚洲一区二区三区四区五区六区| 蜜桃精品久久久久久久免费影院| 欧美精品乱码久久久久久| 亚洲无码精品国产| 中文字幕在线播放一区| 欧美有码在线观看| 蜜桃久久久久久| www.黄色网址.com| 国产一区二区三区在线观看网站| 久久观看最新视频| 欧美视频专区一二在线观看| 中文字幕精品亚洲| 欧美欧美一区二区| 波霸ol色综合久久| 亚洲老头同性xxxxx| 欧美日韩在线播放| 国产在线视频精品一区| 欧美成欧美va| 国产成人久久久精品一区| 亚洲欧美综合在线观看| 只有这里有精品| 制服.丝袜.亚洲.另类.中文| 精品国产18久久久久久| 韩国精品久久久999| 日韩在线视频第一页| 国产成人一二三区| 国产精品久久久久aaaa九色| 国产精品亚洲一区二区三区在线| 天天综合网日韩| 久久久国产一区二区三区| 亚洲天天做日日做天天谢日日欢| 国产精品久久一区| 精品国产91久久久久久老师| 国产成人久久精品77777综合| 国产96在线 | 亚洲| 国产伦精品一区二区| 高清免费日韩| 国产精品99久久久久久www| 日韩视频一区在线| 国产无一区二区| 免费在线不卡av| 欧美一区二区影视| 亚洲精品久久7777777| 99re免费视频精品全部| 久久久久在线视频| 老汉色影院首页| 91网站在线观看视频| 精品人妻一区二区三| 亚洲免费视频网站| 日韩成人一级大片| 青青视频免费在线观看| 亚洲精品免费av| 538在线一区二区精品国产| 懂色av中文字幕| 能免费看av的网站| 日韩国产欧美一区| 久久亚洲午夜电影| 中文字幕一区二区三区有限公司| 九色91在线视频| 亚洲最大av在线| 久热精品视频在线观看| 国产精品免费视频一区| 亚洲国产av一区二区三区| 国产美女三级视频| 久久精品第九区免费观看| 欧美一级生活片| 成人免费视频国产免费麻豆| 91亚洲一线产区二线产区| 毛片一区二区三区四区| 永久免费在线看片视频| 日韩中文字幕网| 欧美日韩国产成人在线91| 国产精品欧美久久久久一区二区| 亚洲国产日韩一区无码精品久久久| 66m—66摸成人免费视频| 国产成人精品久久久| 中文字幕在线视频日韩| 国产 日韩 欧美 精品| 福利网在线观看| 欧美日韩亚洲丝袜制服| 欧美成人精品网站| 中文字幕免费高| 亚洲国产91精品在线观看| 色呦呦免费观看| 欧美女人性生活视频| 亚洲欧美综合v| 韩国理伦片一区二区三区在线播放 | 免费黄色国产视频| 亚洲va国产va天堂va久久| 亚洲高清免费视频| 久久久久久不卡| av影院在线播放| 中文字幕亚洲情99在线| 成人av网站在线观看免费| 蜜臀久久99精品久久久久久| 福利视频一区二区三区| 欧美色手机在线观看| 手机看片福利在线| 亚洲av毛片在线观看| 国产精品高潮呻吟久久av野狼| 亚洲宅男天堂在线观看无病毒| 欧美 亚洲 另类 激情 另类| 欧美午夜小视频| 欧美猛交免费看| 中文字幕一区二区三区乱码在线| 超碰手机在线观看| 欧洲亚洲一区二区| 日韩精品免费视频| 91免费视频网址| 欧美日韩国产精品综合| 国产高清精品软男同| 中文字幕久热精品视频在线| 中文字幕不卡在线| 久久精品偷拍视频| 福利在线一区二区三区| 4438全国亚洲精品在线观看视频| 亚洲国产日韩一级| 成 人 黄 色 片 在线播放| 91香蕉国产线在线观看| 成人h片在线播放免费网站| 色婷婷av一区二区三区大白胸| 国内爆初菊对白视频| 成人精品在线观看视频| 青青成人在线| 搡老女人一区二区三区视频tv| 国产精品久久久久久久岛一牛影视 | 日韩中文字幕av在线| 中文字幕亚洲自拍| 亚洲免费av观看| aaa国产视频| 黄色国产在线观看| 日韩欧美一区二区视频在线播放| 在线亚洲男人天堂| 亚洲免费高清视频在线| 亚洲欧美日本在线观看| 青青操在线播放| 国产一级爱c视频| 欧美主播福利视频| 精品国产三级电影在线观看| 久久精品亚洲国产奇米99| 亚洲综合一区中| 国产真实乱人偷精品| 亚洲日本精品国产第一区| 性亚洲最疯狂xxxx高清| 欧美日韩在线播放三区| av成人免费在线| 国产a级免费视频| 国产美女免费网站| 好吊妞无缓冲视频观看| 97人人香蕉| 久久天天躁狠狠躁老女人| 欧美在线一二三| 久久综合成人精品亚洲另类欧美| 一级特黄特色的免费大片视频| 亚洲一区二区观看| 日韩中文在线字幕| 国产精品精品一区二区三区午夜版| 精品国产伦一区二区三区观看体验 | 国产精品久久久久野外| 日日噜噜噜夜夜爽爽| 成人国产精品免费视频| 不卡伊人av在线播放| 欧美一卡二卡在线| 亚洲国产人成综合网站| 成人性生交大片| 黄色av网站免费在线观看| 青青草免费av| 私密视频在线观看| 成人免费xxxxx在线视频| 日韩久久精品一区二区三区| 国产精品网站视频| 精品国产一区二区三区四区在线观看| 欧美性受xxxx| 亚洲男同1069视频| 国产成人精品免费看| 后进极品白嫩翘臀在线视频| 五月天婷婷丁香| 国产毛片欧美毛片久久久| 精品日韩久久久| 国产免费一区二区视频| 欧美精品123| 91综合免费在线| 日本精品久久久久影院| 中文字幕一区日韩电影| 日韩精品一区二区三区蜜臀| 一本大道av一区二区在线播放| 亚洲色图视频网站| 91美女在线视频| 国产精品69毛片高清亚洲| 午夜av入18在线| 超碰在线人人干| 国产情侣自拍小视频| 91青青草视频| 久久狠狠高潮亚洲精品| 中文字幕在线观看2018| 国产免费无遮挡吸奶头视频| 中文字幕第3页| 亚洲精品在线视频播放| 亚洲人辣妹窥探嘘嘘| 欧美三级一级片| 国产自产在线视频| 成年人视频网站免费| japanese在线播放| 亚洲区一区二区三区| 欧美三日本三级少妇三99| a级国产乱理论片在线观看99| 国产在线高清精品| 国产女同一区二区| 国产精品久久久久久久美男| 日韩免费黄色av| 国产91在线视频| 国产精品欧美日韩一区二区| 国产精品高清免费在线观看| 国产精品视频99| 91免费人成网站在线观看18| 日韩免费高清在线观看| 国产精品99蜜臀久久不卡二区| 国产91色在线|免| 成人免费视频在线观看超级碰| 成人在线视频福利|