亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

清華團隊:1.5B 模型新基線!用「最笨」的 RL 配方達到頂尖性能

IP屬地 中國·北京 機器之心Pro 時間:2025-11-13 16:22:44



如果有人告訴你:不用分階段做強化學習、不搞課程學習、不動態調參,只用最基礎的 RL 配方就能達到小模型數學推理能力 SOTA,你信嗎?

清華團隊用兩個 1.5B 模型給出了答案:不僅可行,還特別高效。

核心發現: 單階段訓練 + 固定超參數 = SOTA 性能 + 省一半算力意外之喜: 訓練曲線平滑得像教科書,4000 步沒遇到任何 "典型問題"關鍵啟示: 充分 scale 的簡單 baseline,可能比我們想象的強大得多





技術博客:https://relieved-cafe-fe1.notion.site/JustRL-Scaling-a-1-5B-LLM-with-a-Simple-RL-Recipe-24f6198b0b6b80e48e74f519bfdaf0a8開源模型:https://huggingface.co/collections/hbx/justrl評測腳本:https://github.com/thunlp/JustRL

背景:RL 訓練小模型的 "技術軍備競賽"

2025 年初,DeepSeek-R1 開源后,如何用 RL 訓練 1.5B 級別的推理模型成為了熱門研究方向。短短幾個月內,這個領域經歷了快速的技術演進:早期的工作嘗試超參數調優和長度控制;隨后出現了多階段漸進訓練,每個階段調整數據難度和 RL 超參數;也有方法引入了課程學習,用部分解作為提示精心設計難度梯度;最激進的做法直接將 rollout 數量提升到 512 次,用算力進行暴力探索。



近期工作用到的技術對比

這些方法都取得了不錯的效果,性能在不斷刷新。 動態采樣、KL 重置、自適應懲罰、長度控制…… 各種穩定技術和優化 trick 被逐一引入。每個新工作都在前人基礎上增加新的模塊和機制,整個訓練 pipeline 變得越來越復雜。

然而,這種復雜度的增長也帶來了困惑:這些技術真的都是必要的嗎?當不同工作組合使用不同的技術子集時,我們很難分辨哪些是解決根本問題的,哪些只是在修補其他設計選擇帶來的副作用。更重要的是,如果 baseline 本身就不穩定,那么為了穩定它而加入的技術,可能只是在治標而非治本。

清華團隊帶著一個樸素的想法開始了這項工作:"如果我們用最基礎的配方,但訓練得足夠充分,能到什么水平?"

于是就有了JustRL—— 名字的意思是 "就這樣"。

方法:極簡到極致的訓練配方

JustRL 的設計哲學是 "減到不能再減"。研究者刻意避免了近期工作中常見的復雜技術,只保留了最基礎的組件。

訓練配方簡單到令人意外: 算法使用標準的 GRPO,沒有任何魔改;訓練只有一個階段,從頭到尾連續進行;超參數完全固定,不做任何動態調整;數據來自常規的數學問題集,不進行離線難度篩選、不做數據增強、不使用 dynamic sampling。

更關鍵的是,同一套超參數在兩個完全不同的起點上都有效。 第一個實驗使用 DeepSeek-R1-Distill-Qwen-1.5B 作為基座,這是一個相對較弱的起點(AIME 2024 準確率 29%);第二個實驗使用 OpenMath-Nemotron-1.5B,這已經是一個相當強的基座(AIME 2024 準確率 61%)。研究者沒有針對不同模型調整任何參數,在 9 個數學推理基準(AIME 2024/2025、AMC 2023、MATH-500、Minerva Math、OlympiadBench、HMMT/CMIMC/BRUMO 2025)上的全面評測顯示,JustRL 達到了 1.5B 模型的最高水平。



一個關鍵問題:會不會是用了更多算力?正好相反,我們用了更少。

從弱基座起步的 JustRL-DeepSeek-1.5B,最終在 9 項基準上平均達到 54.87%,超越了采用 9 階段訓練的 ProRL-V2(53.08%)。更值得注意的是計算效率:JustRL 使用的總 token 預算約為 1.4E+11,僅為 ProRL-V2 的一半,為 BroRL 的五分之一。在算力 - 性能的權衡上,JustRL 達到了一個新的平衡點。

從強基座起步的 JustRL-Nemotron-1.5B 表現更加出色,平均準確率達到 64.32%,略微超過使用課程學習的 QuestA(63.81%)。關鍵的差異在于,QuestA 需要完整的推理軌跡來構建 hint,還要分階段調整提示難度;而 JustRL只需要標準的問題與標答,不需要額外的數據工程,總 token 預算也相對較小。

整個訓練在 32 張 A800-80GB GPU 上進行,每個模型訓練約 15 天。相比一些需要多階段訓練、頻繁調參的方法,JustRL 的工程復雜度和計算開銷都顯著更低。這些結果的意義不僅在于數字本身,更在于它們揭示的一個可能性:很多時候,我們可能低估了簡單方法在充分 scale 下的潛力。

意外發現:4000 步訓練,異常平穩

也許比最終性能更令人驚訝的是訓練過程本身。研究者詳細記錄了 JustRL-DeepSeek-1.5B 整個 4000 步 RL 過程中的關鍵動態指標:策略熵、平均獎勵、響應長度。

策略熵始終在 1.2-1.4 范圍內健康震蕩,沒有出現向上漂移(探索崩塌)或向下崩潰(過早收斂);平均獎勵從 - 0.6 單調上升到 +0.4,雖然有噪聲但趨勢清晰,沒有長時間的 plateau 或突然的下跌;響應長度從初始的 8000 tokens 自然壓縮到 4000-5000 tokens,并穩定在這個范圍,這一切都是在沒有使用 overlong penalty 的情況下發生的,僅僅設置了最大 16k 的上下文長度。



JustRL-DeepSeek-1.5B 的訓練 dynamic

這與很多現有工作報告的訓練困難形成鮮明對比。

ProRL:"我們觀察到熵崩潰和訓練不穩定性…"BroRL:"訓練到瓶頸只能加 rollout 加大探索…"QuestA:"需要課程學習避免熵崩塌(簡單題)或者減緩學習效率(難任務)…"

而在 JustRL 的訓練中,這些問題都沒有出現。這給了我們一個有趣的觀察:也許在某些配置下,當 baseline 足夠簡單、訓練規模足夠充分時,一些在復雜系統中出現的穩定性問題可能就不容易發生。

一個有趣的插曲:加 "優化" 反而更差

訓練過程中,團隊嘗試了兩個 "按常理應該有幫助" 的修改。這兩個實驗的結果頗具啟發性。

第一個實驗是加入顯式的長度懲罰。 動機很直接:不少工作證明長度懲罰有效,那么添加一個懲罰項應該能讓模型輸出更簡潔,提高訓練效率。結果卻令人意外:性能從 55% 下降到 50%。深入分析發現,顯式懲罰導致了熵崩塌,熵值從 1.2-1.4 降到 0.4-0.6 ,探索空間被過早壓縮。模型還沒來得及充分探索有效的解題策略,就被迫收斂到更短的響應上。

第二個實驗是換用更寬松的驗證器。 邏輯同樣合理:減少假陰性(正確答案被誤判為錯誤)應該能提供更清晰的學習信號。但性能繼續下滑到 45%。可能的原因包括:更寬松的驗證器雖然減少了誤判,但也降低了學習信號的細粒度 ——"幾乎正確" 和 "完全正確" 不再有明顯區分;另一種可能是,嚴格的格式要求實際上在迫使模型發展更魯棒的內部推理,而寬松的驗證器消除了這種壓力。



兩組 ablation 效果

這說明什么?一方面,ablation 在接近 2ksteps 的尺度上才開始分道揚鑣,意味著現有的 RL tricks ablation 可能在小規模上(幾十 / 幾百步)得到的結論不一定適合于大規模 scaling,要驗證 tricks 的作用可能長期才能看出區別;另一方面,不是說這些技術本身不好(它們在其他工作中確實有效),而是:

技術的價值高度依賴于baseline 的特性在一個穩定的 baseline 上,某些 "優化" 可能適得其反不是所有看起來合理的東西都該加

這個工作想說什么?

不是要證明 "簡單永遠最好"

不是說: "復雜方法都沒用"而是說: "我們可能低估了簡單方法在充分 scale 下的潛力"不是說: "大家都做錯了"而是說: "建立清晰的簡單 baseline,能更準確地評估復雜技術的價值"不是說: "永遠別用復雜技術"而是說: "先驗證簡單方法的極限在哪,再決定是否需要復雜度"

寫在最后:關于 "夠用" 的哲學

"Perfection is achieved, not when there is nothing more to add, but when there is nothing left to take away.“
— Antoine de Saint-Exupéry, Airman's Odyssey

JustRL 不是要證明 "簡單就是答案"。它想提醒的是:在不斷追求技術創新的同時,別忘了回頭看看 —— 最樸素的方法,在足夠的努力下,能做到什么程度。

也許在 RL 訓練小模型這個領域,我們一直在做加法:加階段、加調度、加采樣策略、加穩定技巧。也許現在是時候試試奧卡姆剃刀的做法:減到不能再減,看看還剩什么。JustRL 的發現是:剩下的,可能已經夠用了。

如果你正在做 RL,不妨試試:先把簡單配方訓練充分,看看它能帶你走多遠。

也許你會發現:夠用了。

也許你會發現:還不夠,但現在你知道差在哪了。

無論哪種,都是有價值的收獲。"如無必要,勿增實體"。

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

美女国产一区二区| 国产欧美精品在线| 国产真人做爰视频免费| 欧美天堂亚洲电影院在线播放| 黄色aaaaaa| 亚洲高清一区二| 丰满少妇xoxoxo视频| 欧美精品情趣视频| 亚洲精品久久久久久久蜜桃| 国产免费一区视频观看免费 | a级片在线免费看| 91九色国产视频| 久久这里只有精品6| 熟妇人妻无乱码中文字幕真矢织江| 日本网站在线观看一区二区三区| 欧美国产第一页| 蜜臀久久久久久久| 中文字幕第88页| 最新日韩中文字幕| 久久国产精品99久久人人澡| 精品少妇无遮挡毛片| 中文字幕精品www乱入免费视频| 丝袜国产日韩另类美女| 免费在线观看亚洲视频| 欧美一区三区四区| 欧美 日韩精品| 久久久91精品国产一区二区精品| 日韩免费精品视频| 国产黄色大片网站| 超碰在线免费观看97| 欧美日韩成人综合天天影院 | 欧美极品少妇xxxxⅹ裸体艺术| 国产精品一区二区三区四区| 中文字幕第六页| 欧美性视频一区二区三区| 一区二区三区麻豆| 黄色大片在线免费看| 亚洲精品日韩在线| 免费观看日韩电影| 在线观看免费看片| 国产精品丝袜久久久久久不卡| 亚洲精品视频在线| 久久精品久久国产| 日韩国产欧美精品| 亚洲国产精彩中文乱码av| 麻豆精品在线播放| 欧美bbbbb性bbbbb视频| 九九九九精品| 亚洲第一区第二区| 久久精品99久久久| 欧美日韩国产一二三区| 免费不卡亚洲欧美| 亚洲国产毛片完整版| 韩日av一区二区| 日本精品在线观看视频| 欧美日韩国产精品一区二区| 日韩视频永久免费| 国产一区二区三区在线看麻豆| 高清中文字幕mv的电影| 92福利视频午夜1000合集在线观看| 一本色道久久综合亚洲| 95av在线视频| 欧美一级视频精品观看| 99re视频这里只有精品| 国产又爽又黄的视频| 亚洲三级视频网站| 日本午夜精品理论片a级appf发布| 亚洲欧洲精品一区二区三区| 国产真实夫妇交换视频| 亚洲精品国产精品国自产| 最近2019年中文视频免费在线观看| 福利一区二区在线| 黑人巨大精品一区二区在线| 一区二区av| 日韩亚洲国产中文字幕| 亚洲日本电影在线| 国产婷婷一区二区三区久久| 中国老熟女重囗味hdxx| 国产欧美一区二区三区不卡高清| 亚洲乱码av中文一区二区| 国产精品视频一二| 亚洲老妇色熟女老太| 3d动漫啪啪精品一区二区免费| 精品1区2区在线观看| 91丨porny丨中文| 成人黄色激情视频| 91精品又粗又猛又爽| 色一情一乱一伦一区二区三欧美| 久久九九精品99国产精品| 亚洲精品福利视频网站| 久久综合导航| 91看片在线播放| 日韩黄色一区二区| 亚洲日本无吗高清不卡| 97在线视频免费| 亚洲第一av网| 亚洲欧洲精品一区二区精品久久久| 日本精品999| 久久免费黄色网址| 黄色a级三级三级三级| 日韩在线第一区| 欧美午夜久久久| 国产亚洲精品码| 伊人五月天婷婷| 一本色道婷婷久久欧美| 国产精品国模在线| 国产一区二区三区视频免费| 欧美性猛交xxxx黑人猛交| 99精品视频一区二区三区| 亚洲精品国产片| 西西44rtwww国产精品| 亚洲最大成人网站| 麻豆一区二区三区视频| 久久国产精品免费一区| 久久久免费精品| 亚洲人成电影网站色www| 欧美伊人精品成人久久综合97 | 国产精品www网站| x99av成人免费| 亚洲第一在线视频| 亚洲一区二区精品3399| 精品一区二区三区久久| 免费在线不卡av| 国产在线视频卡一卡二| 黄色正能量网站| 国产免费无码一区二区| 中文字幕在线视频一区二区| 精品一区二区中文字幕| 国产精品成人久久电影| 青青草视频在线视频| 一区精品在线| 性欧美.com| 99久久精品免费看国产四区| 国产97人人超碰caoprom| 2024亚洲男人天堂| 欧美夜福利tv在线| 国模吧一区二区| 欧美激情一区二区三区成人 | 欧美在线精品免播放器视频| 97精品免费视频| 午夜精品一区二区三区在线视| 欧美国产日韩中文字幕在线| 久久全国免费视频| 国产第一区电影| 成人激情春色网| 成人黄色在线免费观看| 麻豆成人小视频| 亚洲欧洲日韩综合二区| 久久人妻无码一区二区| 日本wwwcom| 国产免费视频传媒| 久久久久亚洲av片无码v| 亚洲图片另类小说| 免费网站看av| 久久亚洲精品国产| 国产又色又爽又黄又免费| 国产又爽又黄网站亚洲视频123| 日欧美一区二区| 92国产精品观看| 久久久99精品久久| 黄色精品一区二区| 欧美一区二区三区四区高清| 日韩欧美亚洲另类制服综合在线| 亚洲国产欧美日韩精品| 国产视频精品久久久| 久久久女女女女999久久| 91九色视频在线| 国产视频一区二区不卡| 国产乱子伦精品视频| 女人扒开腿免费视频app| 国产精品国产精品88| 国产精品爽爽久久久久久| 激情欧美一区二区三区在线观看| 国产午夜精品久久久久久免费视 | 亚洲精品国产精品自产a区红杏吧 亚洲精品国产精品乱码不99按摩 亚洲精品国产精品久久清纯直播 亚洲精品国产精品国自产在线 | 亚洲欧洲国产伦综合| www国产精品视频| 91国产丝袜在线放| 轻点好疼好大好爽视频| 麻豆传媒在线看| 一级片视频在线观看| 免费人成网站在线观看欧美高清| 欧美韩国日本一区| 欧美一级国产精品| 欧美高跟鞋交xxxxhd| 精品国产一区二区三区日日嗨| 一区二区日本伦理| 成人三级做爰av| 亚洲欧美自拍视频| 精品系列免费在线观看| 婷婷成人激情在线网| 久久精品国产99国产精品澳门| av一区二区三区在线观看| 国产深夜男女无套内射| 999精品久久久| 国产精品国产高清国产| 一区二区三区久久| 在线观看日韩av| 久久av一区二区三区亚洲| 亚洲色图偷拍视频| 日本三级一区二区三区| 91首页免费视频| 精品国产乱码久久久久久老虎 | 中文字幕精品一区二区精| 国产欧美日韩视频在线观看| 亚洲天堂成人在线视频| 欧美xxxx黑人又粗又长精品| 精品无码人妻一区| 日韩精品一区第一页| 91成人看片片| 国产成人亚洲综合91| 人妻精品无码一区二区三区 | 黄色三级网站在线观看| 精品福利在线看| 国产999精品久久久| 国产一二三四在线视频| 一级特黄aaaaaa大片| 亚洲在线观看免费| 欧美亚洲日本黄色| 久久久精品高清| 亚洲第一页综合| 在线免费观看不卡av| 91免费国产网站| 国产成人无码一区二区在线观看| 蜜臀精品久久久久久蜜臀| 欧美挠脚心视频网站| 国产精品日本一区二区| 免费看91的网站| 成人丝袜18视频在线观看| 亚洲香蕉av在线一区二区三区| 国内精品视频在线播放| 欧美色视频一区二区三区在线观看| 粉嫩av亚洲一区二区图片| 亚洲欧美在线免费| 91视频 -- 69xx| 日韩中文字幕综合| 亚洲精品电影网在线观看| 免费人成在线观看视频播放| 91精品国产乱码久久| 这里只有精品99re| 亚洲韩国在线| 亚洲影视一区二区| 91精品免费观看| 日本xxx免费| 蜜臀久久99精品久久久| 日韩精品影音先锋| 波多野结衣av一区二区全免费观看| 国产又粗又大又爽视频| 日韩欧美综合一区| 在线观看一区二区三区三州| 91尤物国产福利在线观看| ...av二区三区久久精品| 国产成人欧美在线观看| 欧美日韩人妻精品一区在线| 免费在线黄色片| 色88888久久久久久影院野外| 亚洲自拍偷拍网址| 久久久蜜桃一区二区| 日韩免费性生活视频播放| 天天摸天天碰天天添| 久久精品99国产精品| 久久久女人电视剧免费播放下载| av免费播放网站| 疯狂做受xxxx欧美肥白少妇| 99精品一区二区三区的区别| 姝姝窝人体www聚色窝| 久久99精品国产99久久6尤物| 五月婷婷之婷婷| 欧美韩国日本综合| 久久综合九色欧美狠狠| 蜜臀久久99精品久久久| 欧美大片大片在线播放| 国产又色又爽又高潮免费| 91黄色免费观看| 久久精品免费一区二区| 91片黄在线观看| 麻豆久久久9性大片| 日韩极品在线观看| 国产z一区二区三区| 亚洲AV无码成人精品区东京热| 日韩精品在线观看一区| 久久久久久久无码| 懂色aⅴ精品一区二区三区蜜月 | 午夜不卡久久精品无码免费| 亚洲色图在线播放| 国产免费xxx| 蜜臀va亚洲va欧美va天堂| 国产精品一区二区三区在线播放 | 97久久精品人人爽人人爽蜜臀| 999在线观看免费大全电视剧| a天堂中文在线观看| 午夜精品久久17c| 中文字幕免费观看| 久久久999精品| 伊人国产在线观看| 三级精品视频久久久久| 久草视频在线资源| 色吧影院999| 综合激情网五月| 欧美精品18videosex性欧美| 国产精品欧美综合| 91av在线网站| 久久久久久av无码免费看大片 | 国产真人真事毛片| 最新日韩中文字幕| 天堂网中文字幕| 51午夜精品视频| 熟妇人妻中文av无码| 亚洲国产日韩欧美在线图片| 中文字幕欧美日韩一区二区三区 | 性猛交娇小69hd| 日韩毛片在线观看| 精品成人免费视频| 人九九综合九九宗合| 亚州av在线播放| 日韩动漫在线观看| 国产欧美日韩另类一区| 婷婷丁香激情网| 51精品久久久久久久蜜臀| 国产精品三区在线观看| 青青草一区二区| 日韩黄色小视频| 国产女主播av| 在线视频欧美区| 国产精品丝袜一区二区| 欧美极品少妇xxxxⅹ免费视频| 亚洲国产成人在线观看| 欧洲精品一区色| 亚洲欧美色图小说| 一级片视频免费看| 久久99亚洲精品| 日产欧产美韩系列久久99| 午夜欧美性电影| 午夜成人在线视频| 一级黄色毛毛片| 国产精品伦子伦免费视频| 91色porny蝌蚪| av在线播放网址| 97在线看福利| 日本一不卡视频| 日韩电影大全在线观看| 午夜私人影院久久久久| 香蕉视频一区二区| 久久国产精品精品国产色婷婷| 91久久精品国产91性色tv| 久久久久久久久影院| 久久亚洲综合网| 3atv一区二区三区| 91尤物国产福利在线观看| 最近免费观看高清韩国日本大全| 在线成人av影院| 亚洲黄色小说网| 久久久久久www| 亚洲成人网在线| 久久精品毛片| 91色国产在线| 欧美精品生活片| 99精品偷自拍| 麻豆精品国产免费| 国产精品手机在线| 欧美网站在线观看| 一级片一区二区三区| 婷婷五月综合缴情在线视频| 日韩在线观看免费高清完整版| 99国产精品久| 国产sm调教视频| 欧美亚洲丝袜| 亚洲三级黄色在线观看| aaa欧美日韩| 国产成人自拍视频在线| 国产性生活免费视频| 亚洲人成电影网站色xx| 99re66热这里只有精品3直播| 免费视频91蜜桃| 日本黑人久久| 亚洲第一区第一页| 国产精品一区三区| 秋霞欧美一区二区三区视频免费| 国产区一区二区| 亚洲第一综合天堂另类专| 国产福利一区二区三区视频| 午夜理伦三级做爰电影| 精品亚洲第一| 日韩成人久久久| 99久久er热在这里只有精品15 | 国产精品第13页| www.黄色国产| 少妇无套高潮一二三区| 免费在线精品视频| 国产福利精品av综合导导航| 日韩一区二区三区电影| 久久婷婷成人综合色| 国产成人精品一区二三区四区五区| 久久久久久久久久久影视| 91视频免费在线观看| 欧美日韩激情一区二区| 国产福利一区二区三区视频| 久久精品波多野结衣| 青青草国产精品视频| 久久精品福利视频| 亚洲丝袜自拍清纯另类| 亚洲av综合色区无码一二三区| 日韩精品视频一二三| av免费观看久久| 亚洲天堂av图片| 久久先锋资源网| 99草在线视频| 波多野在线播放| 无码日本精品xxxxxxxxx| 国产成人久久久精品一区|