亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

小米AI新論文!雷軍千萬年薪要挖的DeepSeek天才少女署名

IP屬地 中國·北京 編輯:趙磊 智東西 時間:2025-10-16 14:08:36

智東西

編譯 | 程茜

編輯 | 李水青

智東西10月15日消息,10月14日,小米和北京大學聯合署名的論文發表于arXiv,曾被曝獲小米集團創始人兼CEO雷軍以千萬年薪招募的DeepSeek“天才少女”羅福莉,出現在了這篇論文的通訊作者之列,但值得注意的是,論文作者中并沒有標注羅福莉屬于小米大模型團隊

通訊作者中的羅福莉是95后,她本科就讀于北京師范大學計算機專業,碩士畢業于北京大學計算語言學研究所計算語言學專業。隨后羅福莉曾在阿里巴巴達摩院主導開發了多語言預訓練模型VECO,并推動了AliceMind的開源工作,2022年入職DeepSeek,參與了MoE大模型DeepSeek-V2的研發。去年年底,小米被曝以千萬年薪挖角DeepSeek-V2核心開發者之一羅福莉,使其沖上熱搜,但雙方至今都未公開聲明是否正式入職小米。

DeepSeek“天才少女”羅福莉(圖源:羅福莉個人公眾號)

這篇論文提出了提升MoE模型強化學習訓練的新方法Rollout Routing Replay(R3)。實驗結果證明,R3的整體性能優于GRPO、TIS這類強化學習領域提升模型性能的優化算法,且引入R3的所有組合方法全過程無崩盤,訓練過程中訓練-推理KL散度等始終較低,在不影響訓練速度的情況下,使得極端token比例減少一個量級。

當下,強化學習(RL)已成為提升大語言模型能力的關鍵方法。然而,在MoE模型中,路由機制往往會引入不穩定性,甚至導致強化學習訓練崩潰,但現有的引入重要性采樣機制等并不能提升訓練穩定性。不同于此前采取諸如丟棄差異較大的數據之類的變通方法,這篇論文的研究人員希望通過解決路由分布也就是R3來根本性解決這個問題。

論文地址:https://arxiv.org/pdf/2510.11370

一、破解強化學習崩潰的關鍵方法,小米團隊提出R3

強化學習已成為大語言模型后期訓練的基石,利用大規模強化學習,大模型更深入、更廣泛推理,獲得解決復雜問題所需的高級能力,但其面臨的關鍵挑戰是如何平衡效率和穩定性。

現代強化學習框架通常使用不同的引擎進行推理和訓練用于部署,但這種架構上的分離可能導致token概率出現分歧,甚至可能導致災難性的強化學習崩潰。然而,現有的改進方法并不能完全解決MoE模型上進行強化學習訓練時出現的強化學習離線策略問題。

研究人員提出的R3,其工作原理是在序列生成期間從推理引擎捕獲路由分布,并將其直接重放到訓練引擎中。這一過程可以縮小訓練和推理之間的差距,其顯著特征是不同引擎生成的邏輯向量的KL散度(量化兩個概率分布之間的差異程度,值越小說明兩個分布越接近)顯著降低,兩個階段之間概率差異顯著的token數量減少了大約一個數量級。

此外,該方法同時適用于在線策略(on-policy)和小批量(mini-batch)式離線策略強化學習(off-policy)場景。

論文提到了研究團隊的三大主要貢獻:

1、系統識別和分析了MoE模型中訓練和推理之間的路由分布差異,強調了它們在訓練不穩定性中的作用;

2、提出Rollout Routing Replay,它重用訓練引擎內部的推理時間路由分布,以協調訓練和推理之間的路由行為;

3、將R3應用于多種RL設置進行MoE強化學習,并表明R3在穩定性和整體性能方面優于GSPO和TIS。

二、可顯著縮小訓練-推理差異,對Agent任務大有裨益

R3的主要思路是在訓練前向傳播過程中重用推理路由掩碼I,同時仍將softmax應用于訓練邏輯以保持梯度流。

這種設計主要有兩個目的:一是對齊訓練和推理,確保訓練重放期間使用的專家與推理期間選擇的專家相匹配,從而消除專家選擇中的不匹配;二是保留梯度數據流,通過僅重放掩碼,梯度仍然可以流回logits而不會干擾計算圖,這有助于有效地優化路由器。

重放門控權重、重放輸出y的計算方式

具體來看,R3在效率優化上,通過路由掩碼緩存(Router Mask Caching)適配多輪對話場景,降低計算開銷

其論文提到,緩存的路由掩碼具有相似的屬性,對于相同的前綴token,MoE路由器應該產生相同的結果,因此來自推理引擎的路由掩碼可以與前綴KVCache一起緩存。

對于每個層和token前綴,相應的路由掩碼都存儲在KVCache中。當相同的前綴出現并命中緩存時,這些掩碼可以被重用,從而無需重新計算,這使得R3能夠與前綴緩存機制無縫集成。

研究人員稱,緩存路由掩碼在Agent場景中有較大應用空間。例如軟件工程和網頁瀏覽等Agent任務,都涉及自回歸生成和工具調用之間的多輪交互,為了提高效率,這些過程直接重用了前幾輪的KVCache,因此無需重新生成已計算的數據。路由掩碼緩存使R3能夠在強化學習代理任務中保持高效,而無需重新預填充以生成路由掩碼。

為了證明R3在縮小訓練-推理差異上的有效性,研究人員使用Qwen3-30B-A3B模型進行了驗證,其將推理過程中獲得的路由分布緩存在SGLang上,并在Megatron框架內重放它們。

使用Megatron進行兩次前向傳播獲得的概率

結果表明,應用R3后,訓練和推理之間的KL散度從1.5×10?³減小到7.5×10??,接近于稠密模型的6.4×10??水平,這表明其訓練-推理差異減少。

研究人員還繪制了使用R3的訓練-推理差異比率的累積分布圖,對于MoE模型,應用R3可將具有較大訓練推理差異的token的頻率降低一個數量級。

a、MoE模型中訓練-推理差異的說明,b、MoE+R3模型中訓練-推理差異的說明,c、稠密模型中訓練-推理差異的說明,d、極端token分布函數

三、實測三大能力提升:整體性能、訓練穩定、優化生成行為

為了評估R3對強化學習的性能改進,研究人員從BigMath、ORZ等開源數據集篩選約10萬道可驗證數學題,采用AIME24、AIME25、AMC23和MATH500作為基準數據集進行評估,并在單次訓練過程中每5個全局步驟測量一次模型性能。

其選擇的模型是Qwen3-30B-A3B-base及其微調模型Qwen3-30B-A3B-SFT。

評估方式是每5個全局步驟記錄模型性能,最終報告最佳性能及對應訓練步驟,若模型后期性能驟降,同時追蹤訓練崩盤步驟”。

實驗結果表明,整體性能上,R3在多步更新場景,GRPO+R3平均得分68.05分,比GSPO高出1.29分;GSPO+R3進一步提升至69.00,比單獨GSPO高2.24分。

單步更新場景,SFT模型上,GRPO+R3平均得分71.83分,比GRPO(62.23)高9.6分,比GRPO+TIS(66.24)高5.59分;base模型上,GRPO+R3平均得分70.73,比GRPO(61.69)高9.04分。

主要評估結果

研究人員還發現,將R3與TIS結合使用并不能帶來明顯的性能提升,甚至可能降低性能,例如在SFT模型的單小步設置下,TIS+R3的得分比單獨使用R3低1.69分。由于R3已經顯著降低了訓練和推理之間的策略差異,因此TIS的額外校正效果微乎其微。

訓練穩定性方面:如GRPO、GRPO+TIS等無R3的方法在單步更新場景中均出現崩盤,GRPO在60步崩盤、GRPO+TIS在105步崩盤。

引入R3后,所有組合方法均無崩盤,且訓練過程中訓練-推理KL散度等始終較低。

多步更新訓練-推理崩潰分析

優化與生成行為方面,在訓練過程中,R3還能增強優化穩定性、探索行為和生成動態。下圖是研究人員繪制的單步+基礎模型組訓練過程中的序列長度、梯度范數、生成熵和評估分數。

wen3-30B-A3B-base訓練動態

結果顯示,R3具有更小的梯度范數、更平滑的序列增長模式和更穩定的熵。實驗中使用R3時,生成的序列長度在訓練開始時迅速上升,表明R3能夠快速捕捉到正確的優化方向,相比之下其他兩個訓練過程在第80步之后才緩慢上升,并且波動更為明顯;R3始終保持較低的梯度范數,表明優化過程更加穩定;實驗使用R3時,熵在大約第25步后開始穩步上升,表明模型更早地開始探索更優策略,不使用R3時,熵上升得更晚,并且波動較大。

結語:聚焦MoE模型訓練難題,小米提出新思路

MoE架構如今已成為擴展現代語言模型的基石,其采用門控網絡,對每個token稀疏地僅激活一部分專家參數,從而將模型的總參數數量與其推理成本分離開來,從而大幅提升了模型容量。然而,由于門控網絡的敏感性,MoE模型容易受到訓練不穩定性的影響,這使得路由穩健性成為有效模型收斂的核心挑戰。

在這篇論文中,研究人員在訓練過程中重用推理時的路由分布,以在保留梯度流的同時對齊專家選擇。這種思路或為行業提供了新的研究思路。

標簽: 模型 路由 小米 差異 性能 論文 羅福莉 人員 掩碼 過程 梯度 少女 極端 天才 問題 序列 步驟 團隊 引擎 語言學 整體 任務 數據 穩定性 范數 方法 雷軍 年薪 能力 專家 語言 比例

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

亚洲最大福利网站| 国产一二三四区在线| 国产一区二区免费电影| 欧美专区第二页| 精品一区二区三区在线视频| 欧美日韩一区三区四区| 国产麻豆一区二区三区在线观看| 97人妻精品一区二区三区免| 懂色av一区二区三区蜜臀| 天天综合网 天天综合色| 97视频国产在线| 麻豆av免费看| 亚洲不卡免费视频| 国产片高清在线观看| 久久久99精品免费观看| 91久久精品一区二区三| 国产精品中文字幕在线| 国产精品毛片一区二区| 久久日韩粉嫩一区二区三区 | 亚洲高清在线播放| 久久青青草原亚洲av无码麻豆| 午夜精品久久久| 亚洲高清不卡一区| 日本免费不卡视频| 欧美中文在线观看国产| 欧美色图亚洲激情| 欧美激情综合在线| 欧美久久久久久一卡四| 超碰在线免费97| 欧美成人aa大片| www国产无套内射com| 天堂网av2014| 久久男人的天堂| 波多野结衣电车痴汉| 亚洲一区二区三区在线看| 亚洲国产一区二区精品视频| 三级在线观看免费大全| 亚洲成av人影院| 国产精品亚洲a| **性色生活片久久毛片| 亚洲电影免费| 久久国内精品视频| 不卡视频一区二区| 2017亚洲天堂| 亚洲精品高清视频在线观看| 亚洲人精品午夜射精日韩| 美国av一区二区| 欧美激情国产日韩精品一区18| 天天操夜夜操视频| 欧美成人免费视频| 9.1成人看片| 亚洲第一久久影院| av网址在线观看免费| 日韩欧美精品中文字幕| 精品无码国产一区二区三区51安| 亚洲视频一二区| 在线免费观看av的网站| 日韩欧美在线免费| 中文乱码字幕高清一区二区| 国产一区二区精品丝袜| 日本高清www| 日本二三区不卡| 永久免费av无码网站性色av| 精品少妇theporn| 狠狠色香婷婷久久亚洲精品| 麻豆视频传媒入口| 日韩欧美黄色动漫| 精品一区在线视频| 成人免费视频a| 国产无人区一区二区三区| 我要看一级黄色大片| 亚洲人吸女人奶水| 你懂的在线观看网站| 欧美有码在线观看| 日本xxxxxxxxxx75| 亚洲女人毛茸茸高潮| 亚州欧美日韩中文视频| 国产在线不卡视频| 色婷婷狠狠18| 欧美精三区欧美精三区| 精品无人区无码乱码毛片国产 | 日韩精品免费看| 国产成人精品无码高潮| 警花观音坐莲激情销魂小说| 黄色成人一级片| 91传媒在线免费观看| 国产福利一区二区| 欧美高清无遮挡| 成人av网站在线观看免费| 92看片淫黄大片一级| 欧美视频一区二区三区在线观看| 亚洲天堂网2018| 国产成人综合久久| 亚洲线精品一区二区三区八戒| 亚洲视频在线观看一区二区三区| 久久理论电影网| 手机在线免费毛片| 色综合91久久精品中文字幕| 日韩激情av在线| 国产十八熟妇av成人一区| 国产亚洲精品美女久久久| 日韩激情视频在线观看| 午夜免费福利在线| 欧美精品日韩三级| www.av麻豆| japanese在线播放| 97视频在线观看免费| 一区二区三区视频在线观看| 韩国av免费在线观看| 精品人妻一区二区三区香蕉 | 日韩中文字幕免费观看| 黄色污在线观看| 91香蕉嫩草影院入口| 麻豆一区二区三区| 992tv人人草| 国产精品影院在线观看| 欧美美女喷水视频| 91麻豆文化传媒在线观看| www国产在线| 加勒比婷婷色综合久久| 亚洲怡红院在线| 亚洲电影一二三区| 97精品久久久| 老色鬼久久亚洲一区二区| 爱爱免费小视频| 欧在线一二三四区| 中文字幕久精品免| 91在线|亚洲| 国外视频精品毛片| 亚洲电影在线观看| 日本道精品一区二区三区| 国产日韩v精品一区二区| 日韩一级中文字幕| 国产精品第5页| 亚洲国产成人精品综合99| 玖草视频在线观看| 色婷婷精品久久二区二区密| 欧美日韩一区二区欧美激情| 国产精品久久久久久免费播放| 国产偷人视频免费| 国产精品永久免费在线| 欧美日韩另类一区| 亚洲精品免费电影| 国产精品丝袜91| 成人手机电影网| 国产99久久精品| 秋霞国产午夜精品免费视频| 国产国语亲子伦亲子| 中文字幕免费观看视频| 欧美人妻精品一区二区三区 | 国产国语老龄妇女a片| www.中文字幕在线| 国产精品自产拍在线观看中文| 久久久av网站| 尤物精品国产第一福利三区| 亚洲一区精品在线观看| 阿v天堂2014| 最近中文字幕在线mv视频在线 | 久草视频免费在线| www.av视频在线观看| 亚洲综合成人av| 免费av一级片| 蜜臂av日日欢夜夜爽一区| bt欧美亚洲午夜电影天堂| 91丨porny丨首页| 亚洲欧美一区二区不卡| 亚洲成人av电影在线| 国产欧美精品一区| 亚洲高清视频中文字幕| 欧美在线免费观看视频| 亚洲精品久久7777777| 中文欧美在线视频| 91免费福利视频| 天天成人综合网| 在线成人精品视频| 一级黄色大片免费看| 成年人免费视频播放| 无码人妻精品一区二区蜜桃色欲| www.黄色小说.com| 国产日产亚洲精品系列| 日韩一区二区三免费高清| 欧美日韩你懂的| 亚洲午夜精品久久久| 午夜视频在线播放| 成人午夜视频网站| 99国产精品99久久久久久| 日韩欧美在线免费| 在线不卡国产精品| 国产精品吴梦梦| 欧美日韩天天操| 成人免费观看在线| 成人性视频免费看| 黑人操亚洲女人| **欧美大码日韩| 美女精品久久久| 在线播放 亚洲| avtt天堂在线| 久久99国产精品久久| 欧美日韩免费不卡视频一区二区三区 | 欧美性猛交xxx| 久久亚洲一区二区三区四区| 91丨九色丨丰满| 干b视频在线观看| 亚洲ⅴ国产v天堂a无码二区| 久久福利视频一区二区| 日韩欧美中文在线| 国产精品高精视频免费| 91精品视频国产| 日韩不卡免费视频| ●精品国产综合乱码久久久久| 久久久国产精彩视频美女艺术照福利| 操人视频欧美| 久久久精品高清| 久久精品亚洲| 亚洲精品视频久久| 无遮挡亚洲一区| 800av在线播放| 中文字幕永久在线观看| 九色综合国产一区二区三区| 久久综合av免费| 亚洲九九九在线观看| 中文字幕一区二区三区四区五区| 国产一级视频在线| 亚洲线精品一区二区三区| 成人免费视频在线观看超级碰| 中文成人无字幕乱码精品区| 精品国产999久久久免费| 一区二区日韩电影| 99三级在线| 波多野结衣一区二区三区在线| 午夜精品国产更新| 亚洲乱码一区二区三区| 无码人妻丰满熟妇区五十路| 欧美三片在线视频观看| 五月天亚洲综合情| 国产精品久久久久久久久毛片| 欧美日本一区二区三区四区| 五月天色一区| 高h调教冰块play男男双性文| 在线视频亚洲欧美| 超碰男人的天堂| 婷婷综合在线观看| 女同性恋一区二区| 日韩激情视频在线观看| 久久人人看视频| 黄色大片网站在线观看| 欧美日韩国产一区| 日韩在线电影一区| 免费麻豆国产一区二区三区四区| 日韩欧美在线观看| 爱情岛论坛亚洲首页入口章节| 99riav久久精品riav| 国产私拍一区| 国产一区在线观看视频| 亚洲伊人久久大香线蕉av| 亚洲a∨无码无在线观看| 在线看不卡av| 中文字幕12页| 亚洲午夜精品网| 亚洲一区二区三区av无码| 最新中文字幕第一页| 亚洲天堂av网| av大片免费观看| 欧美中文在线观看国产| 啪啪一区二区三区| 日韩一区二区视频| 亚洲av无码一区二区二三区| 在线观看91视频| 国产在视频线精品视频| 一区二区亚洲精品国产| 无码人妻精品一区二| 97视频在线免费观看| 天堂av中文字幕| 久久久久久a亚洲欧洲aⅴ| 91在线视频观看| 在线免费视频一区| 欧美日韩精品一区二区三区蜜桃| 人妻体内射精一区二区| 色777狠狠综合秋免鲁丝| 草草影院第一页| 久久久久久com| 日本不卡视频在线| 一本色道久久综合亚洲精品婷婷 | 国产精品久久av| 久久午夜色播影院免费高清| 欧美午夜精品理论片a级按摩| 亚洲另类图片色| 永久免费看片直接| 97视频网站入口| 国产精品1区2区| 午夜免费一区二区| 日韩精品中文字幕在线观看| 波多野结衣一本一道| 成人做爰www免费看视频网站| 91免费精品国自产拍在线不卡| 亚洲精品mv在线观看| 在线观看精品自拍私拍| 国产大片免费看| 成人日韩在线电影| 欧美极品少妇xxxxⅹ高跟鞋 | 国产精品私房写真福利视频| 少妇精品一区二区| 5252色成人免费视频| 久久久久久久网| 我家有个日本女人| 国模私拍视频一区| 日本在线不卡视频一二三区| 欧美日韩在线免费播放| 日韩情涩欧美日韩视频| 天堂网中文字幕| 美女三级99| 黄色一区二区在线| 天天干天天摸天天操| 亚洲国产成人精品无码区99| 一区二区欧美日韩视频| 成人爽a毛片一区二区免费| 一本加勒比波多野结衣| 成人乱色短篇合集| 国产日本一区二区| 性欧美大战久久久久久久| 国产成人久久精品77777最新版本| 美女在线免费视频| 伦理中文字幕亚洲| 麻豆成人久久精品二区三区红| 婷婷五月色综合| 欧美日韩免费在线视频| 亚洲爱情岛论坛永久| 日韩精品人妻中文字幕有码| 成人乱人伦精品视频在线观看| 欧美另类一区二区三区| 国内精品久久久久影院薰衣草| 波多野结衣一二三区| 免费看成人午夜电影| 欧美美女18p| 在线视频观看一区| 精品人妻一区二区三区日产乱码 | 成人做爰69片免费看网站| 免费麻豆国产一区二区三区四区| 欧美交换配乱吟粗大25p| 欧美在线xxx| 精品国产乱码久久久久久久 | xxx中文字幕| 日韩精品极品视频在线观看免费| 中文字幕欧美专区| 日韩欧美高清在线视频| thepron国产精品| 在线观看中文字幕网站| 变态另类ts人妖一区二区| 日韩av一级大片| 日韩免费黄色av| 中文字幕亚洲在线| 日韩精品高清在线观看| 91国偷自产一区二区三区观看| 少妇人妻偷人精品一区二区| 麻豆久久久久久久久久| 一本色道久久88| 性活交片大全免费看| 福利视频999| 亚洲高清视频一区| 免费av一区二区三区| 99re在线视频观看| 欧美国产日韩二区| 欧美激情aaaa| 久久99精品国产99久久6尤物| 日韩欧美一区二区视频| 久久精品国产一区二区| 国产日韩免费视频| 国产xxxxxx| 无码精品人妻一区二区三区影院| 依依成人综合网| 影音先锋男人资源在线观看| 丰满饥渴老女人hd| 又大又硬又爽免费视频| 国产一区二区三区播放| 91精品国产综合久久久久久久久 | 国产又粗又黄又爽的视频| 特级片在线观看| 国产一级做a爰片在线看免费| www.超碰97| 影音先锋男人资源在线观看| 亚洲少妇xxx| 亚洲综合一二三| 中文字幕 视频一区| 午夜在线视频免费| 激情综合网激情| 久久亚洲欧美国产精品乐播| 国产精品美女久久久久久久久久久 | 亚洲熟妇无码久久精品| 在线观看xxxx| www.天堂av.com| 成人av在线网站| 国产欧美日韩视频在线观看| 国产超碰在线一区| 中文字幕欧美一区| 一区二区在线观看视频在线观看| 亚洲天堂成人网| 91精品国产手机| 久久久久久久影院| 欧美午夜欧美| 久久久久久久久久一区| 中文字幕乱码在线人视频| 青青草原在线免费观看视频| 日本xxxxwww| 亚洲精品视频在线| 亚洲欧美成人在线| 久草热久草热线频97精品| 亚洲天堂一区二区在线观看| 一区二区视频网| 欧美日韩亚洲视频一区| 久久久伊人欧美|