亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

這些大神在Meta的論文看一篇少一篇了

IP屬地 中國·北京 編輯:陳陽 量子位 時間:2025-11-17 14:07:06

離開meta的大佬們,留下作品還在陸續發表,今天輪到田淵棟。

這次他帶領團隊把目光投向了大模型強化學習訓練中一個令人困惑的現象:為什么RL訓練明明帶來巨大性能提升,卻只改變了極少數參數。

論文剖析了可驗證獎勵強化學習(RLVR)的訓練動態,戳破了一個誤區,參數更新的稀疏只是表面現象,背后是RLVR有個固定的優化偏好。

對于同一個預訓練模型來說,無論用什么數據集和RL算法,RLVR只盯著同一小部分參數修改。

團隊還提出了一個全新的三門理論(Three-Gate Theory),一步步說明RLVR的參數更新是怎么定位至特定參數區域的。

三門理論:RL參數更新的內在機制

像OpenAI-o3和DeepSeek-R1這樣的推理模型,都是通過大規模RLVR訓練獲得數學和編程能力的大幅增強。

按理說,如此巨大的能力提升應該伴隨著大量參數的改變,但最近的研究卻發現,RL訓練產生的參數更新是稀疏的,而監督微調(SFT)的參數更新是密集的。

這種高收益、低變化的悖論引發了meta團隊的關注。

他們分析了包括Qwen系列和DeepSeek-R1-Distill-Qwen在內的多個開源模型,這些模型經過超過3000步的長時間RL訓練,涵蓋數學、編程、STEM、邏輯謎題和指令遵循等多樣化任務。

通過設計一種bfloat16精度感知的探測方法,研究團隊準確測量了參數更新的稀疏度。結果顯示,SFT的稀疏度通常只有0.6%到18.8%,而RL的稀疏度高達36%到92%,相差了一個數量級。

但更重要的發現是,這種稀疏性只是表面現象,背后隱藏著一個更深層的機制:模型條件優化偏差(model-conditioned optimization bias)。

為了解釋這種獨特的訓練行為,研究團隊提出了三門理論,解釋了RL更新是如何被約束、引導和過濾的。

第一門:KL錨定(KL Anchor)。

RLVR的核心是 “試錯學習”,但他次更新不會讓模型的輸出風格太偏離(比如原來模型說話簡潔,不能越學習越啰嗦)。

這個機制背后原理是,在線策略梯度更新會在每一步施加策略KL界限。

即使在沒有顯式KL正則項的DAPO算法中,比例裁剪技巧仍然會施加O(ε²)的KL界限。這種錨定效應確保了每步相對于當前策略的漂移很小,進而限制了參數的移動范圍。

第二門:模型幾何(Model Geometry)。

預訓練模型擁有高度結構化的幾何特性,比如模型里負責核心邏輯的參數,對應高曲率區域,改動起來影響大,但容易不穩定。

在KL約束下,RL更新傾向于保持模型的原始權重結構,自然偏向于優化景觀中的低曲率方向。

反觀SFT,因為修改高曲率區域容易接近標準答案,但改多了會把模型原有的能力框架 打亂,反而不利于復雜推理。

第三門:精度過濾(Precision)。

bfloat16的有限精度充當了一個透鏡,隱藏了在RL不愿施加大改變區域的微小更新。

由于bfloat16只有7位尾數,小于單位最低位(ULP)閾值的變化無法表示。如果RL持續更新路由到特定參數子集,存儲的值就不會改變,結果就表現為稀疏性。

如果換成更高精度(比如 float32),會發現更多參數改動。

論文做了很多實驗驗證上面的邏輯,確認了RLVR和SFT在參數空間中的優化區域完全不同。

通過分析奇異值分解(SVD)重構后的主成分權重,團隊發現RL更新與主成分權重的重疊度始終低于隨機水平,表明RL有強烈的傾向避開這些權重。相反,RL更新與低幅度權重顯示出超隨機的重疊,這是因為它們對微小更新的阻力較低。

以及因果性驗證實驗,團隊通過正交旋轉和頭部置換故意”擾亂”Qwen3-4B-base模型特定層的幾何結構。結果顯示,在被干預的層中,更新重疊度降至隨機水平,而在未觸及的層中保持較高,這證明預訓練模型的幾何結構是優化偏差的來源。

在光譜分析方面,RLVR檢查點在頂部主成分內表現出明顯穩定的譜:跨層的主子空間旋轉一致較小,譜漂移最小。奇異值曲線幾乎與基礎模型相同。相比之下,SFT在相同指標上引起了顯著更大的旋轉和明顯的漂移。

對參數高效微調方法的啟示

這項研究不僅解釋了觀察到的現象,還為RL訓練算法的設計提供了指導。

團隊的發現表明,許多SFT時代的參數高效微調(PEFT)方法,特別是通過稀疏或低秩先驗與主方向對齊的方法,在RLVR中的遷移效果很差。

在稀疏微調實驗中,僅更新主成分權重(SFT偏好的方向)會產生最差的優化軌跡,KL曲線上升緩慢,顯示出過度干預和退化的訓練動態。

相反,更新非主成分、低幅度權重恰好符合理論預測的離主成分區域,能夠緊密跟蹤密集RLVR軌跡。

對于最近流行的LoRA變體,研究發現主成分定向的PiSSA并沒有比標準LoRA帶來額外收益。

在用于匹配全參數性能的較高學習率下,PiSSA經常變得不穩定并提前崩潰。這是因為在PiSSA中擴大學習率會強制沿主方向更新,而這些方向具有更高曲率和譜扭曲特性,正是RLVR傾向于避免的方向。

論文地址:https://arxiv.org/abs/2511.08567

標簽: 參數 模型 團隊 成分 權重 曲率 論文 方向 算法 區域 邏輯 方法 結構 機制 理論 策略 界限 比例 微調 偏差 編程 能力 指令 大佬 尾數 閾值 標準 作品 單位 無法 收益 特性 空間

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

俄罗斯精品一区二区| 精品伦理一区二区三区| 在线观看欧美日韩| 中文字幕不卡三区| 亚洲蜜臀av乱码久久精品| 亚洲国产成人久久综合| 最好看的2019的中文字幕视频| 欧美另类老女人| 成人精品福利视频| 欧美性xxxxx| 日日骚久久av| 欧美在线一级视频| 97人人干人人| 欧美日韩一区二区三区电影| 蜜桃视频在线观看91| 国产美女精品在线观看| mm131午夜| 欧美精品久久久久久久久| 久久久久久久影院| 日本高清视频免费在线观看| 日本中文字幕网址| 不许穿内裤随时挨c调教h苏绵| 91av在线免费播放| 女人扒开双腿让男人捅| 国产精品815.cc红桃| 国产一级免费观看| 国产极品999| 亚洲第一第二区| 久久亚洲视频| 91免费精品国自产拍在线不卡| 久久精品二区亚洲w码| 亚洲av成人无码久久精品老人| 欧美日韩国产一区二区| 国产精品一区二区久久| 中文字幕第一页亚洲| 农村末发育av片一区二区| 超碰在线人人爱| 成年人免费观看视频网站| 91久久国语露脸精品国产高跟| 国产精品私人自拍| 国产精品视频网| 九九热精品国产| 久久久久久久久久免费视频| www.黄色片| 99免费精品视频| 欧美在线一二三| 欧美色综合影院| 亚洲视频一区二区三区| 亚洲天堂第一区| 波多野结衣视频网址| 91亚洲精品乱码久久久久久蜜桃 | 久久久久久9| 蜜桃久久一区二区三区| 五月天视频一区| 色一区av在线| 国产成人精品日本亚洲11 | 国产乱色国产精品免费视频| eeuss国产一区二区三区| 一区二区在线观看免费视频播放 | 欧美一级免费在线| 97人妻人人澡人人爽人人精品| 2欧美一区二区三区在线观看视频 337p粉嫩大胆噜噜噜噜噜91av | 色狠狠久久av五月综合| 潘金莲一级淫片aaaaa| 国产精品无码粉嫩小泬| 亚洲一区二区高清| www.欧美免费| 91中文字幕一区| 少妇黄色一级片| 久久国产精品免费看| 亚洲国产精品无码久久久| 天堂中文网在线| xxx一区二区| 9色视频在线观看| 黄色录像一级片| 丰满岳乱妇一区二区三区| 精品夜夜嗨av一区二区三区| 亚洲精品久久久久久下一站| 裸体大乳女做爰69| 国产精品911| 国产精自产拍久久久久久| 精品欧美一区二区三区免费观看 | 久久精品一区二区三区中文字幕| 日韩亚洲欧美高清| 亚洲开发第一视频在线播放| 娇小11一12╳yⅹ╳毛片| 波多野结衣在线一区| 久久亚洲精品毛片| 国产精品xxx视频| 精品久久久久久久久久中文字幕| 国产情侣在线播放| 亚洲天堂2020| 国产情侣第一页| 日韩手机在线观看| 亚洲日穴在线视频| 欧美日韩精品电影| 欧美日韩一区二区三区在线观看免| 手机在线免费看片| 欧美一级国产精品| 日韩免费高清一区二区| 欧美日韩一级片网站| 性色av浪潮av| 欧美色播在线播放| 宅男在线精品国产免费观看| 国产精品国产三级国产普通话对白| 午夜激情一区二区三区| 成人在线免费观看视视频| 欧美老熟妇乱大交xxxxx| 成人免费视频免费观看| 精品一区二区电影| 日韩三级电影| 久久婷婷国产综合国色天香 | 久久偷窥视频| 久久久全国免费视频| 972aa.com艺术欧美| 亚洲精品成人久久电影| www.se五月| 国产欧美精品国产国产专区| 国产又爽又黄ai换脸| 国产欧美日韩三区| 精品无码国模私拍视频| 又色又爽又黄无遮挡的免费视频| 国外视频精品毛片| 日韩网站在线播放| 久久综合狠狠综合久久综合88 | 爱福利视频一区| www黄色日本| 欧美激情在线一区二区| 亚洲精品一区国产精品| 懂色av蜜臀av粉嫩av分享吧最新章节| 国产日韩精品综合网站| 黄色特一级视频| 亚洲成人777777| 欧洲成人免费视频| 伊人影院综合在线| 久久66热re国产| 成人动漫视频在线观看免费| 日本亚洲视频在线| 国产97免费视| 欧美a视频在线观看| 最近2019中文字幕一页二页| 色一情一乱一伦一区二区三区 | 西西44rtwww国产精品| 国产精品91在线| 国产伦理一区二区| 好吊妞www.84com只有这里才有精品| 亚洲aaa在线观看| 91国产一区在线| 久久久久久久久久网站| 精品日韩在线一区| 永久免费黄色片| 亚洲线精品一区二区三区| 亚洲影院在线看| 久操免费在线视频| 欧美大胆一级视频| 国产成人麻豆免费观看| 成人激情黄色网| 亚洲最新av网站| 欧美日韩福利在线观看| 在线观看日本视频| 国产亚洲成年网址在线观看| 99中文字幕在线观看| 99精品在线观看视频| 可以在线看黄的网站| 91精品麻豆日日躁夜夜躁| 波多野结衣在线观看视频| 日韩黄色影视| 欧美性xxxxx| 日韩av毛片在线观看| 日韩视频精品在线| av大片在线免费观看| 日韩欧美一卡二卡| 成人午夜免费影院| 日韩av一区二区在线观看| 久久99久久98精品免观看软件| 久久久99精品免费观看| 玖玖玖精品中文字幕| 精一区二区三区| 韩国一区二区av| 欧美日韩综合视频网址| 图片区乱熟图片区亚洲| 欧美精品久久99久久在免费线 | 久久精品国产欧美亚洲人人爽| 国产人妖一区二区三区| 九色自拍视频在线观看| 一区二区中文字幕| 91亚洲精品国偷拍自产在线观看| 国产精品免费区二区三区观看| 一区二区在线看| 日本免费www| 国产亚洲欧洲高清| 成都免费高清电影| 日韩一区二区在线视频| 国产又大又粗又硬| 春色成人在线视频| 国内精品伊人久久久久av影院| 国产精品久久久久久久久久ktv | 一本色道久久88综合日韩精品| 青青草在线观看视频| 欧美肥臀大乳一区二区免费视频| 少妇av在线播放| 91精品婷婷国产综合久久| 青青草原国产视频| 久久免费视频在线| 国产精品自产自拍| 夫妇露脸对白88av| 91夜夜未满十八勿入爽爽影院| 亚洲一区二区三区四区在线免费观看 | 欧美日本韩国在线| 国产午夜亚洲精品午夜鲁丝片 | 日韩在线视频线视频免费网站| 中文字幕一区二区三区免费看| 99热在线国产| 欧美人一级淫片a免费播放| 最新的欧美黄色| 国产精品19乱码一区二区三区| 亚洲欧美另类中文字幕| 九九九在线观看| 精品久久精品久久| 亚洲视频 欧洲视频| 国产一二三四五区| 欧美一区二区三区免费大片| 国产香蕉视频在线| 日本精品视频在线播放| 国产精品国模大尺度视频| 国产精品黄色大片| 黄色小视频大全| 亚洲国产天堂网精品网站| 精品久久国产视频| 香蕉久久免费影视| 亚洲天堂成人网| 大乳护士喂奶hd| 超碰精品一区二区三区乱码| 日韩在线a电影| 一区二区三区我不卡| 久久综合九色综合97婷婷| 成人污网站在线观看| 亚洲专区一二三| 韩国一区二区三区四区| 精品成人一区二区三区四区| 国产一区二区不卡| 中文字幕在线视频一区二区| 精品毛片乱码1区2区3区| 亚洲国产欧美另类| 在线电影看在线一区二区三区| 国产一区二区日韩| 亚洲高清视频在线| 久久九九精品| 国产呦小j女精品视频| 精品视频在线观看| 亚洲欧美国产一区二区三区| 毛片不卡一区二区| 亚洲精品性视频| www.亚洲免费视频| 国产一区二区福利视频| 五月婷婷六月丁香激情| 久久在线免费视频| 97久久超碰精品国产| 最新中文字幕2018| 欧美精品一区二区三区很污很色的| 日本中文字幕免费| 国产综合久久久久| 国产色产综合色产在线视频| 日韩精品――色哟哟| 国产精品丝袜视频| 亚洲一卡二卡三卡四卡无卡久久 | 亚洲精品国产精品久久| 国内自拍视频网| 日韩在线视频免费播放| 粉嫩一区二区三区性色av| 欧美私人免费视频| 日韩av观看网址| 欧美 日韩 国产在线观看| 青青草原免费观看| 国产成人在线视频网址| 91精品国产一区二区三区| 国产精品久久久久久久久久免费 | 欧美一级在线观看| 国产女精品视频网站免费| 亚洲色精品三区二区一区| 国产无遮挡呻吟娇喘视频| a在线欧美一区| 亚洲经典中文字幕| 国产精品亚洲综合| 白嫩情侣偷拍呻吟刺激| 国模无码一区二区三区| 婷婷一区二区三区| 97精品在线观看| 成人一对一视频| 日韩免费视频一区二区视频在线观看| jvid福利写真一区二区三区| 亚洲国产高清福利视频| 国产一区二区高清不卡| 亚洲天堂成人av| 日本亚洲欧美天堂免费| 欧美日韩卡一卡二| 91深夜福利视频| 中文字幕永久免费| 性高潮久久久久久久久久| 色88888久久久久久影院按摩 | 88xx成人精品| 妞干网在线免费视频| 波多野结衣一区二区三区在线| 国产精品久久久久久久久免费丝袜| 中文字幕在线精品| 玖玖精品在线视频| 国产精品第九页| 国产日韩欧美综合在线| 日韩中文字幕视频| av片在线免费| 久久久精品毛片| 亚洲欧美二区三区| 午夜欧美大片免费观看| 在线免费观看视频黄| 精品免费久久久| 欧美日韩精品在线播放| 国产精品视频一区二区高潮| 亚洲成人手机在线观看| 亚洲 美腿 欧美 偷拍| 欧美电影一区二区| 精品国产综合区久久久久久| 婷婷社区五月天| 久久精品欧美日韩| 欧美猛交ⅹxxx乱大交视频| 日韩精品视频久久| 国产精品爽爽久久久久久| 日韩欧美第一页| 亚洲xxxx在线| 一本色道久久88| 97久久精品人人澡人人爽| 久久久av免费| 最近免费中文字幕中文高清百度| 国产露脸国语对白在线| 在线中文字幕一区| 国产视频不卡| 成人在线观看小视频| 国产欧美日韩另类视频免费观看| 欧美激情久久久| 亚洲一级免费在线观看| 久久看片网站| 亚洲韩国日本中文字幕| 国产香蕉一区二区三区| 在线观看免费高清视频| 色综合av在线| 精品福利影视| 99免费在线观看| 亚洲综合在线视频| 成人激情视频在线播放| av黄色免费网站| 久久婷婷一区二区三区| 97精品欧美一区二区三区| 超级砰砰砰97免费观看最新一期 | 亚洲黄色a v| 久久精品二区三区| 亚洲国产另类久久精品| 国产aaa免费视频| 亚洲精品字幕在线观看| 日韩欧美国产一区二区在线播放| 亚洲资源视频| 一级黄色大毛片| 91精品国产色综合久久不卡电影| 亚洲欧美日韩精品综合在线观看| 无码人妻久久一区二区三区| 亚洲国产精品天堂| 国产精品自拍首页| 国产一级淫片a| 欧美日韩亚洲精品内裤| 美女被啪啪一区二区| a v视频在线观看| 色系网站成人免费| 欧洲国产精品| 亚洲天堂777| 51午夜精品国产| 日韩精品第1页| 蜜臀久久精品久久久久| 亚洲精品xxxx| 欧美在线观看视频网站| 久久精品国产77777蜜臀| 久久久精品中文字幕| 91传媒视频免费| av一区二区三区免费| 亚洲一区二区三区香蕉| 69**夜色精品国产69乱| 精品激情国产视频| 僵尸世界大战2 在线播放| 亚洲精品一区二区三区蜜桃 | 成人妇女淫片aaaa视频| 亚洲 欧美 变态 另类 综合| 亚洲一二三四区| 国产精品日本一区二区| 日韩影院一区| 亚洲一区二区不卡视频| wwwxx欧美| 成人网在线免费观看| 97免费中文视频在线观看| 国产亚洲激情在线| 日韩欧美一区二区视频| 在线播放91灌醉迷j高跟美女| 一区二区在线观看网站| www.爱爱.com| 亚洲视频在线观看| 中文字幕无码毛片免费看| 国产亚洲精品bt天堂精选| 成人黄色片在线| 精品人妻一区二区三区免费看| 欧美一区二区三区四区在线观看| 播放灌醉水嫩大学生国内精品| 国产精品一区二区黑丝| 热久久这里只有| 久久久久久久久久一区二区三区 |