亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

震撼實錘!清華姚班校友揭「1.4×加速」陷阱:AI優化器為何名不符實?

IP屬地 中國·北京 編輯:顧青青 新智元 時間:2025-09-06 20:20:44


新智元報道

編輯:元宇

為了降低大模型預訓練成本,最近兩年,出現了很多新的優化器,聲稱能相比較AdamW,將預訓練加速1.4×到2×。但斯坦福的一項研究,指出不僅新優化器的加速低于宣稱值,而且會隨模型規模的增大而減弱,該研究證實了嚴格基準評測的必要性。

一直以來,預訓練,都是大模型訓練過程中最花錢的部分。

比如,在DeepSeek V3中,它的成本占比就超過95%。

誰能在這里節省算力,就等于賺了。

長期以來,AdamW都是「默認選項」。但最近兩年,出現了很多新的優化器。

它們大都聲稱能夠相比AdamW,將預訓練加速1.4×到2×,但卻很少能真正落地。

斯坦福大學的研究人員,認為問題主要出現在兩個方法學缺陷上:

一些基線的超參數調得不當;

許多實驗局限于較小規模的設置,導致這些優化器在更廣泛、更真實場景下的表現仍待驗證。


論文地址:https://arxiv.org/abs/2509.02046

有趣的是,這篇論文的標題「神奇優化器在哪里」(Fantastic Pretraining Optimizers and Where to Find Them),正是「捏它」自《神奇動物在哪里》(Fantastic Beasts and Where to Find Them)。

不得不說,論玩梗還是大佬們厲害!


不同縮放范式下的加速差異

研究人員對比了大模型在不同縮放范式下的加速差異。

他們在四種不同的數據-模型比(相當于Chinchilla最優范式的 1×、2×、4×、8×)下進行基準測試,并將模型規模擴展到1.2B參數。


圖1左上顯示,在被廣泛采用的GPT-3配方中,僅調一個超參數,就能讓預訓練獲得2×的加速,這突顯了正確超參數優化的重要性。

研究表明,在一系列模型規模和數據-模型比上,進行細致的超參數調優與訓練結束時的評測是必要的,主要有三個原因:

首先,超參數不能盲目遷移,在優化器間固定超參數會導致不公平的比較。

第二,新優化器的加速低于宣稱值,且隨模型規模增大而減弱。相對于研究人員調優的AdamW基線,其他優化器的加速不超過1.4×。

此外,雖然Muon、Soap等新優化器在小模型(0.1B)上顯示出1.3×加速,但在8×Chinchilla比例下的1.2B參數模型上,加速會降到約1.1×。

第三,早期的損失曲線可能產生顯著誤導。

在學習率衰減期間,不同優化器的損失曲線可能多次交叉,因此用中間檢查點來評判優化器,得到的排名可能與在目標訓練預算下比較的結果不同。

優化器設計的新見解

研究人員基于基準測試,帶來了三個關于優化器設計的新見解:

1. 小模型更適合基于矩陣的優化器

研究人員發現,對于小模型,基于矩陣的優化器,持續優于基于標量的優化器。

基于標量的優化器(如AdamW、Lion、Mars等),需要通過標量操作逐個更新參數。

經過適當調參后,所有基于標量的優化器的優化速度與AdamW相近,平均加速比不足1.2×。

盡管其更新規則多樣,但在小于520M參數的模型上,基于矩陣的優化器相對AdamW均可帶來約1.3×的加速。

2. 最優優化器的選擇,關鍵指標是「數據-模型比」

在1×Chinchilla范式下的贏家,隨著數據-模型比提升,可能不再最優。

比如,在較小的Chinchilla比例下,Muon一直是表現最好的優化器。

但當數據-模型比增至8×或更高時,Kron和Soap的表現優于Muon(圖3與圖4)。

在本項研究中,研究人員研究了表1所列的11種優化器。


模型參數量,涵蓋了130M、300M、520M、1.2B四種規模,詳細超參數見表2。


超參數的三種調參方式

按照不同階段,研究人員對超參數采用了三種不同程度的調參方式:

階段1:對超參數進行「細顆粒度」調參

研究人員在6種不同設置上執行該遍歷,具體為1×Chinchilla下的130M、300M、500M,以及2×、4×、8×Chinchilla下的130M。

對于每個優化器以及上述六種范式,研究人員都找到了一個按坐標的局部最優解。

表3是一個針對300M參數、1×Chinchilla的AdamW示例性超參數優化過程。


階段2:著重調整對「尺度敏感」的超參數

由于廣泛調參在更大規模實驗上代價過高,所以,研究人員對該過程進行了簡化,著重調整對「尺度敏感」的超參數。


如表4,研究人員僅將對尺度敏感的超參數帶入階段2,從而把下一輪調參對象集中在那些跨尺度確實需要重新調參的超參數上。

通過這組實驗,研究人員觀察到兩點現象:

1.基于矩陣的優化器始終優于基于標量的優化器,但所有優化器相對AdamW的加速比都不超過1.5×;

2.在基于矩陣的優化器內部,Muon在1–4×Chinchilla比例下表現最佳,但隨著Chinchilla比例提高,會被Soap與Kron反超。

階段3:為進一步外推而建立超參數縮放律

研究人員基于階段2獲得的優化超參數設置,擬合一個平滑的縮放律,用以預測每個隨尺度敏感的超參數的最優值。

作為模型大小N,與數據預算D的函數,研究人員將每個隨尺度敏感超參數h的最優值建模為:


其中A、B、α與β為學習得到的系數。

研究人員在每個優化器的12個觀測三元組(N,D,h)上,用非線性最小二乘來估計這些參數,使預測與真實最優超參數值的平方誤差最小。

為檢驗預測質量,研究人員在N=1.2B、Chinchilla=1的設置下對AdamW運行了完整的階段1遍歷,并將識別出的最優解與擬合出的超參數進行對比。


在圖2上圖中,研究人員繪制了兩個階段的C4/EN驗證損失;在圖2下圖中,研究人員繪制了為部分優化器選擇的運行所對應的HellaSwag表現。


在圖3中,顯示了跨尺度的不同優化器加速。

研究人員通過為AdamW擬合縮放律,并將不同優化器的損失映射到對應的等效數據預算來估計加速,得到了以下二點觀察:

1. 最高加速被限制在1.4×;

2. 基于矩陣的優化器始終優于基于標量的優化器,且隨數據預算增加呈現更高的加速(表現出超線性趨勢)。

實證發現

1. 在0.1B–0.5B參數模型上的結果

在所有模型規模與算力預算下,方差減少類的Adam變體(NAdamW、Mars、Cautious)與基于矩陣的優化器都相對AdamW基線,帶來了加速。

然而,沒有任何方法達到了過往文獻聲稱的2×的加速。

研究人員得出如下結論:

(1)基于矩陣的方法優于基于標量的方法。加速比隨數據預算增加而上升,但隨模型規模增大而下降。

(2)方差削減技術帶來小而穩定的提升。

在基于標量的家族中,所有方差削減型的Adam變體(NAdamW、Mars、Cautious)都穩定地超過vanilla的AdamW——僅在最小規模實驗上有輕微落后。

(3)AdamW的內存高效變體與AdamW的表現保持緊密。

兩種內存高效的AdamW變體(Lion、Adam-mini),盡管輔助狀態更少,其表現與AdamW緊密跟隨,最多僅慢5%,有時甚至優于AdamW。

2. 在1.2B參數模型上的結果

研究人員利用擬合的超參數縮放律,將模型規模擴大到1.2B,以考察優化器的加速如何隨模型規模變化。

觀察到NAdamW、Muon與Soap依然相對AdamW帶來加速,但這些優化器的加速減弱到約1.1×(圖4,左與中),且不再帶來下游改進(表 5)。


3. 高數據-模型比

在130M與520M模型的8×Chinchilla范式下,Muon已被Soap超過。

為進一步驗證,研究人員將三份300M模型訓練到16×Chinchilla,并確認當數據-模型比增加時,Muon不再是最優優化器(圖4,右)。

研究人員推測,當數據-模型比增大時,Soap與Kron保持的二階動量會更有效。從長期看,對參數方向異質性的自適應可能帶來更大的加速。

該研究證實了嚴格基準評測的必要性。


各優化器的共性現象


研究人員在預訓練中,通過對11種深度學習優化器進行了基準評測,發現它們相對AdamW的真實增益遠小于此前報道。

由此,研究人員強調了三個關鍵教訓:

1.許多聲稱的加速源于超參數調優不足,因為公平的掃參會消除大多數表面的優勢;

2.基于早期或不一致的評估進行比較可能具有誤導性,因為在完整訓練軌跡上優化器的排名常會發生變化;

3.即使表現最好的替代方案也只提供溫和的加速,且隨模型規模增大而進一步減弱,在12億參數時降至1.1×。

作者介紹

Kaiyue Wen


Kaiyue Wen是斯坦福大學的博士生。目前在馬騰宇 (Tengyu Ma) 的課題組進行輪轉,同時與Percy Liang老師合作。

他本科畢業于清華大學姚班,期間獲得了獲得了馬騰宇、劉知遠、Andrej Risteski、張景昭、王禹皓以及李志遠等多位老師的指導。

他的研究興趣涵蓋深度學習的理論與應用,長遠目標是理解深度學習背后的物理學原理,并堅信理論分析與實證研究相結合是實現這一目標的關鍵。

馬騰宇(Tengyu Ma


Tengyu Ma是斯坦福大學計算機科學系和統計系的助理教授。

他本科畢業于清華姚班,于普林斯頓大學獲得博士學位。

他的研究興趣涵蓋機器學習、算法理論等方向,具體包括:深度學習、(深度)強化學習、預訓練/基礎模型、魯棒性、非凸優化、分布式優化以及高維統計學。

Percy Liang


Percy Liang是斯坦福大學計算機科學副教授,兼任基礎模型研究中心(CRFM)主任。同時也是CodaLab Worksheets的創建者,并借此堅定倡導科研工作的可復現性。

他專注于通過開源和嚴格的基準測試,提升基礎模型(特別是大語言模型)的可及性與可理解性。

他曾圍繞機器學習和自然語言處理領域進行了廣泛研究,具體方向包括魯棒性、可解釋性、人機交互、學習理論、知識落地、語義學以及推理等。

此前,他于2004年在MIT獲得學士學位,并于2011年在UC伯克利獲得博士學位。

參考資料:

https://arxiv.org/abs/2509.02046


免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

国产精品xxx在线观看www| 日本高清免费在线视频| frxxee中国xxx麻豆hd| 日韩电影一区二区三区四区| 天天影视网天天综合色在线播放| 精品免费视频.| 日韩免费中文专区| 国产亚洲精品码| 国产日韩精品一区二区三区 | 中国老头性行为xxxx| 亚洲第一狼人社区| 国产精品直播网红| 男人操女人免费软件| 国产999久久久| 欧美人体做爰大胆视频| 国产欧美日韩免费| 国产三级在线观看完整版| 免费国产黄色片| 欧美成人免费网站| 日本黄xxxxxxxxx100| 最新中文字幕一区| 久热精品视频在线观看| 亚洲国产精品成人av| 亚洲精品国产精品国自产| 精品亚洲欧美一区| 久久综合一区二区| 在线看的黄色网址| 国产精品主播视频| 欧美视频日韩视频在线观看| 午夜国产在线视频| 国产美女免费无遮挡| 在线观看福利一区| 伊人久久综合97精品| 久久国内精品视频| 中文久久久久久| 久久精品国产亚洲7777| 国产一区不卡视频| 成人信息集中地| 日本女人高潮视频| 动漫3d精品一区二区三区| 亚洲桃花岛网站| 亚洲欧洲性图库| 国产伦精品一区二区三区视频痴汉| 日本一区二区三区四区在线观看| 国产日韩三级在线| 国产精品1区2区在线观看| 久久精品欧美一区二区三区麻豆| 国产探花在线看| 国产精品污网站| 免费毛片网站在线观看| 91日本视频在线| 国产精品国产三级国产aⅴ中文| 短视频在线观看| 欧美另类极品videosbest最新版本| 黄色录像二级片| 国产精品第三页| 日韩欧美一区二区在线| 成人午夜av影视| 日本在线不卡视频一二三区| 国产极品在线播放| 亚洲图片都市激情| 亚洲人精品午夜| 美女毛片在线观看| 99久re热视频精品98| 伊人夜夜躁av伊人久久| 性久久久久久久久久久久久久| 国产精品视频免费观看| 亚洲性无码av在线| 丁香啪啪综合成人亚洲小说| 国产精品国产精品88| 亚洲va韩国va欧美va| 97人妻精品一区二区三区| 国产三级国产精品| 国产欧美视频一区| 日韩在线免费观看av| 右手影院亚洲欧美| 少妇久久久久久久久久| 日韩欧美在线一区二区| 91精品国产福利| 国产美女主播视频一区| 一二三不卡视频| 国产精选在线观看91| 国产成人综合在线| 日韩精品xxx| 午夜啪啪福利视频| 亚洲天堂视频在线观看| 91年精品国产| 日本视频一区二区三区| 秋霞毛片久久久久久久久| 亚洲福利在线播放| 亚洲精品成a人| 亚洲va在线va天堂| 欧美日韩日日夜夜| 亚洲精品一区二区三区蜜桃下载| 亚洲午夜久久久久久久久电影院 | 欧美午夜电影在线播放| 玖玖爱免费视频| 操bbb操bbb| av亚洲精华国产精华精华| 尤物网站在线看| 欧美成人性生活| 欧美中文字幕亚洲一区二区va在线| 亚洲精品久久嫩草网站秘色| 亚洲av综合一区| 波多野结衣作品集| 午夜欧美视频在线观看| 欧洲成人免费aa| 伊人青青综合网站| 日本一区二区三区四区五区六区| 久久久久久国产免费a片| 精品性高朝久久久久久久| 国产亚洲女人久久久久毛片| 致1999电视剧免费观看策驰影院| 在线欧美日韩精品| 69久久精品无码一区二区| 亚洲精品一区中文| 日韩人妻无码一区二区三区99| 免费观看国产精品视频| heyzo国产| 久久精品国产精品亚洲色婷婷| 妺妺窝人体色www看人体| 亚洲欧美日韩不卡一区二区三区| 亚洲国产精品女人| 色多多视频在线播放| 最新精品视频| 一区二区日本伦理| 一区二区三区不卡在线| 蜜桃传媒视频第一区入口在线看| 亚洲www在线观看| 国产精品va在线播放| 在线a欧美视频| 亚洲精品菠萝久久久久久久| 视频一区免费在线观看| 国产探花在线播放| 三区精品视频观看| 日本高清久久天堂| 国产精品theporn88| 日韩av免费网站| 91精品国产综合久久久久久漫画| 亚洲v中文字幕| 日韩成人精品视频| 国产精品一区二区入口九绯色| 亚洲少妇18p| frxxee中国xxx麻豆hd| 亚洲精品网站在线| 久久久影视传媒| 黑人巨大精品欧美一区二区免费| 日韩精品在线影院| 欧美v亚洲v综合ⅴ国产v| 精品久久久久久国产| 国产亚洲一区二区三区在线观看 | 最近中文字幕2019免费| 91麻豆精品在线观看| 亚洲电影一级黄| 在线免费观看视频一区| 麻豆高清免费国产一区| 波多野结衣视频播放| 大乳护士喂奶hd| 欧美韩国日本在线| 成人永久免费| 黄色一级视频播放| 亚洲无吗一区二区三区| 国产精品主播一区二区| 尤物在线观看一区| 久久免费精品视频| 欧洲一区二区日韩在线视频观看免费| 日韩中字在线观看| 性xxxxxxxxx| 日本人视频jizz页码69| 国产乱叫456| 热久久精品国产| 黄色免费一级视频| 青青青在线视频播放| 国内精品久久国产| 成人av播放| 日韩av自拍偷拍| 国产91精品高潮白浆喷水| 久久免费视频这里只有精品| 欧美一级视频免费在线观看| 日本欧美色综合网站免费| 亚洲天堂av在线播放| 奇门遁甲1982国语版免费观看高清| 国产精品激情av在线播放| 日本xxxxxxx免费视频| 国产精品酒店视频| 久久精品二区三区| 亚洲狼人国产精品| 制服丝袜日韩国产| 日韩高清免费观看| 91成人在线播放| 欧美变态tickling挠脚心| 亚洲天堂精品在线| 亚洲在线中文字幕| 国产91色综合久久免费分享| av一二三不卡影片| 亚洲日韩欧美视频一区| 久久久久久久久久久久av| 欧美孕妇性xx| 不卡的av一区| 激情综合在线观看| 欧美不卡福利| 亚洲一区尤物| 一区二区三区免费高清视频| 成人激情动漫在线观看| 亚洲色图综合久久| 国产欧美精品aaaaaa片| 懂色av蜜臀av粉嫩av分享吧| 欧洲av在线精品| 亚洲影院在线看| 成人午夜免费在线| www.17c.com喷水少妇| 中国毛片在线观看| 欧美激情一区二区三区免费观看 | 国产精品日日摸夜夜摸av| 亚洲色图在线看| 欧美一区二区三区艳史| 国产成人一区二区| 免费在线成人av电影| 污污的视频免费观看| 在线观看免费视频一区| 爱爱视频免费在线观看| 精品一区二区三区免费观看 | 成人小视频在线观看免费| 国产精选久久久| 欧美一区二区三区在线观看| av免费网站观看| 免费观看成人av| 亚洲精品日韩在线| 超碰在线免费观看97| 欧美巨胸大乳hitomi| 麻豆精品在线播放| 在线观看成人免费视频| 中文字幕日韩av综合精品| 成人xxxxx| 日韩精品福利片午夜免费观看| 毛片毛片毛片毛片毛片毛片毛片毛片毛片| 美女www一区二区| 色综合天天天天做夜夜夜夜做| 精品精品国产高清a毛片牛牛| 国产精品日韩欧美一区二区| 超碰97人人干| 麻豆一区产品精品蜜桃的特点| www.爱爱.com| 99久久婷婷国产精品综合| 久久久久久久久久久人体| 91ts人妖另类精品系列| 欧美日本一道本在线视频| 欧美久久久久久久久久久久久| 国产成人精品www牛牛影视| 久久精品最新地址| 成人在线电影网站| 国产成人综合在线| 亚洲欧美激情四射在线日| 日韩日韩日韩日韩日韩| 久久青青草视频| 欧美日韩免费在线视频| 日本不卡二区高清三区| 蜜臀av无码一区二区三区| a级大片在线观看| 国产偷人妻精品一区二区在线| 久久久亚洲精品石原莉奈| 日韩视频免费观看高清完整版| 999国产在线| caoporn国产| 亚洲成人久久久久| 91免费福利视频| av中文在线播放| 在线观看欧美日本| 50路60路老熟妇啪啪| 亚洲午夜精品17c| 激情内射人妻1区2区3区 | 黄色aaa大片| 欧美日韩不卡合集视频| 日韩精品aaa| 韩国一区二区三区| 色爱av美腿丝袜综合粉嫩av| 中文字幕 91| 成人网男人的天堂| 国产精品久久久久国产a级| 亚洲最大成人综合网| 另类欧美日韩国产在线| 日韩欧美激情一区| 日本一区精品| 久久久免费高清视频| 亚洲一级二级三级| 国产精品视频专区| 亚洲国产成人精品女人久久| 亚洲国产精品久久精品怡红院| 日本精品一区二区三区高清 久久| 99在线精品视频免费观看软件| 亚洲人成电影在线播放| 天天干中文字幕| 欧美日本啪啪无遮挡网站| 日本va欧美va欧美va精品| 久久精品五月婷婷| 婷婷av一区二区三区| 精品国产乱码久久久久久88av| 高清成人免费视频| 韩日精品中文字幕| 欧美一级高潮片| 亚洲成人黄色网址| 成年人性生活视频| 亚洲同性gay激情无套| 激情视频综合网| 中文字幕免费一区| 久久国内精品一国内精品| 日韩欧美精品在线观看视频| 日本在线不卡一区| 欧美日韩福利在线观看| 免费看污黄网站在线观看| 综合激情成人伊人| www.欧美日本| 日韩欧美精品在线观看| 亚洲av无码一区二区三区网址| 亚洲色欲色欲www在线观看| 一区二区免费在线视频| kk眼镜猥琐国模调教系列一区二区| a级大片免费看| 国产精品成人午夜| 国产精品99精品无码视| 明星裸体视频一区二区| 91成人在线免费观看| 国产大片aaa| 国产在线精品成人一区二区三区| 国产在线精品不卡| 日韩福利二区| 99国产精品国产精品毛片| 久久一区二区三区av| 成人午夜在线免费| 亚洲免费久久| 一区二区三区四区高清精品免费观看| 奇米777在线视频| 国产亚洲综合色| 日本成人黄色| 欧美aaaaaa午夜精品| 亚洲xxx自由成熟| 亚洲av激情无码专区在线播放| 欧美综合激情网| 91精品视频免费在线观看| 91欧美激情另类亚洲| 99久久精品国产毛片| 欧美视频在线播放一区| 亚洲精品videosex极品| 免费视频91蜜桃| 欧洲亚洲在线视频| 亚洲日本欧美天堂| 一起草av在线| 五月六月丁香婷婷| 国产精品va在线| 亚洲精品欧美综合四区| 国产无码精品久久久| 国产青春久久久国产毛片| 成人国产精品视频| 亚洲图片综合网| 日韩三级在线观看| 中文人妻熟女乱又乱精品| 国产精品一二区| fc2成人免费人成在线观看播放| 色免费在线视频| 日韩精品一区二区三区四区视频| 蜜桃精品成人影片| 日韩精品在线观| 少妇又色又爽又黄的视频| 免费日本黄色网址| 亚洲一区二区精品在线观看| 亚洲国产日韩欧美综合久久| 中文字幕你懂的| 一道精品一区二区三区| 国产精品丝袜一区| 级毛片内射视频| 色yeye香蕉凹凸一区二区av| 国产婷婷在线视频| 成人免费福利在线| 国产精品一区一区| xxx国产在线观看| 在线观看欧美黄色| 国产精品20p| 一本一道综合狠狠老| 国产chinesehd精品露脸| 欧美精品一卡二卡| 色哟哟一一国产精品| 色综久久综合桃花网| 黄色精品一二区| 国模无码视频一区| 91精品综合视频| 91精品国产综合久久蜜臀| 久久伊人亚洲| 51自拍视频在线观看| 国产剧情久久久久久| 一本一本久久a久久精品综合麻豆 一本一道波多野结衣一区二区 | 欧美成人国产一区二区| 久久激情网站| 91热视频在线观看| 欧美激情亚洲国产| 成人激情小说乱人伦| 国产免费无码一区二区| 97婷婷涩涩精品一区| 久久精品亚洲乱码伦伦中文| 第四色在线视频| 92看片淫黄大片看国产片| 欧美人与禽zozo性伦| 免费一级片91| 女性生殖扒开酷刑vk| 成人午夜电影在线播放| 91免费观看国产| 潘金莲一级淫片aaaaaa播放| 精品人妻一区二区三区四区在线| 正在播放欧美一区| 日本高清成人免费播放| 中文字幕的久久|