亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

「有望成為Transformer殺手」,谷歌DeepMind新架構MoR實現兩倍推理速度

IP屬地 中國·北京 編輯:蘇婉清 時間:2025-07-17 15:57:14

機器之心報道

編輯:冷貓

大型語言模型已展現出卓越的能力,但其部署仍面臨巨大的計算與內存開銷所帶來的挑戰(zhàn)。隨著模型參數規(guī)模擴大至數千億級別,訓練和推理的成本變得高昂,阻礙了其在許多實際應用中的推廣與落地。

這促使研究者們圍繞兩個主要方向積極探索高效化技術:一是通過權重共享提升參數效率,二是根據輸入復雜度動態(tài)分配計算資源,實現自適應計算

而一切的基礎則是 Transformer 架構。這次谷歌又一次坐不住了,在遞歸 Transformer 的基礎上再次進化,發(fā)布了名為 Mixture-of-Recursions (MoR)的新 LLM 模型架構,有學者認為這個新架構「有潛力成為 Transformer 的殺手」

MoR 框架引入了一種統(tǒng)一方法,同時實現參數共享和自適應計算。與以往孤立處理參數減少或自適應計算的方法不同,MoR 將動態(tài) token 級路由集成到參數高效的遞歸 Transformer 中,創(chuàng)建了一種協(xié)同架構,實現了「無需承擔大模型成本的大模型質量」。

論文標題:Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation論文鏈接:alphaxiv.org/abs/2507.10524

在本研究中,作者提出了 Mixture-of-Recursions(MoR),一個統(tǒng)一框架,旨在充分發(fā)揮遞歸 Transformer 的潛力(如圖所示)。MoR 通過端到端訓練輕量級的路由,為每個 token 分配專屬的遞歸深度:即根據每個 token 所需的「思考」深度,決定共享參數模塊對其重復應用的次數,從而將計算資源精準地分配到最需要的部分。

這種基于 token 的動態(tài)遞歸機制,天然支持遞歸級的鍵值(KV)緩存,即根據每個 token 所分配的遞歸深度,有選擇地存儲和檢索對應的鍵值對。該定向緩存策略顯著降低了內存帶寬壓力,從而無需后處理操作就能提升推理吞吐量。

因此,MoR 在一個統(tǒng)一架構中同時實現了三項優(yōu)化:

1. 參數共享:通過權重綁定顯著減少參數量;

2. 計算路由:通過 token 路由避免冗余計算(減少無效的 FLOPs);

3. 遞歸級緩存:按需緩存鍵值對,降低內存訪問開銷,提升吞吐效率。

MoR 以此兼顧了性能、效率和計算資源利用率,是遞歸 Transformer 架構的重要演進

MoR 總覽

左圖顯示每個遞歸步驟由一組固定堆疊的層與一個路由(router)組成。路由會為每個 token 決定是繼續(xù)通過遞歸塊(進行下一輪遞歸),還是提前退出。圖中灰色方框表示的就是該遞歸模塊。

中圖展示了完整的模型結構。對于每個 token,模型會根據路由的決策,對共享的遞歸模塊最多重復應用 N_r 次,從而實現動態(tài)遞歸深度。

右圖 是一個 token 級的路由示例,展示了每個 token 的實際遞歸次數。顏色越深的單元格表示該 token 在當前遞歸步驟中被激活參與了計算。底部顯示了每個文本 token 實際經歷的遞歸次數,使用不同顏色編碼標注(如:紫色 1 次、藍色 2 次、紅色 3 次)。

核心架構與方法

遞歸 Transformer 模型基礎

MoR 基于遞歸 Transformer,通過跨多個層共享權重來實現參數效率,而不是為每一層維護唯一參數。

多種參數共享模式

循環(huán):遞歸塊循環(huán)復用(例如,重復層 [0,1,2])

序列:每個塊連續(xù)地重用相同的層(例如,[0,0,0],[1,1,1])

中周期 / 中序列:保留首層和尾層的獨特參數,同時共享中間層權重的變體

中周期策略在經驗上被證明最為有效,在參數效率和模型表達能力之間提供了最佳平衡。

動態(tài)路由機制

MoR 的核心創(chuàng)新在于其動態(tài)路由系統(tǒng),該系統(tǒng)根據單個 token 的計算需求分配不同的遞歸深度。實現了兩種主要的路由策略:

1、在每一個遞歸步驟 r,路由器 G 會對每個 token 當前的隱藏狀態(tài)進行評估,并選擇 top-k 的 token 繼續(xù)進入下一層遞歸。

這會形成一個逐步收窄的計算漏斗:復雜的 token 會接受更深層的處理,而簡單的 token 會更早退出計算。然而,這種方法在訓練過程中會面臨因果性挑戰(zhàn),因此需要采用一些專門的技術:

輔助路由(Auxiliary Router):一個單獨的輕量網絡,用于在推理階段預測 top-k 的選擇;輔助損失(Auxiliary Loss):采用二元交叉熵損失,鼓勵路由器輸出接近二值化,從而實現更清晰的閾值判斷。

2、Token 選擇路由(Token-Choice Routing):每個 token 在一開始就做出一次路由決策,以確定其完整的遞歸深度。這種方式天然滿足因果性要求,但需要引入負載均衡機制:

均衡損失(Balancing Loss):正則項,用于鼓勵遞歸深度之間的均勻分布;路由偏置(Router Bias):在訓練過程中動態(tài)調整各專家的偏置項。

KV緩存優(yōu)化

MoR 引入了兩種針對動態(tài)深度模型的專用 KV 緩存策略:

遞歸式 KV 緩存:在每個遞歸深度選擇性地緩存 KV 對,注意力僅限于本地緩存的 token:

遞歸 KV 共享:所有 token 都會遍歷第一個遞歸塊,該塊的 KV 對會被緩存并在后續(xù)遞歸中重用:

實驗結果

MoR 在相同計算預算下以更少參數優(yōu)于基線模型

在等效的訓練預算(16.5 × 101? FLOPs)下,作者將 MoR 模型與 原始 Transformer 及遞歸 Transformer 進行了比較。如表 3 所示,MoR 模型采用「專家選擇路由」(expert-choice routing)和兩層遞歸(N_r = 2),實現了更低的驗證損失,并在少樣本學習平均準確率上超越基線(43.1% 對比 42.3%)。值得注意的是,盡管參數量減少近 50%,MoR 依然取得了更優(yōu)性能。這一優(yōu)勢歸因于其更高的計算效率,使其在相同 FLOPs 預算下處理了更多訓練 token。

在固定 FLOPs(16.5e18)與固定 token 數(20B)兩種設定下,對 MoR、遞歸 Transformer(Recursive)和標準 Transformer(Vanilla)進行了對比。

MoR 在相同數據下以更少計算超越基線模型

為了單獨分析架構差異,作者在固定訓練 token 數量(20B)下進行評估。結果顯示,MoR 模型(N_r = 2)在使用比基線模型少 25% 的 FLOPs 情況下,仍實現了更低的驗證損失和更高的準確率。

這種理論上的效率優(yōu)勢在實踐中帶來了顯著提升:相比于基線模型,MoR 的訓練時間減少 19%,峰值內存使用量下降 25%。這些改進來源于 MoR 的層級過濾機制與遞歸注意力策略,有效縮短了序列長度,實現了更優(yōu)的計算 - 準確率平衡,甚至在預訓練階段亦是如此。

MoR 性能受路由與緩存策略影響

作者還評估了 MoR 架構下的一些設計變體,特別是在輕量級的三層遞歸設置(N_r = 3)下仍具可比性的 Vanilla 模型。結果顯示,采用「token 選擇路由」時準確率較低(40.0%),而「專家選擇路由」表現更好(42.6%),表明路由粒度對模型性能具有關鍵影響。

此外,采用 KV 緩存共享略微降低了性能,但顯著提升了內存效率。在對內存占用有要求的部署場景中,這種性能與資源之間的權衡是值得接受的。

不同計算預算下的驗證損失,在四種模型規(guī)模(135M、360M、730M 和 1.7B 參數量)下進行對比。

MoR 是一種可擴展且參數高效的架構

如圖所示,MoR 在所有模型規(guī)模和計算預算下都穩(wěn)定優(yōu)于遞歸基線模型。盡管在最小規(guī)模(135M)下表現略低于原始 Transformer(可能由于遞歸容量瓶頸所致),但這種差距隨著模型規(guī)模的擴大迅速縮小。在參數量超過 360M 時,MoR 不僅能夠追平,而且在低至中等預算下常常超越原始 Transformer。

結果表明:MoR 是標準 Transformer 的一種可擴展且高效的替代方案

它在使用顯著更少參數的情況下,取得了優(yōu)異的驗證性能,因而非常適合用于預訓練以及大規(guī)模部署。

MoR 通過連續(xù)深度批處理提升推理吞吐量

如圖 4a 所示,在上述兩種批處理設置下,所有 MoR 變體的推理吞吐量均高于 Transformer 基線模型。

隨著遞歸深度的增加,更多 token 可在早期階段退出,從而減少 KV 緩存的使用。這一機制顯著提升了推理速度:

例如,MoR-4 在最大批量配置下的吞吐量提升可達 2.06 倍

雖然這伴隨著輕微的性能下降,但考慮到吞吐量的大幅提升,這種權衡是值得的。

實驗結果表明:將深度方向批處理范式與提前退出機制相結合,能夠顯著提升 MoR 在實際部署場景中的推理吞吐能力。

圖中 (a) 在固定批量和最大批量設置下,MoR 與原始 Transformer 在推理吞吐量與對數似然(log-likelihood)之間的帕累托前沿(Pareto frontier)表現對比。

(b) 參數共享策略對遞歸 Transformer 的影響:展示了遞歸次數為

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

久久发布国产伦子伦精品| 亚洲综合中文字幕在线观看| 久久国产精品高清| 亚洲精品成人无码熟妇在线| 老牛国产精品一区的观看方式| 日韩美女视频19| 欧美另类高清videos| www.国产在线播放| 在线观看日本视频| 亚洲女人****多毛耸耸8| 久久精品国产96久久久香蕉| 丰满人妻一区二区三区53号| 国产成人无码精品亚洲| 国内精品一区二区| 男女黄床上色视频| 国产精品一区二区在线播放| 亚洲黄在线观看| 午夜精品电影在线观看| 国产午夜精品理论片| 成人激情黄色小说| 久久久国产成人精品| 欧美 日韩 亚洲 一区| 一区二区日韩在线观看| 在线日韩av片| 欧美日韩精品免费看| 日本三级理论片| 亚洲成人精品在线观看| 91牛牛免费视频| 国产精品18在线| 国产精品嫩草99a| 91国偷自产一区二区三区的观看方式| 爱爱爱爱免费视频| 日韩经典中文字幕一区| 亚洲无av在线中文字幕| 免费无码国产v片在线观看| 懂色av成人一区二区三区| 欧美大片在线观看| 国产日本在线播放| 丁香花免费高清完整在线播放 | 婷婷久久综合九色综合伊人色| 91热福利电影| 欧美日韩免费做爰视频| 亚洲精品欧美综合四区| 91手机在线播放| 日韩欧美亚洲一区二区三区| 午夜电影网亚洲视频| 九九热久久66| 国产精品第6页| 欧美一区二区网站| 毛片在线视频观看| 色婷婷中文字幕| 日日骚久久av| 4438x全国最大成人| 92精品国产成人观看免费| 国产成人免费91av在线| 国产乱国产乱老熟300| 精品福利一区二区| 亚洲最大色综合成人av| 国产精品久久婷婷| 精品香蕉一区二区三区| 不卡的在线视频| av在线播放不卡| 国产成人亚洲综合| 麻豆亚洲av成人无码久久精品| 欧美视频国产精品| 中文字幕一区二区三区精彩视频| 亚州男人的天堂| 九九热精品视频| 欧美自拍偷拍网| 婷婷亚洲久悠悠色悠在线播放| 欧美日韩喷水| 久久精品伊人| 2019中文字幕全在线观看| 日韩精品一区二区亚洲av性色| 色999日韩国产欧美一区二区| 成年在线观看视频| 国产高清不卡一区二区| 91精品久久久久久久久久久| 日本a级c片免费看三区| 国产午夜精品久久久| 色综合久久五月| 富二代精品短视频| 黄www在线观看| 久久精品一区二区三区不卡| 久久久久久久久久久久久久久久av | 欧美性生活久久| 中文字幕无码不卡免费视频| 2021国产精品久久精品| 久久久久久欧美精品色一二三四| 熟妇人妻av无码一区二区三区| 欧美成人午夜影院| 韩国av免费观看| 亚洲午夜av久久乱码| 91麻豆制片厂| 欧美tk—视频vk| 国产精品久久AV无码| 日本高清不卡一区| 亚洲一区精品视频在线观看| 亚洲视频在线观看一区| 国产情侣第一页| 91日韩在线专区| 欧美日韩电影一区二区| 精品一区二区三区欧美| 51蜜桃传媒精品一区二区| 精品国产亚洲av麻豆| 亚州成人av在线| 中日韩av在线| 日本一区二区不卡| jizz中国少妇| 国产精品视频区1| www.蜜桃av.com| 国产精品视频自拍| 无码精品黑人一区二区三区| 国产欧美日韩精品丝袜高跟鞋| 亚洲一区二区人妻| 日本成人在线视频网址| 性欧美18一19性猛交| 国产精品久久久久久久av大片| 国产三级在线观看视频| 国产福利视频一区二区| 亚洲AV无码精品色毛片浪潮| 国产精品你懂得| 亚洲欧美日韩动漫| 精品国产一区二区三区麻豆免费观看完整版 | 精品在线免费视频| 先锋影音日韩| 国产欧美一区二区三区在线老狼| 成人免费aaa| 亚洲成人在线网站| 人妻互换一二三区激情视频| 日韩午夜三级在线| 中国毛片直接看| 正在播放欧美视频| 中文字幕av资源| 国产欧美一区二区白浆黑人| 久久99久久久欧美国产| 亚洲精美视频| 亚洲欧洲成人自拍| 在线观看国产中文字幕| 欧美日韩精品综合在线| 中文字幕美女视频| 久久777国产线看观看精品| 国产精品久久久久久久一区二区| 成人av.网址在线网站| 国产一区二区美女| 欧美乱大交xxxxx潮喷l头像| 午夜久久久久久久久久一区二区| 少妇极品熟妇人妻无码| 亚洲欧美国产精品专区久久| 区一区二在线观看| 国产伦精品免费视频| 国产精品自产自拍| 精品欧美一区免费观看α√| 色噜噜狠狠色综合中国| 在线日韩国产网站| 97在线看福利| 寂寞少妇一区二区三区| 日本在线xxx| 欧美日韩精品一区二区在线播放| 91视频综合网| 国产999精品| 国产91在线|亚洲| 三上悠亚在线一区| 亚洲日本成人女熟在线观看 | 老司机免费视频久久| 国产成人精品免费看在线播放| 亚洲v精品v日韩v欧美v专区| 中文字幕精品亚洲| 日本一区二区在线免费播放| 成人精品国产福利| 日本中文字幕二区| 中文字幕亚洲精品| 狂野欧美一区| 免费在线a视频| 亚洲精品97久久| 精品人妻少妇嫩草av无码专区| 亚洲综合第一| 91黄色免费观看| www.色国产| 日本不卡一区| 欧美三区免费完整视频在线观看| 毛片毛片女人毛片毛片| 久久99精品国产99久久| 午夜精品免费在线观看| 男女羞羞免费视频| 成人在线免费观看一区| 一区二区在线观看av| 97在线观看免费高| 5566av亚洲| 一区二区三区中文在线| 四虎免费在线视频| 成人在线视频网| 一区二区三区四区不卡在线| 我要看一级黄色录像| 7777精品伊久久久大香线蕉语言 | 色国产综合视频| 亚洲永久精品一区| 国产成人三级视频| 亚洲激情电影中文字幕| 视频精品一区二区| www.成年人| 久久久久久久久久久免费精品| 国产一区二区成人久久免费影院| 亚洲精品无码久久久久久久| 国内免费精品永久在线视频| 久久久亚洲高清| 精品人体无码一区二区三区| 91色中文字幕| 色综合久久久久综合| 中文字幕永久在线视频| 久久久久久久久久久综合| 日韩成人久久久| 精品一区二区免费视频| 波多野结衣视频播放| 国产精品一区二区三区免费视频| 亚洲激情av在线| 青青青国产在线| 日韩欧美一级在线| 在线精品播放av| 成人一级片在线观看| 中文字幕人妻一区二区| 国产91视觉| 欧美久久久久久蜜桃| 六月丁香综合网| 九九九九九伊人| 国产剧情久久久久久| 日本精品一区二区三区高清| 动漫av一区二区三区| 久久国产这里只有精品| 国产suv精品一区二区| 天天综合天天综合色| www夜片内射视频日韩精品成人| 成人毛片视频网站| 午夜精品久久久久久久白皮肤| 亚洲免费在线视频| 亚洲天堂视频网| 中文字幕线观看| 成人午夜小视频| 欧美一区二区视频在线观看2020 | 久久久免费观看| 亚洲一区二区三区小说| 99久久精品免费看国产交换| 日本一二区免费| 成人春色激情网| 欧美成人r级一区二区三区| 国产麻豆欧美日韩一区| 在线观看亚洲网站| 男女男精品视频站| 精品成人av一区| 蜜桃视频污在线观看| 欧美xxxx日本和非洲| 国产富婆一区二区三区| 精品国产乱码久久久久久老虎 | 国产精品网站入口| 欧美日韩精品系列| 国产乱码精品一区二区三| 97精品在线播放| 毛片在线视频观看| 欧美一区在线直播| 欧美日韩久久一区二区| 精品制服美女丁香| 欧美激情国产精品免费| 国产黄色一级网站| 成人久久一区二区| 日韩成人av在线| 亚洲激情网站免费观看| 老牛影视av牛牛影视av| 一区二区三区久久久久| 337p亚洲精品色噜噜狠狠p| 91超碰中文字幕久久精品| 91久久香蕉国产日韩欧美9色| 国产精品一区二区黑丝| 最近免费中文字幕大全免费版视频| 国产日韩欧美久久| 蜜桃av噜噜一区二区三| 欧美乱大交做爰xxxⅹ性3| 日本国产一区二区| 97久久久精品综合88久久| 中国一区二区视频| 午夜在线观看一区| 国产91在线免费| 国产精品久久亚洲| 欧美极品少妇xxxxⅹ免费视频| 91黄色免费网站| 久久综合一区二区| 天天干天天舔天天射| 久久丫精品久久丫| 美女久久久久久久久| 亚洲精品乱码视频| 国产精品久久国产精品99gif| 国产视频在线一区二区| 亚洲一区二区三区四区五区中文 | 高跟丝袜欧美一区| 91视频91自| 久久亚洲精选| 国产精品尤物视频| 亚洲怡红院在线观看| 精品一二线国产| 手机av在线免费| 亚洲精品白虎| 国产免费一区二区三区在线能观看| 国产精品传媒在线| 国产在线观看一区二区| 丰满人妻一区二区三区大胸 | 91国产视频在线播放| 欧美人牲a欧美精品| 国产成人在线免费看| 欧洲精品一区色| 国产成人激情小视频| 最近2019免费中文字幕视频三| 欧美日韩一级片在线观看| 一区二区三区中文字幕精品精品 | 成人片黄网站色大片免费毛片| 少妇无码av无码专区在线观看| 精品无码久久久久国产| 精品国产999久久久免费| jlzzjlzz亚洲女人18| 久久aⅴ国产欧美74aaa| 亚洲视频网在线直播| 欧美日韩国产精选| 中文字幕精品—区二区| 欧美人与性动交| 成人欧美一区二区三区在线| 欧美亚洲另类在线一区二区三区| 日韩欧美在线播放视频| xxxxx99| 中文字幕一区二区人妻电影| 青青草97国产精品免费观看| 亚洲天堂久久久久久久| 亚洲第一网中文字幕| 日本乱人伦a精品| 日韩a级在线观看| 50一60岁老妇女毛片| a天堂中文在线观看| 亚洲视频在线一区观看| 亚洲片在线资源| 99在线观看视频网站| 日本高清免费观看| 91久久国语露脸精品国产高跟| 亚洲午夜激情网页| 中文字幕一区二区精品| 亚洲永久激情精品| 免费在线观看的毛片| www黄色在线| 久久精品老司机| 蜜臀久久99精品久久久久久9| 天天影视网天天综合色在线播放| 91精品一区二区| 丰满少妇一级片| 国产精品一区二区不卡视频| 成人有码视频在线播放| 国产日韩在线亚洲字幕中文| 国产综合色香蕉精品| 亚洲综合日韩在线| 成人av免费在线看| 国产日韩一区二区三区| 久久草视频在线看| 亚洲精品一区二区三区av| 亚洲一区二区三区精品动漫| 亚洲最新免费视频| 国产av熟女一区二区三区| 91黄色在线看| www.xxx亚洲| 无套白嫩进入乌克兰美女| 2一3sex性hd| 久久爱一区二区| 日韩av大片在线观看| 一级二级三级视频| 老司机午夜福利视频| 国产在线精品免费| www亚洲一区| 一区二区三区成人在线视频| 色综合久久久久久久久久久| 欧美一区二区精美| 亚洲美女视频网站| 久久久999精品免费| 国产成人精品午夜| 国产综合 伊人色| 草草草视频在线观看| 亚洲综合欧美激情| 扒开jk护士狂揉免费| 五月天丁香激情| 影音先锋国产在线| 喷白浆一区二区| 久久欧美一区二区| 亚洲18女电影在线观看| 91麻豆精品国产91久久久资源速度| 精品香蕉在线观看视频一| 欧美成人剧情片在线观看| 国产精品扒开腿做爽爽爽的视频| 九九九九九精品| 成人在线视频一区二区三区 | 亚洲 欧美 视频| 91高潮大合集爽到抽搐| 欧美日韩另类一区| xxxx在线免费观看| 欧美日韩在线电影| 成都免费高清电影| 亚洲激情在线观看| 国产午夜手机精彩视频| 国产噜噜噜噜噜久久久久久久久 | 舔着乳尖日韩一区| 日韩乱码人妻无码中文字幕久久 | 欧美日韩在线观看免费| 国产精品一区二区三区四区五区 | 欧美亚洲另类色图| 欧洲亚洲免费在线| 久久99国产精品尤物| 欧美在线观看成人| 成人高清视频观看www|