Transformer終結者！谷歌DeepMind全新MoR架構問世，新一代魔王來了

IP屬地中國·北京 編輯：胡穎新智元 時間：2025-07-17 15:38:55

新智元報道
編輯：Aeneas KingHZ
Transformer殺手來了？KAIST、谷歌DeepMind等機構剛剛發布的MoR架構，推理速度翻倍、內存減半，直接重塑了LLM的性能邊界，全面碾壓了傳統的Transformer。網友們直呼炸裂：又一個改變游戲規則的炸彈來了。
就在剛剛，KAIST、Mila和谷歌DeepMind團隊等放出重磅炸彈——
一個名為Mixture-of-Recursions的全新LLM模型架構。
這個嶄新的架構，被業內認為有潛力成為Transformer殺手！
它的推理速度提升2倍，訓練FLOP減少，KV緩存內存直接減半。
最終，在135M到1.7B的參數規模下，MoR直接劃出了一個新的帕累托前沿：相同的訓練FLOPs，但困惑度更低、小樣本準確率更高，并且吞吐量提升超過2倍。
全面碾壓傳統的Transformer！
論文鏈接：https://arxiv.org/abs/2507.10524
其實，學界很早就發現，Transformer復雜度太高，算力需求驚人。
比如最近CMU大牛、Mamba架構作者Albert Gu就表示，Transformer模型能力的局限太大，所謂token就是胡扯。
而谷歌產品負責人Logan Kilpatrick公開指出了注意力機制的缺陷——不可能實現無限上下文，還強調必須要在核心架構層進行全面創新。
今天谷歌DeepMind的這項研究，和這些大牛的觀點不謀而合了。
對此，網友們紛紛表示實在炸裂。
有人預測，潛在空間推理可能會帶來下一個重大突破。
顯然，對于代碼、數學、邏輯這類分層分解問題的任務，MoR都是一個改變游戲規則的重磅炸彈。
甚至還有人評論道：看起來像是Hinton的膠囊網絡重生了。
谷歌DeepMind放大招
遞歸魔法讓LLM瘦身還提速
LLM發展到如今，接下來該怎樣做？靠堆參數、加層數，讓它更聰明嗎？
這項研究告訴我們：真正的高手，從來都不是靠堆料，而是靠設計的藝術。
這次他們做出的MoR全新架構，直譯出來是「遞歸混合體」，直接讓LLM推理速度噌噌翻倍！
所以，MoR究竟做了什么？
簡而言之，它做了以下兩點。
1. 不對所有token一視同仁
LLM在處理文本時，會把句子拆成一個個token，不過，像「的」「是」「在」這種詞，并不需要多高深的推理，只需要一次前向傳播就夠了。而復雜的token，則需多次經過同一層棧。
MoR的聰明之處就在于，因token而異。
MoR的秘密武器是小型路由器，會為每個token的隱藏狀態打分，僅高分token的會繼續循環，其余的則提前退出。
2. 循環復用：一個模塊搞定全部
傳統Transformer的思路就是不斷「堆層」，堆得越高，處理能力越強。但這樣的代價，就是內存和算力：模型會越來越慢，越來越貴。
而MoR則反其道而行之，專門設計了共享塊，每個token最多循環4次，只要路由器說「完成」，就提前跳出循環。
總之，如果說Transformer是一個龐大的工廠流水線，那MoR就更像一支高效的特種部隊。未來的AI，恐怕不會再比拼誰更重，而是誰更會分工調度、節省力氣。
而谷歌DeepMind，已經敏銳地把握到了這一點，給我們演示了這一趨勢的早期范本。
真自適應計算
只靠Scaling law，把語言模型做大，確實能讓它能力暴漲，但訓練、部署所需的算力和成本也跟著暴漲。
現在常見的「瘦身」招數，要么是把參數共享（省顯存），要么是按需計算（省算力）。
但目前仍缺乏一種能將兩者有機融合的架構。
「遞歸混合」(Mixture-of-Recursions, MoR)，充分發揮了遞歸Transformer的潛力（見圖1），成功融合了兩者。
圖1：遞歸混合（Mixture-of-Recursions,MoR）概覽
（左）每個遞歸步驟包含固定層堆棧和決定token是否繼續遞歸的路由器（中間灰框區域）。
（中）完整模型結構，其中共享遞歸步驟根據路由決策對每個token最多應用

標簽： token mor 模型 transformer 架構參數路由內存 kv 策略

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

SGLang原生支持昇騰，新模型一鍵拉起無需改代碼

摩爾線程的野心，不藏了

AI生成操作系統新突破！上海交大提出文件系統開發新范式

OPPO Watch X3智能手表入網，預計和OPPO Find N6一起發布

機器人從比硬件轉向比大腦，商湯發布開悟世界模型3.0

上交團隊實現新一代光計算芯片突破，開辟算力芯片新路徑

全站最新

SGLang原生支持昇騰，新模型一鍵拉起無需改代碼

摩爾線程的野心，不藏了

AI生成操作系統新突破！上海交大提出文件系統開發新范式

OPPO Watch X3智能手表入網，預計和OPPO Find N6一起發布

熱門推薦

SGLang原生支持昇騰，新模型一鍵拉起無需改代碼

摩爾線程的野心，不藏了

AI生成操作系統新突破！上海交大提出文件系統開發新范式

OPPO Watch X3智能手表入網，預計和OPPO Find N6一起發布

降息，突傳大消息！突然跳水，超8.8萬人爆倉

機器人從比硬件轉向比大腦，商湯發布開悟世界模型3.0

上交團隊實現新一代光計算芯片突破，開辟算力芯片新路徑

用iPhone級價格造出個人超算，清華博士創業拓展個人計算能力邊界

賺了幾倍：玩家僅花60元就淘到一塊GTX 1660S

“完美伴侶”是串代碼，男子因沉迷AI聊天就醫

特斯拉Model Y用戶手冊更新，將支持查看視頻錄制時擋位等

步入深水區，智能金融迎模型迭代等多重挑戰

商用車綠色智能轉型步入關鍵節點，福田汽車發布多款新車精準卡位

當人工智能深度介入創作這場跨界沙龍共話視覺敘事的邊界與可能

火線解析MiniMax招股書！全球領先大模型成本只有OpenAI 1%