新智元報道
編輯:Aeneas KingHZ
Transformer殺手來了?KAIST、谷歌DeepMind等機構剛剛發布的MoR架構,推理速度翻倍、內存減半,直接重塑了LLM的性能邊界,全面碾壓了傳統的Transformer。網友們直呼炸裂:又一個改變游戲規則的炸彈來了。
就在剛剛,KAIST、Mila和谷歌DeepMind團隊等放出重磅炸彈——
一個名為Mixture-of-Recursions的全新LLM模型架構。
這個嶄新的架構,被業內認為有潛力成為Transformer殺手!
它的推理速度提升2倍,訓練FLOP減少,KV緩存內存直接減半。
最終,在135M到1.7B的參數規模下,MoR直接劃出了一個新的帕累托前沿:相同的訓練FLOPs,但困惑度更低、小樣本準確率更高,并且吞吐量提升超過2倍。
全面碾壓傳統的Transformer!

論文鏈接:https://arxiv.org/abs/2507.10524
其實,學界很早就發現,Transformer復雜度太高,算力需求驚人。
比如最近CMU大牛、Mamba架構作者Albert Gu就表示,Transformer模型能力的局限太大,所謂token就是胡扯。

而谷歌產品負責人Logan Kilpatrick公開指出了注意力機制的缺陷——不可能實現無限上下文,還強調必須要在核心架構層進行全面創新。
今天谷歌DeepMind的這項研究,和這些大牛的觀點不謀而合了。
對此,網友們紛紛表示實在炸裂。
有人預測,潛在空間推理可能會帶來下一個重大突破。

顯然,對于代碼、數學、邏輯這類分層分解問題的任務,MoR都是一個改變游戲規則的重磅炸彈。


甚至還有人評論道:看起來像是Hinton的膠囊網絡重生了。


谷歌DeepMind放大招
遞歸魔法讓LLM瘦身還提速
LLM發展到如今,接下來該怎樣做?靠堆參數、加層數,讓它更聰明嗎?
這項研究告訴我們:真正的高手,從來都不是靠堆料,而是靠設計的藝術。
這次他們做出的MoR全新架構,直譯出來是「遞歸混合體」,直接讓LLM推理速度噌噌翻倍!
所以,MoR究竟做了什么?
簡而言之,它做了以下兩點。
1. 不對所有token一視同仁
LLM在處理文本時,會把句子拆成一個個token,不過,像「的」「是」「在」這種詞,并不需要多高深的推理,只需要一次前向傳播就夠了。而復雜的token,則需多次經過同一層棧。
MoR的聰明之處就在于,因token而異。
MoR的秘密武器是小型路由器,會為每個token的隱藏狀態打分,僅高分token的會繼續循環,其余的則提前退出。

2. 循環復用:一個模塊搞定全部
傳統Transformer的思路就是不斷「堆層」,堆得越高,處理能力越強。但這樣的代價,就是內存和算力:模型會越來越慢,越來越貴。
而MoR則反其道而行之,專門設計了共享塊,每個token最多循環4次,只要路由器說「完成」,就提前跳出循環。
總之,如果說Transformer是一個龐大的工廠流水線,那MoR就更像一支高效的特種部隊。未來的AI,恐怕不會再比拼誰更重,而是誰更會分工調度、節省力氣。
而谷歌DeepMind,已經敏銳地把握到了這一點,給我們演示了這一趨勢的早期范本。

真自適應計算
只靠Scaling law,把語言模型做大,確實能讓它能力暴漲,但訓練、部署所需的算力和成本也跟著暴漲。
現在常見的「瘦身」招數,要么是把參數共享(省顯存),要么是按需計算(省算力)。
但目前仍缺乏一種能將兩者有機融合的架構。
「遞歸混合」(Mixture-of-Recursions, MoR),充分發揮了遞歸Transformer的潛力(見圖1),成功融合了兩者。

圖1:遞歸混合(Mixture-of-Recursions,MoR)概覽
(左)每個遞歸步驟包含固定層堆棧和決定token是否繼續遞歸的路由器(中間灰框區域)。
(中)完整模型結構,其中共享遞歸步驟根據路由決策對每個token最多應用





京公網安備 11011402013531號