比Transformer更強的架構來了？浙大新作Translution，一統(tǒng)卷積和自注意力

IP屬地中國·北京 新智元 時間：2025-10-23 04:06:45

新智元報道
編輯：KingHZ
融合Self-attention和Convolution兩大核心機制，Translution以統(tǒng)一的框架重新審視深度神經網絡的本質，為下一代神經網絡提供了新的可能。
自2017年Transformer模型提出以來，Self-attention機制憑借其強大的建模能力，逐漸成為深度學習領域的核心操作。
然而，隨著人工智能模型的規(guī)模不斷擴張，單純依靠簡單直接「堆參數、堆數據」提升性能的模式正逐漸遇到瓶頸。面對大模型訓練代價高昂、性能增長趨緩等挑戰(zhàn)，學術界和產業(yè)界亟需新的網絡架構創(chuàng)新。
近日，范鶴鶴（浙江大學）、楊易（浙江大學）、Mohan Kankanhalli（新加坡國立大學）和吳飛（浙江大學）四位老師提出了一種具有劃時代意義的神經網絡基礎操作——Translution。
該研究認為，神經網絡對某種類型數據建模的本質是：
1）為某一數據元素（如卷積核里的中心元素或自注意力機制里的query）尋找相關元素或區(qū)域；
2）對相關元素形成的區(qū)域進行有效編碼，獲取該區(qū)域真正的、獨立于其他外部因素無關的內在結構的表征。
據此，在理論框架與實現機制上，Translution實現了Self-Attention（自注意力）與Convolution（卷積）的有機融合與統(tǒng)一，構建出一種更具普適性的神經計算機制。

論文：Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
論文鏈接：https://arxiv.org/pdf/2510.10060
代碼鏈接：https://github.com/hehefan/Translution
突破瓶頸
重新思考深度學習兩大機制
自注意力機制（Self-Attention）自Transformer模型提出以來，已成為自然語言處理和多模態(tài)大模型的核心結構；而卷積神經網絡（CNN）則長期主導計算機視覺領域。

圖1：Convolution在捕獲關聯區(qū)域時較為「死板」，可以視為固定大小的attention；Self-attention可以自適應地捕捉關聯區(qū)域
二者的成功揭示了深度神經網絡的兩條關鍵路徑：
Self-Attention能夠在全局范圍內自適應地捕捉特征關聯，但依賴絕對位置編碼（absolute positional embedding），導致模型在處理位置變化時缺乏穩(wěn)定性；
Convolution則通過固定的局部卷積核捕獲相對結構信息，具備強大的平移不變性，但無法像注意力那樣靈活地選擇相關區(qū)域。

圖2：在對相關區(qū)域進行編碼時，Convolution為每個方向和距離都賦予一個可學習參數矩陣，使其可以捕捉與絕對位置無關的真實結構；而Self-attention通常將絕對位置融入到特征中，當位置發(fā)生變化，可能無法識別原先結構。
兩種機制各有所長，卻始終割裂。Translution的出現，正是為了彌合這一理論與應用的鴻溝。
Translution
Self-Attention和Convolution的大一統(tǒng)
Translution的核心思想，是將Self-Attention的自適應區(qū)域選擇能力與Convolution的相對結構建模能力進行統(tǒng)一。
在傳統(tǒng)的自注意力計算中，Query、Key、Value的投影矩陣在所有位置上共享，無法感知元素之間的方向和距離關系。
Translution則創(chuàng)新性地為每一種相對偏移（offset）分配獨立的參數矩陣，從而在計算Query、Key、Value時引入方向性和相對位置信息，實現了真正意義上的相對編碼（relative encoding）。

表1：Translution對Self-Attention與Convolution的統(tǒng)一。Self-Attention與Convolution可以分別看作是Translution的兩種特例：Self-Attention簡化了相對位置編碼，Convolution簡化了注意力求解（用感受野代替）
這意味著，Translution不僅能像自注意力那樣動態(tài)聚焦于最相關的區(qū)域，還能像卷積一樣感知局部結構關系，實現了「自適應識別+相對建模」的融合。這一特性使模型在處理圖像、文本乃至三維空間數據時，能夠對形狀、位置、順序等結構變化保持更強的穩(wěn)定性和泛化性。
α-Translution
在高性能與可訓練性之間找到平衡
由于Translution在每個方向上引入了獨立參數矩陣，其參數量呈指數級增長，遠超當前GPU顯存所能承載。為解決這一問題，提出了輕量化版本——α-Translution。
通過在特征維度上引入分解式低秩編碼，α-Translution將大規(guī)模矩陣壓縮為多層可組合子空間映射，從而在保證性能的同時，將參數量與顯存占用降低至原版的數十分之一。
實驗表明，α-Translution在性能上顯著優(yōu)于傳統(tǒng)Self-Attention，而計算成本可控，是當前硬件條件下最具潛力的過渡方案。
在視覺與語言任務上，
全面超越Self-Attention
技術報告在計算機視覺和自然語言建模兩個領域開展了系統(tǒng)性實驗。
結果顯示，在多個benchmark上，Translution及其輕量化版本α-Translution均顯著優(yōu)于基于Self-attention的Transformer架構：
?在基于ViT架構的動態(tài)MNIST分類實驗中，Translution對位置變化表現出極強的魯棒性，識別精度顯著優(yōu)于Self-Attention。
?在基于ViT架構的ImageNet分類任務上，Translution的Top-1準確率較Self-Attention最高提升超過6%。
?在基于GPT架構的OpenWebText語言建模中，Translution的困惑度（Perplexity）相比Self-Attention有效降低，展現出更強的語言建模能力。

表2：當在靜態(tài)MNIST數據集上進行訓練、動態(tài)數據集上進行測試，Translution（包括α-Translution）取得了明顯高于Self-attention的準確率，展現出其對位置變化的強大適應能力。

表3：基于Translution構建的ViT在ImageNet數據集上取得明顯優(yōu)于Self-attention的準確率

表4：在自然語言建模的任務上，基于Translution構建的GPT也取得了超過Self-attention的性能
這些結果表明，Translution不僅在視覺任務中能夠準確捕獲空間結構關系，也能在文本序列中理解詞語之間的相對依賴，展現出跨模態(tài)的普適性。
靈魂拷問
Translution性能提升源自參數量增多？
為了驗證Translution的性能提升究竟源于參數規(guī)模的增加，還是源于所提出的相對建模機制，作者們設計了更具「挑戰(zhàn)性」的對照實驗：他們將Translution中的相對矩陣替換為絕對矩陣。
這一替換會導致參數量顯著增加。如果「絕對Translution」的表現優(yōu)于「相對Translution」，則說明性能提升主要來自參數增多；反之，則證明提升源于相對建模機制本身。
實驗結果如表所示，「相對Translution」在準確率上遠超「絕對Translution」，充分證明了性能提升確實源自所提出的相對建模方法。

表5：具有更少參數的「相對Translution」取得了更高的準確率，證明了Translution帶來的性能提升正是由所提出的相對建模引起的。
結束語：Translution不僅是一項技術創(chuàng)新，更是一次對深度神經網絡本質的重新思考。
盡管其大規(guī)模應用有賴于未來更強大的算力支撐，但它為新一代神經網絡的發(fā)展開辟了新的方向，也為人工智能的未來注入了新的活力。
參考資料：
https://arxiv.org/pdf/2510.10060

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

設立“虛擬公司”，上海布局合成生物顛覆性技術項目｜跟著項目經理看未來產業(yè)

越獄新曙光：iOS 26.2 Beta 1以下版本關鍵漏洞公開

AI巨頭擬500億美元入局AI基建

《汽車數據出境安全評估方法》團體標準發(fā)布

蘋果2026 iPad路線圖曝光：三款新品齊發(fā)，mini迎來史詩級升級

100%國產化！國產機器人靈巧手突破“卡脖子”壁壘

全站最新

設立“虛擬公司”，上海布局合成生物顛覆性技術項目｜跟著項目經理看未來產業(yè)

越獄新曙光：iOS 26.2 Beta 1以下版本關鍵漏洞公開

AI巨頭擬500億美元入局AI基建

《汽車數據出境安全評估方法》團體標準發(fā)布

熱門推薦

“羊毛黨”用AI假圖騙“僅退款”：百元內商品成重災區(qū)，“造假教程”被288元打包出售\n

設立“虛擬公司”，上海布局合成生物顛覆性技術項目｜跟著項目經理看未來產業(yè)

越獄新曙光：iOS 26.2 Beta 1以下版本關鍵漏洞公開

AI巨頭擬500億美元入局AI基建

《汽車數據出境安全評估方法》團體標準發(fā)布

蘋果2026 iPad路線圖曝光：三款新品齊發(fā)，mini迎來史詩級升級

100%國產化！國產機器人靈巧手突破“卡脖子”壁壘

廣汽能源聯動支付寶推出“碰一下”支付，AI支持選址、動態(tài)定價

機降突擊！陸航多型直升機沖向目標地域

科學與健康｜月球也會“生銹”？嫦娥六號月背樣品中首次發(fā)現晶質赤鐵礦

馬斯克最新訪談：目標每年在太空部屬100吉瓦AI衛(wèi)星

未來的iPhone，想靠衛(wèi)星消滅無服務

2025中國國際石墨烯創(chuàng)新大會在溫州舉行多項關鍵技術取得突破

創(chuàng)新是走出低谷、完成突破的動力（親歷者說）

線下線上齊發(fā)力，渝貨出山有實招