![]()
新智元報道
編輯:KingHZ
融合Self-attention和Convolution兩大核心機制,Translution以統(tǒng)一的框架重新審視深度神經網絡的本質,為下一代神經網絡提供了新的可能。
自2017年Transformer模型提出以來,Self-attention機制憑借其強大的建模能力,逐漸成為深度學習領域的核心操作。
然而,隨著人工智能模型的規(guī)模不斷擴張,單純依靠簡單直接「堆參數、堆數據」提升性能的模式正逐漸遇到瓶頸。面對大模型訓練代價高昂、性能增長趨緩等挑戰(zhàn),學術界和產業(yè)界亟需新的網絡架構創(chuàng)新。
近日,范鶴鶴(浙江大學)、楊易(浙江大學)、Mohan Kankanhalli(新加坡國立大學)和吳飛(浙江大學)四位老師提出了一種具有劃時代意義的神經網絡基礎操作——Translution。
該研究認為,神經網絡對某種類型數據建模的本質是:
1)為某一數據元素(如卷積核里的中心元素或自注意力機制里的query)尋找相關元素或區(qū)域;
2)對相關元素形成的區(qū)域進行有效編碼,獲取該區(qū)域真正的、獨立于其他外部因素無關的內在結構的表征。
據此,在理論框架與實現機制上,Translution實現了Self-Attention(自注意力)與Convolution(卷積)的有機融合與統(tǒng)一,構建出一種更具普適性的神經計算機制。
![]()
論文:Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
論文鏈接:https://arxiv.org/pdf/2510.10060
代碼鏈接:https://github.com/hehefan/Translution
突破瓶頸
重新思考深度學習兩大機制
自注意力機制(Self-Attention)自Transformer模型提出以來,已成為自然語言處理和多模態(tài)大模型的核心結構;而卷積神經網絡(CNN)則長期主導計算機視覺領域。
![]()
圖1:Convolution在捕獲關聯區(qū)域時較為「死板」,可以視為固定大小的attention;Self-attention可以自適應地捕捉關聯區(qū)域
二者的成功揭示了深度神經網絡的兩條關鍵路徑:
Self-Attention能夠在全局范圍內自適應地捕捉特征關聯,但依賴絕對位置編碼(absolute positional embedding),導致模型在處理位置變化時缺乏穩(wěn)定性;
Convolution則通過固定的局部卷積核捕獲相對結構信息,具備強大的平移不變性,但無法像注意力那樣靈活地選擇相關區(qū)域。
![]()
圖2:在對相關區(qū)域進行編碼時,Convolution為每個方向和距離都賦予一個可學習參數矩陣,使其可以捕捉與絕對位置無關的真實結構;而Self-attention通常將絕對位置融入到特征中,當位置發(fā)生變化,可能無法識別原先結構。
兩種機制各有所長,卻始終割裂。Translution的出現,正是為了彌合這一理論與應用的鴻溝。
Translution
Self-Attention和Convolution的大一統(tǒng)
Translution的核心思想,是將Self-Attention的自適應區(qū)域選擇能力與Convolution的相對結構建模能力進行統(tǒng)一。
在傳統(tǒng)的自注意力計算中,Query、Key、Value的投影矩陣在所有位置上共享,無法感知元素之間的方向和距離關系。
Translution則創(chuàng)新性地為每一種相對偏移(offset)分配獨立的參數矩陣,從而在計算Query、Key、Value時引入方向性和相對位置信息,實現了真正意義上的相對編碼(relative encoding)。
![]()
表1:Translution對Self-Attention與Convolution的統(tǒng)一。Self-Attention與Convolution可以分別看作是Translution的兩種特例:Self-Attention簡化了相對位置編碼,Convolution簡化了注意力求解(用感受野代替)
這意味著,Translution不僅能像自注意力那樣動態(tài)聚焦于最相關的區(qū)域,還能像卷積一樣感知局部結構關系,實現了「自適應識別+相對建模」的融合。這一特性使模型在處理圖像、文本乃至三維空間數據時,能夠對形狀、位置、順序等結構變化保持更強的穩(wěn)定性和泛化性。
α-Translution
在高性能與可訓練性之間找到平衡
由于Translution在每個方向上引入了獨立參數矩陣,其參數量呈指數級增長,遠超當前GPU顯存所能承載。為解決這一問題,提出了輕量化版本——α-Translution。
通過在特征維度上引入分解式低秩編碼,α-Translution將大規(guī)模矩陣壓縮為多層可組合子空間映射,從而在保證性能的同時,將參數量與顯存占用降低至原版的數十分之一。
實驗表明,α-Translution在性能上顯著優(yōu)于傳統(tǒng)Self-Attention,而計算成本可控,是當前硬件條件下最具潛力的過渡方案。
在視覺與語言任務上,
全面超越Self-Attention
技術報告在計算機視覺和自然語言建模兩個領域開展了系統(tǒng)性實驗。
結果顯示,在多個benchmark上,Translution及其輕量化版本α-Translution均顯著優(yōu)于基于Self-attention的Transformer架構:
?在基于ViT架構的動態(tài)MNIST分類實驗中,Translution對位置變化表現出極強的魯棒性,識別精度顯著優(yōu)于Self-Attention。
?在基于ViT架構的ImageNet分類任務上,Translution的Top-1準確率較Self-Attention最高提升超過6%。
?在基于GPT架構的OpenWebText語言建模中,Translution的困惑度(Perplexity)相比Self-Attention有效降低,展現出更強的語言建模能力。
![]()
表2:當在靜態(tài)MNIST數據集上進行訓練、動態(tài)數據集上進行測試,Translution(包括α-Translution)取得了明顯高于Self-attention的準確率,展現出其對位置變化的強大適應能力。
![]()
表3:基于Translution構建的ViT在ImageNet數據集上取得明顯優(yōu)于Self-attention的準確率
![]()
表4:在自然語言建模的任務上,基于Translution構建的GPT也取得了超過Self-attention的性能
這些結果表明,Translution不僅在視覺任務中能夠準確捕獲空間結構關系,也能在文本序列中理解詞語之間的相對依賴,展現出跨模態(tài)的普適性。
靈魂拷問
Translution性能提升源自參數量增多?
為了驗證Translution的性能提升究竟源于參數規(guī)模的增加,還是源于所提出的相對建模機制,作者們設計了更具「挑戰(zhàn)性」的對照實驗:他們將Translution中的相對矩陣替換為絕對矩陣。
這一替換會導致參數量顯著增加。如果「絕對Translution」的表現優(yōu)于「相對Translution」,則說明性能提升主要來自參數增多;反之,則證明提升源于相對建模機制本身。
實驗結果如表所示,「相對Translution」在準確率上遠超「絕對Translution」,充分證明了性能提升確實源自所提出的相對建模方法。
![]()
表5:具有更少參數的「相對Translution」取得了更高的準確率,證明了Translution帶來的性能提升正是由所提出的相對建模引起的。
結束語:Translution不僅是一項技術創(chuàng)新,更是一次對深度神經網絡本質的重新思考。
盡管其大規(guī)模應用有賴于未來更強大的算力支撐,但它為新一代神經網絡的發(fā)展開辟了新的方向,也為人工智能的未來注入了新的活力。
參考資料:
https://arxiv.org/pdf/2510.10060





京公網安備 11011402013531號