“Transformer完全不能支撐我們下一步,尤其是在Agent時代走向下一步。”12月18日,90后AI大牛、階躍星辰首席科學家張翔雨公布了自己最新的研究結論,直指當前AI領域核心架構Transformer的技術瓶頸。
Transformer架構是當前人工智能,特別是生成式AI和大語言模型的基石。它是2017 年由谷歌團隊在論文《Attention Is All You Need》中提出的深度學習架構,核心創新在于“自注意力機制”,突破了傳統循環神經網絡(RNN)處理長序列的瓶頸。可以說,沒有Transformer,就沒有今天的ChatGPT、Gemini等模型。
張祥雨是深度學習領域的知名學者,以在ResNet(殘差神經網絡)方面的開創性工作而聞名。此前張祥雨等人完成的論文《Deep Residual Learning for Image Recognition》獲CVPR最佳論文,引用已超20萬次,是計算機視覺與模式識別類被引用最多的論文。
![]()
張祥雨首先承認,當前大模型行業看似進入了一個“穩態”時期,各種創新模型架構最終都收斂到以Transformer為核心的變體上。針對長上下文處理的效率瓶頸,業界通過如線性注意力(Linear Attention)、稀疏注意力(Sparse Attention)等技術手段“小修小補”,這并未改變 Transformer 的本質建模能力。
“但是很快我們發現了一個巨大的副作用。”張祥雨說,真正的難點是模型的智商會隨著文本變化快速下降。“今天的Transformer,不管號稱發布出來說支持到多少Token,基本上到8萬個就不可用了。”
這個問題指向了Transformer的一個缺陷,就是它的單向信息流設計。無論輸入序列(Context)多長,模型的有效“思考深度”的信息只能從淺層向深層單向傳遞,缺乏從深層向淺層的反饋與壓縮機制,這與人類大腦“無限流”的記憶機制存在本質差異。
“我今天講過的每一句話,都是歷史上我見過的所有信息的函數。”張祥雨用比喻闡明,“這個函數能用層數固定的網絡來表示嗎?肯定不可以。”他說人類大腦能夠對從小到大的海量經歷進行動態壓縮和選擇性回溯,而當前Transformer結構無法實現這種類似“無限流”世界的智能處理需求,這制約了AI向具備高度自主性、能長期持續學習的通用Agent演進。
事實上,當前已經開始有研究者討論Transformer是否存在根本局限性。就在今年10月,Transformer 架構的共同創造者Llion Jones在TED AI大會上說自己已經受夠了 Transformer,并開始尋找下一次重大突破。他直言盡管現在AI領域投入了前所未有的資金與人才,但研究者卻變得越來越狹窄,他們更傾向于利用現有架構而非探索新路徑,“錯失下一個重大突破的風險正在加劇。”
挑戰已經出現。Mamba、TTT(Test-Time Training)等架構正吸引越來越多目光。英偉達、meta、騰訊等巨頭已在探索將Mamba與Transformer融合;中國科學院自動化所與沐曦合作研發的類腦脈沖大模型“瞬悉1.0”,則展示了構建非Transformer架構生態的可行性。
張祥雨透露,階躍星辰團隊已經在探索新的架構方向,一些小規模實驗已取得積極結論。他認為,未來的架構是基于非線性遞歸網絡(non-Linear RN)的全新架構。但他也坦言,這種架構革新將給系統效率和可并行度帶來巨大挑戰,需要協同設計才能落地。





京公網安備 11011402013531號