![]()
這項令人矚目的研究來自螞蟻集團和西湖大學的聯合團隊,由胡翔、周占超、梁瑞琪、李澤桓、吳蔚和李建國等研究人員共同完成,論文于2025年11月28日發表在arXiv平臺,編號為arXiv:2511.23319v1。這項研究在大語言模型的長上下文建模領域實現了重要突破,成功將模型的有效上下文長度擴展到了驚人的16M(1600萬)個標記。
當我們使用ChatGPT或其他AI助手時,經常會遇到這樣的困擾:聊天進行到一定程度后,AI就"忘記"了之前的對話內容,需要重新解釋背景信息。這就像一個健忘的朋友,每次見面都要重新自我介紹一樣令人沮喪。造成這種現象的根本原因在于現有AI模型的"記憶容量"嚴重受限,它們只能處理相對較短的文本長度。
研究團隊將這個問題形象地比作"建造能夠記憶的機器"。他們認為,真正智能的AI系統應該像人類一樣擁有長期記憶能力,能夠從用戶的每一次互動中學習并積累經驗。目前的AI模型就像患有嚴重健忘癥的助手,無法形成連續的記憶鏈條,這嚴重限制了它們在實際應用中的價值。
傳統的Transformer架構雖然在自然語言處理領域取得了巨大成功,但面對超長文本時就顯得力不從心。這種架構在處理長序列時會遭遇"二次計算復雜度"的噩夢,簡單來說就是文本長度每增加一倍,計算量就要增加四倍,這使得處理超長文本變得極其昂貴和緩慢。
為了解決這個根本性挑戰,研究團隊提出了一種全新的注意力機制——分層稀疏注意力(HSA)。這個名字聽起來很專業,但其核心思想可以用一個簡單的比喻來理解:就像人類記憶的工作方式一樣,我們不需要同時關注所有信息,而是根據需要有選擇性地回憶相關內容。
HSA技術的工作原理類似于一個高效的圖書管理員。當你需要查找某個信息時,這個管理員不會把整個圖書館的書都搬到你面前,而是智能地判斷哪些書架可能包含你需要的信息,然后只把相關的書籍提供給你。這種選擇性注意機制大大提高了效率,同時保持了準確性。
研究團隊構建了一個名為HSA-UltraLong的模型,這是一個包含80億參數的混合專家(MoE)模型,在超過8萬億個標記的數據上進行了訓練。這個規模相當于讓AI閱讀了數千萬本書籍的內容,積累了豐富的知識儲備。
為了驗證模型的實際效果,研究團隊設計了一系列嚴格的測試,其中最具挑戰性的是"大海撈針"測試。這個測試就像在一本巨厚的百科全書中隨機插入一個小紙條,然后要求AI準確找到這個紙條的內容。令人驚喜的是,HSA-UltraLong在處理長達1600萬個標記的文本時,仍然能夠保持近乎完美的準確率。
研究過程并非一帆風順。團隊發現了一個有趣的"蹺蹺板效應":當模型的局部注意窗口過大時,會削弱其長距離泛化能力。這就像一個人如果過度依賴眼前的信息,就可能忽視遠方的重要線索。為了解決這個問題,研究團隊精心設計了訓練策略,首先讓模型學會在短距離內建立有效的檢索能力,然后逐步擴展到長距離。
在技術實現方面,HSA采用了一種類似于混合專家系統的架構。當前處理的標記會計算與歷史文本塊的相關性得分,選擇最相關的幾個文本塊進行詳細分析,然后將分析結果按照相關性權重進行融合。這種機制確保了模型既能高效處理信息,又能準確捕捉長距離依賴關系。
研究團隊還發現,訓練數據的有效上下文長度對模型的泛化能力至關重要。即使模型在16K的上下文窗口上進行預訓練,如果訓練數據本身的有效上下文長度較短,模型的長距離泛化效果就會受到影響。這提醒我們,AI模型的能力不僅取決于架構設計,還與訓練數據的質量和特性密切相關。
在實際應用場景中,HSA-UltraLong展現出了強大的實用價值。它可以處理整部小說長度的文檔,進行復雜的多輪對話,甚至能夠在超長的代碼庫中準確定位和分析特定功能。這種能力對于法律文件分析、學術研究、軟件開發等需要處理大量文本信息的領域具有重要意義。
研究團隊通過嚴格的基準測試驗證了模型性能。在標準的語言理解任務中,HSA-UltraLong與同等規模的基線模型表現相當,這說明長上下文能力的增強并沒有以犧牲基礎能力為代價。在數學推理、代碼生成和多輪對話等復雜任務中,該模型甚至表現出了超越預期的優異性能。
從技術角度看,HSA的創新之處在于將檢索機制深度集成到注意力計算過程中。傳統的稀疏注意力方法往往先選擇文本塊,然后對選中的塊進行注意力計算,這種"先選擇后處理"的方式容易造成信息丟失。HSA則采用"分別處理后融合"的策略,對每個潛在相關的文本塊都進行完整的注意力計算,然后根據檢索得分進行加權融合,這樣既保持了信息的完整性,又實現了計算效率的提升。
在訓練策略方面,研究團隊采用了分階段的訓練方法。首先進行預熱訓練,使用較小的滑動窗口和全局HSA,讓模型學會基本的檢索能力。然后逐步增大滑動窗口,減少HSA的檢索范圍,從密集注意力過渡到稀疏注意力。接著進行長上下文中期訓練,擴展上下文長度并增大HSA檢索范圍。最后進行高質量數據的退火訓練和監督微調。
這種分階段訓練策略的設計基于一個重要觀察:HSA的長距離泛化能力源于其在短距離上學到的檢索模式。如果模型在訓練初期就使用過大的滑動窗口,局部注意力就能處理大部分短距離依賴關系,HSA模塊就缺乏學習檢索能力的動機,從而影響其長距離泛化性能。
在效率評估方面,研究團隊將HSA算子與FlashAttention-3進行了對比。結果顯示,在較短序列長度下,FlashAttention-3仍具有優勢,但隨著序列長度增加,HSA的優勢逐漸顯現。這主要是因為HSA的稀疏性在短序列時會增加額外的內存訪問開銷,但在長序列時能夠顯著降低總體計算復雜度。
模型架構方面,HSA-UltraLong采用了上下分層的設計。下層解碼器使用標準的Transformer層和滑動窗口注意力處理局部信息,上層解碼器則將HSA層與標準層組合,處理全局信息。為了降低內存開銷,所有HSA模塊共享中間層的KV緩存作為上下文記憶。每個文本塊都使用雙向編碼器生成摘要表示,這個表示既用于檢索評分,也用于注意力計算。
在混合專家(MoE)的配置上,研究團隊遵循了成熟的設計模式,第一層采用密集MLP結構,后續層使用MoE。每個MoE塊包含一個共享專家,采用訓練無關的平衡策略來確保專家負載均衡。這種設計既保持了模型的表達能力,又控制了計算復雜度。
實驗結果表明,HSA-UltraLong在多個維度都實現了突破。在純檢索任務上,該模型在1600萬標記的上下文長度下仍能保持90%以上的準確率。在需要推理和檢索結合的復雜任務中,更大規模的模型展現出明顯優勢,這說明參數規模的增加確實能夠提升復雜任務的處理能力。
研究團隊還深入分析了模型的泛化規律。他們發現,有效上下文長度的泛化倍數與訓練數據的實際有效上下文長度密切相關。當使用有效上下文長度超過32K的數據進行訓練時,模型能夠成功泛化到遠超訓練長度的序列。這一發現對未來的長上下文模型訓練具有重要指導意義。
值得注意的是,HSA技術的成功并非偶然,而是建立在對人類記憶機制深入理解基礎上的。人類的長期記憶就是通過選擇性激活而非全激活來工作的,我們能夠根據需要檢索相關的記憶片段,而不是同時激活所有記憶。HSA正是模仿了這種機制,實現了高效的長距離信息處理。
當前技術仍面臨一些挑戰。HSA與滑動窗口注意力之間存在"蹺蹺板問題",即在短SFT數據上訓練后,泛化能力可能會退化。這主要是因為過長的滑動窗口會減少HSA學習短距離依賴關系的必要性,從而影響其長距離泛化能力。此外,HSA目前需要16:1的查詢頭與鍵值頭比例,這創造了嚴重的信息瓶頸,需要內核級優化來緩解。
在短序列處理時,HSA相比FlashAttention-3并沒有顯示出明顯的訓練和推理優勢,這需要進一步的內核級優化來提升效率。盡管存在這些限制,HSA-UltraLong仍然為長上下文處理提供了一個極具前景的范式。
HSA的核心洞察是分塊進行注意力計算并通過檢索得分融合結果,而不是先選擇塊然后連接進行注意力計算。這種設計理念代表了對注意力機制的深層次理解和創新,為構建真正具有長期記憶能力的AI系統奠定了堅實基礎。
實驗結果為有效處理無限長上下文提供了有意義的進展,這種進展不僅體現在技術指標上,更重要的是為機器長期記憶的實現提供了可行路徑。隨著這項技術的進一步發展和優化,我們有望看到能夠真正理解和記住用戶歷史交互的AI系統,這將大大提升人工智能在實際應用中的價值和用戶體驗。
Q&A
Q1:HSA-UltraLong的16M上下文長度具體有多強大?
A:16M標記相當于約32本標準小說的長度,或者一個中等規模軟件項目的全部代碼。HSA-UltraLong能在如此龐大的文本中準確找到特定信息,就像在一座圖書館中瞬間定位到某個特定段落,準確率超過90%。
Q2:分層稀疏注意力技術與傳統方法有什么不同?
A:傳統方法像是"先選擇后處理",容易丟失重要信息。HSA采用"分別處理后融合"策略,對每個相關文本塊都進行完整計算,然后按重要程度加權合并,既保持信息完整性又提高了效率。
Q3:這項技術什么時候能在日常AI產品中使用?
A:技術已經相當成熟,但還需要解決計算效率和成本問題。預計在未來2-3年內,我們可能會在高端AI助手產品中看到類似的長記憶功能,讓AI真正記住用戶的歷史對話和偏好。





京公網安備 11011402013531號