在剛剛結束的 ACL2025頒獎典禮上,由 DeepSeek 的梁文鋒博士作為通訊作者,與北京大學等機構聯合發表的研究論文榮獲最佳論文獎。這次會議規模空前,投稿數量幾乎翻倍,達到了8360篇,競爭之激烈可見一斑。
該論文提出了一種名為原生稀疏注意力(NSA)的新機制,能在算法與硬件的協同優化下,將長文本的處理速度提升至驚人的11倍。而更為振奮的是,這項技術的性能不僅提升,反而超越了傳統的全注意力模型。通過這項技術,研究團隊成功將上下文長度擴展到了驚人的100萬 tokens,這為未來的前沿模型奠定了基礎。
NSA 機制的核心在于通過動態分層的稀疏策略,結合三條并行的注意力分支,有效捕捉文本中的重要信息。首先是 “壓縮注意力”,負責提煉全局信息;其次是 “選擇性注意力”,聚焦于重要的詞塊;最后是 “滑動注意力”,確保局部上下文的完整性。這種設計不僅讓模型更為靈活,同時在現代 GPU 硬件上進行了深度優化,實現了原生可訓練模式。
在測試中,NSA 在處理64k 長度的文本時,解碼階段速度提升了11.6倍,前向傳播和反向傳播速度分別提升了9倍和6倍。更重要的是,NSA 在各種基準測試中表現優異,27B 參數的模型在9個評測指標中有7個超越了全注意力基線,特別是在多跳問答和代碼理解等復雜任務中展現了明顯的優勢。
這項研究為長文本處理開辟了新的可能性,真正實現了速度與精度的雙贏,證明了 NSA 機制在 AI 領域的廣泛應用前景。
論文地址:https://arxiv.org/pdf/2502.11089





京公網安備 11011402013531號