![]()
月之暗面剛剛推出了一個非常牛的全新的注意力架構(gòu)Kimi Linear,有望成為下一代Agent LLM的基石技術(shù)。月之暗面已經(jīng)放出了技術(shù)報(bào)告《KIMI LINEAR:一種高表達(dá)力且高效的注意力結(jié)構(gòu)》并開源了核心代碼,注意不是水論文,而是已經(jīng)在內(nèi)部得到嚴(yán)格驗(yàn)證
技術(shù)報(bào)告:
https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf
![]()
簡單來說月之暗面推出了名為 Kimi Linear 的新型混合線性注意力架構(gòu),核心目標(biāo)是解決當(dāng)前LLMs在處理長序列任務(wù)時面臨的計(jì)算效率和性能瓶頸。研究團(tuán)隊(duì)首次證明,在包括短上下文、長上下文和強(qiáng)化學(xué)習(xí)等多種場景的公平比較下,Kimi Linear 的性能全面超越了傳統(tǒng)的full attention機(jī)制
Kimi Linear架構(gòu)的核心是 Kimi Delta Attention (KDA),一種表達(dá)能力更強(qiáng)的線性注意力模塊,通過更精細(xì)的門控機(jī)制實(shí)現(xiàn)了對循環(huán)神經(jīng)網(wǎng)絡(luò)有限狀態(tài)記憶的有效利用。最終,Kimi Linear 模型不僅在各項(xiàng)任務(wù)上取得了更優(yōu)異的性能,還在效率上實(shí)現(xiàn)了巨大突破:與full attention模型相比,能將 Key-Value (KV) 緩存的使用量減少高達(dá) 75%,并在處理百萬級別的長下文時,實(shí)現(xiàn)高達(dá) 6 倍的解碼吞吐量提升。這表明 Kimi Linear 可以作為全注意力架構(gòu)的“即插即用”替代品,在提升性能的同時顯著增強(qiáng)了效率
按照kimi官方推文的的說法,這代表:
以代理為導(dǎo)向的注意力機(jī)制的未來已經(jīng)到來!The future of agentic-oriented attention is here!
以下是報(bào)告詳細(xì)解讀:
先看看當(dāng)前的困境
隨著LLMs朝著更強(qiáng)大的智能體方向發(fā)展,它們在推理過程中的計(jì)算需求,尤其是在長程推理和強(qiáng)化學(xué)習(xí)場景下,正成為一個核心瓶頸。在這些場景中,模型需要處理冗長的交互歷史、工具使用記錄以及復(fù)雜的決策空間,這對底層架構(gòu)的效率提出了嚴(yán)峻挑戰(zhàn)
傳統(tǒng)的 Transformer 模型依賴于標(biāo)準(zhǔn)的 softmax 注意力機(jī)制,這一機(jī)制雖然效果強(qiáng)大,但存在兩個根本性的效率問題:
二次方時間復(fù)雜度:注意力分?jǐn)?shù)的計(jì)算與序列長度的平方成正比。這意味著當(dāng)文本長度從 1000 增加到 1,000,000 時,計(jì)算量會增加一百萬倍,這在計(jì)算上是極其昂貴的
線性增長的 KV 緩存:在自回歸生成(解碼)過程中,模型需要緩存過去所有 token 的鍵(Key)和值(Value),這個緩存的大小與序列長度成線性關(guān)系。對于百萬級別的長文本,KV 緩存會消耗掉大量的顯存,限制了模型的吞吐量和并發(fā)處理能力,使得實(shí)時交互變得困難
為了解決這些問題,研究人員們將目光投向了線性注意力(Linear Attention)。線性注意力通過數(shù)學(xué)變換,避免了直接計(jì)算龐大的注意力矩陣,從而將計(jì)算復(fù)雜度從二次方降低到線性。然而,這種效率的提升往往伴隨著模型表達(dá)能力的犧牲,導(dǎo)致其在語言建模任務(wù)上的性能長期落后于 softmax 注意力,即便是在短序列上也是如此
近年來,線性注意力的研究取得了顯著進(jìn)展,主要源于兩個關(guān)鍵創(chuàng)新:
門控或衰減機(jī)制 (gating or decay mechanisms):類似于 RNN 中的門控單元,該機(jī)制允許模型動態(tài)地決定保留或遺忘歷史信息,增強(qiáng)了對上下文的控制能力
增量法則 (delta rule):這一概念源于在線學(xué)習(xí),它將注意力狀態(tài)的更新過程重新解釋為一個在重構(gòu)損失上的在線梯度下降。這使得模型能夠?qū)⒆⒁饬顟B(tài)(即一個可學(xué)習(xí)的關(guān)聯(lián)記憶)持續(xù)地向新的鍵值對映射進(jìn)行修正,從而穩(wěn)定了學(xué)習(xí)過程并提升了性能。
這些進(jìn)步使得線性注意力的性能越來越接近 softmax 注意力。但純粹的線性結(jié)構(gòu)由于其有限的狀態(tài)容量,在需要精確檢索長序列中特定信息的任務(wù)上仍然面臨理論上的挑戰(zhàn)。因此,混合架構(gòu)(Hybrid architectures)應(yīng)運(yùn)而生,它將少量的全局注意力層(通常是標(biāo)準(zhǔn)的 softmax 注意力)與大量的線性注意力層結(jié)合起來,試圖在模型質(zhì)量和計(jì)算效率之間找到一個實(shí)用的平衡點(diǎn)。盡管如此,之前的混合模型往往規(guī)模有限,或者缺乏在多樣化基準(zhǔn)上的全面評估
真正的挑戰(zhàn)依然存在:如何設(shè)計(jì)一個既能匹配甚至超越全注意力模型性能,又能同時在速度和內(nèi)存上實(shí)現(xiàn)顯著效率提升的注意力架構(gòu)?這正是 Kimi Linear 誕生的背景,它旨在成為下一代高強(qiáng)度解碼、智能體式 LLM 的基石
Kimi Linear 的架構(gòu)設(shè)計(jì):一種精巧的混合模式
Kimi Linear 的核心是一種精心設(shè)計(jì)的混合架構(gòu),它巧妙地結(jié)合了兩種不同類型的注意力層,以實(shí)現(xiàn)性能和效率的最佳平衡。該架構(gòu)的主干遵循了之前的 Moonlight 模型的設(shè)計(jì),并在其中融入了創(chuàng)新的注意力機(jī)制和混合策略
![]()
3:1 的混合層級結(jié)構(gòu)
Kimi Linear 并沒有完全拋棄強(qiáng)大的全注意力機(jī)制,而是采用了一種層級交錯的混合方式。具體來說,模型中的注意力層以一個固定的3:1比例進(jìn)行重復(fù)堆疊,即每三個 Kimi Delta Attention (KDA) 線性注意力層之后,會插入一個全注意力層,即多頭潛在注意力(Multi-Head Latent Attention, MLA)
KDA 層:作為模型的主體,負(fù)責(zé)處理大部分的 token 間交互。它們是線性的,這意味著它們的計(jì)算和內(nèi)存開銷不隨序列長度二次方增長,保證了模型在處理長文本時的高效率
MLA 層:作為周期性的全局信息樞紐。這些層能夠捕捉序列中任意兩個 token 之間的依賴關(guān)系,彌補(bǔ)了線性注意力在長距離、精細(xì)化信息檢索上的不足。
月之暗面團(tuán)隊(duì)通過消融實(shí)驗(yàn)驗(yàn)證了 3:1 是一個最佳比例。例如,提高 KDA 的比例(如 7:1)雖然在訓(xùn)練損失上表現(xiàn)相近,但在驗(yàn)證集上的泛化能力會顯著下降;而降低比例(如 1:1)雖然能保持較好的泛化能力,但會犧牲推理效率。純粹的全注意力基線(0:1)表現(xiàn)甚至更差。因此,3:1 的配置在模型性能和計(jì)算效率之間取得了最有效的平衡。這種設(shè)計(jì)使得 Kimi Linear 能夠在長序列生成過程中,將內(nèi)存和 KV 緩存使用量減少高達(dá) 75%
為全注意力層設(shè)計(jì)的無位置編碼 (NoPE)
一個非常引人注目的設(shè)計(jì)是,Kimi Linear 中的所有全注意力層(MLA)都不使用任何顯式的位置編碼(No Position Encoding, NoPE),例如主流的 RoPE (Rotary Position Embedding)。這一決策背后有著深刻的考量:
1.模型將編碼位置信息和時序偏見(recency bias,即更關(guān)注最近的信息)的全部責(zé)任都交給了 KDA 層。KDA 本身的設(shè)計(jì)使其成為一個強(qiáng)大的位置感知算子,其作用類似于甚至強(qiáng)于短卷積或滑動窗口注意力(SWA)等輔助組件
2.這種設(shè)計(jì)使得全局注意力層(MLA)可以專注于純粹的內(nèi)容關(guān)聯(lián),而 KDA 層則負(fù)責(zé)處理與位置相關(guān)的動態(tài)信息
3.實(shí)驗(yàn)結(jié)果表明,這種策略在長文本任務(wù)上表現(xiàn)尤為出色。相比于在全局注意力層中使用 RoPE 的版本,NoPE 設(shè)計(jì)讓模型在長距離的魯棒性和外推能力更強(qiáng),因?yàn)樗苊饬?RoPE 中固定頻率可能導(dǎo)致的對訓(xùn)練文本長度的過擬合
與專家混合(MoE)的結(jié)合
Kimi Linear 架構(gòu)還結(jié)合了專家混合(Mixture-of-Experts, MoE)技術(shù),以在不顯著增加計(jì)算成本的情況下擴(kuò)展模型參數(shù)規(guī)模。在實(shí)驗(yàn)中,模型總參數(shù)量為 480 億,但每個前向傳播僅激活 30 億參數(shù)(激活 256 個專家中的 8 個)。這種稀疏激活的模式進(jìn)一步提升了模型的訓(xùn)練和推理效率
總而言之,Kimi Linear 的架構(gòu)通過 3:1 的 KDA 與 MLA 混合比例、為 MLA 層設(shè)計(jì)的 NoPE 策略以及與 MoE 技術(shù)的結(jié)合,構(gòu)建了一個在表達(dá)能力、計(jì)算效率和長文本處理能力上都極為出色的模型
核心創(chuàng)新:深入解析 Kimi Delta Attention (KDA)
Kimi Linear 架構(gòu)的強(qiáng)大能力根植于其核心創(chuàng)新——Kimi Delta Attention (KDA)。KDA 是一種新型的門控線性注意力變體,它在 Gated DeltaNet (GDN) 的基礎(chǔ)上進(jìn)行了關(guān)鍵的改進(jìn),從而實(shí)現(xiàn)了更精細(xì)的內(nèi)存控制和更高的硬件效率。要理解 KDA,我們需要從線性注意力的演進(jìn)談起
從在線學(xué)習(xí)到門控增量法則
線性注意力作為在線學(xué)習(xí):線性注意力可以被看作一個持續(xù)更新的矩陣狀態(tài),這個狀態(tài)累積了鍵值(key-value)的關(guān)聯(lián)信息。這個過程類似于在線學(xué)習(xí),不斷用新的信息來更新一個記憶矩陣。但簡單的累積會導(dǎo)致狀態(tài)無限增長,舊的、無關(guān)的記憶會干擾新的信息
DeltaNet 與重構(gòu)損失:DeltaNet 將這一過程重新定義為對一個“重構(gòu)損失”的在線梯度下降。簡單來說,模型不再是盲目累積信息,而是不斷地將記憶狀態(tài)S朝著能更好地重構(gòu)當(dāng)前值v的方向進(jìn)行修正(即從k映射到v)。這個修正過程就是經(jīng)典的“增量法則”(delta rule),它通過一個秩-1 矩陣更新來實(shí)現(xiàn),這種結(jié)構(gòu)非常適合硬件并行計(jì)算
Gated DeltaNet (GDN) 與遺忘機(jī)制:雖然 DeltaNet 穩(wěn)定了學(xué)習(xí),但它仍然會永久保留所有關(guān)聯(lián)信息。GDN 在此基礎(chǔ)上引入了一個簡單的標(biāo)量“遺忘門”(forget gate)α。每次更新前,整個記憶狀態(tài)S都會乘以這個α。這相當(dāng)于對記憶施加了一種權(quán)重衰減(weight decay),使得模型可以遺忘過時的信息,從而提升了長文本建模的穩(wěn)定性和泛化能力
KDA 的兩大核心改進(jìn)
KDA 繼承了 GDN 的思想,但進(jìn)行了兩個關(guān)鍵的、相互關(guān)聯(lián)的改進(jìn),使其表達(dá)能力和硬件效率都得到了質(zhì)的飛躍。
1.精細(xì)化的對角門控 (Fine-grained Diagonal Gating)
標(biāo)準(zhǔn)的 GDN 使用的是一個標(biāo)量(scalar)遺忘門,這意味著在一個注意力頭中,所有特征維度都以相同的速率遺忘信息。這種一刀切的方式限制了模型的表達(dá)能力。相比之下,KDA 引入了一個對角化的門控矩陣Diag(a_t),它允許每個特征通道(channel-wise)擁有自己獨(dú)立的遺忘速率
類比 RoPE:這種精細(xì)化的控制類似于 RoPE (旋轉(zhuǎn)位置編碼) 的工作方式。RoPE 通過為不同維度分配不同的旋轉(zhuǎn)頻率來實(shí)現(xiàn)精細(xì)的位置信息編碼。同樣地,KDA 的通道級衰減門也賦予了模型在特征維度上進(jìn)行差異化信息處理的能力,從而可以被看作是一種可學(xué)習(xí)的、數(shù)據(jù)依賴的位置編碼機(jī)制。
解鎖 RNN 潛力:這種設(shè)計(jì)使得 KDA 能夠更精確地調(diào)控其有限的 RNN 狀態(tài)記憶,選擇性地保留關(guān)鍵信息,遺忘無關(guān)噪聲,從而在混合架構(gòu)中釋放了 RNN 風(fēng)格模型的潛力
2.硬件高效的塊處理算法 (Hardware-Efficient Chunkwise Algorithm)
引入精細(xì)化的門控雖然增強(qiáng)了表達(dá)能力,但也帶來了計(jì)算上的挑戰(zhàn),尤其是在除法運(yùn)算時容易出現(xiàn)數(shù)值精度問題。為了解決這個問題并最大化硬件利用率,KDA 采用了一種特制的塊處理(chunkwise)并行算法
約束化的 DPLR 結(jié)構(gòu):從數(shù)學(xué)上看,KDA 的狀態(tài)轉(zhuǎn)移可以被視為一種特殊的對角加低秩(Diagonal-Plus-Low-Rank, DPLR)矩陣。通用的 DPLR 結(jié)構(gòu)雖然表達(dá)能力強(qiáng),但計(jì)算成本高且難以并行。KDA 通過巧妙的設(shè)計(jì),將 DPLR 中的兩個低秩向量a和b都與鍵k綁定,從而簡化了計(jì)算
減少計(jì)算量:這個約束極大地優(yōu)化了計(jì)算流程。相比于通用的 DPLR 公式,KDA 的算法將二級塊矩陣的計(jì)算數(shù)量從四個減少到兩個,并額外省去了三次矩陣乘法。這使得 KDA 的算子效率比標(biāo)準(zhǔn) DPLR 提升了大約 100%
利用 Tensor Cores:在輸出階段,KDA 采用了塊間循環(huán)(inter-block recurrent)和塊內(nèi)并行(intra-block parallel)的策略,最大限度地利用現(xiàn)代 GPU 上的 Tensor Cores,實(shí)現(xiàn)了極高的矩陣乘法吞吐量。
總而言之,KDA 通過引入通道級的精細(xì)化門控,使其成為一個強(qiáng)大的位置感知線性注意力模塊;同時,通過其定制的、高度優(yōu)化的塊處理算法,解決了精細(xì)化門控帶來的計(jì)算挑戰(zhàn),實(shí)現(xiàn)了卓越的硬件效率。這兩點(diǎn)共同構(gòu)成了 Kimi Linear 架構(gòu)高性能和高效率的基石
全方位性能對決:Kimi Linear 的實(shí)證評估
為了證明 Kimi Linear 的優(yōu)越性,研究團(tuán)隊(duì)進(jìn)行了一系列嚴(yán)格且全面的實(shí)驗(yàn),將其與兩個強(qiáng)大的基線模型進(jìn)行了公平對比:
1.MLA (Multi-Head Latent Attention):一個純粹的全注意力基線模型
2.GDN-H (Hybrid Gated DeltaNet):一個采用標(biāo)準(zhǔn) Gated DeltaNet 的混合注意力基線模型
所有模型都采用相同的架構(gòu)、參數(shù)量(480 億總參數(shù),30 億激活參數(shù))和訓(xùn)練設(shè)置(基于 1.4 萬億 tokens 的語料庫),以確保比較的公平性
![]()
基礎(chǔ)能力測試:合成任務(wù)
在進(jìn)入評估之前,團(tuán)隊(duì)首先在三個經(jīng)典的合成任務(wù)上測試了 KDA 的核心能力,這些任務(wù)旨在檢驗(yàn)?zāi)P驮陂L文本場景下的記憶和檢索能力
Palindrome (回文):要求模型將一個隨機(jī)序列逆序輸出。這對線性注意力的固定大小記憶狀態(tài)是一個巨大挑戰(zhàn)
Multi Query Associative Recall (MQAR, 多查詢關(guān)聯(lián)回憶):測試模型從上下文中檢索與多個查詢相關(guān)聯(lián)的值的能力,該任務(wù)與語言建模性能高度相關(guān)
Stack (棧操作):模擬標(biāo)準(zhǔn)的后進(jìn)先出(LIFO)棧操作,考驗(yàn)?zāi)P妥粉櫠鄠€獨(dú)立狀態(tài)的能力。
實(shí)驗(yàn)結(jié)果顯示,隨著序列長度從 256 增加到 2048,KDA 在所有任務(wù)上都取得了最高的準(zhǔn)確率,并且收斂速度顯著快于 GDN。這證明了 KDA 的精細(xì)化衰減門使其能夠更精確地管理記憶,選擇性地遺忘無關(guān)信息,保留關(guān)鍵內(nèi)容
短上下文性能:預(yù)訓(xùn)練和指令微調(diào)
在短上下文(short-context)的標(biāo)準(zhǔn)語言模型基準(zhǔn)測試中,Kimi Linear 同樣展現(xiàn)了全面的優(yōu)勢
預(yù)訓(xùn)練階段 (Pretrain results):在經(jīng)過 1.4T tokens 預(yù)訓(xùn)練后,Kimi Linear 在通用知識(如 HellaSwag, MMLU, BBH)、數(shù)學(xué)與代碼推理(如 GSM8K, CRUXeval)以及中文任務(wù)(如 Ceval, CMMLU)等幾乎所有類別中,都一致性地優(yōu)于 MLA 和 GDN-H。例如,在 MMLU-Pro 基準(zhǔn)上,Kimi Linear 獲得了 51.0 的分?jǐn)?shù),顯著高于 MLA 的 47.2 和 GDN-H 的 47.9
指令微調(diào)階段 (SFT results):經(jīng)過相同的監(jiān)督微調(diào)(SFT)后,Kimi Linear 的領(lǐng)先優(yōu)勢得以保持。在通用任務(wù)上,它在 MMLU、BBH 和 GPQA-Diamond 等多個基準(zhǔn)上都取得了最高分。在更具挑戰(zhàn)性的數(shù)學(xué)與代碼任務(wù)中,它在 AIME 2025、HMMT 2025 和 LiveCodeBench 等高難度基準(zhǔn)上也超越了兩個基線模型
長上下文性能:關(guān)鍵優(yōu)勢領(lǐng)域
長上下文(long-context)處理是 Kimi Linear 設(shè)計(jì)的核心目標(biāo),實(shí)驗(yàn)結(jié)果也印證了其在該領(lǐng)域的卓越表現(xiàn)。在 128k 上下文長度的多個基準(zhǔn)測試中:
Kimi Linear 取得了54.5的平均分,高于 MLA (52.2) 和 GDN-H (51.2)
在 RULER基準(zhǔn)上,Kimi Linear 獲得了84.3的高分,領(lǐng)先 MLA (81.3) 和 GDN-H (80.5)
在RepoQA上下文代碼理解任務(wù)中,它的得分也最高
一個有趣的現(xiàn)象是,在長文本評估中,GDN-H 的性能下降到甚至低于 MLA,而 Kimi Linear 則穩(wěn)居榜首,這進(jìn)一步凸顯了 KDA 相對于標(biāo)準(zhǔn) GDN 在長程依賴建模上的優(yōu)勢
強(qiáng)化學(xué)習(xí)(RL)性能
在需要模型進(jìn)行多步推理和生成長篇答案的強(qiáng)化學(xué)習(xí)場景中,Kimi Linear 的優(yōu)勢更加明顯。在數(shù)學(xué)任務(wù)的 RL 訓(xùn)練中,與 MLA 相比:
Kimi Linear 的訓(xùn)練準(zhǔn)確率增長速度更快,與 MLA 的差距隨著訓(xùn)練的進(jìn)行逐漸拉大
在測試集(如 MATH500 和 AIME 2025)上,Kimi Linear 實(shí)現(xiàn)了更快、更好的性能提升。這表明 Kimi Linear 在需要復(fù)雜、長程推理的生成任務(wù)中表現(xiàn)明顯優(yōu)于全注意力模型
效率對比:速度與內(nèi)存的雙重勝利
Kimi Linear 不僅性能更強(qiáng),效率也更高
解碼速度:在解碼階段,Kimi Linear 的優(yōu)勢隨著序列長度的增加而急劇擴(kuò)大。在百萬(1M)token 的上下文長度下,其單個 token 的生成時間(Time per output token, TPOT)僅為1.84ms,而全注意力 MLA 則需要11.48ms。這使得 Kimi Linear 能夠支持更大的批處理大小,最終實(shí)現(xiàn)了比 MLA 快6.3 倍的吞吐量
![]()
預(yù)填充速度:在處理初始長文本的預(yù)填充階段,Kimi Linear 的速度也遠(yuǎn)超 MLA。在 1M 長度下,其速度是 MLA 的 2.9 倍
內(nèi)存占用:由于其 3:1 的混合設(shè)計(jì),Kimi Linear 的 KV 緩存大小僅為純 MLA 模型的約 25%,極大地節(jié)省了顯存資源
綜合來看,Kimi Linear 在性能和效率兩個維度上都實(shí)現(xiàn)了對全注意力的超越,證明了其作為下一代大語言模型核心架構(gòu)的巨大潛力
經(jīng)過精心設(shè)計(jì)的線性注意力(如 KDA)與全局注意力的混合架構(gòu),完全有能力在性能上超越純粹的全注意力模型。Kimi Linear 擺脫了以往線性注意力“性能稍遜但效率更高”的給大家的固有印象,首次實(shí)現(xiàn)了一個在性能和效率上雙贏的解決方案。其核心 KDA 模塊通過精細(xì)化的通道級門控和硬件感知的設(shè)計(jì),展示了線性注意力在表達(dá)能力上的巨大潛力
Kimi Linear 提出了一個有趣且有效的觀點(diǎn):線性注意力層自身可以承擔(dān)起編碼位置信息的全部責(zé)任,從而解放全局注意力層,使其專注于內(nèi)容層面的關(guān)聯(lián)。KDA 被詮釋為一種可學(xué)習(xí)的、數(shù)據(jù)依賴的動態(tài)位置編碼機(jī)制,這為解決傳統(tǒng)位置編碼(如 RoPE)在長文本外推上的局限性提供了一條新的路徑。這一設(shè)計(jì)簡化了模型架構(gòu),并增強(qiáng)了其在超長上下文中的魯棒性
開源
為了推動社區(qū)的進(jìn)一步研究,Kimi Linear 團(tuán)隊(duì)開源了其核心的 KDA CUDA 核函數(shù)、vLLM 的集成實(shí)現(xiàn),以及預(yù)訓(xùn)練和指令微調(diào)的模型檢查點(diǎn)
更多細(xì)節(jié):
https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct





京公網(wǎng)安備 11011402013531號