剛剛！Kimi Linear橫空出世，全新注意力架構(gòu)：1M長文本解碼速度飆升6.3倍，KV緩存砍掉75%

2025-10-31 06:56:25　來源: AI寒武紀

江蘇舉報

分享至

月之暗面剛剛推出了一個非常牛的全新的注意力架構(gòu)Kimi Linear，有望成為下一代Agent LLM的基石技術(shù)。月之暗面已經(jīng)放出了技術(shù)報告《KIMI LINEAR：一種高表達力且高效的注意力結(jié)構(gòu)》并開源了核心代碼，注意不是水論文，而是已經(jīng)在內(nèi)部得到嚴格驗證

技術(shù)報告：

https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf

簡單來說月之暗面推出了名為 Kimi Linear 的新型混合線性注意力架構(gòu)，核心目標是解決當前LLMs在處理長序列任務時面臨的計算效率和性能瓶頸。研究團隊首次證明，在包括短上下文、長上下文和強化學習等多種場景的公平比較下，Kimi Linear 的性能全面超越了傳統(tǒng)的full attention機制

Kimi Linear架構(gòu)的核心是 Kimi Delta Attention (KDA)，一種表達能力更強的線性注意力模塊，通過更精細的門控機制實現(xiàn)了對循環(huán)神經(jīng)網(wǎng)絡有限狀態(tài)記憶的有效利用。最終，Kimi Linear 模型不僅在各項任務上取得了更優(yōu)異的性能，還在效率上實現(xiàn)了巨大突破：與full attention模型相比，能將 Key-Value (KV) 緩存的使用量減少高達 75%，并在處理百萬級別的長下文時，實現(xiàn)高達 6 倍的解碼吞吐量提升。這表明 Kimi Linear 可以作為全注意力架構(gòu)的“即插即用”替代品，在提升性能的同時顯著增強了效率

按照kimi官方推文的的說法，這代表：

以代理為導向的注意力機制的未來已經(jīng)到來！The future of agentic-oriented attention is here!

以下是報告詳細解讀：

先看看當前的困境

隨著LLMs朝著更強大的智能體方向發(fā)展，它們在推理過程中的計算需求，尤其是在長程推理和強化學習場景下，正成為一個核心瓶頸。在這些場景中，模型需要處理冗長的交互歷史、工具使用記錄以及復雜的決策空間，這對底層架構(gòu)的效率提出了嚴峻挑戰(zhàn)

傳統(tǒng)的 Transformer 模型依賴于標準的 softmax 注意力機制，這一機制雖然效果強大，但存在兩個根本性的效率問題：

二次方時間復雜度：注意力分數(shù)的計算與序列長度的平方成正比。這意味著當文本長度從 1000 增加到 1,000,000 時，計算量會增加一百萬倍，這在計算上是極其昂貴的

線性增長的 KV 緩存：在自回歸生成（解碼）過程中，模型需要緩存過去所有 token 的鍵（Key）和值（Value），這個緩存的大小與序列長度成線性關系。對于百萬級別的長文本，KV 緩存會消耗掉大量的顯存，限制了模型的吞吐量和并發(fā)處理能力，使得實時交互變得困難

為了解決這些問題，研究人員們將目光投向了線性注意力（Linear Attention）。線性注意力通過數(shù)學變換，避免了直接計算龐大的注意力矩陣，從而將計算復雜度從二次方降低到線性。然而，這種效率的提升往往伴隨著模型表達能力的犧牲，導致其在語言建模任務上的性能長期落后于 softmax 注意力，即便是在短序列上也是如此

近年來，線性注意力的研究取得了顯著進展，主要源于兩個關鍵創(chuàng)新：

門控或衰減機制 (gating or decay mechanisms)：類似于 RNN 中的門控單元，該機制允許模型動態(tài)地決定保留或遺忘歷史信息，增強了對上下文的控制能力

增量法則 (delta rule)：這一概念源于在線學習，它將注意力狀態(tài)的更新過程重新解釋為一個在重構(gòu)損失上的在線梯度下降。這使得模型能夠?qū)⒆⒁饬顟B(tài)（即一個可學習的關聯(lián)記憶）持續(xù)地向新的鍵值對映射進行修正，從而穩(wěn)定了學習過程并提升了性能。

這些進步使得線性注意力的性能越來越接近 softmax 注意力。但純粹的線性結(jié)構(gòu)由于其有限的狀態(tài)容量，在需要精確檢索長序列中特定信息的任務上仍然面臨理論上的挑戰(zhàn)。因此，混合架構(gòu)（Hybrid architectures）應運而生，它將少量的全局注意力層（通常是標準的 softmax 注意力）與大量的線性注意力層結(jié)合起來，試圖在模型質(zhì)量和計算效率之間找到一個實用的平衡點。盡管如此，之前的混合模型往往規(guī)模有限，或者缺乏在多樣化基準上的全面評估

真正的挑戰(zhàn)依然存在：如何設計一個既能匹配甚至超越全注意力模型性能，又能同時在速度和內(nèi)存上實現(xiàn)顯著效率提升的注意力架構(gòu)？這正是 Kimi Linear 誕生的背景，它旨在成為下一代高強度解碼、智能體式 LLM 的基石

Kimi Linear 的架構(gòu)設計：一種精巧的混合模式

Kimi Linear 的核心是一種精心設計的混合架構(gòu)，它巧妙地結(jié)合了兩種不同類型的注意力層，以實現(xiàn)性能和效率的最佳平衡。該架構(gòu)的主干遵循了之前的 Moonlight 模型的設計，并在其中融入了創(chuàng)新的注意力機制和混合策略

3:1 的混合層級結(jié)構(gòu)

Kimi Linear 并沒有完全拋棄強大的全注意力機制，而是采用了一種層級交錯的混合方式。具體來說，模型中的注意力層以一個固定的3:1比例進行重復堆疊，即每三個 Kimi Delta Attention (KDA) 線性注意力層之后，會插入一個全注意力層，即多頭潛在注意力（Multi-Head Latent Attention, MLA）

KDA 層：作為模型的主體，負責處理大部分的 token 間交互。它們是線性的，這意味著它們的計算和內(nèi)存開銷不隨序列長度二次方增長，保證了模型在處理長文本時的高效率

MLA 層：作為周期性的全局信息樞紐。這些層能夠捕捉序列中任意兩個 token 之間的依賴關系，彌補了線性注意力在長距離、精細化信息檢索上的不足。

月之暗面團隊通過消融實驗驗證了 3:1 是一個最佳比例。例如，提高 KDA 的比例（如 7:1）雖然在訓練損失上表現(xiàn)相近，但在驗證集上的泛化能力會顯著下降；而降低比例（如 1:1）雖然能保持較好的泛化能力，但會犧牲推理效率。純粹的全注意力基線（0:1）表現(xiàn)甚至更差。因此，3:1 的配置在模型性能和計算效率之間取得了最有效的平衡。這種設計使得 Kimi Linear 能夠在長序列生成過程中，將內(nèi)存和 KV 緩存使用量減少高達 75%

為全注意力層設計的無位置編碼 (NoPE)

一個非常引人注目的設計是，Kimi Linear 中的所有全注意力層（MLA）都不使用任何顯式的位置編碼（No Position Encoding, NoPE），例如主流的 RoPE (Rotary Position Embedding)。這一決策背后有著深刻的考量：

1.模型將編碼位置信息和時序偏見（recency bias，即更關注最近的信息）的全部責任都交給了 KDA 層。KDA 本身的設計使其成為一個強大的位置感知算子，其作用類似于甚至強于短卷積或滑動窗口注意力（SWA）等輔助組件

2.這種設計使得全局注意力層（MLA）可以專注于純粹的內(nèi)容關聯(lián)，而 KDA 層則負責處理與位置相關的動態(tài)信息

3.實驗結(jié)果表明，這種策略在長文本任務上表現(xiàn)尤為出色。相比于在全局注意力層中使用 RoPE 的版本，NoPE 設計讓模型在長距離的魯棒性和外推能力更強，因為它避免了 RoPE 中固定頻率可能導致的對訓練文本長度的過擬合

與專家混合（MoE）的結(jié)合

Kimi Linear 架構(gòu)還結(jié)合了專家混合（Mixture-of-Experts, MoE）技術(shù)，以在不顯著增加計算成本的情況下擴展模型參數(shù)規(guī)模。在實驗中，模型總參數(shù)量為 480 億，但每個前向傳播僅激活 30 億參數(shù)（激活 256 個專家中的 8 個）。這種稀疏激活的模式進一步提升了模型的訓練和推理效率

總而言之，Kimi Linear 的架構(gòu)通過 3:1 的 KDA 與 MLA 混合比例、為 MLA 層設計的 NoPE 策略以及與 MoE 技術(shù)的結(jié)合，構(gòu)建了一個在表達能力、計算效率和長文本處理能力上都極為出色的模型

核心創(chuàng)新：深入解析 Kimi Delta Attention (KDA)

Kimi Linear 架構(gòu)的強大能力根植于其核心創(chuàng)新——Kimi Delta Attention (KDA)。KDA 是一種新型的門控線性注意力變體，它在 Gated DeltaNet (GDN) 的基礎上進行了關鍵的改進，從而實現(xiàn)了更精細的內(nèi)存控制和更高的硬件效率。要理解 KDA，我們需要從線性注意力的演進談起

從在線學習到門控增量法則

線性注意力作為在線學習：線性注意力可以被看作一個持續(xù)更新的矩陣狀態(tài)，這個狀態(tài)累積了鍵值（key-value）的關聯(lián)信息。這個過程類似于在線學習，不斷用新的信息來更新一個記憶矩陣。但簡單的累積會導致狀態(tài)無限增長，舊的、無關的記憶會干擾新的信息

DeltaNet 與重構(gòu)損失：DeltaNet 將這一過程重新定義為對一個“重構(gòu)損失”的在線梯度下降。簡單來說，模型不再是盲目累積信息，而是不斷地將記憶狀態(tài)S朝著能更好地重構(gòu)當前值v的方向進行修正（即從k映射到v）。這個修正過程就是經(jīng)典的“增量法則”（delta rule），它通過一個秩-1 矩陣更新來實現(xiàn)，這種結(jié)構(gòu)非常適合硬件并行計算

Gated DeltaNet (GDN) 與遺忘機制：雖然 DeltaNet 穩(wěn)定了學習，但它仍然會永久保留所有關聯(lián)信息。GDN 在此基礎上引入了一個簡單的標量“遺忘門”（forget gate）α。每次更新前，整個記憶狀態(tài)S都會乘以這個α。這相當于對記憶施加了一種權(quán)重衰減（weight decay），使得模型可以遺忘過時的信息，從而提升了長文本建模的穩(wěn)定性和泛化能力

KDA 的兩大核心改進

KDA 繼承了 GDN 的思想，但進行了兩個關鍵的、相互關聯(lián)的改進，使其表達能力和硬件效率都得到了質(zhì)的飛躍。

1.精細化的對角門控 (Fine-grained Diagonal Gating)

標準的 GDN 使用的是一個標量（scalar）遺忘門，這意味著在一個注意力頭中，所有特征維度都以相同的速率遺忘信息。這種一刀切的方式限制了模型的表達能力。相比之下，KDA 引入了一個對角化的門控矩陣Diag(a_t)，它允許每個特征通道（channel-wise）擁有自己獨立的遺忘速率

類比 RoPE：這種精細化的控制類似于 RoPE (旋轉(zhuǎn)位置編碼) 的工作方式。RoPE 通過為不同維度分配不同的旋轉(zhuǎn)頻率來實現(xiàn)精細的位置信息編碼。同樣地，KDA 的通道級衰減門也賦予了模型在特征維度上進行差異化信息處理的能力，從而可以被看作是一種可學習的、數(shù)據(jù)依賴的位置編碼機制。

解鎖 RNN 潛力：這種設計使得 KDA 能夠更精確地調(diào)控其有限的 RNN 狀態(tài)記憶，選擇性地保留關鍵信息，遺忘無關噪聲，從而在混合架構(gòu)中釋放了 RNN 風格模型的潛力

2.硬件高效的塊處理算法 (Hardware-Efficient Chunkwise Algorithm)

引入精細化的門控雖然增強了表達能力，但也帶來了計算上的挑戰(zhàn)，尤其是在除法運算時容易出現(xiàn)數(shù)值精度問題。為了解決這個問題并最大化硬件利用率，KDA 采用了一種特制的塊處理（chunkwise）并行算法

約束化的 DPLR 結(jié)構(gòu)：從數(shù)學上看，KDA 的狀態(tài)轉(zhuǎn)移可以被視為一種特殊的對角加低秩（Diagonal-Plus-Low-Rank, DPLR）矩陣。通用的 DPLR 結(jié)構(gòu)雖然表達能力強，但計算成本高且難以并行。KDA 通過巧妙的設計，將 DPLR 中的兩個低秩向量a和b都與鍵k綁定，從而簡化了計算

減少計算量：這個約束極大地優(yōu)化了計算流程。相比于通用的 DPLR 公式，KDA 的算法將二級塊矩陣的計算數(shù)量從四個減少到兩個，并額外省去了三次矩陣乘法。這使得 KDA 的算子效率比標準 DPLR 提升了大約 100%

利用 Tensor Cores：在輸出階段，KDA 采用了塊間循環(huán)（inter-block recurrent）和塊內(nèi)并行（intra-block parallel）的策略，最大限度地利用現(xiàn)代 GPU 上的 Tensor Cores，實現(xiàn)了極高的矩陣乘法吞吐量。

總而言之，KDA 通過引入通道級的精細化門控，使其成為一個強大的位置感知線性注意力模塊；同時，通過其定制的、高度優(yōu)化的塊處理算法，解決了精細化門控帶來的計算挑戰(zhàn)，實現(xiàn)了卓越的硬件效率。這兩點共同構(gòu)成了 Kimi Linear 架構(gòu)高性能和高效率的基石

全方位性能對決：Kimi Linear 的實證評估

為了證明 Kimi Linear 的優(yōu)越性，研究團隊進行了一系列嚴格且全面的實驗，將其與兩個強大的基線模型進行了公平對比：

1.MLA (Multi-Head Latent Attention)：一個純粹的全注意力基線模型

2.GDN-H (Hybrid Gated DeltaNet)：一個采用標準 Gated DeltaNet 的混合注意力基線模型

所有模型都采用相同的架構(gòu)、參數(shù)量（480 億總參數(shù)，30 億激活參數(shù)）和訓練設置（基于 1.4 萬億 tokens 的語料庫），以確保比較的公平性

基礎能力測試：合成任務

在進入評估之前，團隊首先在三個經(jīng)典的合成任務上測試了 KDA 的核心能力，這些任務旨在檢驗模型在長文本場景下的記憶和檢索能力

Palindrome (回文)：要求模型將一個隨機序列逆序輸出。這對線性注意力的固定大小記憶狀態(tài)是一個巨大挑戰(zhàn)

Multi Query Associative Recall (MQAR, 多查詢關聯(lián)回憶)：測試模型從上下文中檢索與多個查詢相關聯(lián)的值的能力，該任務與語言建模性能高度相關

Stack (棧操作)：模擬標準的后進先出（LIFO）棧操作，考驗模型追蹤多個獨立狀態(tài)的能力。

實驗結(jié)果顯示，隨著序列長度從 256 增加到 2048，KDA 在所有任務上都取得了最高的準確率，并且收斂速度顯著快于 GDN。這證明了 KDA 的精細化衰減門使其能夠更精確地管理記憶，選擇性地遺忘無關信息，保留關鍵內(nèi)容

短上下文性能：預訓練和指令微調(diào)

在短上下文（short-context）的標準語言模型基準測試中，Kimi Linear 同樣展現(xiàn)了全面的優(yōu)勢

預訓練階段 (Pretrain results)：在經(jīng)過 1.4T tokens 預訓練后，Kimi Linear 在通用知識（如 HellaSwag, MMLU, BBH）、數(shù)學與代碼推理（如 GSM8K, CRUXEval）以及中文任務（如 CEval, CMMLU）等幾乎所有類別中，都一致性地優(yōu)于 MLA 和 GDN-H。例如，在 MMLU-Pro 基準上，Kimi Linear 獲得了 51.0 的分數(shù)，顯著高于 MLA 的 47.2 和 GDN-H 的 47.9

指令微調(diào)階段 (SFT results)：經(jīng)過相同的監(jiān)督微調(diào)（SFT）后，Kimi Linear 的領先優(yōu)勢得以保持。在通用任務上，它在 MMLU、BBH 和 GPQA-Diamond 等多個基準上都取得了最高分。在更具挑戰(zhàn)性的數(shù)學與代碼任務中，它在 AIME 2025、HMMT 2025 和 LiveCodeBench 等高難度基準上也超越了兩個基線模型

長上下文性能：關鍵優(yōu)勢領域

長上下文（long-context）處理是 Kimi Linear 設計的核心目標，實驗結(jié)果也印證了其在該領域的卓越表現(xiàn)。在 128k 上下文長度的多個基準測試中：

Kimi Linear 取得了54.5的平均分，高于 MLA (52.2) 和 GDN-H (51.2)

在 RULER基準上，Kimi Linear 獲得了84.3的高分，領先 MLA (81.3) 和 GDN-H (80.5)

在RepoQA上下文代碼理解任務中，它的得分也最高

一個有趣的現(xiàn)象是，在長文本評估中，GDN-H 的性能下降到甚至低于 MLA，而 Kimi Linear 則穩(wěn)居榜首，這進一步凸顯了 KDA 相對于標準 GDN 在長程依賴建模上的優(yōu)勢

強化學習（RL）性能

在需要模型進行多步推理和生成長篇答案的強化學習場景中，Kimi Linear 的優(yōu)勢更加明顯。在數(shù)學任務的 RL 訓練中，與 MLA 相比：

Kimi Linear 的訓練準確率增長速度更快，與 MLA 的差距隨著訓練的進行逐漸拉大

在測試集（如 MATH500 和 AIME 2025）上，Kimi Linear 實現(xiàn)了更快、更好的性能提升。這表明 Kimi Linear 在需要復雜、長程推理的生成任務中表現(xiàn)明顯優(yōu)于全注意力模型

效率對比：速度與內(nèi)存的雙重勝利

Kimi Linear 不僅性能更強，效率也更高

解碼速度：在解碼階段，Kimi Linear 的優(yōu)勢隨著序列長度的增加而急劇擴大。在百萬（1M）token 的上下文長度下，其單個 token 的生成時間（Time per output token, TPOT）僅為1.84ms，而全注意力 MLA 則需要11.48ms。這使得 Kimi Linear 能夠支持更大的批處理大小，最終實現(xiàn)了比 MLA 快6.3 倍的吞吐量

預填充速度：在處理初始長文本的預填充階段，Kimi Linear 的速度也遠超 MLA。在 1M 長度下，其速度是 MLA 的 2.9 倍

內(nèi)存占用：由于其 3:1 的混合設計，Kimi Linear 的 KV 緩存大小僅為純 MLA 模型的約 25%，極大地節(jié)省了顯存資源

綜合來看，Kimi Linear 在性能和效率兩個維度上都實現(xiàn)了對全注意力的超越，證明了其作為下一代大語言模型核心架構(gòu)的巨大潛力

經(jīng)過精心設計的線性注意力（如 KDA）與全局注意力的混合架構(gòu)，完全有能力在性能上超越純粹的全注意力模型。Kimi Linear 擺脫了以往線性注意力“性能稍遜但效率更高”的給大家的固有印象，首次實現(xiàn)了一個在性能和效率上雙贏的解決方案。其核心 KDA 模塊通過精細化的通道級門控和硬件感知的設計，展示了線性注意力在表達能力上的巨大潛力

Kimi Linear 提出了一個有趣且有效的觀點：線性注意力層自身可以承擔起編碼位置信息的全部責任，從而解放全局注意力層，使其專注于內(nèi)容層面的關聯(lián)。KDA 被詮釋為一種可學習的、數(shù)據(jù)依賴的動態(tài)位置編碼機制，這為解決傳統(tǒng)位置編碼（如 RoPE）在長文本外推上的局限性提供了一條新的路徑。這一設計簡化了模型架構(gòu)，并增強了其在超長上下文中的魯棒性

開源

為了推動社區(qū)的進一步研究，Kimi Linear 團隊開源了其核心的 KDA CUDA 核函數(shù)、vLLM 的集成實現(xiàn)，以及預訓練和指令微調(diào)的模型檢查點

更多細節(jié)：

https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.