網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

MiniMax和Kimi為了“注意力”，隔空交手

2025-10-31 18:42:35　來(lái)源: 硅星GenAI

上海舉報(bào)

分享至

作者｜周一笑
郵箱｜ zhouyixiao@pingwest.com

10月29日，月之暗面研究員周昕宇（Zhou Xinyu）在X上轉(zhuǎn)發(fā)了MiniMax M2 Tech Blog的推文，并評(píng)論道：“Minimax don't worry, Kimi got your back ”。不僅如此，他還在知乎的同一篇博文下留下了同樣的評(píng)論，這種帶有調(diào)侃意味的公開(kāi)“示好”，既像挑逗，也像挑釁。

在M2發(fā)布兩天后，MiniMax的預(yù)訓(xùn)練負(fù)責(zé)人孫浩海（Haohai Sun）在知乎和X發(fā)布了一篇技術(shù)博客，罕見(jiàn)地坦誠(chéng)地說(shuō)明了團(tuán)隊(duì)為什么放棄efficient attention，“為什么不做linear/sparse attention”？“一直在做，但是在工業(yè)系統(tǒng)里真的打過(guò)Full Attention還有些距離”

周昕宇的評(píng)論顯然有所指，但“got your back”究竟是什么意思？答案在24小時(shí)后揭曉。10月30日，月之暗面發(fā)布了Kimi Linear，一個(gè)48B參數(shù)的混合注意力模型，聲稱在長(zhǎng)上下文任務(wù)中KV Cache減少75%，吞吐量提升6倍。

技術(shù)報(bào)告的Abstract寫道：“for the first time, outperforms full attention under fair comparisons across various scenarios”（首次在公平對(duì)比下全面超越全注意力）。

從MiniMax M2發(fā)布到Kimi Linear發(fā)布，恰好72小時(shí)。這種技術(shù)路線扽差異是大模型行業(yè)在效率與性能之間的路線探索，爭(zhēng)論仍未塵埃落定。

MiniMax M2：回歸Full Attention

MiniMax此前的M1 Lightning采用Softmax + MoE的混合式架構(gòu)，支持百萬(wàn)級(jí)上下文。到了M2，MiniMax選擇了回歸Full Attention。

M2的定位是Agent和代碼生成，強(qiáng)調(diào)"大巧若拙"的產(chǎn)品哲學(xué)。在價(jià)格上，M2僅為Claude Sonnet 4.5的8%（每百萬(wàn)Token輸入0.3美元），推理速度快近2倍（TPS約100）。MiniMax在官方發(fā)布文章中表示，這是通過(guò)"高效的激活參數(shù)設(shè)計(jì)"實(shí)現(xiàn)的"智能、速度與成本的最佳平衡"。

《為什么M2是Full Attention》這篇文章在知乎和X都獲得了不少好評(píng)。X上的評(píng)論者認(rèn)為這是“難得的工程視角分享”，“對(duì)行業(yè)非常有價(jià)值”。一位名為@TensorTemplar的評(píng)論者說(shuō)：“難得見(jiàn)到如此詳盡公開(kāi)分享模型架構(gòu)的整體工程視角。關(guān)于稀疏注意力尾部風(fēng)險(xiǎn)的論述非常精彩！在復(fù)雜多輪使用場(chǎng)景中尚未證明其等效性前，我暫不愿稱之為‘高效’?！?/p>

Haohai詳細(xì)闡述了三個(gè)核心困難。第一個(gè)是工程鏈路復(fù)雜性爆炸。用他的話說(shuō)，“需要同時(shí)滿足code/math、agent、多模態(tài)、Long CoT、RL、低精度運(yùn)算、緩存、speculative decoding等眾多場(chǎng)景”。翻譯成人話就是，現(xiàn)代大模型不只是做一件事，而是要同時(shí)支持十幾種不同的應(yīng)用場(chǎng)景。每增加一種efficient attention機(jī)制，就要在所有這些場(chǎng)景下驗(yàn)證，工程復(fù)雜度呈指數(shù)級(jí)增長(zhǎng)。

第二個(gè)困難是評(píng)測(cè)體系局限?！靶∫?guī)模實(shí)驗(yàn)的結(jié)論無(wú)法外推，復(fù)雜多跳推理任務(wù)的缺陷只在大規(guī)模時(shí)暴露?！痹谛∧Ｐ蜕蠝y(cè)試效果好，不代表在大模型上也好。很多問(wèn)題只有在訓(xùn)練到一定規(guī)模時(shí)才會(huì)暴露，但那時(shí)候已經(jīng)投入了大量資源，來(lái)不及調(diào)整。Haohai在評(píng)論區(qū)補(bǔ)充說(shuō)，復(fù)雜多跳推理任務(wù)可以參考KorBench、BBEH等榜單，以及BBH里的dyck language任務(wù)。

有評(píng)論者問(wèn)“你們是否嘗試過(guò)其他線性注意力變體，比如門控Delta Net或Mamba2？"Haohai回復(fù)：”GDN混合模型表現(xiàn)尚可，Mamba2 < Mamba2 + qknorm ≈ GDN。但與全注意力模型相比，這些模型在推理密集型基準(zhǔn)測(cè)試（如BBH）中表現(xiàn)相對(duì)較弱?！癕iniMax在實(shí)際測(cè)試中發(fā)現(xiàn)了問(wèn)題。

第三個(gè)困難是基建不完善?！癓inear Attention的訓(xùn)練是訪存bound，推理需要解決低精度存儲(chǔ)、Prefix Cache、投機(jī)解碼等問(wèn)題。”即使理論上linear attention更快，但實(shí)際工程中需要解決很多基礎(chǔ)設(shè)施問(wèn)題。訓(xùn)練時(shí)內(nèi)存帶寬成為瓶頸，推理時(shí)需要支持各種優(yōu)化技術(shù)，這些都還沒(méi)有成熟的解決方案。

這篇博客的評(píng)論區(qū)也透露了一些重要信息。一位名為silicon的開(kāi)發(fā)者評(píng)論道：“我自己都開(kāi)發(fā)了近百種Transformer變體了，但‘驗(yàn)證新變體是否先進(jìn)’所花的時(shí)間遠(yuǎn)遠(yuǎn)大于開(kāi)發(fā)算法的時(shí)間”。Benchmark困境不只是MiniMax的問(wèn)題，而是整個(gè)行業(yè)的痛點(diǎn)。

另一個(gè)問(wèn)題是關(guān)于成本和時(shí)延的澄清。當(dāng)有網(wǎng)友問(wèn)“Agent場(chǎng)景下Full Attention會(huì)成為瓶頸嗎”時(shí)，Haohai回答是：“GPU的進(jìn)步非?？?，對(duì)Full Attention來(lái)說(shuō)目前只有成本問(wèn)題，沒(méi)有時(shí)延問(wèn)題。”也就是說(shuō)核心矛盾不是速度慢，而是成本高。MiniMax的策略是等待GPU進(jìn)步解決成本問(wèn)題，同時(shí)通過(guò)工程優(yōu)化（如“高效的激活參數(shù)設(shè)計(jì)”）來(lái)平衡性能和成本。

月暗的“挑逗”和Kimi Linear的發(fā)布

Zhou Xinyu是月之暗面的研究員，也是MoBA（Mixture of Block Attention）論文的核心作者之一，他的“挑逗”背后藏著一個(gè)大招。10月30日晚，月之暗面發(fā)布了Kimi Linear，一個(gè)48B總參數(shù)、3B激活參數(shù)的MoE模型，訓(xùn)練數(shù)據(jù)達(dá)5.7T tokens，支持1M tokens的上下文長(zhǎng)度。模型權(quán)重、代碼和技術(shù)報(bào)告全部開(kāi)源。從M2發(fā)布到Kimi Linear發(fā)布，72小時(shí)。

Kimi Linear有三個(gè)值得注意的點(diǎn)。

第一個(gè)是Kimi Delta Attention (KDA)。KDA基于Gated DeltaNet，引入了fine-grained gating機(jī)制。具體來(lái)說(shuō)，它從scalar gate（標(biāo)量門控）升級(jí)到channel-wise gate（通道級(jí)門控），讓每個(gè)特征維度都有獨(dú)立的遺忘因子。用人話說(shuō)，就像給模型裝了更精細(xì)的"記憶開(kāi)關(guān)"。傳統(tǒng)的門控機(jī)制是一個(gè)總開(kāi)關(guān)，要么全記住，要么全忘記。而KDA可以針對(duì)不同類型的信息分別控制記憶強(qiáng)度，比如對(duì)代碼語(yǔ)法記得牢一點(diǎn)，對(duì)臨時(shí)變量忘得快一點(diǎn)。這個(gè)改進(jìn)帶來(lái)了顯著的性能提升，相比標(biāo)準(zhǔn)DPLR實(shí)現(xiàn)，KDA的計(jì)算效率提升了約100%。

第二個(gè)是3:1的混合比例。Kimi Linear采用了Hybrid架構(gòu)，將KDA（線性注意力）和MLA（Multi-head Latent Attention）混合使用。MLA是DeepSeek在V2/V3中使用的技術(shù)，通過(guò)將注意力輸入壓縮成低維潛在向量，然后在需要計(jì)算注意力時(shí)映射回高維空間，顯著減少了內(nèi)存需求。關(guān)鍵問(wèn)題是混合的比例應(yīng)該是多少？Kimi團(tuán)隊(duì)通過(guò)系統(tǒng)性的ablation study找到了答案：3:1，也就是每3層KDA配1層MLA。

實(shí)驗(yàn)結(jié)果顯示，3:1是平衡性能和效率的最佳點(diǎn)。純MLA（0:1）的validation PPL是5.77，3:1是5.65，1:1是5.66，7:1是5.70，15:1是5.82。太多全注意力（1:1）浪費(fèi)資源，太少（7:1、15:1）影響性能。

Kimi Linear 模型架構(gòu)示意圖。該模型由一系列堆疊的模塊組成，每個(gè)模塊包含一個(gè) token 混合層（token mixing layer），其后接一個(gè) MoE 通道混合層（channel-mixing layer）。

第三個(gè)是No Position Encoding (NoPE)。Kimi Linear的MLA層不使用位置編碼（如RoPE），所有的位置信息完全由KDA層負(fù)責(zé)。這個(gè)設(shè)計(jì)帶來(lái)三個(gè)好處：推理效率更高（MLA可以轉(zhuǎn)換為更高效的MQA）、訓(xùn)練更簡(jiǎn)單（避免了RoPE參數(shù)調(diào)整）、長(zhǎng)上下文泛化更好。

Kimi Linear的性能數(shù)據(jù)很亮眼。技術(shù)報(bào)告顯示，Kimi Linear"顯著減少了高達(dá)75%的KV cache需求"，這意味著內(nèi)存占用降低4倍，直接降低了部署成本。在1M tokens的長(zhǎng)上下文場(chǎng)景中，Kimi Linear的解碼吞吐量比MLA（全注意力）快6.3倍。具體數(shù)據(jù)是TPOT（Time Per Output Token）從11.48ms降到1.84ms。

在RULER基準(zhǔn)測(cè)試（128k context）上，Kimi Linear達(dá)到84.3的性能，同時(shí)速度是MLA的3.98倍。技術(shù)報(bào)告稱這是"Pareto-optimal"，性能和速度都是最優(yōu)，沒(méi)有trade-off。

Kimi團(tuán)隊(duì)用1.4T tokens的訓(xùn)練驗(yàn)證了scaling law。MLA的Loss是2.3092 × C^(-0.0536)，Kimi Linear是2.2879 × C^(-0.0527)。技術(shù)報(bào)告總結(jié)：“Kimi Linear achieves ～ 1.16× computational efficiency”。大規(guī)模訓(xùn)練中，Kimi Linear仍然優(yōu)于Full Attention。

為了驗(yàn)證理論正確性，Kimi團(tuán)隊(duì)在三個(gè)合成任務(wù)上測(cè)試了KDA：Palindrome（回文任務(wù)）、MQAR（多查詢關(guān)聯(lián)回憶）、Stack（棧追蹤）。KDA在所有任務(wù)上都達(dá)到100%準(zhǔn)確率，而GDN和Mamba2在長(zhǎng)序列上失敗。這些任務(wù)測(cè)試的正是復(fù)雜多跳推理能力。

這也是Linear attention首次在公平對(duì)比下全面超越Full Attention。不是特定任務(wù)，而是"across various scenarios"（各種場(chǎng)景），包括short-context、long-context、RL scaling。

Kimi Linear的工程化成熟度還體現(xiàn)在vLLM集成上。vLLM是UC Berkeley開(kāi)發(fā)的開(kāi)源LLM推理框架，是全球最主流的推理引擎之一。Kimi Delta Attention（KDA）算子已被vLLM官方整合進(jìn)主代碼庫(kù)。這意味著vLLM用戶只要升級(jí)到最新版本，就可以直接使用Kimi的注意力實(shí)現(xiàn)。

MiniMax向左，Kimi向右

MiniMax和Kimi的選擇，代表了兩種不同的技術(shù)路線。整個(gè)行業(yè)也都在探索，DeepSeek用MLA 改造/壓縮KV-cache，Mistral引入滑動(dòng)窗口稀疏模式，OpenAI與Anthropic的具體注意力實(shí)現(xiàn)未公開(kāi)，業(yè)內(nèi)普遍認(rèn)為其以Full Attention的工程化加速為主。

不同選擇反映了效率與性能的不同權(quán)衡。MiniMax選擇Full Attention，核心邏輯是等待GPU進(jìn)步解決成本問(wèn)題，同時(shí)通過(guò)工程優(yōu)化來(lái)平衡性能和成本。Full Attention是經(jīng)過(guò)多年驗(yàn)證的技術(shù)，不需要擔(dān)心在某些場(chǎng)景下的隱藏弱點(diǎn)。

Kimi選擇KDA + MLA，核心邏輯是主動(dòng)優(yōu)化架構(gòu)降低成本，系統(tǒng)性解決工程化問(wèn)題。這種選擇的優(yōu)勢(shì)是效率更高、成本更低、長(zhǎng)期可能競(jìng)爭(zhēng)力更強(qiáng)，但也面臨更大的工程挑戰(zhàn)，需要在多個(gè)場(chǎng)景下驗(yàn)證穩(wěn)定性。Kimi Linear的發(fā)布證明，至少在月之暗面的技術(shù)體系中，他們找到了可能的解決方案。

兩種選擇都有其合理性。MiniMax的策略是時(shí)間換空間，賭GPU進(jìn)步會(huì)解決成本問(wèn)題。Kimi的策略是空間換時(shí)間，通過(guò)技術(shù)創(chuàng)新主動(dòng)降低成本。哪種路線更好？目前還沒(méi)有定論。

不過(guò)，這種不同路線的探索和公開(kāi)的技術(shù)討論，對(duì)整個(gè)行業(yè)都是一件好事。它讓外界看到了大模型技術(shù)演進(jìn)的真實(shí)圖景，沒(méi)有正確答案，而是多條路徑的并行探索。MiniMax和Kimi的坦誠(chéng)和創(chuàng)新，都在推動(dòng)行業(yè)進(jìn)步。

但在技術(shù)探討之外，兩家公司在實(shí)際層面的競(jìng)爭(zhēng)也不容忽視。月之暗面和MiniMax都定位于中國(guó)頭部通用大模型，在長(zhǎng)上下文、代碼/Agent、開(kāi)源推理生態(tài)等方面同場(chǎng)競(jìng)跑。技術(shù)路線的選擇不僅關(guān)乎技術(shù)本身，也關(guān)乎資本市場(chǎng)的認(rèn)可和長(zhǎng)期競(jìng)爭(zhēng)力。

這是Full Attention和Efficient Attention兩種技術(shù)路線的較量，也是MiniMax和Kimi兩家公司的角力，兩件事情都會(huì)持續(xù)下去。這場(chǎng)關(guān)于Attention機(jī)制的技術(shù)之爭(zhēng)，本身也成了一場(chǎng)“注意力之爭(zhēng)”

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.