国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

MiniMax和Kimi為了“注意力”,隔空交手

0
分享至


作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

10月29日,月之暗面研究員周昕宇(Zhou Xinyu)在X上轉(zhuǎn)發(fā)了MiniMax M2 Tech Blog的推文,并評(píng)論道:“Minimax don't worry, Kimi got your back ”。不僅如此,他還在知乎的同一篇博文下留下了同樣的評(píng)論,這種帶有調(diào)侃意味的公開(kāi)“示好”,既像挑逗,也像挑釁。


在M2發(fā)布兩天后,MiniMax的預(yù)訓(xùn)練負(fù)責(zé)人孫浩海(Haohai Sun)在知乎和X發(fā)布了一篇技術(shù)博客,罕見(jiàn)地坦誠(chéng)地說(shuō)明了團(tuán)隊(duì)為什么放棄efficient attention,“為什么不做linear/sparse attention”?“一直在做,但是在工業(yè)系統(tǒng)里真的打過(guò)Full Attention還有些距離”

周昕宇的評(píng)論顯然有所指,但“got your back”究竟是什么意思?答案在24小時(shí)后揭曉。10月30日,月之暗面發(fā)布了Kimi Linear,一個(gè)48B參數(shù)的混合注意力模型,聲稱在長(zhǎng)上下文任務(wù)中KV Cache減少75%,吞吐量提升6倍。

技術(shù)報(bào)告的Abstract寫道:“for the first time, outperforms full attention under fair comparisons across various scenarios”(首次在公平對(duì)比下全面超越全注意力)。

從MiniMax M2發(fā)布到Kimi Linear發(fā)布,恰好72小時(shí)。這種技術(shù)路線扽差異是大模型行業(yè)在效率與性能之間的路線探索,爭(zhēng)論仍未塵埃落定。

MiniMax M2:回歸Full Attention

MiniMax此前的M1 Lightning采用Softmax + MoE的混合式架構(gòu),支持百萬(wàn)級(jí)上下文。到了M2,MiniMax選擇了回歸Full Attention。

M2的定位是Agent和代碼生成,強(qiáng)調(diào)"大巧若拙"的產(chǎn)品哲學(xué)。在價(jià)格上,M2僅為Claude Sonnet 4.5的8%(每百萬(wàn)Token輸入0.3美元),推理速度快近2倍(TPS約100)。MiniMax在官方發(fā)布文章中表示,這是通過(guò)"高效的激活參數(shù)設(shè)計(jì)"實(shí)現(xiàn)的"智能、速度與成本的最佳平衡"。


《為什么M2是Full Attention》這篇文章在知乎和X都獲得了不少好評(píng)。X上的評(píng)論者認(rèn)為這是“難得的工程視角分享”,“對(duì)行業(yè)非常有價(jià)值”。一位名為@TensorTemplar的評(píng)論者說(shuō):“難得見(jiàn)到如此詳盡公開(kāi)分享模型架構(gòu)的整體工程視角。關(guān)于稀疏注意力尾部風(fēng)險(xiǎn)的論述非常精彩!在復(fù)雜多輪使用場(chǎng)景中尚未證明其等效性前,我暫不愿稱之為‘高效’?!?/p>


Haohai詳細(xì)闡述了三個(gè)核心困難。第一個(gè)是工程鏈路復(fù)雜性爆炸。用他的話說(shuō),“需要同時(shí)滿足code/math、agent、多模態(tài)、Long CoT、RL、低精度運(yùn)算、緩存、speculative decoding等眾多場(chǎng)景”。翻譯成人話就是,現(xiàn)代大模型不只是做一件事,而是要同時(shí)支持十幾種不同的應(yīng)用場(chǎng)景。每增加一種efficient attention機(jī)制,就要在所有這些場(chǎng)景下驗(yàn)證,工程復(fù)雜度呈指數(shù)級(jí)增長(zhǎng)。

第二個(gè)困難是評(píng)測(cè)體系局限?!靶∫?guī)模實(shí)驗(yàn)的結(jié)論無(wú)法外推,復(fù)雜多跳推理任務(wù)的缺陷只在大規(guī)模時(shí)暴露?!痹谛∧P蜕蠝y(cè)試效果好,不代表在大模型上也好。很多問(wèn)題只有在訓(xùn)練到一定規(guī)模時(shí)才會(huì)暴露,但那時(shí)候已經(jīng)投入了大量資源,來(lái)不及調(diào)整。Haohai在評(píng)論區(qū)補(bǔ)充說(shuō),復(fù)雜多跳推理任務(wù)可以參考KorBench、BBEH等榜單,以及BBH里的dyck language任務(wù)。

有評(píng)論者問(wèn)“你們是否嘗試過(guò)其他線性注意力變體,比如門控Delta Net或Mamba2?"Haohai回復(fù):”GDN混合模型表現(xiàn)尚可,Mamba2 < Mamba2 + qknorm ≈ GDN。但與全注意力模型相比,這些模型在推理密集型基準(zhǔn)測(cè)試(如BBH)中表現(xiàn)相對(duì)較弱?!癕iniMax在實(shí)際測(cè)試中發(fā)現(xiàn)了問(wèn)題。

第三個(gè)困難是基建不完善?!癓inear Attention的訓(xùn)練是訪存bound,推理需要解決低精度存儲(chǔ)、Prefix Cache、投機(jī)解碼等問(wèn)題。”即使理論上linear attention更快,但實(shí)際工程中需要解決很多基礎(chǔ)設(shè)施問(wèn)題。訓(xùn)練時(shí)內(nèi)存帶寬成為瓶頸,推理時(shí)需要支持各種優(yōu)化技術(shù),這些都還沒(méi)有成熟的解決方案。

這篇博客的評(píng)論區(qū)也透露了一些重要信息。一位名為silicon的開(kāi)發(fā)者評(píng)論道:“我自己都開(kāi)發(fā)了近百種Transformer變體了,但‘驗(yàn)證新變體是否先進(jìn)’所花的時(shí)間遠(yuǎn)遠(yuǎn)大于開(kāi)發(fā)算法的時(shí)間”。Benchmark困境不只是MiniMax的問(wèn)題,而是整個(gè)行業(yè)的痛點(diǎn)。

另一個(gè)問(wèn)題是關(guān)于成本和時(shí)延的澄清。當(dāng)有網(wǎng)友問(wèn)“Agent場(chǎng)景下Full Attention會(huì)成為瓶頸嗎”時(shí),Haohai回答是:“GPU的進(jìn)步非???,對(duì)Full Attention來(lái)說(shuō)目前只有成本問(wèn)題,沒(méi)有時(shí)延問(wèn)題。”也就是說(shuō)核心矛盾不是速度慢,而是成本高。MiniMax的策略是等待GPU進(jìn)步解決成本問(wèn)題,同時(shí)通過(guò)工程優(yōu)化(如“高效的激活參數(shù)設(shè)計(jì)”)來(lái)平衡性能和成本。

月暗的“挑逗”和Kimi Linear的發(fā)布

Zhou Xinyu是月之暗面的研究員,也是MoBA(Mixture of Block Attention)論文的核心作者之一,他的“挑逗”背后藏著一個(gè)大招。10月30日晚,月之暗面發(fā)布了Kimi Linear,一個(gè)48B總參數(shù)、3B激活參數(shù)的MoE模型,訓(xùn)練數(shù)據(jù)達(dá)5.7T tokens,支持1M tokens的上下文長(zhǎng)度。模型權(quán)重、代碼和技術(shù)報(bào)告全部開(kāi)源。從M2發(fā)布到Kimi Linear發(fā)布,72小時(shí)。


Kimi Linear有三個(gè)值得注意的點(diǎn)。

第一個(gè)是Kimi Delta Attention (KDA)。KDA基于Gated DeltaNet,引入了fine-grained gating機(jī)制。具體來(lái)說(shuō),它從scalar gate(標(biāo)量門控)升級(jí)到channel-wise gate(通道級(jí)門控),讓每個(gè)特征維度都有獨(dú)立的遺忘因子。用人話說(shuō),就像給模型裝了更精細(xì)的"記憶開(kāi)關(guān)"。傳統(tǒng)的門控機(jī)制是一個(gè)總開(kāi)關(guān),要么全記住,要么全忘記。而KDA可以針對(duì)不同類型的信息分別控制記憶強(qiáng)度,比如對(duì)代碼語(yǔ)法記得牢一點(diǎn),對(duì)臨時(shí)變量忘得快一點(diǎn)。這個(gè)改進(jìn)帶來(lái)了顯著的性能提升,相比標(biāo)準(zhǔn)DPLR實(shí)現(xiàn),KDA的計(jì)算效率提升了約100%。

第二個(gè)是3:1的混合比例。Kimi Linear采用了Hybrid架構(gòu),將KDA(線性注意力)和MLA(Multi-head Latent Attention)混合使用。MLA是DeepSeek在V2/V3中使用的技術(shù),通過(guò)將注意力輸入壓縮成低維潛在向量,然后在需要計(jì)算注意力時(shí)映射回高維空間,顯著減少了內(nèi)存需求。關(guān)鍵問(wèn)題是混合的比例應(yīng)該是多少?Kimi團(tuán)隊(duì)通過(guò)系統(tǒng)性的ablation study找到了答案:3:1,也就是每3層KDA配1層MLA。

實(shí)驗(yàn)結(jié)果顯示,3:1是平衡性能和效率的最佳點(diǎn)。純MLA(0:1)的validation PPL是5.77,3:1是5.65,1:1是5.66,7:1是5.70,15:1是5.82。太多全注意力(1:1)浪費(fèi)資源,太少(7:1、15:1)影響性能。


Kimi Linear 模型架構(gòu)示意圖。該模型由一系列堆疊的模塊組成,每個(gè)模塊包含一個(gè) token 混合層(token mixing layer),其后接一個(gè) MoE 通道混合層(channel-mixing layer)。

第三個(gè)是No Position Encoding (NoPE)。Kimi Linear的MLA層不使用位置編碼(如RoPE),所有的位置信息完全由KDA層負(fù)責(zé)。這個(gè)設(shè)計(jì)帶來(lái)三個(gè)好處:推理效率更高(MLA可以轉(zhuǎn)換為更高效的MQA)、訓(xùn)練更簡(jiǎn)單(避免了RoPE參數(shù)調(diào)整)、長(zhǎng)上下文泛化更好。

Kimi Linear的性能數(shù)據(jù)很亮眼。技術(shù)報(bào)告顯示,Kimi Linear"顯著減少了高達(dá)75%的KV cache需求",這意味著內(nèi)存占用降低4倍,直接降低了部署成本。在1M tokens的長(zhǎng)上下文場(chǎng)景中,Kimi Linear的解碼吞吐量比MLA(全注意力)快6.3倍。具體數(shù)據(jù)是TPOT(Time Per Output Token)從11.48ms降到1.84ms。

在RULER基準(zhǔn)測(cè)試(128k context)上,Kimi Linear達(dá)到84.3的性能,同時(shí)速度是MLA的3.98倍。技術(shù)報(bào)告稱這是"Pareto-optimal",性能和速度都是最優(yōu),沒(méi)有trade-off。


Kimi團(tuán)隊(duì)用1.4T tokens的訓(xùn)練驗(yàn)證了scaling law。MLA的Loss是2.3092 × C^(-0.0536),Kimi Linear是2.2879 × C^(-0.0527)。技術(shù)報(bào)告總結(jié):“Kimi Linear achieves ~ 1.16× computational efficiency”。大規(guī)模訓(xùn)練中,Kimi Linear仍然優(yōu)于Full Attention。

為了驗(yàn)證理論正確性,Kimi團(tuán)隊(duì)在三個(gè)合成任務(wù)上測(cè)試了KDA:Palindrome(回文任務(wù))、MQAR(多查詢關(guān)聯(lián)回憶)、Stack(棧追蹤)。KDA在所有任務(wù)上都達(dá)到100%準(zhǔn)確率,而GDN和Mamba2在長(zhǎng)序列上失敗。這些任務(wù)測(cè)試的正是復(fù)雜多跳推理能力。

這也是Linear attention首次在公平對(duì)比下全面超越Full Attention。不是特定任務(wù),而是"across various scenarios"(各種場(chǎng)景),包括short-context、long-context、RL scaling。

Kimi Linear的工程化成熟度還體現(xiàn)在vLLM集成上。vLLM是UC Berkeley開(kāi)發(fā)的開(kāi)源LLM推理框架,是全球最主流的推理引擎之一。Kimi Delta Attention(KDA)算子已被vLLM官方整合進(jìn)主代碼庫(kù)。這意味著vLLM用戶只要升級(jí)到最新版本,就可以直接使用Kimi的注意力實(shí)現(xiàn)。

MiniMax向左,Kimi向右

MiniMax和Kimi的選擇,代表了兩種不同的技術(shù)路線。整個(gè)行業(yè)也都在探索,DeepSeek用MLA 改造/壓縮KV-cache,Mistral引入滑動(dòng)窗口稀疏模式,OpenAI與Anthropic的具體注意力實(shí)現(xiàn)未公開(kāi),業(yè)內(nèi)普遍認(rèn)為其以Full Attention的工程化加速為主。

不同選擇反映了效率與性能的不同權(quán)衡。MiniMax選擇Full Attention,核心邏輯是等待GPU進(jìn)步解決成本問(wèn)題,同時(shí)通過(guò)工程優(yōu)化來(lái)平衡性能和成本。Full Attention是經(jīng)過(guò)多年驗(yàn)證的技術(shù),不需要擔(dān)心在某些場(chǎng)景下的隱藏弱點(diǎn)。

Kimi選擇KDA + MLA,核心邏輯是主動(dòng)優(yōu)化架構(gòu)降低成本,系統(tǒng)性解決工程化問(wèn)題。這種選擇的優(yōu)勢(shì)是效率更高、成本更低、長(zhǎng)期可能競(jìng)爭(zhēng)力更強(qiáng),但也面臨更大的工程挑戰(zhàn),需要在多個(gè)場(chǎng)景下驗(yàn)證穩(wěn)定性。Kimi Linear的發(fā)布證明,至少在月之暗面的技術(shù)體系中,他們找到了可能的解決方案。

兩種選擇都有其合理性。MiniMax的策略是時(shí)間換空間,賭GPU進(jìn)步會(huì)解決成本問(wèn)題。Kimi的策略是空間換時(shí)間,通過(guò)技術(shù)創(chuàng)新主動(dòng)降低成本。哪種路線更好?目前還沒(méi)有定論。

不過(guò),這種不同路線的探索和公開(kāi)的技術(shù)討論,對(duì)整個(gè)行業(yè)都是一件好事。它讓外界看到了大模型技術(shù)演進(jìn)的真實(shí)圖景,沒(méi)有正確答案,而是多條路徑的并行探索。MiniMax和Kimi的坦誠(chéng)和創(chuàng)新,都在推動(dòng)行業(yè)進(jìn)步。

但在技術(shù)探討之外,兩家公司在實(shí)際層面的競(jìng)爭(zhēng)也不容忽視。月之暗面和MiniMax都定位于中國(guó)頭部通用大模型,在長(zhǎng)上下文、代碼/Agent、開(kāi)源推理生態(tài)等方面同場(chǎng)競(jìng)跑。技術(shù)路線的選擇不僅關(guān)乎技術(shù)本身,也關(guān)乎資本市場(chǎng)的認(rèn)可和長(zhǎng)期競(jìng)爭(zhēng)力。

這是Full Attention和Efficient Attention兩種技術(shù)路線的較量,也是MiniMax和Kimi兩家公司的角力,兩件事情都會(huì)持續(xù)下去。這場(chǎng)關(guān)于Attention機(jī)制的技術(shù)之爭(zhēng),本身也成了一場(chǎng)“注意力之爭(zhēng)”

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一場(chǎng)2-0,踢出瘋狂8連勝,孔帕尼神了:目標(biāo)直指三冠王

一場(chǎng)2-0,踢出瘋狂8連勝,孔帕尼神了:目標(biāo)直指三冠王

足球狗說(shuō)
2026-04-23 05:09:13
藏在成都的5家“國(guó)寶級(jí)”中醫(yī)院!每一家都有看家本領(lǐng),快收藏

藏在成都的5家“國(guó)寶級(jí)”中醫(yī)院!每一家都有看家本領(lǐng),快收藏

荷蘭豆愛(ài)健康
2026-04-22 19:18:04
一個(gè)消息震動(dòng)中東,阿聯(lián)酋突然爆出大數(shù)字,美以這下捅了馬蜂窩

一個(gè)消息震動(dòng)中東,阿聯(lián)酋突然爆出大數(shù)字,美以這下捅了馬蜂窩

流史歲月
2026-04-22 10:18:10
特朗普想逼伊朗簽協(xié)議,伊方“全球通緝犯”總司令硬剛,直接打臉

特朗普想逼伊朗簽協(xié)議,伊方“全球通緝犯”總司令硬剛,直接打臉

琨玉秋霜
2026-04-23 03:04:47
“磨膝大戶”被公布,是跑步的20倍,醫(yī)生:不想軟骨磨光,早扔掉

“磨膝大戶”被公布,是跑步的20倍,醫(yī)生:不想軟骨磨光,早扔掉

垚垚分享健康
2026-04-19 14:35:09
喜歡吊帶裙:不是因?yàn)樯聿?,是因?yàn)樽杂?>
    </a>
        <h3>
      <a href=疾跑的小蝸牛
2026-04-22 22:13:19
南通百億超級(jí)工程,官宣!

南通百億超級(jí)工程,官宣!

南通樓市說(shuō)說(shuō)
2026-04-22 14:05:02
3艘俄軍艦被炸沉!局勢(shì)觸及核紅線,美方:俄羅斯或動(dòng)用核武器!

3艘俄軍艦被炸沉!局勢(shì)觸及核紅線,美方:俄羅斯或動(dòng)用核武器!

小嵩
2026-04-23 05:11:23
“被忽視”的豪華SUV,從21.98萬(wàn)一口氣降到12萬(wàn)多,可惜無(wú)人識(shí)貨

“被忽視”的豪華SUV,從21.98萬(wàn)一口氣降到12萬(wàn)多,可惜無(wú)人識(shí)貨

隔壁說(shuō)車?yán)贤?/span>
2026-04-22 08:14:09
鄧文迪近照大變樣,成歐美最流行的海湖莊園臉,57像37看著好年輕

鄧文迪近照大變樣,成歐美最流行的海湖莊園臉,57像37看著好年輕

小娛樂(lè)悠悠
2026-04-22 09:50:39
山西忻州市公務(wù)員局發(fā)布情況說(shuō)明:考生楊某媛(女)為山西忻州籍,與自媒體貼文中所分析的楊某媛并非同一人

山西忻州市公務(wù)員局發(fā)布情況說(shuō)明:考生楊某媛(女)為山西忻州籍,與自媒體貼文中所分析的楊某媛并非同一人

揚(yáng)子晚報(bào)
2026-04-22 17:03:42
中超第7輪結(jié)束:大連英博5連勝!上海申花7場(chǎng)不??!

中超第7輪結(jié)束:大連英博5連勝!上海申花7場(chǎng)不?。?/a>

順靜自然
2026-04-23 01:03:32
泄露“刺殺伊朗新最高領(lǐng)袖穆杰塔巴”計(jì)劃,美核武安全主管被查!巴西總統(tǒng):趕緊給特朗普頒個(gè)獎(jiǎng),就不會(huì)再有戰(zhàn)爭(zhēng)了

泄露“刺殺伊朗新最高領(lǐng)袖穆杰塔巴”計(jì)劃,美核武安全主管被查!巴西總統(tǒng):趕緊給特朗普頒個(gè)獎(jiǎng),就不會(huì)再有戰(zhàn)爭(zhēng)了

每日經(jīng)濟(jì)新聞
2026-04-22 17:50:53
外交部:日本涉靖國(guó)神社一系列消極動(dòng)向公然挑釁國(guó)際正義,粗暴踐踏人類良知

外交部:日本涉靖國(guó)神社一系列消極動(dòng)向公然挑釁國(guó)際正義,粗暴踐踏人類良知

每日經(jīng)濟(jì)新聞
2026-04-23 00:04:36
長(zhǎng)盈精密:公司位于深圳市寶安區(qū)燕羅街道的機(jī)器人智能制造產(chǎn)業(yè)園已經(jīng)投入使用

長(zhǎng)盈精密:公司位于深圳市寶安區(qū)燕羅街道的機(jī)器人智能制造產(chǎn)業(yè)園已經(jīng)投入使用

每日經(jīng)濟(jì)新聞
2026-04-22 16:15:09
美公布第二款六代機(jī)!網(wǎng)友喊話:中國(guó)七代機(jī)發(fā)動(dòng)機(jī)都搞出來(lái)了

美公布第二款六代機(jī)!網(wǎng)友喊話:中國(guó)七代機(jī)發(fā)動(dòng)機(jī)都搞出來(lái)了

春序娛樂(lè)
2026-04-23 00:52:42
國(guó)務(wù)院國(guó)資委回復(fù):國(guó)有企業(yè)與子公司之間是否可以進(jìn)行實(shí)物資產(chǎn)的無(wú)償劃轉(zhuǎn)?

國(guó)務(wù)院國(guó)資委回復(fù):國(guó)有企業(yè)與子公司之間是否可以進(jìn)行實(shí)物資產(chǎn)的無(wú)償劃轉(zhuǎn)?

審計(jì)之家
2026-04-22 09:34:42
晚年兩性關(guān)系真相!79歲奶奶直言:男人過(guò)了75,只剩這兩個(gè)好處

晚年兩性關(guān)系真相!79歲奶奶直言:男人過(guò)了75,只剩這兩個(gè)好處

皓皓情感說(shuō)
2026-04-22 08:19:04
黑龍江省綏化市人大常委會(huì)原黨組書記李元學(xué)被雙開(kāi)

黑龍江省綏化市人大常委會(huì)原黨組書記李元學(xué)被雙開(kāi)

界面新聞
2026-04-22 11:00:00
一日西甲動(dòng)向:皇馬2-1勝拿下三分,巴薩在追逐米蘭雙雄主力選手

一日西甲動(dòng)向:皇馬2-1勝拿下三分,巴薩在追逐米蘭雙雄主力選手

里芃芃體育
2026-04-23 05:00:03
2026-04-23 05:59:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進(jìn)入GenAl。
272文章數(shù) 37關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒(méi)有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

伊朗議長(zhǎng):不可能重新開(kāi)放霍爾木茲海峽

頭條要聞

伊朗議長(zhǎng):不可能重新開(kāi)放霍爾木茲海峽

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂(lè)要聞

蜜雪冰城泰國(guó)代言人 被扒出辱華黑歷史

財(cái)經(jīng)要聞

醫(yī)院專家號(hào)"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

態(tài)度原創(chuàng)

親子
游戲
教育
時(shí)尚
公開(kāi)課

親子要聞

兼顧專業(yè)哺喂與綠色環(huán)保,貝親發(fā)布自然實(shí)感凈澈系列奶瓶

曝次世代Xbox主機(jī)性能炸裂!是PS6兩倍 將顛覆市場(chǎng)

教育要聞

脫不花和張泉靈的對(duì)談很適合家長(zhǎng)聽(tīng)

用了8年還心動(dòng),這筆錢是花得真值啊

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版