国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

小米給KV Cache減負80%!MiMo團隊推出混合稀疏注意力架構

0
分享至

小米Mimo大模型團隊投稿
量子位 | 公眾號 QbitAI

小米MiMo大模型團隊,加入AI拜年戰(zhàn)場——

推出HySparse,一種面向Agent時代的混合稀疏注意力架構

HySparse創(chuàng)新使用極少的全注意力(Full Attention)層提供“token選擇+KV Cache”,其余稀疏注意力(Sparse Attention)層直接復用這些信息,實現(xiàn)高效精準的長上下文建模。

在總共49層的80B-A3BMoE模型實驗中,僅保留5層Full Attention仍能保持甚至提升模型能力,同時顯著降低KVCache存儲與計算開銷,實現(xiàn)效果與效率的兼顧,展示出混合稀疏注意力在超長上下文建模中的巨大潛力。



HySparse的設計靈感來源于學術界已有研究工作的經驗和觀察之上。

一部分是顯著token在相鄰層之間相對穩(wěn)定。

已有工作如TidalDecode等,觀察到連續(xù)層的 “重要 token” 會高度重合,因此可以在某層識別重要token并在后續(xù)層復用。

HySparse將這一觀察提升用于模型結構設計并直接訓練。

還有部分受啟發(fā)于跨層KV Cache共享能顯著省顯存且不顯著傷性能,YOCO、Gemma3n等架構層面工作已經證明了跨層共享KV的可行性。

HySparse將共享直接落在“Full Attention層 → 其后Sparse Attention層” 的hybrid block內共享上。

背景:Sparse Attention的 “兩朵烏云”

多數(shù)Sparse Attention方法都遵循同一基本范式:先選擇,再計算。

在真正計算注意力之前,先用一個“選擇器” 決定哪些重要token是值得注意的,只在這些位置上進行注意力計算。

這一范式降低了計算量,但始終繞不開兩個根本問題。

一個問題是重要 Token 的選擇依賴代理(Proxy)

Sparse Attention的核心在于 “選哪些重要token”。

但現(xiàn)實中,這一選擇往往依賴proxy信號:固定模式、啟發(fā)式規(guī)則、近似估計,或額外的輕量化選擇模塊。

這些proxy本質上都是對真實注意力分布的近似,無法保證能完全精準地識別最重要的token;在長上下文、持續(xù)生成的場景下,這種近似誤差還會不可避免地累積。

即便是可訓練的Sparse Attention方法,往往也只是將人工設計的選擇規(guī)則替換為可學習的輕量化選擇代理模塊,通過訓練來對齊選擇行為。

這在一定程度上緩解了選擇誤差,但同時顯著增加了訓練復雜度,難以從根本上擺脫這一“代理瓶頸”。

第二個問題是計算量降低,但KV Cache存儲未減

目前,主流的動態(tài)Sparse Attention注意力方法主要減少的是計算開銷。

這類做法不再對所有token執(zhí)行注意力計算;但為了避免在生成過程中不可逆地錯誤丟棄KV Cache(因為token的重要性會隨生成動態(tài)變化),推理階段通常仍需保留全量KV Cache。

帶來的結果就是計算量確實下降了,但顯存與帶寬這一主要瓶頸依然存在。

HySparse:把 “選擇” 和 “緩存”交給Full Attention

HySparse做的事是把 “選擇” 和 “緩存” 這兩件對Sparse Attention來說最難的事,交給Full Attention來做

為此,HySparse采用hybrid block結構。

每個hybrid block由1層Full Attention+N層Sparse Attention組成。

Hybrid block內部的Sparse Attention層并不再獨立做token選擇和維護全量KV,而是直接復用前置Full Attention層產生的重要token索引和 KV Cache。

這背后的動機是Full Attention在完成自身計算的同時,已經生成了KV Cache,并且計算出了最準確的token重要性信息,自然可以供后續(xù)N個Sparse Attention層直接復用。



這一設計表面上非常簡潔,卻巧妙地同時解決了上述 Sparse Attention 的兩大核心問題,

  • 選擇不再依賴proxy;
  • Sparse層不引入額外KV Cache開銷。

同時,HySparse稀疏層不是單一路徑,稀疏層內部也做了一次 “全局稀疏 + 局部窗口” 的混合結構。

HySparse 的每一層 Sparse Attention 包含兩條分支:

  • 塊級稀疏注意力分支(全局):在TopK索引對應的共享KV Cache上進行全局Sparse Attention計算;
  • 滑動窗口注意力分支(局部):維護一個很小的本地窗口KV Cache(默認窗口大小為128)以保證局部建模能力。

兩分支輸出通過輕量門控(sigmoid gate)進行融合。

直觀地看,HySparse并不是用Sparse Attention取代Full Attention ,而是將全局信息通路拆解為 “少量昂貴但可靠的全注意力”+“多次廉價而高效的全局稀疏檢索與局部建模”。

實驗結果:整體更優(yōu)

為了驗證HySparse的有效性,研究團隊將其與兩類主流架構進行對比:

  • Full-Attn:所有層均為Full Attention;
  • Hybrid SWA:按比例混合Full Attention和Sliding Window Attention;
  • HySparse:采用與Hybrid SWA相同的Full Attention比例,但將滑動窗口層升級為“全局稀疏 + 局部窗口”的Sparse Attention。

研究人員分別在7B的Dense模型和80B的MoE模型上進行了實驗。

結果顯示,7B模型共有36層,其中9層是Full Attention;80B MoE模型共有49層,只有5層是Full Attention,這為HySparse帶來了接近10×的KV Cache存儲降低。

在多項通用、數(shù)學、代碼和中文評測中,HySparse在7B Dense和80B MoE兩種規(guī)模均帶來穩(wěn)定提升。

特別是在80B MoE的激進混合比例下,HySparse通過全局稀疏檢索通路有效保持長距離信息訪問,維持了全局推理能力,還在部分任務上超越了全注意力基線,充分體現(xiàn)了全局稀疏通路的重要作用。



RULER長文測試表明,HySparse即便將Full Attention層壓到極少,也能穩(wěn)定保持長距離關鍵信息訪問,充分展現(xiàn)了其混合稀疏結構的優(yōu)勢。



小米MiMo表示,計劃在更大規(guī)模模型上進一步驗證HySparse的極限和潛力,并持續(xù)探索降低Full Attention層數(shù)量的可能性,讓超長上下文更高效。

arXiv鏈接:
https://arxiv.org/abs/2602.03560

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
庫爾圖瓦:穆里尼奧就是穆里尼奧,教練總得維護自己的俱樂部

庫爾圖瓦:穆里尼奧就是穆里尼奧,教練總得維護自己的俱樂部

懂球帝
2026-02-24 22:05:07
問界M6正式登陸華為商城,開放預約!無儀表+雙激光雷達

問界M6正式登陸華為商城,開放預約!無儀表+雙激光雷達

小南看車
2026-02-24 14:32:39
不好的征兆!美軍又在吃出征宴了!龍蝦、蟹腿、牛排隨便挑著吃!

不好的征兆!美軍又在吃出征宴了!龍蝦、蟹腿、牛排隨便挑著吃!

我心縱橫天地間
2026-02-23 13:20:50
美稱中國一人工智能企業(yè)違反美出口管制,外交部:中方已多次表明原則立場

美稱中國一人工智能企業(yè)違反美出口管制,外交部:中方已多次表明原則立場

澎湃新聞
2026-02-24 15:34:26
這3條規(guī)劃高鐵開工遙遙無期,卻已搶破頭!

這3條規(guī)劃高鐵開工遙遙無期,卻已搶破頭!

鐵路叨叨嘴
2026-02-25 00:10:42
存款100萬后,請立刻放下這三個習慣。

存款100萬后,請立刻放下這三個習慣。

流蘇晚晴
2026-02-24 18:54:06
海外上映口碑爆棚,《鏢人》讓外媒直接用了“wuxia”這個詞

海外上映口碑爆棚,《鏢人》讓外媒直接用了“wuxia”這個詞

揚子晚報
2026-02-23 22:10:35
中央定調,延遲退休后,62歲退休,比60歲退休的多領10%養(yǎng)老金?

中央定調,延遲退休后,62歲退休,比60歲退休的多領10%養(yǎng)老金?

另子維愛讀史
2026-02-17 19:02:27
今年春節(jié)檔平均票價47.8元,為近6年最低;《鏢人》成春節(jié)檔唯一實現(xiàn)票房連續(xù)逆跌的影片,首日票房僅第4,第四日升至第2,檔期總票房為第3

今年春節(jié)檔平均票價47.8元,為近6年最低;《鏢人》成春節(jié)檔唯一實現(xiàn)票房連續(xù)逆跌的影片,首日票房僅第4,第四日升至第2,檔期總票房為第3

北青網-北京青年報
2026-02-24 17:08:09
天天喝一杯,除了上癮還會讓你焦慮和抑郁,愛喝的人要避免了

天天喝一杯,除了上癮還會讓你焦慮和抑郁,愛喝的人要避免了

爆炸營養(yǎng)彭鑫蕊
2026-02-24 16:42:48
阿嬌的瓜又炸了,聊天記錄曝光,顛覆想象

阿嬌的瓜又炸了,聊天記錄曝光,顛覆想象

聽風聽你
2024-12-25 22:41:20
美國被曝已決定對伊朗發(fā)動軍事打擊,預計23日或24日

美國被曝已決定對伊朗發(fā)動軍事打擊,預計23日或24日

每日經濟新聞
2026-02-23 14:21:22
WTT新加坡大滿貫:男單16強決出8席!中韓法各2人,韓乒一哥逆轉

WTT新加坡大滿貫:男單16強決出8席!中韓法各2人,韓乒一哥逆轉

全言作品
2026-02-24 22:04:35
顛覆三觀!脫口秀女演員消費亡父,地獄笑話的底線,被她踩得稀碎

顛覆三觀!脫口秀女演員消費亡父,地獄笑話的底線,被她踩得稀碎

戧詞奪理
2026-02-23 15:35:40
開工第一天,廣東開工利是把成年人的體面,藏在最實在的煙火氣里

開工第一天,廣東開工利是把成年人的體面,藏在最實在的煙火氣里

我不叫阿哏
2026-02-24 19:02:06
濃眉:真正的冠軍球隊,是沒有任何東西能動搖其決心的

濃眉:真正的冠軍球隊,是沒有任何東西能動搖其決心的

懂球帝
2026-02-25 01:26:05
為什么同一碗面,國外吃的是肉,我們吃的是調味料

為什么同一碗面,國外吃的是肉,我們吃的是調味料

富貴說
2026-02-22 20:52:00
易夢玲一雙金燦燦的大燈,明艷晃眼

易夢玲一雙金燦燦的大燈,明艷晃眼

吃瓜黨二號頭目
2026-02-13 08:13:30
90后男生上門喂貓,春節(jié)前后20多天賺16萬,最多1天跑55單只睡3小時,律師提醒:上門喂貓需提前明確責任

90后男生上門喂貓,春節(jié)前后20多天賺16萬,最多1天跑55單只睡3小時,律師提醒:上門喂貓需提前明確責任

瀟湘晨報
2026-02-18 16:28:53
烏軍反攻,俄軍多條戰(zhàn)線潰不成軍

烏軍反攻,俄軍多條戰(zhàn)線潰不成軍

知兵
2026-02-25 00:28:43
2026-02-25 03:47:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12196文章數(shù) 176392關注度
往期回顧 全部

科技要聞

宇樹科技發(fā)布四足機器人Unitree As2

頭條要聞

男子摟住繼女強吻動作親密 當?shù)貗D聯(lián)介入

頭條要聞

男子摟住繼女強吻動作親密 當?shù)貗D聯(lián)介入

體育要聞

蘇翊鳴總結米蘭征程:我仍是那個熱愛單板滑雪的少年

娛樂要聞

汪小菲官宣三胎出生:承諾會照顧好3個孩子

財經要聞

縣城消費「限時繁榮」了十天

汽車要聞

入門即滿配 威蘭達AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

本地
家居
手機
游戲
軍事航空

本地新聞

春花齊放2026:《駿馬奔騰迎新歲》

家居要聞

本真棲居 愛暖伴流年

手機要聞

蘋果發(fā)布iOS 26.4 Beta 2系統(tǒng)更新,液態(tài)玻璃設計有新變化!

LOL傳奇選手公布戀情!發(fā)博曬照被夸夫妻相,女方身份曝光

軍事要聞

美軍參聯(lián)會主席警告:對伊朗動武可能帶來重大風險

無障礙瀏覽 進入關懷版