国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

中科大華為諾亞TAPPA:時序視角的統(tǒng)一解釋框架

0
分享至



本論文的第一作者楊慶越是中國科學技術大學 2021 級碩博連讀生,師從王杰教授,主要研究方向為大模型推理加速與高效推理系統(tǒng)。她曾在 NeurIPS、ICLR 等頂級會議發(fā)表論文 3 篇,獲華為優(yōu)秀實習生等榮譽。本工作完成于其在華為諾亞方舟實驗室科研實習期間,與中國科學技術大學 MIRA Lab 和華為團隊合作完成。

近日,中科大王杰教授團隊(MIRA Lab)和華為諾亞方舟實驗室(Huawei Noah's Ark Lab)聯(lián)合提出了大模型注意力模式的統(tǒng)一分析框架 TAPPA,從時間序列視角統(tǒng)一解釋自回歸推理過程中多類注意力模式的形成機制,并提出訓練無關的 q-similarity 指標,將理論分析轉化為可應用的推理優(yōu)化信號,在 KV 緩存壓縮與結構化剪枝中實現更合理的資源分配與穩(wěn)定的精度增益。

論文發(fā)表在人工智能頂級會議 International Conference on Learning Representations(ICLR 2026)。



  • 論文:Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis
  • 論文地址:https://arxiv.org/abs/2601.21709
  • 代碼:github.com/MIRALab-USTC/LLM-TAPPA
  • 相關工作: AttentionPredictor (NeruIPS 2025) https://arxiv.org/abs/2502.04077

注意力模式可以幫助理解和優(yōu)化大模型

在大模型的自回歸推理中,每一個頭都會產生一個注意力分數矩陣。將它畫成熱力圖后,常能看到一些重復出現的幾何形狀。最常見的例子包括檢索式注意力頭 (retrieval head),它會在很長的上下文里跳躍地尋找少數相關 token;sink 注意力頭,它會在很長一段時間內持續(xù)聚焦到序列開頭的少數位置;以及對角線型軌跡 (streaming head),它會沿著最近 token 附近形成穩(wěn)定的局部帶狀結構。這些現象被統(tǒng)稱為注意力模式(attention pattern)。

這些 pattern 對應了模型在推理時不同的功能分工,例如在長上下文中進行檢索,維持開頭錨點,或者以流式方式持續(xù)讀取最新信息。并且 pattern 的結構性可以被用作推理優(yōu)化的信號,例如在 KV Cache 優(yōu)化中指導保留重要的歷史 token。因此,研究 pattern 的行為和出現原因對于探究大模型行為邏輯和優(yōu)化大模型效率非常重要。然而,已有研究往往只描述某一種現象或某一類頭的行為,缺少統(tǒng)一的因果解釋與可遷移的分析框架,因此這些信號也常以經驗規(guī)則的形式出現。

從時序視角發(fā)現和揭秘注意力模式

我們先前工作AttentionPredictor [1] 從時間序列視角邁出了關鍵一步。它將解碼過程看作注意力隨時間演化的序列,從而以時序視角出發(fā)觀察 pattern,歸納出了注意力在解碼過程中重復的時序結構,例如重復訪問,順序訪問與周期性訪問;谶@一觀察,AttentionPredictor 把每一步的注意力視為一個隨時間演化的序列,并訓練輕量預測器去預測下一步注意力分布。預測結果可直接服務于 KV Cache 的保留與淘汰。

本工作TAPPA[2] 延續(xù)并推進了這一條邏輯鏈,試圖回答更根本的問題:這些 pattern 為什么會出現?在完全相同的注意力公式下,為什么不同 head 會呈現清晰的對角線、反復聚焦,或看似隨機的檢索式掃描?TAPPA 的目標是給出統(tǒng)一解釋,并把解釋轉化為實用的推理優(yōu)化信號。



圖 1:TAPPA 總覽。左側是理論視角,右側展示用 q-similarity 指導 KV 緩存壓縮與結構化剪枝的效果。

TAPPA:Q、K 和 RoPE 聯(lián)合分析


TAPPA 采用時間視角審視自回歸推理。自回歸生成每一步的新 token 都建立在此前已生成序列之上,因此跨步的 hidden state 與注意力分布天然構成一段時間序列。為了把這種變化拆解到可分析的來源,TAPPA 從注意力計算的內積結構出發(fā):



在第 t 步解碼時,歷史 key 基本固定,注意力分布的主要變化來源于 query 的演化。于是,理解 pattern 的第一步是把 query 序列作為時間序列來研究,并分析 query 的時間連續(xù)性如何映射到注意力分布的連續(xù)性。

進一步地,即便 query 的變化規(guī)律已知,注意力熱力圖呈現為哪一種幾何形狀還取決于兩類結構性因素。其一是Q 與 K 的幾何關系如何在跨步傳播,尤其是 Q 與 K 各自的時間連續(xù)性是否能夠在內積中被保留。其二是RoPE 如何在不同頻率通道上對相對位移施加相位調制。已有研究發(fā)現,在注意力內積中,少數 embedding 通道可能占主導并決定注意力形狀。因此我們提出了 TAPPA(時序注意力模式分析框架),將 Q,K 與 RoPE 聯(lián)合分析,一方面解釋 pattern 的跨步演化來自 query 的時間連續(xù)性,另一方面解釋具體幾何形態(tài)由主導通道與 RoPE 的通道響應共同塑造。

核心發(fā)現:穩(wěn)定模式與隨機模式的來源區(qū)別

基于上述分析視角,TAPPA 首先關注一個更基礎的問題:哪些注意力頭更可能產生穩(wěn)定且可復現的幾何結構,哪些注意力頭更可能呈現難以預測的檢索式分散結構。為此,TAPPA 把注意力模式歸為穩(wěn)定模式 (predictable) 與隨機模式 (unpredictable) 兩類。穩(wěn)定模式在時間軸上具有更強的連續(xù)性,跨步變化呈現清晰規(guī)律。隨機模式缺乏穩(wěn)定規(guī)律,常表現為跨步跳躍的檢索式掃描。

TAPPA 的關鍵結論是,穩(wěn)定模式與隨機模式的分界與 query 的時間連續(xù)性緊密相關。為刻畫這種連續(xù)性,論文使用 q-similarity 指標,用于衡量相鄰或近鄰步驟中 query 的自相似程度。直觀上看,高 q-similarity 表示 query 在時間軸上變化更平滑,注意力更容易沿時間保持穩(wěn)定結構;而低 q-similarity 表示 query 變化更劇烈,注意力更可能轉向分散且難預測的檢索式形態(tài)。



圖 2:TAPPA 用統(tǒng)一的形成條件解釋多類稀疏注意力模式,并把 q-similarity 作為是否可預測的因素。



圖 3:高與低 q-similarity 對應的注意力圖示例。高相似性更容易形成穩(wěn)定結構,低相似性更接近檢索式分布。

穩(wěn)定模式內部:Q、K 連續(xù)性與 RoPE 如何塑造幾何形態(tài)

在穩(wěn)定模式內,論文進一步給出三類代表性形狀的形成條件,它們來自 Q、K 的連續(xù)性與 RoPE 的共同作用。以順序訪問為例,順序對角線并非只依賴 RoPE 的高頻通道,而需要 Q 與 K 同時具有較高自相似性,從而使注意力沿時間穩(wěn)定地 “滑動”(如圖 4)。



圖 4:順序型對角線與 Q、K 自相似性的關系示例。高 Q 相似性與高 K 相似性共同推動順序模式形成。

周期性斜線的等間隔現象同樣來自 Q、K 連續(xù)性與 RoPE 的耦合:RoPE 會對不同相對位移引入通道級的相位調制,使得 Q 與 K 的匹配在特定步長處出現相位回歸,從而觸發(fā)注意力峰值以固定間隔重復出現。當 Q、K 的連續(xù)性使有效能量集中到少數主導通道時,主導通道的旋轉周期便決定了多條平行斜線之間的間隔,即:



舉例如圖 5 所示,首先,通過 Key 維度的幅值剖面可以觀察到低頻 RoPE 通道在該注意力頭占主導(圖 5 (a)),此時注意力主要集中在主對角線附近,表現為典型的順序型模式(圖 5 (b))。當主導通道被人為調整到更高頻率(m = 2 或 m = 5)時,注意力不再局限于單一主對角線,而是出現周期性的平行對角線(圖 5 (c)(d)),且頻率越高 (m 越小),斜線周期越小。



圖 5: RoPE 配置如何塑造注意力模式。(a) Key 維度的幅值剖面顯示某一 RoPE 通道占主導(示例為 m = 124)。(b) 在該主導通道下,注意力矩陣呈現近似單一主對角線的順序型模式。(c)(d) 將主導通道切換到更高頻率(m = 2 與 m = 5)后,注意力矩陣中出現周期性的平行對角線結構,且周期與頻率相關。

把理解轉化為優(yōu)化:q-similarity 指導壓縮與剪枝

TAPPA 將 q-similarity 作為代理信號,應用到 KV Cache 壓縮和模型結構化剪枝兩個推理優(yōu)化場景。

  • KV Cache 壓縮:q-similarity 用于 per-layer 預算分配。低 q-similarity 的層更可能承載檢索式注意力,需要更大緩存預算以保留關鍵 token;高 q-similarity 的層更穩(wěn)定,可在更小預算下維持精度。實驗證明,在 LongBench 數據集的多種預算設置下,我們方法的表現穩(wěn)定優(yōu)于 Expected Attention [1] 等基線。



圖 6 我們方法相比 Expected Attention 的準確率提升。

  • 結構化剪枝:q-similarity 與 ShortGPT [2] 的 Block Influence 結合,形成更可靠的層重要性評分。實驗證明,TAPPA 在多個模型與剪枝比例下均獲得提升,其中在 LLaMA-3.1-8B、28% 剪枝比例時,四個任務的平均準確率提升了 5.6%。



表 1:TAPPA 與 ShortGPT 在相同剪枝比例下的任務準確率比較。

[1] Yang, Qingyue, et al. Attentionpredictor: Temporal patterns matter for kv cache compression. The Thirty-ninth Annual Conference on Neural Information Processing Systems.

[2] Yang, Qingyue, et al. Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis. arXiv arXiv:2601.21709, 2026.

[3] Devoto et al. Expected Attention: KV Cache Compression by Estimating Attention from Future Queries Distribution. arXiv:2510.00636, 2025.

[4] Men et al. ShortGPT: Layers in Large Language Models are More Redundant Than You Expect. arXiv:2403.03853, 2024.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
全面開戰(zhàn)!戰(zhàn)爭,燒到家門口了!

全面開戰(zhàn)!戰(zhàn)爭,燒到家門口了!

大嘴說天下
2026-02-27 22:41:48
上海為何越來越北方化?

上海為何越來越北方化?

虔青
2026-02-26 11:40:25
這三省擬任14名省管干部,其中4位“80”后

這三省擬任14名省管干部,其中4位“80”后

上觀新聞
2026-02-28 08:45:10
VIVO從印度成功轉走7000億?大批外資企業(yè)撤離,莫迪已嘗到苦果?

VIVO從印度成功轉走7000億?大批外資企業(yè)撤離,莫迪已嘗到苦果?

顧史
2026-02-23 23:29:51
陳百強自殺真相曝光!王晶揭穿32年豪門謊言:他根本不是為情所困

陳百強自殺真相曝光!王晶揭穿32年豪門謊言:他根本不是為情所困

小徐講八卦
2026-02-25 15:49:57
臉在江山在?事實證明,失去黃曉明的楊穎,又回到了她的“怪圈”

臉在江山在?事實證明,失去黃曉明的楊穎,又回到了她的“怪圈”

觀察鑒娛
2026-02-28 10:07:44
周冬雨大方承認在戀愛綜藝中,曾對余文樂非常走心,轉眼已是10年

周冬雨大方承認在戀愛綜藝中,曾對余文樂非常走心,轉眼已是10年

手工制作阿殲
2026-02-28 03:46:52
長餐桌已經退出中國家庭,學浙江人的做法,很多人都開始紛紛效仿

長餐桌已經退出中國家庭,學浙江人的做法,很多人都開始紛紛效仿

室內設計師有料兒
2026-02-27 20:49:11
你最爽的經歷是什么?網友:約過一個比我大好幾歲的姐姐

你最爽的經歷是什么?網友:約過一個比我大好幾歲的姐姐

帶你感受人間冷暖
2026-02-16 01:10:39
瘋了!利物浦準備砸 1.4 億再破紀錄,強攻世界頂級中場

瘋了!利物浦準備砸 1.4 億再破紀錄,強攻世界頂級中場

奶蓋熊本熊
2026-02-28 04:22:22
一個日本兵的親訴:蘇軍進攻關東軍時,我看見人間地獄的真實模樣

一個日本兵的親訴:蘇軍進攻關東軍時,我看見人間地獄的真實模樣

比利
2026-02-27 21:25:57
澳門的賭臺,大面積關停!不是沒人去,而是被“算法”割廢的?

澳門的賭臺,大面積關停!不是沒人去,而是被“算法”割廢的?

水泥土的搞笑
2026-02-27 17:09:36
驚爆,絕殺被漏判!當家球星信心全無!湖人啊

驚爆,絕殺被漏判!當家球星信心全無!湖人啊

體育新角度
2026-02-28 17:50:58
54歲仍未婚,有北京戶口卻為母親定居青島,譚凱坦言從沒后悔過

54歲仍未婚,有北京戶口卻為母親定居青島,譚凱坦言從沒后悔過

風月得自難尋
2026-02-27 21:37:53
002512,爆雷!千問AI眼鏡即將發(fā)布,13只高增長潛力股揭曉(附名單)

002512,爆雷!千問AI眼鏡即將發(fā)布,13只高增長潛力股揭曉(附名單)

數據寶
2026-02-28 12:22:13
A股:下周穩(wěn)了!證監(jiān)會“發(fā)大招利好”,這幾個板塊將直接起飛!

A股:下周穩(wěn)了!證監(jiān)會“發(fā)大招利好”,這幾個板塊將直接起飛!

云鵬敘事
2026-02-28 13:04:17
雙航母逼近,路透社曝中伊導彈大單!英媒:中國或違反聯(lián)合國規(guī)定

雙航母逼近,路透社曝中伊導彈大單!英媒:中國或違反聯(lián)合國規(guī)定

看盡人間百態(tài)
2026-02-26 23:22:05
江蘇省公安廳一下屬單位門牌有錯字?回應:在建項目還未交付,錯誤門牌已溝通施工方修復

江蘇省公安廳一下屬單位門牌有錯字?回應:在建項目還未交付,錯誤門牌已溝通施工方修復

大風新聞
2026-02-28 11:54:04
國際籃聯(lián)道歉,裁判名單公布,兩人吹過CBA,中國籃協(xié)心血白費了

國際籃聯(lián)道歉,裁判名單公布,兩人吹過CBA,中國籃協(xié)心血白費了

萌蘭聊個球
2026-02-28 13:47:02
男籃世預賽明天3月1日賽程:中國PK中國臺北沖兩連勝,日本PK韓國

男籃世預賽明天3月1日賽程:中國PK中國臺北沖兩連勝,日本PK韓國

薇說體育
2026-02-28 12:05:22
2026-02-28 18:51:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12382文章數 142573關注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

以色列先發(fā)制人 8個月后伊美以再次引燃中東

頭條要聞

以色列先發(fā)制人 8個月后伊美以再次引燃中東

體育要聞

球隊主力全報銷?頂風擺爛演都不演了

娛樂要聞

疑似王一博被爆私密聊天記錄

財經要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

旅游
教育
本地
游戲
公開課

旅游要聞

來踏春!第四屆南沙櫻花節(jié)3月中旬啟幕

教育要聞

為什么說“聽話的孩子是好孩子”這句話問題很大?

本地新聞

津南好·四時總相宜

索尼《馬拉松》PS商店僅3.09分:比《星鳴特攻》還低

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版