CVPR 2026 | 從視覺Token內在變化量出發(fā)，實現(xiàn)VLM無損加速1.87倍

2026-03-16 11:56:33　來源: 機器之心Pro

河北舉報

分享至

作者介紹：第一作者陳駿杰（四川大學碩士二年級）與共同一作劉旭洋（四川大學碩士三年級）深耕高效視覺語言模型。

論文題目：Variation-aware Vision Token Dropping for Faster Large Vision-Language Models
論文鏈接：https://arxiv.org/abs/2509.01552
代碼鏈接：https://github.com/xuyang-liu16/V2Drop

背景與動機

隨著高分辨率圖像理解與長視頻處理需求的爆發(fā)式增長，大型視覺語言模型（LVLMs）所需處理的視覺 Token 數(shù)量急劇膨脹，推理效率成為落地部署的核心瓶頸。Token 壓縮是縮短序列、提升吞吐的直接手段，但現(xiàn)有方法普遍依賴注意力權重來判斷 Token 重要性，這一路線暗藏兩個致命缺陷：

一是位置偏差問題（如圖 1 所示），該方法傾向于機械地保留序列末尾的 Token，無論圖像內容如何，注意力得分普遍在序列末尾（對應圖像底部區(qū)域）形成峰值（紅色箭頭），導致關鍵的前期 Token 被丟棄，進而加劇多模態(tài)幻覺。

二是與高效算子存在根本性的不兼容，計算注意力權重與 FlashAttention 等高效機制之間存在本質沖突。相比之下，右側三列（綠色邊框）展示了基于 L2 Norm 變化量評估方法的顯著優(yōu)勢 —— 其得分分布均勻、能夠精準聚焦于含有關鍵信息的圖像區(qū)域（如綠色框標注的球衣號碼區(qū)域），且無需顯式注意力計算，與高效算子天然兼容。

圖 1：注意力引導 vs. 變化量感知的 Token 評估對比

核心發(fā)現(xiàn)

發(fā)現(xiàn) 1：注意力方法存在系統(tǒng)性末端偏置

研究團隊在 LLaVA-1.5-7B 和 Qwen2-VL-7B 上，對比了 SparseVLM、FastV 與 L2 Norm 變化量評估在相同輸入下的 Token 保留行為。注意力方法的保留概率曲線均呈單調遞增階梯形狀 —— 末端 Token 保留率高達 80%～100%，前端僅 10%～30%，與內容重要性毫無關聯(lián)。L2 Norm 則呈近似均勻分布，天然規(guī)避位置偏差。

圖 2：兩大模型上視覺 Token 保留位置分布分析 ——L2 Norm 呈現(xiàn)均勻分布，注意力方法呈嚴重末端偏置

發(fā)現(xiàn) 2：變化量高的 Token 天然對應語義關鍵區(qū)域

針對兩個典型樣本（百事可樂瓶識別、球衣號碼識別），L1 Norm、L2 Norm 和余弦相似度三種指標均在答案相關區(qū)域出現(xiàn)顯著峰值，且無論關鍵區(qū)域位于序列中段還是后段均能精準捕捉，表明變化量是衡量視覺 Token 重要性的魯棒內在屬性，L2 Norm 綜合性能最優(yōu)，被 V2Drop 選為默認度量。

圖 3：三種變化量度量指標均精準定位答案相關區(qū)域（紅框），驗證變化量與語義重要性的強相關性

解決方案：V2Drop

V2Drop 在 LLM 推理階段采用多階段漸進式剪枝策略，三步實現(xiàn)高效無偏 Token 壓縮：

① 變化量計算（Variation Computation）

在每個預定義剪枝層，計算每個視覺 Token 與上一層表示的 L2 距離作為重要性得分。額外開銷僅為單層注意力計算量的 0.022%，可忽略不計。

② Token 排序與選擇（Token Ranking & Selection）

按變化量得分從高到低排序，保留 Top-K 個 Token，自然過濾惰性 Token，無需引入任何位置偏置。

③ 漸進式壓縮（Progressive Dropping）

在淺層、中層、深層三階段依次執(zhí)行剪枝，形成 M → Ka → Kb → Kc 漸進壓縮路徑。消融實驗證明，漸進式剪枝比一次性剪枝在 POPE 上高 9.3%、MME 上高 5.9%。

圖 4：V2Drop 整體框架

理論保證

通過一階 Taylor 展開證明，Token 的變化量幅度與其對模型輸出的影響正相關，從理論上驗證了丟棄低變化量 Token 能最小化輸出擾動的核心假設。架構的三大屬性（殘差連接、Layer Norm、平滑激活函數(shù)）共同保證了理論假設的合理性。

實驗結果

1、圖像理解（LLaVA-1.5-7B & Qwen2-VL-7B）

在圖像場景的核心表現(xiàn)上，本方法在 LLaVA-1.5-7B 上：壓縮 66.7% Token（保留 192 個）時，綜合性能達 97.6%，超越次優(yōu)方法 PDrop（96.0%。此外，在 Qwen2-VL-7B 高分辨率場景中，66.7% 和 77.8% 兩檔壓縮率下均全面超越 FastV 和 DART，尤其在 POPE 幻覺抑制指標上表現(xiàn)突出，充分驗證了本方法對原生可變分辨率輸入的強泛化能力。

表 1：基于 LLaVA-1.5-7B 的多圖像理解基準測試對比

表 2：基于 Qwen2-VL-7B 的多圖像理解基準測試對比

2、視頻理解（LLaVA-OV-7B & Qwen2-VL-7B）

在視頻場景中，本方法同樣表現(xiàn)卓越：僅保留 25% 的 Token 時，綜合性能即達 98.6%，超越保留 30% Token 的 DyCoke（97.7%），以更少 Token 實現(xiàn)更優(yōu)性能；在長視頻任務（VideoMME-Long）上持續(xù)領跑，有效緩解了 VideoLLM 普遍存在的末幀偏置問題；在 Qwen2-VL-7B 場景下，僅保留 20% Token 時綜合性能達 93.3%，其中 MVBench 以 62.1 分大幅領先 DART（58.9）和 FastV（50.9），優(yōu)勢尤為突出。

表 3：基于 Qwen2-VL-7B 的多視頻理解基準測試性能對比

表 4：基于 LLaVA-OV-7B 的多視頻理解基準測試性能對比

3、效率分析（與高效算子完全兼容）

在效率層面，本方法同樣帶來顯著收益：圖文理解任務（LLaVA-1.5-7B）中，LLM 生成延遲降低 31.5%，吞吐量提升至 9.01 items/s（↑1.26×），峰值顯存同步下降 3.3%；視頻理解任務（LLaVA-OV-7B）中，LLM 生成延遲大幅削減 74.2%，吞吐量提升 1.38×，峰值顯存降低 7.8%。與之形成鮮明對比的是，SparseVLM、FastV、PDrop 在視頻場景下峰值顯存分別暴增 54.8%、39.2% 和 37.8%，而本方法無需計算注意力矩陣，真正實現(xiàn)了加速與節(jié)存的雙重收益。

表 5：圖像 / 視頻理解任務的效率對比

結論

V2Drop 為視覺語言模型的推理加速開辟了一條全新路徑。研究發(fā)現(xiàn)，視覺 Token 在 LLM 各層間的變化量與其任務相關性高度吻合，且這一規(guī)律與具體任務無關（task-agnostic）。基于這一洞察，V2Drop 以變化量為核心評估信號，構建了一套輕量、漸進、與高效算子完全兼容的 Token 壓縮框架 —— 無需修改模型權重，無需訪問注意力矩陣，即插即用。在圖像與視頻理解兩條賽道上均實現(xiàn)當前最優(yōu)性能 - 效率權衡。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.