国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

東方理工團(tuán)隊(duì)提出HiDrop:壓縮90%視覺Token實(shí)現(xiàn)2.2倍加速

0
分享至



隨著多模態(tài)大語言模型(MLLM)支持更長(zhǎng)上下文,高分辨率圖像和長(zhǎng)視頻會(huì)產(chǎn)生遠(yuǎn)多于文本的視覺 Token,在自注意力二次復(fù)雜度下迅速成為效率瓶頸。

現(xiàn)有研究通常通過漸進(jìn)式剪枝來減少視覺 Token,但多采用固定策略,忽略了 MLLM 不同層在多模態(tài)處理中的功能差異。

通過對(duì) MLLM 內(nèi)部信息流的分析,本文發(fā)現(xiàn)不同層的功能存在明顯差異:淺層主要傳遞視覺特征,中層進(jìn)行跨模態(tài)融合,而深層則承擔(dān)語義整合與推理,視覺信息在層間呈現(xiàn)明顯的非均勻演化過程。

基于上述觀察,寧波東方理工大學(xué) / 寧波數(shù)字孿生(東方理工)研究院沈曉宇團(tuán)隊(duì)提出 HiDrop,通過 延遲注入(Late Injection) 、凹金字塔式剪枝(Concave Pyramid Pruning)和提前退出(Early Exit) 設(shè)計(jì)與模型層級(jí)功能對(duì)齊的視覺 Token 壓縮策略。

實(shí)驗(yàn)效果: 在壓縮約 90% 的視覺 Token 的情況下,HiDrop 仍能保持98.3%的模型性能,并實(shí)現(xiàn)1.72×的訓(xùn)練加速和2.2×的預(yù)填充加速。



圖 1:不同視覺 Token 剪枝策略的對(duì)比。 FastV 和 TwigVLM 在淺層階段進(jìn)行早期剪枝,PDrop 在各層采用統(tǒng)一比例的逐層剪枝,而 HiDrop 根據(jù)模型層級(jí)功能動(dòng)態(tài)調(diào)整視覺 Token:淺層延遲注入,中層進(jìn)行非均勻剪枝,并在深層提前移除剩余 Token,從而在保持性能的同時(shí)顯著降低計(jì)算開銷。

目前,該論文已被 ICLR 2026 接收。



  • 論文標(biāo)題:HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit
  • 論文鏈接:https://arxiv.org/pdf/2602.23699
  • 倉庫鏈接:https://github.com/EIT-NLP/HiDrop

核心發(fā)現(xiàn):揭示 MLLMS 內(nèi)部信息處理的動(dòng)態(tài)機(jī)制

為理解 MLLM 是如何處理和整合視覺信息,作者分析了模型表征在不同層中的演化過程。具體而言,通過計(jì)算各模態(tài)表示在層間的余弦相似度,以衡量模態(tài)內(nèi)部表征的變化;同時(shí),通過觀察固定指令在配對(duì)不同圖像時(shí)文本嵌入的變化,以評(píng)估視覺信息對(duì)文本表示的跨模態(tài)影響。



圖 2:MLLM 各層的信息表征動(dòng)態(tài)。左圖展示了模態(tài)內(nèi)部表征的逐層精化過程,而右圖則反映了視覺與語言之間的跨模態(tài)交互強(qiáng)度。

淺層:從左圖可以看到,淺層視覺 Token 表征具有明顯的自相似性,僅在連續(xù)層之間發(fā)生微小的變化,表明 LLM 在此階段對(duì)視覺表征的處理可忽略不計(jì);從右圖可以看到,淺層中固定指令的文本嵌入對(duì)不同的匹配圖像幾乎保持不變,這表明跨模態(tài)影響仍可忽略,且有意義的融合尚未發(fā)生。因此,淺層更像是視覺信息的傳遞通道,主要負(fù)責(zé)將視覺特征向更深層傳播,而非進(jìn)行實(shí)質(zhì)性的語義處理。

中層:與被動(dòng)的淺層不同,中層成為跨模態(tài)融合的關(guān)鍵階段。此時(shí),視覺信息開始顯著影響文本表示,說明模型正在主動(dòng)整合視覺與語言信息,完成語義層面的對(duì)齊與融合。然而進(jìn)一步分析發(fā)現(xiàn),這一過程具有明顯的稀疏性:只有少量關(guān)鍵視覺 Token 對(duì)文本表示產(chǎn)生決定性影響,而大量視覺 Token 則相對(duì)冗余。因此,中層成為視覺 Token 壓縮的關(guān)鍵階段。

深層:當(dāng)跨模態(tài)融合在中層基本完成后,模型進(jìn)入以抽象語義推理為主的階段。此時(shí)視覺信息對(duì)文本表示的直接影響逐漸減弱,模型更多依賴融合后的語義表示進(jìn)行高層推理。



圖 3:中層視覺 Token 的稀疏性分析。左圖:不同 p 值下的視覺標(biāo)記壓縮曲線,其中較低的 p 值會(huì)強(qiáng)制實(shí)施更強(qiáng)的剪枝。右圖:即使在高壓縮率下,模型性能仍保持穩(wěn)定,表明該剪枝策略具有良好的魯棒性。

綜合來看,MLLM 的信息處理呈現(xiàn)出明顯的層級(jí)結(jié)構(gòu):淺層主要傳遞視覺信息,中層進(jìn)行視覺與語言的跨模態(tài)融合,而深層則側(cè)重于高層語義理解與推理。這一發(fā)現(xiàn)為設(shè)計(jì)更加合理的視覺 Token 壓縮策略提供了重要啟示。

核心方法:HiDrop 的三段式層級(jí)對(duì)齊壓縮策略

基于對(duì) MLLM 層級(jí)信息處理動(dòng)態(tài)的分析,作者提出HiDrop 框架,通過與模型層級(jí)結(jié)構(gòu)對(duì)齊的視覺 Token 壓縮策略,在保證模型性能的同時(shí)顯著降低計(jì)算開銷。如圖 4 所示,HiDrop 將視覺 Token 的處理劃分為 淺層、中層和深層三個(gè)階段,并分別設(shè)計(jì)了不同的壓縮策略,使計(jì)算資源分配與模型實(shí)際信息處理過程相匹配。



圖 4:HiDrop 框架概述 (a) 框架示意圖,淺層專注于視覺無關(guān)推理,中間層通過凹金字塔式方案多階段剪枝冗余標(biāo)記,深層實(shí)現(xiàn)早期視覺退出。(b) Hard top-k 算子與 Differentiable Top-k 算子的對(duì)比,后者實(shí)現(xiàn)自適應(yīng)選擇并更好地保留信息。

1. 淺層:視覺延遲注入 (Late Injection)

根據(jù)前文分析,淺層對(duì)視覺信息的處理有限,視覺 Token 主要被動(dòng)地向更深層傳播。因此,HiDrop 并不會(huì)在模型輸入時(shí)立即注入視覺 Token,而是延遲到更深層再引入。注入位置被設(shè)置在跨模態(tài)融合的起始處,作者通過視覺表征層間相似性曲線(圖 2)中的局部最小值進(jìn)行識(shí)別。由于淺層并不承擔(dān)跨模態(tài)融合任務(wù),這種延遲注入在減少計(jì)算量的同時(shí)幾乎不會(huì)影響模型性能。

2. 中層:凹金字塔式剪枝 (Concave Pyramid Pruning)

與淺層不同,中層是視覺與語言進(jìn)行跨模態(tài)融合的關(guān)鍵階段,同時(shí)視覺 Token 的貢獻(xiàn)呈現(xiàn)明顯稀疏性。因此 HiDrop 在該階段采用 激進(jìn)的凹金字塔式剪枝策略,通過先急后緩的方式減少視覺 Token,并引入 Differentiable Top-k 算子實(shí)現(xiàn)自適應(yīng)選擇,在保持關(guān)鍵信息的同時(shí)降低計(jì)算開銷。

為確定剪枝層級(jí)位置,作者提出 Inter-Layer Visual Attention Similarity(ILVAS) 指標(biāo),通過衡量視覺 Token 注意力在相鄰層之間的穩(wěn)定性來識(shí)別適合進(jìn)行過濾的層,并根據(jù) ILVAS 曲線的局部極值確定中層的剪枝位置。

3. 深層:視覺提前退出 (Early Exit)

當(dāng)跨模態(tài)融合在中層基本完成后,模型進(jìn)入以高層語義理解與推理為主的階段,此時(shí)視覺 Token 對(duì)文本表示的影響顯著減弱。因此,HiDrop 在深層提前移除剩余視覺 Token,使后續(xù)層僅處理融合后的語義表示。

為確定退出位置,作者通過 從深到淺的掩碼分析 觀察性能變化,并選擇性能趨于穩(wěn)定的退出點(diǎn),從而減少深層注意力計(jì)算。結(jié)合淺層的 延遲注入 與深層的 提前退出,HiDrop 實(shí)際形成了一個(gè) 聚焦的視覺處理窗口,將視覺 Token 的計(jì)算集中在中間層。消融實(shí)驗(yàn)表明,該窗口識(shí)別策略能夠?qū)崿F(xiàn)良好的效率–性能 trade-off。

此外,HiDrop 還針對(duì)動(dòng)態(tài) Token 選擇帶來的實(shí)現(xiàn)挑戰(zhàn)進(jìn)行了優(yōu)化,例如采用 持久化位置編碼 保持位置一致性、保持與 FlashAttention 的兼容,并通過并行解耦視覺計(jì)算進(jìn)一步縮短預(yù)填充時(shí)間。

實(shí)驗(yàn)結(jié)果:更高壓縮率,更優(yōu)性能,更佳效率



在多個(gè)多模態(tài)基準(zhǔn)測(cè)試上,HiDrop 在更高壓縮率下仍保持優(yōu)異性能。實(shí)驗(yàn)結(jié)果表明,當(dāng)壓縮率為 88.9% 時(shí),仍能保持 98.3% 的原始性能;即使壓縮率進(jìn)一步提升至 91.7% 時(shí),其性能仍然超過 PDrop 在 88.9% 壓縮率下的表現(xiàn),展現(xiàn)出更優(yōu)的壓縮–性能 trade-off。



除了保持性能外,HiDrop 還顯著提升了計(jì)算效率。該方法將平均視覺 Token 數(shù)量減少約 90%,大幅降低了推理 FLOPs,并在 LLaVA-1.5-7B 上實(shí)現(xiàn)約 1.7× 的訓(xùn)練加速和 2.2× 預(yù)填充加速

總結(jié)

本文從 MLLM 內(nèi)部的信息處理動(dòng)態(tài)出發(fā),揭示了視覺信息在不同層中的功能差異,并據(jù)此提出 HiDrop 壓縮框架。實(shí)驗(yàn)結(jié)果表明,HiDrop 在實(shí)現(xiàn)極高視覺 Token 壓縮率的同時(shí)仍能保持接近原始模型的性能,并顯著提升訓(xùn)練與推理效率。該研究表明,理解模型內(nèi)部的信息流結(jié)構(gòu)是設(shè)計(jì)高效多模態(tài)模型的重要方向。

作者介紹

第一作者吳浩,為寧波東方理工大學(xué) / 寧波數(shù)字孿生(東方理工)研究院沈曉宇團(tuán)隊(duì)科研助理,研究方向?yàn)槎嗄B(tài)大模型壓縮和流式大模型。其在 ICLR、CVPR、ECCV 等頂級(jí)會(huì)議發(fā)表多篇研究成果,其中一篇入選 Best Paper Award Finalist。更多科研項(xiàng)目成果請(qǐng)參閱實(shí)驗(yàn)室主頁:https://idt.eitech.edu.cn/nlp/#/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
地鐵吐血女孩最新回應(yīng):目前仍在搶救室,感謝關(guān)注;重慶紅十字會(huì)稱會(huì)提供幫助;其前男友離世前曾委托人轉(zhuǎn)5萬元助女孩治病

地鐵吐血女孩最新回應(yīng):目前仍在搶救室,感謝關(guān)注;重慶紅十字會(huì)稱會(huì)提供幫助;其前男友離世前曾委托人轉(zhuǎn)5萬元助女孩治病

大象新聞
2026-03-24 15:45:03
中美俄都不希望的事已出現(xiàn),歐爾班面臨下臺(tái),俄或失去三大優(yōu)勢(shì)

中美俄都不希望的事已出現(xiàn),歐爾班面臨下臺(tái),俄或失去三大優(yōu)勢(shì)

趣文說娛
2026-03-24 19:34:30
張雪峰,販賣焦慮的時(shí)代標(biāo)本熄滅了

張雪峰,販賣焦慮的時(shí)代標(biāo)本熄滅了

智識(shí)漂流
2026-03-24 21:52:20
敬酒不吃吃罰酒,既然日本不聽勸,那就別怪俄羅斯不客氣了

敬酒不吃吃罰酒,既然日本不聽勸,那就別怪俄羅斯不客氣了

科羅廖夫
2026-03-25 07:20:38
二手網(wǎng)簽破9千套!廣州業(yè)主心態(tài)大變,漲價(jià)超百萬!

二手網(wǎng)簽破9千套!廣州業(yè)主心態(tài)大變,漲價(jià)超百萬!

廣州樓市發(fā)布
2026-03-25 19:50:58
78歲連路都走不穩(wěn)還開演唱會(huì),全網(wǎng)罵聲一片,她卻揚(yáng)言回饋粉絲

78歲連路都走不穩(wěn)還開演唱會(huì),全網(wǎng)罵聲一片,她卻揚(yáng)言回饋粉絲

洲洲影視娛評(píng)
2026-01-28 12:23:18
養(yǎng)肥了再宰?蒙古對(duì)西方巨頭下手了,這一刀也給中國提了個(gè)醒

養(yǎng)肥了再宰?蒙古對(duì)西方巨頭下手了,這一刀也給中國提了個(gè)醒

財(cái)經(jīng)保探長(zhǎng)
2026-03-19 19:39:45
87年薄一波去杭州探望陳云,期間二人神秘交談,薄提醒:你悠著點(diǎn)

87年薄一波去杭州探望陳云,期間二人神秘交談,薄提醒:你悠著點(diǎn)

談古論今歷史有道
2026-03-25 15:15:03
誰干的?美國本土炸了!

誰干的?美國本土炸了!

大嘴說天下
2026-03-24 18:46:21
廣州城投,徹底想通了

廣州城投,徹底想通了

地產(chǎn)K線官方
2026-03-25 21:26:42
學(xué)渣的父母不停地講道理,而學(xué)霸的父母,都在悄悄運(yùn)用刺猬法則

學(xué)渣的父母不停地講道理,而學(xué)霸的父母,都在悄悄運(yùn)用刺猬法則

蓁蓁心理撫養(yǎng)
2025-12-21 12:30:07
難以置信!一福建男子稱,感謝失業(yè)后妻子和他離婚,幫他減輕壓力

難以置信!一福建男子稱,感謝失業(yè)后妻子和他離婚,幫他減輕壓力

火山詩話
2026-03-20 09:50:39
全球最大彈藥庫:澳門大搬空需6年,是否足夠美國打次世界大戰(zhàn)?

全球最大彈藥庫:澳門大搬空需6年,是否足夠美國打次世界大戰(zhàn)?

小蒨喜歡解說
2026-03-23 17:51:09
男性衰老的標(biāo)志:1臭、2大、2小,如果你沒有,說明還年輕!

男性衰老的標(biāo)志:1臭、2大、2小,如果你沒有,說明還年輕!

健康科普365
2026-03-16 20:35:03
德媒文章:“史詩怒火”將讓美國付出巨大代價(jià)

德媒文章:“史詩怒火”將讓美國付出巨大代價(jià)

參考消息
2026-03-25 15:23:26
蔣經(jīng)國寫給宋慶齡的硬筆書信驚艷書壇!字跡畢恭畢敬!好似小學(xué)生

蔣經(jīng)國寫給宋慶齡的硬筆書信驚艷書壇!字跡畢恭畢敬!好似小學(xué)生

鶴羽說個(gè)事
2026-03-20 21:20:03
日本網(wǎng)友對(duì)比梅洛尼和高市早苗會(huì)見特朗普畫面,發(fā)出提問 “維護(hù)國家尊嚴(yán),誰的行為是正確的”

日本網(wǎng)友對(duì)比梅洛尼和高市早苗會(huì)見特朗普畫面,發(fā)出提問 “維護(hù)國家尊嚴(yán),誰的行為是正確的”

大象新聞
2026-03-25 15:49:04
藍(lán)思科技:公司已成功研發(fā)出抗原子氧剝蝕、抗輻射的大尺寸UTG柔性玻璃,應(yīng)用于柔性太陽翼的封裝

藍(lán)思科技:公司已成功研發(fā)出抗原子氧剝蝕、抗輻射的大尺寸UTG柔性玻璃,應(yīng)用于柔性太陽翼的封裝

每日經(jīng)濟(jì)新聞
2026-03-25 15:23:33
向余望必須MVP!陳澤仕+李新翔高分,于金永不夠果決,兩將不及格

向余望必須MVP!陳澤仕+李新翔高分,于金永不夠果決,兩將不及格

刀鋒體育
2026-03-25 23:26:05
中央氣象臺(tái)發(fā)布大霧黃色預(yù)警

中央氣象臺(tái)發(fā)布大霧黃色預(yù)警

界面新聞
2026-03-25 18:03:12
2026-03-26 00:15:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12598文章數(shù) 142593關(guān)注度
往期回顧 全部

科技要聞

紅極一時(shí)卻草草收?qǐng)觯琒ora宣布正式關(guān)停

頭條要聞

伊朗放話愿意與"主和派"萬斯談 特朗普表態(tài)

頭條要聞

伊朗放話愿意與"主和派"萬斯談 特朗普表態(tài)

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂要聞

張雪峰經(jīng)搶救無效不幸去世 年僅41歲

財(cái)經(jīng)要聞

管濤:中東局勢(shì)如何影響人民幣匯率走勢(shì)?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實(shí)力

態(tài)度原創(chuàng)

數(shù)碼
房產(chǎn)
教育
手機(jī)
公開課

數(shù)碼要聞

蘋果AirPods Max 2耳機(jī)已接受訂購,4月1日發(fā)貨

房產(chǎn)要聞

41億!259畝!建學(xué)校…三亞這個(gè)大城更,最新方案曝光!

教育要聞

高考地理中的庫容量與蓄水量

手機(jī)要聞

真我社區(qū)4月1日起逐步停運(yùn):后續(xù)內(nèi)容在OPPO商城圈子運(yùn)營(yíng)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版