国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

關(guān)于多模態(tài)大模型Token壓縮技術(shù)進(jìn)展,看這一篇就夠了

0
分享至



近年來多模態(tài)大模型在視覺感知,長視頻問答等方面涌現(xiàn)出了強(qiáng)勁的性能,但是這種跨模態(tài)融合也帶來了巨大的計(jì)算成本。高分辨率圖像和長視頻會(huì)產(chǎn)生成千上萬個(gè)視覺 token ,帶來極高的顯存占用和延遲,限制了模型的可擴(kuò)展性和本地部署。

正是這種緊迫的需求催生了MLLMToken Compression,迅速成為研究爆點(diǎn),兩年內(nèi)在該垂直領(lǐng)域產(chǎn)出了約 200 篇論文。但是隨著研究工作的快速涌現(xiàn),領(lǐng)域內(nèi)的方法也變得極其龐雜難以歸類,進(jìn)一步具體到落地場景里面,往往因?yàn)榉椒ǘ鄻佣y以選擇。

針對這一背景,來自北京大學(xué)、中國科學(xué)技術(shù)大學(xué)等機(jī)構(gòu)的研究人員,首先基于壓縮位置對方法進(jìn)行了系統(tǒng)歸類,然后討論了對于特定的部署場景應(yīng)該選擇何種壓縮機(jī)制,最后探討了目前的挑戰(zhàn)和具有前景的方向。



  • Github 鏈接: https://github.com/yaolinli/MLLM-Token-Compression
  • 論文鏈接: https://www.techrxiv.org/doi/full/10.36227/techrxiv.176823010.07236701/v1



圖 1. MLLMs 中 Token 壓縮代表性工作時(shí)間線

基于壓縮位置視角的系統(tǒng)分類(where to compress)



圖 2. MLLM Token 壓縮方法的系統(tǒng)分類

研究人員根據(jù)Token 壓縮方法在 MLLM 架構(gòu)中應(yīng)用的位置,對現(xiàn)有方法進(jìn)行了系統(tǒng)性的分類。在從視覺輸入到文本輸出的整個(gè)處理過程中,Token 壓縮策略可以逐步部署在三個(gè)架構(gòu)模塊中:

  • Vision Encoder:在此階段進(jìn)行壓縮可以降低視覺感知階段的計(jì)算開銷;
  • Projector:在從視覺表示空間向語言表示空間轉(zhuǎn)換的過程中整合 Token 削減技術(shù);
  • Large Language Model:在此階段進(jìn)行壓縮可實(shí)現(xiàn)整體的跨模態(tài)效率優(yōu)化。

(1)Vision Encoder 中的壓縮



圖 3. MLLMs 中視覺編碼器模塊所采用的 Token 壓縮策略示意圖

在 MLLMs 中,視覺數(shù)據(jù)本質(zhì)上比文本具有更高的冗余性,而由于視覺編碼器是編碼視覺輸入的第一個(gè)模塊,在這一初始階段減少視覺 Token 可以為整個(gè) MLLM 系統(tǒng)帶來顯著的效率提升。研究人員首先回顧并將在視覺編碼器模塊中應(yīng)用的視覺側(cè) Token 壓縮方法分為兩大類:視覺編碼器內(nèi)部壓縮(Inside-VE)和視覺編碼器外部壓縮(Outside-VE)。由于視覺編碼器不同的層會(huì)捕捉不同尺度的視覺信息,從低層紋理到高層概念,因此 Inside-VE 往往通過開發(fā)多尺度壓縮方案來協(xié)調(diào)各層之間的壓縮。Outside-VE 的設(shè)計(jì)具有即插即用的特點(diǎn),對原始架構(gòu)的改動(dòng)極小,并且可以根據(jù)是否引入文本信號(hào)進(jìn)行靈活的設(shè)計(jì)。

(2)Projector 中的壓縮



圖 4. MLLMs 中 projector 模塊所采用的 Token 壓縮策略示意圖

Projector module 作為一個(gè)接口,將原始的視覺嵌入轉(zhuǎn)換為與語言兼容的表示形式,從而確保 vision encoder 提取的信息能被大語言模型有效利用。雖然像 Q-Former 這樣的早期 projector 架構(gòu)通過將大量的視覺嵌入提煉為一組緊湊的查詢 Token,實(shí)現(xiàn)了高效 Token 壓縮,但后續(xù)的大量研究為 projector 引入了額外的設(shè)計(jì)增強(qiáng),以實(shí)現(xiàn)更細(xì)粒度和任務(wù)自適應(yīng)的壓縮。研究人員將這些方法大致分為三大類并進(jìn)行了詳細(xì)的討論:基于變換的方法,基于查詢的方法和重要性驅(qū)動(dòng)的方法。

(3)LLM 中的壓縮



圖 5. MLLMs 中 projector 模塊所采用的 Token 壓縮策略示意圖

由于 LLM 的參數(shù)量通常遠(yuǎn)超視覺編碼器和投影器,會(huì)成為性能瓶頸的關(guān)鍵組件,在這一階段進(jìn)行高效壓縮會(huì)產(chǎn)生直接收益。MLLM 早期發(fā)展階段非常關(guān)注短文本視覺問答(VQA),因此這一時(shí)期的壓縮策略專注于預(yù)填充階段,會(huì)在輸入序列第一次在 LLM 中 forward 時(shí)就對視覺 token 進(jìn)行壓縮。但是隨著思維鏈技術(shù)的飛速發(fā)展,研究重心已轉(zhuǎn)向長視覺問答場景,這些技術(shù)通常在 decoding 階段選擇性地剪枝或合并 KV Cache 來降低內(nèi)存和計(jì)算成本。

(4)多模塊壓縮

除了在單個(gè)組件內(nèi)應(yīng)用 Token 壓縮外,近期已有越來越多的方法開始探索跨多個(gè)模塊的壓縮策略,以實(shí)現(xiàn)更高的壓縮效率和更優(yōu)的表征質(zhì)量。這類方法主要關(guān)注如何協(xié)調(diào)不同組件之間的壓縮,并將其組織為一個(gè)多階段過程,從而最大限度地提高整體效率和表征質(zhì)量。對于這種混合壓縮策略,研究人員詳細(xì)介紹并分析了兩種新興的設(shè)計(jì)范式:多模塊協(xié)同壓縮以及多階段漸進(jìn)式壓縮。



表 1. 代表性 MLLMs token 壓縮策略總結(jié)

不同使用場景下如何選擇合適的壓縮策略(how to select)

由于 Token 壓縮設(shè)計(jì)方法的激增,有必要制定相關(guān)指南,以幫助從業(yè)者針對特定的部署場景選擇最佳策略,研究人員對關(guān)鍵的選擇因素進(jìn)行了全面對比。

(1)針對視頻輸入的時(shí)空增強(qiáng)壓縮

雖然現(xiàn)有的空間壓縮策略可以直接應(yīng)用于單幀,但它們通常無法利用幀間的冗余。為了填補(bǔ)這一空白,最近的研究提出了時(shí)空增強(qiáng)的 Token 壓縮方法,這些方法明確考慮了時(shí)間結(jié)構(gòu),以實(shí)現(xiàn)高效的長序列建模。研究人員進(jìn)一步詳細(xì)介紹了應(yīng)該使用哪些策略解決時(shí)空聯(lián)合壓縮,時(shí)序結(jié)構(gòu)保留以及超長序列等實(shí)際挑戰(zhàn)。

(2)純視覺壓縮 vs. 文本引導(dǎo)壓縮

現(xiàn)有方法根據(jù)其是否利用了文本信息(用戶指令)可分為純視覺壓縮和文本引導(dǎo)壓縮,這兩種策略是互補(bǔ)的,一種實(shí)用的設(shè)計(jì)是:首先通過純視覺壓縮導(dǎo)出緊湊的視覺表示,然后在語言模塊中應(yīng)用文本引導(dǎo)的選擇機(jī)制,以精煉出與給定文本查詢相關(guān)的 Token。

(3)Token Merging vs. Token Dropping

Token Merging 提供了平滑的聚合,適用于密集或在時(shí)間上冗余的視覺輸入;而當(dāng)高層語義已足夠稀疏時(shí),Token Dropping 的效率則更具優(yōu)勢。未來的框架可能會(huì)受益于自適應(yīng)的混合設(shè)計(jì),根據(jù)模態(tài)特征和冗余類型,在 “軟聚合” 和 “硬剪枝” 之間進(jìn)行動(dòng)態(tài)切換。

(4)即插即用方法 vs. 重訓(xùn)練方法

即插即用方法非常適合在訓(xùn)練資源有限或任務(wù)需求相對溫和的情況下,進(jìn)行快速部署和推理加速。然而,它們的性能上限相對有限,最近的研究進(jìn)一步通過實(shí)驗(yàn)證明免訓(xùn)練 Token 壓縮方法在需要高分辨率視覺理解任務(wù)中,會(huì)出現(xiàn)顯著的性能下降。相比之下,重訓(xùn)練方法在細(xì)粒度多模態(tài)理解方面表現(xiàn)優(yōu)異,能夠提供更高的性能上限,但代價(jià)是大量的額外訓(xùn)練開銷。

(5)加速訓(xùn)練 vs. 加速推理

由于任務(wù)的相似性,原則上所有可用于 LLM 預(yù)填充的加速推理策略也都可以用于加速訓(xùn)練,但是大多數(shù) sota MLLM 仍然使用最簡單的 Token 壓縮機(jī)制,如 pooling,pixel unshuffle 等。為什么這些多樣化的方法沒有被主流 LVLM 廣泛采用?研究人員分析了三個(gè)主要原因:Flash Attention 兼容性問題,訓(xùn)練驗(yàn)證成本高昂導(dǎo)致的策略保守,歸納偏置導(dǎo)致的泛化性下降(Inductive bias)。由于目前的 MLLM 旨在用于通用目的,任何特定能力的退化都是不可接受的。

結(jié)語

盡管 MLLMs 的 Token 壓縮技術(shù)取得了快速進(jìn)展,但仍有若干開放性挑戰(zhàn)值得進(jìn)一步研究,比如缺乏理論輔助,缺乏任務(wù)與內(nèi)容感知的自適應(yīng)性,實(shí)際細(xì)粒度感知的任務(wù)性能下降,這些都是值得進(jìn)一步探索的重要問題。

本文的 survey 后續(xù)會(huì)保持更新,將在 v2 版本中整理 Token 壓縮研究中常用的圖像和視頻理解基準(zhǔn)測試,并據(jù)此構(gòu)建一個(gè)全面的評(píng)估框架。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
哈梅內(nèi)伊:必須不惜一切手段鎮(zhèn)壓抗議

哈梅內(nèi)伊:必須不惜一切手段鎮(zhèn)壓抗議

桂系007
2026-01-25 22:34:05
公然支持亂港分子,詆毀愛國人士,香港這家商業(yè)巨頭如今下場凄慘

公然支持亂港分子,詆毀愛國人士,香港這家商業(yè)巨頭如今下場凄慘

素衣讀史
2026-01-17 17:07:58
新國標(biāo)電動(dòng)車賣不動(dòng)了,安全如山高、體驗(yàn)比紙薄,這車給誰騎?

新國標(biāo)電動(dòng)車賣不動(dòng)了,安全如山高、體驗(yàn)比紙薄,這車給誰騎?

阿芒娛樂說
2026-01-25 10:23:09
震驚!中國稀土盜竊案曝光,內(nèi)鬼身份浮出水面!

震驚!中國稀土盜竊案曝光,內(nèi)鬼身份浮出水面!

特約前排觀眾
2026-01-26 00:05:15
印度前高官:世界局勢不能是中美博弈主導(dǎo),應(yīng)是中國和印度聯(lián)手!

印度前高官:世界局勢不能是中美博弈主導(dǎo),應(yīng)是中國和印度聯(lián)手!

兩兄弟養(yǎng)牛
2026-01-26 17:02:32
不管你信不信,男性過了61歲后,基本都有這7個(gè)現(xiàn)狀,要坦然接受

不管你信不信,男性過了61歲后,基本都有這7個(gè)現(xiàn)狀,要坦然接受

健康之光
2026-01-11 12:40:02
沈陽全市放假通知

沈陽全市放假通知

沈陽生活圈i
2026-01-26 13:35:57
趙薇女兒回瑞士上學(xué),小四月染金發(fā)戴假睫毛形象大變,太像網(wǎng)紅!

趙薇女兒回瑞士上學(xué),小四月染金發(fā)戴假睫毛形象大變,太像網(wǎng)紅!

娛樂團(tuán)長
2026-01-24 21:23:08
王欣瑜0-2出局!原因曝光,聽聽她賽后怎么說,詹俊點(diǎn)評(píng)一針見血

王欣瑜0-2出局!原因曝光,聽聽她賽后怎么說,詹俊點(diǎn)評(píng)一針見血

體育就你秀
2026-01-26 17:35:56
我媽總夸我哥孝順,我停了每月八千養(yǎng)老費(fèi),一周后全家都炸了鍋

我媽總夸我哥孝順,我停了每月八千養(yǎng)老費(fèi),一周后全家都炸了鍋

曉艾故事匯
2026-01-24 15:17:39
澤連斯基夫婦為163年前起義者們獻(xiàn)花!送別烏克蘭能源公司前總裁

澤連斯基夫婦為163年前起義者們獻(xiàn)花!送別烏克蘭能源公司前總裁

鷹眼Defence
2026-01-26 17:32:09
她赴英留學(xué),卻與上千外國男子有染并拍成視頻,父母與她斷絕關(guān)系

她赴英留學(xué),卻與上千外國男子有染并拍成視頻,父母與她斷絕關(guān)系

阿胡
2026-01-21 17:34:15
黃金漲破5100美元,銀行保險(xiǎn)箱一箱難求,有營業(yè)部新戶要排5至6年才能租到

黃金漲破5100美元,銀行保險(xiǎn)箱一箱難求,有營業(yè)部新戶要排5至6年才能租到

魯中晨報(bào)
2026-01-26 16:07:08
上海地鐵海報(bào)現(xiàn)“六指美女”,被質(zhì)疑用AI生成,廣告方回應(yīng):如果確認(rèn)存在問題,會(huì)第一時(shí)間修改替換

上海地鐵海報(bào)現(xiàn)“六指美女”,被質(zhì)疑用AI生成,廣告方回應(yīng):如果確認(rèn)存在問題,會(huì)第一時(shí)間修改替換

環(huán)球網(wǎng)資訊
2026-01-24 18:11:11
剛剛,周一36家公司出現(xiàn)重大利好 利空公告,有沒有與你相關(guān)的個(gè)股?

剛剛,周一36家公司出現(xiàn)重大利好 利空公告,有沒有與你相關(guān)的個(gè)股?

股市皆大事
2026-01-26 11:24:13
李湘和老燕子夫妻的“H南幫”!

李湘和老燕子夫妻的“H南幫”!

八卦瘋叔
2026-01-26 11:45:10
小貸行業(yè)大逃殺開始了

小貸行業(yè)大逃殺開始了

新金融洛書
2026-01-26 09:21:26
金價(jià)真的是一夜變天,1月26日最新報(bào)價(jià),全國金價(jià)竟然差這么多?

金價(jià)真的是一夜變天,1月26日最新報(bào)價(jià),全國金價(jià)竟然差這么多?

三農(nóng)老歷
2026-01-26 15:49:36
深度揭秘?|?航空“老色虎”譚瑞松,搞權(quán)色交易、“靠軍工吃軍工”

深度揭秘?|?航空“老色虎”譚瑞松,搞權(quán)色交易、“靠軍工吃軍工”

一分為三看人生
2026-01-12 00:09:36
央視直播!今晚7:35,臘八大戰(zhàn),奪冠熱門要啃硬骨頭,老帥PK少帥

央視直播!今晚7:35,臘八大戰(zhàn),奪冠熱門要啃硬骨頭,老帥PK少帥

萌蘭聊個(gè)球
2026-01-26 09:53:58
2026-01-26 18:48:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12193文章數(shù) 142549關(guān)注度
往期回顧 全部

科技要聞

印奇再上牌桌,階躍融資50億

頭條要聞

女子哭訴3年幫"北大碩士"男友背貸超200萬:對方已婚

頭條要聞

女子哭訴3年幫"北大碩士"男友背貸超200萬:對方已婚

體育要聞

叛逆的大公子,要砸了貝克漢姆這塊招牌

娛樂要聞

張雨綺被實(shí)名舉報(bào)代孕、插足婚姻

財(cái)經(jīng)要聞

從美式斬殺線看中國社會(huì)的制度韌性構(gòu)建

汽車要聞

賓利第四臺(tái)Batur敞篷版發(fā)布 解鎖四項(xiàng)定制創(chuàng)新

態(tài)度原創(chuàng)

時(shí)尚
旅游
藝術(shù)
教育
公開課

伊姐周日熱推:電視劇《太平年》;電視劇《暗戀者的救贖》......

旅游要聞

春節(jié)出行趨勢預(yù)測:免簽政策效應(yīng)顯現(xiàn),出境長線游火熱

藝術(shù)要聞

溥心畬的花鳥,淡雅清新

教育要聞

女留子連體檢報(bào)告都不敢交?上海一國企招聘,9名女留子集體跑路

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版