国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

并行視覺(jué)Token調(diào)度:實(shí)現(xiàn)快速精準(zhǔn)的多模態(tài)大模型推理

0
分享至

并行視覺(jué)Token調(diào)度:實(shí)現(xiàn)快速精準(zhǔn)的多模態(tài)大模型推理

PARALLEL VISION TOKEN SCHEDULING FOR FAST ANDACCURATE MULTIMODAL LMMS INFERENCE

https://www.arxiv.org/pdf/2511.18875



摘要

多模態(tài)大語(yǔ)言模型(MLLMs)展現(xiàn)出令人印象深刻的視覺(jué)-語(yǔ)言推理能力,但推理延遲嚴(yán)重,因?yàn)樽宰⒁饬εc序列長(zhǎng)度呈二次方關(guān)系,且高分辨率圖像貢獻(xiàn)數(shù)千個(gè)視覺(jué)Token。簡(jiǎn)單剪枝信息量較少的視覺(jué)Token可減輕這一負(fù)擔(dān),但盲目移除會(huì)剝離背景或細(xì)粒度問(wèn)題所需的關(guān)鍵上下文線索,損害準(zhǔn)確性。本文提出ParVTS(并行視覺(jué)Token調(diào)度),一種無(wú)需訓(xùn)練的調(diào)度框架,將視覺(jué)Token劃分為主體和非主體兩組,并行處理以將其語(yǔ)義轉(zhuǎn)移到問(wèn)題Token中,并在推理中途丟棄非主體路徑以減少計(jì)算。該調(diào)度降低計(jì)算復(fù)雜度,無(wú)需啟發(fā)式規(guī)則或額外模塊,兼容多種現(xiàn)有MLLM架構(gòu)。跨多個(gè)MLLM骨干的實(shí)驗(yàn)表明,ParVTS可剪枝高達(dá)88.9%的視覺(jué)Token且性能下降極小,實(shí)現(xiàn)1.77倍加速和70% FLOPs減少。

關(guān)鍵詞 MLLM · 視覺(jué)Token縮減 · 免訓(xùn)練


1 引言

多模態(tài)大型語(yǔ)言模型結(jié)合了為指令跟隨進(jìn)行微調(diào)的大型語(yǔ)言模型,顯著增強(qiáng)了視覺(jué)-語(yǔ)言任務(wù)的能力,包括復(fù)雜推理和視覺(jué)理解。然而,這些優(yōu)勢(shì)伴隨著巨大的計(jì)算成本。

該成本的一個(gè)主要來(lái)源是Transformer自注意力機(jī)制的二次復(fù)雜度,隨著輸入序列長(zhǎng)度的增加,這種復(fù)雜度變得令人望而卻步。在多模態(tài)大型語(yǔ)言模型中,來(lái)自高分辨率圖像的視覺(jué)標(biāo)記通常在序列中占主導(dǎo)地位——有時(shí)數(shù)量可達(dá)數(shù)千個(gè)——遠(yuǎn)遠(yuǎn)超過(guò)文本標(biāo)記。這種不平衡極大地延長(zhǎng)了推理延遲,在視覺(jué)問(wèn)答和移動(dòng)增強(qiáng)現(xiàn)實(shí)等對(duì)延遲敏感、需要實(shí)時(shí)響應(yīng)的應(yīng)用中造成了嚴(yán)峻挑戰(zhàn)。


然而,盡管大多數(shù)視覺(jué)問(wèn)題都圍繞主體實(shí)體展開,但仍有不可忽視的一部分查詢針對(duì)的是背景上下文、細(xì)粒度細(xì)節(jié)或外圍物體——這些信息通常由非主體標(biāo)記所代表。

如圖1所示,在四個(gè)具有代表性的VQA數(shù)據(jù)集(SQA [13]、AI2D [14]、OCRBench [15]和TextVQA [16])中,與主體相關(guān)的問(wèn)題約占所有查詢的73%至80%,其余19%至27%為非主體導(dǎo)向問(wèn)題。這些非主體問(wèn)題雖然較少,但通常需要對(duì)核心主體區(qū)域之外的細(xì)微屬性進(jìn)行推理(例如,標(biāo)牌上的品牌名稱或透明物體的存在)。圖1右側(cè)的視覺(jué)示例突出了這種區(qū)別。識(shí)別球衣號(hào)碼(問(wèn)題1)僅需要主體標(biāo)記,而識(shí)別場(chǎng)地周圍的贊助商標(biāo)志(問(wèn)題2)則依賴于外圍視覺(jué)信息。雖然花朵顏色(問(wèn)題1)局限于主體,但檢查玻璃杯是否含有液體(問(wèn)題2)需要關(guān)注不太顯著但相關(guān)的區(qū)域。這些發(fā)現(xiàn)強(qiáng)調(diào)了剪除非主體標(biāo)記可能會(huì)遺漏關(guān)鍵的視覺(jué)線索。因此,一種能夠重用或保留這些標(biāo)記信息的機(jī)制對(duì)于在多樣化的多模態(tài)場(chǎng)景中保持計(jì)算效率和穩(wěn)健的任務(wù)性能至關(guān)重要。


現(xiàn)有方法主要分為兩類。(1)無(wú)需訓(xùn)練的方法,如PruMerge [11] 和 SparseVLM [17],基于相似性啟發(fā)式方法合并或剪枝標(biāo)記,但會(huì)丟失對(duì)原始標(biāo)記表示的直接訪問(wèn),并可能在任務(wù)泛化方面遇到困難。(2)基于訓(xùn)練的方法,如LLaVA-Mini [18] 和 VoCo-LLaMA [19],在減少視覺(jué)信息之前引入額外的模塊進(jìn)行壓縮,這增加了訓(xùn)練和推理開銷,并可能丟失精細(xì)細(xì)節(jié)。

我們認(rèn)為,理想的解決方案應(yīng)滿足三個(gè)標(biāo)準(zhǔn):(i)計(jì)算效率低于 O(L^2);(ii)無(wú)需啟發(fā)式方法即可重用被丟棄的標(biāo)記信息;(iii)在結(jié)構(gòu)上與當(dāng)前的多模態(tài)大型語(yǔ)言模型兼容,且無(wú)需添加額外模塊。

最近的研究 [10, 20] 強(qiáng)調(diào)了一種我們稱之為視覺(jué)信息遷移的現(xiàn)象:在LLM的早期層中,視覺(jué)標(biāo)記信息通過(guò)自注意力機(jī)制隱式地轉(zhuǎn)移到問(wèn)題標(biāo)記。這一觀察結(jié)果啟發(fā)了一種新的范式:我們能否不顯式地壓縮或恢復(fù)被丟棄的標(biāo)記,而是利用這種遷移機(jī)制在網(wǎng)絡(luò)早期階段提取必要信息?

在本文中,我們提出了 ParVTS(并行視覺(jué)令牌調(diào)度),一種新穎的令牌調(diào)度框架,通過(guò)有意地解耦不同類型視覺(jué)標(biāo)記的處理,實(shí)現(xiàn)快速且準(zhǔn)確的多模態(tài)大型語(yǔ)言模型推理。ParVTS并非統(tǒng)一處理所有視覺(jué)標(biāo)記,而是根據(jù)它們?cè)谝曈X(jué)編碼器中對(duì)[CLS]標(biāo)記的注意力權(quán)重,將視覺(jué)標(biāo)記劃分為主體組和非主體組——其中較高的注意力表明與主要視覺(jué)焦點(diǎn)具有更大的語(yǔ)義相關(guān)性。這種基于軟顯著性的分離反映了每個(gè)標(biāo)記對(duì)下游推理的潛在貢獻(xiàn),并且可以在無(wú)需額外監(jiān)督或模型組件的情況下高效計(jì)算。

分組完成后,這些標(biāo)記通過(guò)單個(gè)前向傳遞中的并行LLM路徑進(jìn)行路由,該過(guò)程通過(guò)批量方式的令牌調(diào)度實(shí)現(xiàn)。每個(gè)路徑都攜帶其自身的問(wèn)題標(biāo)記副本,并關(guān)注視覺(jué)輸入的不同子集。在Transformer的早期層中,模型固有的注意力動(dòng)態(tài)促進(jìn)了視覺(jué)信息遷移 [10, 20]——即無(wú)論類型如何,視覺(jué)標(biāo)記都會(huì)逐漸將其嵌入的內(nèi)容傳遞給問(wèn)題標(biāo)記。這使得每個(gè)分支能夠隨時(shí)間將其相關(guān)的視覺(jué)情境提煉到其問(wèn)題表示中。

在經(jīng)過(guò)固定數(shù)量的層之后,兩組問(wèn)題標(biāo)記——現(xiàn)在已分別 enriched with 與主體相關(guān)或非主體相關(guān)的信息——被合并。由于每個(gè)分支已通過(guò)注意力傳遞了其視覺(jué)語(yǔ)義的基本部分,融合后的問(wèn)題標(biāo)記擁有了對(duì)圖像的充分理解,能夠指導(dǎo)后續(xù)的推理。然后,我們丟棄非主體視覺(jué)分支,僅使用主體標(biāo)記和合并后的問(wèn)題標(biāo)記繼續(xù)推理,從而在保留任務(wù)相關(guān)信息的同時(shí)實(shí)現(xiàn)顯著的計(jì)算節(jié)省。

這種設(shè)計(jì)實(shí)現(xiàn)了所有視覺(jué)標(biāo)記在早期階段的信息轉(zhuǎn)移,同時(shí)消除了后期層中的冗余計(jì)算。值得注意的是,ParVTS 不需要輔助模塊、啟發(fā)式方法或微調(diào),并且可以無(wú)縫集成到現(xiàn)有的多模態(tài)大型語(yǔ)言模型架構(gòu)中。

我們將主要貢獻(xiàn)總結(jié)如下:(1)我們引入了一個(gè)輕量級(jí)的、推理時(shí)的令牌調(diào)度框架,該框架重用非主體標(biāo)記信息,而不會(huì)產(chǎn)生 O(L^2) 的復(fù)雜度。(2)我們展示了Transformer早期層中的視覺(jué)信息遷移如何實(shí)現(xiàn)隱式知識(shí)轉(zhuǎn)移,使得我們能夠在推理中途丟棄非主體路徑,且損失極小。(3)在多個(gè)多模態(tài)大型語(yǔ)言模型主干上的實(shí)驗(yàn)表明,ParVTS 可以剪枝高達(dá) 88.9% 的視覺(jué)標(biāo)記,同時(shí)保持性能,實(shí)現(xiàn)了高達(dá) 1.77 倍的加速,并將 FLOPs 減少了 70%。


2 相關(guān)工作 2.1 多模態(tài)大型語(yǔ)言模型

多模態(tài)大型語(yǔ)言模型通過(guò)整合視覺(jué)和音頻等額外模態(tài)來(lái)擴(kuò)展傳統(tǒng)語(yǔ)言模型,在視覺(jué)問(wèn)答和多模態(tài)推理方面表現(xiàn)出色 [1, 2, 21, 22]。典型的多模態(tài)大型語(yǔ)言模型架構(gòu)由一個(gè)視覺(jué)編碼器和一個(gè)語(yǔ)言模型組成,使用輕量級(jí)模塊(如MLP、Q-Former或重采樣器)進(jìn)行對(duì)齊 [1, 21, 23]。代表性模型包括LLaVA [1]、BLIP系列 [2, 24] 和 mini-Gemini-HD [25],它們將CLIP [4] 或 ViT [5] 與LLaMA [26]、GPT [27, 28] 或 Gemma-3 [29] 等語(yǔ)言模型集成在一起。這些模型采用微調(diào)或凍結(jié)策略來(lái)實(shí)現(xiàn)圖像到文本的生成和跨模態(tài)對(duì)齊。此外,最近的進(jìn)展已將多模態(tài)大型語(yǔ)言模型擴(kuò)展到視頻和音頻理解,例如 Video-LLaVA [30] 和 VideoPoet [31]。

多模態(tài)大型語(yǔ)言模型的一個(gè)關(guān)鍵挑戰(zhàn)在于,它們依賴于將圖像或視頻編碼為成百上千個(gè)視覺(jué)標(biāo)記,然后將這些標(biāo)記與文本標(biāo)記連接起來(lái),并由語(yǔ)言模型共同處理。由于自注意力機(jī)制的二次復(fù)雜度 [6],這種方法會(huì)產(chǎn)生高昂的計(jì)算成本。此外,這些視覺(jué)標(biāo)記的冗余性和低信息密度——特別是在高分辨率或多幀輸入中,如 LLaVA [1] 和 mini-Gemini-HD [25] 所示——已成為顯著瓶頸,嚴(yán)重影響了推理效率。

2.2 視覺(jué)標(biāo)記壓縮

視覺(jué)標(biāo)記冗余問(wèn)題已在視覺(jué)Transformer的背景下得到研究 [5]。例如,CF-ViT [32] 采用由粗到細(xì)的處理策略,而 Evo-ViT [33] 引入了一種自適應(yīng)的慢-快標(biāo)記演化機(jī)制,以減少冗余計(jì)算并提高推理效率。在多模態(tài)大型語(yǔ)言模型中,過(guò)多視覺(jué)標(biāo)記帶來(lái)的計(jì)算負(fù)擔(dān)更為突出,因此專門針對(duì)此問(wèn)題發(fā)展了各種視覺(jué)標(biāo)記壓縮技術(shù)。FastV [8] 基于注意力分?jǐn)?shù)選擇最重要的標(biāo)記,僅保留關(guān)鍵信息以減少處理開銷。PruMerge [11] 通過(guò)測(cè)量標(biāo)記與類別標(biāo)記的相似性來(lái)自適應(yīng)地剪枝和合并標(biāo)記,有效平衡了準(zhǔn)確性和效率。SparseVLM [17] 利用跨模態(tài)注意力,根據(jù)文本輸入識(shí)別并保留最相關(guān)的視覺(jué)標(biāo)記,從而改進(jìn)了標(biāo)記選擇并提高了整體模型效率。這些方法利用不同的策略來(lái)識(shí)別和保留關(guān)鍵的視覺(jué)標(biāo)記,顯著提升了多模態(tài)大型語(yǔ)言模型的效率,同時(shí)保持了強(qiáng)大的性能。

2.3 多模態(tài)大型語(yǔ)言模型中的視覺(jué)信息遷移

隨著對(duì)多模態(tài)大型語(yǔ)言模型內(nèi)部機(jī)制的研究日益深入,近期的研究探索了視覺(jué)信息如何通過(guò)語(yǔ)言模型中的Transformer層進(jìn)行傳播。VTW [10] 表明,視覺(jué)信息在早期層通過(guò)因果自注意力迅速遷移到問(wèn)題標(biāo)記,此后視覺(jué)標(biāo)記變得 largely redundant,允許在后續(xù)層中移除它們以實(shí)現(xiàn)更高效的推理。HiMAP [20] 提出了一個(gè)分階段的遷移過(guò)程:在淺層,視覺(jué)標(biāo)記將信息注入問(wèn)題標(biāo)記;而在中層,它們主要進(jìn)行視覺(jué)內(nèi)部的聚合,這表明從跨模態(tài)融合過(guò)渡到了模態(tài)內(nèi)整合??缒B(tài)信息流 [34] 通過(guò)識(shí)別視覺(jué)到文本遷移的兩個(gè)不同階段來(lái)細(xì)化這一理解:首先是將全局視覺(jué)語(yǔ)義注入問(wèn)題標(biāo)記,然后是更聚焦于任務(wù)相關(guān)區(qū)域特征的遷移。最終,最終的預(yù)測(cè)依賴于轉(zhuǎn)換后的文本表示。

3 方法 3.1 初步觀察與動(dòng)機(jī)

現(xiàn)代多模態(tài)大型語(yǔ)言模型,如 LLaVA [22],通常由三個(gè)核心組件構(gòu)成:一個(gè)視覺(jué)編碼器、一個(gè)跨模態(tài)投影器和一個(gè)預(yù)訓(xùn)練的大型語(yǔ)言模型。視覺(jué)編碼器(例如,CLIP ViT-L [4])提取圖像塊特征,并通過(guò)投影器將其映射到語(yǔ)言嵌入空間,生成與文本表示對(duì)齊的視覺(jué)標(biāo)記。給定多模態(tài)輸入,系統(tǒng)會(huì)對(duì)任務(wù)指令(即系統(tǒng)提示)、用戶查詢和視覺(jué)標(biāo)記進(jìn)行編碼。這些分別被 token 化為系統(tǒng)標(biāo)記、文本標(biāo)記和視覺(jué)標(biāo)記。在自回歸解碼過(guò)程中,先前生成的輸出會(huì)被附加到輸入序列中。在第一個(gè) Transformer 層(i = 1),完整的輸入被公式化為:







3.2 視覺(jué)令牌調(diào)度:視覺(jué)令牌何時(shí)以及如何使用

考慮到在 第3.1節(jié)中描述的劃分后的視覺(jué)令牌集 ,我們現(xiàn)在考慮一個(gè)核心問(wèn)題:每組令牌應(yīng)該在何時(shí)以及如何參與推理?直觀上,兩種令牌類型都攜帶互補(bǔ)的視覺(jué)信息——主體令牌反映顯著實(shí)體,而非主體令牌編碼上下文或背景線索。高效利用需要一種調(diào)度策略,使得兩組令牌都能做出有意義的貢獻(xiàn),同時(shí)避免完整的注意力開銷。

為此,我們的視覺(jué)令牌調(diào)度在 Transformer 層之間對(duì)主體和非主體令牌進(jìn)行時(shí)間上的分離。具體來(lái)說(shuō),我們利用視覺(jué)信息遷移現(xiàn)象,即在早期層中通過(guò)自注意力將視覺(jué)語(yǔ)義轉(zhuǎn)移到問(wèn)題令牌中。我們探索了兩種順序調(diào)度策略:(1)主體優(yōu)先調(diào)度;(2)非主體優(yōu)先調(diào)度。






3.3 視覺(jué)令牌組的并行路徑執(zhí)行

為了克服視覺(jué)令牌調(diào)度中的表征局限性,我們提出了一種并行執(zhí)行策略,使得主體和非主體令牌能夠同時(shí)在Transformer的早期層中參與處理。這確保了全面的視覺(jué)信息遷移到問(wèn)題令牌中,同時(shí)避免了因延遲注入令牌而導(dǎo)致的語(yǔ)義不匹配。

一種樸素的解決方案是順序處理兩組令牌,讓它們各自通過(guò)相同的早期層。然而,這會(huì)使計(jì)算成本加倍,并抵消調(diào)度帶來(lái)的好處。因此,我們采用了一種批量并行執(zhí)行的設(shè)計(jì):通過(guò)沿批次維度連接兩組令牌的輸入序列,使得兩組視覺(jué)令牌在同一前向傳遞中被獨(dú)立處理。

如圖2(b)所示,我們?cè)谇? n n個(gè) Transformer 層構(gòu)建了兩個(gè)并行的輸入流:




4 實(shí)驗(yàn) 4.1 實(shí)驗(yàn)設(shè)置

我們使用 LLaVA-1.5 [22]、LLaVA-Next [1]、InternVL2.5 [40]、Qwen2.5-VL [41] 和 VideoLLaVA [30] 來(lái)驗(yàn)證我們的 ParVTS。我們?cè)诙鄠€(gè)不同的基準(zhǔn)上進(jìn)行了比較,包括:視覺(jué)問(wèn)答(GQA [42]、VQAv2 [43]、ScienceQA [13]、VizWiz-VQA [44]、MMB [45]、MME [46])、幻覺(jué)檢測(cè)(POPE [47])、視頻問(wèn)答(TGIF-QA [48]、MSVD-QA [49])。更多的實(shí)現(xiàn)細(xì)節(jié)見附錄 B。

4.2 主要結(jié)果

定量評(píng)估。表1至表4展示了我們的 ParVTS 在固定視覺(jué)令牌預(yù)算下,跨多模態(tài)理解任務(wù)的定量結(jié)果。在表1中,對(duì)于 LLaVA-1.5-7B,我們的 ParVTS 達(dá)到了 92.45% 的平均性能,排名第一,超出第二名(SAINT [37])6.76%。這表明 ParVTS 很好地緩解了令牌減少帶來(lái)的性能下降,即使在激進(jìn)壓縮下也保持了強(qiáng)大的魯棒性和穩(wěn)定性。


此外,如表2至表4所示,我們的 ParVTS 也提升了其他開源多模態(tài)大型語(yǔ)言模型的性能。這表明 ParVTS 能夠可靠地遷移到不同的模型架構(gòu)和規(guī)模,包括 InternVL2.5 和 Qwen2.5-VL。涵蓋更多視覺(jué)令牌預(yù)算、更多多模態(tài)大型語(yǔ)言模型架構(gòu)(InternVL2、Qwen3-VL)以及不同模型規(guī)模的進(jìn)一步實(shí)驗(yàn)見附錄 C。


定性示例。我們?cè)诟戒?I 中進(jìn)一步提供了幾個(gè)推理示例,展示了 ParVTS 能夠正確回答與非主體令牌相關(guān)的查詢。通過(guò)利用而非丟棄非主體令牌,我們的方法保留了上下文線索,并能夠?qū)崿F(xiàn)超越僅主體區(qū)域的準(zhǔn)確推理。

下游任務(wù)。我們?cè)?LISA [50] 上驗(yàn)證了 ParVTS 的泛化能力,這是一個(gè)細(xì)粒度的分割任務(wù)。結(jié)果(詳見附錄 F)表明,ParVTS 在不同的推理場(chǎng)景中成功保留了原始模型的分割能力,證實(shí)了其在需要詳細(xì)視覺(jué)理解的下游應(yīng)用中的有效性。

4.3 成本與效率分析

我們?cè)谌N配置下比較了不同方法,這些配置具有相似的 MME [46] 分?jǐn)?shù),并報(bào)告了在每個(gè)準(zhǔn)確率水平下保留的視覺(jué)令牌數(shù)量、推理延遲和 TFLOPs 成本。如表5所示,ParVTS 始終能以更少的令牌和更低的計(jì)算成本實(shí)現(xiàn)最高的推理準(zhǔn)確率。為了進(jìn)一步評(píng)估效率,我們?cè)诟戒?D 中提供了跨不同并發(fā)和響應(yīng)長(zhǎng)度設(shè)置的細(xì)粒度經(jīng)驗(yàn)統(tǒng)計(jì)和分析,報(bào)告了預(yù)填充和解碼階段的延遲、GPU 峰值內(nèi)存和 TFLOPs。

此外,我們建立了一個(gè)理論加速模型,該模型分析了剪枝率和遷移深度如何影響預(yù)填充和解碼兩個(gè)階段的加速效果,詳見附錄E。

ParVTS 還為高效部署提供了更好的工程兼容性。與 FastV [8]、PruMerge [11] 和 HiRED [38] 不同,這些方法需要訪問(wèn)中間注意力矩陣,因而與 Flash-Attention [51, 52] 的計(jì)算模式存在沖突,而 ParVTS 與 Flash-Attention 和 KV 緩存復(fù)用完全兼容,確保了在實(shí)際部署中的無(wú)縫集成。


4.4 消融研究

遷移深度 n 。我們首先研究了遷移深度 n 如何影響模型性能。如表6所示,在更激進(jìn)的剪枝策略下,需要更大的遷移深度 n 來(lái)維持性能。




基于 [CLS] 的主體定位的可靠性。我們?cè)诟戒?I 中提供了可視化結(jié)果,顯示 [CLS] 令牌的注意力能夠有效分離主體和非主體區(qū)域。這證實(shí)了使用基于 [CLS] 的顯著性進(jìn)行前景定位的可靠性。
5 局限性與未來(lái)工作

ParVTS 使用視覺(jué)編碼器中對(duì) [CLS] 令牌的注意力來(lái)分離主體和非主體令牌。雖然這種輕量級(jí)、無(wú)需監(jiān)督的策略符合我們免訓(xùn)練的設(shè)計(jì)理念,但在處理包含多個(gè)顯著區(qū)域、細(xì)微前景或非對(duì)象中心查詢的圖像時(shí),它可能會(huì)遇到困難。未來(lái)的工作可以探索更魯棒、自適應(yīng)的令牌分組方法,以增強(qiáng)視覺(jué)信息的選擇。此外,關(guān)鍵的超參數(shù)(遷移深度 n n和融合權(quán)重 α , β
)是經(jīng)驗(yàn)性設(shè)置的。根據(jù)輸入或任務(wù)自動(dòng)調(diào)整這些參數(shù)仍然是一個(gè)待探索的方向。

6 結(jié)論

我們提出了 ParVTS,一個(gè)免訓(xùn)練的視覺(jué)令牌調(diào)度框架,它利用早期層的信息遷移和并行執(zhí)行來(lái)恢復(fù)非主體語(yǔ)義,從而實(shí)現(xiàn)快速且準(zhǔn)確的多模態(tài)大型語(yǔ)言模型推理??缍鄠€(gè)基準(zhǔn)和壓縮級(jí)別的實(shí)驗(yàn)表明,ParVTS 在顯著降低推理成本的同時(shí),始終能實(shí)現(xiàn)強(qiáng)大的性能。這些結(jié)果凸顯了利用模型內(nèi)在行為進(jìn)行高效推理的潛力,為機(jī)制感知的多模態(tài)推理提供了新的見解。

原文鏈接:https://www.arxiv.org/pdf/2511.18875

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
張雪峰母親的哭聲響徹全場(chǎng),沈南淚別好兄弟張雪峰:他安靜睡著了

張雪峰母親的哭聲響徹全場(chǎng),沈南淚別好兄弟張雪峰:他安靜睡著了

安寧007
2026-03-29 21:27:49
排面!全紅嬋曬19歲慶生照:跳水奧運(yùn)冠軍集體亮相,楊倩也出席

排面!全紅嬋曬19歲慶生照:跳水奧運(yùn)冠軍集體亮相,楊倩也出席

李喜林籃球絕殺
2026-03-29 10:56:49
33歲人妻球場(chǎng)換裝驚艷四座,這豐滿胸圍是真實(shí)存在的嗎?

33歲人妻球場(chǎng)換裝驚艷四座,這豐滿胸圍是真實(shí)存在的嗎?

娛樂(lè)領(lǐng)航家
2026-03-06 20:00:03
多人講述太原高樓大火:居民稱隔一條巷子都有“灼燒感”,對(duì)面店員持滅火器趕來(lái)?yè)渚?>
    </a>
        <h3>
      <a href=瀟湘晨報(bào)
2026-03-29 22:21:18
復(fù)婚二胎傳聞落定七月,趙麗穎近況曝光讓人揪心

復(fù)婚二胎傳聞落定七月,趙麗穎近況曝光讓人揪心

阿廢冷眼觀察所
2026-03-29 18:46:36
她是國(guó)家一級(jí)演員,婚內(nèi)多次給丈夫戴綠帽,丈夫卻隱忍14年沒(méi)離婚

她是國(guó)家一級(jí)演員,婚內(nèi)多次給丈夫戴綠帽,丈夫卻隱忍14年沒(méi)離婚

黎兜兜
2026-03-29 21:20:05
美國(guó)發(fā)警告:伊朗別再?gòu)?qiáng)硬表演了,背后危機(jī)或?qū)⒈l(fā)!

美國(guó)發(fā)警告:伊朗別再?gòu)?qiáng)硬表演了,背后危機(jī)或?qū)⒈l(fā)!

阿天愛(ài)旅行
2026-03-29 11:31:25
特朗普宣布訪華新日期,不到48個(gè)小時(shí),中方不留情面,連續(xù)反制

特朗普宣布訪華新日期,不到48個(gè)小時(shí),中方不留情面,連續(xù)反制

肖茲探秘說(shuō)
2026-03-28 19:09:12
山西一兒媳住院公公陪床,趁護(hù)士換藥塞紙條,護(hù)士看后直接報(bào)警

山西一兒媳住院公公陪床,趁護(hù)士換藥塞紙條,護(hù)士看后直接報(bào)警

五元講堂
2024-10-24 10:54:37
中方不再手軟,巴拿馬籍船被扣留,第三國(guó)開始介入,妄圖霸占運(yùn)河

中方不再手軟,巴拿馬籍船被扣留,第三國(guó)開始介入,妄圖霸占運(yùn)河

古史青云啊
2026-03-29 14:36:07
首任駐香港部隊(duì)司令員,劉鎮(zhèn)武能領(lǐng)到多少工資?

首任駐香港部隊(duì)司令員,劉鎮(zhèn)武能領(lǐng)到多少工資?

歸史
2026-03-27 17:39:21
場(chǎng)均25分15板14助,和MVP漸行漸遠(yuǎn)!這也是你很難奪冠的主要原因

場(chǎng)均25分15板14助,和MVP漸行漸遠(yuǎn)!這也是你很難奪冠的主要原因

老梁體育漫談
2026-03-30 00:16:54
曼聯(lián)傳奇隊(duì)5-3擊敗南安普頓傳奇隊(duì),貝爾巴托夫罰丟一粒點(diǎn)球

曼聯(lián)傳奇隊(duì)5-3擊敗南安普頓傳奇隊(duì),貝爾巴托夫罰丟一粒點(diǎn)球

懂球帝
2026-03-29 14:53:17
一個(gè)奇怪現(xiàn)象:明明工作那么難找,月薪三千的保安卻一直招不到人

一個(gè)奇怪現(xiàn)象:明明工作那么難找,月薪三千的保安卻一直招不到人

搗蛋窩
2026-03-23 16:18:22
暴跌85%,高管年薪數(shù)十億,又一巨頭爆雷!

暴跌85%,高管年薪數(shù)十億,又一巨頭爆雷!

蔣東文
2026-03-27 21:02:45
深圳雙殺吉林豪取7連勝升第四 賀希寧22+4+5王浩然23+5+4

深圳雙殺吉林豪取7連勝升第四 賀希寧22+4+5王浩然23+5+4

醉臥浮生
2026-03-29 21:10:25
案例:馬向東為給兒子報(bào)仇被判死刑,臨刑時(shí)對(duì)妻子說(shuō):我下去陪孩子

案例:馬向東為給兒子報(bào)仇被判死刑,臨刑時(shí)對(duì)妻子說(shuō):我下去陪孩子

清茶淺談
2025-02-10 20:20:20
中東還是變天了:沙特阿聯(lián)酋開放軍事基地,勸特朗普打伊朗不要停

中東還是變天了:沙特阿聯(lián)酋開放軍事基地,勸特朗普打伊朗不要停

車窗起霧q
2026-03-30 01:16:38
日媒傳來(lái)消息:高市早苗已經(jīng)做好準(zhǔn)備,隨時(shí)成為第二個(gè)安倍

日媒傳來(lái)消息:高市早苗已經(jīng)做好準(zhǔn)備,隨時(shí)成為第二個(gè)安倍

小影的娛樂(lè)
2026-03-28 19:16:44
“兩物不送人,子孫人上人”:這2樣?xùn)|西別送人,關(guān)系再好也不行

“兩物不送人,子孫人上人”:這2樣?xùn)|西別送人,關(guān)系再好也不行

白淺娛樂(lè)聊
2026-03-17 17:13:11
2026-03-30 02:12:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1313文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯(cuò)了",11位創(chuàng)始人均離職

頭條要聞

伊朗議長(zhǎng):美航母遭受巨大損失 我們絕不接受屈辱

頭條要聞

伊朗議長(zhǎng):美航母遭受巨大損失 我們絕不接受屈辱

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻(xiàn)給父親

娛樂(lè)要聞

汪峰定律再現(xiàn)!李榮浩喊話單依純侵權(quán)

財(cái)經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

本地
房產(chǎn)
數(shù)碼
健康
公開課

本地新聞

在濰坊待了三天,沒(méi)遇到一個(gè)“濰坊人”

房產(chǎn)要聞

首日430組來(lái)訪,單日120組認(rèn)籌!??谑讉€(gè)真四代,徹底爆了!

數(shù)碼要聞

內(nèi)存條價(jià)格被曝出現(xiàn)斷崖式下跌,一天跌去百元

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版