網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

并行視覺(jué)Token調(diào)度：實(shí)現(xiàn)快速精準(zhǔn)的多模態(tài)大模型推理

2026-02-24 09:00:21　來(lái)源: CreateAMind

上海舉報(bào)

分享至

并行視覺(jué)Token調(diào)度：實(shí)現(xiàn)快速精準(zhǔn)的多模態(tài)大模型推理

PARALLEL VISION TOKEN SCHEDULING FOR FAST ANDACCURATE MULTIMODAL LMMS INFERENCE

https://www.arxiv.org/pdf/2511.18875

摘要

多模態(tài)大語(yǔ)言模型（MLLMs）展現(xiàn)出令人印象深刻的視覺(jué)-語(yǔ)言推理能力，但推理延遲嚴(yán)重，因?yàn)樽宰⒁饬εc序列長(zhǎng)度呈二次方關(guān)系，且高分辨率圖像貢獻(xiàn)數(shù)千個(gè)視覺(jué)Token。簡(jiǎn)單剪枝信息量較少的視覺(jué)Token可減輕這一負(fù)擔(dān)，但盲目移除會(huì)剝離背景或細(xì)粒度問(wèn)題所需的關(guān)鍵上下文線索，損害準(zhǔn)確性。本文提出ParVTS（并行視覺(jué)Token調(diào)度），一種無(wú)需訓(xùn)練的調(diào)度框架，將視覺(jué)Token劃分為主體和非主體兩組，并行處理以將其語(yǔ)義轉(zhuǎn)移到問(wèn)題Token中，并在推理中途丟棄非主體路徑以減少計(jì)算。該調(diào)度降低計(jì)算復(fù)雜度，無(wú)需啟發(fā)式規(guī)則或額外模塊，兼容多種現(xiàn)有MLLM架構(gòu)。跨多個(gè)MLLM骨干的實(shí)驗(yàn)表明，ParVTS可剪枝高達(dá)88.9%的視覺(jué)Token且性能下降極小，實(shí)現(xiàn)1.77倍加速和70% FLOPs減少。

關(guān)鍵詞 MLLM · 視覺(jué)Token縮減 · 免訓(xùn)練

1 引言

多模態(tài)大型語(yǔ)言模型結(jié)合了為指令跟隨進(jìn)行微調(diào)的大型語(yǔ)言模型，顯著增強(qiáng)了視覺(jué)-語(yǔ)言任務(wù)的能力，包括復(fù)雜推理和視覺(jué)理解。然而，這些優(yōu)勢(shì)伴隨著巨大的計(jì)算成本。

該成本的一個(gè)主要來(lái)源是Transformer自注意力機(jī)制的二次復(fù)雜度，隨著輸入序列長(zhǎng)度的增加，這種復(fù)雜度變得令人望而卻步。在多模態(tài)大型語(yǔ)言模型中，來(lái)自高分辨率圖像的視覺(jué)標(biāo)記通常在序列中占主導(dǎo)地位——有時(shí)數(shù)量可達(dá)數(shù)千個(gè)——遠(yuǎn)遠(yuǎn)超過(guò)文本標(biāo)記。這種不平衡極大地延長(zhǎng)了推理延遲，在視覺(jué)問(wèn)答和移動(dòng)增強(qiáng)現(xiàn)實(shí)等對(duì)延遲敏感、需要實(shí)時(shí)響應(yīng)的應(yīng)用中造成了嚴(yán)峻挑戰(zhàn)。

然而，盡管大多數(shù)視覺(jué)問(wèn)題都圍繞主體實(shí)體展開，但仍有不可忽視的一部分查詢針對(duì)的是背景上下文、細(xì)粒度細(xì)節(jié)或外圍物體——這些信息通常由非主體標(biāo)記所代表。

如圖1所示，在四個(gè)具有代表性的VQA數(shù)據(jù)集（SQA [13]、AI2D [14]、OCRBench [15]和TextVQA [16]）中，與主體相關(guān)的問(wèn)題約占所有查詢的73%至80%，其余19%至27%為非主體導(dǎo)向問(wèn)題。這些非主體問(wèn)題雖然較少，但通常需要對(duì)核心主體區(qū)域之外的細(xì)微屬性進(jìn)行推理（例如，標(biāo)牌上的品牌名稱或透明物體的存在）。圖1右側(cè)的視覺(jué)示例突出了這種區(qū)別。識(shí)別球衣號(hào)碼（問(wèn)題1）僅需要主體標(biāo)記，而識(shí)別場(chǎng)地周圍的贊助商標(biāo)志（問(wèn)題2）則依賴于外圍視覺(jué)信息。雖然花朵顏色（問(wèn)題1）局限于主體，但檢查玻璃杯是否含有液體（問(wèn)題2）需要關(guān)注不太顯著但相關(guān)的區(qū)域。這些發(fā)現(xiàn)強(qiáng)調(diào)了剪除非主體標(biāo)記可能會(huì)遺漏關(guān)鍵的視覺(jué)線索。因此，一種能夠重用或保留這些標(biāo)記信息的機(jī)制對(duì)于在多樣化的多模態(tài)場(chǎng)景中保持計(jì)算效率和穩(wěn)健的任務(wù)性能至關(guān)重要。

現(xiàn)有方法主要分為兩類。（1）無(wú)需訓(xùn)練的方法，如PruMerge [11] 和 SparseVLM [17]，基于相似性啟發(fā)式方法合并或剪枝標(biāo)記，但會(huì)丟失對(duì)原始標(biāo)記表示的直接訪問(wèn)，并可能在任務(wù)泛化方面遇到困難。（2）基于訓(xùn)練的方法，如LLaVA-Mini [18] 和 VoCo-LLaMA [19]，在減少視覺(jué)信息之前引入額外的模塊進(jìn)行壓縮，這增加了訓(xùn)練和推理開銷，并可能丟失精細(xì)細(xì)節(jié)。

我們認(rèn)為，理想的解決方案應(yīng)滿足三個(gè)標(biāo)準(zhǔn)：（i）計(jì)算效率低于 O(L^2)；（ii）無(wú)需啟發(fā)式方法即可重用被丟棄的標(biāo)記信息；（iii）在結(jié)構(gòu)上與當(dāng)前的多模態(tài)大型語(yǔ)言模型兼容，且無(wú)需添加額外模塊。

最近的研究 [10, 20] 強(qiáng)調(diào)了一種我們稱之為視覺(jué)信息遷移的現(xiàn)象：在LLM的早期層中，視覺(jué)標(biāo)記信息通過(guò)自注意力機(jī)制隱式地轉(zhuǎn)移到問(wèn)題標(biāo)記。這一觀察結(jié)果啟發(fā)了一種新的范式：我們能否不顯式地壓縮或恢復(fù)被丟棄的標(biāo)記，而是利用這種遷移機(jī)制在網(wǎng)絡(luò)早期階段提取必要信息？

在本文中，我們提出了 ParVTS（并行視覺(jué)令牌調(diào)度），一種新穎的令牌調(diào)度框架，通過(guò)有意地解耦不同類型視覺(jué)標(biāo)記的處理，實(shí)現(xiàn)快速且準(zhǔn)確的多模態(tài)大型語(yǔ)言模型推理。ParVTS并非統(tǒng)一處理所有視覺(jué)標(biāo)記，而是根據(jù)它們?cè)谝曈X(jué)編碼器中對(duì)[CLS]標(biāo)記的注意力權(quán)重，將視覺(jué)標(biāo)記劃分為主體組和非主體組——其中較高的注意力表明與主要視覺(jué)焦點(diǎn)具有更大的語(yǔ)義相關(guān)性。這種基于軟顯著性的分離反映了每個(gè)標(biāo)記對(duì)下游推理的潛在貢獻(xiàn)，并且可以在無(wú)需額外監(jiān)督或模型組件的情況下高效計(jì)算。

分組完成后，這些標(biāo)記通過(guò)單個(gè)前向傳遞中的并行LLM路徑進(jìn)行路由，該過(guò)程通過(guò)批量方式的令牌調(diào)度實(shí)現(xiàn)。每個(gè)路徑都攜帶其自身的問(wèn)題標(biāo)記副本，并關(guān)注視覺(jué)輸入的不同子集。在Transformer的早期層中，模型固有的注意力動(dòng)態(tài)促進(jìn)了視覺(jué)信息遷移 [10, 20]——即無(wú)論類型如何，視覺(jué)標(biāo)記都會(huì)逐漸將其嵌入的內(nèi)容傳遞給問(wèn)題標(biāo)記。這使得每個(gè)分支能夠隨時(shí)間將其相關(guān)的視覺(jué)情境提煉到其問(wèn)題表示中。

在經(jīng)過(guò)固定數(shù)量的層之后，兩組問(wèn)題標(biāo)記——現(xiàn)在已分別 enriched with 與主體相關(guān)或非主體相關(guān)的信息——被合并。由于每個(gè)分支已通過(guò)注意力傳遞了其視覺(jué)語(yǔ)義的基本部分，融合后的問(wèn)題標(biāo)記擁有了對(duì)圖像的充分理解，能夠指導(dǎo)后續(xù)的推理。然后，我們丟棄非主體視覺(jué)分支，僅使用主體標(biāo)記和合并后的問(wèn)題標(biāo)記繼續(xù)推理，從而在保留任務(wù)相關(guān)信息的同時(shí)實(shí)現(xiàn)顯著的計(jì)算節(jié)省。

這種設(shè)計(jì)實(shí)現(xiàn)了所有視覺(jué)標(biāo)記在早期階段的信息轉(zhuǎn)移，同時(shí)消除了后期層中的冗余計(jì)算。值得注意的是，ParVTS 不需要輔助模塊、啟發(fā)式方法或微調(diào)，并且可以無(wú)縫集成到現(xiàn)有的多模態(tài)大型語(yǔ)言模型架構(gòu)中。

我們將主要貢獻(xiàn)總結(jié)如下：（1）我們引入了一個(gè)輕量級(jí)的、推理時(shí)的令牌調(diào)度框架，該框架重用非主體標(biāo)記信息，而不會(huì)產(chǎn)生 O(L^2) 的復(fù)雜度。（2）我們展示了Transformer早期層中的視覺(jué)信息遷移如何實(shí)現(xiàn)隱式知識(shí)轉(zhuǎn)移，使得我們能夠在推理中途丟棄非主體路徑，且損失極小。（3）在多個(gè)多模態(tài)大型語(yǔ)言模型主干上的實(shí)驗(yàn)表明，ParVTS 可以剪枝高達(dá) 88.9% 的視覺(jué)標(biāo)記，同時(shí)保持性能，實(shí)現(xiàn)了高達(dá) 1.77 倍的加速，并將 FLOPs 減少了 70%。

2 相關(guān)工作 2.1 多模態(tài)大型語(yǔ)言模型

多模態(tài)大型語(yǔ)言模型通過(guò)整合視覺(jué)和音頻等額外模態(tài)來(lái)擴(kuò)展傳統(tǒng)語(yǔ)言模型，在視覺(jué)問(wèn)答和多模態(tài)推理方面表現(xiàn)出色 [1, 2, 21, 22]。典型的多模態(tài)大型語(yǔ)言模型架構(gòu)由一個(gè)視覺(jué)編碼器和一個(gè)語(yǔ)言模型組成，使用輕量級(jí)模塊（如MLP、Q-Former或重采樣器）進(jìn)行對(duì)齊 [1, 21, 23]。代表性模型包括LLaVA [1]、BLIP系列 [2, 24] 和 mini-Gemini-HD [25]，它們將CLIP [4] 或 ViT [5] 與LLaMA [26]、GPT [27, 28] 或 Gemma-3 [29] 等語(yǔ)言模型集成在一起。這些模型采用微調(diào)或凍結(jié)策略來(lái)實(shí)現(xiàn)圖像到文本的生成和跨模態(tài)對(duì)齊。此外，最近的進(jìn)展已將多模態(tài)大型語(yǔ)言模型擴(kuò)展到視頻和音頻理解，例如 Video-LLaVA [30] 和 VideoPoet [31]。

多模態(tài)大型語(yǔ)言模型的一個(gè)關(guān)鍵挑戰(zhàn)在于，它們依賴于將圖像或視頻編碼為成百上千個(gè)視覺(jué)標(biāo)記，然后將這些標(biāo)記與文本標(biāo)記連接起來(lái)，并由語(yǔ)言模型共同處理。由于自注意力機(jī)制的二次復(fù)雜度 [6]，這種方法會(huì)產(chǎn)生高昂的計(jì)算成本。此外，這些視覺(jué)標(biāo)記的冗余性和低信息密度——特別是在高分辨率或多幀輸入中，如 LLaVA [1] 和 mini-Gemini-HD [25] 所示——已成為顯著瓶頸，嚴(yán)重影響了推理效率。

2.2 視覺(jué)標(biāo)記壓縮

視覺(jué)標(biāo)記冗余問(wèn)題已在視覺(jué)Transformer的背景下得到研究 [5]。例如，CF-ViT [32] 采用由粗到細(xì)的處理策略，而 Evo-ViT [33] 引入了一種自適應(yīng)的慢-快標(biāo)記演化機(jī)制，以減少冗余計(jì)算并提高推理效率。在多模態(tài)大型語(yǔ)言模型中，過(guò)多視覺(jué)標(biāo)記帶來(lái)的計(jì)算負(fù)擔(dān)更為突出，因此專門針對(duì)此問(wèn)題發(fā)展了各種視覺(jué)標(biāo)記壓縮技術(shù)。FastV [8] 基于注意力分?jǐn)?shù)選擇最重要的標(biāo)記，僅保留關(guān)鍵信息以減少處理開銷。PruMerge [11] 通過(guò)測(cè)量標(biāo)記與類別標(biāo)記的相似性來(lái)自適應(yīng)地剪枝和合并標(biāo)記，有效平衡了準(zhǔn)確性和效率。SparseVLM [17] 利用跨模態(tài)注意力，根據(jù)文本輸入識(shí)別并保留最相關(guān)的視覺(jué)標(biāo)記，從而改進(jìn)了標(biāo)記選擇并提高了整體模型效率。這些方法利用不同的策略來(lái)識(shí)別和保留關(guān)鍵的視覺(jué)標(biāo)記，顯著提升了多模態(tài)大型語(yǔ)言模型的效率，同時(shí)保持了強(qiáng)大的性能。

2.3 多模態(tài)大型語(yǔ)言模型中的視覺(jué)信息遷移

隨著對(duì)多模態(tài)大型語(yǔ)言模型內(nèi)部機(jī)制的研究日益深入，近期的研究探索了視覺(jué)信息如何通過(guò)語(yǔ)言模型中的Transformer層進(jìn)行傳播。VTW [10] 表明，視覺(jué)信息在早期層通過(guò)因果自注意力迅速遷移到問(wèn)題標(biāo)記，此后視覺(jué)標(biāo)記變得 largely redundant，允許在后續(xù)層中移除它們以實(shí)現(xiàn)更高效的推理。HiMAP [20] 提出了一個(gè)分階段的遷移過(guò)程：在淺層，視覺(jué)標(biāo)記將信息注入問(wèn)題標(biāo)記；而在中層，它們主要進(jìn)行視覺(jué)內(nèi)部的聚合，這表明從跨模態(tài)融合過(guò)渡到了模態(tài)內(nèi)整合?？缒B(tài)信息流 [34] 通過(guò)識(shí)別視覺(jué)到文本遷移的兩個(gè)不同階段來(lái)細(xì)化這一理解：首先是將全局視覺(jué)語(yǔ)義注入問(wèn)題標(biāo)記，然后是更聚焦于任務(wù)相關(guān)區(qū)域特征的遷移。最終，最終的預(yù)測(cè)依賴于轉(zhuǎn)換后的文本表示。

3 方法 3.1 初步觀察與動(dòng)機(jī)

現(xiàn)代多模態(tài)大型語(yǔ)言模型，如 LLaVA [22]，通常由三個(gè)核心組件構(gòu)成：一個(gè)視覺(jué)編碼器、一個(gè)跨模態(tài)投影器和一個(gè)預(yù)訓(xùn)練的大型語(yǔ)言模型。視覺(jué)編碼器（例如，CLIP ViT-L [4]）提取圖像塊特征，并通過(guò)投影器將其映射到語(yǔ)言嵌入空間，生成與文本表示對(duì)齊的視覺(jué)標(biāo)記。給定多模態(tài)輸入，系統(tǒng)會(huì)對(duì)任務(wù)指令（即系統(tǒng)提示）、用戶查詢和視覺(jué)標(biāo)記進(jìn)行編碼。這些分別被 token 化為系統(tǒng)標(biāo)記、文本標(biāo)記和視覺(jué)標(biāo)記。在自回歸解碼過(guò)程中，先前生成的輸出會(huì)被附加到輸入序列中。在第一個(gè) Transformer 層（i = 1），完整的輸入被公式化為：

3.2 視覺(jué)令牌調(diào)度：視覺(jué)令牌何時(shí)以及如何使用

考慮到在 第3.1節(jié)中描述的劃分后的視覺(jué)令牌集，我們現(xiàn)在考慮一個(gè)核心問(wèn)題：每組令牌應(yīng)該在何時(shí)以及如何參與推理？直觀上，兩種令牌類型都攜帶互補(bǔ)的視覺(jué)信息——主體令牌反映顯著實(shí)體，而非主體令牌編碼上下文或背景線索。高效利用需要一種調(diào)度策略，使得兩組令牌都能做出有意義的貢獻(xiàn)，同時(shí)避免完整的注意力開銷。

為此，我們的視覺(jué)令牌調(diào)度在 Transformer 層之間對(duì)主體和非主體令牌進(jìn)行時(shí)間上的分離。具體來(lái)說(shuō)，我們利用視覺(jué)信息遷移現(xiàn)象，即在早期層中通過(guò)自注意力將視覺(jué)語(yǔ)義轉(zhuǎn)移到問(wèn)題令牌中。我們探索了兩種順序調(diào)度策略：（1）主體優(yōu)先調(diào)度；（2）非主體優(yōu)先調(diào)度。

3.3 視覺(jué)令牌組的并行路徑執(zhí)行

為了克服視覺(jué)令牌調(diào)度中的表征局限性，我們提出了一種并行執(zhí)行策略，使得主體和非主體令牌能夠同時(shí)在Transformer的早期層中參與處理。這確保了全面的視覺(jué)信息遷移到問(wèn)題令牌中，同時(shí)避免了因延遲注入令牌而導(dǎo)致的語(yǔ)義不匹配。

一種樸素的解決方案是順序處理兩組令牌，讓它們各自通過(guò)相同的早期層。然而，這會(huì)使計(jì)算成本加倍，并抵消調(diào)度帶來(lái)的好處。因此，我們采用了一種批量并行執(zhí)行的設(shè)計(jì)：通過(guò)沿批次維度連接兩組令牌的輸入序列，使得兩組視覺(jué)令牌在同一前向傳遞中被獨(dú)立處理。

如圖2(b)所示，我們?cè)谇? n n個(gè) Transformer 層構(gòu)建了兩個(gè)并行的輸入流：

4 實(shí)驗(yàn) 4.1 實(shí)驗(yàn)設(shè)置

我們使用 LLaVA-1.5 [22]、LLaVA-Next [1]、InternVL2.5 [40]、Qwen2.5-VL [41] 和 VideoLLaVA [30] 來(lái)驗(yàn)證我們的 ParVTS。我們?cè)诙鄠€(gè)不同的基準(zhǔn)上進(jìn)行了比較，包括：視覺(jué)問(wèn)答（GQA [42]、VQAv2 [43]、ScienceQA [13]、VizWiz-VQA [44]、MMB [45]、MME [46]）、幻覺(jué)檢測(cè)（POPE [47]）、視頻問(wèn)答（TGIF-QA [48]、MSVD-QA [49]）。更多的實(shí)現(xiàn)細(xì)節(jié)見附錄 B。

4.2 主要結(jié)果

定量評(píng)估。表1至表4展示了我們的 ParVTS 在固定視覺(jué)令牌預(yù)算下，跨多模態(tài)理解任務(wù)的定量結(jié)果。在表1中，對(duì)于 LLaVA-1.5-7B，我們的 ParVTS 達(dá)到了 92.45% 的平均性能，排名第一，超出第二名（SAINT [37]）6.76%。這表明 ParVTS 很好地緩解了令牌減少帶來(lái)的性能下降，即使在激進(jìn)壓縮下也保持了強(qiáng)大的魯棒性和穩(wěn)定性。

此外，如表2至表4所示，我們的 ParVTS 也提升了其他開源多模態(tài)大型語(yǔ)言模型的性能。這表明 ParVTS 能夠可靠地遷移到不同的模型架構(gòu)和規(guī)模，包括 InternVL2.5 和 Qwen2.5-VL。涵蓋更多視覺(jué)令牌預(yù)算、更多多模態(tài)大型語(yǔ)言模型架構(gòu)（InternVL2、Qwen3-VL）以及不同模型規(guī)模的進(jìn)一步實(shí)驗(yàn)見附錄 C。

定性示例。我們?cè)诟戒?I 中進(jìn)一步提供了幾個(gè)推理示例，展示了 ParVTS 能夠正確回答與非主體令牌相關(guān)的查詢。通過(guò)利用而非丟棄非主體令牌，我們的方法保留了上下文線索，并能夠?qū)崿F(xiàn)超越僅主體區(qū)域的準(zhǔn)確推理。

下游任務(wù)。我們?cè)?LISA [50] 上驗(yàn)證了 ParVTS 的泛化能力，這是一個(gè)細(xì)粒度的分割任務(wù)。結(jié)果（詳見附錄 F）表明，ParVTS 在不同的推理場(chǎng)景中成功保留了原始模型的分割能力，證實(shí)了其在需要詳細(xì)視覺(jué)理解的下游應(yīng)用中的有效性。

4.3 成本與效率分析

我們?cè)谌N配置下比較了不同方法，這些配置具有相似的 MME [46] 分?jǐn)?shù)，并報(bào)告了在每個(gè)準(zhǔn)確率水平下保留的視覺(jué)令牌數(shù)量、推理延遲和 TFLOPs 成本。如表5所示，ParVTS 始終能以更少的令牌和更低的計(jì)算成本實(shí)現(xiàn)最高的推理準(zhǔn)確率。為了進(jìn)一步評(píng)估效率，我們?cè)诟戒?D 中提供了跨不同并發(fā)和響應(yīng)長(zhǎng)度設(shè)置的細(xì)粒度經(jīng)驗(yàn)統(tǒng)計(jì)和分析，報(bào)告了預(yù)填充和解碼階段的延遲、GPU 峰值內(nèi)存和 TFLOPs。

此外，我們建立了一個(gè)理論加速模型，該模型分析了剪枝率和遷移深度如何影響預(yù)填充和解碼兩個(gè)階段的加速效果，詳見附錄E。

ParVTS 還為高效部署提供了更好的工程兼容性。與 FastV [8]、PruMerge [11] 和 HiRED [38] 不同，這些方法需要訪問(wèn)中間注意力矩陣，因而與 Flash-Attention [51, 52] 的計(jì)算模式存在沖突，而 ParVTS 與 Flash-Attention 和 KV 緩存復(fù)用完全兼容，確保了在實(shí)際部署中的無(wú)縫集成。

4.4 消融研究

遷移深度 n 。我們首先研究了遷移深度 n 如何影響模型性能。如表6所示，在更激進(jìn)的剪枝策略下，需要更大的遷移深度 n 來(lái)維持性能。

基于 [CLS] 的主體定位的可靠性。我們?cè)诟戒?I 中提供了可視化結(jié)果，顯示 [CLS] 令牌的注意力能夠有效分離主體和非主體區(qū)域。這證實(shí)了使用基于 [CLS] 的顯著性進(jìn)行前景定位的可靠性。
5 局限性與未來(lái)工作

ParVTS 使用視覺(jué)編碼器中對(duì) [CLS] 令牌的注意力來(lái)分離主體和非主體令牌。雖然這種輕量級(jí)、無(wú)需監(jiān)督的策略符合我們免訓(xùn)練的設(shè)計(jì)理念，但在處理包含多個(gè)顯著區(qū)域、細(xì)微前景或非對(duì)象中心查詢的圖像時(shí)，它可能會(huì)遇到困難。未來(lái)的工作可以探索更魯棒、自適應(yīng)的令牌分組方法，以增強(qiáng)視覺(jué)信息的選擇。此外，關(guān)鍵的超參數(shù)（遷移深度 n n和融合權(quán)重 α , β
）是經(jīng)驗(yàn)性設(shè)置的。根據(jù)輸入或任務(wù)自動(dòng)調(diào)整這些參數(shù)仍然是一個(gè)待探索的方向。

6 結(jié)論

我們提出了 ParVTS，一個(gè)免訓(xùn)練的視覺(jué)令牌調(diào)度框架，它利用早期層的信息遷移和并行執(zhí)行來(lái)恢復(fù)非主體語(yǔ)義，從而實(shí)現(xiàn)快速且準(zhǔn)確的多模態(tài)大型語(yǔ)言模型推理?？缍鄠€(gè)基準(zhǔn)和壓縮級(jí)別的實(shí)驗(yàn)表明，ParVTS 在顯著降低推理成本的同時(shí)，始終能實(shí)現(xiàn)強(qiáng)大的性能。這些結(jié)果凸顯了利用模型內(nèi)在行為進(jìn)行高效推理的潛力，為機(jī)制感知的多模態(tài)推理提供了新的見解。

原文鏈接：https://www.arxiv.org/pdf/2511.18875

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.