網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

無需訓(xùn)練，如何提升黑箱VLM？CARPRT用「類別感知」給出答案

2026-04-29 12:42:24　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

近年來，視覺-語言模型（Vision-Language Models, VLMs）如 CLIP 的出現(xiàn)，徹底改變了圖像理解的范式。其中，零樣本分類作為 VLM 的核心優(yōu)勢(shì)之一，無需額外標(biāo)注數(shù)據(jù)即可完成陌生類別的識(shí)別，極大降低了圖像分類的成本與門檻，成為工業(yè)界與學(xué)術(shù)界關(guān)注的焦點(diǎn)。

然而，當(dāng)前 VLM 零樣本分類上仍存在一個(gè)亟待解決的問題：其分類性能對(duì) Prompt 極其敏感，僅僅改變描述方式，例如：“a photo of a dog”，“a blurry image of a dog”，模型輸出可能顯著變化。為緩解這一問題，現(xiàn)有提示詞（prompt）集成方案普遍采用全局共享權(quán)重設(shè)計(jì)，無視提示詞與類別之間的語義適配差異，導(dǎo)致分類精度難以突破瓶頸，尤其在黑箱模型場景下。

近期，來自墨爾本大學(xué)可信賴機(jī)器學(xué)習(xí)與推理（TMLR）研究小組提出了類別感知提示詞重加權(quán) (Class-Aware Prompt Reweighting, CARPRT) 這一解決方案，該方案以 “無訓(xùn)練、黑箱適配、類別專屬權(quán)重” 為核心，精準(zhǔn)解決了當(dāng)前 VLM 零樣本分類中提示詞語義適配不足的問題，并在多個(gè)細(xì)分類數(shù)據(jù)集上獲得了分類性能的突破。目前該論文已被 ICLR 2026（國際學(xué)習(xí)表征會(huì)議）接收。

論文標(biāo)題：CARPRT: Class-Aware Zero-Shot Prompt Reweighting for Black-Box Vision-Language Models
Paper: https://openreview.net/pdf?id=AScQDQqVXY
GitHub: https://github.com/tmlr-group/CARPRT

一、VLM 零樣本分類的提示詞的難解

VLMs 的零樣本分類能力，本質(zhì)上依賴于提示詞（prompt）、圖像之間的語義對(duì)齊關(guān)系。通常，通過構(gòu)造一組提示詞模板（如 “a photo of {}”），并將類別嵌入自然語言描述中，從而引導(dǎo)模型在共享嵌入空間中匹配圖像與文本特征，實(shí)現(xiàn)分類預(yù)測(cè)。

然而，提示詞的選擇對(duì)模型性能具有顯著影響。不同提示詞在語義上對(duì)不同類別的適配程度存在明顯差異。現(xiàn)有主流方法，如 MPE（Mean Prompt Ensembling）和 WPE（Weighted Prompt Ensembling），通常采用類別無關(guān)（class-agnostic）的權(quán)重設(shè)計(jì)，即所有類別共享同一組提示詞權(quán)重，隱式假設(shè)提示詞對(duì)不同類別具有一致的重要性。然而，這一假設(shè)在實(shí)際中往往并不成立。正如圖 1 所示，不同類別對(duì)應(yīng)的最優(yōu)提示詞權(quán)重分布存在顯著差異，同時(shí)，當(dāng)從類別無關(guān)的權(quán)重轉(zhuǎn)為按類別分別計(jì)算權(quán)重時(shí)，多個(gè)類別的分類準(zhǔn)確率均得到提升，這些現(xiàn)象表明提示詞的有效性本質(zhì)上具有類別依賴性。

類別無關(guān)的權(quán)重設(shè)計(jì)帶來了兩方面局限：其一，從建模角度看，它隱含地假設(shè)所有提示詞對(duì)不同類別具有一致的重要性，忽略了提示詞與類別之間的語義差異，從而容易引入系統(tǒng)性的匹配偏差；其二，在實(shí)際應(yīng)用中，提示詞往往依賴人工構(gòu)造或篩選，不僅成本較高，而且泛化能力有限，在跨數(shù)據(jù)集或新場景下容易失效。

與此同時(shí)，在黑箱 VLM 設(shè)置下（如閉源模型），由于無法訪問模型參數(shù)或利用標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練，研究者難以通過學(xué)習(xí)機(jī)制對(duì)提示詞權(quán)重進(jìn)行進(jìn)一步優(yōu)化，這也使得上述建模問題更加難以被修正，從而限制了零樣本性能的進(jìn)一步提升。為解決這一問題，研究團(tuán)隊(duì)提出了一種針對(duì)黑箱 VLMs 的，無需訓(xùn)練、純推理階段優(yōu)化的提示詞加權(quán)方案 ——CARPRT。

二、類別感知?jiǎng)?chuàng)新思路

從設(shè)計(jì)理念來看，CARPRT 的核心邏輯源于對(duì) “提示詞語義適配性” 的深刻洞察：研究團(tuán)隊(duì)發(fā)現(xiàn)，在零樣本分類任務(wù)中，提示詞與類別的語義關(guān)聯(lián)強(qiáng)度并非固定不變，而是存在顯著的類別差異性 —— 有些提示詞對(duì)某些類別具有極強(qiáng)的語義指向性，而對(duì)其他類別則幾乎無關(guān)聯(lián)。例如，“a photo of {}, a type of pet.” 更適合描述 cat，而 “a photo of {}, a type of fruit.” 則更適用于 apple。若采用全局權(quán)重，往往會(huì)引入語義錯(cuò)配，降低分類精度。而 CARPRT 通過為每個(gè)類別定制專屬提示詞權(quán)重，可最大化發(fā)揮高適配提示詞的作用，抑制低適配提示詞的干擾，從而實(shí)現(xiàn)分類精度的提升。

直覺之外，CARPRT 進(jìn)一步從概率建模角度解釋了其合理性。研究團(tuán)隊(duì)將 VLM 零樣本分類任務(wù)形式化為條件概率估計(jì)問題，構(gòu)建了完整的概率框架：

該公式將標(biāo)簽預(yù)測(cè)概率分解為權(quán)重空間上的積分，清晰揭示了提示詞重加權(quán)對(duì)分類過程的核心影響?；谪惾~斯定理，團(tuán)隊(duì)進(jìn)一步推導(dǎo)了權(quán)重的后驗(yàn)分布：

并通過偽標(biāo)簽策略解決了無標(biāo)注場景下的類別先驗(yàn)估計(jì)問題，證明了隨著數(shù)據(jù)量增長，偽標(biāo)簽統(tǒng)計(jì)分布將以指數(shù)級(jí)速度收斂到真實(shí)分布：

在此基礎(chǔ)上，團(tuán)隊(duì)引入能量基模型（EBM）建模類條件似然，推導(dǎo)得出關(guān)鍵結(jié)論：類別專屬權(quán)重會(huì)直接影響不同類別的似然性，全局共享權(quán)重會(huì)人為限制模型的表達(dá)能力。

最終，研究團(tuán)隊(duì)從數(shù)學(xué)層面證實(shí)：類別無關(guān)的權(quán)重設(shè)計(jì)（如 WPE）是類別感知的權(quán)重的嚴(yán)格子集，其表達(dá)能力存在天然短板，而 CARPRT 的類別專屬權(quán)重設(shè)計(jì)，能夠捕捉更豐富的圖文關(guān)聯(lián)，從根本上提升零樣本分類性能。

與現(xiàn)有方案相比，CARPRT 的優(yōu)勢(shì)十分突出：首先，它無需任何訓(xùn)練過程，也無需更新模型參數(shù)，完全在推理階段完成權(quán)重優(yōu)化；其次，它僅依賴黑箱 VLM 輸出的相似度分?jǐn)?shù)即可完成權(quán)重估計(jì)，無需訪問模型內(nèi)部結(jié)構(gòu)；最后，它具備極強(qiáng)的通用性，如 Fig. X 所示，可作為即插即用模塊，無縫提升多種 VLM 適配方法的性能。

三、無訓(xùn)練的兩步工作流程

盡管 CARPRT 在建模層面引入了 “類別感知” 的新視角，但其實(shí)現(xiàn)過程卻非常簡潔。整體方法可以概括為兩個(gè)核心階段。

階段一：相關(guān)性分?jǐn)?shù)計(jì)算（Score Calculation）

首先，使用目標(biāo) VLM，對(duì)所有圖像、提示詞與類別組合進(jìn)行前向計(jì)算，得到三者之間的相似度分?jǐn)?shù)：

圖像 × Prompt × 類別 → similarity score

這一步的核心在于構(gòu)建一個(gè)完整的語義關(guān)聯(lián)空間，為后續(xù)權(quán)重估計(jì)提供基礎(chǔ)。整個(gè)過程僅依賴模型的推理接口，無需訪問參數(shù)或進(jìn)行任何修改。提示詞集合也可直接采用通用模板（如 “a photo of a [class]”），無需額外設(shè)計(jì)。

階段二：類別感知權(quán)重估計(jì)（Weight Calculation）

在獲得相似度分?jǐn)?shù)后，CARPRT 從類別視角重新建模提示詞的作用。具體而言，方法首先利用相似度分?jǐn)?shù)為無標(biāo)注圖像生成偽標(biāo)簽，即為每個(gè)（圖像，提示詞）組合選擇得分最高的類別作為預(yù)測(cè)結(jié)果。在此基礎(chǔ)上，對(duì)所有偽標(biāo)簽進(jìn)行聚合，針對(duì)每一個(gè)類別統(tǒng)計(jì)不同提示詞下的平均相似度，并進(jìn)行歸一化，從而得到該類別對(duì)應(yīng)的提示詞權(quán)重分布。這一過程可以理解為：通過數(shù)據(jù)統(tǒng)計(jì)，自動(dòng)識(shí)別 “哪些提示詞更適合描述某一類別”，從而實(shí)現(xiàn)對(duì)提示詞作用的類別感知建模。整個(gè)過程完全無監(jiān)督，無需人工干預(yù)。

在推理階段，CARPRT 將上述類別專屬權(quán)重引入標(biāo)準(zhǔn)零樣本分類流程，對(duì)不同提示詞的預(yù)測(cè)結(jié)果進(jìn)行加權(quán)融合，并根據(jù)融合后的分?jǐn)?shù)確定最終類別。由于僅增加了一個(gè)權(quán)重計(jì)算與融合步驟，不會(huì)帶來額外計(jì)算開銷，也不會(huì)影響整體推理效率。

從整體流程可以看出，CARPRT 的核心優(yōu)勢(shì)在于 “極簡” 與 “通用”：無需訓(xùn)練、無需參數(shù)更新、無需額外數(shù)據(jù)，僅依賴 VLM 輸出的相似度分?jǐn)?shù)，即可完成權(quán)重優(yōu)化。這種 “即插即用” 的設(shè)計(jì)，使其能夠同時(shí)適配開源與閉源視覺語言模型。

四、性能全面領(lǐng)先同類方案

在提出類別感知提示詞重加權(quán)（CARPRT）之后，一個(gè)自然的問題是：在完全不訓(xùn)練的前提下，這種方法是否真的有效？

為此，研究團(tuán)隊(duì)在多個(gè)標(biāo)準(zhǔn)零樣本分類基準(zhǔn)上進(jìn)行了系統(tǒng)評(píng)估，涵蓋從通用識(shí)別到細(xì)粒度分類的多種任務(wù)，并在不同視覺語言模型架構(gòu)上進(jìn)行了驗(yàn)證。

實(shí)驗(yàn)結(jié)果表明，CARPRT 在幾乎所有數(shù)據(jù)集上均優(yōu)于現(xiàn)有主流方法，包括：MPE（Mean Prompt Ensembling），多數(shù)投票 (Majority Vote), WPE（加權(quán)提示詞方法）。無論是在 CLIP（ViT-B/16、ResNet50）還是 DeCLIP 等不同模型架構(gòu)下，CARPRT 都能夠帶來穩(wěn)定且一致的性能提升。這說明：其收益并非依賴特定模型，而是來自更合理的建模方式。

為了進(jìn)一步驗(yàn)證方法的關(guān)鍵因素，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)重要對(duì)照實(shí)驗(yàn)：將 CARPRT 得到的類別專屬權(quán)重進(jìn)行平均，轉(zhuǎn)化為 “全局權(quán)重”（CARPRT-Uniform）作為 Prompt 權(quán)重。實(shí)驗(yàn)結(jié)果顯示：相比于類別專屬權(quán)重，全局權(quán)重的性能顯著下降。這說明：真正帶來提升的，并不是 “更好的權(quán)重估計(jì)”，而是 “類別感知”本身。

綜合所有實(shí)驗(yàn)，可以得到一個(gè)結(jié)論：在零樣本 VLM 中，CARPRT 帶來的性能提升并不一定來自更復(fù)雜的模型，而可能來自更合理的建模方式。CARPRT 并未引入新的網(wǎng)絡(luò)結(jié)構(gòu)，也未使用額外數(shù)據(jù)或訓(xùn)練過程，但僅通過重新建模提示詞與類別的關(guān)系，就實(shí)現(xiàn)了穩(wěn)定提升。

除了在零樣本分類任務(wù)中的顯著優(yōu)勢(shì)，CARPRT 的 “即插即用” 特性還使其具備極強(qiáng)的泛化能力。由于其僅依賴視覺語言模型輸出的相似度分?jǐn)?shù)，而不涉及模型結(jié)構(gòu)修改或參數(shù)更新，CARPRT 可以作為一個(gè)獨(dú)立模塊，無縫嵌入到多種 VLM 應(yīng)用流程中。

具體而言，無論是在基于提示詞集成的零樣本分類、測(cè)試時(shí)自適應(yīng)（test-time adaptation），還是與提示詞學(xué)習(xí)（prompt tuning）或數(shù)據(jù)增強(qiáng)方法結(jié)合的場景中，CARPRT 都可以作為一個(gè)前置或后處理步驟，對(duì)提示詞進(jìn)行類別感知的權(quán)重調(diào)整，從而進(jìn)一步提升整體性能。這種模塊化設(shè)計(jì)，使其不僅能夠獨(dú)立使用，也可以與現(xiàn)有方法形成互補(bǔ)，而非替代關(guān)系。

五、當(dāng)模型無法改變時(shí)，

我們還能做什么？

在視覺語言模型不斷走向規(guī)?；c黑箱化的今天，越來越多的應(yīng)用場景面臨一個(gè)現(xiàn)實(shí)約束：模型本身難以修改，但任務(wù)需求卻在不斷變化。 CARPRT 給出的答案并不復(fù)雜：與其嘗試通過訓(xùn)練改變模型，不如重新審視模型已有的輸出方式，并在此基礎(chǔ)上進(jìn)行更合理的建模。

本文的核心發(fā)現(xiàn)是，提示詞的作用并非全局一致，而是與類別語義緊密相關(guān)。通過引入類別感知的建模方式，即使在完全無訓(xùn)練、僅依賴推理結(jié)果的條件下，也能夠穩(wěn)定提升零樣本分類性能。從這個(gè)角度來看，CARPRT 所體現(xiàn)的，并不僅是一個(gè)具體方法，而是一種更一般的思路：在黑箱條件下，通過結(jié)構(gòu)化地重組模型已有信息，實(shí)現(xiàn)對(duì)模型行為的有效調(diào)控。

這一思路或許提示我們，在大模型時(shí)代，性能提升并不總是依賴更大的模型或更多的數(shù)據(jù)，有時(shí)也來自對(duì)問題本身更精細(xì)的建模。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.