国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

無需訓(xùn)練,如何提升黑箱VLM?CARPRT用「類別感知」給出答案

0
分享至



近年來,視覺-語言模型(Vision-Language Models, VLMs)如 CLIP 的出現(xiàn),徹底改變了圖像理解的范式。其中,零樣本分類作為 VLM 的核心優(yōu)勢之一,無需額外標(biāo)注數(shù)據(jù)即可完成陌生類別的識別,極大降低了圖像分類的成本與門檻,成為工業(yè)界與學(xué)術(shù)界關(guān)注的焦點(diǎn)。

然而,當(dāng)前 VLM 零樣本分類上仍存在一個亟待解決的問題:其分類性能對 Prompt 極其敏感,僅僅改變描述方式,例如:“a photo of a dog”,“a blurry image of a dog”,模型輸出可能顯著變化。為緩解這一問題,現(xiàn)有提示詞(prompt)集成方案普遍采用全局共享權(quán)重設(shè)計,無視提示詞與類別之間的語義適配差異,導(dǎo)致分類精度難以突破瓶頸,尤其在黑箱模型場景下。

近期,來自墨爾本大學(xué)可信賴機(jī)器學(xué)習(xí)與推理(TMLR)研究小組提出了類別感知提示詞重加權(quán) (Class-Aware Prompt Reweighting, CARPRT) 這一解決方案,該方案以 “無訓(xùn)練、黑箱適配、類別專屬權(quán)重” 為核心,精準(zhǔn)解決了當(dāng)前 VLM 零樣本分類中提示詞語義適配不足的問題,并在多個細(xì)分類數(shù)據(jù)集上獲得了分類性能的突破。目前該論文已被 ICLR 2026(國際學(xué)習(xí)表征會議)接收。



  • 論文標(biāo)題:CARPRT: Class-Aware Zero-Shot Prompt Reweighting for Black-Box Vision-Language Models
  • Paper: https://openreview.net/pdf?id=AScQDQqVXY
  • GitHub: https://github.com/tmlr-group/CARPRT

一、VLM 零樣本分類的提示詞的難解

VLMs 的零樣本分類能力,本質(zhì)上依賴于提示詞(prompt)圖像之間的語義對齊關(guān)系。通常,通過構(gòu)造一組提示詞模板(如 “a photo of {}”),并將類別嵌入自然語言描述中,從而引導(dǎo)模型在共享嵌入空間中匹配圖像與文本特征,實現(xiàn)分類預(yù)測。

然而,提示詞的選擇對模型性能具有顯著影響。不同提示詞在語義上對不同類別的適配程度存在明顯差異。 現(xiàn)有主流方法,如 MPE(Mean Prompt Ensembling)和 WPE(Weighted Prompt Ensembling),通常采用類別無關(guān)(class-agnostic)的權(quán)重設(shè)計,即所有類別共享同一組提示詞權(quán)重,隱式假設(shè)提示詞對不同類別具有一致的重要性。然而,這一假設(shè)在實際中往往并不成立。正如圖 1 所示,不同類別對應(yīng)的最優(yōu)提示詞權(quán)重分布存在顯著差異,同時,當(dāng)從類別無關(guān)的權(quán)重轉(zhuǎn)為按類別分別計算權(quán)重時,多個類別的分類準(zhǔn)確率均得到提升,這些現(xiàn)象表明提示詞的有效性本質(zhì)上具有類別依賴性。



類別無關(guān)的權(quán)重設(shè)計帶來了兩方面局限:其一,從建模角度看,它隱含地假設(shè)所有提示詞對不同類別具有一致的重要性,忽略了提示詞與類別之間的語義差異,從而容易引入系統(tǒng)性的匹配偏差;其二,在實際應(yīng)用中,提示詞往往依賴人工構(gòu)造或篩選,不僅成本較高,而且泛化能力有限,在跨數(shù)據(jù)集或新場景下容易失效。

與此同時,在黑箱 VLM 設(shè)置下(如閉源模型),由于無法訪問模型參數(shù)或利用標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,研究者難以通過學(xué)習(xí)機(jī)制對提示詞權(quán)重進(jìn)行進(jìn)一步優(yōu)化,這也使得上述建模問題更加難以被修正,從而限制了零樣本性能的進(jìn)一步提升。為解決這一問題,研究團(tuán)隊提出了一種針對黑箱 VLMs 的,無需訓(xùn)練、純推理階段優(yōu)化的提示詞加權(quán)方案 ——CARPRT。

二、 類別感知創(chuàng)新思路

從設(shè)計理念來看,CARPRT 的核心邏輯源于對 “提示詞語義適配性” 的深刻洞察:研究團(tuán)隊發(fā)現(xiàn),在零樣本分類任務(wù)中,提示詞與類別的語義關(guān)聯(lián)強(qiáng)度并非固定不變,而是存在顯著的類別差異性 —— 有些提示詞對某些類別具有極強(qiáng)的語義指向性,而對其他類別則幾乎無關(guān)聯(lián)。例如,“a photo of {}, a type of pet.” 更適合描述 cat,而 “a photo of {}, a type of fruit.” 則更適用于 apple。 若采用全局權(quán)重,往往會引入語義錯配,降低分類精度。而 CARPRT 通過為每個類別定制專屬提示詞權(quán)重,可最大化發(fā)揮高適配提示詞的作用,抑制低適配提示詞的干擾,從而實現(xiàn)分類精度的提升。

直覺之外,CARPRT 進(jìn)一步從概率建模角度解釋了其合理性。 研究團(tuán)隊將 VLM 零樣本分類任務(wù)形式化為條件概率估計問題,構(gòu)建了完整的概率框架:



該公式將標(biāo)簽預(yù)測概率分解為權(quán)重空間上的積分,清晰揭示了提示詞重加權(quán)對分類過程的核心影響?;谪惾~斯定理,團(tuán)隊進(jìn)一步推導(dǎo)了權(quán)重的后驗分布:

并通過偽標(biāo)簽策略解決了無標(biāo)注場景下的類別先驗估計問題,證明了隨著數(shù)據(jù)量增長,偽標(biāo)簽統(tǒng)計分布將以指數(shù)級速度收斂到真實分布:



在此基礎(chǔ)上,團(tuán)隊引入能量基模型(EBM)建模類條件似然,推導(dǎo)得出關(guān)鍵結(jié)論:類別專屬權(quán)重會直接影響不同類別的似然性,全局共享權(quán)重會人為限制模型的表達(dá)能力。



最終,研究團(tuán)隊從數(shù)學(xué)層面證實:類別無關(guān)的權(quán)重設(shè)計(如 WPE)是類別感知的權(quán)重的嚴(yán)格子集,其表達(dá)能力存在天然短板,而 CARPRT 的類別專屬權(quán)重設(shè)計,能夠捕捉更豐富的圖文關(guān)聯(lián),從根本上提升零樣本分類性能。



與現(xiàn)有方案相比,CARPRT 的優(yōu)勢十分突出:首先,它無需任何訓(xùn)練過程,也無需更新模型參數(shù),完全在推理階段完成權(quán)重優(yōu)化;其次,它僅依賴黑箱 VLM 輸出的相似度分?jǐn)?shù)即可完成權(quán)重估計,無需訪問模型內(nèi)部結(jié)構(gòu);最后,它具備極強(qiáng)的通用性,如 Fig. X 所示,可作為即插即用模塊,無縫提升多種 VLM 適配方法的性能。

三、無訓(xùn)練的兩步工作流程

盡管 CARPRT 在建模層面引入了 “類別感知” 的新視角,但其實現(xiàn)過程卻非常簡潔。整體方法可以概括為兩個核心階段。



階段一:相關(guān)性分?jǐn)?shù)計算(Score Calculation)

首先,使用目標(biāo) VLM,對所有圖像、提示詞與類別組合進(jìn)行前向計算,得到三者之間的相似度分?jǐn)?shù):

圖像 × Prompt × 類別 → similarity score

這一步的核心在于構(gòu)建一個完整的語義關(guān)聯(lián)空間,為后續(xù)權(quán)重估計提供基礎(chǔ)。整個過程僅依賴模型的推理接口,無需訪問參數(shù)或進(jìn)行任何修改。提示詞集合也可直接采用通用模板(如 “a photo of a [class]”),無需額外設(shè)計。

階段二:類別感知權(quán)重估計(Weight Calculation)

在獲得相似度分?jǐn)?shù)后,CARPRT 從類別視角重新建模提示詞的作用。具體而言,方法首先利用相似度分?jǐn)?shù)為無標(biāo)注圖像生成偽標(biāo)簽,即為每個(圖像,提示詞)組合選擇得分最高的類別作為預(yù)測結(jié)果。在此基礎(chǔ)上,對所有偽標(biāo)簽進(jìn)行聚合,針對每一個類別統(tǒng)計不同提示詞下的平均相似度,并進(jìn)行歸一化,從而得到該類別對應(yīng)的提示詞權(quán)重分布。這一過程可以理解為:通過數(shù)據(jù)統(tǒng)計,自動識別 “哪些提示詞更適合描述某一類別”,從而實現(xiàn)對提示詞作用的類別感知建模。整個過程完全無監(jiān)督,無需人工干預(yù)。

在推理階段,CARPRT 將上述類別專屬權(quán)重引入標(biāo)準(zhǔn)零樣本分類流程,對不同提示詞的預(yù)測結(jié)果進(jìn)行加權(quán)融合,并根據(jù)融合后的分?jǐn)?shù)確定最終類別。由于僅增加了一個權(quán)重計算與融合步驟,不會帶來額外計算開銷,也不會影響整體推理效率。

從整體流程可以看出,CARPRT 的核心優(yōu)勢在于 “極簡” 與 “通用”:無需訓(xùn)練、無需參數(shù)更新、無需額外數(shù)據(jù),僅依賴 VLM 輸出的相似度分?jǐn)?shù),即可完成權(quán)重優(yōu)化。這種 “即插即用” 的設(shè)計,使其能夠同時適配開源與閉源視覺語言模型。

四、性能全面領(lǐng)先同類方案

在提出類別感知提示詞重加權(quán)(CARPRT)之后,一個自然的問題是:在完全不訓(xùn)練的前提下,這種方法是否真的有效?

為此,研究團(tuán)隊在多個標(biāo)準(zhǔn)零樣本分類基準(zhǔn)上進(jìn)行了系統(tǒng)評估,涵蓋從通用識別到細(xì)粒度分類的多種任務(wù),并在不同視覺語言模型架構(gòu)上進(jìn)行了驗證。



實驗結(jié)果表明,CARPRT 在幾乎所有數(shù)據(jù)集上均優(yōu)于現(xiàn)有主流方法,包括:MPE(Mean Prompt Ensembling),多數(shù)投票 (Majority Vote), WPE(加權(quán)提示詞方法)。無論是在 CLIP(ViT-B/16、ResNet50)還是 DeCLIP 等不同模型架構(gòu)下,CARPRT 都能夠帶來穩(wěn)定且一致的性能提升。這說明:其收益并非依賴特定模型,而是來自更合理的建模方式。



為了進(jìn)一步驗證方法的關(guān)鍵因素,研究團(tuán)隊設(shè)計了一個重要對照實驗:將 CARPRT 得到的類別專屬權(quán)重進(jìn)行平均,轉(zhuǎn)化為 “全局權(quán)重”(CARPRT-Uniform)作為 Prompt 權(quán)重。實驗結(jié)果顯示:相比于類別專屬權(quán)重,全局權(quán)重的性能顯著下降。這說明:真正帶來提升的,并不是 “更好的權(quán)重估計”,而是 “類別感知”本身。

綜合所有實驗,可以得到一個結(jié)論:在零樣本 VLM 中,CARPRT 帶來的性能提升并不一定來自更復(fù)雜的模型,而可能來自更合理的建模方式。CARPRT 并未引入新的網(wǎng)絡(luò)結(jié)構(gòu),也未使用額外數(shù)據(jù)或訓(xùn)練過程,但僅通過重新建模提示詞與類別的關(guān)系,就實現(xiàn)了穩(wěn)定提升。

除了在零樣本分類任務(wù)中的顯著優(yōu)勢,CARPRT 的 “即插即用” 特性還使其具備極強(qiáng)的泛化能力。由于其僅依賴視覺語言模型輸出的相似度分?jǐn)?shù),而不涉及模型結(jié)構(gòu)修改或參數(shù)更新,CARPRT 可以作為一個獨(dú)立模塊,無縫嵌入到多種 VLM 應(yīng)用流程中。

具體而言,無論是在基于提示詞集成的零樣本分類、測試時自適應(yīng)(test-time adaptation),還是與提示詞學(xué)習(xí)(prompt tuning)或數(shù)據(jù)增強(qiáng)方法結(jié)合的場景中,CARPRT 都可以作為一個前置或后處理步驟,對提示詞進(jìn)行類別感知的權(quán)重調(diào)整,從而進(jìn)一步提升整體性能。這種模塊化設(shè)計,使其不僅能夠獨(dú)立使用,也可以與現(xiàn)有方法形成互補(bǔ),而非替代關(guān)系。

五、當(dāng)模型無法改變時,

我們還能做什么?

在視覺語言模型不斷走向規(guī)?;c黑箱化的今天,越來越多的應(yīng)用場景面臨一個現(xiàn)實約束: 模型本身難以修改,但任務(wù)需求卻在不斷變化。 CARPRT 給出的答案并不復(fù)雜:與其嘗試通過訓(xùn)練改變模型,不如重新審視模型已有的輸出方式,并在此基礎(chǔ)上進(jìn)行更合理的建模。

本文的核心發(fā)現(xiàn)是,提示詞的作用并非全局一致,而是與類別語義緊密相關(guān)。通過引入類別感知的建模方式,即使在完全無訓(xùn)練、僅依賴推理結(jié)果的條件下,也能夠穩(wěn)定提升零樣本分類性能。從這個角度來看,CARPRT 所體現(xiàn)的,并不僅是一個具體方法,而是一種更一般的思路:在黑箱條件下,通過結(jié)構(gòu)化地重組模型已有信息,實現(xiàn)對模型行為的有效調(diào)控。

這一思路或許提示我們,在大模型時代,性能提升并不總是依賴更大的模型或更多的數(shù)據(jù),有時也來自對問題本身更精細(xì)的建模。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
以色列前總理貝內(nèi)特:伊朗實質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點(diǎn)
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來 | 伊朗的反應(yīng)為何如此激烈

偉偉道來 | 伊朗的反應(yīng)為何如此激烈

經(jīng)濟(jì)觀察報
2026-05-06 11:40:46
吳宜澤透露拿到獎金后準(zhǔn)備在英國買房,50萬英鎊獎金需交稅超23萬鎊,實際到手約26.5萬鎊

吳宜澤透露拿到獎金后準(zhǔn)備在英國買房,50萬英鎊獎金需交稅超23萬鎊,實際到手約26.5萬鎊

大風(fēng)新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個隱私,是性感嗎?

女性跑步:暴露這個隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

懂球帝
2026-05-05 19:39:09
在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個人,沒一個在出現(xiàn)場

在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個人,沒一個在出現(xiàn)場

侃故事的阿慶
2026-05-06 09:21:32
被延長的搶救時間,被卡住的工傷認(rèn)定

被延長的搶救時間,被卡住的工傷認(rèn)定

新京報
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動筷子

畫夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說故事的阿襲
2026-05-05 20:20:30
8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價報價就接

伯納烏大地震!皇馬放話出售姆巴佩,天價報價就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當(dāng)?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報
2026-05-06 12:38:05
中美同時向全球下達(dá)禁令,各國都傻眼了!美媒:中國此舉史無前例

中美同時向全球下達(dá)禁令,各國都傻眼了!美媒:中國此舉史無前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

男子購百萬保險被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

頭條要聞

男子購百萬保險被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財經(jīng)要聞

人形機(jī)器人七小龍:誰真能賣 誰在講故事?

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

藝術(shù)
本地
家居
旅游
軍事航空

藝術(shù)要聞

震撼!康斯坦丁攝影作品里的性感曲線讓人驚艷!

本地新聞

用青花瓷的方式,打開西溪濕地

家居要聞

大膽前衛(wèi) 時尚大宅

旅游要聞

龍江新觀察|“五一”文旅熱力十足 特色體驗燃動春日消費(fèi)

軍事要聞

實施不到48小時 特朗普緊急喊停"霍爾木茲自由計劃"

無障礙瀏覽 進(jìn)入關(guān)懷版