国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

無需訓(xùn)練,如何提升黑箱VLM?CARPRT用「類別感知」給出答案

0
分享至



近年來,視覺-語言模型(Vision-Language Models, VLMs)如 CLIP 的出現(xiàn),徹底改變了圖像理解的范式。其中,零樣本分類作為 VLM 的核心優(yōu)勢(shì)之一,無需額外標(biāo)注數(shù)據(jù)即可完成陌生類別的識(shí)別,極大降低了圖像分類的成本與門檻,成為工業(yè)界與學(xué)術(shù)界關(guān)注的焦點(diǎn)。

然而,當(dāng)前 VLM 零樣本分類上仍存在一個(gè)亟待解決的問題:其分類性能對(duì) Prompt 極其敏感,僅僅改變描述方式,例如:“a photo of a dog”,“a blurry image of a dog”,模型輸出可能顯著變化。為緩解這一問題,現(xiàn)有提示詞(prompt)集成方案普遍采用全局共享權(quán)重設(shè)計(jì),無視提示詞與類別之間的語義適配差異,導(dǎo)致分類精度難以突破瓶頸,尤其在黑箱模型場景下。

近期,來自墨爾本大學(xué)可信賴機(jī)器學(xué)習(xí)與推理(TMLR)研究小組提出了類別感知提示詞重加權(quán) (Class-Aware Prompt Reweighting, CARPRT) 這一解決方案,該方案以 “無訓(xùn)練、黑箱適配、類別專屬權(quán)重” 為核心,精準(zhǔn)解決了當(dāng)前 VLM 零樣本分類中提示詞語義適配不足的問題,并在多個(gè)細(xì)分類數(shù)據(jù)集上獲得了分類性能的突破。目前該論文已被 ICLR 2026(國際學(xué)習(xí)表征會(huì)議)接收。



  • 論文標(biāo)題:CARPRT: Class-Aware Zero-Shot Prompt Reweighting for Black-Box Vision-Language Models
  • Paper: https://openreview.net/pdf?id=AScQDQqVXY
  • GitHub: https://github.com/tmlr-group/CARPRT

一、VLM 零樣本分類的提示詞的難解

VLMs 的零樣本分類能力,本質(zhì)上依賴于提示詞(prompt)圖像之間的語義對(duì)齊關(guān)系。通常,通過構(gòu)造一組提示詞模板(如 “a photo of {}”),并將類別嵌入自然語言描述中,從而引導(dǎo)模型在共享嵌入空間中匹配圖像與文本特征,實(shí)現(xiàn)分類預(yù)測(cè)。

然而,提示詞的選擇對(duì)模型性能具有顯著影響。不同提示詞在語義上對(duì)不同類別的適配程度存在明顯差異。 現(xiàn)有主流方法,如 MPE(Mean Prompt Ensembling)和 WPE(Weighted Prompt Ensembling),通常采用類別無關(guān)(class-agnostic)的權(quán)重設(shè)計(jì),即所有類別共享同一組提示詞權(quán)重,隱式假設(shè)提示詞對(duì)不同類別具有一致的重要性。然而,這一假設(shè)在實(shí)際中往往并不成立。正如圖 1 所示,不同類別對(duì)應(yīng)的最優(yōu)提示詞權(quán)重分布存在顯著差異,同時(shí),當(dāng)從類別無關(guān)的權(quán)重轉(zhuǎn)為按類別分別計(jì)算權(quán)重時(shí),多個(gè)類別的分類準(zhǔn)確率均得到提升,這些現(xiàn)象表明提示詞的有效性本質(zhì)上具有類別依賴性



類別無關(guān)的權(quán)重設(shè)計(jì)帶來了兩方面局限:其一,從建模角度看,它隱含地假設(shè)所有提示詞對(duì)不同類別具有一致的重要性,忽略了提示詞與類別之間的語義差異,從而容易引入系統(tǒng)性的匹配偏差;其二,在實(shí)際應(yīng)用中,提示詞往往依賴人工構(gòu)造或篩選,不僅成本較高,而且泛化能力有限,在跨數(shù)據(jù)集或新場景下容易失效。

與此同時(shí),在黑箱 VLM 設(shè)置下(如閉源模型),由于無法訪問模型參數(shù)或利用標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,研究者難以通過學(xué)習(xí)機(jī)制對(duì)提示詞權(quán)重進(jìn)行進(jìn)一步優(yōu)化,這也使得上述建模問題更加難以被修正,從而限制了零樣本性能的進(jìn)一步提升。為解決這一問題,研究團(tuán)隊(duì)提出了一種針對(duì)黑箱 VLMs 的,無需訓(xùn)練、純推理階段優(yōu)化的提示詞加權(quán)方案 ——CARPRT。

二、 類別感知?jiǎng)?chuàng)新思路

從設(shè)計(jì)理念來看,CARPRT 的核心邏輯源于對(duì) “提示詞語義適配性” 的深刻洞察:研究團(tuán)隊(duì)發(fā)現(xiàn),在零樣本分類任務(wù)中,提示詞與類別的語義關(guān)聯(lián)強(qiáng)度并非固定不變,而是存在顯著的類別差異性 —— 有些提示詞對(duì)某些類別具有極強(qiáng)的語義指向性,而對(duì)其他類別則幾乎無關(guān)聯(lián)。例如,“a photo of {}, a type of pet.” 更適合描述 cat,而 “a photo of {}, a type of fruit.” 則更適用于 apple。 若采用全局權(quán)重,往往會(huì)引入語義錯(cuò)配,降低分類精度。而 CARPRT 通過為每個(gè)類別定制專屬提示詞權(quán)重,可最大化發(fā)揮高適配提示詞的作用,抑制低適配提示詞的干擾,從而實(shí)現(xiàn)分類精度的提升。

直覺之外,CARPRT 進(jìn)一步從概率建模角度解釋了其合理性。 研究團(tuán)隊(duì)將 VLM 零樣本分類任務(wù)形式化為條件概率估計(jì)問題,構(gòu)建了完整的概率框架:



該公式將標(biāo)簽預(yù)測(cè)概率分解為權(quán)重空間上的積分,清晰揭示了提示詞重加權(quán)對(duì)分類過程的核心影響?;谪惾~斯定理,團(tuán)隊(duì)進(jìn)一步推導(dǎo)了權(quán)重的后驗(yàn)分布:

并通過偽標(biāo)簽策略解決了無標(biāo)注場景下的類別先驗(yàn)估計(jì)問題,證明了隨著數(shù)據(jù)量增長,偽標(biāo)簽統(tǒng)計(jì)分布將以指數(shù)級(jí)速度收斂到真實(shí)分布:



在此基礎(chǔ)上,團(tuán)隊(duì)引入能量基模型(EBM)建模類條件似然,推導(dǎo)得出關(guān)鍵結(jié)論:類別專屬權(quán)重會(huì)直接影響不同類別的似然性,全局共享權(quán)重會(huì)人為限制模型的表達(dá)能力。



最終,研究團(tuán)隊(duì)從數(shù)學(xué)層面證實(shí):類別無關(guān)的權(quán)重設(shè)計(jì)(如 WPE)是類別感知的權(quán)重的嚴(yán)格子集,其表達(dá)能力存在天然短板,而 CARPRT 的類別專屬權(quán)重設(shè)計(jì),能夠捕捉更豐富的圖文關(guān)聯(lián),從根本上提升零樣本分類性能。



與現(xiàn)有方案相比,CARPRT 的優(yōu)勢(shì)十分突出:首先,它無需任何訓(xùn)練過程,也無需更新模型參數(shù),完全在推理階段完成權(quán)重優(yōu)化;其次,它僅依賴黑箱 VLM 輸出的相似度分?jǐn)?shù)即可完成權(quán)重估計(jì),無需訪問模型內(nèi)部結(jié)構(gòu);最后,它具備極強(qiáng)的通用性,如 Fig. X 所示,可作為即插即用模塊,無縫提升多種 VLM 適配方法的性能。

三、無訓(xùn)練的兩步工作流程

盡管 CARPRT 在建模層面引入了 “類別感知” 的新視角,但其實(shí)現(xiàn)過程卻非常簡潔。整體方法可以概括為兩個(gè)核心階段。



階段一:相關(guān)性分?jǐn)?shù)計(jì)算(Score Calculation)

首先,使用目標(biāo) VLM,對(duì)所有圖像、提示詞與類別組合進(jìn)行前向計(jì)算,得到三者之間的相似度分?jǐn)?shù):

圖像 × Prompt × 類別 → similarity score

這一步的核心在于構(gòu)建一個(gè)完整的語義關(guān)聯(lián)空間,為后續(xù)權(quán)重估計(jì)提供基礎(chǔ)。整個(gè)過程僅依賴模型的推理接口,無需訪問參數(shù)或進(jìn)行任何修改。提示詞集合也可直接采用通用模板(如 “a photo of a [class]”),無需額外設(shè)計(jì)。

階段二:類別感知權(quán)重估計(jì)(Weight Calculation)

在獲得相似度分?jǐn)?shù)后,CARPRT 從類別視角重新建模提示詞的作用。具體而言,方法首先利用相似度分?jǐn)?shù)為無標(biāo)注圖像生成偽標(biāo)簽,即為每個(gè)(圖像,提示詞)組合選擇得分最高的類別作為預(yù)測(cè)結(jié)果。在此基礎(chǔ)上,對(duì)所有偽標(biāo)簽進(jìn)行聚合,針對(duì)每一個(gè)類別統(tǒng)計(jì)不同提示詞下的平均相似度,并進(jìn)行歸一化,從而得到該類別對(duì)應(yīng)的提示詞權(quán)重分布。這一過程可以理解為:通過數(shù)據(jù)統(tǒng)計(jì),自動(dòng)識(shí)別 “哪些提示詞更適合描述某一類別”,從而實(shí)現(xiàn)對(duì)提示詞作用的類別感知建模。整個(gè)過程完全無監(jiān)督,無需人工干預(yù)。

在推理階段,CARPRT 將上述類別專屬權(quán)重引入標(biāo)準(zhǔn)零樣本分類流程,對(duì)不同提示詞的預(yù)測(cè)結(jié)果進(jìn)行加權(quán)融合,并根據(jù)融合后的分?jǐn)?shù)確定最終類別。由于僅增加了一個(gè)權(quán)重計(jì)算與融合步驟,不會(huì)帶來額外計(jì)算開銷,也不會(huì)影響整體推理效率。

從整體流程可以看出,CARPRT 的核心優(yōu)勢(shì)在于 “極簡” 與 “通用”:無需訓(xùn)練、無需參數(shù)更新、無需額外數(shù)據(jù),僅依賴 VLM 輸出的相似度分?jǐn)?shù),即可完成權(quán)重優(yōu)化。這種 “即插即用” 的設(shè)計(jì),使其能夠同時(shí)適配開源與閉源視覺語言模型。

四、性能全面領(lǐng)先同類方案

在提出類別感知提示詞重加權(quán)(CARPRT)之后,一個(gè)自然的問題是:在完全不訓(xùn)練的前提下,這種方法是否真的有效?

為此,研究團(tuán)隊(duì)在多個(gè)標(biāo)準(zhǔn)零樣本分類基準(zhǔn)上進(jìn)行了系統(tǒng)評(píng)估,涵蓋從通用識(shí)別到細(xì)粒度分類的多種任務(wù),并在不同視覺語言模型架構(gòu)上進(jìn)行了驗(yàn)證。



實(shí)驗(yàn)結(jié)果表明,CARPRT 在幾乎所有數(shù)據(jù)集上均優(yōu)于現(xiàn)有主流方法,包括:MPE(Mean Prompt Ensembling),多數(shù)投票 (Majority Vote), WPE(加權(quán)提示詞方法)。無論是在 CLIP(ViT-B/16、ResNet50)還是 DeCLIP 等不同模型架構(gòu)下,CARPRT 都能夠帶來穩(wěn)定且一致的性能提升。這說明:其收益并非依賴特定模型,而是來自更合理的建模方式。



為了進(jìn)一步驗(yàn)證方法的關(guān)鍵因素,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)重要對(duì)照實(shí)驗(yàn):將 CARPRT 得到的類別專屬權(quán)重進(jìn)行平均,轉(zhuǎn)化為 “全局權(quán)重”(CARPRT-Uniform)作為 Prompt 權(quán)重。實(shí)驗(yàn)結(jié)果顯示:相比于類別專屬權(quán)重,全局權(quán)重的性能顯著下降。這說明:真正帶來提升的,并不是 “更好的權(quán)重估計(jì)”,而是 “類別感知”本身。

綜合所有實(shí)驗(yàn),可以得到一個(gè)結(jié)論:在零樣本 VLM 中,CARPRT 帶來的性能提升并不一定來自更復(fù)雜的模型,而可能來自更合理的建模方式。CARPRT 并未引入新的網(wǎng)絡(luò)結(jié)構(gòu),也未使用額外數(shù)據(jù)或訓(xùn)練過程,但僅通過重新建模提示詞與類別的關(guān)系,就實(shí)現(xiàn)了穩(wěn)定提升。

除了在零樣本分類任務(wù)中的顯著優(yōu)勢(shì),CARPRT 的 “即插即用” 特性還使其具備極強(qiáng)的泛化能力。由于其僅依賴視覺語言模型輸出的相似度分?jǐn)?shù),而不涉及模型結(jié)構(gòu)修改或參數(shù)更新,CARPRT 可以作為一個(gè)獨(dú)立模塊,無縫嵌入到多種 VLM 應(yīng)用流程中。

具體而言,無論是在基于提示詞集成的零樣本分類、測(cè)試時(shí)自適應(yīng)(test-time adaptation),還是與提示詞學(xué)習(xí)(prompt tuning)或數(shù)據(jù)增強(qiáng)方法結(jié)合的場景中,CARPRT 都可以作為一個(gè)前置或后處理步驟,對(duì)提示詞進(jìn)行類別感知的權(quán)重調(diào)整,從而進(jìn)一步提升整體性能。這種模塊化設(shè)計(jì),使其不僅能夠獨(dú)立使用,也可以與現(xiàn)有方法形成互補(bǔ),而非替代關(guān)系。

五、當(dāng)模型無法改變時(shí),

我們還能做什么?

在視覺語言模型不斷走向規(guī)?;c黑箱化的今天,越來越多的應(yīng)用場景面臨一個(gè)現(xiàn)實(shí)約束: 模型本身難以修改,但任務(wù)需求卻在不斷變化。 CARPRT 給出的答案并不復(fù)雜:與其嘗試通過訓(xùn)練改變模型,不如重新審視模型已有的輸出方式,并在此基礎(chǔ)上進(jìn)行更合理的建模。

本文的核心發(fā)現(xiàn)是,提示詞的作用并非全局一致,而是與類別語義緊密相關(guān)。通過引入類別感知的建模方式,即使在完全無訓(xùn)練、僅依賴推理結(jié)果的條件下,也能夠穩(wěn)定提升零樣本分類性能。從這個(gè)角度來看,CARPRT 所體現(xiàn)的,并不僅是一個(gè)具體方法,而是一種更一般的思路:在黑箱條件下,通過結(jié)構(gòu)化地重組模型已有信息,實(shí)現(xiàn)對(duì)模型行為的有效調(diào)控。

這一思路或許提示我們,在大模型時(shí)代,性能提升并不總是依賴更大的模型或更多的數(shù)據(jù),有時(shí)也來自對(duì)問題本身更精細(xì)的建模。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
羅馬諾:皇馬15天前就得知穆里尼奧可以回歸

羅馬諾:皇馬15天前就得知穆里尼奧可以回歸

懂球帝
2026-04-28 23:17:24
余承東再次向奇瑞董事長,正式道歉

余承東再次向奇瑞董事長,正式道歉

小李車評(píng)李建紅
2026-04-29 08:00:03
她用47130條信息,完成對(duì)男友的完美殺戮,獲刑2年半緩期10年

她用47130條信息,完成對(duì)男友的完美殺戮,獲刑2年半緩期10年

三目觀史
2026-04-28 23:25:17
朝鮮庫爾斯克紀(jì)念館正式落地,暴露其在庫爾斯克陣亡的真實(shí)人數(shù)!

朝鮮庫爾斯克紀(jì)念館正式落地,暴露其在庫爾斯克陣亡的真實(shí)人數(shù)!

阿龍聊軍事
2026-04-29 06:20:12
《乘風(fēng)2026》 安崎崩潰落淚,蕭薔當(dāng)場翻臉制止,這才是大女主風(fēng)范!

《乘風(fēng)2026》 安崎崩潰落淚,蕭薔當(dāng)場翻臉制止,這才是大女主風(fēng)范!

喜歡歷史的阿繁
2026-04-29 14:12:54
奧尼爾談文班亞馬:兩年后他會(huì)和約基奇并肩成為聯(lián)盟最佳內(nèi)線

奧尼爾談文班亞馬:兩年后他會(huì)和約基奇并肩成為聯(lián)盟最佳內(nèi)線

懂球帝
2026-04-29 10:32:07
我在沙特開餐館娶了3位妻子,回國奔喪一星期,再回去時(shí)當(dāng)場愣了

我在沙特開餐館娶了3位妻子,回國奔喪一星期,再回去時(shí)當(dāng)場愣了

千秋文化
2026-04-28 20:17:01
目無法紀(jì),貪婪無度!任上落馬的原正部級(jí)藍(lán)天立被公訴,三天三“虎”被處理

目無法紀(jì),貪婪無度!任上落馬的原正部級(jí)藍(lán)天立被公訴,三天三“虎”被處理

上觀新聞
2026-04-29 12:31:05
特斯拉中國發(fā)布大版本固件更新,新增舒適剎車等功能!

特斯拉中國發(fā)布大版本固件更新,新增舒適剎車等功能!

XCiOS俱樂部
2026-04-29 13:17:28
美國一學(xué)生打斷以色列士兵演講,當(dāng)眾怒斥以軍:6歲女孩被打335槍,超70000巴勒斯坦人被殺,你們犯下的暴行終將被清算

美國一學(xué)生打斷以色列士兵演講,當(dāng)眾怒斥以軍:6歲女孩被打335槍,超70000巴勒斯坦人被殺,你們犯下的暴行終將被清算

大象新聞
2026-04-28 23:48:20
陳偉霆首認(rèn)何穗是老婆! 曝妻「生產(chǎn)不太順利」:放不下心中大石

陳偉霆首認(rèn)何穗是老婆! 曝妻「生產(chǎn)不太順利」:放不下心中大石

ETtoday星光云
2026-04-29 11:08:04
動(dòng)真格了,國安部出手,揪出鼓吹躺平的境外勢(shì)力,評(píng)論區(qū)意味深長

動(dòng)真格了,國安部出手,揪出鼓吹躺平的境外勢(shì)力,評(píng)論區(qū)意味深長

譚談社會(huì)
2026-04-28 15:10:51
西班牙第一季度失業(yè)率為10.83%

西班牙第一季度失業(yè)率為10.83%

每日經(jīng)濟(jì)新聞
2026-04-28 15:10:08
迪士尼男子勸煙反被扇臉!賠償金五位數(shù),警方定性,和解也得坐牢

迪士尼男子勸煙反被扇臉!賠償金五位數(shù),警方定性,和解也得坐牢

青梅侃史啊
2026-04-28 11:47:47
車還在,廠沒了,40 萬哪吒車主的尷尬

車還在,廠沒了,40 萬哪吒車主的尷尬

科技狐
2026-04-26 22:54:06
藝考生:砸光父母積蓄,終成“廉價(jià)打工人”,誰在制造這場騙局?

藝考生:砸光父母積蓄,終成“廉價(jià)打工人”,誰在制造這場騙局?

社會(huì)日日鮮
2026-04-27 12:38:49
伊朗伊斯蘭革命衛(wèi)隊(duì):已實(shí)現(xiàn)對(duì)霍爾木茲海峽的絕對(duì)控制

伊朗伊斯蘭革命衛(wèi)隊(duì):已實(shí)現(xiàn)對(duì)霍爾木茲海峽的絕對(duì)控制

財(cái)聯(lián)社
2026-04-28 21:40:55
出大事了,聯(lián)合國會(huì)場又吵翻,121國抱團(tuán)力挺伊朗,美國當(dāng)眾翻臉

出大事了,聯(lián)合國會(huì)場又吵翻,121國抱團(tuán)力挺伊朗,美國當(dāng)眾翻臉

小小科普員
2026-04-28 19:36:37
80后家長發(fā)明“防早戀”發(fā)型,女兒面如死灰,網(wǎng)友都看不下去了

80后家長發(fā)明“防早戀”發(fā)型,女兒面如死灰,網(wǎng)友都看不下去了

妍妍教育日記
2026-04-27 09:20:13
19歲男孩喝百草枯苦熬18天,逼在外打工母親回家,母親:你放心去

19歲男孩喝百草枯苦熬18天,逼在外打工母親回家,母親:你放心去

哄動(dòng)一時(shí)啊
2026-03-15 11:29:43
2026-04-29 15:12:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12889文章數(shù) 142639關(guān)注度
往期回顧 全部

科技要聞

夭折的造富神話,逼著中國AI回去賺"慢錢"

頭條要聞

俄"受制裁"富豪的游艇通過霍爾木茲海峽 或獲美伊默許

頭條要聞

俄"受制裁"富豪的游艇通過霍爾木茲海峽 或獲美伊默許

體育要聞

一場九球狂歡,各路神仙批量下凡

娛樂要聞

馬頔一句話,孫楊媽媽怒罵節(jié)目組2小時(shí)

財(cái)經(jīng)要聞

多地藥店違規(guī)串換商品套刷醫(yī)保揭秘

汽車要聞

配32寸升降屏 新款別克世紀(jì)CENTURY上市53.99萬起

態(tài)度原創(chuàng)

健康
家居
本地
游戲
軍事航空

揭秘干細(xì)胞抗衰美容七大謠言

家居要聞

寂然無界 簡潔風(fēng)格

本地新聞

用青花瓷的方式,打開西溪濕地

夢(mèng)幻西游2026年520錦衣祥瑞正式亮相 沙子哥炸出暢玩服第一項(xiàng)鏈

軍事要聞

美國參議院否決限制特朗普對(duì)古巴動(dòng)武的決議

無障礙瀏覽 進(jìn)入關(guān)懷版