国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ICML 2025 | 從聯(lián)合空間到文本空間:測試時增強跨模態(tài)檢索新范式

0
分享至

本文圍繞跨模態(tài)檢索中的語義冗余與粒度錯配問題,提出在測試階段對候選圖像/視頻進行“視覺抽象”,并在文本空間以查詢感知 QA 重排,實現(xiàn)即插即用、穩(wěn)定增益與可解釋性。本研究在圖像、視頻和長文本三類場景驗證了該方法的有效性,并證明其可低成本嵌入現(xiàn)有召回—重排鏈路。


論文標題: Visual Abstraction: A Plug-and-Play Approach for Text-Visual Retrieval 論文地址: https://pengxi.me/wp-content/uploads/2025/05/2025ICML.pdf 代碼地址: https://github.com/XLearning-SCU/2025-ICML-VISA
一、研究背景

跨模態(tài)檢索在 CLIP 等對比學(xué)習(xí)范式加持下整體進步顯著,但在真實檢索里始終被兩類根本性矛盾卡?。?/p>

  • 語義冗余:聯(lián)合空間的全局對齊會把與語義無關(guān)的底層視覺因素一并拉近,淹沒真正有用的語義線索。例如雪地紋理、樹枝線條、水面反光、舞臺燈光等,檢索時易出現(xiàn)“背景相似但語義不對”的假陽性;在視頻場景中,也會出現(xiàn)時序冗余。

  • 粒度錯配圖像/視頻天然具有“無限粒度”,而弱標注文本往往短、粗、信息稀疏,難以覆蓋用戶查詢所需的細粒度與多約束組合。當需要區(qū)分顏色/材質(zhì)/部件、小目標相對位置(空間關(guān)系)時,導(dǎo)致粗排召回相關(guān)但不精確,精排也難以給出明確、可解釋的依據(jù)。

二、方法

該論文從語言空間對齊的角度重新審視視覺語義的建模方式,提出了一種全新的跨模態(tài)檢索范式。該論文的核心觀察在于:相比原始稀疏且冗余的視覺信號,自然語言具有更強的語義承載能力和表達濃度。


基于這一點,該論文設(shè)計了一個即插即用的測試時增強方案——視覺抽象(VISual Abstraction, VISA),通過調(diào)用多模態(tài)大模型,將圖像或視頻內(nèi)容轉(zhuǎn)換為高度概括的語言描述,從而過濾冗余信息、強化語義聚焦。

同時引入基于用戶查詢的問答機制,將復(fù)雜查詢解析為一系列細粒度語義子目標,并據(jù)此對候選視覺內(nèi)容進行響應(yīng),實現(xiàn)跨粒度語義對齊。

最終,VISA 將原本的跨模態(tài)檢索過程轉(zhuǎn)化為統(tǒng)一文本空間內(nèi)的語義匹配任務(wù),在無需額外訓(xùn)練的前提下,顯著提升了現(xiàn)有模型在圖像與視頻檢索中的檢索精度。


1)視覺抽象:為每個候選生成"語義密集"的長描述

先用原始 Vision language model (VLM) 在跨模態(tài)聯(lián)合空間里檢索,得到 Top-k 候選。對 Top-k 候選逐個調(diào)用現(xiàn)成 LMM,生成覆蓋對象、屬性、關(guān)系與場景的通用長描述(General Description)。長文本相較原始視覺信號能天然過濾低層冗余(如背景紋理、噪聲),便于后續(xù)在文本空間穩(wěn)健匹配。

2)查詢感知的 QA 精修:補足所需粒度細節(jié)

通用長描述覆蓋面廣,但可能缺少用戶當前查詢所需的細粒度證據(jù)。為此,本文采用 CoT 思路先由 LLM 從查詢中抽取關(guān)鍵短語(對象、屬性、動作、位置、交互等),據(jù)此生成可明確判定的問題;再由 LMM逐候選作答:若圖像/視頻無法支撐判斷則明確輸出“Uncertain”,此類回答會被丟棄以避免幻覺。最終將 QA 的有效回答與通用長描述拼接,得到面向該查詢、更細粒度的文本表示。

3)與現(xiàn)有 VLM 的無縫集成:無需訓(xùn)練,分數(shù)融合

文本檢索器在第二步得到的文本表示上打分,并與 VLM 分數(shù)進行兩路相加完成重排。 這一流程完全發(fā)生在測試時,不改動底座模型訓(xùn)練。

三、實驗

本論文在圖像檢索、視頻檢索與長文本檢索等任務(wù)上完成驗證,部分實驗結(jié)果如下。

1)圖像檢索

把 VISA 接到 SigLIP 與 EVA-CLIP 等主流底座上,在不訓(xùn)練的前提下即可穩(wěn)步提升召回率,說明“測試時視覺轉(zhuǎn)寫 + 輕量重排”對不同規(guī)模都有效。

COCO 與 Flickr30K數(shù)據(jù)集為例,SigLIP疊加 VISA:R@1 54.2→57.2、83.0→85.1EVA-CLIP疊加 VISA:R@1 55.6→59.5、83.1→86.1。

值得一提的是,即便直接“堆大”合并多模型(表中 SigLIP * + EVA-CLIP *),效果也不及本論文提出的測試時的路線,更大≠一定更好,關(guān)鍵在于表示的方式與對齊的粒度。


2)視頻檢索

DiDeMo為代表,R@1+2.5。在MSR-VTT同樣呈現(xiàn)+2.4的增益。VISA在基座 InternVideo-C 和 -G 上的提升說明對雙流與混合架構(gòu)的視頻底座都即插即用就漲分。


3)長文本檢索

真實搜索往往是“長描述 + 多約束”。把候選轉(zhuǎn)成語義密集文本后,排序更貼近用戶意圖,且配套 QA 片段可作為可解釋的重排證據(jù)。以DCI為代表,R@1 +12.1;在Urban1K也觀察到約+8.7的提升,說明轉(zhuǎn)寫后的密集文本更貼近用戶意圖,體現(xiàn)了在多概念、強約束場景下的優(yōu)勢。


4)分析實驗

(a)關(guān)于通用長描述(GD)質(zhì)量:即便不啟用 QA,僅依靠“長描述”也能帶來可觀提升;而且隨著描述模型能力增強,表述更到位、重排更穩(wěn)。

(b)在問題數(shù)量(QA 個數(shù))上:總體呈現(xiàn)“適當多問更好”的趨勢,但存在甜點區(qū);通常 3–5 個問題在效果與開銷之間最均衡,繼續(xù)增加容易出現(xiàn)重復(fù)、回報遞減(短查詢上尤為明顯)。

(c)就回答器選擇而言:更強回答器更可靠;同時,像中等規(guī)模的模型在“答得準”與對無關(guān)問題果斷拒答(Uncertain)之間取得良好平衡,能夠有效抑制幻覺噪聲。

(d)面向文本檢索器的兼容性:單流方案常因句級融合略占優(yōu)勢,不過雙流與輕量檢索器同樣能穩(wěn)定增益。換句話說,VISA 對檢索器選型不敏感,遷移與落地成本低。


四、可視化

下圖展示了本論文在“藍色襯衫+圍裙+做飯”這一查詢下的混淆候選與真實匹配。上半部分中,通用描述將上衣誤寫為 black shirt,QA 將其矯正為 black jacket。且 QA 對“是否系圍裙”給出 Uncertain,因此該候選在重排中被降權(quán)。

下半部分中,General Description 和 QA 明確識別出 blue shirt 與 apron,并確認人物正在 preparing food;這些被紅框標注為“證據(jù)句”的回答與查詢要點一一對應(yīng),使該樣本在 VISA 重排中上升為更高名次。整體說明:查詢感知的 QA 能補足細粒度細節(jié),并以可解釋的證據(jù)提升最終排序。


五、總結(jié)與展望

本文聚焦跨模態(tài)檢索中的語義冗余與粒度錯配難題,提出在測試時將候選圖像/視頻進行“視覺抽象”,再以查詢感知的 QA 在文本空間完成重排的路線,兼顧即插即用、穩(wěn)定增益與可解釋性。本論文在圖像、視頻與長文本三類場景驗證了這一路線的有效性,也在工程上證明它能夠以極低的改動嵌入現(xiàn)有召回—重排鏈路。

本論文作者期待與業(yè)界在大規(guī)模檢索業(yè)務(wù)中開展更緊密的合作,特別是在電商搜索、內(nèi)容檢索、長視頻檢索與廣告匹配(搜廣推)等高價值場景,共同推進“視覺摘要索引”的生產(chǎn)級落地。如果您所在的團隊正在升級檢索、推薦或廣告的相關(guān)能力,期待與您交流實踐經(jīng)驗,一同打磨可落地的方案。

作者:丁國峰 來源:公眾號【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機構(gòu),也是北京市標桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
別等孩子上了初中才明白:小學(xué)最重要的,根本不是刷了多少題

別等孩子上了初中才明白:小學(xué)最重要的,根本不是刷了多少題

諾媽家有男寶娃
2026-03-13 15:15:55
末代皇帝:溥儀回到故宮時買了票,發(fā)現(xiàn)了自己藏在椅子底下的寶貝

末代皇帝:溥儀回到故宮時買了票,發(fā)現(xiàn)了自己藏在椅子底下的寶貝

抽象派大師
2026-01-30 01:04:21
跨境圈連爆兩起騙局!12萬人10億血汗錢打水漂,網(wǎng)友:龐氏騙局

跨境圈連爆兩起騙局!12萬人10億血汗錢打水漂,網(wǎng)友:龐氏騙局

財經(jīng)八卦
2026-03-13 17:24:26
幸虧中國沒中標!泰國高鐵選擇日本人建設(shè),建成后讓泰國欲哭無淚

幸虧中國沒中標!泰國高鐵選擇日本人建設(shè),建成后讓泰國欲哭無淚

花小貓的美食日常
2026-03-14 00:20:26
全紅嬋以后的路恐不好走:疑變胖真要退役?參加代言活動很不自在

全紅嬋以后的路恐不好走:疑變胖真要退役?參加代言活動很不自在

念洲
2026-03-14 12:23:48
武大楊景媛上岸公務(wù)員,上萬人點贊

武大楊景媛上岸公務(wù)員,上萬人點贊

關(guān)爾東
2026-03-14 16:52:01
老伴手術(shù)急需25萬,老漢拿紀念鈔去銀行兌錢,銀行的做法讓老人愣住

老伴手術(shù)急需25萬,老漢拿紀念鈔去銀行兌錢,銀行的做法讓老人愣住

懸案解密檔案
2025-09-22 11:05:28
比亞迪績效幾乎全員下降40%

比亞迪績效幾乎全員下降40%

新浪財經(jīng)
2026-03-12 20:47:31
武漢同濟醫(yī)院把病人綁在核磁共振室6小時!絕望呼救無人應(yīng)!"現(xiàn)在的醫(yī)院根本沒把人當人!"

武漢同濟醫(yī)院把病人綁在核磁共振室6小時!絕望呼救無人應(yīng)!"現(xiàn)在的醫(yī)院根本沒把人當人!"

思如哲思
2026-03-13 21:09:36
日本剛吹完牛,中國就直接量產(chǎn)了!這次真把西方整懵了

日本剛吹完牛,中國就直接量產(chǎn)了!這次真把西方整懵了

愛看劇的阿峰
2026-03-14 13:07:42
孫穎莎輸給蒯曼后,拖著疲憊的身軀生悶氣,邱貽可卻在等著蒯曼

孫穎莎輸給蒯曼后,拖著疲憊的身軀生悶氣,邱貽可卻在等著蒯曼

鳳幻洋
2026-03-14 15:06:14
八年保姆反水?馬筱梅疑似走大 S老路,小楊阿姨直播揭穿其小心思

八年保姆反水?馬筱梅疑似走大 S老路,小楊阿姨直播揭穿其小心思

離離言幾許
2026-03-14 16:47:16
特朗普剛剛一聲令下,油價或?qū)氐资Э?!伊朗最新警告:“立即摧毀,化為灰燼”

特朗普剛剛一聲令下,油價或?qū)氐资Э?!伊朗最新警告:“立即摧毀,化為灰燼”

都市快報橙柿互動
2026-03-14 10:29:20
三星狂攬2000萬塊iPhone Fold屏幕訂單:最貴蘋果手機來了

三星狂攬2000萬塊iPhone Fold屏幕訂單:最貴蘋果手機來了

快科技
2026-03-13 14:59:31
林允請吃冰淇淋:不富有,但慷慨!

林允請吃冰淇淋:不富有,但慷慨!

飛娛日記
2026-03-14 11:56:59
蒯曼4比2勝孫穎莎后,網(wǎng)友:希望莎莎能在下個賽場得到公平對待

蒯曼4比2勝孫穎莎后,網(wǎng)友:希望莎莎能在下個賽場得到公平對待

林子說事
2026-03-14 16:41:03
保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

今夜有個好故事
2026-03-11 17:26:56
美元美債油價全線大漲!霍爾木茲海峽傳重磅!

美元美債油價全線大漲!霍爾木茲海峽傳重磅!

魏家東
2026-03-14 10:47:28
美財政告急?關(guān)閉總領(lǐng)館后,特朗普一聲令下,“空中出租車”問世

美財政告急?關(guān)閉總領(lǐng)館后,特朗普一聲令下,“空中出租車”問世

諦聽骨語本尊
2026-03-14 17:20:33
重慶冠軍賽:陳熠3-2險勝乒壇小妖精,下一輪阻擊日本大藤沙月!

重慶冠軍賽:陳熠3-2險勝乒壇小妖精,下一輪阻擊日本大藤沙月!

好乒乓
2026-03-14 10:59:30
2026-03-14 18:31:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸 特朗普表態(tài)

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸 特朗普表態(tài)

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

張藝興,犯了大忌

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

本地
旅游
親子
房產(chǎn)
公開課

本地新聞

坐標北京,過敏季反向遷徒

旅游要聞

中東地區(qū)軍事沖突嚴重沖擊意大利旅游業(yè)

親子要聞

寶媽穿緊身裙現(xiàn)身親子運動會,外形吸睛靚麗,網(wǎng)友直言你來選美呢

房產(chǎn)要聞

不容易??!??诮K于又要賣地了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版