網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

多模態(tài)檢索新突破，用軟標(biāo)簽打破傳統(tǒng)剛性映射約束，全面超越CLIP

2025-11-15 13:18:07　來(lái)源: 量子位

北京舉報(bào)

分享至

UniME-V2團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

統(tǒng)一多模態(tài)嵌入模型是眾多任務(wù)的技術(shù)基石。

當(dāng)前主流方法通常采用批內(nèi)負(fù)例挖掘策略，通過(guò)計(jì)算查詢-候選對(duì)的相似度進(jìn)行訓(xùn)練。

但這類方法存在明顯局限：難以捕捉候選樣本間細(xì)微的語(yǔ)義差異，負(fù)例樣本多樣性不足，且模型在區(qū)分錯(cuò)誤負(fù)例與困難負(fù)例時(shí)的判別能力有限。

針對(duì)這些問(wèn)題，團(tuán)隊(duì)提出全新解決方案——基于多模態(tài)大模型語(yǔ)義理解能力的統(tǒng)一多模態(tài)嵌入模型UniME-V2。

該方法首先通過(guò)全局檢索構(gòu)建潛在困難負(fù)例集，隨后創(chuàng)新性地引入“MLLM-as-a-Judge”機(jī)制：利用MLLM對(duì)查詢-候選對(duì)進(jìn)行語(yǔ)義對(duì)齊評(píng)估，生成軟語(yǔ)義匹配分?jǐn)?shù)。

這一設(shè)計(jì)帶來(lái)三重突破：

以匹配分?jǐn)?shù)為依據(jù)實(shí)現(xiàn)精準(zhǔn)困難負(fù)例挖掘，有效規(guī)避錯(cuò)誤負(fù)例干擾
確保篩選出的困難負(fù)例兼具多樣性與高質(zhì)量特性
通過(guò)軟標(biāo)簽機(jī)制打破傳統(tǒng)一對(duì)一的剛性映射約束

通過(guò)將模型相似度矩陣與軟語(yǔ)義匹配分?jǐn)?shù)矩陣對(duì)齊，使模型真正學(xué)會(huì)辨析候選樣本間的語(yǔ)義差異，顯著提升判別能力。

為進(jìn)一步提升性能，團(tuán)隊(duì)基于挖掘的困難負(fù)例訓(xùn)練出重排序模型UniME-V2-Reranker，采用配對(duì)與列表聯(lián)合優(yōu)化策略。

圖1 UniME-V2與以往方法的本質(zhì)不同，在于巧妙利用了多模態(tài)大模型（MLLM）的深層語(yǔ)義理解能力。它不僅能用此能力精準(zhǔn)挖掘“困難負(fù)例”，更能生成一個(gè)軟語(yǔ)義匹配分?jǐn)?shù)，如同一位資深導(dǎo)師，指導(dǎo)模型學(xué)會(huì)辨別候選樣本間微妙的語(yǔ)義差異。

方法

MLLM-as-a-Judge 困難負(fù)樣本挖掘

過(guò)去的研究主要依賴于批內(nèi)硬負(fù)樣本挖掘，其中計(jì)算查詢-候選嵌入相似性以采樣負(fù)樣本。

然而，這種方法通常受到負(fù)樣本多樣性有限和嵌入判別能力不足的困擾，難以有效區(qū)分錯(cuò)誤和困難的負(fù)樣本。

為了克服這些挑戰(zhàn)，如圖2所示，首先利用全局檢索構(gòu)建一個(gè)潛在的困難負(fù)樣本集。

之后，利用MLLM的強(qiáng)大理解能力來(lái)評(píng)估每個(gè)查詢-候選對(duì)的語(yǔ)義對(duì)齊性，并生成軟語(yǔ)義匹配分?jǐn)?shù)。

這個(gè)分?jǐn)?shù)指導(dǎo)了硬負(fù)樣本挖掘，使得能夠識(shí)別出多樣化和高質(zhì)量的困難負(fù)樣本，同時(shí)減少錯(cuò)誤負(fù)樣本的影響。

圖2：基于MLLM-as-a-Judge的困難負(fù)樣本挖掘流程。我們首先利用現(xiàn)有的多模態(tài)嵌入模型進(jìn)行全局檢索，構(gòu)建一個(gè)潛在的困難負(fù)樣本集。然后，利用MLLM強(qiáng)大的理解能力根據(jù)語(yǔ)義對(duì)齊性對(duì)查詢-候選對(duì)進(jìn)行評(píng)分，從而精確識(shí)別困難負(fù)樣本。

潛在困難負(fù)樣本集合為了從全局樣本中提取更高質(zhì)量的困難負(fù)樣本，首先使用VLM2Vec為查詢和候選生成嵌入。

接著，為每個(gè)查詢檢索出50個(gè)最相關(guān)的候選。

為了應(yīng)對(duì)錯(cuò)誤負(fù)樣本并增加多樣性，我們基于查詢-候選相似度分?jǐn)?shù)設(shè)定一個(gè)相似度閾值，并選擇前50名的候選作為潛在的困難負(fù)樣本集：

其中是由VLM2Vec模型計(jì)算得出的查詢與候選的相似度分?jǐn)?shù)。

語(yǔ)義匹配分?jǐn)?shù)在構(gòu)建潛在的困難負(fù)樣本集后，我們使用MLLM作為評(píng)判，為中的每個(gè)查詢-候選對(duì)計(jì)算語(yǔ)義匹配分?jǐn)?shù)，具體指令如下：

隨后，根據(jù)（）和（）標(biāo)記的logits計(jì)算語(yǔ)義匹配分?jǐn)?shù)，其中。這里，表示查詢的數(shù)量。利用MLLMs的高級(jí)理解能力，語(yǔ)義匹配分?jǐn)?shù)有效地捕捉了查詢和候選之間的語(yǔ)義對(duì)齊程度。

困難負(fù)樣本采樣為了提高困難負(fù)樣本的質(zhì)量，利用語(yǔ)義匹配分?jǐn)?shù)對(duì)候選進(jìn)行精煉。

候選樣本的分?jǐn)?shù)超過(guò)閾值（其中表示正樣本，是控制閾值間隔的超參數(shù)）則會(huì)當(dāng)作錯(cuò)誤負(fù)樣本并排除。為保持多樣性，采用五步間隔的循環(huán)采樣策略。

如果精煉后的集合包含的候選少于十個(gè)，將重復(fù)選擇以確保至少有十個(gè)。

在極少數(shù)情況下（<1%），如果沒(méi)有候選符合條件，將從最初的五十個(gè)候選中隨機(jī)選擇10個(gè)，并給每個(gè)分配1.0的語(yǔ)義匹配分?jǐn)?shù)。

最后，對(duì)于每個(gè)查詢，我們獲得困難負(fù)樣本集及其相應(yīng)的語(yǔ)義匹配分?jǐn)?shù)。

圖3：基于MLLM判斷的訓(xùn)練框架結(jié)構(gòu)。UniME-V2使用軟語(yǔ)義匹配分?jǐn)?shù)作為監(jiān)督信號(hào)，以增強(qiáng)候選者間的語(yǔ)義區(qū)分學(xué)習(xí)。UniME-V2-Reranker采用pairwise和listwise聯(lián)合訓(xùn)練以提升重排序性能。

基于MLLM判斷的訓(xùn)練框架

UniME-V2為此提出了一個(gè)基于MLLM判斷的分布對(duì)齊框架，如圖3所示，利用軟語(yǔ)義匹配分?jǐn)?shù)作為監(jiān)督信號(hào)來(lái)提高表征性能。

具體來(lái)說(shuō)，給定一個(gè)查詢及其候選集，將它們輸入到MLLM中，并提取最后一個(gè)標(biāo)記作為查詢和候選集的嵌入，其中是目標(biāo)候選的嵌入，是每個(gè)查詢的困難負(fù)樣本數(shù)。然后計(jì)算查詢嵌入與候選嵌入之間的關(guān)系得分矩陣如下：

基于語(yǔ)義匹配分?jǐn)?shù)，計(jì)算由MLLM判斷得出的語(yǔ)義匹配分?jǐn)?shù)矩陣如下：

為了增強(qiáng)學(xué)習(xí)的穩(wěn)健性并確保矩陣對(duì)稱性，采用了JS-Divergence，這是KL-Divergence的一種對(duì)稱替代。最終的損失函數(shù)定義為：

除此之外，受前人工作啟發(fā)，UniME-V2聯(lián)合pairwise和listwise訓(xùn)練了一個(gè)重排序模型UniME-V2-Reranker（如圖3所示）來(lái)提高基于初始嵌入的檢索精度。

在成對(duì)訓(xùn)練中，為每個(gè)查詢構(gòu)造兩對(duì)，一對(duì)與正候選結(jié)合，另一對(duì)與最困難的負(fù)候選結(jié)合。然后指導(dǎo)UniME-V2-Reranker對(duì)正候選輸出，對(duì)負(fù)候選輸出。成對(duì)損失使用交叉熵?fù)p失函數(shù)計(jì)算如下：

其中表示UniME-V2-Reranker的自回歸輸出過(guò)程。對(duì)于列表訓(xùn)練，基于語(yǔ)義匹配分?jǐn)?shù)，從困難負(fù)候選中選擇前個(gè)候選，隨機(jī)插入目標(biāo)候選并獲取其索引。

然后提示UniME-V2-Reranker輸出真實(shí)位置，公式為：

最終的損失函數(shù)定義為。

表1：MMEB基準(zhǔn)測(cè)試結(jié)果。IND表示在分布內(nèi)，OOD表示在分布外。分?jǐn)?shù)為補(bǔ)充材料中的平均精度結(jié)果。

實(shí)驗(yàn)

多模態(tài)檢索

表1展示了在相同訓(xùn)練數(shù)據(jù)和配置下UniME-V2與現(xiàn)有基線模型在MMEB基準(zhǔn)上的性能對(duì)比。

UniME-V2在各種基礎(chǔ)模型上均有顯著的性能提升。

具體來(lái)說(shuō)，UniME-V2在Qwen2-VL-2B和7B模型上分別比VLM2Vec高出3.5%和2.2%。

當(dāng)基于LLaVA-OneVision作為基礎(chǔ)時(shí)，UniME-V2比包括QQMM、LLaVE和UniME在內(nèi)的之前的最先進(jìn)模型提高了0.5%-0.9%。此外，UniME-V2在分布外數(shù)據(jù)集上的得分為66.7，凸顯其魯棒性和卓越的遷移能力。

表2：在短描述（Flickr30K, MS-COCO）、長(zhǎng)描述（ShareGPT4V, Urban1K）和組合（SugarCrepe）數(shù)據(jù)集上的零樣本文本-圖像檢索結(jié)果。

跨模態(tài)檢索

如表2所示，在零樣本跨模態(tài)檢索任務(wù)上評(píng)估UniME-V2。對(duì)于短描述數(shù)據(jù)集，包括Flickr30K和MS-COCO，UniME-V2在圖像到文本檢索中比UniME表現(xiàn)出了2.2%-9.7%的性能提升。

在文本到圖像檢索中，其性能與UniME相當(dāng)，這主要?dú)w因于兩個(gè)因素：

（1）MMEB訓(xùn)練集中文本到圖像數(shù)據(jù)的比例有限；

（2）短描述中的語(yǔ)義信息不足。

對(duì)于長(zhǎng)描述跨模態(tài)檢索任務(wù)，UniME-V2在ShareGPT4V和Urban1K上取得了顯著改進(jìn)，這得益于其增強(qiáng)的區(qū)分能力和詳細(xì)描述提供的豐富語(yǔ)義內(nèi)容。

值得注意的是，與EVA-CLIP-8B相比，UniME-V2展示了更為穩(wěn)健的檢索性能，這主要因?yàn)槠渫ㄓ枚嗄B(tài)嵌入能顯著減少模態(tài)間的差距（如圖4所示）。

圖4：EVA-CLIP-8B與UniME-V2（LLaVA-OneVision-7B）之間的表示分布對(duì)比。

組合跨模態(tài)檢索

基于SugarCrepe評(píng)估UniME-V2模型區(qū)分困難負(fù)樣本的能力。

如表2所示，UniME-V2在所有評(píng)估指標(biāo)上均表現(xiàn)出卓越性能。

與UniME相比在使用Qwen2-VL-2B時(shí)性能提升了5.3%，6.0%，4.5%。當(dāng)模型從2B擴(kuò)展到7B后也實(shí)現(xiàn)了9.0%，9.2%，9.2%的性能提升。

此外，與EVA-CLIP-8B相比，UniME-V2還顯示出2.7%，3.4%，和3.8%的改進(jìn)，凸顯其在區(qū)分困難負(fù)樣本上的強(qiáng)大能力。

表3：使用UniME-V2 (Qwen2-VL-7B) 和 UniME-V2 (Qwen2-VL-2B) 比較LamRA與UniME-V2-Reranker的重排序性能。

重排序?qū)Ρ?/h5>
在表3中基于top5檢索結(jié)果對(duì)比了LamRA與UniME-V2-Reranker的性能。為確保公平，使用與LamRA相同的訓(xùn)練參數(shù)和基礎(chǔ)模型（Qwen2.5-VL-7B）。
當(dāng)使用LamRA和UniME-V2-Reranker對(duì)UniME-V2 (Qwen2-VL-2B) 檢索結(jié)果進(jìn)行重排后在四個(gè)下游任務(wù)上均提升了性能。
UniME-V2-Reranker在只使用一半數(shù)據(jù)的情況下始終獲得更優(yōu)結(jié)果。類似地，使用UniME-V2 (Qwen2-VL-7B) 進(jìn)行檢索時(shí)，UniME-V2-Reranker的表現(xiàn)也超過(guò)了LamRA，在四個(gè)任務(wù)中分別獲得了0.5%，0.4%，0.3%，和7.4%的性能提升。
值得注意的是，UniME-V2-Reranker在組合理解檢索任務(wù)中展示了對(duì)LamRA的顯著優(yōu)勢(shì)，這歸功于其利用MLLM的理解能力提取多樣化和高質(zhì)量的困難樣本，有效增強(qiáng)了模型的區(qū)分能力。
論文：
https://arxiv.org/abs/2510.13515
GitHub：
https://github.com/GaryGuTC/UniME-v2

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.