国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

多模態(tài)檢索新突破,用軟標簽打破傳統(tǒng)剛性映射約束,全面超越CLIP

0
分享至

UniME-V2團隊 投稿
量子位 | 公眾號 QbitAI

統(tǒng)一多模態(tài)嵌入模型是眾多任務的技術基石。

當前主流方法通常采用批內負例挖掘策略,通過計算查詢-候選對的相似度進行訓練。

但這類方法存在明顯局限:難以捕捉候選樣本間細微的語義差異,負例樣本多樣性不足,且模型在區(qū)分錯誤負例與困難負例時的判別能力有限。

針對這些問題,團隊提出全新解決方案——基于多模態(tài)大模型語義理解能力的統(tǒng)一多模態(tài)嵌入模型UniME-V2。

該方法首先通過全局檢索構建潛在困難負例集,隨后創(chuàng)新性地引入“MLLM-as-a-Judge”機制:利用MLLM對查詢-候選對進行語義對齊評估,生成軟語義匹配分數(shù)。

這一設計帶來三重突破:

  • 以匹配分數(shù)為依據(jù)實現(xiàn)精準困難負例挖掘,有效規(guī)避錯誤負例干擾
  • 確保篩選出的困難負例兼具多樣性與高質量特性
  • 通過軟標簽機制打破傳統(tǒng)一對一的剛性映射約束



通過將模型相似度矩陣與軟語義匹配分數(shù)矩陣對齊,使模型真正學會辨析候選樣本間的語義差異,顯著提升判別能力。

為進一步提升性能,團隊基于挖掘的困難負例訓練出重排序模型UniME-V2-Reranker,采用配對與列表聯(lián)合優(yōu)化策略。



圖1 UniME-V2與以往方法的本質不同,在于巧妙利用了多模態(tài)大模型(MLLM)的深層語義理解能力。它不僅能用此能力精準挖掘“困難負例”,更能生成一個軟語義匹配分數(shù),如同一位資深導師,指導模型學會辨別候選樣本間微妙的語義差異。

方法
MLLM-as-a-Judge 困難負樣本挖掘

過去的研究主要依賴于批內硬負樣本挖掘,其中計算查詢-候選嵌入相似性以采樣負樣本。

然而,這種方法通常受到負樣本多樣性有限和嵌入判別能力不足的困擾,難以有效區(qū)分錯誤和困難的負樣本。

為了克服這些挑戰(zhàn),如圖2所示,首先利用全局檢索構建一個潛在的困難負樣本集。

之后,利用MLLM的強大理解能力來評估每個查詢-候選對的語義對齊性,并生成軟語義匹配分數(shù)。

這個分數(shù)指導了硬負樣本挖掘,使得能夠識別出多樣化和高質量的困難負樣本,同時減少錯誤負樣本的影響。



圖2:基于MLLM-as-a-Judge的困難負樣本挖掘流程。我們首先利用現(xiàn)有的多模態(tài)嵌入模型進行全局檢索,構建一個潛在的困難負樣本集。然后,利用MLLM強大的理解能力根據(jù)語義對齊性對查詢-候選對進行評分,從而精確識別困難負樣本。

潛在困難負樣本集合為了從全局樣本中提取更高質量的困難負樣本,首先使用VLM2Vec為查詢和候選生成嵌入。

接著,為每個查詢檢索出50個最相關的候選。

為了應對錯誤負樣本并增加多樣性,我們基于查詢-候選相似度分數(shù)設定一個相似度閾值,并選擇前50名的候選作為潛在的困難負樣本集:

其中 是由VLM2Vec模型計算得出的查詢 與候選 的相似度分數(shù)。

語義匹配分數(shù)在構建潛在的困難負樣本集后,我們使用MLLM作為評判,為中的每個查詢-候選對計算語義匹配分數(shù),具體指令如下:



隨后,根據(jù)()和()標記的logits計算語義匹配分數(shù),其中。這里,表示查詢的數(shù)量。利用MLLMs的高級理解能力,語義匹配分數(shù)有效地捕捉了查詢和候選之間的語義對齊程度。

困難負樣本采樣為了提高困難負樣本的質量,利用語義匹配分數(shù)對候選進行精煉。

候選樣本的分數(shù)超過閾值(其中表示正樣本,是控制閾值間隔的超參數(shù))則會當作錯誤負樣本并排除。為保持多樣性,采用五步間隔的循環(huán)采樣策略。

如果精煉后的集合包含的候選少于十個,將重復選擇以確保至少有十個。

在極少數(shù)情況下(<1%),如果沒有候選符合條件,將從最初的五十個候選中隨機選擇10個,并給每個分配1.0的語義匹配分數(shù)。

最后,對于每個查詢,我們獲得困難負樣本集及其相應的語義匹配分數(shù)。



圖3:基于MLLM判斷的訓練框架結構。UniME-V2使用軟語義匹配分數(shù)作為監(jiān)督信號,以增強候選者間的語義區(qū)分學習。UniME-V2-Reranker采用pairwise和listwise聯(lián)合訓練以提升重排序性能。

基于MLLM判斷的訓練框架

UniME-V2為此提出了一個基于MLLM判斷的分布對齊框架,如圖3所示,利用軟語義匹配分數(shù)作為監(jiān)督信號來提高表征性能。

具體來說,給定一個查詢及其候選集,將它們輸入到MLLM中,并提取最后一個標記作為查詢和候選集的嵌入,其中是目標候選的嵌入,是每個查詢的困難負樣本數(shù)。然后計算查詢嵌入與候選嵌入之間的關系得分矩陣如下:

基于語義匹配分數(shù),計算由MLLM判斷得出的語義匹配分數(shù)矩陣如下:

為了增強學習的穩(wěn)健性并確保矩陣對稱性,采用了JS-Divergence,這是KL-Divergence的一種對稱替代。最終的損失函數(shù)定義為:

除此之外,受前人工作啟發(fā),UniME-V2聯(lián)合pairwise和listwise訓練了一個重排序模型UniME-V2-Reranker(如圖3所示)來提高基于初始嵌入的檢索精度。

在成對訓練中,為每個查詢構造兩對,一對與正候選結合,另一對與最困難的負候選結合。然后指導UniME-V2-Reranker對正候選輸出,對負候選輸出。成對損失使用交叉熵損失函數(shù)計算如下:

其中表示UniME-V2-Reranker的自回歸輸出過程。對于列表訓練,基于語義匹配分數(shù),從困難負候選中選擇前個候選,隨機插入目標候選并獲取其索引。

然后提示UniME-V2-Reranker輸出真實位置,公式為:

最終的損失函數(shù)定義為。



表1:MMEB基準測試結果。IND表示在分布內,OOD表示在分布外。分數(shù)為補充材料中的平均精度結果。

實驗
多模態(tài)檢索

表1展示了在相同訓練數(shù)據(jù)和配置下UniME-V2與現(xiàn)有基線模型在MMEB基準上的性能對比。

UniME-V2在各種基礎模型上均有顯著的性能提升。

具體來說,UniME-V2在Qwen2-VL-2B和7B模型上分別比VLM2Vec高出3.5%和2.2%。

當基于LLaVA-OneVision作為基礎時,UniME-V2比包括QQMM、LLaVE和UniME在內的之前的最先進模型提高了0.5%-0.9%。此外,UniME-V2在分布外數(shù)據(jù)集上的得分為66.7,凸顯其魯棒性和卓越的遷移能力。



表2:在短描述(Flickr30K, MS-COCO)、長描述(ShareGPT4V, Urban1K)和組合(SugarCrepe)數(shù)據(jù)集上的零樣本文本-圖像檢索結果。

跨模態(tài)檢索

如表2所示,在零樣本跨模態(tài)檢索任務上評估UniME-V2。對于短描述數(shù)據(jù)集,包括Flickr30K和MS-COCO,UniME-V2在圖像到文本檢索中比UniME表現(xiàn)出了2.2%-9.7%的性能提升。

在文本到圖像檢索中,其性能與UniME相當,這主要歸因于兩個因素:

(1)MMEB訓練集中文本到圖像數(shù)據(jù)的比例有限;

(2)短描述中的語義信息不足。

對于長描述跨模態(tài)檢索任務,UniME-V2在ShareGPT4V和Urban1K上取得了顯著改進,這得益于其增強的區(qū)分能力和詳細描述提供的豐富語義內容。

值得注意的是,與EVA-CLIP-8B相比,UniME-V2展示了更為穩(wěn)健的檢索性能,這主要因為其通用多模態(tài)嵌入能顯著減少模態(tài)間的差距(如圖4所示)。



圖4:EVA-CLIP-8B與UniME-V2(LLaVA-OneVision-7B)之間的表示分布對比。

組合跨模態(tài)檢索

基于SugarCrepe評估UniME-V2模型區(qū)分困難負樣本的能力。

如表2所示,UniME-V2在所有評估指標上均表現(xiàn)出卓越性能。

與UniME相比在使用Qwen2-VL-2B時性能提升了5.3%,6.0%,4.5%。當模型從2B擴展到7B后也實現(xiàn)了9.0%,9.2%,9.2%的性能提升。

此外,與EVA-CLIP-8B相比,UniME-V2還顯示出2.7%,3.4%,和3.8%的改進,凸顯其在區(qū)分困難負樣本上的強大能力。



表3:使用UniME-V2 (Qwen2-VL-7B) 和 UniME-V2 (Qwen2-VL-2B) 比較LamRA與UniME-V2-Reranker的重排序性能。

重排序對比

在表3中基于top5檢索結果對比了LamRA與UniME-V2-Reranker的性能。為確保公平,使用與LamRA相同的訓練參數(shù)和基礎模型(Qwen2.5-VL-7B)。

當使用LamRA和UniME-V2-Reranker對UniME-V2 (Qwen2-VL-2B) 檢索結果進行重排后在四個下游任務上均提升了性能。

UniME-V2-Reranker在只使用一半數(shù)據(jù)的情況下始終獲得更優(yōu)結果。類似地,使用UniME-V2 (Qwen2-VL-7B) 進行檢索時,UniME-V2-Reranker的表現(xiàn)也超過了LamRA,在四個任務中分別獲得了0.5%,0.4%,0.3%,和7.4%的性能提升。

值得注意的是,UniME-V2-Reranker在組合理解檢索任務中展示了對LamRA的顯著優(yōu)勢,這歸功于其利用MLLM的理解能力提取多樣化和高質量的困難樣本,有效增強了模型的區(qū)分能力。

論文:

https://arxiv.org/abs/2510.13515

GitHub:

https://github.com/GaryGuTC/UniME-v2

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
83年李鵬當上副總理,79歲的鄧穎超親自上門叮囑:切不可脫離群眾

83年李鵬當上副總理,79歲的鄧穎超親自上門叮囑:切不可脫離群眾

我不是沃神
2026-04-12 14:35:03
艾頓:在詹姆斯這樣的球員身邊打球,你真的沒有理由不努力

艾頓:在詹姆斯這樣的球員身邊打球,你真的沒有理由不努力

懂球帝
2026-04-19 13:34:07
山東贏8分!廣廈13分大勝!北京5分險勝,排名大變,官宣重罰山西

山東贏8分!廣廈13分大勝!北京5分險勝,排名大變,官宣重罰山西

老吳說體育
2026-04-19 21:51:59
虎狼饑渴?為何一些女性會“欲望”特別強烈?可能存在這幾點原因

虎狼饑渴?為何一些女性會“欲望”特別強烈?可能存在這幾點原因

醫(yī)者榮耀
2026-03-13 12:10:12
終于來了!iPhone 18 Pro,可變光圈已量產(chǎn)

終于來了!iPhone 18 Pro,可變光圈已量產(chǎn)

小蜜情感說
2026-04-20 01:52:36
騷擾電話為何總打給你?元兇就在微信,關掉這開關立馬清凈

騷擾電話為何總打給你?元兇就在微信,關掉這開關立馬清凈

復轉這些年
2026-04-16 12:31:37
烏度卡:杜蘭特訓練時不慎與隊友膝蓋相撞,導致髕腱區(qū)域受傷

烏度卡:杜蘭特訓練時不慎與隊友膝蓋相撞,導致髕腱區(qū)域受傷

懂球帝
2026-04-19 08:20:27
炸了!利物浦兩大核心主動求離,安菲爾德迎來巨變

炸了!利物浦兩大核心主動求離,安菲爾德迎來巨變

瀾歸序
2026-04-20 01:42:46
希拉里:我聽說中美俄將劃分勢力范圍,美國管西半球,中國管東亞

希拉里:我聽說中美俄將劃分勢力范圍,美國管西半球,中國管東亞

沙溪解說
2026-04-19 13:31:42
完勝!唐斯25+8+4+3,麥科勒姆26+4,哈特立大功,季后賽走勢改變

完勝!唐斯25+8+4+3,麥科勒姆26+4,哈特立大功,季后賽走勢改變

籃球大視野
2026-04-19 09:05:54
朝鮮想買中國的殲10CE戰(zhàn)斗機,結果被拒絕了

朝鮮想買中國的殲10CE戰(zhàn)斗機,結果被拒絕了

安安說
2026-04-19 14:59:08
6月1日交強險調整!950元固定費取消,好司機保費直接減掉一半

6月1日交強險調整!950元固定費取消,好司機保費直接減掉一半

復轉這些年
2026-04-17 11:59:50
斯諾克世錦賽:卡特5連鞭逆轉,從0-4到5-4反超希金斯

斯諾克世錦賽:卡特5連鞭逆轉,從0-4到5-4反超希金斯

徐觳解說
2026-04-20 01:29:52
現(xiàn)在智駕行業(yè)只剩兩種模式:華為模式和Momenta模式

現(xiàn)在智駕行業(yè)只剩兩種模式:華為模式和Momenta模式

沙雕小琳琳
2026-04-19 17:28:15
破防!雷軍15小時京滬續(xù)航自證清白,懇求全網(wǎng)幫幫小米

破防!雷軍15小時京滬續(xù)航自證清白,懇求全網(wǎng)幫幫小米

雷科技
2026-04-18 12:38:28
比梅努更重要!曼聯(lián)新星碾壓切爾西,紅魔新核已崛起

比梅努更重要!曼聯(lián)新星碾壓切爾西,紅魔新核已崛起

奶蓋熊本熊
2026-04-20 00:20:08
1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,F(xiàn)BI顏面盡失

1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,F(xiàn)BI顏面盡失

干史人
2026-04-14 21:10:03
孫中山長子孫科 1949 年拒隨蔣介石赴臺,這位爭議人物結局如何

孫中山長子孫科 1949 年拒隨蔣介石赴臺,這位爭議人物結局如何

磊子講史
2025-12-23 17:43:11
胡錫進給沃爾沃汽車做廣告,評論區(qū)全翻車了……

胡錫進給沃爾沃汽車做廣告,評論區(qū)全翻車了……

麥杰遜
2026-04-17 11:51:26
笑麻!女子吐槽花1年裝修的新中式都說像法庭,我卻笑死在評論區(qū)

笑麻!女子吐槽花1年裝修的新中式都說像法庭,我卻笑死在評論區(qū)

另子維愛讀史
2026-04-17 17:36:52
2026-04-20 03:11:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12497文章數(shù) 176455關注度
往期回顧 全部

科技要聞

50分26秒破人類紀錄!300臺機器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內娛隔空掀桌第一人

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

教育
數(shù)碼
時尚
家居
房產(chǎn)

教育要聞

655家單位、1.29萬個崗位,湖南用心幫大學生找工作

數(shù)碼要聞

華為新機發(fā)布前瞻:闊折疊X Max+影像旗艦Pura 90,都沒懸念了

裝修“精神角落”,就是這么上癮

家居要聞

法式線條 時光靜淌

房產(chǎn)要聞

官宣簽約最強城更!海口樓市,突然殺入神秘房企!

無障礙瀏覽 進入關懷版