国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓多模態(tài)檢索超越SOTA!ReCALL框架化解生成式與判別式的范式?jīng)_突

0
分享至

ReCALL團隊 投稿量子位 | 公眾號 QbitAI

生成式模型當(dāng)檢索器大材小用效果還不好?

當(dāng)多模態(tài)大模型(MLLM)憑借強大的圖文理解與邏輯推理能力成為AI領(lǐng)域的核心抓手,將其應(yīng)用于圖像檢索尤其是組合圖像檢索(CIR)任務(wù),本應(yīng)是降維打擊的最優(yōu)解。

然而現(xiàn)實卻相悖:把生成式大模型強行改造為判別式檢索器后,模型會出現(xiàn)嚴重的能力退化,連原本100%能精準解決的問題都頻頻出錯,生成式與判別式的范式?jīng)_突,成為大模型向檢索領(lǐng)域落地的核心壁壘。



如今,這一行業(yè)難題被AI國家隊紫東太初團隊聯(lián)合新加坡國立大學(xué)成功攻克。其最新研究成果ReCALL框架,憑借獨創(chuàng)的“診斷-生成-校準”閉環(huán)體系,從根本上解決了大模型從生成式到判別式的范式?jīng)_突問題,讓大模型在保留原生細粒度推理能力的同時,完美變身高效檢索器

該成果已被計算機視覺頂會CVPR 2026正式錄用,在CIRR、FashionIQ等主流基準測試中全面刷新SOTA性能,更開辟了大模型下游任務(wù)能力無損適配的全新路徑,為多模態(tài)大模型的垂直領(lǐng)域落地奠定核心基礎(chǔ)。

行業(yè)痛點:范式?jīng)_突致大模型檢索“智能倒退”

為什么聰明的MLLM一做檢索就容易翻車?作者團隊一針見血地指出了問題的核心:范式?jīng)_突(Paradigm Conflict)

原生的大模型習(xí)慣于生成式范式,它通過一步步的鏈式思考(Step-wise reasoning)來理解細粒度的視覺關(guān)系。但是,現(xiàn)有的檢索適配方法往往采用判別式范式,強行把大模型的高維思考壓縮成一個單一的向量,去計算相似度。

這種暴力的轉(zhuǎn)變直接導(dǎo)致了一個致命后果——能力退化(Capability Degradation)



如上圖左側(cè)所示,面對“地板上的兩只同品種狗”這樣需要細粒度推理的查詢時,原生的大模型(F)通過VQA問答可以輕松鎖定目標。然而,經(jīng)過傳統(tǒng)微調(diào)后的檢索器版本(Rbase)卻完全喪失了這種細粒度grounding能力,找出的全是錯誤的圖。

定量數(shù)據(jù)更令人震驚:在原生大模型原本能夠100%找對的子集上,微調(diào)后的檢索器在CIRR數(shù)據(jù)集上R@1暴跌至62.33%,在FashionIQ上暴跌至55.80%。模型不僅沒有學(xué)到新東西,反而把原本自帶的推理天賦給弄丟了!

破局之道:ReCALL四階段校準框架

既然能力退化是因為初期的檢索微調(diào)把大模型“帶偏了”,那怎么把它拉回正軌?

作者提出了一個通用的框架ReCALL。它的核心思想非常巧妙:用大模型原生的推理信號,來糾正檢索空間中的盲區(qū)。實際上,整個閉環(huán)被嚴密地劃分為四個階段,其中第一階段完成了基礎(chǔ)的檢索器初始化并暴露出退化問題,后三個階段則是極其優(yōu)雅的“診斷-生成-打磨”校準管線:

Stage 1:基礎(chǔ)檢索適配(Baseline Adaptation)。為了讓生成式大模型具備基本的圖文檢索功能,研究人員首先用標準的InfoNCE損失函數(shù),將原生大模型(F)微調(diào)成一個基礎(chǔ)檢索器(Rbase)。這一步雖然賦予了模型基礎(chǔ)的判別與檢索能力,但也正是這種暴力的單向量壓縮,誘發(fā)了前文提到的“能力退化”癥狀。

Stage 2:自我診斷(Diagnose)。俗話說“錯題本是最好的老師”。有了基礎(chǔ)檢索器后,讓它在訓(xùn)練集上跑一遍,專門挑出那些它“找錯”的樣本(Informative Instances)。這些能高分騙過檢索器的負樣本,往往和正確答案有著極細微的視覺差別,它們正是模型能力退化、認知最模糊的“盲區(qū)”。

Stage 3:生成校正(Generate)。拿著這些挑出來的錯題,作者團隊并沒有簡單粗暴地讓原生大模型(F)重新“看圖說話”,而是精心設(shè)計了一套包含嚴密邏輯的鏈式思考(CoT)誘導(dǎo)機制。具體而言,這個“講題”過程被巧妙地拆解為兩個核心步驟:

① 意圖分解與驗證(Intent Decomposition & Verification):大模型首先會將原始的修改指令拆解成一個個“原子意圖”,并挨個對照參考圖和找錯的圖進行核查,精準定位出到底哪一個細粒度意圖在錯圖中被違背了。

② 最小編輯合成(Minimal Edit Synthesis):在抓住了矛盾點后,大模型會保留那些依然成立的意圖,僅僅重寫被違背的部分,從而“打補丁”式地合成出一條全新的修改指令。

通過這種極其精巧的設(shè)計,框架自動生成了從“參考圖”指向“錯圖”的全新糾錯三元組。這種從原文本到新文本的“極小幅文字編輯”,在視覺上直接鏡像了真實目標圖與強干擾錯圖之間極其微妙的差異,從而為檢索模型提供了極其顯式、高密度的細粒度圖文對齊監(jiān)督信號。

更重要的是,這種嚴格遵循“最小編輯原則”的生成方式,絕非無拘無束的文本發(fā)散,它最大程度地保證了新構(gòu)建的訓(xùn)練三元組與原始數(shù)據(jù)集在數(shù)據(jù)分布上的高度一致性。最后,再輔以VQA(視覺問答)級別的語義一致性過濾,剔除掉幻覺和噪音,確保送入模型微調(diào)的“糾錯信號”不僅直擊痛點,而且絕對高保真。

Stage 4:針對性打磨(Refine)。有了精確的糾錯指令,最后一步就是通過分組對比學(xué)習(xí)(Grouped Contrastive Refinement)來完成進化。框架會把原查詢和對應(yīng)的糾錯查詢打包放在同一個批次里“對沖”,配合雙重優(yōu)化目標,逼迫檢索器去明確區(qū)分那些極其細微的視覺-語義邊界,最終將原生大模型的細粒度推理能力完美內(nèi)化。



通過這套組合拳,檢索器不僅重新找回了丟失的細粒度推理能力,還將其完美內(nèi)化到了自己的向量空間中。

實測成績:全場景刷新SOTA,細粒度檢索能力拉滿

ReCALL的有效性在各大主流基準測試中得到了驗證。



  • CIRR開放域復(fù)雜數(shù)據(jù)集上,ReCALL創(chuàng)造了55.52%的R@1新SOTA,相較于基線模型實現(xiàn)了8.38%的相對提升!在專門考察細粒度區(qū)分能力的子集上(R_{subset}@1),更是達到了恐怖的81.49%。
  • FashionIQ細粒度時尚數(shù)據(jù)集上,即便面對極度相似的服裝干擾項,ReCALL依然取得了最好的表現(xiàn),平均R@10達到57.04%



看看上面的實際檢索案例,基線模型遇到“正視鏡頭”、“半袖”這種細粒度條件直接懵圈;而經(jīng)過ReCALL校準后的模型,眼光毒辣,精準鎖定目標!

結(jié)語

ReCALL的成功不僅在于刷新了組合圖像檢索的性能上限,更在于它揭示并修復(fù)了多模態(tài)大模型在向下游任務(wù)遷移時的一道隱形裂痕。

大模型做檢索,不應(yīng)只是粗暴地將高維的“生成式智慧”壓縮降維成單一的“判別式向量”。從“盲目對齊”到“診斷—生成—內(nèi)化”的邏輯閉環(huán),大模型的檢索適配正在進入一個強調(diào)保留與激發(fā)原生推理能力的新階段。

當(dāng)我們不再一味追求用海量外部數(shù)據(jù)去“喂”出一個檢索器,而是教會模型用自己的思維鏈去剖析錯題、縫合認知盲區(qū)時,它不僅找回了丟失的細粒度感知,更展示了生成與判別兩大范式走向和解的可能。

這或許是大模型在諸多垂直領(lǐng)域真正實現(xiàn)“能力無損適配”的重要一步。

論?鏈接:
https://arxiv.org/abs/2602.01639
項?代碼:
https://github.com/RemRico/Recall

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
掀翻SeeDance2.0!面對字節(jié)的AI帝國,阿里出手了

掀翻SeeDance2.0!面對字節(jié)的AI帝國,阿里出手了

藍字計劃
2026-04-10 17:44:07
這5個農(nóng)歷生日尾數(shù)的人,小時是孝子,長大是才子,平安如意!

這5個農(nóng)歷生日尾數(shù)的人,小時是孝子,長大是才子,平安如意!

白淺娛樂聊
2026-04-11 18:40:44
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
事實證明,過早把小酒窩推到臺前的董璇,已經(jīng)開始在付出代價

事實證明,過早把小酒窩推到臺前的董璇,已經(jīng)開始在付出代價

阿廢冷眼觀察所
2026-04-10 17:44:45
為啥農(nóng)村男孩結(jié)婚越來越難 看網(wǎng)友講述原來他們早已把路給走絕了

為啥農(nóng)村男孩結(jié)婚越來越難 看網(wǎng)友講述原來他們早已把路給走絕了

侃神評故事
2026-04-10 07:40:06
有勇無謀,難怪泰山和國安都不要他,浙江花500萬成冤大頭

有勇無謀,難怪泰山和國安都不要他,浙江花500萬成冤大頭

體壇風(fēng)之子
2026-04-11 17:24:29
陳光標回應(yīng)一切,1000萬不是逼捐,累計捐60億元,不需要蹭流量

陳光標回應(yīng)一切,1000萬不是逼捐,累計捐60億元,不需要蹭流量

數(shù)字財經(jīng)智庫
2026-04-11 14:54:51
鄭麗文對“和平統(tǒng)一”交底,美國發(fā)聲,宋楚瑜發(fā)聲,侯友宜不裝了

鄭麗文對“和平統(tǒng)一”交底,美國發(fā)聲,宋楚瑜發(fā)聲,侯友宜不裝了

奇思妙想生活家
2026-04-11 18:34:43
Tucker被特朗普罵"低智商"后,反手甩出90年代白宮電話錄音

Tucker被特朗普罵"低智商"后,反手甩出90年代白宮電話錄音

熱搜摘要官
2026-04-11 08:02:41
印度攤販當(dāng)街斬首貨車司機! 提頭照網(wǎng)上瘋傳 群眾暴怒圍毆釀雙亡

印度攤販當(dāng)街斬首貨車司機! 提頭照網(wǎng)上瘋傳 群眾暴怒圍毆釀雙亡

環(huán)球趣聞分享
2026-04-11 14:06:07
最虧本買賣:廣西用一個縣換廣東三個市加出???,到底誰賺翻了?

最虧本買賣:廣西用一個縣換廣東三個市加出???,到底誰賺翻了?

輝哥說動漫
2026-04-11 02:27:00
兩岸統(tǒng)一后,要如何處置20萬臺軍?

兩岸統(tǒng)一后,要如何處置20萬臺軍?

起喜電影
2026-04-10 19:46:19
李亞鵬回應(yīng)陳光標捐款 :標哥真金白銀捐了1000萬,已經(jīng)到賬,沒有限定用途!陳光標:錢怎么有效怎么用,無條件信任他

李亞鵬回應(yīng)陳光標捐款 :標哥真金白銀捐了1000萬,已經(jīng)到賬,沒有限定用途!陳光標:錢怎么有效怎么用,無條件信任他

每日經(jīng)濟新聞
2026-04-10 17:28:39
鄭告蔣家后代:蔣介石逝哪葬哪,是對全體中國人民的最好安排!

鄭告蔣家后代:蔣介石逝哪葬哪,是對全體中國人民的最好安排!

扶蘇聊歷史
2025-12-26 16:08:12
霉霉被拍到和好友出街,36歲狀態(tài)像剛更新完系統(tǒng)

霉霉被拍到和好友出街,36歲狀態(tài)像剛更新完系統(tǒng)

娛圈觀察員
2026-04-10 08:13:55
兩戰(zhàn)轟54+23!41歲詹皇夢回18詹打爆太陽 迎里程碑再創(chuàng)歷史第一

兩戰(zhàn)轟54+23!41歲詹皇夢回18詹打爆太陽 迎里程碑再創(chuàng)歷史第一

硯底沉香
2026-04-11 19:25:19
哈薩克斯坦2000萬噸稀土轉(zhuǎn)賣美日,簽完協(xié)議發(fā)現(xiàn),還是繞不開中國

哈薩克斯坦2000萬噸稀土轉(zhuǎn)賣美日,簽完協(xié)議發(fā)現(xiàn),還是繞不開中國

觸摸史跡
2026-04-11 13:22:23
不裝了?高市早苗通告全世界:降級對華關(guān)系,中國欠下日本兩筆賬

不裝了?高市早苗通告全世界:降級對華關(guān)系,中國欠下日本兩筆賬

策前論
2026-04-11 19:18:00
天后麥當(dāng)娜:一生交往一百多猛男,與自己保鏢歡愛視頻,還被拍賣

天后麥當(dāng)娜:一生交往一百多猛男,與自己保鏢歡愛視頻,還被拍賣

七阿姨愛八卦
2026-04-09 09:32:37
加納喬甩下一句"不后悔",曼聯(lián)青訓(xùn)17年白干了

加納喬甩下一句"不后悔",曼聯(lián)青訓(xùn)17年白干了

賽場名場面
2026-04-11 19:03:39
2026-04-11 19:59:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12457文章數(shù) 176449關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

美國否認同意解凍伊朗資產(chǎn) 巴官員:美方急了 伊朗不急

頭條要聞

美國否認同意解凍伊朗資產(chǎn) 巴官員:美方急了 伊朗不急

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

浪姐7淘汰 該走的沒走,不該走的走了

財經(jīng)要聞

從日本翻身看:這次誰能扛住高油價?

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

健康
房產(chǎn)
手機
教育
公開課

干細胞抗衰4大誤區(qū),90%的人都中招

房產(chǎn)要聞

土地供應(yīng)突然暴跌!2026??跇鞘?,格局大變!

手機要聞

華為Pura X Max設(shè)計圖!闊折形態(tài)+麒麟9030,你的錢包頂?shù)米?/h3>

教育要聞

數(shù)學(xué)還可以這樣玩?這些幾何變換技巧太實用了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版