国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讓多模態(tài)檢索超越SOTA!ReCALL框架化解生成式與判別式的范式?jīng)_突

0
分享至

ReCALL團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI

生成式模型當(dāng)檢索器大材小用效果還不好?

當(dāng)多模態(tài)大模型(MLLM)憑借強(qiáng)大的圖文理解與邏輯推理能力成為AI領(lǐng)域的核心抓手,將其應(yīng)用于圖像檢索尤其是組合圖像檢索(CIR)任務(wù),本應(yīng)是降維打擊的最優(yōu)解。

然而現(xiàn)實(shí)卻相悖:把生成式大模型強(qiáng)行改造為判別式檢索器后,模型會(huì)出現(xiàn)嚴(yán)重的能力退化,連原本100%能精準(zhǔn)解決的問(wèn)題都頻頻出錯(cuò),生成式與判別式的范式?jīng)_突,成為大模型向檢索領(lǐng)域落地的核心壁壘。



如今,這一行業(yè)難題被AI國(guó)家隊(duì)紫東太初團(tuán)隊(duì)聯(lián)合新加坡國(guó)立大學(xué)成功攻克。其最新研究成果ReCALL框架,憑借獨(dú)創(chuàng)的“診斷-生成-校準(zhǔn)”閉環(huán)體系,從根本上解決了大模型從生成式到判別式的范式?jīng)_突問(wèn)題,讓大模型在保留原生細(xì)粒度推理能力的同時(shí),完美變身高效檢索器

該成果已被計(jì)算機(jī)視覺(jué)頂會(huì)CVPR 2026正式錄用,在CIRR、FashionIQ等主流基準(zhǔn)測(cè)試中全面刷新SOTA性能,更開(kāi)辟了大模型下游任務(wù)能力無(wú)損適配的全新路徑,為多模態(tài)大模型的垂直領(lǐng)域落地奠定核心基礎(chǔ)。

行業(yè)痛點(diǎn):范式?jīng)_突致大模型檢索“智能倒退”

為什么聰明的MLLM一做檢索就容易翻車(chē)?作者團(tuán)隊(duì)一針見(jiàn)血地指出了問(wèn)題的核心:范式?jīng)_突(Paradigm Conflict)

原生的大模型習(xí)慣于生成式范式,它通過(guò)一步步的鏈?zhǔn)剿伎?em>(Step-wise reasoning)來(lái)理解細(xì)粒度的視覺(jué)關(guān)系。但是,現(xiàn)有的檢索適配方法往往采用判別式范式,強(qiáng)行把大模型的高維思考?jí)嚎s成一個(gè)單一的向量,去計(jì)算相似度。

這種暴力的轉(zhuǎn)變直接導(dǎo)致了一個(gè)致命后果——能力退化(Capability Degradation)



如上圖左側(cè)所示,面對(duì)“地板上的兩只同品種狗”這樣需要細(xì)粒度推理的查詢時(shí),原生的大模型(F)通過(guò)VQA問(wèn)答可以輕松鎖定目標(biāo)。然而,經(jīng)過(guò)傳統(tǒng)微調(diào)后的檢索器版本(Rbase)卻完全喪失了這種細(xì)粒度grounding能力,找出的全是錯(cuò)誤的圖。

定量數(shù)據(jù)更令人震驚:在原生大模型原本能夠100%找對(duì)的子集上,微調(diào)后的檢索器在CIRR數(shù)據(jù)集上R@1暴跌至62.33%,在FashionIQ上暴跌至55.80%。模型不僅沒(méi)有學(xué)到新東西,反而把原本自帶的推理天賦給弄丟了!

破局之道:ReCALL四階段校準(zhǔn)框架

既然能力退化是因?yàn)槌跗诘臋z索微調(diào)把大模型“帶偏了”,那怎么把它拉回正軌?

作者提出了一個(gè)通用的框架ReCALL。它的核心思想非常巧妙:用大模型原生的推理信號(hào),來(lái)糾正檢索空間中的盲區(qū)。實(shí)際上,整個(gè)閉環(huán)被嚴(yán)密地劃分為四個(gè)階段,其中第一階段完成了基礎(chǔ)的檢索器初始化并暴露出退化問(wèn)題,后三個(gè)階段則是極其優(yōu)雅的“診斷-生成-打磨”校準(zhǔn)管線:

Stage 1:基礎(chǔ)檢索適配(Baseline Adaptation)。為了讓生成式大模型具備基本的圖文檢索功能,研究人員首先用標(biāo)準(zhǔn)的InfoNCE損失函數(shù),將原生大模型(F)微調(diào)成一個(gè)基礎(chǔ)檢索器(Rbase)。這一步雖然賦予了模型基礎(chǔ)的判別與檢索能力,但也正是這種暴力的單向量壓縮,誘發(fā)了前文提到的“能力退化”癥狀。

Stage 2:自我診斷(Diagnose)。俗話說(shuō)“錯(cuò)題本是最好的老師”。有了基礎(chǔ)檢索器后,讓它在訓(xùn)練集上跑一遍,專門(mén)挑出那些它“找錯(cuò)”的樣本(Informative Instances)。這些能高分騙過(guò)檢索器的負(fù)樣本,往往和正確答案有著極細(xì)微的視覺(jué)差別,它們正是模型能力退化、認(rèn)知最模糊的“盲區(qū)”。

Stage 3:生成校正(Generate)。拿著這些挑出來(lái)的錯(cuò)題,作者團(tuán)隊(duì)并沒(méi)有簡(jiǎn)單粗暴地讓原生大模型(F)重新“看圖說(shuō)話”,而是精心設(shè)計(jì)了一套包含嚴(yán)密邏輯的鏈?zhǔn)剿伎?em>(CoT)誘導(dǎo)機(jī)制。具體而言,這個(gè)“講題”過(guò)程被巧妙地拆解為兩個(gè)核心步驟:

① 意圖分解與驗(yàn)證(Intent Decomposition & Verification):大模型首先會(huì)將原始的修改指令拆解成一個(gè)個(gè)“原子意圖”,并挨個(gè)對(duì)照參考圖和找錯(cuò)的圖進(jìn)行核查,精準(zhǔn)定位出到底哪一個(gè)細(xì)粒度意圖在錯(cuò)圖中被違背了。

② 最小編輯合成(Minimal Edit Synthesis):在抓住了矛盾點(diǎn)后,大模型會(huì)保留那些依然成立的意圖,僅僅重寫(xiě)被違背的部分,從而“打補(bǔ)丁”式地合成出一條全新的修改指令。

通過(guò)這種極其精巧的設(shè)計(jì),框架自動(dòng)生成了從“參考圖”指向“錯(cuò)圖”的全新糾錯(cuò)三元組。這種從原文本到新文本的“極小幅文字編輯”,在視覺(jué)上直接鏡像了真實(shí)目標(biāo)圖與強(qiáng)干擾錯(cuò)圖之間極其微妙的差異,從而為檢索模型提供了極其顯式、高密度的細(xì)粒度圖文對(duì)齊監(jiān)督信號(hào)。

更重要的是,這種嚴(yán)格遵循“最小編輯原則”的生成方式,絕非無(wú)拘無(wú)束的文本發(fā)散,它最大程度地保證了新構(gòu)建的訓(xùn)練三元組與原始數(shù)據(jù)集在數(shù)據(jù)分布上的高度一致性。最后,再輔以VQA(視覺(jué)問(wèn)答)級(jí)別的語(yǔ)義一致性過(guò)濾,剔除掉幻覺(jué)和噪音,確保送入模型微調(diào)的“糾錯(cuò)信號(hào)”不僅直擊痛點(diǎn),而且絕對(duì)高保真。

Stage 4:針對(duì)性打磨(Refine)。有了精確的糾錯(cuò)指令,最后一步就是通過(guò)分組對(duì)比學(xué)習(xí)(Grouped Contrastive Refinement)來(lái)完成進(jìn)化。框架會(huì)把原查詢和對(duì)應(yīng)的糾錯(cuò)查詢打包放在同一個(gè)批次里“對(duì)沖”,配合雙重優(yōu)化目標(biāo),逼迫檢索器去明確區(qū)分那些極其細(xì)微的視覺(jué)-語(yǔ)義邊界,最終將原生大模型的細(xì)粒度推理能力完美內(nèi)化。



通過(guò)這套組合拳,檢索器不僅重新找回了丟失的細(xì)粒度推理能力,還將其完美內(nèi)化到了自己的向量空間中。

實(shí)測(cè)成績(jī):全場(chǎng)景刷新SOTA,細(xì)粒度檢索能力拉滿

ReCALL的有效性在各大主流基準(zhǔn)測(cè)試中得到了驗(yàn)證。



  • CIRR開(kāi)放域復(fù)雜數(shù)據(jù)集上,ReCALL創(chuàng)造了55.52%的R@1新SOTA,相較于基線模型實(shí)現(xiàn)了8.38%的相對(duì)提升!在專門(mén)考察細(xì)粒度區(qū)分能力的子集上(R_{subset}@1),更是達(dá)到了恐怖的81.49%。
  • FashionIQ細(xì)粒度時(shí)尚數(shù)據(jù)集上,即便面對(duì)極度相似的服裝干擾項(xiàng),ReCALL依然取得了最好的表現(xiàn),平均R@10達(dá)到57.04%



看看上面的實(shí)際檢索案例,基線模型遇到“正視鏡頭”、“半袖”這種細(xì)粒度條件直接懵圈;而經(jīng)過(guò)ReCALL校準(zhǔn)后的模型,眼光毒辣,精準(zhǔn)鎖定目標(biāo)!

結(jié)語(yǔ)

ReCALL的成功不僅在于刷新了組合圖像檢索的性能上限,更在于它揭示并修復(fù)了多模態(tài)大模型在向下游任務(wù)遷移時(shí)的一道隱形裂痕。

大模型做檢索,不應(yīng)只是粗暴地將高維的“生成式智慧”壓縮降維成單一的“判別式向量”。從“盲目對(duì)齊”到“診斷—生成—內(nèi)化”的邏輯閉環(huán),大模型的檢索適配正在進(jìn)入一個(gè)強(qiáng)調(diào)保留與激發(fā)原生推理能力的新階段。

當(dāng)我們不再一味追求用海量外部數(shù)據(jù)去“喂”出一個(gè)檢索器,而是教會(huì)模型用自己的思維鏈去剖析錯(cuò)題、縫合認(rèn)知盲區(qū)時(shí),它不僅找回了丟失的細(xì)粒度感知,更展示了生成與判別兩大范式走向和解的可能。

這或許是大模型在諸多垂直領(lǐng)域真正實(shí)現(xiàn)“能力無(wú)損適配”的重要一步。

論?鏈接:
https://arxiv.org/abs/2602.01639
項(xiàng)?代碼:
https://github.com/RemRico/Recall

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
燒光350億后破產(chǎn),威馬創(chuàng)始人沈暉逃亡海外行蹤成謎

燒光350億后破產(chǎn),威馬創(chuàng)始人沈暉逃亡海外行蹤成謎

一號(hào)位故事
2026-04-04 20:02:32
演員陳學(xué)冬:兩年4次手術(shù),11部作品被下架,如今生活無(wú)法自理

演員陳學(xué)冬:兩年4次手術(shù),11部作品被下架,如今生活無(wú)法自理

話史官1
2026-04-06 23:20:06
英媒:美伊?;饏f(xié)議或?qū)⒃?日生效

英媒:美伊?;饏f(xié)議或?qū)⒃?日生效

新華社
2026-04-06 15:23:03
優(yōu)思益:公司已無(wú)力進(jìn)行相關(guān)售后及客訴服務(wù),整體處于崩潰邊緣

優(yōu)思益:公司已無(wú)力進(jìn)行相關(guān)售后及客訴服務(wù),整體處于崩潰邊緣

界面新聞
2026-04-03 16:32:06
心源性猝死的人越來(lái)越多?醫(yī)生強(qiáng)調(diào):寧可打打牌,建議別做這7事

心源性猝死的人越來(lái)越多?醫(yī)生強(qiáng)調(diào):寧可打打牌,建議別做這7事

醫(yī)學(xué)原創(chuàng)故事會(huì)
2026-03-29 23:50:13
巡回錦標(biāo)賽結(jié)束后小特、巫師和韋克林喝酒總結(jié),對(duì)話中都怕趙心童

巡回錦標(biāo)賽結(jié)束后小特、巫師和韋克林喝酒總結(jié),對(duì)話中都怕趙心童

老高說(shuō)體育
2026-04-06 15:57:57
特朗普消失?連續(xù)三天未露面引全球猜測(cè),病危還是兵變?真相成謎

特朗普消失?連續(xù)三天未露面引全球猜測(cè),病危還是兵變?真相成謎

策略述
2026-04-06 18:12:08
光腿還是絲襪:我終于不再被這個(gè)問(wèn)題困住

光腿還是絲襪:我終于不再被這個(gè)問(wèn)題困住

疾跑的小蝸牛
2026-04-06 21:59:30
搞笑圖片第1182期:連日來(lái)的雨,終于證明了家里的家具真的是實(shí)木

搞笑圖片第1182期:連日來(lái)的雨,終于證明了家里的家具真的是實(shí)木

今天的快樂(lè)
2026-04-06 20:38:26
快到月球了,2300萬(wàn)美金造的廁所又堵又冒糊味?!這場(chǎng)繞月任務(wù),越來(lái)越抽象了....

快到月球了,2300萬(wàn)美金造的廁所又堵又冒糊味?!這場(chǎng)繞月任務(wù),越來(lái)越抽象了....

英國(guó)那些事兒
2026-04-05 23:17:18
許昕:就算這場(chǎng)決賽王楚欽輸了,他也是國(guó)乒一號(hào),沒(méi)人能撼動(dòng)

許昕:就算這場(chǎng)決賽王楚欽輸了,他也是國(guó)乒一號(hào),沒(méi)人能撼動(dòng)

懂球帝
2026-04-06 12:37:39
松島輝空是未來(lái)國(guó)乒頭號(hào)對(duì)手?國(guó)乒名宿:他上限張本,小布才第一

松島輝空是未來(lái)國(guó)乒頭號(hào)對(duì)手?國(guó)乒名宿:他上限張本,小布才第一

凡人說(shuō)體育
2026-04-06 18:29:05
解放臺(tái)灣:上午發(fā)動(dòng)統(tǒng)一之戰(zhàn),下午就發(fā)身份證?第一步登陸就很難

解放臺(tái)灣:上午發(fā)動(dòng)統(tǒng)一之戰(zhàn),下午就發(fā)身份證?第一步登陸就很難

探史
2026-04-06 18:44:56
美軍為營(yíng)救彈射失蹤飛行員,特意將道路炸出28個(gè)彈坑意味著什么?

美軍為營(yíng)救彈射失蹤飛行員,特意將道路炸出28個(gè)彈坑意味著什么?

止戈軍是我
2026-04-06 20:30:16
中科院向全世界正式宣布:停止一切撥款,西方學(xué)界哀嚎一片

中科院向全世界正式宣布:停止一切撥款,西方學(xué)界哀嚎一片

春之寞陌
2026-04-06 07:31:27
你敢地面入侵,我就派志愿軍,伊朗迎來(lái)新幫手,海灣7國(guó)沉默不語(yǔ)

你敢地面入侵,我就派志愿軍,伊朗迎來(lái)新幫手,海灣7國(guó)沉默不語(yǔ)

說(shuō)歷史的老牢
2026-04-05 22:53:42
中國(guó)正式向全世界宣告,,解放軍打日本不用獲得任何人的同意授權(quán)

中國(guó)正式向全世界宣告,,解放軍打日本不用獲得任何人的同意授權(quán)

世界軍事格局
2026-04-06 22:10:13
兵敗如山倒!國(guó)產(chǎn)新能源,撕下了二線豪華品牌最后的“遮羞布”

兵敗如山倒!國(guó)產(chǎn)新能源,撕下了二線豪華品牌最后的“遮羞布”

羽逸地之光
2026-04-06 05:44:43
突發(fā)!特朗普又變卦了!

突發(fā)!特朗普又變卦了!

財(cái)經(jīng)要參
2026-04-06 17:45:47
撿漏成功!南通市一棟大別墅第17次拍賣(mài),最終被人124萬(wàn)元買(mǎi)下

撿漏成功!南通市一棟大別墅第17次拍賣(mài),最終被人124萬(wàn)元買(mǎi)下

科學(xué)發(fā)掘
2026-04-06 16:24:58
2026-04-07 01:31:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12428文章數(shù) 176443關(guān)注度
往期回顧 全部

科技要聞

折疊屏iPhone要來(lái)了,富士康已在試產(chǎn)!

頭條要聞

外媒:美國(guó)副總統(tǒng)萬(wàn)斯和伊朗外長(zhǎng)等人徹夜交流

頭條要聞

外媒:美國(guó)副總統(tǒng)萬(wàn)斯和伊朗外長(zhǎng)等人徹夜交流

體育要聞

官方:中國(guó)女足球員邵子欽加盟本菲卡

娛樂(lè)要聞

唐嫣羅晉新加坡遛娃,6歲女兒身高搶鏡

財(cái)經(jīng)要聞

史詩(shī)級(jí)暴跌"一周年" A股接下來(lái)如何走?

汽車(chē)要聞

阿維塔06T快上市了 旅行車(chē)還能這么玩?

態(tài)度原創(chuàng)

本地
家居
手機(jī)
公開(kāi)課
軍事航空

本地新聞

跟著歌聲游安徽,聽(tīng)古村回響

家居要聞

溫馨多元 愛(ài)的具象化

手機(jī)要聞

OPPO Find X9s Pro真機(jī)現(xiàn)身,還有銀色哈蘇專業(yè)增距鏡

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:在C-130運(yùn)輸機(jī)殘骸中發(fā)現(xiàn)一具美軍士兵遺體

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版