国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

首個(gè)Agentic多模態(tài)檢索大模型來(lái)了!清華讓AI邊推理邊主動(dòng)看圖

0
分享至

近年來(lái),隨著多模態(tài)大語(yǔ)言模型(MLLM)的快速發(fā)展,研究者們開(kāi)始嘗試將其應(yīng)用于通用多模態(tài)檢索任務(wù)。與此同時(shí),思維鏈(Chain-of-Thought,CoT)推理被引入檢索領(lǐng)域,通過(guò)增強(qiáng)模型的推理能力來(lái)改善候選結(jié)果的排序。

然而,一個(gè)重要問(wèn)題始終未能得到解決:現(xiàn)有的推理過(guò)程本質(zhì)上仍然是語(yǔ)言驅(qū)動(dòng)的,模型無(wú)法在推理過(guò)程中主動(dòng)獲取和驗(yàn)證視覺(jué)細(xì)節(jié),因此在面對(duì)相似的候選圖片時(shí)容易“瞎猜”。

近日,清華大學(xué)聯(lián)合、復(fù)旦大學(xué)、香港大學(xué)等機(jī)構(gòu),推出了首個(gè)基于“Interleaved Reasoning”的通用多模態(tài)檢索框架 V-Retrver。該框架將傳統(tǒng)檢索重塑為智能體推理過(guò)程,讓多模態(tài)大模型學(xué)會(huì)在檢索時(shí)主動(dòng)調(diào)用視覺(jué)工具來(lái)驗(yàn)證細(xì)節(jié),而非僅憑靜態(tài)的圖像表征進(jìn)行判斷。目前,研究團(tuán)隊(duì)已將代碼和模型權(quán)重開(kāi)源。


(來(lái)源:arXiv)

“從 2025 年初開(kāi)始,推理模型開(kāi)始火起來(lái),很多工作把推理模型用在下游任務(wù),多模態(tài)檢索就是其中之一?!眻F(tuán)隊(duì)成員向 DeepTech 表示,“但現(xiàn)在這些推理模型的 CoT 過(guò)程是從文本推理的。問(wèn)題在于,多模態(tài)檢索的輸入是多張圖像,你要從十張候選圖片中找到最相關(guān)的那張,僅靠文本推理會(huì)產(chǎn)生幻覺(jué)。”

這種局限在視覺(jué)模糊的檢索場(chǎng)景中尤為明顯。尤其當(dāng)候選圖片在語(yǔ)義上高度相似,僅在細(xì)節(jié)上存在差異時(shí)。比如同樣是白色沙發(fā),只是抱枕紋理不同,模型往往無(wú)法準(zhǔn)確區(qū)分。傳統(tǒng)方法將視覺(jué)輸入壓縮成固定的特征向量或文本描述,迫使推理過(guò)程完全依賴語(yǔ)言來(lái)推斷視覺(jué)差異,結(jié)果就是模型只能瞎猜。


(來(lái)源:論文)

更關(guān)鍵的是,現(xiàn)有模型看圖是“一次性”的。用了一個(gè)形象的比喻:“傳統(tǒng)模型看完圖就憑印象做題,面對(duì)復(fù)雜的圖文交錯(cuò)檢索,它們無(wú)法在推理遇到瓶頸時(shí)主動(dòng)去驗(yàn)證視覺(jué)細(xì)節(jié)?!边@種走馬觀花式的視覺(jué)處理方式,導(dǎo)致模型在需要精細(xì)判斷時(shí)表現(xiàn)不佳。

讓模型學(xué)會(huì)“放大找細(xì)節(jié)”

V-Retrver 的核心理念是將多模態(tài)檢索重新定義為一個(gè)“多模態(tài)思維鏈的推理過(guò)程”。與傳統(tǒng)的單次推理不同,模型在推理過(guò)程中可以主動(dòng)調(diào)用外部視覺(jué)工具來(lái)獲取更多信息,就像人在看不清某個(gè)細(xì)節(jié)時(shí)會(huì)把圖片放大仔細(xì)看一樣。

團(tuán)隊(duì)表示,這是首個(gè)將交錯(cuò)推理(Interleaved Reasoning)應(yīng)用于多模態(tài)圖像檢索的工作。此前的相關(guān)研究主要集中在簡(jiǎn)單的圖像理解和視頻理解任務(wù)上,例如單圖問(wèn)答場(chǎng)景。

論文作者之一以一個(gè)具體場(chǎng)景說(shuō)明了這一過(guò)程:“假設(shè)輸入是一段文字描述,需要從 10 張候選圖片中找到最相關(guān)的一張。模型在分析過(guò)程中,如果發(fā)現(xiàn)某張圖片的關(guān)鍵細(xì)節(jié)看不清楚,就會(huì)調(diào)用工具對(duì)該區(qū)域進(jìn)行局部放大后再做判斷。比如查詢文本提到‘桌上放著某個(gè)物品’,而這個(gè)物品在圖像中位置較小、較模糊,模型就需要放大查看才能做出準(zhǔn)確判斷。”

這種“邊看邊想”的過(guò)程與人類的認(rèn)知方式很像,當(dāng)我們?cè)诰W(wǎng)購(gòu)時(shí)遇到相似的商品,也會(huì)點(diǎn)開(kāi)大圖看買(mǎi)家秀細(xì)節(jié)來(lái)做出對(duì)比和判斷。

這種“產(chǎn)生疑問(wèn)→調(diào)取工具核實(shí)→得出結(jié)論”的邏輯閉環(huán),正是 V-Retrver 區(qū)別于傳統(tǒng)方法的關(guān)鍵所在。

三階段訓(xùn)練:從“學(xué)會(huì)用工具”到“聰明地用工具”

讓模型學(xué)會(huì)何時(shí)以及如何使用這些視覺(jué)工具,并非易事。V-Retrver 采用了三階段的課程學(xué)習(xí)策略。

第一階段是監(jiān)督微調(diào)(SFT),目標(biāo)是教會(huì)模型基本的工具調(diào)用能力。“我們使用 LLM 來(lái)合成訓(xùn)練數(shù)據(jù),這批數(shù)據(jù)包含了檢索過(guò)程中調(diào)用工具的示例,讓模型學(xué)會(huì)何時(shí)以及如何調(diào)用工具。”作者表示,這個(gè)階段的數(shù)據(jù)質(zhì)量至關(guān)重要,也是整個(gè)訓(xùn)練過(guò)程中最具挑戰(zhàn)性的環(huán)節(jié)之一。

SFT 階段的訓(xùn)練量需要精心控制。作者指出,這里存在兩個(gè)極端:訓(xùn)練過(guò)度會(huì)導(dǎo)致模型在強(qiáng)化學(xué)習(xí)階段過(guò)度依賴工具,對(duì)每個(gè)樣本都嘗試調(diào)用;訓(xùn)練不足則會(huì)使模型無(wú)法掌握工具調(diào)用能力。

第二階段是拒絕采樣微調(diào)(RSFT),通過(guò)篩選高質(zhì)量的推理軌跡來(lái)提升模型的推理可靠性和格式合規(guī)性,為后續(xù)的強(qiáng)化學(xué)習(xí)提供穩(wěn)定的初始化。

第三階段是證據(jù)對(duì)齊策略優(yōu)化(EAPO),這是基于 GRPO 算法的強(qiáng)化學(xué)習(xí)過(guò)程。“我們?cè)O(shè)計(jì)了一個(gè)工具調(diào)用獎(jiǎng)勵(lì)機(jī)制,”作者解釋道,“當(dāng)模型在推理過(guò)程中合理調(diào)用工具時(shí)會(huì)獲得正向獎(jiǎng)勵(lì)。我們希望模型能夠適度使用工具進(jìn)行驗(yàn)證,而非完全不用或過(guò)度依賴。”


(來(lái)源:論文)

經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練后,模型能夠?qū)崿F(xiàn)自適應(yīng)的工具調(diào)用。有些問(wèn)題需要調(diào)用工具來(lái)驗(yàn)證細(xì)節(jié),有些則不需要,模型會(huì)自主判斷。

性能提升顯著,泛化能力突出

在通用多模態(tài)檢索基準(zhǔn) M-BEIR 上,V-Retrver-7B 取得了 69.7% 的平均召回率,相比此前最強(qiáng)的 U-MARVEL-7B 提升了近 5 個(gè)百分點(diǎn),相對(duì)基礎(chǔ)的 Qwen2.5-VL-7B 模型則提升了 23%。


(來(lái)源:論文)

值得注意的是,V-Retrver 在需要精細(xì)視覺(jué)判斷的任務(wù)上表現(xiàn)尤為突出。在 FashionIQ 數(shù)據(jù)集上達(dá)到 51.2%,在 CIRR 數(shù)據(jù)集上達(dá)到 73.5%,分別比 U-MARVEL-7B 高出 13 個(gè)和 10 個(gè)百分點(diǎn)。這驗(yàn)證了多模態(tài)交錯(cuò)推理在處理細(xì)粒度視覺(jué)差異時(shí)的有效性。

在零樣本泛化測(cè)試中,V-Retrver 同樣表現(xiàn)優(yōu)異。在從未見(jiàn)過(guò)的 CIRCO 數(shù)據(jù)集上取得了 48.2 的 MAP@5 成績(jī),顯著超過(guò) MM-Embed-7B 等專業(yè)檢索模型。

消融實(shí)驗(yàn)進(jìn)一步證實(shí)了視覺(jué)工具的價(jià)值:如果剝奪 V-Retrver 的視覺(jué)工具,只讓它做純文本的 CoT 推理,平均性能會(huì)從 67.2% 跌至 61.8%。


(來(lái)源:論文)

團(tuán)隊(duì)在論文中也坦誠(chéng)地表明了當(dāng)前工作的局限性。最明顯的是推理成本問(wèn)題:相比傳統(tǒng)的 embedding 方法,V-Retrver 需要更多的計(jì)算資源和時(shí)間。“我們?cè)谶@個(gè)工作中沒(méi)有專門(mén)做權(quán)衡,這確實(shí)是一個(gè)問(wèn)題,也是后續(xù)可以繼續(xù)研究的方向。”

另一個(gè)局限是視覺(jué)工具的種類相對(duì)有限,目前只有 ZOOM-IN 和 SELECT-IMAGE 兩種。研究團(tuán)隊(duì)計(jì)劃在后續(xù)工作中引入更多類型的工具,其中包括網(wǎng)絡(luò)搜索工具。

作者以一個(gè)例子說(shuō)明了引入 web search 工具的潛在價(jià)值:假設(shè)檢索目標(biāo)是“穿著黃色衣服的拿破侖”,但候選圖片中存在其他穿著相似服裝且外貌接近的人物,僅憑服裝顏色難以區(qū)分。此時(shí)模型可以通過(guò)網(wǎng)絡(luò)搜索獲取拿破侖的其他標(biāo)志性特征,并將這些信息作為輔助依據(jù),提升檢索的準(zhǔn)確性。

V-Retrver 的出現(xiàn),標(biāo)志著多模態(tài)檢索研究從“靜態(tài)編碼 + 語(yǔ)言推理”向“動(dòng)態(tài)感知 + 交錯(cuò)推理”的范式轉(zhuǎn)變。它證明了一個(gè)樸素而重要的道理:在處理視覺(jué)任務(wù)時(shí),模型不僅需要“想”,更需要“看”。而且要學(xué)會(huì)在需要的時(shí)候主動(dòng)去“仔細(xì)看”。

參考資料

1.論文鏈接:https://arxiv.org/abs/2602.06034

2.項(xiàng)目地址:https://github.com/chendy25/V-Retrver

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
光纖光纜炸了!13股預(yù)增翻倍,最高暴增31倍,名單出爐

光纖光纜炸了!13股預(yù)增翻倍,最高暴增31倍,名單出爐

慧眼看世界哈哈
2026-04-11 19:35:18
隨著申花1-0戰(zhàn)勝海港,泰山1-0,中超最新積分:榜首領(lǐng)先墊底20分

隨著申花1-0戰(zhàn)勝海港,泰山1-0,中超最新積分:榜首領(lǐng)先墊底20分

球場(chǎng)沒(méi)跑道
2026-04-11 21:36:16
震驚!網(wǎng)傳山東梁山一女子聚集多人威逼男方給20萬(wàn)彩禮,眾人圍觀

震驚!網(wǎng)傳山東梁山一女子聚集多人威逼男方給20萬(wàn)彩禮,眾人圍觀

火山詩(shī)話
2026-04-11 06:41:36
傷得很深!男子打賞女主播近300萬(wàn),想結(jié)婚時(shí)才知對(duì)方女兒都20歲了:我只顧為愛(ài)沖鋒,結(jié)果她全是假話

傷得很深!男子打賞女主播近300萬(wàn),想結(jié)婚時(shí)才知對(duì)方女兒都20歲了:我只顧為愛(ài)沖鋒,結(jié)果她全是假話

極目新聞
2026-04-10 15:54:54
小車被砸致2人死亡,東莞最新披露

小車被砸致2人死亡,東莞最新披露

南方都市報(bào)
2026-04-11 11:18:23
看了54歲孟晚舟的打扮,我悟了:發(fā)盤(pán)起、不戴金、鞋子穿高不穿低

看了54歲孟晚舟的打扮,我悟了:發(fā)盤(pán)起、不戴金、鞋子穿高不穿低

地理三體說(shuō)
2026-04-11 22:24:15
56歲的王菲現(xiàn)身西藏,打扮的很高級(jí),不愧是經(jīng)常拜佛的人

56歲的王菲現(xiàn)身西藏,打扮的很高級(jí),不愧是經(jīng)常拜佛的人

鄉(xiāng)野小珥
2026-04-11 01:30:53
終于和解,成龍與房祖名惠州親密同游,修復(fù)關(guān)系全靠孫子與鈔能力

終于和解,成龍與房祖名惠州親密同游,修復(fù)關(guān)系全靠孫子與鈔能力

一盅情懷
2026-04-10 15:41:48
笑不活了!庫(kù)里因隊(duì)友學(xué)狗叫吃T全過(guò)程

笑不活了!庫(kù)里因隊(duì)友學(xué)狗叫吃T全過(guò)程

柚子說(shuō)球
2026-04-11 21:57:00
1-2!哲凱賴什難破門(mén)救主,阿森納近4戰(zhàn)3敗,下輪死磕曼城

1-2!哲凱賴什難破門(mén)救主,阿森納近4戰(zhàn)3敗,下輪死磕曼城

我的護(hù)球最獨(dú)特
2026-04-11 21:25:30
阿森納英超剩余賽程:連續(xù)對(duì)陣曼城、紐卡,末輪迎戰(zhàn)水晶宮

阿森納英超剩余賽程:連續(xù)對(duì)陣曼城、紐卡,末輪迎戰(zhàn)水晶宮

懂球帝
2026-04-11 21:52:19
過(guò)午不食?55歲男子堅(jiān)持2年不吃晚飯,去體檢后,他的胃怎樣了?

過(guò)午不食?55歲男子堅(jiān)持2年不吃晚飯,去體檢后,他的胃怎樣了?

白話電影院
2026-04-09 14:36:58
如愿以償!鄭麗文終于見(jiàn)到了大陸行最重要的人物!

如愿以償!鄭麗文終于見(jiàn)到了大陸行最重要的人物!

阿龍聊軍事
2026-04-10 18:02:00
新任中國(guó)一姐王欣瑜遭三百大球員送蛋,最終送蛋逆轉(zhuǎn)挺進(jìn)決勝輪

新任中國(guó)一姐王欣瑜遭三百大球員送蛋,最終送蛋逆轉(zhuǎn)挺進(jìn)決勝輪

網(wǎng)球之家
2026-04-11 22:33:57
帶1500億下場(chǎng),李嘉誠(chéng)樓市新玩法曝光,新一輪收割開(kāi)始了?

帶1500億下場(chǎng),李嘉誠(chéng)樓市新玩法曝光,新一輪收割開(kāi)始了?

云景侃記
2026-04-10 19:49:34
如果當(dāng)初中國(guó)不改革開(kāi)放,今天仍是全球最落后的國(guó)家之一嗎?

如果當(dāng)初中國(guó)不改革開(kāi)放,今天仍是全球最落后的國(guó)家之一嗎?

掠影后有感
2026-04-10 09:58:45
阿耳忒彌斯2號(hào)最終一搏:13分鐘穿越2760℃,時(shí)隔53年月球歸來(lái)大考

阿耳忒彌斯2號(hào)最終一搏:13分鐘穿越2760℃,時(shí)隔53年月球歸來(lái)大考

三體引力波
2026-04-11 01:02:06
文章在上海開(kāi)陜西菜館:靠這個(gè)定價(jià),他真的能活下去嗎?

文章在上海開(kāi)陜西菜館:靠這個(gè)定價(jià),他真的能活下去嗎?

奇思妙想生活家
2026-04-10 17:15:34
猝死前1個(gè)月,身體會(huì)發(fā)出這4種預(yù)警,可惜90%的人都錯(cuò)過(guò)了

猝死前1個(gè)月,身體會(huì)發(fā)出這4種預(yù)警,可惜90%的人都錯(cuò)過(guò)了

醫(yī)學(xué)原創(chuàng)故事會(huì)
2026-04-11 18:16:03
以色列誰(shuí)都敢打,為何唯獨(dú)不敢動(dòng)巴基斯坦?核武只是冰山一角

以色列誰(shuí)都敢打,為何唯獨(dú)不敢動(dòng)巴基斯坦?核武只是冰山一角

泠泠說(shuō)史
2026-04-11 23:48:34
2026-04-12 01:03:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16567文章數(shù) 514863關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

霍爾木茲海峽突傳大消息 特朗普最新發(fā)聲

頭條要聞

霍爾木茲海峽突傳大消息 特朗普最新發(fā)聲

體育要聞

換帥之后,他們從降級(jí)區(qū)沖到升級(jí)區(qū)

娛樂(lè)要聞

鄭鈞回應(yīng)兒子走路:會(huì)監(jiān)督他挺直腰板

財(cái)經(jīng)要聞

從日本翻身看:這次誰(shuí)能扛住高油價(jià)?

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

態(tài)度原創(chuàng)

家居
健康
教育
本地
公開(kāi)課

家居要聞

復(fù)古風(fēng)格 自然簡(jiǎn)約

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

教育要聞

留學(xué)為什么不香了?

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版