国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ICCV 2025 | MRGD:Mila聯(lián)合Meta等提出獎勵探索的解碼框架,有效緩解MLLMs的生成幻覺難題

0
分享至

在多模態(tài)大語言模型(MLLMs)不斷突破性能邊界的同時,其輸出不可控、“幻覺”頻發(fā)的問題也日益凸顯。本文介紹一篇由Mila、蒙特利爾大學(xué)、麥吉爾大學(xué)以及Meta FAIR等研究團隊共同完成的工作,目前已經(jīng)發(fā)表在視覺頂級會議ICCV 2025上。該工作提出了一種"多模態(tài)獎勵引導(dǎo)解碼"(Multimodal Reward-guided Decoding, MRGD)的方法。MRGD無需重新訓(xùn)練模型即可在推理階段精準調(diào)控MLLM的生成效果。MRGD主要構(gòu)建了兩個獨立且互補的獎勵信號:“精確度獎勵”(嚴控幻覺,提升輸出可靠性)與“召回率獎勵”(促進細節(jié)覆蓋,增強描述豐富性)。MRGD不僅有效緩解了物體幻覺問題,還賦予了用戶在生成內(nèi)容時的高度可控性,使得用戶能夠根據(jù)具體需求,靈活地調(diào)節(jié)精度與召回之間的平衡,或者在計算資源和生成質(zhì)量之間作出權(quán)衡。


論文題目: Controlling Multimodal LLMs via Reward-guided Decoding 文章鏈接: https://arxiv.org/abs/2508.11616
一、引言

近年來,多模態(tài)大語言模型(MLLMs) 在圖像描述、視覺問答等任務(wù)上展現(xiàn)出卓越的能力。然而,其生成過程中頻繁出現(xiàn)的“物體幻覺”(Object Hallucination)問題(即生成圖像中并不存在的物體描述,如下圖Greedy生成的內(nèi)容所示)嚴重限制了其在可信度要求高的場景(如自動駕駛、醫(yī)療影像分析)中的應(yīng)用。


現(xiàn)有的主流解決方案普遍依賴于有監(jiān)督微調(diào)(SFT)[1] 和基于人類反饋的強化學(xué)習(xí)(RLHF)[2][3]來調(diào)整模型參數(shù)提升性能。盡管這些方法在一定程度上能夠提升模型性能,但其固有缺陷也十分顯著。首先,這些方法需要投入大量的計算資源與人工標注數(shù)據(jù)對模型進行重新訓(xùn)練,帶來顯著的開發(fā)成本。更重要的是,經(jīng)過訓(xùn)練后的模型其行為模式即被固化,缺乏必要的靈活性,無法在推理階段根據(jù)用戶的實際需求對輸出風(fēng)格進行動態(tài)調(diào)整,難以適應(yīng)多樣化場景的應(yīng)用要求。因此,目前亟需開發(fā)一種無需重新訓(xùn)練且可供用戶實時調(diào)控的解碼機制,以實現(xiàn)適應(yīng)多樣化場景的可控生成。

二、本文方法

本文所提MRGD方法的主要框架流程如下圖所示,MRGD通過迭代生成和獎勵引導(dǎo)的過程,動態(tài)地控制生成內(nèi)容的精度與召回率。這是一個類似于迭代搜索的過程:



  1. 生成候選:在每一步,基于當前生成的前綴,讓MLLM采樣生成 個可能的后續(xù)詞序列。

  2. 評估候選:每個候選句子都會經(jīng)過物體精確度獎勵( )和物體召回率獎勵( )的獎勵模型進行評估。

  3. 選擇最優(yōu):選擇得分最高的候選,將其追加到當前輸出中。

  4. 循環(huán)往復(fù):重復(fù)上述過程,直到生成結(jié)束。

在每輪生成中,用戶可以靈活調(diào)整精確度與召回率的平衡,從而定制化生成的文本,達到最優(yōu)的生成效果。

2.1 獎勵引導(dǎo)

MRGD方法的核心創(chuàng)新在于其使用了獎勵引導(dǎo)解碼,在生成文本的每一步依據(jù)兩個獨立的獎勵模型動態(tài)選擇最優(yōu)的候選輸出。

  1. 物體精確度獎勵( ):該模型旨在減少虛假物體的生成,確保描述中的物體與圖像中的實際物體一致。通過評估候選句子中描述物體的準確性,模型懲罰生成錯誤的或不存在的物體,降低幻覺現(xiàn)象。

  2. 物體召回率獎勵( ):該模型鼓勵生成更多真實存在的物體描述,確保圖像中所有物體都被覆蓋。它通過比較圖像中檢測到的物體與候選句子中提到的物體,來評估召回率。覆蓋的物體越多,召回率越高,獎勵得分越大。 首先利用開放詞匯檢測器(如OWLv2)從圖像中提取所有物體作為參考集 ,同時使用語法工具(如NLTK)從生成文本中抽取出所有名詞作為預(yù)測集 。隨后通過語義編碼模型(如Sentence-BERT)將兩類物體名稱映射為向量,并計算預(yù)測物體與參考物體之間的最大余弦相似度。若某預(yù)測物體與任意參考物體的相似度超過閾值 ,則判定該物體被正確召回。最終獎勵值為被正確召回的物體數(shù)量與參考集物體總數(shù)的比值:


2.2 調(diào)控策略

MRGD并未將兩個獎勵模型固化為一個單一的指標,而是通過巧妙的設(shè)計,將控制權(quán)交給了用戶。作者首先設(shè)計了精度和召回權(quán)衡控制策略,這種策略允許用戶通過調(diào)節(jié)一個簡單的超參數(shù) 來線性組合兩個獎勵:


其中,當 時,可以最大限度減少幻覺,優(yōu)化精確度,生成內(nèi)容極其可靠,但可能過于簡潔。當 時,模型會盡可能描述更多細節(jié),追求高召回率,但可能包含幻覺。而當 時,模型處于平衡模式,可以同時兼顧準確性與豐富度。

此外,作者還設(shè)計了一種計算性能權(quán)衡控制策略,該策略通過調(diào)整采樣數(shù) ,來控制每一步生成的候選數(shù),增大 值可提升搜索充分性和生成質(zhì)量,但也會線性增加計算成本,下面展示了獎勵引導(dǎo)解碼的算法流程。


三、實驗效果

本文在CHAIR和AMBER兩個標準對象幻覺基準上系統(tǒng)評估了MRGD方法的性能,重點考察其在長字幕生成中緩解對象幻覺的效果。實驗除報告實例級與句子級幻覺率( / CHAIR 和 / Hal.)之外,還引入對象召回率( Rec. / Cov.)和字幕長度(Len.)作為輔助指標,以確保生成內(nèi)容不僅準確,且保持豐富性。此外,實驗部分還進一步分析了視覺基礎(chǔ)能力與測試時計算開銷之間的權(quán)衡關(guān)系。

3.1 定量實驗分析

下表展示了本文方法與其他幻覺緩解方法之間的性能對比。結(jié)果表明,MRGD在物體幻覺基準測試中全面優(yōu)于現(xiàn)有方法。在COCO數(shù)據(jù)集上,MRGD( )將實例級幻覺率從15.05%顯著降至4.53%,且僅帶來輕微召回率損失。


通過調(diào)節(jié)權(quán)重 ,MGRD可靈活平衡精度與召回。在 時實現(xiàn)最低幻覺率, 時達到最高覆蓋率。MRGD不僅大幅超越LLaVA-RLHF等微調(diào)方法,也明顯優(yōu)于CGD等解碼時引導(dǎo)方法,在COCO數(shù)據(jù)集上比CGD進一步降低約50%的幻覺率。這些結(jié)果證明,MRGD能夠在無需重新訓(xùn)練的情況下,為用戶提供高效且可控的解碼時生成方案。


此外,MRGD在應(yīng)用于更新且架構(gòu)多樣化的 MLLMs(例如 Llama-3.2-Vision 和 SmolVLM-2)時仍然有效。值得一提的是,本文的獎勵模型可以即插即用在任何新的MLLM上,無需重新訓(xùn)練。

3.2 定性實驗分析

下圖直觀對比了在相同輸入圖像下,默認貪婪解碼與MRGD方法生成圖像描述的效果差異。從上圖可以看到,貪婪解碼的的描述往往與實際圖像內(nèi)容不符,描述出的物體數(shù)量可能多于或少于實際存在的對象。例如,貪婪解碼的描述內(nèi)容包含了幻覺物體“樓梯”和“建筑物”,卻沒有提到船和河流。


相比之下,MRGD方法在不同權(quán)重配置下表現(xiàn)出顯著的可控生成能力。當設(shè)置 (側(cè)重精確度)時,模型生成的字幕準確提到了圖像中存在的元素,且完全避免幻覺,但代價是未能提及“梯田臺階”這一細節(jié)。當設(shè)置 (平衡模式)時,生成結(jié)果包含了更多細節(jié),如“木棚或亭子”,但也引入了一些幻覺。當設(shè)置 (側(cè)重召回率)時,模型成功識別最多的物體,但也出現(xiàn)了大量幻覺內(nèi)容,如“火車車廂”、“軌道”。這展示了MRGD在精度和召回之間的靈活平衡,用戶可通過調(diào)整 來控制生成的準確性和豐富性

3.3 消融實驗

為了驗證MRGD在校準模型精確度和召回率之間的權(quán)衡控制能力,作者對 值的使用進行了消融分析,結(jié)果如下圖所示。


其中,較低的 值導(dǎo)致較高的召回率和較低的精確度。隨著 的增大,權(quán)衡曲線接近理想狀態(tài),表明精確度與召回率之間存在固有權(quán)衡。該方法允許用戶通過調(diào)整 和 來靈活選擇最適合需求的平衡點。

四、總結(jié)

本文提出了一種名為多模態(tài)獎勵引導(dǎo)解碼(MRGD)的創(chuàng)新方法,用于在推理階段動態(tài)控制多模態(tài)大語言模型的輸出效果。該方法通過引入雙獎勵機制,使用戶能夠通過調(diào)節(jié)單一參數(shù)靈活權(quán)衡生成內(nèi)容的準確性與豐富性,無需重新訓(xùn)練模型即可有效抑制物體幻覺問題。實驗證明,MRGD在效果和效率上均顯著優(yōu)于現(xiàn)有方法,為構(gòu)建可控、可靠的多模態(tài)生成系統(tǒng)提供了實用而高效的解決方案。

參考

[1] Liu F, Lin K, Li L, et al. Mitigating hallucination in large multi-modal models via robust instruction tuning[J]. arXiv preprint arXiv:2306.14565, 2023.

[2] Sun Z, Shen S, Cao S, et al. Aligning large multimodal models with factually augmented rlhf[J]. arXiv preprint arXiv:2309.14525, 2023.

[3] Yu T, Yao Y, Zhang H, et al. Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 13807-13816.

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機構(gòu),也是北京市標桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
北京銀行要甩的雷,可不止富力地產(chǎn)這一顆

北京銀行要甩的雷,可不止富力地產(chǎn)這一顆

源媒匯
2026-03-13 14:28:25
美專家猛然發(fā)現(xiàn):中國早就準備好,一旦沖突,先廢掉美軍最強戰(zhàn)力

美專家猛然發(fā)現(xiàn):中國早就準備好,一旦沖突,先廢掉美軍最強戰(zhàn)力

涵豆說娛
2026-03-10 12:09:41
上海新規(guī)!非機動車、行人罰單逾期每日加罰3%,今起實施!視頻詳解

上海新規(guī)!非機動車、行人罰單逾期每日加罰3%,今起實施!視頻詳解

上觀新聞
2026-03-13 13:36:05
混社會的人出來之后變得怎樣了 看網(wǎng)友講述 發(fā)現(xiàn)真的好慘

混社會的人出來之后變得怎樣了 看網(wǎng)友講述 發(fā)現(xiàn)真的好慘

侃神評故事
2026-03-12 15:25:05
歐冠1/4決賽對陣預(yù)測:皇任大戰(zhàn) 巴黎連戰(zhàn)紅藍軍 薩競+槍耀

歐冠1/4決賽對陣預(yù)測:皇任大戰(zhàn) 巴黎連戰(zhàn)紅藍軍 薩競+槍耀

智道足球
2026-03-13 13:22:17
重慶冠軍賽:只贏一場就直通!張本美和3:0大獲全勝,迎中日對決

重慶冠軍賽:只贏一場就直通!張本美和3:0大獲全勝,迎中日對決

銜春信
2026-03-13 16:38:59
G聯(lián)賽:楊瀚森背靠背16+13+2+1帽 難阻混音遭快船雙殺

G聯(lián)賽:楊瀚森背靠背16+13+2+1帽 難阻混音遭快船雙殺

醉臥浮生
2026-03-13 12:33:30
13:2,聯(lián)合國安理會通過譴責(zé)伊朗決議,伊代表當眾大喊:不公平

13:2,聯(lián)合國安理會通過譴責(zé)伊朗決議,伊代表當眾大喊:不公平

混沌錄
2026-03-13 16:50:07
詹姆斯:東里持球我就努力搶板、接球,為球隊我愿做任何犧牲

詹姆斯:東里持球我就努力搶板、接球,為球隊我愿做任何犧牲

懂球帝
2026-03-13 14:28:30
萊萬談瓜迪奧拉:備戰(zhàn)一周的戰(zhàn)術(shù),比賽當天卻被要求全盤推翻

萊萬談瓜迪奧拉:備戰(zhàn)一周的戰(zhàn)術(shù),比賽當天卻被要求全盤推翻

懂球帝
2026-03-13 13:45:04
中方回應(yīng)特朗普計劃訪華

中方回應(yīng)特朗普計劃訪華

第一財經(jīng)資訊
2026-03-12 15:48:23
iPhone 18 Pro Max被曝機身尺寸變化不大 厚度達8.8mm

iPhone 18 Pro Max被曝機身尺寸變化不大 厚度達8.8mm

CNMO科技
2026-03-12 09:30:35
“全世界都看到了美軍的表現(xiàn),中國大有可為”

“全世界都看到了美軍的表現(xiàn),中國大有可為”

觀察者網(wǎng)
2026-03-12 22:37:22
生育大局已定:不出意外的話,2026年起中國人口將迎來3大變化

生育大局已定:不出意外的話,2026年起中國人口將迎來3大變化

大魚簡科
2026-03-13 10:29:12
68歲廖偉雄首談破產(chǎn)原因,幫朋友擔保暴雷,直言有他就無周星馳

68歲廖偉雄首談破產(chǎn)原因,幫朋友擔保暴雷,直言有他就無周星馳

裕豐娛間說
2026-03-12 08:51:54
這羞答答的抿嘴,沒有男人能拒絕??!

這羞答答的抿嘴,沒有男人能拒絕?。?/a>

貴圈真亂
2026-03-13 12:41:35
油價最新調(diào)整通知 !

油價最新調(diào)整通知 !

時間財經(jīng)
2026-03-12 15:20:55
爆冷晉級16強卻收壞消息!溫瑞博下輪死磕隊友!高情商回應(yīng)擊敗世界第二

爆冷晉級16強卻收壞消息!溫瑞博下輪死磕隊友!高情商回應(yīng)擊敗世界第二

好乒乓
2026-03-13 12:24:14
春節(jié)返回家中的第一件事,就是買它來煲湯,喝完舒服多了

春節(jié)返回家中的第一件事,就是買它來煲湯,喝完舒服多了

江江食研社
2026-03-12 15:30:07
國家下狠手了!體制內(nèi)大地震,少爺、公主們的“天”,要塌了

國家下狠手了!體制內(nèi)大地震,少爺、公主們的“天”,要塌了

霹靂炮
2026-01-19 22:24:13
2026-03-13 17:43:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

龍蝦熱卷到AI硬件 “無腦”硬件或被淘汰

頭條要聞

媒體:若穆杰塔巴公開露面顯得虛弱 會嚴重打擊政權(quán)士氣

頭條要聞

媒體:若穆杰塔巴公開露面顯得虛弱 會嚴重打擊政權(quán)士氣

體育要聞

叕戰(zhàn)奧運,張雨霏要做回“小將”

娛樂要聞

小S復(fù)工錄制 感謝賈永婕陪大S走到最后

財經(jīng)要聞

2月M2同增9% 前兩個月存款增加9.26萬億

汽車要聞

大眾汽車與小鵬首款聯(lián)合開發(fā)車型與眾08正式量產(chǎn)

態(tài)度原創(chuàng)

藝術(shù)
手機
本地
公開課
軍事航空

藝術(shù)要聞

吳冠中:歷代畫竹大都缺乏厚度與深度

手機要聞

vivo X300 Ultra揚聲器大升級 韓伯嘯:全鏈路無短板

本地新聞

坐標北京,過敏季反向遷徒

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗稱襲擊"林肯"號航母致其撤走

無障礙瀏覽 進入關(guān)懷版