ICCV 2025 | MRGD：Mila聯(lián)合Meta等提出獎勵探索的解碼框架，有效緩解MLLMs的生成幻覺難題

2025-11-04 08:25:39　來源: 將門創(chuàng)投

北京舉報

分享至

在多模態(tài)大語言模型（MLLMs）不斷突破性能邊界的同時，其輸出不可控、“幻覺”頻發(fā)的問題也日益凸顯。本文介紹一篇由Mila、蒙特利爾大學(xué)、麥吉爾大學(xué)以及Meta FAIR等研究團隊共同完成的工作，目前已經(jīng)發(fā)表在視覺頂級會議ICCV 2025上。該工作提出了一種"多模態(tài)獎勵引導(dǎo)解碼"（Multimodal Reward-guided Decoding, MRGD）的方法。MRGD無需重新訓(xùn)練模型即可在推理階段精準調(diào)控MLLM的生成效果。MRGD主要構(gòu)建了兩個獨立且互補的獎勵信號：“精確度獎勵”（嚴控幻覺，提升輸出可靠性）與“召回率獎勵”（促進細節(jié)覆蓋，增強描述豐富性）。MRGD不僅有效緩解了物體幻覺問題，還賦予了用戶在生成內(nèi)容時的高度可控性，使得用戶能夠根據(jù)具體需求，靈活地調(diào)節(jié)精度與召回之間的平衡，或者在計算資源和生成質(zhì)量之間作出權(quán)衡。

論文題目： Controlling Multimodal LLMs via Reward-guided Decoding 文章鏈接： https://arxiv.org/abs/2508.11616

一、引言

近年來，多模態(tài)大語言模型（MLLMs）在圖像描述、視覺問答等任務(wù)上展現(xiàn)出卓越的能力。然而，其生成過程中頻繁出現(xiàn)的“物體幻覺”（Object Hallucination）問題（即生成圖像中并不存在的物體描述，如下圖Greedy生成的內(nèi)容所示）嚴重限制了其在可信度要求高的場景（如自動駕駛、醫(yī)療影像分析）中的應(yīng)用。

現(xiàn)有的主流解決方案普遍依賴于有監(jiān)督微調(diào)（SFT）[1] 和基于人類反饋的強化學(xué)習(xí)（RLHF）[2][3]來調(diào)整模型參數(shù)提升性能。盡管這些方法在一定程度上能夠提升模型性能，但其固有缺陷也十分顯著。首先，這些方法需要投入大量的計算資源與人工標注數(shù)據(jù)對模型進行重新訓(xùn)練，帶來顯著的開發(fā)成本。更重要的是，經(jīng)過訓(xùn)練后的模型其行為模式即被固化，缺乏必要的靈活性，無法在推理階段根據(jù)用戶的實際需求對輸出風(fēng)格進行動態(tài)調(diào)整，難以適應(yīng)多樣化場景的應(yīng)用要求。因此，目前亟需開發(fā)一種無需重新訓(xùn)練且可供用戶實時調(diào)控的解碼機制，以實現(xiàn)適應(yīng)多樣化場景的可控生成。

二、本文方法

本文所提MRGD方法的主要框架流程如下圖所示，MRGD通過迭代生成和獎勵引導(dǎo)的過程，動態(tài)地控制生成內(nèi)容的精度與召回率。這是一個類似于迭代搜索的過程：

生成候選：在每一步，基于當前生成的前綴，讓MLLM采樣生成個可能的后續(xù)詞序列。
評估候選：每個候選句子都會經(jīng)過物體精確度獎勵（）和物體召回率獎勵（）的獎勵模型進行評估。
選擇最優(yōu)：選擇得分最高的候選，將其追加到當前輸出中。
循環(huán)往復(fù)：重復(fù)上述過程，直到生成結(jié)束。

在每輪生成中，用戶可以靈活調(diào)整精確度與召回率的平衡，從而定制化生成的文本，達到最優(yōu)的生成效果。

2.1 獎勵引導(dǎo)

MRGD方法的核心創(chuàng)新在于其使用了獎勵引導(dǎo)解碼，在生成文本的每一步依據(jù)兩個獨立的獎勵模型動態(tài)選擇最優(yōu)的候選輸出。

物體精確度獎勵（）：該模型旨在減少虛假物體的生成，確保描述中的物體與圖像中的實際物體一致。通過評估候選句子中描述物體的準確性，模型懲罰生成錯誤的或不存在的物體，降低幻覺現(xiàn)象。
物體召回率獎勵（）：該模型鼓勵生成更多真實存在的物體描述，確保圖像中所有物體都被覆蓋。它通過比較圖像中檢測到的物體與候選句子中提到的物體，來評估召回率。覆蓋的物體越多，召回率越高，獎勵得分越大。首先利用開放詞匯檢測器（如OWLv2）從圖像中提取所有物體作為參考集，同時使用語法工具（如NLTK）從生成文本中抽取出所有名詞作為預(yù)測集。隨后通過語義編碼模型（如Sentence-BERT）將兩類物體名稱映射為向量，并計算預(yù)測物體與參考物體之間的最大余弦相似度。若某預(yù)測物體與任意參考物體的相似度超過閾值，則判定該物體被正確召回。最終獎勵值為被正確召回的物體數(shù)量與參考集物體總數(shù)的比值：

2.2 調(diào)控策略

MRGD并未將兩個獎勵模型固化為一個單一的指標，而是通過巧妙的設(shè)計，將控制權(quán)交給了用戶。作者首先設(shè)計了精度和召回權(quán)衡控制策略，這種策略允許用戶通過調(diào)節(jié)一個簡單的超參數(shù) 來線性組合兩個獎勵：

其中，當時，可以最大限度減少幻覺，優(yōu)化精確度，生成內(nèi)容極其可靠，但可能過于簡潔。當時，模型會盡可能描述更多細節(jié)，追求高召回率，但可能包含幻覺。而當時，模型處于平衡模式，可以同時兼顧準確性與豐富度。

此外，作者還設(shè)計了一種計算性能權(quán)衡控制策略，該策略通過調(diào)整采樣數(shù) ，來控制每一步生成的候選數(shù)，增大值可提升搜索充分性和生成質(zhì)量，但也會線性增加計算成本，下面展示了獎勵引導(dǎo)解碼的算法流程。

三、實驗效果

本文在CHAIR和AMBER兩個標準對象幻覺基準上系統(tǒng)評估了MRGD方法的性能，重點考察其在長字幕生成中緩解對象幻覺的效果。實驗除報告實例級與句子級幻覺率（ / CHAIR 和 / Hal.）之外，還引入對象召回率（ Rec. / Cov.）和字幕長度（Len.）作為輔助指標，以確保生成內(nèi)容不僅準確，且保持豐富性。此外，實驗部分還進一步分析了視覺基礎(chǔ)能力與測試時計算開銷之間的權(quán)衡關(guān)系。

3.1 定量實驗分析

下表展示了本文方法與其他幻覺緩解方法之間的性能對比。結(jié)果表明，MRGD在物體幻覺基準測試中全面優(yōu)于現(xiàn)有方法。在COCO數(shù)據(jù)集上，MRGD（）將實例級幻覺率從15.05%顯著降至4.53%，且僅帶來輕微召回率損失。

通過調(diào)節(jié)權(quán)重，MGRD可靈活平衡精度與召回。在時實現(xiàn)最低幻覺率，時達到最高覆蓋率。MRGD不僅大幅超越LLaVA-RLHF等微調(diào)方法，也明顯優(yōu)于CGD等解碼時引導(dǎo)方法，在COCO數(shù)據(jù)集上比CGD進一步降低約50%的幻覺率。這些結(jié)果證明，MRGD能夠在無需重新訓(xùn)練的情況下，為用戶提供高效且可控的解碼時生成方案。

此外，MRGD在應(yīng)用于更新且架構(gòu)多樣化的 MLLMs（例如 Llama-3.2-Vision 和 SmolVLM-2）時仍然有效。值得一提的是，本文的獎勵模型可以即插即用在任何新的MLLM上，無需重新訓(xùn)練。

3.2 定性實驗分析

下圖直觀對比了在相同輸入圖像下，默認貪婪解碼與MRGD方法生成圖像描述的效果差異。從上圖可以看到，貪婪解碼的的描述往往與實際圖像內(nèi)容不符，描述出的物體數(shù)量可能多于或少于實際存在的對象。例如，貪婪解碼的描述內(nèi)容包含了幻覺物體“樓梯”和“建筑物”，卻沒有提到船和河流。

相比之下，MRGD方法在不同權(quán)重配置下表現(xiàn)出顯著的可控生成能力。當設(shè)置（側(cè)重精確度）時，模型生成的字幕準確提到了圖像中存在的元素，且完全避免幻覺，但代價是未能提及“梯田臺階”這一細節(jié)。當設(shè)置（平衡模式）時，生成結(jié)果包含了更多細節(jié)，如“木棚或亭子”，但也引入了一些幻覺。當設(shè)置（側(cè)重召回率）時，模型成功識別最多的物體，但也出現(xiàn)了大量幻覺內(nèi)容，如“火車車廂”、“軌道”。這展示了MRGD在精度和召回之間的靈活平衡，用戶可通過調(diào)整來控制生成的準確性和豐富性。

3.3 消融實驗

為了驗證MRGD在校準模型精確度和召回率之間的權(quán)衡控制能力，作者對值的使用進行了消融分析，結(jié)果如下圖所示。

其中，較低的值導(dǎo)致較高的召回率和較低的精確度。隨著的增大，權(quán)衡曲線接近理想狀態(tài)，表明精確度與召回率之間存在固有權(quán)衡。該方法允許用戶通過調(diào)整和來靈活選擇最適合需求的平衡點。

四、總結(jié)

本文提出了一種名為多模態(tài)獎勵引導(dǎo)解碼（MRGD）的創(chuàng)新方法，用于在推理階段動態(tài)控制多模態(tài)大語言模型的輸出效果。該方法通過引入雙獎勵機制，使用戶能夠通過調(diào)節(jié)單一參數(shù)靈活權(quán)衡生成內(nèi)容的準確性與豐富性，無需重新訓(xùn)練模型即可有效抑制物體幻覺問題。實驗證明，MRGD在效果和效率上均顯著優(yōu)于現(xiàn)有方法，為構(gòu)建可控、可靠的多模態(tài)生成系統(tǒng)提供了實用而高效的解決方案。

參考

[1] Liu F, Lin K, Li L, et al. Mitigating hallucination in large multi-modal models via robust instruction tuning[J]. arXiv preprint arXiv:2306.14565, 2023.

[2] Sun Z, Shen S, Cao S, et al. Aligning large multimodal models with factually augmented rlhf[J]. arXiv preprint arXiv:2309.14525, 2023.

[3] Yu T, Yao Y, Zhang H, et al. Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 13807-13816.

llustration From IconScout By IconScout Store

-The End-

本周上新！

掃碼觀看！

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)（www.techbeat.net）。社區(qū)上線700+期talk視頻，3000+篇技術(shù)干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺，希望為AI人才打造更專業(yè)的服務(wù)和體驗，加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章，并標明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向，對用戶啟發(fā)更大的文章，做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信（michelle333_）投稿，溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機構(gòu)，也是北京市標桿型孵化器。公司致力于通過連接技術(shù)與商業(yè)，發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè)，推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底，創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成，曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè)，不僅想獲得投資，還希望獲得一系列持續(xù)性、有價值的投后服務(wù)，歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com

點擊右上角，把文章分享到朋友圈

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.