国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

帝國理工大學(xué)提出DyMo:讓多模態(tài)模型學(xué)會(huì)選擇,突破模態(tài)缺失難題

0
分享至



論文第一作者為帝國理工大學(xué) BioMedIA 實(shí)驗(yàn)室博士研究生杜思逸(個(gè)人主頁:https://siyi-wind.github.io),研究方向?yàn)槎嗄B(tài)學(xué)習(xí)與醫(yī)療影像,曾在 ICLR、CVPR、ECCV、MICCAI 等學(xué)術(shù)會(huì)議上發(fā)表文章。

通訊作者為帝國理工大學(xué)電子與電氣工程系和 I-X 系 的秦宸副教授(實(shí)驗(yàn)室主頁:https://cq615.github.io)。她的研究方向涉及深度學(xué)習(xí)、醫(yī)學(xué)圖像分析、和計(jì)算機(jī)視覺。已在頂級(jí)同行評(píng)審工程和醫(yī)學(xué)成像期刊和會(huì)議論文集上發(fā)表了 70 多篇論文,并擔(dān)任 MICCAI 2022-24 的區(qū)域主席以及多個(gè)國際研討會(huì)的組織和計(jì)劃委員會(huì)成員。

多模態(tài)學(xué)習(xí)(Multimodal Learning)正在推動(dòng) AI 在醫(yī)學(xué)影像、自動(dòng)駕駛、人機(jī)交互等領(lǐng)域取得突破。通過融合圖像、文本、表格等多種模態(tài),模型能夠獲得更全面的信息,從而顯著提升性能。

然而,在真實(shí)世界中,一個(gè)關(guān)鍵問題幾乎不可避免:「模態(tài)缺失(Missing Modality)」。例如:醫(yī)學(xué)診斷中,部分檢查未完成;自動(dòng)駕駛中,某些傳感器失效;多模態(tài)數(shù)據(jù)庫中,部分字段缺失。

現(xiàn)有的不完整多模態(tài)學(xué)習(xí)方法通常采取兩種策略,要么直接丟棄缺失模態(tài)(無恢復(fù)方法,recovery-free),從而可能損失重要的任務(wù)相關(guān)信息;要么嘗試恢復(fù)缺失模態(tài)(recovery-based,基于恢復(fù)方法),但這又可能引入無關(guān)噪聲。我們將這一矛盾稱為「丟棄 - 插補(bǔ)困境」(discarding-imputation dilemma)

為了解決這一問題,帝國理工大學(xué)的研究團(tuán)隊(duì)引入一個(gè)全新的視角:不盲目丟棄,也不盲目使用恢復(fù)模態(tài),而是在推理時(shí)動(dòng)態(tài)識(shí)別并融合可靠的恢復(fù)模態(tài),突破傳統(tǒng)「丟棄或插補(bǔ)」的二元限制。為此,作者設(shè)計(jì)了一種新的推理階段動(dòng)態(tài)模態(tài)選擇框架DyMo

DyMo 從信息論的角度出發(fā),理論性地建立信息量和任務(wù)損失之間的聯(lián)系,提出用于指導(dǎo)模態(tài)選擇過程的獎(jiǎng)勵(lì)函數(shù)。此外,作者還設(shè)計(jì)了一種靈活的多模態(tài)網(wǎng)絡(luò)結(jié)構(gòu),可兼容任意模態(tài)組合,并配套提出了專門的訓(xùn)練策略,以學(xué)習(xí)魯棒的多模態(tài)表示。在多個(gè)自然圖像與醫(yī)學(xué)影像數(shù)據(jù)集上的實(shí)驗(yàn)表明,DyMo 在各種模態(tài)缺失場(chǎng)景下均顯著優(yōu)于現(xiàn)有方法。該工作已被機(jī)器學(xué)習(xí)頂級(jí)會(huì)議 ICLR 2026 接收。



  • 論文標(biāo)題:Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification
  • 論文作者:Siyi Du, Xinzhe Luo, Declan P. O'Regan, Chen Qin
  • 作者單位:英國帝國理工大學(xué)
  • 論文鏈接:https://openreview.net/forum?id=PWhDUWRVhM
  • 代碼鏈接:https://github.com//siyi-wind/DyMo

丟棄 vs 恢復(fù)的困境

針對(duì)模態(tài)缺失問題,現(xiàn)有方法主要分為兩類:

  • 基于恢復(fù)的方法(recovery-based methods),這些方法先補(bǔ)全模態(tài),再進(jìn)行模態(tài)融合。
  • 無恢復(fù)方法(recovery-free methods),這類方法直接忽略缺失模態(tài),僅使用可用模態(tài)進(jìn)行預(yù)測(cè)。

但在現(xiàn)實(shí)場(chǎng)景中,不同模態(tài)對(duì)任務(wù)的重要性往往存在顯著差異。這種差異主要來源于:(i)各模態(tài)包含的任務(wù)相關(guān)信息強(qiáng)度不同,(ii)各模態(tài)中包含的噪聲程度不同。



圖 1。(a–b) “丟棄–插補(bǔ)困境” 的直觀證據(jù):(a-1) vs (a-2) 無恢復(fù)方法(recovery-free methods)由于直接忽略缺失但高度任務(wù)相關(guān)的模態(tài)(如 {M, T}),只能學(xué)習(xí)到判別能力較弱的特征表示;(b) 基于恢復(fù)的方法(recovery-based methods)產(chǎn)生不可靠的重建結(jié)果,例如低保真重建(橙色)或語義錯(cuò)位(黃色)。(c) DyMo 能夠通過動(dòng)態(tài)融合任務(wù)相關(guān)且可靠的恢復(fù)模態(tài)來有效解決這一困境,并在多個(gè)數(shù)據(jù)集上顯著提升性能:如在 PolyMNIST、MST 和 CelebA 數(shù)據(jù)集上,分類準(zhǔn)確率分別提高了 1.61%、1.68% 和 3.88%(見論文表 1)。

當(dāng)高度關(guān)鍵的模態(tài)缺失時(shí),傳統(tǒng)的無需恢復(fù)方法只能依賴剩余信息較弱的模態(tài),從而導(dǎo)致模型判別能力下降 (如圖 1(a))。雖然恢復(fù)方法試圖通過重建缺失模態(tài)來解決這一問題,但恢復(fù)質(zhì)量往往不穩(wěn)定(如圖 1(b)),可能生成低保真恢復(fù)(low-fidelity),即圖像模糊或失真,或者語義錯(cuò)位(semantic misalignment):恢復(fù)內(nèi)容與真實(shí)標(biāo)簽不一致。將這些不可靠模態(tài)用于融合,反而會(huì)引入與任務(wù)無關(guān)的噪聲,干擾模型決策。

DyMo:推理階段動(dòng)態(tài)模態(tài)選擇框架

圍繞「丟棄–插補(bǔ)困境」,作者提出了一種全新的解決思路 —— DyMo:一種推理階段動(dòng)態(tài)模態(tài)選擇框架。其核心思想不是簡單「丟棄」或「強(qiáng)行恢復(fù)」,而是在推理階段自適應(yīng)地選擇并融合可靠的恢復(fù)模態(tài),最大化多模態(tài)任務(wù)相關(guān)信息(圖 1(c))。文章具體貢獻(xiàn)如下:

  • 首次系統(tǒng)性提出并刻畫「丟棄–插補(bǔ)困境」,引入動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)機(jī)制(dynamic neural networks)來打破這一結(jié)構(gòu)性兩難。
  • 提出 DyMo,其核心創(chuàng)新包括:(1)基于多模態(tài)任務(wù)相關(guān)信息增益的動(dòng)態(tài)模態(tài)選擇算法,(2)支持任意模態(tài)組合的多模態(tài)網(wǎng)絡(luò)結(jié)構(gòu),(3)專門的訓(xùn)練策略讓模型能夠?qū)W習(xí)魯棒的潛在表示。
  • DyMo 在 5 個(gè)多樣化數(shù)據(jù)集(包括自然圖像和醫(yī)學(xué)影像)上達(dá)到 SOTA 性能。
  • DyMo 易于使用(可與多種模態(tài)恢復(fù)方法結(jié)合),且動(dòng)態(tài)算法無需額外復(fù)雜結(jié)構(gòu)開銷,方便部署。

支持任意模態(tài)組合的網(wǎng)絡(luò)架構(gòu)



圖 2。用于任意模態(tài)的多模態(tài)網(wǎng)絡(luò)結(jié)構(gòu)。

DyMo 多模態(tài)網(wǎng)絡(luò)結(jié)構(gòu)的目標(biāo)是:無論輸入模態(tài)是否完整,都能生成可靠的預(yù)測(cè)結(jié)果,并為后續(xù)的動(dòng)態(tài)模態(tài)選擇提供基礎(chǔ)。整體架構(gòu)主要由三個(gè)部分組成:單模態(tài)編碼器進(jìn)行特征提取;多模態(tài) Transformer 建模跨模態(tài)關(guān)系;線性分類器使用 [CLS] token 的表示進(jìn)行預(yù)測(cè)。

方法核心:推理階段動(dòng)態(tài)模態(tài)選擇與融合

1. MTIR (multimodal task-relevant information reward)多模態(tài)任務(wù)相關(guān)信息獎(jiǎng)勵(lì): DyMo 的核心是一個(gè)獎(jiǎng)勵(lì)函數(shù): MTIR,用于估計(jì)每一個(gè)恢復(fù)模態(tài)帶來的多模態(tài)任務(wù)相關(guān)信息增益。更直觀的說:

  • reward > 0: 該模態(tài)提供了有用信息,應(yīng)當(dāng)融合
  • reward = 0: 該模態(tài)可能是低保真度恢復(fù),信息很少,價(jià)值有限
  • reward < 0: 該模態(tài)可能是語義不一致恢復(fù),反而會(huì)誤導(dǎo)模型





從該公式中,可以得到一個(gè)關(guān)鍵的結(jié)論:降低任務(wù)損失,能夠提高任務(wù)相關(guān)信息的下界,因此,DyMo 使用一個(gè)簡單但有效的 proxy:

用交叉熵?fù)p失的下降來估計(jì)任務(wù)相關(guān)信息增益

























訓(xùn)練策略





輔助缺失不可知對(duì)比損失:旨在進(jìn)一步增強(qiáng)類內(nèi)聚類和類間分離。





實(shí)驗(yàn)結(jié)果

作者使用 5 個(gè)不同的數(shù)據(jù)集(包含圖像,文本,表格模態(tài))進(jìn)行實(shí)驗(yàn),包括三個(gè)模擬數(shù)據(jù)集:PolyMNIST, MST, CelebA,和兩個(gè)大的真實(shí)數(shù)據(jù)集:自然圖像 - 表格數(shù)據(jù)集 DVM 和醫(yī)學(xué)圖像 - 表格數(shù)據(jù)集 UK Biobank (UKBB)。

對(duì)于 DyMo 中的恢復(fù)方法,三個(gè)模擬數(shù)據(jù)集使用 VAE 類方法,兩個(gè)真實(shí)數(shù)據(jù)集使用 MAE 類方法。在消融實(shí)驗(yàn)部分作者還包含了更多的恢復(fù)方法。模型在完整的數(shù)據(jù)集上進(jìn)行訓(xùn)練,并在各種缺失場(chǎng)景下進(jìn)行評(píng)估:(i)對(duì)于 PolyMNIST,作者設(shè)置隨機(jī)缺失一定比例的模態(tài); (ii) 對(duì)于 MST 和 CelebA,作者測(cè)試了缺失模式的不同組合; (iii) 對(duì)于 DVM 和 UKBB,作者評(píng)估了全表格和表格內(nèi)(即模態(tài)內(nèi))缺失。

DyMo 超越過去的先進(jìn)模型

DyMo 與先進(jìn)的動(dòng)態(tài) / 靜態(tài)模態(tài)融合方法,基于恢復(fù)的方法,和無恢復(fù)方法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,DyMo 在缺失模態(tài)場(chǎng)景下實(shí)現(xiàn)了巨大的性能飛躍,特別是在嚴(yán)重模態(tài)缺失場(chǎng)景。比如,在 PolyMNIST 數(shù)據(jù)集上,當(dāng) 80% 模態(tài)缺失時(shí),DyMo 相比最先進(jìn)動(dòng)態(tài)融合方法,準(zhǔn)確率提升高達(dá)13.12%,展現(xiàn)出極強(qiáng)的魯棒性。

此外,實(shí)驗(yàn)還顯示了「丟棄 - 插補(bǔ)困境」的存在:(1)無恢復(fù)方法在高度任務(wù)相關(guān)模態(tài)缺失時(shí)會(huì)出現(xiàn)顯著性能下降。例如,在 MST 數(shù)據(jù)集上,當(dāng)缺失模態(tài)為 {M, T} 而非 {S, T} 時(shí),MUSE 的分類準(zhǔn)確率下降了高達(dá) 61.18%。(2)基于恢復(fù)的方法在嚴(yán)重模態(tài)缺失場(chǎng)景下同樣面臨挑戰(zhàn)。例如,在 PolyMNIST 數(shù)據(jù)集上,當(dāng)缺失率從 η = 0 增加到 η = 0.8 時(shí),OnlineMAE 的準(zhǔn)確率下降了 9.91%,表明恢復(fù)過程中生成了不可靠的模態(tài)。相比現(xiàn)有方法,DyMo 能夠有效突破這一困境,在各種嚴(yán)重模態(tài)缺失場(chǎng)景下均取得顯著性能優(yōu)勢(shì)。



圖 3。和靜態(tài) / 動(dòng)態(tài)模態(tài)融合方法比較。



圖 4。和無恢復(fù)方法,基于恢復(fù)方法比較。

可視化與樣例分析

作者的隱層特征表示可視化和樣例分析展示了 DyMo 能夠有效選擇可靠的恢復(fù)模態(tài),并提升模型性能。



圖 5。DyMo 在 MST 數(shù)據(jù)集上的隱層特征表示 t-SNE 可視化,對(duì)比了不同模態(tài)使用策略的效果:(a-1) 僅使用原始可觀測(cè)模態(tài);(a-2) 直接融合所有恢復(fù)模態(tài)(不加篩選);(a-3) 融合由 DyMo 自動(dòng)選擇的恢復(fù)模態(tài)。



圖 6。PolyMNIST 數(shù)據(jù)集上的案例分析:黃色表示原始可觀測(cè)模態(tài),藍(lán)色表示由 DyMo 自動(dòng)選擇用于融合的模態(tài)。

討論與總結(jié)

DyMo 提供了一個(gè)新的視角,問題不再是「如何恢復(fù)所有模態(tài)」,而是「哪些恢復(fù)模態(tài)值得信任」

通過在推理階段動(dòng)態(tài)選擇可靠模態(tài),DyMo 成功突破了傳統(tǒng)「丟棄或插補(bǔ)」的二元限制,為不完整多模態(tài)學(xué)習(xí)提供了一種更加靈活和魯棒的解決方案。

未來方向:

  • 動(dòng)態(tài)選擇是否需要擴(kuò)展到訓(xùn)練階段
  • 如何擴(kuò)展到分類以外的任務(wù)
  • 如何更加可靠和高效,或者與多模態(tài)大語言模型(MLLMs)進(jìn)行結(jié)合

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
難以置信!網(wǎng)傳一女子征婚,稱網(wǎng)貸欠200多萬,誰幫還債就嫁給誰

難以置信!網(wǎng)傳一女子征婚,稱網(wǎng)貸欠200多萬,誰幫還債就嫁給誰

火山詩話
2026-03-10 13:46:15
美以伊都沒想到,他們?cè)谀谴蛏蛩?,“沙土神盾”卻是中國造!

美以伊都沒想到,他們?cè)谀谴蛏蛩?,“沙土神盾”卻是中國造!

芊芊子吟
2026-03-10 12:35:11
航運(yùn)巨頭接管巴拿馬港口,中國監(jiān)管層緊急約談劃紅線

航運(yùn)巨頭接管巴拿馬港口,中國監(jiān)管層緊急約談劃紅線

鳳眼論
2026-03-10 15:40:57
賭球+假球+出賣球隊(duì)!被NBA終身禁賽后,他用一場(chǎng)三雙宣告回歸

賭球+假球+出賣球隊(duì)!被NBA終身禁賽后,他用一場(chǎng)三雙宣告回歸

球童無忌
2026-03-10 20:13:59
這菜再貴也要吃,大量上市!通便排毒,殺菌消炎,提高免疫力

這菜再貴也要吃,大量上市!通便排毒,殺菌消炎,提高免疫力

阿龍美食記
2026-03-10 16:31:51
深圳上線“政務(wù)龍蝦”,卻被發(fā)現(xiàn)政務(wù)系統(tǒng)還在用IE瀏覽器,網(wǎng)友擔(dān)心信息遭泄露

深圳上線“政務(wù)龍蝦”,卻被發(fā)現(xiàn)政務(wù)系統(tǒng)還在用IE瀏覽器,網(wǎng)友擔(dān)心信息遭泄露

小蘿卜絲
2026-03-10 17:33:28
關(guān)于和伊朗談判,特朗普最新表態(tài)!

關(guān)于和伊朗談判,特朗普最新表態(tài)!

每日經(jīng)濟(jì)新聞
2026-03-10 21:15:06
央視推薦“沉睡湯”,我喝了15天,沾枕頭就睡到天亮!

央視推薦“沉睡湯”,我喝了15天,沾枕頭就睡到天亮!

新時(shí)代的兩性情感
2026-03-09 19:18:07
記者:澳政府將在機(jī)場(chǎng)為伊朗女足全隊(duì)提供申請(qǐng)庇護(hù)的最后機(jī)會(huì)

記者:澳政府將在機(jī)場(chǎng)為伊朗女足全隊(duì)提供申請(qǐng)庇護(hù)的最后機(jī)會(huì)

懂球帝
2026-03-10 13:06:17
火爆全網(wǎng)的“養(yǎng)龍蝦”,第一批受害者已出現(xiàn)!有人被AI燒掉數(shù)萬元

火爆全網(wǎng)的“養(yǎng)龍蝦”,第一批受害者已出現(xiàn)!有人被AI燒掉數(shù)萬元

派大星紀(jì)錄片
2026-03-10 11:13:04
震驚!網(wǎng)傳50%已婚男人活成老婆的供養(yǎng)血包者,網(wǎng)友:至少90%吧

震驚!網(wǎng)傳50%已婚男人活成老婆的供養(yǎng)血包者,網(wǎng)友:至少90%吧

火山詩話
2026-03-10 15:39:53
伊朗30噸巨彈轟向以色列空軍基地!16馬赫速度,以軍防御攔不住

伊朗30噸巨彈轟向以色列空軍基地!16馬赫速度,以軍防御攔不住

策略述
2026-03-10 17:22:04
北大醫(yī)學(xué)專家胡大一:睡覺,一個(gè)讓你延長生命的革命性新秘方

北大醫(yī)學(xué)專家胡大一:睡覺,一個(gè)讓你延長生命的革命性新秘方

新浪財(cái)經(jīng)
2026-03-10 00:31:51
伊朗女足抵達(dá)機(jī)場(chǎng)!球員被困車內(nèi)+發(fā)出求救信號(hào) 家人警告:別回來

伊朗女足抵達(dá)機(jī)場(chǎng)!球員被困車內(nèi)+發(fā)出求救信號(hào) 家人警告:別回來

念洲
2026-03-10 19:45:58
誰讓危險(xiǎn)的“淡水國產(chǎn)三文魚刺身”公然爬上你的餐桌

誰讓危險(xiǎn)的“淡水國產(chǎn)三文魚刺身”公然爬上你的餐桌

白馬狗熊
2026-03-10 13:15:06
中國女足或直通世界杯!八強(qiáng)戰(zhàn)對(duì)陣中國臺(tái)北,26戰(zhàn)全勝僅丟2球

中國女足或直通世界杯!八強(qiáng)戰(zhàn)對(duì)陣中國臺(tái)北,26戰(zhàn)全勝僅丟2球

奧拜爾
2026-03-10 19:03:04
國家互聯(lián)網(wǎng)應(yīng)急中心發(fā)布OpenClaw安全應(yīng)用風(fēng)險(xiǎn)提示

國家互聯(lián)網(wǎng)應(yīng)急中心發(fā)布OpenClaw安全應(yīng)用風(fēng)險(xiǎn)提示

界面新聞
2026-03-10 19:29:53
美容院老板娘大實(shí)話:脫了衣服,女人的差距根本不在臉上!

美容院老板娘大實(shí)話:脫了衣服,女人的差距根本不在臉上!

夜深愛雜談
2026-03-08 21:28:24
于東來公布公司40億資產(chǎn)利潤分配方案:胖東來12名店長共分2.4億,每人2000萬元

于東來公布公司40億資產(chǎn)利潤分配方案:胖東來12名店長共分2.4億,每人2000萬元

大象新聞
2026-03-10 14:46:05
美國一華人等紅燈時(shí)遭人捅傷 !附近店主拿出速凍水餃止血,警方:受害者傷勢(shì)危及生命,嫌疑人逃離后不久被捕

美國一華人等紅燈時(shí)遭人捅傷 !附近店主拿出速凍水餃止血,警方:受害者傷勢(shì)危及生命,嫌疑人逃離后不久被捕

觀威海
2026-03-10 17:03:04
2026-03-11 03:04:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12467文章數(shù) 142581關(guān)注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場(chǎng)瘋狂賣Token

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

體育要聞

加蘭沒那么差,但鱸魚會(huì)用嗎?

娛樂要聞

《逐玉》注水風(fēng)波升級(jí)!315評(píng)論區(qū)淪陷

財(cái)經(jīng)要聞

“龍蝦補(bǔ)貼”密集出爐 最高1000萬!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

藝術(shù)
旅游
手機(jī)
本地
公開課

藝術(shù)要聞

震撼!美國油畫家約書亞·拉洛克的作品讓人驚嘆不已!

旅游要聞

奇花藝境展推出多次打卡票種,滬上春日花事持續(xù)煥新

手機(jī)要聞

M5 Max 版 16 英寸 MacBook Pro 體驗(yàn):算力巔峰與專業(yè)視界

本地新聞

云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版