網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

多模態(tài)原來這么有趣？看完我簡(jiǎn)直醍醐灌頂！

2025-10-14 11:42:26　來源: 機(jī)器學(xué)習(xí)與Python社區(qū)

北京舉報(bào)

分享至

哈嘍，我是章北海

最近很多朋友在社群和私信里提到，對(duì)多模態(tài)融合的概念、方法和實(shí)際應(yīng)用總是摸不透，尤其是在不同融合策略的選擇和代碼實(shí)現(xiàn)上有不少疑問。所以今天咱們就把多模態(tài)融合的核心知識(shí)、主流方法和典型案例梳理清楚，幫大家徹底搞懂這個(gè)熱門方向！

大家都知道，多模態(tài)數(shù)據(jù)（如圖像、文本、語音）在現(xiàn)實(shí)場(chǎng)景中無處不在，但單一模態(tài)數(shù)據(jù)往往存在信息局限 —— 比如圖片缺語義、文本缺視覺細(xì)節(jié)、語音缺場(chǎng)景上下文。而多模態(tài)融合能整合不同模態(tài)的冗余信息（增強(qiáng)可靠性）和互補(bǔ)信息（填補(bǔ)信息缺口），讓模型更全面地理解數(shù)據(jù)，這也是當(dāng)前 AI 從 “單模態(tài)感知” 走向 “多模態(tài)認(rèn)知” 的關(guān)鍵一步。

今天和大家分享的多模態(tài)融合核心內(nèi)容包括：

多模態(tài)學(xué)習(xí)的核心任務(wù)
多模態(tài)融合的基礎(chǔ)分類
主流多模態(tài)融合方法（含原理、公式、優(yōu)缺點(diǎn)）
典型應(yīng)用案例與代碼示例

老規(guī)矩：如果大家伙覺得近期文章還不錯(cuò)！歡迎大家點(diǎn)個(gè)贊、轉(zhuǎn)個(gè)發(fā)，在介紹之前想將自己整理的最新多模態(tài)論文代碼合集分享給大家，都是多模態(tài)與各領(lǐng)域前沿的結(jié)合論文，像是多模態(tài)醫(yī)學(xué)圖像、多模態(tài)特征融合、多模態(tài)大模型、多模態(tài)情感識(shí)別等等，希望能更好的幫大家掌握多模態(tài)，挖掘出自己的創(chuàng)新點(diǎn)！

掃碼添加小助理，回復(fù)“多模態(tài)”

免費(fèi)獲取全部論文+開源代碼

1.多模態(tài)學(xué)習(xí)的核心任務(wù)

在講融合之前，得先明確多模態(tài)學(xué)習(xí)要解決的核心問題。本質(zhì)上，多模態(tài)學(xué)習(xí)是讓模型處理 “跨模態(tài)信息交互”，主要包含 5 大任務(wù)，這些任務(wù)也是融合方法的應(yīng)用場(chǎng)景基礎(chǔ)：

表征（Representation）：將多模態(tài)數(shù)據(jù)映射到統(tǒng)一 / 關(guān)聯(lián)的特征空間，便于后續(xù)處理。典型的場(chǎng)景有：文本 - 圖像語義對(duì)齊、跨模態(tài)檢索。
翻譯（Translation）：將一種模態(tài)的信息轉(zhuǎn)換為另一種模態(tài)（如文本轉(zhuǎn)圖像、語音轉(zhuǎn)文字）。典型的場(chǎng)景有：圖像描述生成、語音識(shí)別。
對(duì)齊（Alignment）：找到不同模態(tài) “子成分” 的對(duì)應(yīng)關(guān)系（如文本中的 “貓” 對(duì)應(yīng)圖像中的貓區(qū)域）。典型的場(chǎng)景有：視頻字幕對(duì)齊、跨模態(tài)注意力。
融合（Fusion）：整合多模態(tài)特征，生成更全面的聯(lián)合表示，用于下游任務(wù)（分類、預(yù)測(cè)等）。典型的場(chǎng)景有：情感分析、點(diǎn)擊率預(yù)估。
聯(lián)合學(xué)習(xí)（Co-learning）：用數(shù)據(jù)豐富的模態(tài)（如圖像）輔助數(shù)據(jù)稀缺的模態(tài)（如文本），提升整體性能。典型的場(chǎng)景有：零樣本分類、跨模態(tài)遷移學(xué)習(xí)

其中，融合（Fusion）是多模態(tài)學(xué)習(xí)的核心環(huán)節(jié) —— 所有跨模態(tài)任務(wù)最終都需要通過 “融合” 整合信息，所以接下來重點(diǎn)拆解融合方法。

2.多模態(tài)融合的基礎(chǔ)分類

按 “融合發(fā)生的階段”，多模態(tài)融合可分為三大類，不同階段對(duì)應(yīng)不同的適用場(chǎng)景和優(yōu)缺點(diǎn)，這是選擇融合策略的第一步：

早期融合（Early Fusion）

原理：在 “特征提取階段” 就將多模態(tài)特征整合（如拼接、加權(quán)求和），再輸入模型進(jìn)行后續(xù)任務(wù)（如分類）。相當(dāng)于 “先融合，再建�！�。
核心操作：比如將圖像的 CNN 特征（如 ResNet 輸出）和文本的 Embedding（如 BERT 輸出）直接concat，再輸入全連接層。
優(yōu)缺點(diǎn)：
- 優(yōu)點(diǎn)：能盡早利用模態(tài)間的底層關(guān)聯(lián)，信息損失少。
- 缺點(diǎn)：易受模態(tài)異質(zhì)性影響（如圖像特征維度高、文本特征維度低），且存在信息冗余，可能導(dǎo)致模型過擬合。
適用場(chǎng)景：模態(tài)特征維度相近、底層關(guān)聯(lián)強(qiáng)的任務(wù)（如音頻 - 視頻語音識(shí)別）。

晚期融合（Late Fusion）

原理：先對(duì)每個(gè)模態(tài)單獨(dú)建模（如圖像用 CNN、文本用 RNN），得到各模態(tài)的 “任務(wù)結(jié)果”（如分類概率），再對(duì)結(jié)果進(jìn)行融合（如投票、加權(quán)平均）。相當(dāng)于 “先建模，再融合”。
核心操作：比如圖像分類器輸出概率P_img、文本分類器輸出概率P_txt，最終結(jié)果取(P_img + P_txt)/2。
優(yōu)缺點(diǎn)：
- 優(yōu)點(diǎn)：各模態(tài)模型獨(dú)立訓(xùn)練，魯棒性強(qiáng)，能避免模態(tài)異質(zhì)性帶來的干擾。
- 缺點(diǎn)：無法利用模態(tài)間的底層關(guān)聯(lián)，信息整合不充分，可能錯(cuò)過關(guān)鍵交叉特征。
適用場(chǎng)景：模態(tài)差異大、單獨(dú)建模效果好的任務(wù)（如跨模態(tài)檢索、多模態(tài)情感分析）。

混合融合（Hybrid Fusion）

原理：結(jié)合早期融合和晚期融合的優(yōu)勢(shì)，在模型的多個(gè)階段進(jìn)行融合（如底層特征早期融合、中層特征注意力融合、頂層結(jié)果晚期融合）。
核心操作：比如在 Transformer 模型中，底層對(duì)圖像 - 文本特征做shuffle融合，中層用跨模態(tài)注意力對(duì)齊，頂層對(duì)各模態(tài)預(yù)測(cè)結(jié)果做加權(quán)融合。
優(yōu)缺點(diǎn)：
- 優(yōu)點(diǎn)：靈活性高，能充分利用不同階段的模態(tài)信息，效果通常最優(yōu)。
- 缺點(diǎn)：模型結(jié)構(gòu)復(fù)雜，需要更多調(diào)參和計(jì)算資源。
適用場(chǎng)景：復(fù)雜多模態(tài)任務(wù)（如視頻描述生成、多模態(tài)點(diǎn)擊率預(yù)估）

3.主流多模態(tài)融合方法詳解

接下來逐個(gè)拆解工業(yè)界和學(xué)術(shù)界常用的融合方法，每個(gè)方法都包含 “原理、核心公式、優(yōu)缺點(diǎn)、適用場(chǎng)景”，并附代碼示例或關(guān)鍵實(shí)現(xiàn)思路。

①張量融合網(wǎng)絡(luò)（TFN：Tensor Fusion Network）
原理

TFN 是早期融合的經(jīng)典方法，通過 “張量外積（Outer Product）” 計(jì)算多模態(tài)特征間的交叉關(guān)聯(lián)，捕捉模態(tài)間的細(xì)粒度交互。比如對(duì)文本（X）、圖像（Y）、語音（Z）三種模態(tài)，先給每個(gè)特征加一個(gè) “偏置項(xiàng) 1”，再做張量外積得到融合特征。

核心公式

假設(shè)三種模態(tài)的特征分別為

、、，融合過程為：其中表示張量外積，最終融合特征的維度為（需展平為向量后輸入后續(xù)層）。

優(yōu)缺點(diǎn)

優(yōu)點(diǎn)：能捕捉模態(tài)間的高階交互，對(duì)細(xì)粒度關(guān)聯(lián)建模能力強(qiáng)。
缺點(diǎn)：特征維度爆炸（如時(shí)，融合后維度超 100 萬），模型訓(xùn)練困難，易過擬合。

適用場(chǎng)景

模態(tài)數(shù)量少（2-3 種）、特征維度低的任務(wù)（如簡(jiǎn)單文本 - 圖像情感分析）。

核心代碼示例（PyTorch）

import torch import torch.nn as nn class TFN(nn.Module):     def __init__(self, d_x, d_y, d_z, out_dim):         super(TFN, self).__init__()         self.d_x, self.d_y, self.d_z = d_x, d_y, d_z         # 計(jì)算融合后特征維度（加1為偏置項(xiàng)）         fusion_dim = (d_x + 1) * (d_y + 1) * (d_z + 1)         self.fc = nn.Linear(fusion_dim, out_dim)  # 展平后映射到輸出維度     def forward(self, x, y, z):         # 給每個(gè)特征加偏置項(xiàng)1（batch_size維度保持不變）         x_with_bias = torch.cat([x, torch.ones_like(x[:, :1])], dim=1)  # (bs, d_x+1)         y_with_bias = torch.cat([y, torch.ones_like(y[:, :1])], dim=1)  # (bs, d_y+1)         z_with_bias = torch.cat([z, torch.ones_like(z[:, :1])], dim=1)  # (bs, d_z+1)                  # 張量外積：先計(jì)算x與y的外積，再與z做外積         xy = torch.einsum('bi,bj->bij', x_with_bias, y_with_bias)  # (bs, d_x+1, d_y+1)         xyz = torch.einsum('bij,bk->bijk', xy, z_with_bias)        # (bs, d_x+1, d_y+1, d_z+1)                  # 展平為向量         xyz_flat = xyz.view(xyz.shape[0], -1)  # (bs, (d_x+1)(d_y+1)(d_z+1))         return self.fc(xyz_flat)  # 輸出融合結(jié)果 # 測(cè)試 if __name__ == "__main__":     bs = 32  # batch_size     d_x, d_y, d_z = 50, 64, 32  # 文本、圖像、語音特征維度     x = torch.randn(bs, d_x)     y = torch.randn(bs, d_y)     z = torch.randn(bs, d_z)          model = TFN(d_x, d_y, d_z, out_dim=10)  # 輸出維度10（如10分類）     out = model(x, y, z)     print("TFN輸出形狀:", out.shape)  # 應(yīng)輸出 (32, 10)

②低秩多模態(tài)融合（LMF：Low-rank Multimodal Fusion）

原理

LMF 是 TFN 的優(yōu)化版，解決 TFN 維度爆炸問題。核心思路是 “低秩矩陣分解”：將原本高維的張量外積操作，拆解為 “各模態(tài)單獨(dú)線性變換 + 低秩交叉”，用低秩向量的和替代高維張量，減少參數(shù)數(shù)量。

核心公式

對(duì)三種模態(tài)特征（音頻）、（視覺）、（文本），LMF 融合過程為：

各模態(tài)單獨(dú)線性變換：、、（f 為全連接層）；
低秩交叉融合：；其中是經(jīng)低秩分解后的第 k 個(gè)分量，是元素積，K 是低秩維度（遠(yuǎn)小于原特征維度）。

優(yōu)缺點(diǎn)

優(yōu)點(diǎn)：解決了 TFN 的維度爆炸問題，參數(shù)更少，訓(xùn)練更穩(wěn)定，同時(shí)保留模態(tài)間的交叉關(guān)聯(lián)。
缺點(diǎn)：當(dāng)模態(tài)特征維度過大時(shí)（如視覺特征維度 1024），仍可能出現(xiàn)參數(shù)冗余；低秩維度 K 的選擇依賴經(jīng)驗(yàn)。

適用場(chǎng)景

中高維度多模態(tài)特征融合（如基于 ResNet 視覺特征 + BERT 文本特征的分類任務(wù)）。

核心代碼示例（PyTorch）

# 核心思路：拆解為“模態(tài)線性變換 + 低秩交叉” class LMF(nn.Module):     def __init__(self, d_a, d_v, d_l, K, out_dim):         super(LMF, self).__init__()         self.K = K  # 低秩維度         # 各模態(tài)線性變換（映射到K個(gè)低秩分量）         self.fc_a = nn.Linear(d_a, K)         self.fc_v = nn.Linear(d_v, K)         self.fc_l = nn.Linear(d_l, K)         # 最終輸出層         self.fc_out = nn.Linear(K, out_dim)     def forward(self, x_a, x_v, x_l):         # 各模態(tài)映射到低秩空間         z_a = self.fc_a(x_a).unsqueeze(-1)  # (bs, K, 1)         z_v = self.fc_v(x_v).unsqueeze(-1)  # (bs, K, 1)         z_l = self.fc_l(x_l).unsqueeze(-1)  # (bs, K, 1)         # 低秩交叉：元素積求和（K個(gè)分量分別交叉后相加）         fusion = (z_a * z_v * z_l).sum(dim=-1)  # (bs, K)         return self.fc_out(fusion)  # (bs, out_dim)

③ 記憶融合網(wǎng)絡(luò)（MFN：Memory Fusion Network）

原理

MFN 是基于注意力和記憶機(jī)制的融合方法，專門處理 “時(shí)序多模態(tài)數(shù)據(jù)”（如視頻 + 語音 + 文本的時(shí)序序列）。核心是用 “門控記憶單元” 保存歷史模態(tài)交互信息，用 “Delta 注意力” 捕捉當(dāng)前模態(tài)與歷史的差異，實(shí)現(xiàn)動(dòng)態(tài)融合。

核心結(jié)構(gòu)

多視圖門控記憶（Multi-View Gated Memory）：保存上一時(shí)刻的多模態(tài)融合狀態(tài)，通過門控（Gating）控制歷史信息的保留比例；
Delta 注意力（Delta-memory Attention）：計(jì)算當(dāng)前模態(tài)特征與歷史記憶的差異，給重要差異賦予高權(quán)重；
LSTM 時(shí)序編碼：對(duì)時(shí)序化的融合特征進(jìn)行編碼，捕捉時(shí)間維度上的模態(tài)交互。

優(yōu)缺點(diǎn)

優(yōu)點(diǎn)：能處理時(shí)序多模態(tài)數(shù)據(jù)，動(dòng)態(tài)捕捉模態(tài)間的時(shí)序關(guān)聯(lián)；注意力機(jī)制提升關(guān)鍵信息的權(quán)重。
缺點(diǎn)：模型結(jié)構(gòu)復(fù)雜，訓(xùn)練成本高；對(duì)短時(shí)序數(shù)據(jù)可能存在過擬合。

適用場(chǎng)景

時(shí)序多模態(tài)任務(wù)（如視頻情感分析、多模態(tài)對(duì)話系統(tǒng)）

④模態(tài)注意力融合（Modal Attention）
原理

模態(tài)注意力是最常用的自適應(yīng)融合方法：通過注意力機(jī)制學(xué)習(xí) “不同模態(tài)的重要性權(quán)重”，再按權(quán)重對(duì)多模態(tài)特征進(jìn)行加權(quán)融合。比如在淘寶視頻推薦中，模型會(huì)自動(dòng)判斷 “圖像、文本、音頻” 哪個(gè)對(duì) “商品分類” 更重要，給重要模態(tài)更高權(quán)重。

核心公式

假設(shè)多模態(tài)特征為（M 為模態(tài)數(shù)），融合過程為：

計(jì)算注意力權(quán)重：（為注意力參數(shù)）；
加權(quán)融合：。

優(yōu)缺點(diǎn)

優(yōu)點(diǎn)：自適應(yīng)調(diào)整模態(tài)權(quán)重，對(duì)不同任務(wù)的適配性強(qiáng)；實(shí)現(xiàn)簡(jiǎn)單，易嵌入現(xiàn)有模型。
缺點(diǎn)：當(dāng)模態(tài)特征差異過大時(shí)，注意力權(quán)重可能偏向某一模態(tài)（如文本模態(tài)占主導(dǎo)），忽略其他模態(tài)的互補(bǔ)信息。

適用場(chǎng)景

多模態(tài)分類、推薦系統(tǒng)、點(diǎn)擊率預(yù)估（如淘寶商品分類、廣告 CTR 預(yù)測(cè)）。

核心代碼示例（PyTorch）

# 淘寶視頻多模態(tài)分類：圖像(ResNet) + 文本(BERT) + 音頻(VGGish) + 模態(tài)注意力 class ModalAttentionFusion(nn.Module):     def __init__(self, d_img, d_txt, d_audio, num_classes):         super(ModalAttentionFusion, self).__init__()         # 各模態(tài)特征降維（統(tǒng)一到同一維度）         self.fc_img = nn.Linear(d_img, 256)         self.fc_txt = nn.Linear(d_txt, 256)         self.fc_audio = nn.Linear(d_audio, 256)         # 模態(tài)注意力層         self.attention = nn.Sequential(             nn.Linear(256, 128),             nn.ReLU(),             nn.Linear(128, 1)         )         # 最終分類層（淘寶用HMC分層分類，這里簡(jiǎn)化為單分類）         self.fc_out = nn.Linear(256, num_classes)     def forward(self, img_feat, txt_feat, audio_feat):         # 各模態(tài)特征降維         img = self.fc_img(img_feat)  # (bs, 256)         txt = self.fc_txt(txt_feat)  # (bs, 256)         audio = self.fc_audio(audio_feat)  # (bs, 256)                  # 計(jì)算各模態(tài)注意力權(quán)重         alpha_img = self.attention(img)  # (bs, 1)         alpha_txt = self.attention(txt)  # (bs, 1)         alpha_audio = self.attention(audio)  # (bs, 1)         # softmax歸一化權(quán)重         alphas = torch.softmax(torch.cat([alpha_img, alpha_txt, alpha_audio], dim=1), dim=1)  # (bs, 3)                  # 加權(quán)融合         fusion_feat = img * alphas[:, 0:1] + txt * alphas[:, 1:2] + audio * alphas[:, 2:3]  # (bs, 256)         # 分類輸出         return self.fc_out(fusion_feat)  # (bs, num_classes)

⑤對(duì)抗多模態(tài)融合（Adversarial Multimodal Fusion）

原理

對(duì)抗融合是阿里在 WWW 2020 提出的方法，核心是用 “雙判別器” 分離多模態(tài)的 “共性特征”（各模態(tài)共有的信息，如商品的 “類別屬性”）和 “個(gè)性特征”（某模態(tài)獨(dú)有的信息，如圖像的 “顏色細(xì)節(jié)”），再融合兩類特征用于下游任務(wù)（如點(diǎn)擊率預(yù)估）。

核心結(jié)構(gòu)

多模態(tài)注意力融合（MAF）：基礎(chǔ)融合模塊，得到初步融合特征；
雙判別器（DDMA）：

模態(tài)判別器（D1）：區(qū)分特征來自哪個(gè)模態(tài)，迫使模型學(xué)習(xí) “模態(tài)不變的共性特征”；
重要性判別器（D2）：判斷特征的重要性，優(yōu)化模態(tài)權(quán)重分配；

對(duì)抗訓(xùn)練：通過生成器（融合模塊）與判別器的對(duì)抗，提升融合特征的魯棒性。

優(yōu)缺點(diǎn)

優(yōu)點(diǎn)：能有效分離共性與個(gè)性特征，避免模態(tài)冗余；對(duì)抗訓(xùn)練提升模型泛化能力。
缺點(diǎn)：對(duì)抗訓(xùn)練不穩(wěn)定，需精細(xì)調(diào)參；模型復(fù)雜度高，適合大數(shù)據(jù)場(chǎng)景。

適用場(chǎng)景

多模態(tài)點(diǎn)擊率預(yù)估、推薦系統(tǒng)（如阿里電商廣告 CTR 預(yù)測(cè)）。

⑥多項(xiàng)式張量池化（PTP：Polynomial Tensor Pooling）
原理

PTP 是針對(duì)傳統(tǒng)雙線性 / 三線性池化 “融合能力有限、無法捕捉復(fù)雜局部交互” 問題提出的高階融合方法，核心是通過 “多項(xiàng)式張量運(yùn)算” 集成多模態(tài)特征的高階矩（如二階、三階統(tǒng)計(jì)信息），同時(shí)引入低秩分解減少參數(shù)規(guī)模。相比 TFN 僅關(guān)注模態(tài)間的直接交叉，PTP 能捕捉更復(fù)雜的局部相互關(guān)系，比如文本中的 “情感詞” 與圖像中的 “表情區(qū)域”+“色彩飽和度” 的三階交互。

核心公式

假設(shè)兩種模態(tài)特征為、，PTP（以 5 階為例）融合過程為：

特征拼接：將兩種模態(tài)特征拼接為統(tǒng)一向量；
多項(xiàng)式張量生成：計(jì)算 X 的 5 階張量表示（此處為簡(jiǎn)化表達(dá)，實(shí)際通過高階矩展開實(shí)現(xiàn)）；
低秩分解：通過低秩張量網(wǎng)絡(luò)對(duì) 進(jìn)行分解，得到低維融合特征（K 為低秩維度，遠(yuǎn)小于原始張量維度）。

優(yōu)缺點(diǎn)

優(yōu)點(diǎn)：能捕捉多模態(tài)特征的高階交互，融合表現(xiàn)力更強(qiáng)；低秩分解有效控制參數(shù)規(guī)模，避免維度爆炸；
缺點(diǎn)：高階張量運(yùn)算的理論理解和工程實(shí)現(xiàn)難度較高；對(duì)數(shù)據(jù)量要求大，小樣本場(chǎng)景下易過擬合。

適用場(chǎng)景

需要精細(xì)捕捉多模態(tài)復(fù)雜交互的任務(wù)，如細(xì)粒度圖像 - 文本匹配（如 “紅色帶花紋的連衣裙” 與對(duì)應(yīng)商品圖匹配）、多模態(tài)細(xì)分類別識(shí)別（如區(qū)分 “憤怒的貓” 和 “開心的貓”）。

核心代碼示例（PyTorch）

import torch import torch.nn as nn import torch.nn.functional as F class PTPBlock(nn.Module):     def __init__(self, in_dim, poly_order=3, low_rank_dim=128):         super(PTPBlock, self).__init__()         self.poly_order = poly_order  # 多項(xiàng)式階數(shù)（如3階）         self.in_dim = in_dim         # 多項(xiàng)式特征生成：通過線性層模擬高階矩展開         self.poly_proj = nn.Linear(in_dim, in_dim * poly_order)         # 低秩分解層：將高階特征映射到低維空間         self.low_rank_proj = nn.Linear(in_dim * poly_order, low_rank_dim)         self.norm = nn.BatchNorm1d(low_rank_dim)  #  BatchNorm穩(wěn)定訓(xùn)練     def forward(self, z1, z2):         # 1. 拼接多模態(tài)特征         concat_feat = torch.cat([z1, z2], dim=1)  # (bs, in_dim1 + in_dim2)         # 2. 生成多項(xiàng)式特征（模擬高階矩）         poly_feat = self.poly_proj(concat_feat)  # (bs, (d1+d2)*poly_order)         poly_feat = F.relu(poly_feat)  # 非線性激活增強(qiáng)表達(dá)         # 3. 低秩分解得到融合特征         fusion_feat = self.low_rank_proj(poly_feat)  # (bs, low_rank_dim)         fusion_feat = self.norm(fusion_feat)  # 歸一化         return fusion_feat # 測(cè)試 if __name__ == "__main__":     bs = 32  # batch_size     d1, d2 = 64, 128  # 兩種模態(tài)特征維度（如圖像、文本）     z1 = torch.randn(bs, d1)     z2 = torch.randn(bs, d2)          ptp = PTPBlock(in_dim=d1+d2, poly_order=3, low_rank_dim=128)     fusion_feat = ptp(z1, z2)     print("PTP融合特征形狀:", fusion_feat.shape)  # 輸出 (32, 128)

⑦多模態(tài)循環(huán)融合（MCF：Multi-modal Circulant Fusion）

原理

MCF 突破傳統(tǒng) “僅基于向量融合” 的思路，同時(shí)利用 “向量” 和 “循環(huán)矩陣（Circulant Matrix）” 進(jìn)行融合，核心是通過 “循環(huán)矩陣變換” 探索多模態(tài)向量的所有可能交互。具體來說，將每種模態(tài)的向量轉(zhuǎn)換為循環(huán)矩陣（每行是原向量的循環(huán)移位），再通過矩陣與向量的交互運(yùn)算，捕捉模態(tài)間的全局關(guān)聯(lián)，尤其適合視頻 - 文本這類需全局時(shí)序匹配的任務(wù)。

核心公式

假設(shè)視覺特征向量、文本特征向量，MCF 融合過程為：

循環(huán)矩陣生成：將向量轉(zhuǎn)換為循環(huán)矩陣、，其中 A 的第 i 行是；
模態(tài)交互運(yùn)算：計(jì)算矩陣與另一模態(tài)向量的加權(quán)交互（視覺矩陣與文本向量交互），（文本矩陣與視覺向量交互）；
特征融合：將 G、F 與原向量 V、C 拼接，得到最終融合特征。

優(yōu)缺點(diǎn)

優(yōu)點(diǎn)：通過循環(huán)矩陣捕捉模態(tài)間的全局交互，避免局部信息遺漏；無需復(fù)雜注意力機(jī)制，計(jì)算效率較高；
缺點(diǎn)：循環(huán)矩陣變換依賴向量維度一致性（需先對(duì)齊模態(tài)特征維度）；對(duì)短向量特征的交互捕捉效果有限。

適用場(chǎng)景

視頻 - 文本融合任務(wù)（如視頻描述生成、視頻文本檢索）、長序列多模態(tài)匹配（如多段文本與多幀圖像的關(guān)聯(lián)）。

⑧共享 - 私有特征融合（Shared-Private Fusion）
原理

該方法針對(duì) “多模態(tài)特征中既有共性信息（各模態(tài)共通，如‘貓’的語義），又有私有信息（某模態(tài)獨(dú)有，如圖像中‘貓的毛色’、文本中‘貓的品種’）” 的特點(diǎn)，通過分離并融合 “共享特征” 和 “私有特征”，避免共性信息冗余、私有信息丟失。典型代表包括 ACL 2020 的 FP-Net 和 ACL 2021 的 Text-Centered 框架，核心是通過 “正交投影” 或 “掩碼矩陣” 實(shí)現(xiàn)兩類特征的分離。

核心公式（以 FP-Net 為例）

假設(shè)文本初始特征，目標(biāo)分離共享特征和私有特征：

共享特征提�。和ㄟ^正交投影將投影到共享特征空間，得到凈化的共享特征；
私有特征提�。簩� 投影到與共享特征正交的空間，得到私有特征；
融合：將共享特征與各模態(tài)私有特征（文本）、（圖像）拼接，得到。

優(yōu)缺點(diǎn)

優(yōu)點(diǎn)：精準(zhǔn)分離共性與私有信息，充分利用模態(tài)互補(bǔ)性；對(duì)模態(tài)異質(zhì)性的容忍度高，適合多模態(tài)協(xié)同任務(wù)；
缺點(diǎn)：特征分離依賴高質(zhì)量的共享特征初始化（如預(yù)訓(xùn)練模型提取的通用特征）；正交投影計(jì)算需保證數(shù)值穩(wěn)定性。

適用場(chǎng)景

多模態(tài)情感分析（文本表達(dá)情感傾向，圖像 / 語音補(bǔ)充情感強(qiáng)度）、跨模態(tài)遷移學(xué)習(xí)（用圖像的共享語義輔助文本分類）、行人重識(shí)別（RGB 與紅外圖像的共性輪廓 + 私有紋理融合）。

核心代碼示例（PyTorch）

class FPNetSharedPrivate(nn.Module):     def __init__(self, text_dim, img_dim, shared_dim=256):         super(FPNetSharedPrivate, self).__init__()         # 共享特征提取器（文本和圖像共享）         self.shared_proj = nn.Linear(max(text_dim, img_dim), shared_dim)         # 文本私有特征投影層         self.text_private_proj = nn.Linear(text_dim, text_dim)         # 圖像私有特征投影層         self.img_private_proj = nn.Linear(img_dim, img_dim)         # 最終融合輸出層         self.fusion_out = nn.Linear(shared_dim + text_dim + img_dim, 10)  # 10分類示例     def orthogonal_proj(self, x, target):         # 正交投影：將x投影到target所在空間         target_norm = torch.norm(target, dim=1, keepdim=True) + 1e-8  # 避免除零         proj_coeff = (x @ target.T) / (target_norm ** 2)  # (bs, bs)         proj = proj_coeff @ target  # (bs, shared_dim)         return proj     def forward(self, text_feat, img_feat):         # 1. 提取共享特征（統(tǒng)一模態(tài)維度后投影）         max_dim = max(text_feat.shape[1], img_feat.shape[1])         text_pad = F.pad(text_feat, (0, max_dim - text_feat.shape[1]))  # 對(duì)齊維度         img_pad = F.pad(img_feat, (0, max_dim - img_feat.shape[1]))         shared_feat = self.shared_proj(torch.cat([text_pad, img_pad], dim=0)).mean(dim=0, keepdim=True)         shared_feat = shared_feat.expand(text_feat.shape[0], -1)  # (bs, shared_dim)                  # 2. 提取文本私有特征         text_shared_proj = self.orthogonal_proj(text_feat, shared_feat)  # 文本的共享部分         text_private = self.text_private_proj(text_feat - text_shared_proj)  # 私有部分                  # 3. 提取圖像私有特征         img_shared_proj = self.orthogonal_proj(img_feat, shared_feat)  # 圖像的共享部分         img_private = self.img_private_proj(img_feat - img_shared_proj)  # 私有部分                  # 4. 融合共享與私有特征         fusion_feat = torch.cat([shared_feat, text_private, img_private], dim=1)  # (bs, shared_dim + text_dim + img_dim)         return self.fusion_out(fusion_feat)  # (bs, 10) # 測(cè)試 if __name__ == "__main__":     bs = 32     text_dim, img_dim = 128, 256     text_feat = torch.randn(bs, text_dim)     img_feat = torch.randn(bs, img_dim)          fp_net = FPNetSharedPrivate(text_dim, img_dim, shared_dim=256)     out = fp_net(text_feat, img_feat)     print("FP-Net輸出形狀:", out.shape)  # 輸出 (32, 10)

⑨注意力瓶頸融合（Attention Bottleneck Fusion）

原理

針對(duì)傳統(tǒng) Transformer 跨模態(tài)融合 “計(jì)算量過大” 的問題，注意力瓶頸融合通過引入 “共享令牌（Shared Token）” 作為模態(tài)交互的 “瓶頸”，限制注意力流僅在共享令牌處進(jìn)行跨模態(tài)交互，而非所有 token 間的全量交互。這種設(shè)計(jì)在保證融合效果的同時(shí)，大幅降低計(jì)算復(fù)雜度，尤其適合高分辨率圖像、長文本這類大尺度多模態(tài)數(shù)據(jù)。

核心結(jié)構(gòu)

模態(tài)獨(dú)立編碼：文本用 Transformer Encoder 編碼為文本令牌（Text Token），圖像用 ViT 編碼為視覺令牌（Vision Token）；
共享令牌插入：在兩類令牌中插入 1-2 個(gè)共享令牌（如[SHARED]）；
瓶頸注意力交互：僅允許共享令牌與所有文本 / 視覺令牌進(jìn)行注意力計(jì)算，文本與視覺令牌之間不直接交互；
融合特征生成：提取共享令牌的特征，與各模態(tài)的全局池化特征拼接，得到最終融合結(jié)果。

優(yōu)缺點(diǎn)

優(yōu)點(diǎn)：計(jì)算復(fù)雜度低（O ((N+M+K)^2 ) 降至 O ( (N+M) K + K^2 )，N/M 為模態(tài)令牌數(shù)，K 為共享令牌數(shù)）；共享令牌能有效聚合跨模態(tài)信息，融合效果接近全注意力；
缺點(diǎn)：共享令牌數(shù)量需手動(dòng)調(diào)整（過多易冗余，過少易丟失信息）；對(duì)模態(tài)令牌的初始化質(zhì)量敏感。

適用場(chǎng)景

大尺度多模態(tài)任務(wù)（如高分辨率圖像 - 長文本匹配、多模態(tài)文檔理解）、資源受限場(chǎng)景（如移動(dòng)端多模態(tài)分類）。

4.多模態(tài)融合的學(xué)習(xí)資源推薦

最后，給大家推薦一些學(xué)習(xí)資源，幫助進(jìn)一步深入：

必讀論文：

綜述：《Multimodal Machine Learning: A Survey and Taxonomy》（多模態(tài)學(xué)習(xí)入門必讀）；
方法論文：TFN（ICMI 2017）、LMF（ACL 2018）、MFN（AAAI 2018）、Adversarial Multimodal Fusion（WWW 2020）；

代碼倉庫：

多模態(tài)工具庫：PyTorch-Multimodal（Facebook 開源，含多種融合方法）；
實(shí)戰(zhàn)項(xiàng)目：FP-Net（ACL 2020，特征投影融合）、MFAS（CVPR 2019，神經(jīng)架構(gòu)搜索融合）；

論文合集：我自己整理的最新多模態(tài)論文代碼合集

掃碼添加小助理，回復(fù)“多模態(tài)”

免費(fèi)獲取全部論文+開源代碼

最后的最后

大家有問題可以直接在評(píng)論區(qū)留言即可～喜歡本文的朋友可以收藏、點(diǎn)贊、轉(zhuǎn)發(fā)起來！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.