国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

多模態(tài)原來這么有趣?看完我簡(jiǎn)直醍醐灌頂!

0
分享至

哈嘍,我是章北海

最近很多朋友在社群和私信里提到,對(duì)多模態(tài)融合的概念、方法和實(shí)際應(yīng)用總是摸不透,尤其是在不同融合策略的選擇和代碼實(shí)現(xiàn)上有不少疑問。所以今天咱們就把多模態(tài)融合的核心知識(shí)、主流方法和典型案例梳理清楚,幫大家徹底搞懂這個(gè)熱門方向!

大家都知道,多模態(tài)數(shù)據(jù)(如圖像、文本、語音)在現(xiàn)實(shí)場(chǎng)景中無處不在,但單一模態(tài)數(shù)據(jù)往往存在信息局限 —— 比如圖片缺語義、文本缺視覺細(xì)節(jié)、語音缺場(chǎng)景上下文。而多模態(tài)融合能整合不同模態(tài)的冗余信息(增強(qiáng)可靠性)和互補(bǔ)信息(填補(bǔ)信息缺口),讓模型更全面地理解數(shù)據(jù),這也是當(dāng)前 AI 從 “單模態(tài)感知” 走向 “多模態(tài)認(rèn)知” 的關(guān)鍵一步。

今天和大家分享的多模態(tài)融合核心內(nèi)容包括:

  • 多模態(tài)學(xué)習(xí)的核心任務(wù)

  • 多模態(tài)融合的基礎(chǔ)分類

  • 主流多模態(tài)融合方法(含原理、公式、優(yōu)缺點(diǎn))

  • 典型應(yīng)用案例與代碼示例

老規(guī)矩:如果大家伙覺得近期文章還不錯(cuò)!歡迎大家點(diǎn)個(gè)贊、轉(zhuǎn)個(gè)發(fā),在介紹之前想將自己整理的最新多模態(tài)論文代碼合集分享給大家,都是多模態(tài)與各領(lǐng)域前沿的結(jié)合論文,像是多模態(tài)醫(yī)學(xué)圖像、多模態(tài)特征融合、多模態(tài)大模型、多模態(tài)情感識(shí)別等等,希望能更好的幫大家掌握多模態(tài),挖掘出自己的創(chuàng)新點(diǎn)!



掃碼添加小助理,回復(fù)“多模態(tài)

免費(fèi)獲取全部論文+開源代碼

1.多模態(tài)學(xué)習(xí)的核心任務(wù)

在講融合之前,得先明確多模態(tài)學(xué)習(xí)要解決的核心問題。本質(zhì)上,多模態(tài)學(xué)習(xí)是讓模型處理 “跨模態(tài)信息交互”,主要包含 5 大任務(wù),這些任務(wù)也是融合方法的應(yīng)用場(chǎng)景基礎(chǔ):

  1. 表征(Representation):將多模態(tài)數(shù)據(jù)映射到統(tǒng)一 / 關(guān)聯(lián)的特征空間,便于后續(xù)處理。典型的場(chǎng)景有:文本 - 圖像語義對(duì)齊、跨模態(tài)檢索。

  2. 翻譯(Translation):將一種模態(tài)的信息轉(zhuǎn)換為另一種模態(tài)(如文本轉(zhuǎn)圖像、語音轉(zhuǎn)文字)。典型的場(chǎng)景有:圖像描述生成、語音識(shí)別。

  3. 對(duì)齊(Alignment):找到不同模態(tài) “子成分” 的對(duì)應(yīng)關(guān)系(如文本中的 “貓” 對(duì)應(yīng)圖像中的貓區(qū)域)。典型的場(chǎng)景有:視頻字幕對(duì)齊、跨模態(tài)注意力。

  4. 融合(Fusion):整合多模態(tài)特征,生成更全面的聯(lián)合表示,用于下游任務(wù)(分類、預(yù)測(cè)等)。典型的場(chǎng)景有:情感分析、點(diǎn)擊率預(yù)估。

  5. 聯(lián)合學(xué)習(xí)(Co-learning):用數(shù)據(jù)豐富的模態(tài)(如圖像)輔助數(shù)據(jù)稀缺的模態(tài)(如文本),提升整體性能。典型的場(chǎng)景有:零樣本分類、跨模態(tài)遷移學(xué)習(xí)

其中,融合(Fusion) 是多模態(tài)學(xué)習(xí)的核心環(huán)節(jié) —— 所有跨模態(tài)任務(wù)最終都需要通過 “融合” 整合信息,所以接下來重點(diǎn)拆解融合方法。

2.多模態(tài)融合的基礎(chǔ)分類

按 “融合發(fā)生的階段”,多模態(tài)融合可分為三大類,不同階段對(duì)應(yīng)不同的適用場(chǎng)景和優(yōu)缺點(diǎn),這是選擇融合策略的第一步:

早期融合(Early Fusion)

  • 原理:在 “特征提取階段” 就將多模態(tài)特征整合(如拼接、加權(quán)求和),再輸入模型進(jìn)行后續(xù)任務(wù)(如分類)。相當(dāng)于 “先融合,再建!。

  • 核心操作:比如將圖像的 CNN 特征(如 ResNet 輸出)和文本的 Embedding(如 BERT 輸出)直接concat,再輸入全連接層。

  • 優(yōu)缺點(diǎn):

    • 優(yōu)點(diǎn):能盡早利用模態(tài)間的底層關(guān)聯(lián),信息損失少。

    • 缺點(diǎn):易受模態(tài)異質(zhì)性影響(如圖像特征維度高、文本特征維度低),且存在信息冗余,可能導(dǎo)致模型過擬合。

  • 適用場(chǎng)景:模態(tài)特征維度相近、底層關(guān)聯(lián)強(qiáng)的任務(wù)(如音頻 - 視頻語音識(shí)別)。

晚期融合(Late Fusion)
  • 原理:先對(duì)每個(gè)模態(tài)單獨(dú)建模(如圖像用 CNN、文本用 RNN),得到各模態(tài)的 “任務(wù)結(jié)果”(如分類概率),再對(duì)結(jié)果進(jìn)行融合(如投票、加權(quán)平均)。相當(dāng)于 “先建模,再融合”。

  • 核心操作:比如圖像分類器輸出概率P_img、文本分類器輸出概率P_txt,最終結(jié)果取(P_img + P_txt)/2。

  • 優(yōu)缺點(diǎn):

    • 優(yōu)點(diǎn):各模態(tài)模型獨(dú)立訓(xùn)練,魯棒性強(qiáng),能避免模態(tài)異質(zhì)性帶來的干擾。

    • 缺點(diǎn):無法利用模態(tài)間的底層關(guān)聯(lián),信息整合不充分,可能錯(cuò)過關(guān)鍵交叉特征。

  • 適用場(chǎng)景:模態(tài)差異大、單獨(dú)建模效果好的任務(wù)(如跨模態(tài)檢索、多模態(tài)情感分析)。

混合融合(Hybrid Fusion)
  • 原理:結(jié)合早期融合和晚期融合的優(yōu)勢(shì),在模型的多個(gè)階段進(jìn)行融合(如底層特征早期融合、中層特征注意力融合、頂層結(jié)果晚期融合)。

  • 核心操作:比如在 Transformer 模型中,底層對(duì)圖像 - 文本特征做shuffle融合,中層用跨模態(tài)注意力對(duì)齊,頂層對(duì)各模態(tài)預(yù)測(cè)結(jié)果做加權(quán)融合。

  • 優(yōu)缺點(diǎn):

    • 優(yōu)點(diǎn):靈活性高,能充分利用不同階段的模態(tài)信息,效果通常最優(yōu)。

    • 缺點(diǎn):模型結(jié)構(gòu)復(fù)雜,需要更多調(diào)參和計(jì)算資源。

  • 適用場(chǎng)景:復(fù)雜多模態(tài)任務(wù)(如視頻描述生成、多模態(tài)點(diǎn)擊率預(yù)估)

3.主流多模態(tài)融合方法詳解

接下來逐個(gè)拆解工業(yè)界和學(xué)術(shù)界常用的融合方法,每個(gè)方法都包含 “原理、核心公式、優(yōu)缺點(diǎn)、適用場(chǎng)景”,并附代碼示例或關(guān)鍵實(shí)現(xiàn)思路。

①張量融合網(wǎng)絡(luò)(TFN:Tensor Fusion Network)
原理

TFN 是早期融合的經(jīng)典方法,通過 “張量外積(Outer Product)” 計(jì)算多模態(tài)特征間的交叉關(guān)聯(lián),捕捉模態(tài)間的細(xì)粒度交互。比如對(duì)文本(X)、圖像(Y)、語音(Z)三種模態(tài),先給每個(gè)特征加一個(gè) “偏置項(xiàng) 1”,再做張量外積得到融合特征。

核心公式

假設(shè)三種模態(tài)的特征分別為

、 、 ,融合過程為: 其中 表示張量外積,最終融合特征 的維度為 (需展平為向量后輸入后續(xù)層)。

優(yōu)缺點(diǎn)

  • 優(yōu)點(diǎn):能捕捉模態(tài)間的高階交互,對(duì)細(xì)粒度關(guān)聯(lián)建模能力強(qiáng)。

  • 缺點(diǎn):特征維度爆炸(如 時(shí),融合后維度超 100 萬),模型訓(xùn)練困難,易過擬合。

適用場(chǎng)景

模態(tài)數(shù)量少(2-3 種)、特征維度低的任務(wù)(如簡(jiǎn)單文本 - 圖像情感分析)。

核心代碼示例(PyTorch)

import torch import torch.nn as nn class TFN(nn.Module):     def __init__(self, d_x, d_y, d_z, out_dim):         super(TFN, self).__init__()         self.d_x, self.d_y, self.d_z = d_x, d_y, d_z         # 計(jì)算融合后特征維度(加1為偏置項(xiàng))         fusion_dim = (d_x + 1) * (d_y + 1) * (d_z + 1)         self.fc = nn.Linear(fusion_dim, out_dim)  # 展平后映射到輸出維度     def forward(self, x, y, z):         # 給每個(gè)特征加偏置項(xiàng)1(batch_size維度保持不變)         x_with_bias = torch.cat([x, torch.ones_like(x[:, :1])], dim=1)  # (bs, d_x+1)         y_with_bias = torch.cat([y, torch.ones_like(y[:, :1])], dim=1)  # (bs, d_y+1)         z_with_bias = torch.cat([z, torch.ones_like(z[:, :1])], dim=1)  # (bs, d_z+1)                  # 張量外積:先計(jì)算x與y的外積,再與z做外積         xy = torch.einsum('bi,bj->bij', x_with_bias, y_with_bias)  # (bs, d_x+1, d_y+1)         xyz = torch.einsum('bij,bk->bijk', xy, z_with_bias)        # (bs, d_x+1, d_y+1, d_z+1)                  # 展平為向量         xyz_flat = xyz.view(xyz.shape[0], -1)  # (bs, (d_x+1)(d_y+1)(d_z+1))         return self.fc(xyz_flat)  # 輸出融合結(jié)果 # 測(cè)試 if __name__ == "__main__":     bs = 32  # batch_size     d_x, d_y, d_z = 50, 64, 32  # 文本、圖像、語音特征維度     x = torch.randn(bs, d_x)     y = torch.randn(bs, d_y)     z = torch.randn(bs, d_z)          model = TFN(d_x, d_y, d_z, out_dim=10)  # 輸出維度10(如10分類)     out = model(x, y, z)     print("TFN輸出形狀:", out.shape)  # 應(yīng)輸出 (32, 10)
②低秩多模態(tài)融合(LMF:Low-rank Multimodal Fusion)原理

LMF 是 TFN 的優(yōu)化版,解決 TFN 維度爆炸問題。核心思路是 “低秩矩陣分解”:將原本高維的張量外積操作,拆解為 “各模態(tài)單獨(dú)線性變換 + 低秩交叉”,用低秩向量的和替代高維張量,減少參數(shù)數(shù)量。

核心公式

對(duì)三種模態(tài)特征 (音頻)、 (視覺)、 (文本),LMF 融合過程為:

  1. 各模態(tài)單獨(dú)線性變換: 、 、 (f 為全連接層);

  2. 低秩交叉融合: ;其中 是 經(jīng)低秩分解后的第 k 個(gè)分量, 是元素積,K 是低秩維度(遠(yuǎn)小于原特征維度)。

優(yōu)缺點(diǎn)
  • 優(yōu)點(diǎn):解決了 TFN 的維度爆炸問題,參數(shù)更少,訓(xùn)練更穩(wěn)定,同時(shí)保留模態(tài)間的交叉關(guān)聯(lián)。

  • 缺點(diǎn):當(dāng)模態(tài)特征維度過大時(shí)(如視覺特征維度 1024),仍可能出現(xiàn)參數(shù)冗余;低秩維度 K 的選擇依賴經(jīng)驗(yàn)。

適用場(chǎng)景

中高維度多模態(tài)特征融合(如基于 ResNet 視覺特征 + BERT 文本特征的分類任務(wù))。

核心代碼示例(PyTorch)

# 核心思路:拆解為“模態(tài)線性變換 + 低秩交叉” class LMF(nn.Module):     def __init__(self, d_a, d_v, d_l, K, out_dim):         super(LMF, self).__init__()         self.K = K  # 低秩維度         # 各模態(tài)線性變換(映射到K個(gè)低秩分量)         self.fc_a = nn.Linear(d_a, K)         self.fc_v = nn.Linear(d_v, K)         self.fc_l = nn.Linear(d_l, K)         # 最終輸出層         self.fc_out = nn.Linear(K, out_dim)     def forward(self, x_a, x_v, x_l):         # 各模態(tài)映射到低秩空間         z_a = self.fc_a(x_a).unsqueeze(-1)  # (bs, K, 1)         z_v = self.fc_v(x_v).unsqueeze(-1)  # (bs, K, 1)         z_l = self.fc_l(x_l).unsqueeze(-1)  # (bs, K, 1)         # 低秩交叉:元素積求和(K個(gè)分量分別交叉后相加)         fusion = (z_a * z_v * z_l).sum(dim=-1)  # (bs, K)         return self.fc_out(fusion)  # (bs, out_dim)
③ 記憶融合網(wǎng)絡(luò)(MFN:Memory Fusion Network)原理

MFN 是基于注意力和記憶機(jī)制的融合方法,專門處理 “時(shí)序多模態(tài)數(shù)據(jù)”(如視頻 + 語音 + 文本的時(shí)序序列)。核心是用 “門控記憶單元” 保存歷史模態(tài)交互信息,用 “Delta 注意力” 捕捉當(dāng)前模態(tài)與歷史的差異,實(shí)現(xiàn)動(dòng)態(tài)融合。

核心結(jié)構(gòu)

  1. 多視圖門控記憶(Multi-View Gated Memory):保存上一時(shí)刻的多模態(tài)融合狀態(tài),通過門控(Gating)控制歷史信息的保留比例;

  2. Delta 注意力(Delta-memory Attention):計(jì)算當(dāng)前模態(tài)特征與歷史記憶的差異,給重要差異賦予高權(quán)重;

  3. LSTM 時(shí)序編碼:對(duì)時(shí)序化的融合特征進(jìn)行編碼,捕捉時(shí)間維度上的模態(tài)交互。

優(yōu)缺點(diǎn)
  • 優(yōu)點(diǎn):能處理時(shí)序多模態(tài)數(shù)據(jù),動(dòng)態(tài)捕捉模態(tài)間的時(shí)序關(guān)聯(lián);注意力機(jī)制提升關(guān)鍵信息的權(quán)重。

  • 缺點(diǎn):模型結(jié)構(gòu)復(fù)雜,訓(xùn)練成本高;對(duì)短時(shí)序數(shù)據(jù)可能存在過擬合。

適用場(chǎng)景

時(shí)序多模態(tài)任務(wù)(如視頻情感分析、多模態(tài)對(duì)話系統(tǒng))

④模態(tài)注意力融合(Modal Attention)
原理

模態(tài)注意力是最常用的自適應(yīng)融合方法:通過注意力機(jī)制學(xué)習(xí) “不同模態(tài)的重要性權(quán)重”,再按權(quán)重對(duì)多模態(tài)特征進(jìn)行加權(quán)融合。比如在淘寶視頻推薦中,模型會(huì)自動(dòng)判斷 “圖像、文本、音頻” 哪個(gè)對(duì) “商品分類” 更重要,給重要模態(tài)更高權(quán)重。

核心公式

假設(shè)多模態(tài)特征為 (M 為模態(tài)數(shù)),融合過程為:

  1. 計(jì)算注意力權(quán)重: ( 為注意力參數(shù));

  2. 加權(quán)融合: 。

優(yōu)缺點(diǎn)
  • 優(yōu)點(diǎn):自適應(yīng)調(diào)整模態(tài)權(quán)重,對(duì)不同任務(wù)的適配性強(qiáng);實(shí)現(xiàn)簡(jiǎn)單,易嵌入現(xiàn)有模型。

  • 缺點(diǎn):當(dāng)模態(tài)特征差異過大時(shí),注意力權(quán)重可能偏向某一模態(tài)(如文本模態(tài)占主導(dǎo)),忽略其他模態(tài)的互補(bǔ)信息。

適用場(chǎng)景

多模態(tài)分類、推薦系統(tǒng)、點(diǎn)擊率預(yù)估(如淘寶商品分類、廣告 CTR 預(yù)測(cè))。

核心代碼示例(PyTorch)

# 淘寶視頻多模態(tài)分類:圖像(ResNet) + 文本(BERT) + 音頻(VGGish) + 模態(tài)注意力 class ModalAttentionFusion(nn.Module):     def __init__(self, d_img, d_txt, d_audio, num_classes):         super(ModalAttentionFusion, self).__init__()         # 各模態(tài)特征降維(統(tǒng)一到同一維度)         self.fc_img = nn.Linear(d_img, 256)         self.fc_txt = nn.Linear(d_txt, 256)         self.fc_audio = nn.Linear(d_audio, 256)         # 模態(tài)注意力層         self.attention = nn.Sequential(             nn.Linear(256, 128),             nn.ReLU(),             nn.Linear(128, 1)         )         # 最終分類層(淘寶用HMC分層分類,這里簡(jiǎn)化為單分類)         self.fc_out = nn.Linear(256, num_classes)     def forward(self, img_feat, txt_feat, audio_feat):         # 各模態(tài)特征降維         img = self.fc_img(img_feat)  # (bs, 256)         txt = self.fc_txt(txt_feat)  # (bs, 256)         audio = self.fc_audio(audio_feat)  # (bs, 256)                  # 計(jì)算各模態(tài)注意力權(quán)重         alpha_img = self.attention(img)  # (bs, 1)         alpha_txt = self.attention(txt)  # (bs, 1)         alpha_audio = self.attention(audio)  # (bs, 1)         # softmax歸一化權(quán)重         alphas = torch.softmax(torch.cat([alpha_img, alpha_txt, alpha_audio], dim=1), dim=1)  # (bs, 3)                  # 加權(quán)融合         fusion_feat = img * alphas[:, 0:1] + txt * alphas[:, 1:2] + audio * alphas[:, 2:3]  # (bs, 256)         # 分類輸出         return self.fc_out(fusion_feat)  # (bs, num_classes)
⑤對(duì)抗多模態(tài)融合(Adversarial Multimodal Fusion)原理

對(duì)抗融合是阿里在 WWW 2020 提出的方法,核心是用 “雙判別器” 分離多模態(tài)的 “共性特征”(各模態(tài)共有的信息,如商品的 “類別屬性”)和 “個(gè)性特征”(某模態(tài)獨(dú)有的信息,如圖像的 “顏色細(xì)節(jié)”),再融合兩類特征用于下游任務(wù)(如點(diǎn)擊率預(yù)估)。

核心結(jié)構(gòu)

  1. 多模態(tài)注意力融合(MAF):基礎(chǔ)融合模塊,得到初步融合特征;

  2. 雙判別器(DDMA):

  • 模態(tài)判別器(D1):區(qū)分特征來自哪個(gè)模態(tài),迫使模型學(xué)習(xí) “模態(tài)不變的共性特征”;

  • 重要性判別器(D2):判斷特征的重要性,優(yōu)化模態(tài)權(quán)重分配;

  1. 對(duì)抗訓(xùn)練:通過生成器(融合模塊)與判別器的對(duì)抗,提升融合特征的魯棒性。

優(yōu)缺點(diǎn)
  • 優(yōu)點(diǎn):能有效分離共性與個(gè)性特征,避免模態(tài)冗余;對(duì)抗訓(xùn)練提升模型泛化能力。

  • 缺點(diǎn):對(duì)抗訓(xùn)練不穩(wěn)定,需精細(xì)調(diào)參;模型復(fù)雜度高,適合大數(shù)據(jù)場(chǎng)景。

適用場(chǎng)景

多模態(tài)點(diǎn)擊率預(yù)估、推薦系統(tǒng)(如阿里電商廣告 CTR 預(yù)測(cè))。

⑥多項(xiàng)式張量池化(PTP:Polynomial Tensor Pooling)
原理

PTP 是針對(duì)傳統(tǒng)雙線性 / 三線性池化 “融合能力有限、無法捕捉復(fù)雜局部交互” 問題提出的高階融合方法,核心是通過 “多項(xiàng)式張量運(yùn)算” 集成多模態(tài)特征的高階矩(如二階、三階統(tǒng)計(jì)信息),同時(shí)引入低秩分解減少參數(shù)規(guī)模。相比 TFN 僅關(guān)注模態(tài)間的直接交叉,PTP 能捕捉更復(fù)雜的局部相互關(guān)系,比如文本中的 “情感詞” 與圖像中的 “表情區(qū)域”+“色彩飽和度” 的三階交互。

核心公式

假設(shè)兩種模態(tài)特征為 、 ,PTP(以 5 階為例)融合過程為:

  1. 特征拼接:將兩種模態(tài)特征拼接為統(tǒng)一向量 ;

  2. 多項(xiàng)式張量生成:計(jì)算 X 的 5 階張量表示 (此處為簡(jiǎn)化表達(dá),實(shí)際通過高階矩展開實(shí)現(xiàn));

  3. 低秩分解:通過低秩張量網(wǎng)絡(luò)對(duì) 進(jìn)行分解,得到低維融合特征 (K 為低秩維度,遠(yuǎn)小于原始張量維度)。

優(yōu)缺點(diǎn)
  • 優(yōu)點(diǎn):能捕捉多模態(tài)特征的高階交互,融合表現(xiàn)力更強(qiáng);低秩分解有效控制參數(shù)規(guī)模,避免維度爆炸;

  • 缺點(diǎn):高階張量運(yùn)算的理論理解和工程實(shí)現(xiàn)難度較高;對(duì)數(shù)據(jù)量要求大,小樣本場(chǎng)景下易過擬合。

適用場(chǎng)景

需要精細(xì)捕捉多模態(tài)復(fù)雜交互的任務(wù),如細(xì)粒度圖像 - 文本匹配(如 “紅色帶花紋的連衣裙” 與對(duì)應(yīng)商品圖匹配)、多模態(tài)細(xì)分類別識(shí)別(如區(qū)分 “憤怒的貓” 和 “開心的貓”)。

核心代碼示例(PyTorch)

import torch import torch.nn as nn import torch.nn.functional as F class PTPBlock(nn.Module):     def __init__(self, in_dim, poly_order=3, low_rank_dim=128):         super(PTPBlock, self).__init__()         self.poly_order = poly_order  # 多項(xiàng)式階數(shù)(如3階)         self.in_dim = in_dim         # 多項(xiàng)式特征生成:通過線性層模擬高階矩展開         self.poly_proj = nn.Linear(in_dim, in_dim * poly_order)         # 低秩分解層:將高階特征映射到低維空間         self.low_rank_proj = nn.Linear(in_dim * poly_order, low_rank_dim)         self.norm = nn.BatchNorm1d(low_rank_dim)  #  BatchNorm穩(wěn)定訓(xùn)練     def forward(self, z1, z2):         # 1. 拼接多模態(tài)特征         concat_feat = torch.cat([z1, z2], dim=1)  # (bs, in_dim1 + in_dim2)         # 2. 生成多項(xiàng)式特征(模擬高階矩)         poly_feat = self.poly_proj(concat_feat)  # (bs, (d1+d2)*poly_order)         poly_feat = F.relu(poly_feat)  # 非線性激活增強(qiáng)表達(dá)         # 3. 低秩分解得到融合特征         fusion_feat = self.low_rank_proj(poly_feat)  # (bs, low_rank_dim)         fusion_feat = self.norm(fusion_feat)  # 歸一化         return fusion_feat # 測(cè)試 if __name__ == "__main__":     bs = 32  # batch_size     d1, d2 = 64, 128  # 兩種模態(tài)特征維度(如圖像、文本)     z1 = torch.randn(bs, d1)     z2 = torch.randn(bs, d2)          ptp = PTPBlock(in_dim=d1+d2, poly_order=3, low_rank_dim=128)     fusion_feat = ptp(z1, z2)     print("PTP融合特征形狀:", fusion_feat.shape)  # 輸出 (32, 128)
⑦多模態(tài)循環(huán)融合(MCF:Multi-modal Circulant Fusion)原理

MCF 突破傳統(tǒng) “僅基于向量融合” 的思路,同時(shí)利用 “向量” 和 “循環(huán)矩陣(Circulant Matrix)” 進(jìn)行融合,核心是通過 “循環(huán)矩陣變換” 探索多模態(tài)向量的所有可能交互。具體來說,將每種模態(tài)的向量轉(zhuǎn)換為循環(huán)矩陣(每行是原向量的循環(huán)移位),再通過矩陣與向量的交互運(yùn)算,捕捉模態(tài)間的全局關(guān)聯(lián),尤其適合視頻 - 文本這類需全局時(shí)序匹配的任務(wù)。

核心公式

假設(shè)視覺特征向量 、文本特征向量 ,MCF 融合過程為:

  1. 循環(huán)矩陣生成:將向量轉(zhuǎn)換為循環(huán)矩陣 、 ,其中 A 的第 i 行是 ;

  2. 模態(tài)交互運(yùn)算:計(jì)算矩陣與另一模態(tài)向量的加權(quán)交互 (視覺矩陣與文本向量交互), (文本矩陣與視覺向量交互);

  3. 特征融合:將 G、F 與原向量 V、C 拼接,得到最終融合特征 。

優(yōu)缺點(diǎn)
  • 優(yōu)點(diǎn):通過循環(huán)矩陣捕捉模態(tài)間的全局交互,避免局部信息遺漏;無需復(fù)雜注意力機(jī)制,計(jì)算效率較高;

  • 缺點(diǎn):循環(huán)矩陣變換依賴向量維度一致性(需先對(duì)齊模態(tài)特征維度);對(duì)短向量特征的交互捕捉效果有限。

適用場(chǎng)景

視頻 - 文本融合任務(wù)(如視頻描述生成、視頻文本檢索)、長序列多模態(tài)匹配(如多段文本與多幀圖像的關(guān)聯(lián))。

⑧共享 - 私有特征融合(Shared-Private Fusion)
原理

該方法針對(duì) “多模態(tài)特征中既有共性信息(各模態(tài)共通,如‘貓’的語義),又有私有信息(某模態(tài)獨(dú)有,如圖像中‘貓的毛色’、文本中‘貓的品種’)” 的特點(diǎn),通過分離并融合 “共享特征” 和 “私有特征”,避免共性信息冗余、私有信息丟失。典型代表包括 ACL 2020 的 FP-Net 和 ACL 2021 的 Text-Centered 框架,核心是通過 “正交投影” 或 “掩碼矩陣” 實(shí)現(xiàn)兩類特征的分離。

核心公式(以 FP-Net 為例)

假設(shè)文本初始特征 ,目標(biāo)分離共享特征 和私有特征 :

  1. 共享特征提。和ㄟ^正交投影將 投影到共享特征空間,得到凈化的共享特征 ;

  2. 私有特征提。簩 投影到與共享特征正交的空間,得到私有特征 ;

  3. 融合:將共享特征 與各模態(tài)私有特征 (文本)、 (圖像)拼接,得到 。

優(yōu)缺點(diǎn)
  • 優(yōu)點(diǎn):精準(zhǔn)分離共性與私有信息,充分利用模態(tài)互補(bǔ)性;對(duì)模態(tài)異質(zhì)性的容忍度高,適合多模態(tài)協(xié)同任務(wù);

  • 缺點(diǎn):特征分離依賴高質(zhì)量的共享特征初始化(如預(yù)訓(xùn)練模型提取的通用特征);正交投影計(jì)算需保證數(shù)值穩(wěn)定性。

適用場(chǎng)景

多模態(tài)情感分析(文本表達(dá)情感傾向,圖像 / 語音補(bǔ)充情感強(qiáng)度)、跨模態(tài)遷移學(xué)習(xí)(用圖像的共享語義輔助文本分類)、行人重識(shí)別(RGB 與紅外圖像的共性輪廓 + 私有紋理融合)。

核心代碼示例(PyTorch)

class FPNetSharedPrivate(nn.Module):     def __init__(self, text_dim, img_dim, shared_dim=256):         super(FPNetSharedPrivate, self).__init__()         # 共享特征提取器(文本和圖像共享)         self.shared_proj = nn.Linear(max(text_dim, img_dim), shared_dim)         # 文本私有特征投影層         self.text_private_proj = nn.Linear(text_dim, text_dim)         # 圖像私有特征投影層         self.img_private_proj = nn.Linear(img_dim, img_dim)         # 最終融合輸出層         self.fusion_out = nn.Linear(shared_dim + text_dim + img_dim, 10)  # 10分類示例     def orthogonal_proj(self, x, target):         # 正交投影:將x投影到target所在空間         target_norm = torch.norm(target, dim=1, keepdim=True) + 1e-8  # 避免除零         proj_coeff = (x @ target.T) / (target_norm ** 2)  # (bs, bs)         proj = proj_coeff @ target  # (bs, shared_dim)         return proj     def forward(self, text_feat, img_feat):         # 1. 提取共享特征(統(tǒng)一模態(tài)維度后投影)         max_dim = max(text_feat.shape[1], img_feat.shape[1])         text_pad = F.pad(text_feat, (0, max_dim - text_feat.shape[1]))  # 對(duì)齊維度         img_pad = F.pad(img_feat, (0, max_dim - img_feat.shape[1]))         shared_feat = self.shared_proj(torch.cat([text_pad, img_pad], dim=0)).mean(dim=0, keepdim=True)         shared_feat = shared_feat.expand(text_feat.shape[0], -1)  # (bs, shared_dim)                  # 2. 提取文本私有特征         text_shared_proj = self.orthogonal_proj(text_feat, shared_feat)  # 文本的共享部分         text_private = self.text_private_proj(text_feat - text_shared_proj)  # 私有部分                  # 3. 提取圖像私有特征         img_shared_proj = self.orthogonal_proj(img_feat, shared_feat)  # 圖像的共享部分         img_private = self.img_private_proj(img_feat - img_shared_proj)  # 私有部分                  # 4. 融合共享與私有特征         fusion_feat = torch.cat([shared_feat, text_private, img_private], dim=1)  # (bs, shared_dim + text_dim + img_dim)         return self.fusion_out(fusion_feat)  # (bs, 10) # 測(cè)試 if __name__ == "__main__":     bs = 32     text_dim, img_dim = 128, 256     text_feat = torch.randn(bs, text_dim)     img_feat = torch.randn(bs, img_dim)          fp_net = FPNetSharedPrivate(text_dim, img_dim, shared_dim=256)     out = fp_net(text_feat, img_feat)     print("FP-Net輸出形狀:", out.shape)  # 輸出 (32, 10)
⑨注意力瓶頸融合(Attention Bottleneck Fusion)原理

針對(duì)傳統(tǒng) Transformer 跨模態(tài)融合 “計(jì)算量過大” 的問題,注意力瓶頸融合通過引入 “共享令牌(Shared Token)” 作為模態(tài)交互的 “瓶頸”,限制注意力流僅在共享令牌處進(jìn)行跨模態(tài)交互,而非所有 token 間的全量交互。這種設(shè)計(jì)在保證融合效果的同時(shí),大幅降低計(jì)算復(fù)雜度,尤其適合高分辨率圖像、長文本這類大尺度多模態(tài)數(shù)據(jù)。

核心結(jié)構(gòu)

  1. 模態(tài)獨(dú)立編碼:文本用 Transformer Encoder 編碼為文本令牌(Text Token),圖像用 ViT 編碼為視覺令牌(Vision Token);

  2. 共享令牌插入:在兩類令牌中插入 1-2 個(gè)共享令牌(如[SHARED]);

  3. 瓶頸注意力交互:僅允許共享令牌與所有文本 / 視覺令牌進(jìn)行注意力計(jì)算,文本與視覺令牌之間不直接交互;

  4. 融合特征生成:提取共享令牌的特征,與各模態(tài)的全局池化特征拼接,得到最終融合結(jié)果。

優(yōu)缺點(diǎn)
  • 優(yōu)點(diǎn):計(jì)算復(fù)雜度低(O ((N+M+K)^2 ) 降至 O ( (N+M) K + K^2 ),N/M 為模態(tài)令牌數(shù),K 為共享令牌數(shù));共享令牌能有效聚合跨模態(tài)信息,融合效果接近全注意力;

  • 缺點(diǎn):共享令牌數(shù)量需手動(dòng)調(diào)整(過多易冗余,過少易丟失信息);對(duì)模態(tài)令牌的初始化質(zhì)量敏感。

適用場(chǎng)景

大尺度多模態(tài)任務(wù)(如高分辨率圖像 - 長文本匹配、多模態(tài)文檔理解)、資源受限場(chǎng)景(如移動(dòng)端多模態(tài)分類)。

4.多模態(tài)融合的學(xué)習(xí)資源推薦

最后,給大家推薦一些學(xué)習(xí)資源,幫助進(jìn)一步深入:

  1. 必讀論文:

  • 綜述:《Multimodal Machine Learning: A Survey and Taxonomy》(多模態(tài)學(xué)習(xí)入門必讀);

  • 方法論文:TFN(ICMI 2017)、LMF(ACL 2018)、MFN(AAAI 2018)、Adversarial Multimodal Fusion(WWW 2020);

  1. 代碼倉庫:

  • 多模態(tài)工具庫:PyTorch-Multimodal(Facebook 開源,含多種融合方法);

  • 實(shí)戰(zhàn)項(xiàng)目:FP-Net(ACL 2020,特征投影融合)、MFAS(CVPR 2019,神經(jīng)架構(gòu)搜索融合);

  1. 論文合集: 我自己整理的最新多模態(tài)論文代碼合集


掃碼添加小助理,回復(fù)“多模態(tài)

免費(fèi)獲取全部論文+開源代碼

最后的最后

大家有問題可以直接在評(píng)論區(qū)留言即可~ 喜歡本文的朋友可以收藏、點(diǎn)贊、轉(zhuǎn)發(fā)起來!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中美關(guān)系劇透警告|李成:若能維持10年和平,中美關(guān)系會(huì)有嶄新面貌

中美關(guān)系劇透警告|李成:若能維持10年和平,中美關(guān)系會(huì)有嶄新面貌

澎湃新聞
2025-12-26 07:22:29
內(nèi)部人士:勇士隊(duì)若想達(dá)成庫明加的重磅交易,格林或?qū)⒈凰妥?>
    </a>
        <h3>
      <a href=好火子
2025-12-27 03:58:07
李蘭娟發(fā)現(xiàn):經(jīng)常吃紅薯的人,用不了多久,腸胃或有這5個(gè)變化

李蘭娟發(fā)現(xiàn):經(jīng)常吃紅薯的人,用不了多久,腸胃或有這5個(gè)變化

九哥聊軍事
2025-11-30 18:49:01
歐盟很惱火:我只是給中國電車加了點(diǎn)稅,中國干嘛對(duì)我發(fā)起反制?

歐盟很惱火:我只是給中國電車加了點(diǎn)稅,中國干嘛對(duì)我發(fā)起反制?

回京歷史夢(mèng)
2025-12-26 11:24:08
女演員李念的老公林和平,背景是真的強(qiáng)

女演員李念的老公林和平,背景是真的強(qiáng)

小光侃娛樂
2025-12-26 13:20:03
陳盈駿8中1后曝弊端!吃手感+無突破,被罩住就啞火,趙睿太重要

陳盈駿8中1后曝弊端!吃手感+無突破,被罩住就啞火,趙睿太重要

籃球資訊達(dá)人
2025-12-27 01:58:09
澤連斯基將與特朗普會(huì)晤討論“敏感”問題

澤連斯基將與特朗普會(huì)晤討論“敏感”問題

財(cái)聯(lián)社
2025-12-27 02:18:05
這家廣東工廠員工太難了!11月工資只發(fā)50%,房貸車貸壓頂

這家廣東工廠員工太難了!11月工資只發(fā)50%,房貸車貸壓頂

搗蛋窩
2025-12-27 02:18:16
C羅在財(cái)富排行榜仍遠(yuǎn)遠(yuǎn)落后一位鮮為人知的球員—法伊克·博爾基亞

C羅在財(cái)富排行榜仍遠(yuǎn)遠(yuǎn)落后一位鮮為人知的球員—法伊克·博爾基亞

星耀國際足壇
2025-12-26 23:09:10
一夜之間,中國傳來2個(gè)爆炸性突破,美國從88%降到9%,中國猛追

一夜之間,中國傳來2個(gè)爆炸性突破,美國從88%降到9%,中國猛追

法老不說教
2025-11-19 22:46:19
香煙熱度榜!煙民貢獻(xiàn)萬億稅收,年度銷冠竟是這個(gè)品牌…

香煙熱度榜!煙民貢獻(xiàn)萬億稅收,年度銷冠竟是這個(gè)品牌…

慧翔百科
2025-12-24 09:14:14
不尋常!拜登發(fā)布了一張全家福圣誕賀照片,大部分身體被妻子遮擋

不尋常!拜登發(fā)布了一張全家福圣誕賀照片,大部分身體被妻子遮擋

我是盲流
2025-12-26 08:31:25
重磅!你好,小波特!3換1交易方案...

重磅!你好,小波特!3換1交易方案...

技巧君侃球
2025-12-26 23:53:09
全球首個(gè)!中國德州發(fā)現(xiàn)世界罕見超富鐵礦!專家:世界罕見!

全球首個(gè)!中國德州發(fā)現(xiàn)世界罕見超富鐵礦!專家:世界罕見!

瞳哥視界
2025-12-25 20:50:42
洪都拉斯新總統(tǒng)上任第一件事,或?qū)⑴c中國斷交?中方回應(yīng)暗藏鋒芒

洪都拉斯新總統(tǒng)上任第一件事,或?qū)⑴c中國斷交?中方回應(yīng)暗藏鋒芒

愛看劇的阿峰
2025-12-27 01:00:59
已笑瘋!莫言發(fā)2025年終總結(jié),句句接地氣,評(píng)論區(qū)簡(jiǎn)直笑不活

已笑瘋!莫言發(fā)2025年終總結(jié),句句接地氣,評(píng)論區(qū)簡(jiǎn)直笑不活

徐幫陽
2025-12-25 20:51:55
鄰居長期在樓道堆放鞋子等雜物,屢勸不聽,湖南一男子將爺爺遺照掛樓道“反擊” ;當(dāng)事人:實(shí)在被逼得沒辦法

鄰居長期在樓道堆放鞋子等雜物,屢勸不聽,湖南一男子將爺爺遺照掛樓道“反擊” ;當(dāng)事人:實(shí)在被逼得沒辦法

大風(fēng)新聞
2025-12-26 18:12:08
女排有望提升,龔翔宇與郎平助手任國家隊(duì)主教練

女排有望提升,龔翔宇與郎平助手任國家隊(duì)主教練

大昆說臺(tái)球
2025-12-26 14:27:04
“向14億國人道歉!”亂港暴徒在法庭上大喊:是美國間諜指使的!

“向14億國人道歉!”亂港暴徒在法庭上大喊:是美國間諜指使的!

boss外傳
2025-12-26 00:00:03
鄰居把排污管接我院子里,我不爭(zhēng)天天種菖蒲,2月后他主動(dòng)賠6000

鄰居把排污管接我院子里,我不爭(zhēng)天天種菖蒲,2月后他主動(dòng)賠6000

卡西莫多的故事
2025-12-16 10:29:36
2025-12-27 06:12:49
機(jī)器學(xué)習(xí)與Python社區(qū) incentive-icons
機(jī)器學(xué)習(xí)與Python社區(qū)
機(jī)器學(xué)習(xí)算法與Python
3235文章數(shù) 11081關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

體育要聞

開翻航母之后,他決定親手造一艘航母

娛樂要聞

王傳君生病后近照變化大,面部浮腫

財(cái)經(jīng)要聞

投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

汽車要聞

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測(cè)

態(tài)度原創(chuàng)

旅游
健康
本地
手機(jī)
軍事航空

旅游要聞

百年老街變身!上海新天地東臺(tái)里開業(yè),解鎖冬日消費(fèi)新范式

這些新療法,讓化療不再那么痛苦

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

手機(jī)要聞

vivo藍(lán)河:以開源和賽事,撬動(dòng)AGI時(shí)代底層技術(shù)生態(tài)

軍事要聞

烏最新20點(diǎn)俄烏和平草案遞交莫斯科 俄方拒絕

無障礙瀏覽 進(jìn)入關(guān)懷版