国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

統(tǒng)一多模態(tài)理解與生成模型:進(jìn)展、挑戰(zhàn)與機(jī)遇

0
分享至

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

統(tǒng)一的多模態(tài)理解與生成模型:進(jìn)展、挑戰(zhàn)與機(jī)遇


摘要

近年來(lái),多模態(tài)理解模型和圖像生成模型均取得了顯著進(jìn)展。盡管二者各自取得了成功,但這兩個(gè)領(lǐng)域卻獨(dú)立發(fā)展,形成了不同的架構(gòu)范式:基于自回歸的架構(gòu)在多模態(tài)理解中占據(jù)主導(dǎo)地位,而基于擴(kuò)散的模型則成為圖像生成的基石。近期,學(xué)界對(duì)開(kāi)發(fā)整合這兩類任務(wù)的統(tǒng)一框架的興趣日益增長(zhǎng)。GPT-4o所展現(xiàn)的新能力正是這一趨勢(shì)的例證,凸顯了統(tǒng)一架構(gòu)的潛力。然而,兩個(gè)領(lǐng)域之間的架構(gòu)差異也帶來(lái)了重大挑戰(zhàn)。為清晰梳理當(dāng)前在統(tǒng)一方向上的努力,我們提供了一份全面綜述,旨在指導(dǎo)未來(lái)研究。首先,我們介紹了多模態(tài)理解與文本到圖像生成模型的基礎(chǔ)概念及最新進(jìn)展。接著,我們回顧了現(xiàn)有的統(tǒng)一模型,并將其歸納為三大主要架構(gòu)范式:基于擴(kuò)散的、基于自回歸的,以及融合自回歸與擴(kuò)散機(jī)制的混合方法。針對(duì)每一類范式,我們分析了相關(guān)工作所采用的結(jié)構(gòu)設(shè)計(jì)與創(chuàng)新之處。此外,我們匯總了專為統(tǒng)一模型定制的數(shù)據(jù)集與評(píng)測(cè)基準(zhǔn),為后續(xù)探索提供資源支持。最后,我們討論了這一新興領(lǐng)域面臨的關(guān)鍵挑戰(zhàn),包括分詞(tokenization)策略、跨模態(tài)注意力機(jī)制以及數(shù)據(jù)問(wèn)題。鑒于該領(lǐng)域尚處于早期階段,我們預(yù)計(jì)將出現(xiàn)快速進(jìn)展,并將持續(xù)更新本綜述。我們的目標(biāo)是激發(fā)更多研究,并為社區(qū)提供一份有價(jià)值的參考文獻(xiàn)。本綜述的相關(guān)參考文獻(xiàn)可在 https://github.com/AIDC-AI/Awesome-UnifiedMultimodal-ModelsIndex 獲取。

關(guān)鍵詞—統(tǒng)一多模態(tài)模型,多模態(tài)理解,圖像生成,自回歸模型,擴(kuò)散模型

1 引言

近年來(lái),大型語(yǔ)言模型(LLMs)的快速發(fā)展,如 LLaMa [1]、[2]、PanGu [3]、[4]、Qwen [5]、[6] 和 GPT [7],徹底改變了人工智能領(lǐng)域。這些模型在規(guī)模和能力上不斷擴(kuò)展,推動(dòng)了眾多應(yīng)用場(chǎng)景中的突破性進(jìn)展。與此同時(shí),LLMs 已被拓展至多模態(tài)領(lǐng)域,催生了強(qiáng)大的多模態(tài)理解模型,例如 LLaVa [8]、Qwen-VL [9]、[10]、InternVL [11]、Ovis [12] 和 GPT-4 [13]。這些模型的能力已不再局限于簡(jiǎn)單的圖像描述生成,而是能夠根據(jù)用戶指令執(zhí)行復(fù)雜的推理任務(wù)。

另一方面,圖像生成技術(shù)也經(jīng)歷了迅猛發(fā)展,諸如 SD 系列 [14]、[15] 和 FLUX [16] 等模型如今已能生成高度符合用戶提示的高質(zhì)量圖像。

當(dāng)前,LLMs 及多模態(tài)理解模型主要采用自回歸生成架構(gòu) [17],該范式依賴純解碼器結(jié)構(gòu),并通過(guò)逐詞預(yù)測(cè)實(shí)現(xiàn)序列化文本生成。相比之下,文本到圖像生成領(lǐng)域則沿著不同的技術(shù)路徑演進(jìn):早期以生成對(duì)抗網(wǎng)絡(luò)(GANs)[18] 為主導(dǎo),隨后轉(zhuǎn)向基于擴(kuò)散的模型 [19]。這類擴(kuò)散模型通常采用 UNet [14] 或 DiT [20]、[21] 等架構(gòu),并結(jié)合 CLIP [22] 和 T5 [23] 等先進(jìn)的文本編碼器。盡管已有部分研究嘗試將受 LLM 啟發(fā)的架構(gòu)用于圖像生成 [24]、[25]、[26],但就當(dāng)前性能而言,基于擴(kuò)散的方法仍是圖像生成領(lǐng)域的最先進(jìn)方案。

盡管自回歸模型在圖像生成質(zhì)量上尚不及擴(kuò)散方法,但其與 LLM 在結(jié)構(gòu)上的一致性使其在構(gòu)建統(tǒng)一多模態(tài)系統(tǒng)方面極具吸引力。一個(gè)能夠同時(shí)理解和生成多模態(tài)內(nèi)容的統(tǒng)一模型具有巨大潛力:它可根據(jù)復(fù)雜指令生成圖像、對(duì)視覺(jué)數(shù)據(jù)進(jìn)行推理,并通過(guò)生成的輸出可視化多模態(tài)分析結(jié)果。2025 年 3 月發(fā)布的 GPT-4o 所展現(xiàn)出的增強(qiáng)能力 [27] 進(jìn)一步凸顯了這一潛力,引發(fā)了學(xué)術(shù)界和工業(yè)界對(duì)統(tǒng)一架構(gòu)的廣泛關(guān)注。

然而,設(shè)計(jì)此類統(tǒng)一框架面臨重大挑戰(zhàn)。它需要將自回歸模型在推理和文本生成方面的優(yōu)勢(shì),與基于擴(kuò)散的模型在高質(zhì)量圖像合成方面的強(qiáng)大能力有效整合。一些關(guān)鍵問(wèn)題仍未解決,其中就包括如何為自回歸生成有效地對(duì)圖像進(jìn)行分詞(tokenization)。部分方法 [28]、[29]、[30] 采用擴(kuò)散模型流程中常用的 VAE [31] 或 VQ-GAN [32] 及其相關(guān)變體;而其他方法 [33]、[34]、[35] 則利用語(yǔ)義編碼器,如 EVA-CLIP [36] 和 OpenAI-CLIP [22]。此外,盡管離散 token 是自回歸模型中文本的標(biāo)準(zhǔn)表示形式,但新興研究表明,連續(xù)表征可能更適合圖像 token [25]。

除了分詞問(wèn)題之外,融合并行擴(kuò)散策略與序列化自回歸生成的混合架構(gòu) [37]、[38]、[39] 也提供了另一條有前景的路徑,相較于單純的自回歸架構(gòu)更具潛力。因此,無(wú)論是圖像分詞技術(shù)還是整體架構(gòu)設(shè)計(jì),在統(tǒng)一多模態(tài)模型中都仍處于早期發(fā)展階段。

為全面概述當(dāng)前統(tǒng)一多模態(tài)模型的研究現(xiàn)狀(如圖 1 所示),從而助力未來(lái)研究工作,我們撰寫了本綜述。首先,我們介紹多模態(tài)理解與圖像生成領(lǐng)域的基礎(chǔ)概念及最新進(jìn)展,涵蓋自回歸與擴(kuò)散兩種范式。接著,我們回顧現(xiàn)有的統(tǒng)一模型,并將其劃分為三大主要架構(gòu)范式:基于擴(kuò)散的、基于自回歸的,以及融合自回歸與擴(kuò)散機(jī)制的混合方法。在自回歸與混合類別中,我們進(jìn)一步根據(jù)其圖像分詞策略對(duì)模型進(jìn)行細(xì)分,以反映該領(lǐng)域方法的多樣性。


除架構(gòu)之外,我們還匯總了專為訓(xùn)練和評(píng)估統(tǒng)一多模態(tài)模型而設(shè)計(jì)的數(shù)據(jù)集與評(píng)測(cè)基準(zhǔn)。這些資源覆蓋多模態(tài)理解、文本到圖像生成、圖像編輯及其他相關(guān)任務(wù),為后續(xù)探索奠定基礎(chǔ)。最后,我們討論了這一新興領(lǐng)域面臨的關(guān)鍵挑戰(zhàn),包括高效的分詞策略、數(shù)據(jù)構(gòu)建、模型評(píng)估等。應(yīng)對(duì)這些挑戰(zhàn)對(duì)于提升統(tǒng)一多模態(tài)模型的能力與可擴(kuò)展性至關(guān)重要。

在學(xué)術(shù)界,已有諸多優(yōu)秀的綜述分別聚焦于大型語(yǔ)言模型 [40]、[41]、多模態(tài)理解 [42]、[43]、[44] 以及圖像生成 [45]、[46]。而本文則專門關(guān)注理解任務(wù)與生成任務(wù)的集成。我們鼓勵(lì)讀者參考這些互補(bǔ)性綜述,以獲得更廣泛的相關(guān)背景知識(shí)。我們的目標(biāo)是激發(fā)這一快速演進(jìn)領(lǐng)域的進(jìn)一步研究,并為社區(qū)提供一份有價(jià)值的參考。本綜述相關(guān)的參考資料、數(shù)據(jù)集和評(píng)測(cè)基準(zhǔn)已整理至 GitHub 頁(yè)面,并將持續(xù)更新以反映最新進(jìn)展。

2 預(yù)備知識(shí)

2.1 多模態(tài)理解模型

多模態(tài)理解模型是指基于大型語(yǔ)言模型(LLM)的架構(gòu),能夠接收、推理并從多模態(tài)輸入中生成輸出 [47]。這些模型將 LLM 的生成與推理能力從純文本數(shù)據(jù)擴(kuò)展至多種信息模態(tài),從而實(shí)現(xiàn)對(duì)不同模態(tài)信息的豐富語(yǔ)義理解 [42], [48]?,F(xiàn)有方法的大部分工作聚焦于視覺(jué)-語(yǔ)言理解(Vision-Language Understanding, VLU),即整合視覺(jué)(如圖像和視頻)與文本輸入,以支持對(duì)空間關(guān)系、物體、場(chǎng)景及抽象概念的更全面理解 [49], [50], [51]。圖 2 展示了多模態(tài)理解模型的典型架構(gòu)。


這類模型運(yùn)行于混合輸入空間:文本數(shù)據(jù)以離散形式表示,而視覺(jué)信號(hào)則被編碼為連續(xù)表征 [52]。與傳統(tǒng) LLM 類似,其輸出通過(guò)基于分類的語(yǔ)言建模方式,從內(nèi)部表征中生成離散 token,并采用任務(wù)特定的解碼策略 [8], [53]。

早期的 VLU 模型主要采用雙編碼器架構(gòu)來(lái)對(duì)齊視覺(jué)與文本模態(tài):圖像和文本首先分別編碼,再通過(guò)對(duì)其潛在表征進(jìn)行聯(lián)合推理,代表性工作包括 CLIP [22]、ViLBERT [54]、VisualBERT [55] 和 UNITER [56]。盡管這些開(kāi)創(chuàng)性模型確立了多模態(tài)推理的關(guān)鍵原則,但它們嚴(yán)重依賴基于區(qū)域的視覺(jué)預(yù)處理和分離的編碼器,限制了模型的可擴(kuò)展性與通用性。

隨著強(qiáng)大 LLM 的出現(xiàn),VLU 模型逐漸轉(zhuǎn)向僅使用解碼器的架構(gòu),通常采用凍結(jié)或僅微調(diào)少量參數(shù)的 LLM 主干網(wǎng)絡(luò)。這些方法主要通過(guò)不同結(jié)構(gòu)的連接器(connector)將圖像嵌入映射到 LLM 的 token 空間,如圖 2 所示。具體而言,MiniGPT-4 [57] 使用單個(gè)可學(xué)習(xí)層,將 CLIP 提取的圖像嵌入投影到 Vicuna [58] 的 token 空間;BLIP-2 [53] 引入了一個(gè)查詢 Transformer,將凍結(jié)的視覺(jué)編碼器與凍結(jié)的 LLM(如 Flan-T5 [59] 或 Vicuna [58])橋接起來(lái),以極少的可訓(xùn)練參數(shù)實(shí)現(xiàn)高效的視覺(jué)-語(yǔ)言對(duì)齊;Flamingo [60] 則采用門控交叉注意力層,將預(yù)訓(xùn)練的視覺(jué)編碼器與凍結(jié)的 Chinchilla [61] 解碼器相連接。

近期 VLU 的進(jìn)展體現(xiàn)出向通用多模態(tài)理解的轉(zhuǎn)變。GPT-4V [62] 將 GPT-4 框架 [13] 擴(kuò)展至支持用戶提供的圖像輸入,在視覺(jué)推理、圖像描述和多模態(tài)對(duì)話方面展現(xiàn)出強(qiáng)大能力,盡管其具體實(shí)現(xiàn)未公開(kāi)。Gemini [63] 基于純解碼器架構(gòu),支持圖像、視頻和音頻等多種模態(tài),其 Ultra 版本在多模態(tài)推理任務(wù)中設(shè)立了新的性能標(biāo)桿。Qwen 系列體現(xiàn)了可擴(kuò)展的多模態(tài)設(shè)計(jì)思路:Qwen-VL [5] 引入了視覺(jué)感受器和定位模塊,而 Qwen2-VL [9] 進(jìn)一步增加了動(dòng)態(tài)分辨率處理能力和 M-RoPE 機(jī)制,以穩(wěn)健地處理多樣化的輸入。LLaVA-1.5 [64] 和 LLaVA-Next [65] 采用基于 CLIP 的視覺(jué)編碼器與 Vicuna 風(fēng)格的 LLM,在視覺(jué)問(wèn)答(VQA)和指令遵循任務(wù)中取得具有競(jìng)爭(zhēng)力的性能。InternVL 系列 [11], [66], [67] 探索了一種統(tǒng)一的多模態(tài)預(yù)訓(xùn)練策略,同時(shí)從文本和視覺(jué)數(shù)據(jù)中學(xué)習(xí),以提升各類視覺(jué)-語(yǔ)言任務(wù)的表現(xiàn)。Ovis [12] 通過(guò)一個(gè)可學(xué)習(xí)的視覺(jué)嵌入查找表引入結(jié)構(gòu)嵌入對(duì)齊機(jī)制,使生成的視覺(jué)嵌入在結(jié)構(gòu)上與文本 token 對(duì)應(yīng)。

最近,一些模型開(kāi)始探索面向多模態(tài)處理的可擴(kuò)展且統(tǒng)一的架構(gòu)。例如,DeepSeek-VL2 [68] 采用混合專家(Mixture-of-Experts, MoE)架構(gòu)以增強(qiáng)跨模態(tài)推理能力。總體而言,這些模型清晰地展現(xiàn)出向指令微調(diào)、以 token 為中心的統(tǒng)一框架演進(jìn)的趨勢(shì),能夠以可擴(kuò)展的方式處理多樣化的多模態(tài)任務(wù)。

2.2 文本到圖像模型

擴(kuò)散模型。擴(kuò)散模型(DM)將生成過(guò)程建模為一對(duì)馬爾可夫鏈:一個(gè)前向過(guò)程,通過(guò)在 T 個(gè)時(shí)間步內(nèi)逐步向數(shù)據(jù) x? 添加高斯噪聲以產(chǎn)生 x?;以及一個(gè)反向過(guò)程,學(xué)習(xí)一個(gè)參數(shù)化分布,以迭代方式去噪并恢復(fù)至原始數(shù)據(jù)流形 [19], [69], [70]。形式上,如圖 3 所示,在前向過(guò)程中,給定數(shù)據(jù)分布 x? ~ q(x?),在每一步 t,數(shù)據(jù) x? 被添加噪聲:



其中,網(wǎng)絡(luò)參數(shù)化了均值 μθ(x?, t) 和方差 Σθ(x?, t)。該網(wǎng)絡(luò)以帶噪數(shù)據(jù) x? 和時(shí)間步 t 作為輸入,輸出用于噪聲預(yù)測(cè)的正態(tài)分布參數(shù)。噪聲向量通過(guò)從 p(x?) 中采樣 x? 開(kāi)始,然后依次從學(xué)習(xí)到的轉(zhuǎn)移核 x??? ~ pθ(x??? | x?) 中采樣,直至 t = 1。訓(xùn)練目標(biāo)是最小化負(fù)對(duì)數(shù)似然的變分下界:? = {q(x?,x?:T)} [‖εθ(x?, t) ? ε*(x?, t)‖2],其中 εθ(x?, t) 是模型在時(shí)間步 t 對(duì)噪聲的預(yù)測(cè),而 ε*(x?, t) 是該時(shí)間步實(shí)際添加的噪聲。

早期的擴(kuò)散模型采用 U-Net 架構(gòu)來(lái)近似得分函數(shù) [19]。U-Net 設(shè)計(jì)基于寬殘差網(wǎng)絡(luò)(Wide ResNet),融合了殘差連接和自注意力模塊,以保留梯度流并恢復(fù)精細(xì)的圖像細(xì)節(jié)。這些方法大致可分為像素級(jí)方法和潛在特征級(jí)方法。像素級(jí)方法直接在像素空間中執(zhí)行擴(kuò)散過(guò)程,包括 GLIDE [71](引入了“無(wú)分類器引導(dǎo)”)和 Imagen [72](使用預(yù)訓(xùn)練的大語(yǔ)言模型,即 T5-XXL [23],作為文本編碼器)。然而,這些方法存在高昂的訓(xùn)練與推理計(jì)算成本,從而推動(dòng)了潛在擴(kuò)散模型(Latent Diffusion Models, LDMs)[14] 的發(fā)展——這類模型在預(yù)訓(xùn)練變分自編碼器的潛在空間中運(yùn)行。LDMs 在保持高生成質(zhì)量的同時(shí)實(shí)現(xiàn)了計(jì)算效率,從而啟發(fā)了多種基于擴(kuò)散的生成模型,如 VQ-Diffusion [73]、SD 2.0 [74]、SD XL [75] 和 UPainting [76]。

Transformer 架構(gòu)的進(jìn)步促使擴(kuò)散過(guò)程中采用了基于 Transformer 的模型。開(kāi)創(chuàng)性的擴(kuò)散 Transformer(DiT)[20] 將輸入圖像轉(zhuǎn)換為一系列圖像塊,并將其送入一系列 Transformer 塊中處理。DiT 還接收額外的條件信息作為輸入,例如擴(kuò)散時(shí)間步 t 和條件信號(hào) c。DiT 的成功啟發(fā)了許多先進(jìn)的生成方法,包括 REPA [77](將自監(jiān)督視覺(jué)表征注入擴(kuò)散訓(xùn)練以增強(qiáng)大規(guī)模性能)、SD 3.0 [15](使用兩組獨(dú)立權(quán)重分別建模文本和圖像模態(tài)),以及其他方法 [78], [79], [80]。對(duì)于文本編碼器,這些方法主要利用對(duì)比學(xué)習(xí),在共享的潛在空間中對(duì)齊圖像與文本模態(tài),這通常是在大規(guī)模圖文配對(duì)數(shù)據(jù)上聯(lián)合訓(xùn)練獨(dú)立的圖像和文本編碼器實(shí)現(xiàn)的 [22], [53], [81]。具體而言,GLIDE [71] 探索了 CLIP 引導(dǎo)與無(wú)分類器引導(dǎo),證明了 CLIP 條件下的擴(kuò)散模型優(yōu)于早期 GAN 基線,并支持強(qiáng)大的文本驅(qū)動(dòng)編輯功能。SD [14] 使用凍結(jié)的 CLIP-ViT-L/14 編碼器為其潛在擴(kuò)散去噪器提供條件,從而在高效計(jì)算下獲得高質(zhì)量樣本。SD 3.0 [15] 則利用 CLIP ViT-L/14、OpenCLIP bigG/14 和 T5-v1.1 XXL 將文本轉(zhuǎn)換為嵌入表示,用于生成引導(dǎo)。

擴(kuò)散模型的最新進(jìn)展已將大型語(yǔ)言模型(LLMs)引入文本到圖像的擴(kuò)散生成中 [82]、[83],顯著提升了文本與圖像之間的對(duì)齊程度以及生成圖像的質(zhì)量。
RPG [83] 利用多模態(tài) LLM 所蘊(yùn)含的視覺(jué)-語(yǔ)言先驗(yàn),從文本提示中推理出互補(bǔ)的空間布局,并在文本引導(dǎo)的圖像生成與編輯過(guò)程中操控對(duì)象的組合結(jié)構(gòu)。然而,這些方法針對(duì)不同任務(wù)需要采用不同的模型架構(gòu)、訓(xùn)練策略和參數(shù)配置,給模型管理帶來(lái)了挑戰(zhàn)。一種更具可擴(kuò)展性的解決方案是采用統(tǒng)一的生成模型,以處理多種數(shù)據(jù)生成任務(wù) [84]、[85]、[86]、[87]。
OmniGen [84] 實(shí)現(xiàn)了文本到圖像生成能力,并支持多種下游任務(wù),如圖像編輯、特定主體生成和視覺(jué)條件生成。UniReal [85] 將圖像級(jí)任務(wù)視為非連續(xù)視頻生成,將數(shù)量可變的輸入與輸出圖像視為視頻幀,從而無(wú)縫支持圖像生成、編輯、定制和合成等任務(wù)。GenArtist [86] 提供了一個(gè)由多模態(tài)大語(yǔ)言模型(MLLM)智能體協(xié)調(diào)的統(tǒng)一圖像生成與編輯系統(tǒng)。UniVG [87] 將多模態(tài)輸入視為統(tǒng)一的條件,通過(guò)單一權(quán)重集支持各類下游應(yīng)用。隨著該領(lǐng)域研究的不斷推進(jìn),預(yù)計(jì)將涌現(xiàn)出越來(lái)越多的統(tǒng)一模型,能夠應(yīng)對(duì)更廣泛的圖像生成與編輯任務(wù)。

自回歸模型。自回歸(Autoregressive, AR)模型通過(guò)將序列的聯(lián)合分布分解為一系列條件概率的乘積來(lái)定義該分布,其中每個(gè)元素依次基于所有先前生成的元素進(jìn)行預(yù)測(cè)。這一范式最初為語(yǔ)言建模而提出,現(xiàn)已成功應(yīng)用于視覺(jué)領(lǐng)域,其核心思想是將圖像映射為一維的離散 token 序列(如像素、圖像塊或潛在編碼)。形式上,給定一個(gè)序列,模型通過(guò)以所有前序元素為條件來(lái)生成每個(gè)元素:


如圖 4 所示,現(xiàn)有方法根據(jù)序列表示策略可分為三類:基于像素的模型、基于 token 的模型和基于多 token 的模型。


1)基于像素的模型。PixelRNN [88] 是最早進(jìn)行下一像素預(yù)測(cè)的方法。它將二維圖像轉(zhuǎn)換為一維像素序列,并使用 LSTM 層依次根據(jù)先前生成的像素值生成每個(gè)新像素。盡管該方法在建??臻g依賴關(guān)系方面有效,但計(jì)算成本高昂。PixelCNN [89] 引入了空洞卷積(dilated convolutions),以更高效地捕捉長(zhǎng)距離像素依賴;而 PixelCNN++ [90] 則采用離散化邏輯混合似然(discretized logistic mixture likelihood)和架構(gòu)改進(jìn),進(jìn)一步提升了圖像質(zhì)量和生成效率。一些更先進(jìn)的工作 [91] 還提出了并行化方法,以降低計(jì)算開(kāi)銷,尤其適用于高分辨率圖像的快速生成。

2)基于 token 的模型。受自然語(yǔ)言處理范式的啟發(fā),基于 token 的自回歸(AR)模型將圖像轉(zhuǎn)換為緊湊的離散 token 序列,大幅縮短序列長(zhǎng)度,從而支持高分辨率圖像合成。該過(guò)程始于向量量化(Vector Quantization, VQ):一個(gè)通過(guò)重建損失和承諾損失(commitment loss)訓(xùn)練的編碼器-解碼器學(xué)習(xí)一個(gè)緊湊的潛在索引碼本(codebook),隨后使用純解碼器 Transformer 對(duì)這些 token 上的條件分布進(jìn)行建模 [92]。典型的 VQ 模型包括 VQ-VAE-2 [93]、VQGAN [32]、ViT-VQGAN [94] 以及其他相關(guān)方法 [95]、[96]、[97]。許多研究致力于增強(qiáng)純解碼器 Transformer 模型。例如,LlamaGen [24] 將 VQGAN 分詞器應(yīng)用于 LLaMA 主干網(wǎng)絡(luò) [1]、[2],在生成質(zhì)量上達(dá)到與 DiT 相當(dāng)?shù)乃?,并表明隨著參數(shù)量增加,生成質(zhì)量持續(xù)提升。與此同時(shí),數(shù)據(jù)高效的變體如 DeLVM [98] 在使用顯著更少數(shù)據(jù)的情況下實(shí)現(xiàn)了相當(dāng)?shù)谋U娑?;?AiM [26]、ZigMa [99] 和 DiM [100] 則引入了來(lái)自 Mamba [101] 的線性或門控注意力層,以實(shí)現(xiàn)更快的推理速度和更優(yōu)性能。

為豐富上下文建模,研究者還提出了隨機(jī)性和混合解碼策略。SAIM [102]、RandAR [103] 和 RAR [104] 通過(guò)隨機(jī)打亂圖像塊的預(yù)測(cè)順序,以克服固定的光柵掃描(raster)偏置;SAR [105] 則將因果學(xué)習(xí)推廣至任意順序和跳躍間隔?;旌峡蚣苓M(jìn)一步融合不同范式:RAL [106] 利用對(duì)抗策略梯度緩解暴露偏差(exposure bias);ImageBART [107] 將分層擴(kuò)散更新與 AR 解碼交錯(cuò)進(jìn)行;DisCo-Diff [108] 則在擴(kuò)散解碼器中引入離散潛在表示,實(shí)現(xiàn)了當(dāng)時(shí)最優(yōu)的 FID 性能。

3)基于多 token 的方法。為提升生成效率,近期的 AR 模型已從逐個(gè)生成 token 轉(zhuǎn)向以組為單位預(yù)測(cè)多個(gè) token,在不損失質(zhì)量的前提下顯著加速生成過(guò)程。Next Patch Prediction(NPP)[109] 將圖像 token 聚合為信息密度更高的 patch 級(jí) token,從而大幅縮短序列長(zhǎng)度。類似地,Next Block Prediction(NBP)[110] 將分組擴(kuò)展到更大的空間塊,例如整行或完整幀。Neighboring AR(NAR)[111] 提出使用局部化的“近鄰”機(jī)制向外預(yù)測(cè);Parallel Autoregression(PAR)[112] 則將 token 劃分為互不相交的子集以實(shí)現(xiàn)并行解碼。MAR [25] 放棄了離散分詞和固定順序,轉(zhuǎn)而采用連續(xù)表征,并使用擴(kuò)散損失進(jìn)行訓(xùn)練。

除空間分組外,VAR [113] 提出了由粗到細(xì)的“下一尺度”(next-scale)范式,啟發(fā)了一系列先進(jìn)方法,包括 FlowAR [114]、M-VAR [115]、FastVAR [116] 和 FlexVAR [117]。一些基于頻域的方法則在頻譜層面分解生成過(guò)程:FAR [118] 和 NFIG [119] 先合成低頻結(jié)構(gòu),再逐步細(xì)化高頻細(xì)節(jié)。xAR [120] 則在一個(gè)統(tǒng)一框架下抽象地整合了多種自回歸單元,包括圖像塊(patches)、單元格(cells)、尺度(scales)乃至整幅圖像。這些多 token 方法表明,在現(xiàn)代圖像生成中,合理定義自回歸單元對(duì)于在保真度、效率和可擴(kuò)展性之間取得平衡至關(guān)重要。

控制機(jī)制也已被集成到自回歸解碼器中,以實(shí)現(xiàn)更精確的編輯。ControlAR [121] 在解碼過(guò)程中引入邊緣圖、深度線索等空間約束,從而實(shí)現(xiàn)對(duì) token 級(jí)編輯的細(xì)粒度控制。ControlVAR [122] 進(jìn)一步發(fā)展了這一理念,通過(guò)對(duì)圖像級(jí)特征施加尺度感知的條件控制,增強(qiáng)了生成結(jié)果的一致性與可編輯性。CAR [123] 則在類似概念基礎(chǔ)上進(jìn)行了擴(kuò)展,聚焦于自回歸模型中的高級(jí)控制機(jī)制,以提升視覺(jué)輸出的細(xì)節(jié)表現(xiàn)力和適應(yīng)性。

針對(duì)涉及多個(gè)對(duì)象或時(shí)間上連貫序列的復(fù)雜場(chǎng)景,Many-to-Many Diffusion(M2M)[124] 將自回歸框架適配于多幀生成任務(wù),確保跨圖像的語(yǔ)義一致性和時(shí)間連貫性。MSGNet [125] 結(jié)合 VQ-VAE 與自回歸建模,在場(chǎng)景中多個(gè)實(shí)體之間保持空間-語(yǔ)義對(duì)齊。在醫(yī)學(xué)領(lǐng)域,MVG [126] 將自回歸圖像到圖像生成擴(kuò)展至分割、合成和去噪等任務(wù),通過(guò)配對(duì)的提示-圖像輸入進(jìn)行條件生成。

這些文本到圖像生成的自回歸方法為模型架構(gòu)和視覺(jué)建模技術(shù)奠定了基礎(chǔ),有效推動(dòng)了面向理解與生成的統(tǒng)一多模態(tài)模型的研究進(jìn)展。


3 面向理解與生成的統(tǒng)一多模態(tài)模型

統(tǒng)一多模態(tài)模型旨在構(gòu)建單一架構(gòu),能夠跨多種模態(tài)同時(shí)進(jìn)行理解和生成。這類模型被設(shè)計(jì)用于處理多樣化的輸入形式(例如文本、圖像、視頻、音頻),并以統(tǒng)一的方式在一種或多種模態(tài)中生成輸出。一個(gè)典型的統(tǒng)一多模態(tài)框架可抽象為三個(gè)核心組件:

  • 模態(tài)特定編碼器(modality-specific encoders):將不同輸入模態(tài)投影到統(tǒng)一的表征空間;
  • 模態(tài)融合主干網(wǎng)絡(luò)(modality-fusion backbone):整合來(lái)自多個(gè)模態(tài)的信息,并支持跨模態(tài)推理;
  • 模態(tài)特定解碼器(modality-specific decoders):在目標(biāo)模態(tài)中生成輸出(例如文本生成或圖像合成)。

本節(jié)主要聚焦于支持視覺(jué)-語(yǔ)言理解與生成的統(tǒng)一多模態(tài)模型,即能夠同時(shí)接收?qǐng)D像和文本作為輸入,并輸出文本或圖像的模型。如圖 5 所示,現(xiàn)有統(tǒng)一模型大致可分為三大類:基于擴(kuò)散的模型、基于自回歸的模型,以及融合自回歸與擴(kuò)散機(jī)制的模型(fused AR + diffusion models)。



對(duì)于自回歸模型,我們進(jìn)一步根據(jù)其模態(tài)編碼方法細(xì)分為四個(gè)子類別:

  1. 基于像素的編碼(pixel-based encoding)
  2. 基于語(yǔ)義的編碼(semantic-based encoding)
  3. 基于可學(xué)習(xí)查詢的編碼(learnable query-based encoding)
  4. 混合編碼(hybrid encoding)

這些編碼策略代表了處理視覺(jué)與文本數(shù)據(jù)的不同方式,導(dǎo)致多模態(tài)表征在集成程度和靈活性上存在差異。

融合 AR + 擴(kuò)散的模型則根據(jù)模態(tài)編碼方式分為兩類:基于像素的編碼和混合編碼。這類模型結(jié)合了自回歸與擴(kuò)散技術(shù)的優(yōu)勢(shì),為實(shí)現(xiàn)更統(tǒng)一、高效的多模態(tài)生成提供了有前景的路徑。

在接下來(lái)的小節(jié)中,我們將深入探討每一類模型:

  • 第 3.1 節(jié)探討基于擴(kuò)散的模型,討論其在從含噪表征中生成高質(zhì)量圖像和文本方面的獨(dú)特優(yōu)勢(shì);
  • 第 3.2 節(jié)聚焦基于自回歸的模型,詳細(xì)分析不同編碼方法如何影響其在視覺(jué)-語(yǔ)言任務(wù)中的性能;
  • 第 3.3 節(jié)涵蓋融合 AR + 擴(kuò)散的模型,考察這兩種范式結(jié)合如何增強(qiáng)多模態(tài)生成能力。

最后,我們將討論擴(kuò)展至任意到任意(any-to-any)的多模態(tài)模型,該類模型將上述框架從視覺(jué)與語(yǔ)言推廣至更廣泛的模態(tài)(如音頻、視頻和語(yǔ)音),旨在構(gòu)建通用、通用目的的生成模型。

3.1 擴(kuò)散模型

擴(kuò)散模型在圖像生成領(lǐng)域取得了顯著成功,這主要?dú)w功于若干關(guān)鍵優(yōu)勢(shì)。
首先,與生成對(duì)抗網(wǎng)絡(luò)(GANs)相比,擴(kuò)散模型能提供更優(yōu)的樣本質(zhì)量,具有更好的模式覆蓋能力,并有效緩解模式崩潰和訓(xùn)練不穩(wěn)定等常見(jiàn)問(wèn)題 [201]。
其次,其訓(xùn)練目標(biāo)——從輕微擾動(dòng)的數(shù)據(jù)中預(yù)測(cè)所添加的噪聲——是一個(gè)簡(jiǎn)單的監(jiān)督學(xué)習(xí)任務(wù),避免了對(duì)抗訓(xùn)練中的動(dòng)態(tài)不穩(wěn)定性。
第三,擴(kuò)散模型具有高度靈活性,允許在采樣過(guò)程中融入多種條件信號(hào),例如分類器引導(dǎo)(classifier guidance)[201] 和無(wú)分類器引導(dǎo)(classifier-free guidance)[202],從而增強(qiáng)可控性與生成保真度。此外,噪聲調(diào)度策略的改進(jìn) [203] 以及加速采樣技術(shù)的發(fā)展 [204], [205] 顯著降低了計(jì)算負(fù)擔(dān),使擴(kuò)散模型日益高效且可擴(kuò)展。

借助這些優(yōu)勢(shì),研究者已將擴(kuò)散模型從單模態(tài)任務(wù)拓展至多模態(tài)生成,旨在構(gòu)建一個(gè)統(tǒng)一框架,同時(shí)支持文本與圖像輸出。如圖 5(a) 所示,在多模態(tài)擴(kuò)散模型中,去噪過(guò)程不僅以時(shí)間步和噪聲為條件,還以多模態(tài)上下文(如文本描述、圖像或聯(lián)合嵌入)為條件。這種擴(kuò)展實(shí)現(xiàn)了跨模態(tài)的同步生成,并在生成結(jié)果之間建立了豐富的語(yǔ)義對(duì)齊。

代表性工作之一是 Dual Diffusion [127],它引入了一種雙分支擴(kuò)散過(guò)程,用于聯(lián)合生成文本與圖像。具體而言,給定一個(gè)圖文對(duì),Dual Diffusion 首先使用預(yù)訓(xùn)練的 T5 編碼器 [23](采用 softmax 概率建模)對(duì)文本進(jìn)行編碼,獲得離散的文本表征;同時(shí)使用 Stable Diffusion [14] 中的 VAE 編碼器對(duì)圖像進(jìn)行編碼,得到連續(xù)的圖像潛在表示。隨后,文本和圖像潛在變量分別通過(guò)獨(dú)立的前向擴(kuò)散過(guò)程被加噪,在每個(gè)時(shí)間步生成對(duì)應(yīng)的帶噪潛在變量。在反向過(guò)程中,模型使用兩個(gè)模態(tài)特定的去噪器——基于 Transformer 的文本去噪器和基于 UNet 的圖像去噪器——聯(lián)合對(duì)文本和圖像潛在變量進(jìn)行去噪。關(guān)鍵在于,每個(gè)時(shí)間步中,兩個(gè)去噪器都引入跨模態(tài)條件:文本潛在變量關(guān)注圖像潛在變量,反之亦然,從而在整個(gè)去噪軌跡中實(shí)現(xiàn)模態(tài)間的語(yǔ)義對(duì)齊。去噪完成后,文本潛在變量通過(guò) T5 解碼器還原為自然語(yǔ)言,圖像潛在變量則通過(guò) VAE 解碼器重建為高保真圖像。訓(xùn)練由兩個(gè)獨(dú)立的損失項(xiàng)監(jiān)督:圖像分支最小化標(biāo)準(zhǔn)的噪聲預(yù)測(cè)損失,文本分支則最小化對(duì)比對(duì)數(shù)損失(contrastive log-loss)。通過(guò)耦合兩條擴(kuò)散鏈并引入顯式的跨模態(tài)交互,Dual Diffusion 實(shí)現(xiàn)了從純?cè)肼暢霭l(fā)的連貫且可控的多模態(tài)生成。

與 Dual Diffusion [127] 不同(后者通過(guò) Stable Diffusion [14] 將離散文本擴(kuò)散與連續(xù)圖像擴(kuò)散結(jié)合),UniDisc[128] 采用完全離散的擴(kuò)散框架,從零開(kāi)始訓(xùn)練一個(gè)擴(kuò)散 Transformer(Diffusion Transformer)[206]。它使用 LLaMA2 分詞器 [2] 對(duì)文本進(jìn)行分詞,并利用 MAGVIT-v2 編碼器 [207] 將圖像轉(zhuǎn)換為離散 token,從而在統(tǒng)一的離散 token 空間中融合兩種模態(tài)。這些 token 經(jīng)歷一個(gè)離散前向擴(kuò)散過(guò)程,其中結(jié)構(gòu)化噪聲被同時(shí)施加到所有模態(tài)上。在反向過(guò)程中,UniDisc 逐步去噪這些 token,生成連貫序列。隨后,LLaMA2 和 MAGVIT-v2 解碼器將這些序列分別轉(zhuǎn)換為高質(zhì)量的文本和圖像。通過(guò)全離散方法,UniDisc 實(shí)現(xiàn)了文本與圖像 token 的同步優(yōu)化,提升了推理效率,并支持靈活的跨模態(tài)條件控制。

與早期基于離散擴(kuò)散的方法不同,FUDOKI [130] 提出了一種基于離散流匹配(discrete flow matching)[208] 的新型生成方法。在該框架下,F(xiàn)UDOKI 通過(guò)一條動(dòng)力學(xué)最優(yōu)、由度量誘導(dǎo)的概率軌跡,直接建模噪聲分布與數(shù)據(jù)分布之間的路徑。這一設(shè)計(jì)引入了連續(xù)的自校正機(jī)制,在生成效果上明顯優(yōu)于早期模型所采用的簡(jiǎn)單掩碼策略。FUDOKI 的模型架構(gòu)基于 Janus-1.5B [174],但為支持統(tǒng)一的視覺(jué)-語(yǔ)言離散流建模,進(jìn)行了關(guān)鍵修改:
一是將標(biāo)準(zhǔn)的因果掩碼替換為全注意力掩碼,使每個(gè) token 都能關(guān)注所有其他 token,從而增強(qiáng)全局上下文理解能力。盡管這一改動(dòng)移除了顯式的因果結(jié)構(gòu),但模型仍可通過(guò)將輸出 logits 整體偏移一位來(lái)支持下一 token 預(yù)測(cè)。
二是 FUDOKI 不依賴擴(kuò)散模型中常見(jiàn)的顯式時(shí)間步嵌入,而是直接從輸入數(shù)據(jù)中推斷當(dāng)前的“損壞”(corruption)狀態(tài)。
此外,F(xiàn)UDOKI 延續(xù) Janus-1.5B 的設(shè)計(jì),將理解與生成路徑解耦:使用 SigLIP 編碼器 [209] 提取用于圖像理解的高層語(yǔ)義特征,而圖像生成則通過(guò) LlamaGen [24] 中基于 VQGAN 的分詞器將圖像編碼為低層離散 token 序列。在輸出階段,Janus-1.5B 主干網(wǎng)絡(luò)生成的特征嵌入被送入模態(tài)特定的輸出頭,分別生成最終的文本和圖像。

類似地,Muddit [131] 提出了一種基于純離散擴(kuò)散框架的統(tǒng)一模型,用于文本與圖像的雙向生成。其架構(gòu)包含一個(gè)單一的多模態(tài)擴(kuò)散 Transformer(MM-DiT),結(jié)構(gòu)設(shè)計(jì)類似于 FLUX [210]。為利用強(qiáng)大的圖像先驗(yàn),MM-DiT 生成器初始化自 Meissonic [211]——一個(gè)專為高分辨率合成而廣泛訓(xùn)練的模型。兩種模態(tài)均被量化到共享的離散空間:圖像通過(guò)預(yù)訓(xùn)練的 VQ-VAE [32] 編碼為碼本索引,文本則通過(guò) CLIP 模型 [22] 提供 token 嵌入。在統(tǒng)一訓(xùn)練過(guò)程中,Muddit 采用余弦調(diào)度策略進(jìn)行 token 掩碼,并訓(xùn)練單一的 MM-DiT 生成器根據(jù)另一模態(tài)條件預(yù)測(cè)干凈的 token。輸出時(shí),輕量級(jí)線性頭解碼文本 token,VQ-VAE 解碼器重建圖像,從而實(shí)現(xiàn)單套參數(shù)同時(shí)處理文本與圖像生成。

在此基礎(chǔ)上,MMaDA [129] 進(jìn)一步將擴(kuò)散范式擴(kuò)展為統(tǒng)一的多模態(tài)基礎(chǔ)模型。它采用 LLaDA-8B-Instruct [212] 作為語(yǔ)言主干,并使用 MAGVIT-v2 [213] 圖像分詞器將圖像轉(zhuǎn)換為離散語(yǔ)義 token。這一統(tǒng)一的 token 空間使得生成過(guò)程中可無(wú)縫進(jìn)行多模態(tài)條件控制。為提升跨模態(tài)對(duì)齊,MMaDA 引入了一種混合思維鏈(mixed chain-of-thought, CoT)微調(diào)策略,統(tǒng)一了文本與視覺(jué)任務(wù)的推理格式。這種對(duì)齊機(jī)制支持“冷啟動(dòng)”強(qiáng)化學(xué)習(xí)(cold-start RL),使模型從訓(xùn)練初期即可有效進(jìn)行后訓(xùn)練優(yōu)化。此外,MMaDA 還提出了一種新穎的 UniGRPO 方法——一種專為擴(kuò)散模型設(shè)計(jì)的統(tǒng)一策略梯度強(qiáng)化學(xué)習(xí)算法。UniGRPO 利用多樣化的獎(jiǎng)勵(lì)信號(hào)(如事實(shí)正確性、圖文對(duì)齊度和用戶偏好),在推理與生成任務(wù)上同時(shí)進(jìn)行后訓(xùn)練優(yōu)化,確保模型在廣泛能力維度上持續(xù)提升,而非過(guò)擬合于單一任務(wù)獎(jiǎng)勵(lì)。

盡管上述方法頗具創(chuàng)新性,統(tǒng)一離散擴(kuò)散模型仍面臨顯著挑戰(zhàn)與局限。
首要問(wèn)題是推理效率。盡管 Mercury [214] 和 Gemini Diffusion [215] 等模型展示了高速并行 token 生成的潛力,但大多數(shù)開(kāi)源離散擴(kuò)散模型在實(shí)際推理速度上仍落后于自回歸模型。這一差距主要源于缺乏對(duì) key-value 緩存的支持,以及在并行解碼多個(gè) token 時(shí)生成質(zhì)量顯著下降的問(wèn)題。
其次,訓(xùn)練難度也制約了擴(kuò)散模型的有效性。與自回歸訓(xùn)練中每個(gè) token 都提供學(xué)習(xí)信號(hào)不同,離散擴(kuò)散訓(xùn)練僅對(duì)隨機(jī)選擇的掩碼 token 子集計(jì)算損失,導(dǎo)致監(jiān)督信號(hào)稀疏,訓(xùn)練語(yǔ)料利用率低且方差高。
此外,這些模型存在長(zhǎng)度偏差(length bias),難以泛化到不同輸出長(zhǎng)度,因?yàn)樗鼈內(nèi)狈ψ曰貧w模型中天然存在的結(jié)束符(如 EOS token)作為停止機(jī)制。
架構(gòu)與基礎(chǔ)設(shè)施方面也亟需改進(jìn)。許多現(xiàn)有模型直接復(fù)用為自回歸系統(tǒng)設(shè)計(jì)的架構(gòu),這種工程上的簡(jiǎn)化選擇并不總是適合擴(kuò)散過(guò)程——擴(kuò)散旨在建模聯(lián)合數(shù)據(jù)分布,其本質(zhì)與自回歸模型的序列生成機(jī)制截然不同。在基礎(chǔ)設(shè)施層面,離散擴(kuò)散模型的支持仍十分有限:相比自回歸模型成熟的框架生態(tài),它們?nèi)狈ν晟频挠?xùn)練/推理流水線和健壯的開(kāi)源工具,這阻礙了公平比較、延緩了研究進(jìn)展,并增加了實(shí)際部署的復(fù)雜性。

綜上所述,要推動(dòng)統(tǒng)一離散擴(kuò)散模型的能力提升與實(shí)際應(yīng)用,必須協(xié)同解決推理、訓(xùn)練、架構(gòu)和基礎(chǔ)設(shè)施等相互關(guān)聯(lián)的挑戰(zhàn)。

3.2 自回歸模型

統(tǒng)一多模態(tài)理解與生成模型的一個(gè)主要方向采用自回歸(Autoregressive, AR)架構(gòu),其中視覺(jué)和語(yǔ)言 token 通常被序列化并按順序建模。在這些模型中,主干網(wǎng)絡(luò)通常是一個(gè) Transformer,其結(jié)構(gòu)源自大型語(yǔ)言模型(LLMs),例如 LLaMA 系列 [1]、[2]、[216]、Vicuna [58]、Gemma 系列 [217]–[219] 以及 Qwen 系列 [5]、[6]、[9]、[10],作為統(tǒng)一的模態(tài)融合模塊,以自回歸方式預(yù)測(cè)多模態(tài)輸出。

為將視覺(jué)信息整合進(jìn) AR 框架,如圖 5 所示,現(xiàn)有方法在模態(tài)編碼階段提出了不同的圖像分詞策略。這些方法大致可分為四類:基于像素的編碼(pixel-based)、基于語(yǔ)義的編碼(semantic-based)、基于可學(xué)習(xí)查詢的編碼(learnable query-based)以及混合編碼(hybrid-based)。

1)基于像素的編碼如圖 5(b-1) 所示,基于像素的編碼通常指通過(guò)預(yù)訓(xùn)練的自編碼器(僅以圖像重建為目標(biāo)進(jìn)行監(jiān)督)將圖像表示為連續(xù)或離散 token,例如 VQGAN 類模型 [32]、[220]–[222]。這些編碼器將高維像素空間壓縮為緊湊的潛在空間,其中每個(gè)空間圖像塊對(duì)應(yīng)一個(gè)圖像 token。在統(tǒng)一的多模態(tài)自回歸模型中,由此類編碼器序列化的圖像 token 與文本 token 類似處理,使得兩種模態(tài)可在單一序列中聯(lián)合建模。

近期工作通過(guò)不同編碼器設(shè)計(jì)對(duì)基于像素的分詞進(jìn)行了改進(jìn)。LWM [29] 使用 VQGAN 分詞器 [32] 將圖像編碼為離散潛在碼,無(wú)需語(yǔ)義監(jiān)督。它提出了一種多模態(tài)世界建??蚣?,將視覺(jué)與文本 token 序列化后進(jìn)行統(tǒng)一的自回歸建模。LWM 僅通過(guò)基于重建的視覺(jué) token 和文本描述學(xué)習(xí)世界動(dòng)態(tài),證明了在不依賴專門語(yǔ)義分詞的情況下,大規(guī)模多模態(tài)生成是可行的。

Chameleon [30] 和 ANOLE [132] 采用 VQ-IMG [222]——一種專為內(nèi)容豐富的圖像生成設(shè)計(jì)的改進(jìn)型 VQ-VAE。相比標(biāo)準(zhǔn) VQGAN 分詞器,VQ-IMG 采用更深的編碼器、更大的感受野,并引入殘差預(yù)測(cè)機(jī)制,以更好地保留復(fù)雜視覺(jué)細(xì)節(jié)。這一增強(qiáng)使 Chameleon 和 ANOLE 能更忠實(shí)地序列化圖像內(nèi)容,從而支持高質(zhì)量的多模態(tài)生成。此外,這些模型支持交錯(cuò)生成(interleaved generation),允許在統(tǒng)一的自回歸框架內(nèi)交替生成文本與圖像 token。

Emu3 [133]、SynerGen-VL [136] 和 UGen [138] 采用 SBER-MoVQGAN [220]、[221]——一種多尺度 VQGAN 變體,可將圖像編碼為同時(shí)捕捉全局結(jié)構(gòu)與細(xì)粒度細(xì)節(jié)的潛在表示。通過(guò)多尺度分詞,這些模型提升了視覺(jué)表征在自回歸建模中的表達(dá)能力,同時(shí)保持高效的訓(xùn)練吞吐量。

與 LWM [29] 類似,Liquid [137] 使用 VQGAN 風(fēng)格的分詞器,并揭示了一個(gè)新見(jiàn)解:當(dāng)視覺(jué)理解與生成在單一自回歸目標(biāo)和共享視覺(jué) token 表示下統(tǒng)一時(shí),二者可相互促進(jìn)。

此外,MMAR [134]、Orthus [135] 和 Harmon [139] 提出使用其對(duì)應(yīng)編碼器提取的連續(xù)值圖像 token,避免了離散化帶來(lái)的信息損失。它們還將擴(kuò)散過(guò)程與 AR 主干解耦,在每個(gè)自回歸生成的圖像塊嵌入之上疊加輕量級(jí)擴(kuò)散頭。該設(shè)計(jì)確保主干網(wǎng)絡(luò)的隱藏表征不局限于最終去噪步驟,從而促進(jìn)更好的圖像理解。

TokLIP [140] 將低層離散 VQGAN 分詞器與基于 ViT 的 token 編碼器 SigLIP [209] 結(jié)合,以捕獲高層連續(xù)語(yǔ)義,不僅賦予視覺(jué) token 高層語(yǔ)義理解能力,也增強(qiáng)了底層生成能力。

Selftok [141] 引入了一種新穎的離散視覺(jué)自一致性分詞器,在高質(zhì)量重建與壓縮率之間取得良好平衡,同時(shí)支持有效的視覺(jué)強(qiáng)化學(xué)習(xí)中的最優(yōu)策略改進(jìn)。

除 MMAR [134] 和 Harmon [139] 外,上述模型在預(yù)訓(xùn)練和生成階段均采用因果注意力掩碼,確保每個(gè) token 僅關(guān)注序列中先前的 token。它們使用下一 token 預(yù)測(cè)損失進(jìn)行訓(xùn)練,圖像與文本 token 均以自回歸方式預(yù)測(cè),從而實(shí)現(xiàn)跨模態(tài)的統(tǒng)一訓(xùn)練目標(biāo)。

值得注意的是,在基于像素的編碼方法中,用于從潛在 token 重建圖像的解碼器通常沿用 VQGAN 類模型最初提出的配對(duì)解碼器結(jié)構(gòu)。這些解碼器是輕量級(jí)卷積架構(gòu),專門優(yōu)化用于將離散潛在網(wǎng)格映射回像素空間,主要聚焦于準(zhǔn)確的底層重建,而非高層語(yǔ)義推理。

此外,由于 MMAR [134]、Orthus [135] 和 Harmon [139] 等方法將圖像分詞為連續(xù)潛在變量,它們采用輕量級(jí)擴(kuò)散 MLP 作為解碼器,將連續(xù)潛在變量映射回像素空間。

盡管有效,基于像素的編碼方法仍面臨若干固有局限:第一,由于視覺(jué) token 僅針對(duì)像素級(jí)重建優(yōu)化,往往缺乏高層語(yǔ)義抽象,使得文本與圖像表征之間的跨模態(tài)對(duì)齊更具挑戰(zhàn)性。第二,像素級(jí)分詞傾向于生成密集的 token 網(wǎng)格,顯著增加序列長(zhǎng)度(尤其在高分辨率圖像下),導(dǎo)致自回歸訓(xùn)練與推理過(guò)程中巨大的計(jì)算與內(nèi)存開(kāi)銷,限制了可擴(kuò)展性。第三,由于底層視覺(jué)編碼器以重建為中心進(jìn)行訓(xùn)練,所得視覺(jué) token 可能保留模態(tài)特異性偏差,例如對(duì)紋理和底層模式過(guò)度敏感,而這對(duì)于語(yǔ)義理解或細(xì)粒度跨模態(tài)推理未必最優(yōu)。

2)基于語(yǔ)義的編碼為克服像素級(jí)編碼器的語(yǔ)義局限,越來(lái)越多的工作采用語(yǔ)義編碼:如圖 5(b-2) 所示,圖像輸入通過(guò)預(yù)訓(xùn)練的文本對(duì)齊視覺(jué)編碼器處理,例如 OpenAI-CLIP [22]、SigLIP [209]、EVA-CLIP [36],或更近期的統(tǒng)一分詞器如 UNIT [223]。

部分模型利用多模態(tài)自回歸模型編碼的多模態(tài)特征作為擴(kuò)散模型的條件,從而在保留多模態(tài)理解能力的同時(shí)實(shí)現(xiàn)圖像生成。例如:

  • OmniGen2 [158] 利用 Qwen2.5-VL [10] 作為多模態(tài)模型,結(jié)合增強(qiáng)版 OmniGen [224] 作為圖像擴(kuò)散模型;
  • Ovis-U1 [159] 在多模態(tài)模型 Ovis [12] 基礎(chǔ)上,通過(guò)定制設(shè)計(jì)的擴(kuò)散 Transformer 擴(kuò)展為統(tǒng)一模型;
  • Qwen-Image [161] 同樣基于 Qwen2.5-VL [10],集成擴(kuò)散 Transformer 實(shí)現(xiàn)統(tǒng)一生成。

然而,大多數(shù)此類模型在大規(guī)模圖文對(duì)上通過(guò)對(duì)比學(xué)習(xí)或回歸目標(biāo)進(jìn)行訓(xùn)練,生成的視覺(jué)嵌入在共享語(yǔ)義空間中與語(yǔ)言特征高度對(duì)齊。這類表征能實(shí)現(xiàn)更有效的跨模態(tài)對(duì)齊,特別有利于多模態(tài)理解與生成。

多個(gè)代表性模型利用不同的語(yǔ)義編碼器和架構(gòu)設(shè)計(jì)支持統(tǒng)一多模態(tài)任務(wù):

  • Emu [142]、Emu2 [33] 和 LaViT [143] 均采用 EVA-CLIP [36] 作為視覺(jué)編碼器。其中,Emu [142] 首次提出結(jié)合凍結(jié)的 EVA-CLIP 編碼器、大語(yǔ)言模型和擴(kuò)散解碼器,統(tǒng)一支持 VQA、圖像描述和圖像生成;Emu2 [33] 在此基礎(chǔ)上提出簡(jiǎn)化且可擴(kuò)展的統(tǒng)一多模態(tài)預(yù)訓(xùn)練框架,并將 MLLM 擴(kuò)展至 37B 參數(shù),顯著提升理解與生成能力。
  • Bifrost-1 [162] 使用兩個(gè)語(yǔ)義編碼器:ViT 用于生成,MLLM(Qwen2.5-VL)中使用的編碼器用于理解,通過(guò)預(yù)測(cè)的 CLIP 潛在變量橋接 MLLM 與擴(kuò)散模型。
  • LaViT [143] 在 EVA-CLIP 基礎(chǔ)上構(gòu)建動(dòng)態(tài)視覺(jué)分詞機(jī)制,通過(guò)選擇器與合并模塊根據(jù)內(nèi)容復(fù)雜度自適應(yīng)地從圖像嵌入中選擇視覺(jué) token,動(dòng)態(tài)決定每張圖像的視覺(jué) token 序列長(zhǎng)度,顯著減少冗余信息、保留關(guān)鍵視覺(jué)線索,提升描述、VQA 和圖像生成等任務(wù)的訓(xùn)練效率與生成質(zhì)量。

DreamLLM [34]、VL-GPT [35]、MM-Interleaved [144] 和 PUMA [147] 采用 OpenAI-CLIP 編碼器 [22]:

  • DreamLLM [34] 引入輕量線性投影對(duì)齊 CLIP 嵌入與語(yǔ)言 token;
  • VL-GPT [35] 在 CLIP 視覺(jué)編碼器后接強(qiáng)大因果 Transformer,有效保留原始圖像的語(yǔ)義信息與像素細(xì)節(jié);
  • MM-Interleaved [144] 和 PUMA [147] 通過(guò)帶簡(jiǎn)單 ViT-Adapter 或池化操作的 CLIP 分詞器提取多粒度圖像特征,支持細(xì)粒度特征融合,從而實(shí)現(xiàn)豐富的多模態(tài)生成。

Mini-Gemini [145] 引入視覺(jué) token 增強(qiáng)機(jī)制,需雙語(yǔ)義編碼器:使用 CLIP 預(yù)訓(xùn)練 ViT 編碼器 [22] 獲取全局視覺(jué) token,同時(shí)用 LAION 預(yù)訓(xùn)練 ConvNeXt 編碼器提供密集局部視覺(jué)信息,再通過(guò)交叉注意力模塊用局部細(xì)節(jié)精煉全局 token,隨后與文本 token 一起送入 LLM 進(jìn)行聯(lián)合理解與生成,有效彌合 CLIP 特征的語(yǔ)義抽象與密集編碼器的像素級(jí)精度。

MetaMorph [148] 采用 SigLIP [209] 提取視覺(jué)嵌入,并在預(yù)訓(xùn)練語(yǔ)言模型中引入模態(tài)特定適配器,插入多個(gè) Transformer 層,實(shí)現(xiàn)比淺層投影更深入的視覺(jué)-語(yǔ)言交互。

ILLUME [149] 采用 UNIT [223] 作為視覺(jué)編碼器,提供兼顧語(yǔ)義對(duì)齊與像素保真度的統(tǒng)一表征。不同于純對(duì)比目標(biāo)的 CLIP 類編碼器,UNIT [223] 聯(lián)合訓(xùn)練圖像重建與對(duì)比對(duì)齊損失,生成的 token 同時(shí)適用于視覺(jué)-語(yǔ)言理解和圖像合成。基于強(qiáng)大的 UNIT 分詞器,ILLUME 有效生成兼具語(yǔ)義與像素信息的圖像 token,在描述、VQA、文本到圖像及交錯(cuò)生成等任務(wù)中表現(xiàn)優(yōu)異。

類似地,VILA-U [146] 和 UniTok [150] 模仿 UNIT [223],引入圖像-文本對(duì)比學(xué)習(xí),獲得一種新型文本對(duì)齊視覺(jué)分詞器,平衡語(yǔ)義對(duì)齊與像素保真度。

QLIP [151] 通過(guò)二值球面量化(binary-spherical quantization)解決重建與圖文對(duì)齊任務(wù)間的潛在沖突。

Tar [157] 利用 LLM 詞匯初始化視覺(jué)碼本,并引入尺度自適應(yīng)池化與解碼方法,使模型可根據(jù)需求調(diào)整分詞器長(zhǎng)度:粗粒度用于高效生成,細(xì)粒度用于全面理解。在生成任務(wù)中,Tar 利用擴(kuò)散技術(shù)增強(qiáng) AR 模型的視覺(jué)生成效果。

UniFork [153] 利用 VILA-U 的文本對(duì)齊視覺(jué)特征,但不同于完全共享參數(shù)的理解與生成 MLLM,UniFork 僅在淺層共享參數(shù),深層則由不同網(wǎng)絡(luò)處理各自任務(wù),成功平衡共享學(xué)習(xí)與任務(wù)特異性專業(yè)化。

UniCode2 [154] 采用級(jí)聯(lián)碼本:沿用 [225] 方法,使用聚類 SigLIP 特征構(gòu)建的大規(guī)模碼本作為凍結(jié)基礎(chǔ)碼本,同時(shí)引入可學(xué)習(xí)補(bǔ)充碼本以精煉特定任務(wù)語(yǔ)義,提升利用率并促進(jìn)穩(wěn)健學(xué)習(xí)。

近期工作 DualToken [152] 利用 SigLIP 的淺層特征用于重建、深層特征用于語(yǔ)義學(xué)習(xí),同時(shí)獲取紋理與語(yǔ)義視覺(jué)特征,在重建與語(yǔ)義任務(wù)中均表現(xiàn)優(yōu)越,并在下游 MLLM 理解與生成任務(wù)中效果顯著。

X-Omni [160] 采用 SigLIP-VQ 作為視覺(jué)編碼器,并利用強(qiáng)化學(xué)習(xí)緩解自回歸推理中的累積誤差及離散編碼固有的信息損失,大幅增強(qiáng)離散自回歸模型的生成質(zhì)量,實(shí)現(xiàn)圖像與語(yǔ)言生成的無(wú)縫融合。

在大多數(shù)此類模型中,MLLM 訓(xùn)練時(shí)采用因果注意力掩碼,并使用下一 token 預(yù)測(cè)損失優(yōu)化文本與視覺(jué) token 的生成。在圖像生成方面,多數(shù)模型通常采用基于擴(kuò)散的解碼器(如 SD 系列 [14]、[226]、IP-adapter [227]、FLUX [16]、Lumina-Next [228]),這些解碼器獨(dú)立于 MLLM 訓(xùn)練。推理時(shí),MLLM 生成語(yǔ)義級(jí)視覺(jué) token,再傳遞給擴(kuò)散解碼器完成最終圖像合成。

這種“語(yǔ)義編碼器 + 擴(kuò)散解碼器”的設(shè)計(jì)源于以下事實(shí):語(yǔ)義嵌入編碼高層概念信息,但缺乏直接像素重建所需的空間密度與底層細(xì)節(jié)。而擴(kuò)散模型憑借其迭代去噪機(jī)制,特別適合此場(chǎng)景——即使輸入 token 稀疏或抽象,也能逐步將其精煉為高分辨率、逼真的圖像。

相比之下,少數(shù)方法(如 VILA-U [146] 和 UniTok [150])采用像素級(jí)解碼器,但其生成圖像質(zhì)量不及擴(kuò)散解碼器。因此,擴(kuò)散解碼器為語(yǔ)義壓縮的視覺(jué) token 提供了更魯棒、更具表達(dá)力的解碼路徑,顯著提升圖文對(duì)齊、全局一致性和視覺(jué)保真度。

UniWorld [155] 和 Pisces [156] 進(jìn)一步發(fā)展了這一方案:

  • UniWorld 直接利用預(yù)訓(xùn)練 MLLM 的視覺(jué)理解輸出特征作為高層條件信號(hào),同時(shí)使用 SigLIP 作為低層條件信號(hào),為 DiT 提供全面的語(yǔ)義視覺(jué)控制;
  • Pisces 以 EVA-CLIP 作為視覺(jué)生成條件,并利用擴(kuò)散進(jìn)一步增強(qiáng)模型的視覺(jué)生成輸出。針對(duì)不同任務(wù),Pisces 引入定制的視覺(jué)向量長(zhǎng)度,并使用不同 MLP 編碼條件,既提升模型設(shè)計(jì)靈活性,又降低推理成本(相比單一編碼器配置)。

盡管具有上述優(yōu)勢(shì),語(yǔ)義編碼也存在若干局限:第一,由于底層線索被抽象化,所得視覺(jué) token 在像素級(jí)可控性較差,難以執(zhí)行細(xì)粒度圖像編輯、局部修復(fù)或結(jié)構(gòu)保持變換;第二,語(yǔ)義編碼器通常僅提供全局或中層表征,對(duì)于需要空間對(duì)應(yīng)的任務(wù)(如指代表達(dá)分割或姿態(tài)精確合成)可能不足;第三,由于語(yǔ)義編碼器與擴(kuò)散解碼器通常分開(kāi)訓(xùn)練,缺乏端到端優(yōu)化,可能導(dǎo)致 MLLM 輸出與解碼器期望不匹配,偶爾引發(fā)語(yǔ)義漂移或生成偽影。

3)基于可學(xué)習(xí)查詢的編碼(Learnable Query Encoding)
可學(xué)習(xí)查詢編碼已成為一種有效策略,用于生成自適應(yīng)且任務(wù)相關(guān)的圖像表征。如圖 5(b-3) 所示,該方法不依賴固定的視覺(jué)分詞器或密集圖像塊,而是引入一組可學(xué)習(xí)的查詢 token,動(dòng)態(tài)地從圖像特征中提取信息性內(nèi)容。這些查詢 token 充當(dāng)內(nèi)容感知探針,與視覺(jué)編碼器交互,生成緊湊且語(yǔ)義對(duì)齊的嵌入,非常適合多模態(tài)理解與生成。

目前,可學(xué)習(xí)查詢編碼的實(shí)現(xiàn)大致可分為兩類代表性范式:

第一類以 SEED [163] 為代表,其提出了一種“種子分詞器”(seed tokenizer),用于學(xué)習(xí)因果視覺(jué)嵌入。具體而言,輸入圖像首先通過(guò) BLIP-2 ViT 編碼器 [53] 編碼為密集 token 特征;隨后,這些特征與一組可學(xué)習(xí)查詢 token 拼接,并送入一個(gè)因果 Q-Former,生成因果視覺(jué)嵌入。該設(shè)計(jì)同時(shí)采用圖像-文本對(duì)比學(xué)習(xí)和圖像重建監(jiān)督進(jìn)行訓(xùn)練,使所學(xué)嵌入既能保留底層視覺(jué)細(xì)節(jié),又能捕獲與文本高度對(duì)齊的高層語(yǔ)義。在此基礎(chǔ)上,SEED-LLAMA [164] 和 SEED-X [165] 通過(guò)將主干網(wǎng)絡(luò)從 OPT [229] 替換為更強(qiáng)的 LLaMA2 [2],并將解碼器升級(jí)為 UnCLIP-SD [14] 或 SDXL [226],顯著提升了理解和生成性能。

第二類由 MetaQueries [166] 提出,提供了一種更簡(jiǎn)化的可學(xué)習(xí)查詢編碼方案。該方法使用凍結(jié)的 SigLIP 編碼器 [209] 提取圖像特征,再與可學(xué)習(xí)查詢 token 拼接后,直接送入凍結(jié)的視覺(jué)-語(yǔ)言主干網(wǎng)絡(luò)(如 LLaVA [216] 或 Qwen2.5-VL [10])。輸出的因果嵌入被用作基于擴(kuò)散的圖像解碼器的條件輸入,實(shí)現(xiàn)高質(zhì)量圖像生成。由于主干網(wǎng)絡(luò)保持凍結(jié),其視覺(jué)-語(yǔ)言理解能力與底層預(yù)訓(xùn)練模型一致,提供了一種輕量但高效的多模態(tài)生成方案。

OpenUni [170] 對(duì) MetaQueries 的架構(gòu)進(jìn)行了優(yōu)化,僅使用可學(xué)習(xí)查詢,并在 MLLM 與擴(kuò)散模型之間引入一個(gè)輕量連接器,促進(jìn)連貫的多模態(tài)理解與生成。OpenUni 表明,MLLM 視覺(jué)理解組件與擴(kuò)散生成組件之間的連接器可以極其簡(jiǎn)潔——例如僅包含六層 Transformer 即可。

Nexus-Gen [167] 和 Ming-Lite-Uni [168] 遵循 MetaQueries 范式,但引入了顯著改進(jìn)以進(jìn)一步提升多模態(tài)生成能力:

  • Nexus-Gen [167] 引入了更強(qiáng)大的擴(kuò)散解碼器 FLUX-1.dev,顯著提升生成質(zhì)量,使其能更好地捕捉復(fù)雜圖像生成任務(wù)所需的精細(xì)細(xì)節(jié)與高保真特征;
  • Ming-Lite-Uni [168] 則采用高性能 MLLM 模型 M2-omini [200] 增強(qiáng)視覺(jué)-語(yǔ)言交互,執(zhí)行高級(jí)視覺(jué)-語(yǔ)言條件化以生成條件圖像嵌入,確保更語(yǔ)義對(duì)齊的表征。此外,它通過(guò)引入多尺度可學(xué)習(xí) token 對(duì)擴(kuò)散模型進(jìn)行微調(diào),促進(jìn)不同視覺(jué)尺度間的語(yǔ)義對(duì)齊,從而提升從文本提示生成細(xì)節(jié)豐富、上下文連貫圖像的能力,有效應(yīng)對(duì)分辨率不匹配和語(yǔ)義不一致等挑戰(zhàn)。

Ming-Omni [171] 采用集成的 MoE 架構(gòu),通過(guò)為每個(gè) token 定制的專用機(jī)制實(shí)現(xiàn)模態(tài)特定路由,從而支持定制化的路由分布。為應(yīng)對(duì)視覺(jué)生成中固有的多尺度現(xiàn)象 [113],Ming-Omni 使用多尺度可學(xué)習(xí)查詢,在對(duì)齊策略指導(dǎo)下,從粗到細(xì)迭代生成圖像。此外,Ming-Omni 還整合了音頻模態(tài),并采用兩階段訓(xùn)練策略以緩解音頻理解與生成任務(wù)之間的相互干擾:第一階段側(cè)重理解能力,第二階段聚焦生成質(zhì)量提升。

BLIP3o [169] 同樣利用可學(xué)習(xí)查詢橋接多模態(tài)理解與生成,但采用兩個(gè)擴(kuò)散模型:一個(gè)用于學(xué)習(xí) CLIP 嵌入,另一個(gè)以 CLIP 為條件生成圖像。研究發(fā)現(xiàn),流匹配損失(flow matching loss)比 MSE 損失更有效,能實(shí)現(xiàn)更多樣化的圖像采樣并獲得更優(yōu)圖像質(zhì)量。

UniLIP [172] 通過(guò)自蒸餾逐步將重建能力融入 CLIP,然后結(jié)合可學(xué)習(xí)查詢與 MLLM 最后一層的隱藏狀態(tài)作為聯(lián)合條件,該框架被證明能優(yōu)化視覺(jué)編輯中的豐富信息利用。

為挖掘 MLLM 中間層的層次化表征,TBAC-UniImage [173] 在多個(gè) Transformer 層(而非僅最后一層)應(yīng)用可學(xué)習(xí)查詢。

綜上所述,這些基于可學(xué)習(xí)查詢的設(shè)計(jì)具有共同優(yōu)勢(shì):它們提供自適應(yīng)、緊湊且語(yǔ)義豐富的表征,同時(shí)支持高效的圖像理解與高質(zhì)量生成。通過(guò)聚焦任務(wù)驅(qū)動(dòng)的 token 提取,這類模型為傳統(tǒng)視覺(jué)分詞器提供了靈活且可擴(kuò)展的替代方案,尤其適用于統(tǒng)一多模態(tài)框架。

盡管具有靈活性和良好前景,可學(xué)習(xí)查詢編碼仍存在若干局限,可能限制其廣泛應(yīng)用:
第一,可學(xué)習(xí)查詢 token 會(huì)帶來(lái)額外的計(jì)算開(kāi)銷。隨著查詢數(shù)量增加,模型的內(nèi)存消耗和計(jì)算復(fù)雜度顯著上升,尤其在大規(guī)模數(shù)據(jù)集或復(fù)雜多模態(tài)任務(wù)中更為明顯。此外,若采用固定編碼器(如 MetaQueries 中的做法),模型在面對(duì)與預(yù)訓(xùn)練數(shù)據(jù)分布差異較大的新奇或復(fù)雜視覺(jué)輸入時(shí),靈活性受限。
第二,在 SEED [163] 和 MetaQueries [166] 等方法中,依賴凍結(jié)或預(yù)訓(xùn)練主干會(huì)限制視覺(jué)特征對(duì)下游任務(wù)的適應(yīng)性。雖然凍結(jié)可降低訓(xùn)練成本并保留先驗(yàn)知識(shí),但也阻礙了圖像特征與動(dòng)態(tài)演化的查詢語(yǔ)義之間的深度對(duì)齊,尤其在組合性強(qiáng)或多樣的場(chǎng)景中表現(xiàn)不足。
第三,盡管可學(xué)習(xí)查詢能有效捕獲任務(wù)相關(guān)內(nèi)容,但在處理多樣視覺(jué)內(nèi)容時(shí)未必均勻有效。例如,包含多個(gè)對(duì)象、細(xì)粒度細(xì)節(jié)或模糊視覺(jué)線索的復(fù)雜場(chǎng)景,可能無(wú)法被少量可學(xué)習(xí)查詢充分表征。這一局限在需要生成高度細(xì)節(jié)化輸出時(shí)尤為明顯——固定或小規(guī)模查詢集可能無(wú)法在某些上下文中充分捕捉視覺(jué)輸入的豐富性與變異性。

4)混合編碼(Hybrid Encoding)
為克服單一視覺(jué)表征模態(tài)的固有局限,統(tǒng)一多模態(tài)模型引入了混合編碼策略?;谙袼氐木幋a方法(如 VQ-VAE 或 VQGAN)擅長(zhǎng)保留細(xì)粒度視覺(jué)細(xì)節(jié),但往往缺乏與文本的語(yǔ)義對(duì)齊;而基于語(yǔ)義的編碼器(如 SigLIP 或 CLIP 變體)生成抽象但語(yǔ)義豐富的表征,卻在底層圖像保真度方面表現(xiàn)較弱?;旌暇幋a旨在融合兩者優(yōu)勢(shì),將像素級(jí)與語(yǔ)義級(jí)特征整合為統(tǒng)一表征。

根據(jù)像素 token 與語(yǔ)義 token 的整合方式,混合編碼方法可分為兩類:偽混合編碼(pseudo hybrid encoding)和聯(lián)合混合編碼(joint hybrid encoding)。

偽混合編碼
代表性工作包括 Janus [174]、Janus-Pro [175]、OmniMamba [176]、Unifluid [177] 和 MindOmni [178]。如圖 5(b-4) 所示,這些模型采用雙編碼器——通常是一個(gè)語(yǔ)義編碼器(如 SigLIP)和一個(gè)像素編碼器(如 VQGAN 或 VAE)——但以任務(wù)特定方式使用:

  • 在訓(xùn)練時(shí),語(yǔ)義編碼器分支用于視覺(jué)-語(yǔ)言理解任務(wù),像素編碼器分支用于圖像生成任務(wù);
  • 盡管雙編碼器在聯(lián)合的理解與生成數(shù)據(jù)集上并發(fā)訓(xùn)練,但在推理時(shí):理解任務(wù)不使用像素編碼器,文本到圖像生成任務(wù)則禁用語(yǔ)義編碼器。

然而,在圖像編輯任務(wù)中,Unifluid [177] 使用語(yǔ)義編碼器編碼源圖像,而 MindOmni [178] 則同時(shí)使用 VAE 和語(yǔ)義編碼器編碼源圖像。這種設(shè)計(jì)背后的邏輯是:混合數(shù)據(jù)訓(xùn)練可提升理解與生成任務(wù)的整體性能。

Skywork UniPic [179] 在理解任務(wù)中使用 SigLIP2 作為編碼器,在生成任務(wù)中使用 MAR [25] 作為編碼器。但由于任一時(shí)刻僅激活一個(gè)編碼器,這些模型并未充分發(fā)揮混合編碼的優(yōu)勢(shì)——既未能在生成任務(wù)中利用語(yǔ)義 grounding,也未能在理解任務(wù)中利用高保真視覺(jué)細(xì)節(jié)。因此,這些模型通常采用像素解碼器(如 VQGAN)從潛在碼重建圖像。

聯(lián)合混合編碼
如圖 5(b-5) 所示,聯(lián)合混合編碼方法將語(yǔ)義 token 與像素 token 整合為語(yǔ)言模型或解碼器的單一統(tǒng)一輸入,實(shí)現(xiàn)兩種表征的同時(shí)利用。不同模型采用不同的融合策略:

  • MUSE-VL [180] 和 UniToken [186] 將 SigLIP 與 VQGAN 的特征沿通道維度拼接后送入 LLM;
  • Tokenflow [181] 引入雙編碼器與共享映射的碼本,實(shí)現(xiàn)高層語(yǔ)義與底層像素細(xì)節(jié)的聯(lián)合優(yōu)化;
  • VARGPT [182]、VARGPT-1.1 [184] 和 ILLUME+ [185] 則沿序列維度拼接語(yǔ)義與像素 token,使 LLM 輸入中同時(shí)包含兩類 token;
  • SemHiTok [183] 提出語(yǔ)義引導(dǎo)的層次化碼本(SGHC),在完美繼承語(yǔ)義碼本信息的同時(shí)融入紋理信息,實(shí)現(xiàn)像素級(jí)重建;
  • 與多數(shù)方法不同,Show-o2 [187] 并非直接對(duì)圖像使用不同網(wǎng)絡(luò)分支,而是對(duì) 3DVAE [230] 生成的潛在特征使用獨(dú)立分支處理,并通過(guò)時(shí)空融合模塊聚合各分支輸出,從而同時(shí)捕獲底層與高層視覺(jué)信息。但該操作可能因 3D VAE 對(duì)圖像/視頻的有損壓縮而丟失細(xì)微語(yǔ)義元素,導(dǎo)致視覺(jué)語(yǔ)義細(xì)節(jié)處理欠佳。

通過(guò)整合語(yǔ)義與細(xì)節(jié)視覺(jué)信息,聯(lián)合混合編碼為多模態(tài)理解與生成提供了更魯棒、更具表達(dá)力的建模能力。這些模型既支持像素解碼器(如 VQGAN、Infinity [231]、VAR-D30 [113]),也支持基于擴(kuò)散的解碼器(如 SDXL [226]),從而生成語(yǔ)義對(duì)齊更強(qiáng)、視覺(jué)更逼真的圖像。

盡管混合編碼通過(guò)融合像素級(jí)與語(yǔ)義級(jí)表征的互補(bǔ)優(yōu)勢(shì)展現(xiàn)出廣闊前景,但仍面臨若干挑戰(zhàn):

  • 許多偽混合方法在推理時(shí)未同時(shí)利用雙編碼器,未能充分發(fā)揮細(xì)粒度細(xì)節(jié)與高層語(yǔ)義之間的協(xié)同潛力;
  • 即使在聯(lián)合混合方法中,異構(gòu) token 類型的融合也可能引入模態(tài)不平衡或冗余,若未精心設(shè)計(jì),可能損害下游性能;
  • 雙編碼器架構(gòu)顯著增加了計(jì)算與內(nèi)存開(kāi)銷,在高分辨率或長(zhǎng)序列場(chǎng)景下面臨可擴(kuò)展性挑戰(zhàn);
  • 像素 token 與語(yǔ)義 token 的對(duì)齊仍是一個(gè)非平凡問(wèn)題,隱式不匹配可能導(dǎo)致表征不連貫或?qū)W習(xí)信號(hào)沖突;
  • 當(dāng)前混合編碼技術(shù)常假設(shè)像素與語(yǔ)義 token 之間存在隱式對(duì)齊,但實(shí)踐中這種對(duì)齊并不容易實(shí)現(xiàn)。視覺(jué)細(xì)節(jié)與語(yǔ)義抽象之間的錯(cuò)位可能引發(fā)沖突的監(jiān)督信號(hào)或不一致的表征,尤其在數(shù)據(jù)稀缺或噪聲較多的訓(xùn)練環(huán)境中更為嚴(yán)重。

3.3 融合自回歸與擴(kuò)散模型

融合自回歸(Autoregressive, AR)與擴(kuò)散建模的框架近期已成為統(tǒng)一視覺(jué)-語(yǔ)言生成的一種強(qiáng)大范式。在該范式中,文本 token 以自回歸方式生成,保留了大型語(yǔ)言模型在組合式推理方面的優(yōu)勢(shì);而圖像 token 則通過(guò)多步去噪過(guò)程生成,遵循擴(kuò)散建模的基本原理。這種混合策略使圖像生成無(wú)需按序列順序進(jìn)行,從而提升了視覺(jué)質(zhì)量和全局一致性。

代表性模型如 Transfusion [38]、Show-o [39]、MonoFormer [37] 和 LMFusion[188] 均采用這一方法。在生成過(guò)程中,噪聲被添加到潛在視覺(jué)表征中,并通過(guò)迭代方式逐步去除,該過(guò)程以先前生成的文本或完整的跨模態(tài)上下文為條件。盡管由于多步采樣導(dǎo)致推理成本增加,但該設(shè)計(jì)在符號(hào)控制能力與視覺(jué)保真度之間實(shí)現(xiàn)了有效權(quán)衡,特別適用于高質(zhì)量的視覺(jué)-語(yǔ)言生成任務(wù)。

現(xiàn)有的融合 AR + 擴(kuò)散模型通常采用兩種圖像分詞策略之一:基于像素的編碼(pixel-based encoding)和混合編碼(hybrid encoding)。

1)基于像素的編碼如圖 5(c-1) 所示,基于像素的編碼將圖像轉(zhuǎn)換為離散 token 或連續(xù)潛在向量,隨后在擴(kuò)散去噪過(guò)程中將其作為目標(biāo),條件為自回歸生成的文本 token。在近期工作中,Transfusion [38]、MonoFormer [37] 和 LMFusion [188] 均采用通過(guò) SD-VAE 提取的連續(xù)潛在表示。這些模型共享一個(gè)聯(lián)合訓(xùn)練目標(biāo):對(duì)語(yǔ)言建模使用自回歸損失,對(duì)圖像重建使用擴(kuò)散損失,并利用雙向注意力機(jī)制以實(shí)現(xiàn)空間一致性。

盡管框架相似,各模型引入了不同的架構(gòu)創(chuàng)新:

  • Transfusion [38] 提出一個(gè)統(tǒng)一的 Transformer 主干網(wǎng)絡(luò),包含模態(tài)特定層,以聯(lián)合處理離散與連續(xù)輸入;
  • MonoFormer [37] 設(shè)計(jì)了一種緊湊架構(gòu),通過(guò)共享模塊和任務(wù)依賴的注意力掩碼,在 AR 與擴(kuò)散任務(wù)之間取得平衡;
  • LMFusion [188] 通過(guò)一個(gè)輕量級(jí)視覺(jué)注入模塊,使凍結(jié)的 LLM 能夠執(zhí)行高質(zhì)量圖像生成,在僅訓(xùn)練視覺(jué)分支的同時(shí)保留語(yǔ)言能力。

相比之下,Show-o [39] 采用基于 MAGVIT-v2 [213] 的離散像素級(jí)分詞器,生成與 Transformer 風(fēng)格解碼兼容的符號(hào)化圖像 token。它同時(shí)支持基于 AR 的文本 token 生成和基于擴(kuò)散的圖像合成,并通過(guò)自回歸損失與擴(kuò)散損失的組合進(jìn)行監(jiān)督。

總體而言,這些模型證明了基于像素的編碼在平衡語(yǔ)言模型提供的語(yǔ)義可控性與擴(kuò)散過(guò)程帶來(lái)的高分辨率視覺(jué)保真度方面的有效性。

然而,融合 AR 與擴(kuò)散框架中的基于像素編碼方法也面臨若干局限:第一,依賴連續(xù)潛在空間(如通過(guò) SD-VAE)的模型在訓(xùn)練和推理階段會(huì)帶來(lái)顯著計(jì)算開(kāi)銷,原因在于擴(kuò)散采樣的迭代特性以及高維特征處理需求。當(dāng)擴(kuò)展至高分辨率圖像生成或多輪視覺(jué)-語(yǔ)言交互時(shí),這一負(fù)擔(dān)尤為突出。第二,文本與視覺(jué)模態(tài)之間的對(duì)齊仍具挑戰(zhàn)性。盡管雙向注意力機(jī)制支持跨模態(tài)融合,但潛在空間表征——尤其是通過(guò) SD-VAE 中無(wú)監(jiān)督重建目標(biāo)學(xué)習(xí)得到的——未必能與語(yǔ)義豐富的語(yǔ)言 token 最優(yōu)對(duì)齊,可能導(dǎo)致細(xì)粒度可控性較弱或生成結(jié)果可解釋性不足。第三,如 Show-o 所采用的離散分詞方案,繼承了 VQ 類模型的問(wèn)題,例如碼本坍塌(codebook collapse)和對(duì)細(xì)微視覺(jué)差異的表達(dá)能力有限。這類符號(hào)化 token 雖與 Transformer 建模兼容,但可能限制視覺(jué)多樣性,并在重建保真度上遜于連續(xù)潛在方法。

2)混合編碼如圖 5(c-2) 所示,混合編碼融合了語(yǔ)義特征(如來(lái)自 CLIP 或 ViT 編碼器)與像素級(jí)潛在表示(如來(lái)自 SD-VAE),提供更具表達(dá)力的圖像表征。該方法使模型既能利用高層語(yǔ)義抽象,又能保留細(xì)節(jié)視覺(jué)信息。

具體而言,Janus-flow [189]、Mogao [190] 和 BAGEL [191] 采用雙編碼器架構(gòu),并提出一種極簡(jiǎn)設(shè)計(jì),將 AR 語(yǔ)言模型與校正流(rectified flow)相協(xié)調(diào)。它們將理解與生成編碼器解耦:

  • 在多模態(tài)理解任務(wù)中,使用 SigLIP 或 SigLIP 與 SDXL-VAE 的拼接作為視覺(jué)編碼器;
  • 在圖像生成任務(wù)中,則使用 SDXL-VAE 或 FLUX-VAE。

然而,這種偽混合編碼(pseudo hybrid encoding)設(shè)計(jì)在圖像合成過(guò)程中僅激活像素編碼器,限制了模型在生成階段同時(shí)利用語(yǔ)義與像素級(jí)特征的能力。盡管這種解耦有利于模塊化和訓(xùn)練效率,但阻礙了模型在圖像解碼過(guò)程中充分利用語(yǔ)義線索,可能削弱生成任務(wù)中的細(xì)粒度對(duì)齊與多模態(tài)組合能力。

盡管已有進(jìn)展,混合編碼方法仍面臨若干挑戰(zhàn):

  • 雙編碼器架構(gòu)與 AR/擴(kuò)散過(guò)程的結(jié)合增加了模型整體復(fù)雜度,導(dǎo)致更高的計(jì)算成本和更長(zhǎng)的訓(xùn)練時(shí)間,相比更簡(jiǎn)單模型效率較低;
  • 確保語(yǔ)義特征與像素級(jí)特征的有效對(duì)齊需要精心的架構(gòu)設(shè)計(jì)與優(yōu)化,而這一對(duì)齊過(guò)程難以實(shí)現(xiàn)和微調(diào),限制了模型在兩類模態(tài)間均衡利用的能力;
  • 在統(tǒng)一模型中平衡視覺(jué)-語(yǔ)言理解與圖像生成的目標(biāo)常導(dǎo)致權(quán)衡:一項(xiàng)任務(wù)的改進(jìn)可能以犧牲另一項(xiàng)任務(wù)為代價(jià)。

這些局限凸顯了對(duì)更高效混合設(shè)計(jì)的需求——既能更好發(fā)揮視覺(jué)與語(yǔ)義特征的優(yōu)勢(shì),又能降低計(jì)算開(kāi)銷,并在各類任務(wù)中保持高性能。

3.4 任意到任意多模態(tài)模型

盡管早期的統(tǒng)一多模態(tài)模型主要聚焦于文本-圖像對(duì),近期研究已拓展至任意到任意(any-to-any)的多模態(tài)建模。這一雄心勃勃的方向旨在構(gòu)建能夠跨多種模態(tài)進(jìn)行處理與生成的模型,涵蓋音頻、視頻、語(yǔ)音、音樂(lè)乃至更多模態(tài)。這些模型力求在單一架構(gòu)內(nèi)統(tǒng)一各類模態(tài)專用的編碼器與解碼器,從而支持諸如文本到音頻、視頻到文本、語(yǔ)音到音樂(lè),甚至圖像到視頻生成等多樣化任務(wù)。本節(jié)回顧該新興領(lǐng)域中的代表性工作,重點(diǎn)介紹其設(shè)計(jì)原則、模塊化特性及當(dāng)前局限。

大多數(shù)任意到任意模型采用模塊化設(shè)計(jì):每種模態(tài)配有一套專用的編碼器和解碼器,而一個(gè)共享主干網(wǎng)絡(luò)負(fù)責(zé)跨模態(tài)表征學(xué)習(xí)與序列建模。例如,OmniFlow [199] 集成了 HiFiGen [232] 用于音頻與音樂(lè)生成,SD-VAE [14] 用于圖像處理,并以類 DiT 的擴(kuò)散模型(MMDiT)[15] 作為主干網(wǎng)絡(luò)。這種模塊化設(shè)計(jì)使模型能高效組合不同模態(tài),完成復(fù)雜的生成任務(wù)。

部分模型依賴共享嵌入空間,在特征層面統(tǒng)一不同模態(tài)。例如,Spider [198]、X-VILA [196] 和 Next-GPT [192] 利用 ImageBind——一種通過(guò)對(duì)比學(xué)習(xí)訓(xùn)練的模型,可將六種模態(tài)(文本、圖像、視頻、音頻、深度圖和熱成像)映射到同一嵌入空間。這種統(tǒng)一表征通過(guò)模態(tài)特定解碼器(如 Stable Diffusion [14]、Zeroscope 或基于 LLM 的文本解碼器 [1])實(shí)現(xiàn)靈活的條件控制與生成。盡管該方法在理論上簡(jiǎn)潔優(yōu)雅,但其生成能力常受限于解碼器質(zhì)量與共享嵌入的粒度。

其他模型如 AnyGPT [195] 和 Unified-IO 2 [193] 則將序列到序列范式擴(kuò)展至多模態(tài)場(chǎng)景:

  • AnyGPT [195] 使用 EnCodec [233] 進(jìn)行音頻分詞,SpeechTokenizer [234] 處理語(yǔ)音,并訓(xùn)練一個(gè)帶模態(tài)特定前綴的統(tǒng)一 Transformer;
  • Unified-IO 2 [193] 則采用更結(jié)構(gòu)化的編碼器-解碼器設(shè)計(jì),整合視覺(jué)、音頻和語(yǔ)言模態(tài),在單一模型中支持 AST 到文本、語(yǔ)音到圖像、視頻描述等任務(wù)。

近期值得關(guān)注的任意到任意統(tǒng)一多模態(tài)模型是 M2-omni [200],它引入了一種高度通用的架構(gòu),能夠處理并生成包括文本、圖像、視頻和音頻在內(nèi)的廣泛模態(tài)。M2-omni 更進(jìn)一步,集成了多個(gè)模態(tài)專用的分詞器與解碼器,每個(gè)組件均針對(duì)不同數(shù)據(jù)類型的獨(dú)特特性精心設(shè)計(jì):

  • 使用 NaViT [235] 對(duì)任意分辨率的視頻和圖像進(jìn)行編碼;
  • 結(jié)合預(yù)訓(xùn)練的 SD-3 [226] 作為圖像解碼器;
  • 對(duì)音頻,引入 paraformer-zh [236] 提取音頻 token,并將預(yù)測(cè)的離散音頻 token 輸入預(yù)訓(xùn)練的 CosyVoice [237] 流匹配與聲碼器模型以生成音頻流。

這種集成確保 M2-omni 能從多種輸入有效生成高質(zhì)量圖像與音頻流,使其成為真正意義上的多模態(tài) powerhouse(全能模型)。

盡管進(jìn)展顯著,當(dāng)前任意到任意模型仍面臨若干挑戰(zhàn):

  • 模態(tài)不平衡:文本和圖像模態(tài)通常占據(jù)主導(dǎo)地位,而音頻、視頻、音樂(lè)等模態(tài)代表性不足,限制了模型可處理任務(wù)的多樣性;
  • 可擴(kuò)展性問(wèn)題:支持廣泛模態(tài)會(huì)顯著增加模型復(fù)雜度,導(dǎo)致推理延遲更高、資源需求更大;
  • 跨模態(tài)語(yǔ)義一致性:確保不同模態(tài)間語(yǔ)義一致仍非易事,模型常難以維持有根據(jù)且對(duì)齊的輸出。

這些挑戰(zhàn)構(gòu)成了任意到任意多模態(tài)模型研發(fā)中的持續(xù)研究方向。

盡管如此,這些模型代表了邁向通用基礎(chǔ)模型的關(guān)鍵一步——此類模型有望理解并生成人類全部感官輸入與交流形式的完整譜系。隨著數(shù)據(jù)、架構(gòu)與訓(xùn)練范式的不斷演進(jìn),未來(lái)的任意到任意模型預(yù)計(jì)將更具組合性、效率更高,并真正實(shí)現(xiàn)通用的跨模態(tài)生成能力。

4 統(tǒng)一模型相關(guān)數(shù)據(jù)集

大規(guī)模、高質(zhì)量且多樣化的訓(xùn)練數(shù)據(jù)是構(gòu)建強(qiáng)大統(tǒng)一多模態(tài)理解與生成模型的基石。這類模型通常需要在海量圖像-文本對(duì)上進(jìn)行預(yù)訓(xùn)練,以學(xué)習(xí)跨模態(tài)關(guān)聯(lián)與表征。需要注意的是,在使用大規(guī)模多模態(tài)數(shù)據(jù)訓(xùn)練之前,這些模型通常會(huì)先用大型自然語(yǔ)言語(yǔ)料庫(kù)(如 Common Crawl、RedPajama [291]、WebText [292] 等)進(jìn)行初始化。由于本綜述主要聚焦于多模態(tài)模型,本節(jié)將不討論純文本數(shù)據(jù)。

根據(jù)主要用途和模態(tài)特性,常見(jiàn)的多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集可大致分為以下幾類:

  • 多模態(tài)理解數(shù)據(jù)集
  • 文本到圖像生成數(shù)據(jù)集
  • 圖像編輯數(shù)據(jù)集
  • 交錯(cuò)式圖文數(shù)據(jù)集
  • 以及其他支持以文本和圖像為條件的圖像生成任務(wù)的數(shù)據(jù)集

本節(jié)將圍繞表 3 中列出的代表性數(shù)據(jù)集展開(kāi)詳細(xì)說(shuō)明,重點(diǎn)介紹 2020 年及之后發(fā)布的重要資源。


4.1 多模態(tài)理解數(shù)據(jù)集

此類數(shù)據(jù)集主要用于訓(xùn)練模型的跨模態(tài)理解能力,支持圖像描述生成、視覺(jué)問(wèn)答(VQA)、圖文檢索、視覺(jué)定位等任務(wù)。它們通常包含大量圖像及其對(duì)應(yīng)的文本描述。

  • RedCaps [238]:該數(shù)據(jù)集包含從 Reddit 平臺(tái)收集的 1200 萬(wàn)組圖像-文本對(duì),特別擅長(zhǎng)捕捉社交媒體用戶常分享的日常生活場(chǎng)景(如寵物、愛(ài)好、食物、休閑等)。
  • Wukong [239]:Wukong 是一個(gè)大規(guī)模中文多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集,包含從網(wǎng)絡(luò)中篩選出的 1 億組中文圖像-文本對(duì)。其構(gòu)建填補(bǔ)了高質(zhì)量、大規(guī)模中文多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)的空白,顯著推動(dòng)了面向中文場(chǎng)景的多模態(tài)模型發(fā)展。
  • LAION [240]:LAION(Large-scale Artificial Intelligence Open Network)項(xiàng)目提供了目前最大規(guī)模的公開(kāi)圖像-文本對(duì)數(shù)據(jù)集之一。例如,LAION-5B 包含近 60 億組從網(wǎng)絡(luò)爬取的圖文對(duì),并通過(guò) CLIP 模型進(jìn)行過(guò)濾以確保圖文相關(guān)性。因其規(guī)模龐大、多樣性豐富,LAION 已成為眾多大型多模態(tài)模型預(yù)訓(xùn)練的基礎(chǔ)。其子集 Laion-COCO [242] 包含 6 億個(gè)高質(zhì)量標(biāo)注樣本,旨在提供風(fēng)格上更接近 MS COCO [293] 的大規(guī)模數(shù)據(jù)。
  • COYO [241]:COYO 是另一個(gè)大規(guī)模圖像-文本對(duì)數(shù)據(jù)集,包含約 7.47 億個(gè)樣本,同樣源自網(wǎng)絡(luò)爬取并經(jīng)過(guò)過(guò)濾處理,為社區(qū)提供了 LAION 之外的另一大規(guī)模預(yù)訓(xùn)練資源。
  • DataComp [243]:包含 14 億個(gè)樣本,源自 Common Crawl,通過(guò)精心設(shè)計(jì)的過(guò)濾策略(包括 CLIP 分?jǐn)?shù)和基于圖像的過(guò)濾)篩選,旨在提供比原始爬取數(shù)據(jù)質(zhì)量更高的圖文對(duì)。
  • ShareGPT4V [246]:提供約 10 萬(wàn)條高質(zhì)量圖像-文本對(duì)話數(shù)據(jù),專為增強(qiáng)大模型的指令遵循與對(duì)話能力而設(shè)計(jì),使其成為更優(yōu)秀的多模態(tài)對(duì)話代理。
  • ALLaVA [216]:包含 140 萬(wàn)條合成數(shù)據(jù),專為訓(xùn)練輕量級(jí)視覺(jué)-語(yǔ)言模型(LVLMs)而構(gòu)建。其生成流程采用強(qiáng)閉源模型(如 GPT-4V)分階段完成:首先從 LAION 和 Vision-FLAN 等來(lái)源選取圖像;其次生成細(xì)粒度、詳細(xì)的圖像描述;最后構(gòu)造復(fù)雜的推理型視覺(jué)問(wèn)答對(duì),強(qiáng)調(diào)包含證據(jù)和思維鏈的詳細(xì)答案,以支持魯棒的視覺(jué)指令微調(diào)。
  • CapsFusion-120M [245]:從 Laion-COCO [242] 中精選出的 1.2 億組圖像-文本對(duì),其文本描述通過(guò)整合 Laion-COCO 原有標(biāo)題與 CapsFusion-LLaMA [245] 生成內(nèi)容獲得。
  • Cambrian-10M(7M) [247]:Cambrian-10M 是一個(gè)用于多模態(tài)指令微調(diào)的大規(guī)模數(shù)據(jù)集,來(lái)源多樣但類別分布不均衡。為提升數(shù)據(jù)質(zhì)量,研究者基于優(yōu)化后的數(shù)據(jù)比例進(jìn)行過(guò)濾,最終形成 Cambrian-7M。
  • LLaVA-OneVision [248]:該視覺(jué)指令微調(diào)數(shù)據(jù)集包含兩部分:一是 320 萬(wàn)條多樣化的單圖樣本(涵蓋 QA、OCR、數(shù)學(xué)等);二是 OneVision 數(shù)據(jù)集,包含 160 萬(wàn)條混合模態(tài)樣本(包括視頻、多圖及精選單圖)。
  • Infinity-MM [248]:一個(gè)綜合性多模態(tài)訓(xùn)練數(shù)據(jù)集,包含超過(guò) 4000 萬(wàn)條樣本,通過(guò)廣泛收集和分類現(xiàn)有開(kāi)源數(shù)據(jù)集并結(jié)合新生成數(shù)據(jù)構(gòu)建而成。內(nèi)容包括圖像描述、通用視覺(jué)指令、高質(zhì)量精選指令,以及大量由 GPT-4 或定制 VLM 流水線生成的數(shù)據(jù),以確保對(duì)齊性與多樣性。所有數(shù)據(jù)均經(jīng)過(guò)嚴(yán)格的質(zhì)量控制與一致性過(guò)濾。
  • 其他數(shù)據(jù)集:近期開(kāi)發(fā)的其他理解類數(shù)據(jù)集還包括 GRIT(Grid-based Representation for Image-Text)[244](2000 萬(wàn)樣本,強(qiáng)調(diào)圖像區(qū)域與文本短語(yǔ)的細(xì)粒度對(duì)齊)。此外,SAM 數(shù)據(jù)集 [251] 雖然最初并非圖文對(duì)形式,但其包含 1100 萬(wàn)張高分辨率圖像及精細(xì)分割掩碼,提供了寶貴的空間與語(yǔ)義信息,可增強(qiáng)多模態(tài)模型對(duì)物體位置、邊界或區(qū)域操作的理解能力。另外,文本到圖像模型所用數(shù)據(jù)也可用于多模態(tài)理解任務(wù)。

4.2 文本到圖像數(shù)據(jù)集

此類數(shù)據(jù)集主要用于訓(xùn)練根據(jù)文本描述生成圖像的模型,通常包含圖像-文本對(duì),更強(qiáng)調(diào)圖像的美學(xué)質(zhì)量、內(nèi)容豐富性或特定風(fēng)格屬性。

  • CC-12M(Conceptual Captions 12M) [250]:包含約 1200 萬(wàn)組從網(wǎng)頁(yè) Alt-text 中提取并過(guò)濾的圖文對(duì)。相比原始網(wǎng)絡(luò)爬取數(shù)據(jù),其文本描述更簡(jiǎn)潔、更具描述性,被廣泛用于文本到圖像模型訓(xùn)練。
  • LAION-Aesthetics [240]:LAION 的一個(gè)子集,通過(guò)美學(xué)評(píng)分模型篩選出約 1.2 億張被認(rèn)為具有較高“美學(xué)價(jià)值”的圖像及其對(duì)應(yīng)文本。
  • 文本渲染數(shù)據(jù)集:多個(gè)數(shù)據(jù)集專門用于解決生成圖像中文本準(zhǔn)確、清晰渲染的挑戰(zhàn):
    • Mario-10M [252]:含 1000 萬(wàn)樣本,用于訓(xùn)練 TextDiffuser 模型,旨在提升文本布局與可讀性;
    • RenderedText [253]:提供 1200 萬(wàn)張高分辨率手寫文本合成圖像,具有多樣視覺(jué)屬性,是手寫文本理解與生成的重要資源;
    • AnyWord-3M [255]:含 300 萬(wàn)樣本,對(duì) AnyText 等模型的訓(xùn)練至關(guān)重要,專注于提升生成文本質(zhì)量;
    • TextAtlas5M [265]:面向密集文本生成,融合交錯(cuò)文檔、合成數(shù)據(jù)及帶長(zhǎng)描述和人工標(biāo)注的真實(shí)圖像,以應(yīng)對(duì)復(fù)雜文本密集型圖像場(chǎng)景。
  • JourneyDB [254]:包含 400 萬(wàn)組由 Midjourney 平臺(tái)生成的高質(zhì)量圖像-提示對(duì)。由于 Midjourney 以生成創(chuàng)意性和藝術(shù)性強(qiáng)的圖像著稱,該數(shù)據(jù)集為訓(xùn)練模型學(xué)習(xí)復(fù)雜、細(xì)致且具藝術(shù)風(fēng)格的文本到圖像映射提供了寶貴資源。
  • CosmicMan-HQ 1.0 [256]:包含 600 萬(wàn)張高分辨率真實(shí)人像(平均分辨率達(dá) 1488 × 1255 像素),其文本標(biāo)注極為精確,源自 1.15 億個(gè)不同粒度的屬性,可用于提升人像生成能力。
  • DOCCI [257]:提供 1.5 萬(wàn)張精心策劃的圖像,每張配有由人工撰寫的長(zhǎng)英文描述(平均 136 詞),內(nèi)容高度細(xì)致,旨在區(qū)分相似圖像。該數(shù)據(jù)集聚焦細(xì)粒度描述與對(duì)比圖像集,是訓(xùn)練和評(píng)估圖文互生模型處理微妙細(xì)節(jié)與復(fù)雜構(gòu)圖能力的重要資源。
  • PixelProse [258]:從 DataComp [243]、CC-12M [250] 和 RedCaps [238] 中提取,包含豐富標(biāo)注的圖像及其文本描述,并提供水印存在性、美學(xué)評(píng)分等元數(shù)據(jù),可用于過(guò)濾以獲取目標(biāo)圖像。
  • Megalith [260]:包含約 1000 萬(wàn)條 Flickr 上標(biāo)記為“photo”且無(wú)版權(quán)限制的圖像鏈接,其社區(qū)生成的文本描述由 ShareCaptioner [246]、Florence2 [294] 和 InternVL2 [11], [66] 等模型生成,并已公開(kāi)。
  • PD12M [262]:包含 1240 萬(wàn)張公共領(lǐng)域(CC0 許可)高分辨率圖像,配以 Florence-2-large [294] 生成的合成描述,專為文本到圖像模型訓(xùn)練設(shè)計(jì),在規(guī)避版權(quán)問(wèn)題的同時(shí)提供大規(guī)模數(shù)據(jù)。
  • 合成數(shù)據(jù)集:越來(lái)越多的文本到圖像專用數(shù)據(jù)集通過(guò)現(xiàn)有生成模型構(gòu)建:
    • text-to-image-2M [261]:提供 200 萬(wàn)組經(jīng)高級(jí) T2I 與描述模型精選的增強(qiáng)圖文對(duì),用于微調(diào);
    • SFHQ-T2I [263]:提供 12.2 萬(wàn)張由多個(gè) T2I 模型生成的多樣化高分辨率合成人臉圖像,確保多樣性與隱私保護(hù);
    • EliGen TrainSet [264]:使用基線模型(FLUX.1-dev)生成圖像,并結(jié)合 MLLM 生成的提示,以保證風(fēng)格一致性和詳細(xì)標(biāo)注,用于實(shí)體控制;
    • BLIP-3o 60k [169]:提供 6 萬(wàn)條從 GPT-4o 蒸餾出的指令微調(diào)樣本,覆蓋多類別以支持多樣化訓(xùn)練;
    • ShareGPT4o-Image [266]:貢獻(xiàn) 4.5 萬(wàn)組文本到圖像對(duì),其提示通過(guò)“屬性優(yōu)先”和“圖像優(yōu)先”兩種結(jié)構(gòu)化方法生成,對(duì)應(yīng)圖像由 GPT-4o 的圖像生成能力合成,以蒸餾其先進(jìn)技能;
    • Echo-4o-Image [267]:提供超 10 萬(wàn)條樣本,專門針對(duì)現(xiàn)實(shí)數(shù)據(jù)中的盲區(qū),如超現(xiàn)實(shí)幻想場(chǎng)景和復(fù)雜長(zhǎng)尾指令,以增強(qiáng)模型想象力與對(duì)齊能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
退休夫婦花10萬(wàn)“郵輪養(yǎng)老”:船上住15年,包吃包打掃,環(huán)游世界4圈,比房租便宜得多!

退休夫婦花10萬(wàn)“郵輪養(yǎng)老”:船上住15年,包吃包打掃,環(huán)游世界4圈,比房租便宜得多!

背包旅行
2026-01-23 10:33:42
趙薇胃癌傳聞?wù)嫦啻蟀?,再迎壞消息連累李湘

趙薇胃癌傳聞?wù)嫦啻蟀?,再迎壞消息連累李湘

觀察者海風(fēng)
2026-01-26 20:24:53
詹姆斯今年至今末節(jié)得分還是聯(lián)盟第一!公牛球迷為他倒戈!

詹姆斯今年至今末節(jié)得分還是聯(lián)盟第一!公牛球迷為他倒戈!

氧氣是個(gè)地鐵
2026-01-27 14:30:05
日本!暴跌開(kāi)始了!

日本!暴跌開(kāi)始了!

大嘴說(shuō)天下
2026-01-26 20:16:55
愛(ài)火:一場(chǎng)非關(guān)消耗的持久燃燒

愛(ài)火:一場(chǎng)非關(guān)消耗的持久燃燒

疾跑的小蝸牛
2026-01-27 22:57:37
李瑋峰指出,王鈺棟面對(duì)日本后衛(wèi)對(duì)抗成功率低,對(duì)歐洲后衛(wèi)更不行

李瑋峰指出,王鈺棟面對(duì)日本后衛(wèi)對(duì)抗成功率低,對(duì)歐洲后衛(wèi)更不行

足球分析員
2026-01-27 11:05:03
不管你信不信,男性過(guò)了61歲后,基本都有這7個(gè)現(xiàn)狀,要坦然接受

不管你信不信,男性過(guò)了61歲后,基本都有這7個(gè)現(xiàn)狀,要坦然接受

健康之光
2026-01-11 12:40:02
終于來(lái)了!芬蘭總理落地北京說(shuō)了兩句話,特朗普怕啥來(lái)啥

終于來(lái)了!芬蘭總理落地北京說(shuō)了兩句話,特朗普怕啥來(lái)啥

黑翼天使
2026-01-28 04:02:55
數(shù)據(jù)驚人!汽油消耗量暴跌得嚇人,未來(lái)油價(jià)會(huì)大幅降嗎?

數(shù)據(jù)驚人!汽油消耗量暴跌得嚇人,未來(lái)油價(jià)會(huì)大幅降嗎?

超喜歡我的狗子
2026-01-25 16:42:57
“8大癥狀說(shuō)明你已經(jīng)老了”,你占了幾項(xiàng)?我全占了??!

社評(píng)
2026-01-02 12:24:58

煥新Model Y亮相,你會(huì)考慮購(gòu)買嗎

煥新Model Y亮相,你會(huì)考慮購(gòu)買嗎

沙雕小琳琳
2026-01-28 01:59:15
銀價(jià)一個(gè)月內(nèi)狂飆50%,白銀基金緊急停牌,有銀飾商家宣布閉店

銀價(jià)一個(gè)月內(nèi)狂飆50%,白銀基金緊急停牌,有銀飾商家宣布閉店

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-01-27 14:41:30
媒體人:重慶銅梁龍足球俱樂(lè)部的外援中衛(wèi)薩達(dá)烏斯卡斯即將離隊(duì)

媒體人:重慶銅梁龍足球俱樂(lè)部的外援中衛(wèi)薩達(dá)烏斯卡斯即將離隊(duì)

格斗聯(lián)盟
2026-01-27 20:11:05
舒淇在節(jié)目里第一次承認(rèn),她和馮德倫為了要孩子已經(jīng)折騰了九年。

舒淇在節(jié)目里第一次承認(rèn),她和馮德倫為了要孩子已經(jīng)折騰了九年。

歲月有情1314
2025-11-29 15:40:25
馬斯克預(yù)測(cè)世界大戰(zhàn)時(shí)間,大戰(zhàn)最可能爆發(fā)在兩地區(qū)

馬斯克預(yù)測(cè)世界大戰(zhàn)時(shí)間,大戰(zhàn)最可能爆發(fā)在兩地區(qū)

妙知
2025-12-29 00:08:32
印度報(bào)告尼帕病毒疫情:護(hù)士A參加婚禮誤飲蝙蝠污染的新鮮椰棗汁,疑傳染共同上夜班的同事B

印度報(bào)告尼帕病毒疫情:護(hù)士A參加婚禮誤飲蝙蝠污染的新鮮椰棗汁,疑傳染共同上夜班的同事B

縱相新聞
2026-01-27 16:17:01
千萬(wàn)別姐弟戀,很累!

千萬(wàn)別姐弟戀,很累!

果粉之家
2026-01-06 11:26:21
真的累了?瓜帥暫時(shí)沒(méi)能擺脫“四大皆空”問(wèn)題,曼城穩(wěn)定打折扣

真的累了?瓜帥暫時(shí)沒(méi)能擺脫“四大皆空”問(wèn)題,曼城穩(wěn)定打折扣

里芃芃體育
2026-01-28 03:00:03
美籍華人14小時(shí)飛越萬(wàn)里來(lái)武漢求醫(yī) 中國(guó)醫(yī)生高效救治及時(shí)挽救患者視力

美籍華人14小時(shí)飛越萬(wàn)里來(lái)武漢求醫(yī) 中國(guó)醫(yī)生高效救治及時(shí)挽救患者視力

極目新聞
2026-01-27 09:59:07
山西某村口一起交通事故!致人當(dāng)場(chǎng)死亡!

山西某村口一起交通事故!致人當(dāng)場(chǎng)死亡!

秀容通
2026-01-27 19:22:28
2026-01-28 05:07:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會(huì)講話透露了哪些關(guān)鍵信息

頭條要聞

美報(bào)告稱中國(guó)是其19世紀(jì)以來(lái)面對(duì)過(guò)的最強(qiáng)大國(guó)家

頭條要聞

美報(bào)告稱中國(guó)是其19世紀(jì)以來(lái)面對(duì)過(guò)的最強(qiáng)大國(guó)家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對(duì)手現(xiàn)學(xué)?

娛樂(lè)要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個(gè)商務(wù)被取消

財(cái)經(jīng)要聞

多地對(duì)壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

態(tài)度原創(chuàng)

游戲
本地
旅游
公開(kāi)課
軍事航空

LPL春季賽:決絕讓一追二,AL三局擊潰IG,大家的排名都不變

本地新聞

云游中國(guó)|撥開(kāi)云霧,巫山每幀都是航拍大片

旅游要聞

紅燈籠映北海:皇家園林里的年味,藏著中國(guó)人的精神原鄉(xiāng)!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美海軍"林肯"號(hào)航母打擊群抵達(dá)中東地區(qū)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版