網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

上海交通大學(xué)打造全新統(tǒng)一模型：讓AI像人類一樣邊看邊想邊畫

2026-04-13 22:24:05　來源: 至頂AI實(shí)驗(yàn)室

北京舉報(bào)

分享至

這項(xiàng)由上海交通大學(xué)聯(lián)合清華大學(xué)和加州大學(xué)圣地亞哥分校共同完成的研究，發(fā)表于2026年4月的計(jì)算機(jī)視覺頂級(jí)會(huì)議論文集中，研究編號(hào)為arXiv:2604.02097。有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。

在人工智能的發(fā)展歷程中，一個(gè)長(zhǎng)期存在的挑戰(zhàn)就是如何讓機(jī)器像人類一樣，既能理解圖像又能生成圖像，并且在這兩個(gè)過程之間進(jìn)行無縫的推理。目前的AI系統(tǒng)往往像是兩個(gè)獨(dú)立的專家——一個(gè)擅長(zhǎng)看圖說話，另一個(gè)擅長(zhǎng)根據(jù)描述畫畫，但它們彼此之間缺乏有效的溝通。上海交通大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)革命性的解決方案：LatentUM，這是一個(gè)能夠在統(tǒng)一的語義空間中處理多種模態(tài)信息的模型。

傳統(tǒng)的多模態(tài)AI系統(tǒng)面臨著一個(gè)根本性的問題——就像兩個(gè)說不同語言的人試圖合作一樣。理解圖像的模塊使用一套"語言"（語義特征），而生成圖像的模塊使用另一套"語言"（像素特征）。當(dāng)系統(tǒng)需要對(duì)自己生成的圖像進(jìn)行推理時(shí)，就必須先將圖像轉(zhuǎn)換成像素，再重新編碼成語義特征，這個(gè)過程不僅效率低下，還會(huì)引入偏差和錯(cuò)誤。LatentUM的創(chuàng)新之處在于讓這兩個(gè)模塊說同一種"語言"——都使用語義特征進(jìn)行交流。

一、統(tǒng)一語義空間的構(gòu)建：讓AI學(xué)會(huì)"同一種語言"

LatentUM的核心思想可以比作培訓(xùn)一個(gè)既能看懂畫又能畫畫的藝術(shù)家，而且這個(gè)藝術(shù)家在看畫和畫畫時(shí)使用的都是同一套思維體系。研究團(tuán)隊(duì)首先需要解決的問題是如何構(gòu)建這個(gè)統(tǒng)一的語義空間。

他們選擇了CLIP特征作為基礎(chǔ)，CLIP是一種已經(jīng)被證明能夠很好地連接圖像和文本的表示方法。但是，CLIP特征是連續(xù)的數(shù)值，而語言模型更擅長(zhǎng)處理離散的符號(hào)。為了解決這個(gè)問題，研究團(tuán)隊(duì)開發(fā)了一種叫做"模型行為對(duì)齊量化"（MBAQ）的方法。

MBAQ的工作原理可以這樣理解：假設(shè)有一個(gè)經(jīng)驗(yàn)豐富的藝術(shù)鑒賞家，他能夠通過觀察原畫來判斷畫作的內(nèi)容和風(fēng)格。現(xiàn)在研究團(tuán)隊(duì)要訓(xùn)練一個(gè)助手，這個(gè)助手只能看到經(jīng)過特殊處理的畫作副本，但必須給出與鑒賞家完全相同的判斷。在訓(xùn)練過程中，助手需要不斷調(diào)整自己的觀察方式，直到他的判斷與鑒賞家的判斷完全一致。

具體來說，研究團(tuán)隊(duì)使用視覺問答任務(wù)來訓(xùn)練量化器。他們讓視覺語言模型分別對(duì)原始的CLIP特征和量化后的特征進(jìn)行問答，然后最小化兩者輸出分布之間的差異。這樣訓(xùn)練出來的量化器能夠保留對(duì)理解任務(wù)最重要的語義信息，而不是簡(jiǎn)單地重建像素細(xì)節(jié)。

二、混合專家架構(gòu)：專業(yè)分工與協(xié)同配合

為了避免視覺理解和視覺生成任務(wù)之間的相互干擾，研究團(tuán)隊(duì)設(shè)計(jì)了一種叫做"模態(tài)混合專家"（MoME）的架構(gòu)。這就像一個(gè)工作室里有兩組專業(yè)人員：一組專門負(fù)責(zé)分析和理解藝術(shù)作品，另一組專門負(fù)責(zé)創(chuàng)作新的作品。

在每個(gè)Transformer層中，都有兩套并行的參數(shù)分支：理解分支和生成分支。理解分支處理文本和視覺特征的理解任務(wù)，而生成分支專門負(fù)責(zé)生成視覺令牌。雖然它們有各自的專業(yè)領(lǐng)域，但通過共享的注意力機(jī)制，兩個(gè)分支可以相互交流信息，就像工作室里的分析師和畫家可以隨時(shí)溝通一樣。

這種設(shè)計(jì)的巧妙之處在于，生成的視覺令牌可以直接被理解分支讀取和分析，無需任何中間轉(zhuǎn)換。當(dāng)模型生成一個(gè)視覺令牌后，它立即就能"看懂"自己畫的是什么，并基于這個(gè)理解繼續(xù)進(jìn)行后續(xù)的推理和生成。

三、跨模態(tài)推理能力：從簡(jiǎn)單生成到復(fù)雜思考

有了統(tǒng)一的語義空間，LatentUM展現(xiàn)出了令人印象深刻的跨模態(tài)推理能力。研究團(tuán)隊(duì)在三個(gè)主要應(yīng)用場(chǎng)景中驗(yàn)證了這種能力。

在視覺生成的自我反思方面，LatentUM可以在生成圖像后立即對(duì)自己的作品進(jìn)行評(píng)價(jià)和改進(jìn)。就像一個(gè)畫家在完成一幅畫后，能夠立即發(fā)現(xiàn)畫中的不足并進(jìn)行修改。具體來說，模型生成圖像后，會(huì)對(duì)照原始提示進(jìn)行多個(gè)維度的檢查：物體是否存在、數(shù)量是否正確、顏色是否匹配、位置關(guān)系是否合理等?；谶@些自我評(píng)價(jià)，模型可以通過強(qiáng)化學(xué)習(xí)不斷改進(jìn)自己的生成質(zhì)量。

在視覺空間規(guī)劃任務(wù)中，LatentUM展現(xiàn)了更加復(fù)雜的推理能力。面對(duì)迷宮導(dǎo)航問題時(shí)，模型采用了兩種策略。粗粒度規(guī)劃類似于先在腦海中構(gòu)建整個(gè)路徑圖，然后一次性給出完整的解決方案。而細(xì)粒度規(guī)劃則更像是一步一步地探索，每走一步都會(huì)更新對(duì)環(huán)境的理解，然后基于新的理解決定下一步行動(dòng)。

世界模型的應(yīng)用展示了LatentUM在時(shí)間維度上的推理能力。給定當(dāng)前的環(huán)境狀態(tài)和即將執(zhí)行的動(dòng)作，模型能夠預(yù)測(cè)下一時(shí)刻的環(huán)境狀態(tài)。更令人驚喜的是，由于動(dòng)作也被表示為文本令牌，模型甚至可以理解自然語言描述的動(dòng)作指令，比如"靠近左邊的房子"，然后生成相應(yīng)的未來視覺狀態(tài)。

四、實(shí)驗(yàn)驗(yàn)證：全面超越現(xiàn)有方法

研究團(tuán)隊(duì)在多個(gè)基準(zhǔn)測(cè)試上驗(yàn)證了LatentUM的效果。在基礎(chǔ)的視覺理解任務(wù)上，即使使用量化后的特征，LatentUM的性能也與使用原始特征時(shí)相當(dāng)，這證明了MBAQ方法的有效性。在某些情況下，量化特征甚至表現(xiàn)得更好，因?yàn)樗鼈內(nèi)コ藢?duì)理解任務(wù)無關(guān)的細(xì)節(jié)信息。

在視覺生成任務(wù)上，LatentUM在GenEval基準(zhǔn)上達(dá)到了0.85的分?jǐn)?shù)，超過了所有其他統(tǒng)一模型，盡管使用的訓(xùn)練數(shù)據(jù)相對(duì)較少。更重要的是，通過自我反思的強(qiáng)化學(xué)習(xí)訓(xùn)練，模型在GenEval上的表現(xiàn)進(jìn)一步提升到0.87，在GenEval2上更是達(dá)到了31.3的高分，大幅超越其他方法。

在視覺空間規(guī)劃任務(wù)上，LatentUM的表現(xiàn)尤為出色。在細(xì)粒度規(guī)劃模式下，模型在不同難度級(jí)別的迷宮上都達(dá)到了接近完美的準(zhǔn)確率，在最高難度的6×6迷宮上仍然保持97%的成功率。這個(gè)結(jié)果不僅超越了所有現(xiàn)有的視覺推理模型，也驗(yàn)證了統(tǒng)一語義表示對(duì)復(fù)雜推理任務(wù)的重要性。

五、技術(shù)細(xì)節(jié)與創(chuàng)新突破

LatentUM的成功離不開幾個(gè)關(guān)鍵的技術(shù)創(chuàng)新。首先是MBAQ量化方法，它不同于傳統(tǒng)的基于像素重建的量化方法，而是專注于保持視覺理解能力。研究團(tuán)隊(duì)使用多碼本量化技術(shù)，將每個(gè)視覺令牌分解為8個(gè)子令牌，每個(gè)子令牌從一個(gè)包含2048個(gè)條目的碼本中選擇，這樣可以用相對(duì)較少的碼本條目表示出巨大的有效詞匯量。

在訓(xùn)練策略方面，研究團(tuán)隊(duì)采用了分階段的方法。首先訓(xùn)練MBAQ量化器，然后固定理解分支的參數(shù)，只訓(xùn)練生成分支，這樣可以保持原有的理解能力不被破壞。對(duì)于需要跨模態(tài)推理的任務(wù)，再進(jìn)行聯(lián)合微調(diào)。

為了處理序列中多個(gè)視覺狀態(tài)的訓(xùn)練，研究團(tuán)隊(duì)設(shè)計(jì)了特殊的注意力掩碼機(jī)制，讓同一批次中的不同視覺段落可以并行處理，同時(shí)保持各自的因果結(jié)構(gòu)。這個(gè)設(shè)計(jì)解決了訓(xùn)練效率的問題，使得模型可以在一次前向傳播中處理整個(gè)推理序列。

像素解碼器的設(shè)計(jì)也很巧妙。它基于現(xiàn)有的擴(kuò)散模型架構(gòu)，但用量化的語義特征替代了原有的文本條件。重要的是，這個(gè)解碼器是獨(dú)立訓(xùn)練的，核心模型從不直接優(yōu)化像素重建損失，這保持了語義空間的純粹性。

六、應(yīng)用前景與意義

LatentUM的成功展示了統(tǒng)一多模態(tài)AI系統(tǒng)的巨大潛力。在實(shí)際應(yīng)用中，這樣的系統(tǒng)可以用于智能設(shè)計(jì)助手，它不僅能根據(jù)用戶描述生成設(shè)計(jì)圖，還能分析設(shè)計(jì)的合理性并提出改進(jìn)建議。在教育領(lǐng)域，它可以幫助創(chuàng)建互動(dòng)式的視覺學(xué)習(xí)材料，根據(jù)學(xué)生的理解程度動(dòng)態(tài)調(diào)整內(nèi)容的復(fù)雜度和表現(xiàn)形式。

在機(jī)器人領(lǐng)域，LatentUM的世界模型能力特別有價(jià)值。機(jī)器人可以在執(zhí)行動(dòng)作前先在"腦海"中模擬可能的結(jié)果，這種能力對(duì)于復(fù)雜環(huán)境中的導(dǎo)航和操作任務(wù)至關(guān)重要。而且，由于模型能理解自然語言指令，人機(jī)交互也會(huì)變得更加自然和直觀。

研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前的局限性。模型目前只支持固定分辨率的生成，訓(xùn)練規(guī)模相對(duì)較小。在世界模型應(yīng)用中，系統(tǒng)仍然依賴像素空間的遞歸接口，而非完全的潛在遞歸預(yù)測(cè)。此外，由于MBAQ目前只對(duì)齊到單一視覺語言模型的行為，學(xué)到的語義表示的通用性還需要進(jìn)一步探索。

不過，這些限制也指明了未來的發(fā)展方向：擴(kuò)大預(yù)訓(xùn)練數(shù)據(jù)和模型規(guī)模、支持可變分辨率和更長(zhǎng)上下文的生成、改進(jìn)長(zhǎng)期預(yù)測(cè)的時(shí)間一致性，以及開發(fā)完全在潛在空間中運(yùn)行的世界模型和規(guī)劃流程。

說到底，LatentUM代表了多模態(tài)AI發(fā)展的一個(gè)重要里程碑。它證明了通過巧妙的架構(gòu)設(shè)計(jì)和訓(xùn)練策略，我們可以構(gòu)建出既高效又強(qiáng)大的統(tǒng)一AI系統(tǒng)。這種系統(tǒng)不僅在技術(shù)上更加優(yōu)雅，也為實(shí)現(xiàn)真正智能的AI奠定了基礎(chǔ)——一個(gè)能夠像人類一樣seamlessly地在理解和生成之間切換，在不同模態(tài)之間進(jìn)行復(fù)雜推理的AI系統(tǒng)。

雖然距離實(shí)現(xiàn)人類級(jí)別的多模態(tài)智能還有很長(zhǎng)的路要走，但LatentUM無疑為我們指明了一個(gè)充滿希望的方向。它告訴我們，統(tǒng)一的表示學(xué)習(xí)不僅是可能的，也是實(shí)現(xiàn)更強(qiáng)大AI系統(tǒng)的關(guān)鍵。

Q&A

Q1：LatentUM與現(xiàn)有的多模態(tài)AI系統(tǒng)有什么根本區(qū)別？

A：LatentUM的最大區(qū)別是實(shí)現(xiàn)了真正的統(tǒng)一語義空間。傳統(tǒng)系統(tǒng)中，理解圖像和生成圖像使用不同的"語言"，需要像素轉(zhuǎn)換作為橋梁，效率低且容易出錯(cuò)。LatentUM讓這兩個(gè)功能使用同一套語義表示，生成的圖像可以直接被模型理解，無需任何轉(zhuǎn)換，就像培養(yǎng)了一個(gè)既能看懂畫又能畫畫，且思維體系完全一致的藝術(shù)家。

Q2：MBAQ量化方法為什么比傳統(tǒng)的像素重建方法更好？

A：MBAQ專注于保持視覺理解能力，而不是重建像素細(xì)節(jié)。就像訓(xùn)練一個(gè)藝術(shù)助手，傳統(tǒng)方法要求助手完美復(fù)制每個(gè)筆觸，而MBAQ只要求助手的藝術(shù)判斷與專家一致。這樣訓(xùn)練出來的系統(tǒng)能夠保留對(duì)理解任務(wù)最重要的語義信息，去除無關(guān)的視覺細(xì)節(jié)，使得生成的圖像更符合語義要求而不是像素完美。

Q3：LatentUM在實(shí)際應(yīng)用中能做什么傳統(tǒng)AI做不到的事？

A：LatentUM可以進(jìn)行真正的跨模態(tài)推理，比如在生成圖像后立即評(píng)判自己的作品并改進(jìn)，或者在復(fù)雜的空間規(guī)劃任務(wù)中邊走邊思考邊更新策略。在世界模型應(yīng)用中，它甚至能理解自然語言動(dòng)作指令如"靠近左邊的房子"，然后生成相應(yīng)的未來視覺狀態(tài)。這些能力讓AI從簡(jiǎn)單的生成工具變成了真正能夠思考和推理的智能系統(tǒng)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.