国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

上海交通大學(xué)打造全新統(tǒng)一模型:讓AI像人類一樣邊看邊想邊畫

0
分享至


這項(xiàng)由上海交通大學(xué)聯(lián)合清華大學(xué)和加州大學(xué)圣地亞哥分校共同完成的研究,發(fā)表于2026年4月的計(jì)算機(jī)視覺頂級(jí)會(huì)議論文集中,研究編號(hào)為arXiv:2604.02097。有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。

在人工智能的發(fā)展歷程中,一個(gè)長(zhǎng)期存在的挑戰(zhàn)就是如何讓機(jī)器像人類一樣,既能理解圖像又能生成圖像,并且在這兩個(gè)過程之間進(jìn)行無縫的推理。目前的AI系統(tǒng)往往像是兩個(gè)獨(dú)立的專家——一個(gè)擅長(zhǎng)看圖說話,另一個(gè)擅長(zhǎng)根據(jù)描述畫畫,但它們彼此之間缺乏有效的溝通。上海交通大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)革命性的解決方案:LatentUM,這是一個(gè)能夠在統(tǒng)一的語義空間中處理多種模態(tài)信息的模型。

傳統(tǒng)的多模態(tài)AI系統(tǒng)面臨著一個(gè)根本性的問題——就像兩個(gè)說不同語言的人試圖合作一樣。理解圖像的模塊使用一套"語言"(語義特征),而生成圖像的模塊使用另一套"語言"(像素特征)。當(dāng)系統(tǒng)需要對(duì)自己生成的圖像進(jìn)行推理時(shí),就必須先將圖像轉(zhuǎn)換成像素,再重新編碼成語義特征,這個(gè)過程不僅效率低下,還會(huì)引入偏差和錯(cuò)誤。LatentUM的創(chuàng)新之處在于讓這兩個(gè)模塊說同一種"語言"——都使用語義特征進(jìn)行交流。

一、統(tǒng)一語義空間的構(gòu)建:讓AI學(xué)會(huì)"同一種語言"

LatentUM的核心思想可以比作培訓(xùn)一個(gè)既能看懂畫又能畫畫的藝術(shù)家,而且這個(gè)藝術(shù)家在看畫和畫畫時(shí)使用的都是同一套思維體系。研究團(tuán)隊(duì)首先需要解決的問題是如何構(gòu)建這個(gè)統(tǒng)一的語義空間。

他們選擇了CLIP特征作為基礎(chǔ),CLIP是一種已經(jīng)被證明能夠很好地連接圖像和文本的表示方法。但是,CLIP特征是連續(xù)的數(shù)值,而語言模型更擅長(zhǎng)處理離散的符號(hào)。為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了一種叫做"模型行為對(duì)齊量化"(MBAQ)的方法。

MBAQ的工作原理可以這樣理解:假設(shè)有一個(gè)經(jīng)驗(yàn)豐富的藝術(shù)鑒賞家,他能夠通過觀察原畫來判斷畫作的內(nèi)容和風(fēng)格。現(xiàn)在研究團(tuán)隊(duì)要訓(xùn)練一個(gè)助手,這個(gè)助手只能看到經(jīng)過特殊處理的畫作副本,但必須給出與鑒賞家完全相同的判斷。在訓(xùn)練過程中,助手需要不斷調(diào)整自己的觀察方式,直到他的判斷與鑒賞家的判斷完全一致。

具體來說,研究團(tuán)隊(duì)使用視覺問答任務(wù)來訓(xùn)練量化器。他們讓視覺語言模型分別對(duì)原始的CLIP特征和量化后的特征進(jìn)行問答,然后最小化兩者輸出分布之間的差異。這樣訓(xùn)練出來的量化器能夠保留對(duì)理解任務(wù)最重要的語義信息,而不是簡(jiǎn)單地重建像素細(xì)節(jié)。

二、混合專家架構(gòu):專業(yè)分工與協(xié)同配合

為了避免視覺理解和視覺生成任務(wù)之間的相互干擾,研究團(tuán)隊(duì)設(shè)計(jì)了一種叫做"模態(tài)混合專家"(MoME)的架構(gòu)。這就像一個(gè)工作室里有兩組專業(yè)人員:一組專門負(fù)責(zé)分析和理解藝術(shù)作品,另一組專門負(fù)責(zé)創(chuàng)作新的作品。

在每個(gè)Transformer層中,都有兩套并行的參數(shù)分支:理解分支和生成分支。理解分支處理文本和視覺特征的理解任務(wù),而生成分支專門負(fù)責(zé)生成視覺令牌。雖然它們有各自的專業(yè)領(lǐng)域,但通過共享的注意力機(jī)制,兩個(gè)分支可以相互交流信息,就像工作室里的分析師和畫家可以隨時(shí)溝通一樣。

這種設(shè)計(jì)的巧妙之處在于,生成的視覺令牌可以直接被理解分支讀取和分析,無需任何中間轉(zhuǎn)換。當(dāng)模型生成一個(gè)視覺令牌后,它立即就能"看懂"自己畫的是什么,并基于這個(gè)理解繼續(xù)進(jìn)行后續(xù)的推理和生成。

三、跨模態(tài)推理能力:從簡(jiǎn)單生成到復(fù)雜思考

有了統(tǒng)一的語義空間,LatentUM展現(xiàn)出了令人印象深刻的跨模態(tài)推理能力。研究團(tuán)隊(duì)在三個(gè)主要應(yīng)用場(chǎng)景中驗(yàn)證了這種能力。

在視覺生成的自我反思方面,LatentUM可以在生成圖像后立即對(duì)自己的作品進(jìn)行評(píng)價(jià)和改進(jìn)。就像一個(gè)畫家在完成一幅畫后,能夠立即發(fā)現(xiàn)畫中的不足并進(jìn)行修改。具體來說,模型生成圖像后,會(huì)對(duì)照原始提示進(jìn)行多個(gè)維度的檢查:物體是否存在、數(shù)量是否正確、顏色是否匹配、位置關(guān)系是否合理等?;谶@些自我評(píng)價(jià),模型可以通過強(qiáng)化學(xué)習(xí)不斷改進(jìn)自己的生成質(zhì)量。

在視覺空間規(guī)劃任務(wù)中,LatentUM展現(xiàn)了更加復(fù)雜的推理能力。面對(duì)迷宮導(dǎo)航問題時(shí),模型采用了兩種策略。粗粒度規(guī)劃類似于先在腦海中構(gòu)建整個(gè)路徑圖,然后一次性給出完整的解決方案。而細(xì)粒度規(guī)劃則更像是一步一步地探索,每走一步都會(huì)更新對(duì)環(huán)境的理解,然后基于新的理解決定下一步行動(dòng)。

世界模型的應(yīng)用展示了LatentUM在時(shí)間維度上的推理能力。給定當(dāng)前的環(huán)境狀態(tài)和即將執(zhí)行的動(dòng)作,模型能夠預(yù)測(cè)下一時(shí)刻的環(huán)境狀態(tài)。更令人驚喜的是,由于動(dòng)作也被表示為文本令牌,模型甚至可以理解自然語言描述的動(dòng)作指令,比如"靠近左邊的房子",然后生成相應(yīng)的未來視覺狀態(tài)。

四、實(shí)驗(yàn)驗(yàn)證:全面超越現(xiàn)有方法

研究團(tuán)隊(duì)在多個(gè)基準(zhǔn)測(cè)試上驗(yàn)證了LatentUM的效果。在基礎(chǔ)的視覺理解任務(wù)上,即使使用量化后的特征,LatentUM的性能也與使用原始特征時(shí)相當(dāng),這證明了MBAQ方法的有效性。在某些情況下,量化特征甚至表現(xiàn)得更好,因?yàn)樗鼈內(nèi)コ藢?duì)理解任務(wù)無關(guān)的細(xì)節(jié)信息。

在視覺生成任務(wù)上,LatentUM在GenEval基準(zhǔn)上達(dá)到了0.85的分?jǐn)?shù),超過了所有其他統(tǒng)一模型,盡管使用的訓(xùn)練數(shù)據(jù)相對(duì)較少。更重要的是,通過自我反思的強(qiáng)化學(xué)習(xí)訓(xùn)練,模型在GenEval上的表現(xiàn)進(jìn)一步提升到0.87,在GenEval2上更是達(dá)到了31.3的高分,大幅超越其他方法。

在視覺空間規(guī)劃任務(wù)上,LatentUM的表現(xiàn)尤為出色。在細(xì)粒度規(guī)劃模式下,模型在不同難度級(jí)別的迷宮上都達(dá)到了接近完美的準(zhǔn)確率,在最高難度的6×6迷宮上仍然保持97%的成功率。這個(gè)結(jié)果不僅超越了所有現(xiàn)有的視覺推理模型,也驗(yàn)證了統(tǒng)一語義表示對(duì)復(fù)雜推理任務(wù)的重要性。

五、技術(shù)細(xì)節(jié)與創(chuàng)新突破

LatentUM的成功離不開幾個(gè)關(guān)鍵的技術(shù)創(chuàng)新。首先是MBAQ量化方法,它不同于傳統(tǒng)的基于像素重建的量化方法,而是專注于保持視覺理解能力。研究團(tuán)隊(duì)使用多碼本量化技術(shù),將每個(gè)視覺令牌分解為8個(gè)子令牌,每個(gè)子令牌從一個(gè)包含2048個(gè)條目的碼本中選擇,這樣可以用相對(duì)較少的碼本條目表示出巨大的有效詞匯量。

在訓(xùn)練策略方面,研究團(tuán)隊(duì)采用了分階段的方法。首先訓(xùn)練MBAQ量化器,然后固定理解分支的參數(shù),只訓(xùn)練生成分支,這樣可以保持原有的理解能力不被破壞。對(duì)于需要跨模態(tài)推理的任務(wù),再進(jìn)行聯(lián)合微調(diào)。

為了處理序列中多個(gè)視覺狀態(tài)的訓(xùn)練,研究團(tuán)隊(duì)設(shè)計(jì)了特殊的注意力掩碼機(jī)制,讓同一批次中的不同視覺段落可以并行處理,同時(shí)保持各自的因果結(jié)構(gòu)。這個(gè)設(shè)計(jì)解決了訓(xùn)練效率的問題,使得模型可以在一次前向傳播中處理整個(gè)推理序列。

像素解碼器的設(shè)計(jì)也很巧妙。它基于現(xiàn)有的擴(kuò)散模型架構(gòu),但用量化的語義特征替代了原有的文本條件。重要的是,這個(gè)解碼器是獨(dú)立訓(xùn)練的,核心模型從不直接優(yōu)化像素重建損失,這保持了語義空間的純粹性。

六、應(yīng)用前景與意義

LatentUM的成功展示了統(tǒng)一多模態(tài)AI系統(tǒng)的巨大潛力。在實(shí)際應(yīng)用中,這樣的系統(tǒng)可以用于智能設(shè)計(jì)助手,它不僅能根據(jù)用戶描述生成設(shè)計(jì)圖,還能分析設(shè)計(jì)的合理性并提出改進(jìn)建議。在教育領(lǐng)域,它可以幫助創(chuàng)建互動(dòng)式的視覺學(xué)習(xí)材料,根據(jù)學(xué)生的理解程度動(dòng)態(tài)調(diào)整內(nèi)容的復(fù)雜度和表現(xiàn)形式。

在機(jī)器人領(lǐng)域,LatentUM的世界模型能力特別有價(jià)值。機(jī)器人可以在執(zhí)行動(dòng)作前先在"腦海"中模擬可能的結(jié)果,這種能力對(duì)于復(fù)雜環(huán)境中的導(dǎo)航和操作任務(wù)至關(guān)重要。而且,由于模型能理解自然語言指令,人機(jī)交互也會(huì)變得更加自然和直觀。

研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前的局限性。模型目前只支持固定分辨率的生成,訓(xùn)練規(guī)模相對(duì)較小。在世界模型應(yīng)用中,系統(tǒng)仍然依賴像素空間的遞歸接口,而非完全的潛在遞歸預(yù)測(cè)。此外,由于MBAQ目前只對(duì)齊到單一視覺語言模型的行為,學(xué)到的語義表示的通用性還需要進(jìn)一步探索。

不過,這些限制也指明了未來的發(fā)展方向:擴(kuò)大預(yù)訓(xùn)練數(shù)據(jù)和模型規(guī)模、支持可變分辨率和更長(zhǎng)上下文的生成、改進(jìn)長(zhǎng)期預(yù)測(cè)的時(shí)間一致性,以及開發(fā)完全在潛在空間中運(yùn)行的世界模型和規(guī)劃流程。

說到底,LatentUM代表了多模態(tài)AI發(fā)展的一個(gè)重要里程碑。它證明了通過巧妙的架構(gòu)設(shè)計(jì)和訓(xùn)練策略,我們可以構(gòu)建出既高效又強(qiáng)大的統(tǒng)一AI系統(tǒng)。這種系統(tǒng)不僅在技術(shù)上更加優(yōu)雅,也為實(shí)現(xiàn)真正智能的AI奠定了基礎(chǔ)——一個(gè)能夠像人類一樣seamlessly地在理解和生成之間切換,在不同模態(tài)之間進(jìn)行復(fù)雜推理的AI系統(tǒng)。

雖然距離實(shí)現(xiàn)人類級(jí)別的多模態(tài)智能還有很長(zhǎng)的路要走,但LatentUM無疑為我們指明了一個(gè)充滿希望的方向。它告訴我們,統(tǒng)一的表示學(xué)習(xí)不僅是可能的,也是實(shí)現(xiàn)更強(qiáng)大AI系統(tǒng)的關(guān)鍵。

Q&A

Q1:LatentUM與現(xiàn)有的多模態(tài)AI系統(tǒng)有什么根本區(qū)別?

A:LatentUM的最大區(qū)別是實(shí)現(xiàn)了真正的統(tǒng)一語義空間。傳統(tǒng)系統(tǒng)中,理解圖像和生成圖像使用不同的"語言",需要像素轉(zhuǎn)換作為橋梁,效率低且容易出錯(cuò)。LatentUM讓這兩個(gè)功能使用同一套語義表示,生成的圖像可以直接被模型理解,無需任何轉(zhuǎn)換,就像培養(yǎng)了一個(gè)既能看懂畫又能畫畫,且思維體系完全一致的藝術(shù)家。

Q2:MBAQ量化方法為什么比傳統(tǒng)的像素重建方法更好?

A:MBAQ專注于保持視覺理解能力,而不是重建像素細(xì)節(jié)。就像訓(xùn)練一個(gè)藝術(shù)助手,傳統(tǒng)方法要求助手完美復(fù)制每個(gè)筆觸,而MBAQ只要求助手的藝術(shù)判斷與專家一致。這樣訓(xùn)練出來的系統(tǒng)能夠保留對(duì)理解任務(wù)最重要的語義信息,去除無關(guān)的視覺細(xì)節(jié),使得生成的圖像更符合語義要求而不是像素完美。

Q3:LatentUM在實(shí)際應(yīng)用中能做什么傳統(tǒng)AI做不到的事?

A:LatentUM可以進(jìn)行真正的跨模態(tài)推理,比如在生成圖像后立即評(píng)判自己的作品并改進(jìn),或者在復(fù)雜的空間規(guī)劃任務(wù)中邊走邊思考邊更新策略。在世界模型應(yīng)用中,它甚至能理解自然語言動(dòng)作指令如"靠近左邊的房子",然后生成相應(yīng)的未來視覺狀態(tài)。這些能力讓AI從簡(jiǎn)單的生成工具變成了真正能夠思考和推理的智能系統(tǒng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
女教師群聊“八卦”被拘,起訴公安局再被駁回

女教師群聊“八卦”被拘,起訴公安局再被駁回

中國(guó)新聞周刊
2026-04-16 09:02:37
張雪峰接班人自曝只睡三小時(shí),壓力很大,但公司穩(wěn)定!網(wǎng)友:現(xiàn)代版諸葛亮...

張雪峰接班人自曝只睡三小時(shí),壓力很大,但公司穩(wěn)定!網(wǎng)友:現(xiàn)代版諸葛亮...

品牌新
2026-04-16 20:03:27
開拓者約談楊瀚森,引發(fā)震動(dòng)!老板勃然大怒,全員整頓!

開拓者約談楊瀚森,引發(fā)震動(dòng)!老板勃然大怒,全員整頓!

劉哥談體育
2026-04-16 11:30:39
汪峰真是不懂珍惜,這么高級(jí)的美人不應(yīng)該拱手讓出去。

汪峰真是不懂珍惜,這么高級(jí)的美人不應(yīng)該拱手讓出去。

手工制作阿殲
2026-04-16 20:06:01
16分大勝!拒23分逆轉(zhuǎn)!CBA最新排名:黑馬力壓廣東+北京穩(wěn)居第3

16分大勝!拒23分逆轉(zhuǎn)!CBA最新排名:黑馬力壓廣東+北京穩(wěn)居第3

大秦壁虎白話體育
2026-04-16 22:44:20
兩名外籍乘客在網(wǎng)約車上對(duì)著部隊(duì)大門連續(xù)拍照,接下來又要去訓(xùn)練場(chǎng)方向,司機(jī)覺得可疑,直接開車把他們交給了部隊(duì)

兩名外籍乘客在網(wǎng)約車上對(duì)著部隊(duì)大門連續(xù)拍照,接下來又要去訓(xùn)練場(chǎng)方向,司機(jī)覺得可疑,直接開車把他們交給了部隊(duì)

極目新聞
2026-04-16 08:59:25
山東某女子與閨蜜及丈夫同住十年,這三人組合可謂天作之合

山東某女子與閨蜜及丈夫同住十年,這三人組合可謂天作之合

科學(xué)發(fā)掘
2026-04-16 17:27:32
港獨(dú)、罵中國(guó)人,如今卻還想來內(nèi)地?fù)平穑@3位香港明星令人作嘔

港獨(dú)、罵中國(guó)人,如今卻還想來內(nèi)地?fù)平?,這3位香港明星令人作嘔

驕陽之夏明
2026-04-15 16:44:42
萬萬沒有想到,女神居然也接小商演,看來這樣比較賺錢??!

東方不敗然多多
2026-04-16 16:27:04

中國(guó)女籃集訓(xùn)第1天尷尬了!19人只有1人參加:宮魯鳴看后該懵了?

中國(guó)女籃集訓(xùn)第1天尷尬了!19人只有1人參加:宮魯鳴看后該懵了?

籃球快餐車
2026-04-17 02:11:49
云南白藥在國(guó)內(nèi)配方保密,卻在美國(guó)公布成分,被規(guī)定為寵物用藥

云南白藥在國(guó)內(nèi)配方保密,卻在美國(guó)公布成分,被規(guī)定為寵物用藥

深度報(bào)
2026-04-16 22:55:43
伊朗教育部:自本月21日起,全國(guó)各級(jí)學(xué)校統(tǒng)一轉(zhuǎn)為線上教學(xué),直至另行通知

伊朗教育部:自本月21日起,全國(guó)各級(jí)學(xué)校統(tǒng)一轉(zhuǎn)為線上教學(xué),直至另行通知

大象新聞
2026-04-16 17:57:03
牛肉頂多注個(gè)水豬肉頂多催個(gè)肥,唯有三文魚全程cosplay

牛肉頂多注個(gè)水豬肉頂多催個(gè)肥,唯有三文魚全程cosplay

富貴說
2026-04-14 23:15:09
確認(rèn)了!兩人系間諜

確認(rèn)了!兩人系間諜

浙江之聲
2026-04-16 22:16:31
涉嫌嚴(yán)重違紀(jì)違法,洪小勤被查!

涉嫌嚴(yán)重違紀(jì)違法,洪小勤被查!

中國(guó)基金報(bào)
2026-04-16 21:40:34
斯諾克世錦賽抽簽解讀!趙心童運(yùn)氣爆棚,丁俊暉避免一輪游對(duì)手弱

斯諾克世錦賽抽簽解讀!趙心童運(yùn)氣爆棚,丁俊暉避免一輪游對(duì)手弱

曹說體育
2026-04-16 19:22:51
總比分2-1,英超第16掀翻葡超第1,昂首晉級(jí)歐聯(lián)杯4強(qiáng)

總比分2-1,英超第16掀翻葡超第1,昂首晉級(jí)歐聯(lián)杯4強(qiáng)

側(cè)身凌空斬
2026-04-17 04:59:09
投訴公交提前發(fā)車,竟丟了工作?松原男子稱個(gè)人信息遭泄露,單位被施壓后將其解雇

投訴公交提前發(fā)車,竟丟了工作?松原男子稱個(gè)人信息遭泄露,單位被施壓后將其解雇

大風(fēng)新聞
2026-04-16 16:07:03
4年戰(zhàn)爭(zhēng),烏克蘭殺瘋了!海陸空無人武器全面進(jìn)化,打到莫斯科已成現(xiàn)實(shí)

4年戰(zhàn)爭(zhēng),烏克蘭殺瘋了!海陸空無人武器全面進(jìn)化,打到莫斯科已成現(xiàn)實(shí)

網(wǎng)易新聞出品
2026-04-16 13:47:19
匈牙利撤軍:人還沒走,茶就涼了

匈牙利撤軍:人還沒走,茶就涼了

寰宇大觀察
2026-04-16 17:20:43
2026-04-17 06:59:00
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
3306文章數(shù) 169關(guān)注度
往期回顧 全部

科技要聞

趙明:智駕之戰(zhàn),看誰在大模型上更高效

頭條要聞

特朗普:伊朗已同意幾乎所有要求

頭條要聞

特朗普:伊朗已同意幾乎所有要求

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財(cái)經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

汽車要聞

空間大五個(gè)乘客都滿意?體驗(yàn)嵐圖泰山X8

態(tài)度原創(chuàng)

教育
旅游
家居
數(shù)碼
公開課

教育要聞

牛劍之外,近十年從未降低過門檻的三所英國(guó)大學(xué)!

旅游要聞

社評(píng):讀懂“China Travel”持續(xù)圈粉的邏輯

家居要聞

智能舒適 簡(jiǎn)約風(fēng)尚

數(shù)碼要聞

榮耀史上最短發(fā)布會(huì),發(fā)布榮耀史上最強(qiáng)MagicBook數(shù)字系列

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版