国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

架構(gòu)解耦是統(tǒng)一多模態(tài)模型所必須的嗎?全新AIA損失:No

0
分享至



近一年以來,統(tǒng)一理解與生成模型發(fā)展十分迅速,該任務(wù)的主要挑戰(zhàn)在于視覺理解和生成任務(wù)本身在網(wǎng)絡(luò)層間會(huì)產(chǎn)生沖突。早期的完全統(tǒng)一模型(如 Emu3)與單任務(wù)的方法差距巨大,Janus-Pro、BAGEL 通過一步一步解耦模型架構(gòu),極大地減小了與單任務(wù)模型的性能差距,后續(xù)方法甚至通過直接拼接現(xiàn)有理解和生成模型以達(dá)到極致的性能。

香港中文大學(xué) MMLab 和美團(tuán)的研究者相信,在不久的將來統(tǒng)一模型的性能一定能夠達(dá)到單任務(wù)的水平,但同時(shí)也引起了他們的思考,目前通過拆解架構(gòu)換取性能提升的方式真的是正確的嗎,它是否背離統(tǒng)一模型的初衷,它能夠提升性能的內(nèi)在原因又是什么,這種方式真的是統(tǒng)一模型必須的嗎?

「統(tǒng)一模型的初衷」以及「 架構(gòu)解耦的缺點(diǎn)」

統(tǒng)一理解生成模型的初衷是為了通過透明化、合理化的圖文交錯(cuò)思考過程,提高單任務(wù)的性能,例如讓模型走迷宮時(shí)統(tǒng)一模型可以生成每一步對(duì)應(yīng)的圖像,可以在模型做數(shù)學(xué)題的時(shí)候給圖像畫上輔助線,或者是在生成一張圖像的時(shí)候邊畫邊思考有沒有生成不合理的地方并且自動(dòng)修正,這些都是 Uni-MMMU 等當(dāng)前統(tǒng)一模型基準(zhǔn)所關(guān)注,也是它本身被獨(dú)立成一個(gè)領(lǐng)域的初衷。

再回到架構(gòu)解耦的模型,例如 BAGEL 上,它本身如果要實(shí)現(xiàn)圖文交錯(cuò)思考,需要經(jīng)歷隱空間解碼到文字或者像素空間,然后再編碼到隱空間的復(fù)雜過程,兩個(gè)任務(wù)也幾乎不在同一個(gè)模型空間中,具有計(jì)算開銷大、信息丟失兩大問題。雖然在當(dāng)前情況下相比于其可觀的性能,這個(gè)問題似乎并不顯著,但是研究者認(rèn)為隨著研究的進(jìn)行,這會(huì)是一個(gè)很大的問題。

AIA: 模型架構(gòu)解耦不是統(tǒng)一模型必須的

為了探究清楚「架構(gòu)解耦帶來性能提升的內(nèi)在原因」以及「探索不使用架構(gòu)解耦的前提下提升模型性能的方式」,香港中文大學(xué) MMLab 和美團(tuán)聯(lián)合推出了 AIA。



  • 論文標(biāo)題:Architecture Decoupling Is Not All You Need For Unified Multimodal Model
  • 論文鏈接:https://arxiv.org/abs/2511.22663
  • 代碼:https://github.com/zhengdian1/AIA
  • 網(wǎng)頁:https://github.com/zhengdian1/AIA-project

研究者首先通過研究不同架構(gòu)的統(tǒng)一模型在每一層網(wǎng)絡(luò)中跨模態(tài)交互的強(qiáng)度,他們驚訝地發(fā)現(xiàn)不管如何進(jìn)行模型架構(gòu)解耦,理解和生成任務(wù)在同一層網(wǎng)絡(luò)中始終呈現(xiàn)負(fù)相關(guān)的關(guān)系,同時(shí)進(jìn)一步驗(yàn)證了這個(gè)現(xiàn)象與輸入的模態(tài)、長度和類別都沒有關(guān)系,這說明是模型自發(fā)在學(xué)習(xí)如何合理地分配兩個(gè)任務(wù)在每一層中的占比,從而 「緩解沖突」,這又說明架構(gòu)解耦本質(zhì)上并沒有解決任務(wù)之間沖突的問題。

研究者進(jìn)一步在最后一列可視化了現(xiàn)在單任務(wù) SOTA 的模型的多模態(tài)交互模式(HunyuanImage-3.0 雖然是統(tǒng)一模型,但更側(cè)重于生成效果),結(jié)果發(fā)現(xiàn)隨著模型解耦程度的增強(qiáng),其對(duì)應(yīng)的跨模態(tài)交互模式會(huì)趨向于單任務(wù)的表現(xiàn),這也是能夠?qū)崿F(xiàn)性能提升的主要原因。



基于這個(gè)發(fā)現(xiàn),研究者設(shè)計(jì)了Attention Interaction Alignment (AIA) 損失,通過將單任務(wù)模型的跨模態(tài)交互模式作為學(xué)習(xí)目標(biāo),在訓(xùn)練的過程中顯式地約束統(tǒng)一模型的交互模式。

AIA 效果如何?

研究者在 Emu3 和 Janus-Pro 這兩種完全統(tǒng)一架構(gòu)、輕微模型解耦架構(gòu)上進(jìn)行了實(shí)驗(yàn),如下表所示,結(jié)果表明本文的方法能夠在沒有任何其他 trick 的情況下提升這些模型的性能,減小了與更高解耦程度模型的差距。



同時(shí),研究者給出了使用 AIA 損失之后 Emu3 和 Janus-Pro 跨模態(tài)交互模式曲線變化,可以發(fā)現(xiàn)加入了 AIA 損失之后,兩個(gè)模型的交互曲線都向單任務(wù)模型的表現(xiàn)靠近了,既證明了 AIA 損失的有效性,同時(shí)也說明了模型架構(gòu)解耦不是唯一能夠提高統(tǒng)一模型性能的方式。

當(dāng)然,研究者也承認(rèn)在目前情況下完全統(tǒng)一的方法和高解耦程度的模型之間存在很大的差距,但正如 Emu3.5 的出現(xiàn),他們認(rèn)為這個(gè)差距會(huì)越來越小。因此,研究者呼吁更多的人拋開表層的框架和數(shù)據(jù)配比,深入研究統(tǒng)一模型的任務(wù)沖突問題,尋找更優(yōu)的解法。

AIA 好訓(xùn)嗎?

由于 Emu3 只有預(yù)訓(xùn)練 (PT) 階段是統(tǒng)一訓(xùn)練的,因此研究者在其 PT 權(quán)重上進(jìn)行微調(diào),而 Janus-Pro 給的是最終 SFT 微調(diào)后的權(quán)重,研究者在此基礎(chǔ)上進(jìn)行后訓(xùn)練。

研究者通過調(diào)整 AIA 損失與 next-token-prediction (NTP) 損失的比重來測(cè)試其微調(diào)的敏感度,結(jié)果發(fā)現(xiàn)訓(xùn)練 Emu3 的時(shí)候由于其預(yù)訓(xùn)練知識(shí)比較薄弱,AIA 損失在一個(gè)很大的范圍內(nèi)都能達(dá)到穩(wěn)定收斂的效果。而在 Janus-Pro 中,由于其本身預(yù)訓(xùn)練知識(shí)很強(qiáng),AIA 的加入非常容易影響模型訓(xùn)練,但在合適的比重情況下仍然能夠達(dá)到不錯(cuò)的效果。

AIA 有什么優(yōu)勢(shì)?

AIA 損失的加入可以一定程度上減少現(xiàn)在常見的數(shù)據(jù)配比工程問題,本文的方法在生成與理解數(shù)據(jù)配比在 1:1 的情況下能夠達(dá)到更好的效果,這說明在一定程度上兩個(gè)任務(wù)的訓(xùn)練不再是沖突的,產(chǎn)生了協(xié)同優(yōu)化的效果。

統(tǒng)一模型訓(xùn)練的正確道路是什么?

通過結(jié)合現(xiàn)在所有統(tǒng)一模型訓(xùn)練的問題以及本文的實(shí)驗(yàn)分析,可以發(fā)現(xiàn)不管怎樣解耦模型,其始終會(huì)在統(tǒng)一訓(xùn)練的過程中動(dòng)態(tài)分配不同任務(wù)在同一層的權(quán)重來緩解沖突,那這是否實(shí)際上代表了統(tǒng)一模型的正確行為?



另一條統(tǒng)一路徑是移除所有可以用來區(qū)分任務(wù)的線索(即采用統(tǒng)一分詞器、消除任務(wù)相關(guān)特殊 token、使用交錯(cuò)數(shù)據(jù)數(shù)據(jù)輸入),迫使模型只能從輸入中學(xué)習(xí)真正的統(tǒng)一空間。雖然這種方法或許可以解決任務(wù)間的負(fù)相關(guān)問題,但也會(huì)顯著增加訓(xùn)練難度。

未來展望

AIA 邁出了統(tǒng)一模型訓(xùn)練原理分析的第一步,研究者希望能夠有更多志同道合的研究者加入這個(gè)領(lǐng)域的探索。統(tǒng)一模型現(xiàn)在的理論、架構(gòu)都遠(yuǎn)遠(yuǎn)沒有達(dá)到成熟,需要大家共同進(jìn)行探索。同時(shí)研究者也希望大家能夠更加關(guān)注統(tǒng)一模型真正的意義,不要一味地關(guān)注當(dāng)前單任務(wù)基準(zhǔn)上的性能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
小布什、奧巴馬、拜登都拒絕了,就特朗普同意了內(nèi)塔尼亞胡

小布什、奧巴馬、拜登都拒絕了,就特朗普同意了內(nèi)塔尼亞胡

魯中晨報(bào)
2026-04-10 21:40:04
進(jìn)球多也有錯(cuò)?尤文前總監(jiān):C羅場(chǎng)均1球,坑慘隊(duì)友+毀了王朝

進(jìn)球多也有錯(cuò)?尤文前總監(jiān):C羅場(chǎng)均1球,坑慘隊(duì)友+毀了王朝

二爺臺(tái)球解說
2026-04-11 02:21:01
北京四元橋今日凌晨啟動(dòng)大修 與京密路互通匝道封閉48小時(shí)

北京四元橋今日凌晨啟動(dòng)大修 與京密路互通匝道封閉48小時(shí)

北青網(wǎng)-北京青年報(bào)
2026-04-11 07:59:56
伊朗徹底憤怒:復(fù)仇不會(huì)停止!俄提醒全世界,伊朗已經(jīng)測(cè)試新核武

伊朗徹底憤怒:復(fù)仇不會(huì)停止!俄提醒全世界,伊朗已經(jīng)測(cè)試新核武

別吵吵
2026-04-11 10:44:23
工信部原黨組副書記、副部長蘇波:我們有可能在“十五五”末期建成新能源汽車強(qiáng)國

工信部原黨組副書記、副部長蘇波:我們有可能在“十五五”末期建成新能源汽車強(qiáng)國

每日經(jīng)濟(jì)新聞
2026-04-11 10:51:07
蒙哥馬利:很高興侯森、王剛、達(dá)萬都回來了,今天評(píng)估拉莫斯的情況

蒙哥馬利:很高興侯森、王剛、達(dá)萬都回來了,今天評(píng)估拉莫斯的情況

懂球帝
2026-04-11 11:29:22
159名球員票選MVP:亞歷山大得票率39%居首 文班亞馬意外沒進(jìn)前五

159名球員票選MVP:亞歷山大得票率39%居首 文班亞馬意外沒進(jìn)前五

羅說NBA
2026-04-10 22:00:23
兩岸共識(shí)達(dá)成,鄭麗文吃完午宴,大陸盛情款待,1位特殊嘉賓現(xiàn)身

兩岸共識(shí)達(dá)成,鄭麗文吃完午宴,大陸盛情款待,1位特殊嘉賓現(xiàn)身

觸摸史跡
2026-04-10 21:15:41
項(xiàng)立剛微博被禁言,易中天獲廈大杰出貢獻(xiàn)獎(jiǎng)

項(xiàng)立剛微博被禁言,易中天獲廈大杰出貢獻(xiàn)獎(jiǎng)

難得君
2026-04-09 16:02:49
抓住了!建群謾罵全紅嬋的人被拘留10日,從報(bào)警到抓僅兩天時(shí)間

抓住了!建群謾罵全紅嬋的人被拘留10日,從報(bào)警到抓僅兩天時(shí)間

蜜桔娛樂
2026-04-10 20:31:31
情侶在餐廳秀恩愛,女友手部動(dòng)作不雅被偷拍,目擊者:都看習(xí)慣了

情侶在餐廳秀恩愛,女友手部動(dòng)作不雅被偷拍,目擊者:都看習(xí)慣了

李晚書
2026-04-10 17:13:10
賈淺淺,你深深地傷害了我

賈淺淺,你深深地傷害了我

不主流講話
2026-04-10 11:22:28
女人靠兩年半開房410次而“火箭升遷”,當(dāng)年南航這樁事有多丑陋

女人靠兩年半開房410次而“火箭升遷”,當(dāng)年南航這樁事有多丑陋

長安一孤客
2026-04-10 22:39:51
國民黨訪問團(tuán)再度訪問大陸傳遞出什么信號(hào)

國民黨訪問團(tuán)再度訪問大陸傳遞出什么信號(hào)

上游新聞
2026-04-10 09:12:41
不同的女人,對(duì)第一次偷情都會(huì)有什么感受?

不同的女人,對(duì)第一次偷情都會(huì)有什么感受?

思絮
2026-04-11 11:52:13
白酒再次被關(guān)注!醫(yī)生發(fā)現(xiàn):糖尿病者喝白酒,不用多久或有6變化

白酒再次被關(guān)注!醫(yī)生發(fā)現(xiàn):糖尿病者喝白酒,不用多久或有6變化

任醫(yī)生聊健康
2026-04-11 11:22:58
美團(tuán)王興罕見現(xiàn)身,頭發(fā)花白太搶眼

美團(tuán)王興罕見現(xiàn)身,頭發(fā)花白太搶眼

新浪財(cái)經(jīng)
2026-04-09 18:23:45
東航MU6113雷電中盤旋數(shù)圈安全降落,乘客:劇烈顛簸,嚇得給對(duì)象留言,感謝機(jī)長帶我平安回家

東航MU6113雷電中盤旋數(shù)圈安全降落,乘客:劇烈顛簸,嚇得給對(duì)象留言,感謝機(jī)長帶我平安回家

瀟湘晨報(bào)
2026-04-11 11:07:28
8戰(zhàn)8負(fù)!張本智和的終極夢(mèng)魘,贏遍國乒主力卻栽在他手里

8戰(zhàn)8負(fù)!張本智和的終極夢(mèng)魘,贏遍國乒主力卻栽在他手里

體育見習(xí)官
2026-04-11 11:12:06
魔獸世界時(shí)光服頂尖老外公會(huì)FAST宣布退出!理由:太簡(jiǎn)單!

魔獸世界時(shí)光服頂尖老外公會(huì)FAST宣布退出!理由:太簡(jiǎn)單!

艾星攻略閣
2026-04-11 08:44:20
2026-04-11 12:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12729文章數(shù) 142622關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

牛彈琴:伊朗很悲壯 向美國提高了"要價(jià)"

頭條要聞

牛彈琴:伊朗很悲壯 向美國提高了"要價(jià)"

體育要聞

換帥之后,他們從降級(jí)區(qū)沖到升級(jí)區(qū)

娛樂要聞

浪姐7淘汰 該走的沒走,不該走的走了

財(cái)經(jīng)要聞

從日本翻身看:這次誰能扛住高油價(jià)?

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬起

態(tài)度原創(chuàng)

旅游
家居
本地
數(shù)碼
親子

旅游要聞

外灘“絕世美景”!99%的人不知道,5樓免費(fèi)露臺(tái),3萬株杜鵑花正在盛放!入口在這里→

家居要聞

復(fù)古風(fēng)格 自然簡(jiǎn)約

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

數(shù)碼要聞

大疆Pocket 4官宣4月16日發(fā)布:1英寸大底+可旋轉(zhuǎn)屏幕

親子要聞

童趣與春的浪漫共舞,兩只小精靈在花瓣堆里奔跑

無障礙瀏覽 進(jìn)入關(guān)懷版