国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

架構解耦是統(tǒng)一多模態(tài)模型所必須的嗎?全新AIA損失:No

0
分享至



近一年以來,統(tǒng)一理解與生成模型發(fā)展十分迅速,該任務的主要挑戰(zhàn)在于視覺理解和生成任務本身在網(wǎng)絡層間會產(chǎn)生沖突。早期的完全統(tǒng)一模型(如 Emu3)與單任務的方法差距巨大,Janus-Pro、BAGEL 通過一步一步解耦模型架構,極大地減小了與單任務模型的性能差距,后續(xù)方法甚至通過直接拼接現(xiàn)有理解和生成模型以達到極致的性能。

香港中文大學 MMLab 和美團的研究者相信,在不久的將來統(tǒng)一模型的性能一定能夠達到單任務的水平,但同時也引起了他們的思考,目前通過拆解架構換取性能提升的方式真的是正確的嗎,它是否背離統(tǒng)一模型的初衷,它能夠提升性能的內(nèi)在原因又是什么,這種方式真的是統(tǒng)一模型必須的嗎?

「統(tǒng)一模型的初衷」以及「 架構解耦的缺點」

統(tǒng)一理解生成模型的初衷是為了通過透明化、合理化的圖文交錯思考過程,提高單任務的性能,例如讓模型走迷宮時統(tǒng)一模型可以生成每一步對應的圖像,可以在模型做數(shù)學題的時候給圖像畫上輔助線,或者是在生成一張圖像的時候邊畫邊思考有沒有生成不合理的地方并且自動修正,這些都是 Uni-MMMU 等當前統(tǒng)一模型基準所關注,也是它本身被獨立成一個領域的初衷。

再回到架構解耦的模型,例如 BAGEL 上,它本身如果要實現(xiàn)圖文交錯思考,需要經(jīng)歷隱空間解碼到文字或者像素空間,然后再編碼到隱空間的復雜過程,兩個任務也幾乎不在同一個模型空間中,具有計算開銷大、信息丟失兩大問題。雖然在當前情況下相比于其可觀的性能,這個問題似乎并不顯著,但是研究者認為隨著研究的進行,這會是一個很大的問題。

AIA: 模型架構解耦不是統(tǒng)一模型必須的

為了探究清楚「架構解耦帶來性能提升的內(nèi)在原因」以及「探索不使用架構解耦的前提下提升模型性能的方式」,香港中文大學 MMLab 和美團聯(lián)合推出了 AIA。



  • 論文標題:Architecture Decoupling Is Not All You Need For Unified Multimodal Model
  • 論文鏈接:https://arxiv.org/abs/2511.22663
  • 代碼:https://github.com/zhengdian1/AIA
  • 網(wǎng)頁:https://github.com/zhengdian1/AIA-project

研究者首先通過研究不同架構的統(tǒng)一模型在每一層網(wǎng)絡中跨模態(tài)交互的強度,他們驚訝地發(fā)現(xiàn)不管如何進行模型架構解耦,理解和生成任務在同一層網(wǎng)絡中始終呈現(xiàn)負相關的關系,同時進一步驗證了這個現(xiàn)象與輸入的模態(tài)、長度和類別都沒有關系,這說明是模型自發(fā)在學習如何合理地分配兩個任務在每一層中的占比,從而 「緩解沖突」,這又說明架構解耦本質(zhì)上并沒有解決任務之間沖突的問題。

研究者進一步在最后一列可視化了現(xiàn)在單任務 SOTA 的模型的多模態(tài)交互模式(HunyuanImage-3.0 雖然是統(tǒng)一模型,但更側(cè)重于生成效果),結果發(fā)現(xiàn)隨著模型解耦程度的增強,其對應的跨模態(tài)交互模式會趨向于單任務的表現(xiàn),這也是能夠?qū)崿F(xiàn)性能提升的主要原因。



基于這個發(fā)現(xiàn),研究者設計了Attention Interaction Alignment (AIA) 損失,通過將單任務模型的跨模態(tài)交互模式作為學習目標,在訓練的過程中顯式地約束統(tǒng)一模型的交互模式。

AIA 效果如何?

研究者在 Emu3 和 Janus-Pro 這兩種完全統(tǒng)一架構、輕微模型解耦架構上進行了實驗,如下表所示,結果表明本文的方法能夠在沒有任何其他 trick 的情況下提升這些模型的性能,減小了與更高解耦程度模型的差距。



同時,研究者給出了使用 AIA 損失之后 Emu3 和 Janus-Pro 跨模態(tài)交互模式曲線變化,可以發(fā)現(xiàn)加入了 AIA 損失之后,兩個模型的交互曲線都向單任務模型的表現(xiàn)靠近了,既證明了 AIA 損失的有效性,同時也說明了模型架構解耦不是唯一能夠提高統(tǒng)一模型性能的方式。

當然,研究者也承認在目前情況下完全統(tǒng)一的方法和高解耦程度的模型之間存在很大的差距,但正如 Emu3.5 的出現(xiàn),他們認為這個差距會越來越小。因此,研究者呼吁更多的人拋開表層的框架和數(shù)據(jù)配比,深入研究統(tǒng)一模型的任務沖突問題,尋找更優(yōu)的解法。

AIA 好訓嗎?

由于 Emu3 只有預訓練 (PT) 階段是統(tǒng)一訓練的,因此研究者在其 PT 權重上進行微調(diào),而 Janus-Pro 給的是最終 SFT 微調(diào)后的權重,研究者在此基礎上進行后訓練。

研究者通過調(diào)整 AIA 損失與 next-token-prediction (NTP) 損失的比重來測試其微調(diào)的敏感度,結果發(fā)現(xiàn)訓練 Emu3 的時候由于其預訓練知識比較薄弱,AIA 損失在一個很大的范圍內(nèi)都能達到穩(wěn)定收斂的效果。而在 Janus-Pro 中,由于其本身預訓練知識很強,AIA 的加入非常容易影響模型訓練,但在合適的比重情況下仍然能夠達到不錯的效果。

AIA 有什么優(yōu)勢?

AIA 損失的加入可以一定程度上減少現(xiàn)在常見的數(shù)據(jù)配比工程問題,本文的方法在生成與理解數(shù)據(jù)配比在 1:1 的情況下能夠達到更好的效果,這說明在一定程度上兩個任務的訓練不再是沖突的,產(chǎn)生了協(xié)同優(yōu)化的效果。

統(tǒng)一模型訓練的正確道路是什么?

通過結合現(xiàn)在所有統(tǒng)一模型訓練的問題以及本文的實驗分析,可以發(fā)現(xiàn)不管怎樣解耦模型,其始終會在統(tǒng)一訓練的過程中動態(tài)分配不同任務在同一層的權重來緩解沖突,那這是否實際上代表了統(tǒng)一模型的正確行為



另一條統(tǒng)一路徑是移除所有可以用來區(qū)分任務的線索(即采用統(tǒng)一分詞器、消除任務相關特殊 token、使用交錯數(shù)據(jù)數(shù)據(jù)輸入),迫使模型只能從輸入中學習真正的統(tǒng)一空間。雖然這種方法或許可以解決任務間的負相關問題,但也會顯著增加訓練難度。

未來展望

AIA 邁出了統(tǒng)一模型訓練原理分析的第一步,研究者希望能夠有更多志同道合的研究者加入這個領域的探索。統(tǒng)一模型現(xiàn)在的理論、架構都遠遠沒有達到成熟,需要大家共同進行探索。同時研究者也希望大家能夠更加關注統(tǒng)一模型真正的意義,不要一味地關注當前單任務基準上的性能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
梅西在巴薩最后一個賽季的保時捷卡宴將被拍賣,里程2萬公里

梅西在巴薩最后一個賽季的保時捷卡宴將被拍賣,里程2萬公里

懂球帝
2026-04-10 23:15:10
印度曾反對中國建雅魯藏布江水電站,現(xiàn)才徹底明白,真不是一般精

印度曾反對中國建雅魯藏布江水電站,現(xiàn)才徹底明白,真不是一般精

掠影后有感
2026-04-06 11:40:04
繼德國之后,英國也開始貼出“中文標語”?中國游客:不能夠接受

繼德國之后,英國也開始貼出“中文標語”?中國游客:不能夠接受

潮鹿逐夢
2026-04-02 12:31:48
阿斯:埃德松轉(zhuǎn)會陷入僵局,馬競希望壓低4500萬歐元的轉(zhuǎn)會費

阿斯:埃德松轉(zhuǎn)會陷入僵局,馬競希望壓低4500萬歐元的轉(zhuǎn)會費

懂球帝
2026-04-11 07:24:22
賠光2億后,冉瑩穎獨自搬家30箱未給鄒市明留體面

賠光2億后,冉瑩穎獨自搬家30箱未給鄒市明留體面

春之韻
2026-03-18 09:32:52
海港VS申花:4外援坐鎮(zhèn) 國足中場新星領銜 兩大功勛老將替補待命

海港VS申花:4外援坐鎮(zhèn) 國足中場新星領銜 兩大功勛老將替補待命

零度眼看球
2026-04-11 07:11:21
上海剮蹭鬧?。喝熯€罵別人是“破奧迪”,一句回懟直接破防開罵

上海剮蹭鬧?。喝熯€罵別人是“破奧迪”,一句回懟直接破防開罵

今朝牛馬
2026-04-10 22:45:22
開國上將鬧離婚:結發(fā)40年竟遭發(fā)妻死命舉報,六名子女為何如釋重負

開國上將鬧離婚:結發(fā)40年竟遭發(fā)妻死命舉報,六名子女為何如釋重負

睡前講故事
2026-04-07 14:43:34
西北大學終于坐不住了!

西北大學終于坐不住了!

梳子姐
2026-04-09 11:44:17
沒有這種食物,你的肌肉將消失!醫(yī)生:60歲后恢復肌力的7種食物

沒有這種食物,你的肌肉將消失!醫(yī)生:60歲后恢復肌力的7種食物

健康之光
2026-01-04 09:31:45
離譜?姆巴佩空門踢呲+20次丟球權!獲5.8分最低,西甲已4場球荒

離譜?姆巴佩空門踢呲+20次丟球權!獲5.8分最低,西甲已4場球荒

我愛英超
2026-04-11 06:22:51
妮可·基德曼頂3斤假發(fā)亮相,Schiaparelli高定秒變淘寶

妮可·基德曼頂3斤假發(fā)亮相,Schiaparelli高定秒變淘寶

熱搜摘要官
2026-04-10 08:02:47
鄭麗文想要的,大陸給得很爽快,隨行人員有驚喜,藍營一姐發(fā)話了

鄭麗文想要的,大陸給得很爽快,隨行人員有驚喜,藍營一姐發(fā)話了

閱微札記
2026-04-10 19:55:07
《妻子浪漫旅行》最尷尬的夫妻,話少還裝甜蜜,沒李純馬頔自然

《妻子浪漫旅行》最尷尬的夫妻,話少還裝甜蜜,沒李純馬頔自然

一娛三分地
2026-04-09 19:22:11
臺州保時捷事件后續(xù):警方通報處理結果,車主身份曝光,太意外了

臺州保時捷事件后續(xù):警方通報處理結果,車主身份曝光,太意外了

奇思妙想草葉君
2026-04-10 21:54:35
東部最新排名!76人掉隊,騎士首輪對手變了,三大魚腩沖狀元簽

東部最新排名!76人掉隊,騎士首輪對手變了,三大魚腩沖狀元簽

體壇小李
2026-04-10 11:29:59
TVB港姐冠軍內(nèi)地真人秀人氣急升,收花當場爆喊,獲贊像公主

TVB港姐冠軍內(nèi)地真人秀人氣急升,收花當場爆喊,獲贊像公主

東方不敗然多多
2026-04-11 03:27:35
你見過哪些悶聲發(fā)大財?shù)娜耍烤W(wǎng)友:干這個買三套房子,兩個門面

你見過哪些悶聲發(fā)大財?shù)娜??網(wǎng)友:干這個買三套房子,兩個門面

夜深愛雜談
2026-02-01 18:57:04
新生代主持李瑜,綠裙赤足展玉足,這清純性感誰頂?shù)米。?>
    </a>
        <h3>
      <a href=娛樂領航家
2026-04-10 21:30:03
華為新款AI眼鏡由歌爾股份代工

華為新款AI眼鏡由歌爾股份代工

財聯(lián)社
2026-04-10 11:18:07
2026-04-11 07:44:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12729文章數(shù) 142621關注度
往期回顧 全部

科技要聞

馬斯克狂發(fā)大火箭也養(yǎng)不起AI 年虧50億美元

頭條要聞

推動停火 巴基斯坦被指取得近年來最大的外交勝利之一

頭條要聞

推動停火 巴基斯坦被指取得近年來最大的外交勝利之一

體育要聞

17歲賺了一百萬美元,25歲被CBA裁員

娛樂要聞

黃景瑜王玉雯否認戀情!聚會細節(jié)被扒

財經(jīng)要聞

李強主持召開經(jīng)濟形勢專家和企業(yè)家座談會

汽車要聞

搭載第二代刀片電池及閃充技術 騰勢N8L閃充版預售35萬起

態(tài)度原創(chuàng)

藝術
健康
本地
時尚
公開課

藝術要聞

曾熙『仿思翁山水冊』

干細胞抗衰4大誤區(qū),90%的人都中招

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

今日熱點:陳添祥長文道歉;夏克立曾給前經(jīng)紀人傳上廁所照片……

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版