国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華、西交聯(lián)合開源發(fā)布Cheers : 更簡潔、更高效統(tǒng)一多模態(tài)路線

0
分享至





  • 論文標(biāo)題:Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation
  • 項(xiàng)目地址:https://github.com/AI9Stars/Cheers
  • 模型地址:https://huggingface.co/ai9stars/Cheers
  • HF Daily Paper:https://huggingface.co/papers/2603.12793
  • 論文鏈接:https://arxiv.org/abs/2603.12793

過去幾年,多模態(tài)模型在理解任務(wù)上快速演進(jìn),圖像問答、OCR、視覺推理、跨模態(tài)對話等能力不斷提升;與此同時,圖像生成模型也在視覺質(zhì)量、指令遵循和細(xì)節(jié)表達(dá)上持續(xù)突破。下一步一個自然的問題是:能否用同一個模型,同時做好理解與生成?這正是統(tǒng)一多模態(tài)模型(Unified Multimodal Models, UMMs)正在回答的問題。

但這件事并不容易。理解任務(wù)更依賴穩(wěn)定、抽象、適合推理的語義表示,生成任務(wù)則要求模型保留充足的局部細(xì)節(jié)與高頻紋理,以保證圖像質(zhì)量和真實(shí)感。近期越來越多工作都注意到,理解與生成在視覺表征和優(yōu)化目標(biāo)上存在天然張力,如何在同一個框架中兼顧二者,仍然是統(tǒng)一多模態(tài)建模最核心的挑戰(zhàn)之一。



今天,我們正式介紹并開源發(fā)布 CHEERS。CHEERS 提出了一種面向統(tǒng)一多模態(tài)理解與生成的架構(gòu)路線:在盡可能保持系統(tǒng)簡潔的前提下,將理解任務(wù)與生成任務(wù)統(tǒng)一到同一個端到端框架中進(jìn)行聯(lián)合優(yōu)化,并最大程度繼承開源預(yù)訓(xùn)練模型已有知識。我們希望它回答的不只是 “能否統(tǒng)一”,更是能否以一種足夠簡潔、足夠高效、足夠開源友好的方式完成統(tǒng)一。Cheers 實(shí)現(xiàn)了:

  • 統(tǒng)一多模態(tài)理解與生成的端到端框架
  • 保持架構(gòu)簡潔,同時實(shí)現(xiàn)理解與生成聯(lián)合優(yōu)化
  • 零額外預(yù)訓(xùn)練成本,充分繼承開源預(yù)訓(xùn)練模型知識,相對傳統(tǒng) VLM 僅增加輕量 VAE 與 Cascaded Flow Matching Head
  • 更少訓(xùn)練數(shù)據(jù)下達(dá)到同規(guī)模 SOTA / 領(lǐng)先性能
  • 4× token compression,兼顧統(tǒng)一建模與高效率

一、當(dāng)前統(tǒng)一多模態(tài)模型的技術(shù)方案?



從視覺表示角度看,現(xiàn)有工作又大致呈現(xiàn)出幾種典型思路。有些方法會把理解和生成放在相對分離的視覺空間里,各自優(yōu)化、互不干擾,這類方案任務(wù)性能通常不差,但統(tǒng)一性相對有限;有些方法更強(qiáng)調(diào)單一語義空間,希望讓同一套表示同時支撐理解與生成,但往往會在結(jié)構(gòu)細(xì)節(jié)上遇到瓶頸;還有一些方法嘗試融合異構(gòu)特征,把語義信息與像素級信息匯總到一起,但融合之后也容易出現(xiàn)干擾和拉扯。CHEERS 的位置,正是在這些路線之間給出一個更加克制的答案:不追求把所有問題壓縮成一種表示,也不走完全分離的雙系統(tǒng),而是在統(tǒng)一框架下重新安排語義與細(xì)節(jié)的職責(zé)。

二、CHEERS,一條現(xiàn)實(shí)可行的統(tǒng)一路線

在這個問題上,CHEERS 的出發(fā)點(diǎn)非常明確:不是為了統(tǒng)一而引入龐大而復(fù)雜的組合系統(tǒng),而是在保留已有開源預(yù)訓(xùn)練能力的基礎(chǔ)上,用盡可能小的架構(gòu)增量完成從 “理解模型” 到 “理解 + 生成統(tǒng)一模型” 的升級。具體來說,CHEERS 構(gòu)建了一個統(tǒng)一多模態(tài)大模型框架,通過統(tǒng)一視覺 tokenizer、LLM 主干以及 Cascaded Flow Matching Head,將多模態(tài)理解與圖像生成納入同一條端到端鏈路。

這個設(shè)計(jì)最重要的價值在于兩點(diǎn)。第一,它實(shí)現(xiàn)了理解與生成任務(wù)的同時優(yōu)化。同一個 LLM 主干既服務(wù)于文本自回歸與多模態(tài)理解,也服務(wù)于圖像生成過程中的條件建模,從而讓統(tǒng)一不再停留在 “模塊拼裝”,而成為真正端到端的聯(lián)合建模。第二,它盡可能繼承了開源預(yù)訓(xùn)練模型已有知識。CHEERS 不需要為了 “統(tǒng)一化” 額外再做一輪昂貴的大規(guī)模預(yù)訓(xùn)練,而是完整保留并利用已有預(yù)訓(xùn)練能力,讓統(tǒng)一多模態(tài)模型的構(gòu)建成本顯著降低。對于開源社區(qū)而言,這一點(diǎn)尤其重要,因?yàn)檎嬲鼙怀掷m(xù)復(fù)現(xiàn)、擴(kuò)展和使用的路線,不只是性能強(qiáng),更要足夠現(xiàn)實(shí)。

三、CHEERS 如何處理 “語義” 和 “細(xì)節(jié)”



近期不少統(tǒng)一多模態(tài)工作都已經(jīng)觀察到類似經(jīng)驗(yàn):理解更偏向穩(wěn)定語義,生成更依賴細(xì)節(jié)保真。這說明問題本身正在逐漸被行業(yè)看清。在 CHEERS 中,視覺信息被組織為兩類互補(bǔ)成分:語義 token 用于多模態(tài)理解和生成條件控制,細(xì)節(jié)殘差則用于在生成過程中補(bǔ)足高頻紋理和局部保真。



對應(yīng)地,在生成階段,CHEERS 采用 “先語義、后細(xì)節(jié)” 的級聯(lián)方式:先生成全局語義布局,再通過語義門控逐步注入細(xì)節(jié)信息,對局部紋理進(jìn)行修正和增強(qiáng)。同時我們發(fā)現(xiàn),即便沒有對高頻細(xì)節(jié)注入強(qiáng)度做顯式監(jiān)督,模型也會在生成后期自然增強(qiáng)對高頻細(xì)節(jié)的使用。這種現(xiàn)象非常像人類作畫時 “先搭結(jié)構(gòu)、再補(bǔ)內(nèi)容、后補(bǔ)紋理” 的過程,也說明 CHEERS 的設(shè)計(jì)并不是機(jī)械堆疊模塊,而是在建模上更貼近理解與生成各自的需求節(jié)奏。

四、小數(shù)據(jù),大性能:

更重要的是特征空間的統(tǒng)一





從實(shí)驗(yàn)結(jié)果來看,CHEERS 在同等規(guī)模統(tǒng)一多模態(tài)模型中取得了很強(qiáng)的綜合表現(xiàn)。在多項(xiàng)主流理解基準(zhǔn)與生成基準(zhǔn)上,CHEERS 都展現(xiàn)出競爭性甚至領(lǐng)先的結(jié)果。論文中,CHEERS 在 GenEval 上達(dá)到 0.78,在 MMBench、MMStar、AI2D、MathVista 等理解基準(zhǔn)上也取得了穩(wěn)健表現(xiàn)。同時,CHEERS 還實(shí)現(xiàn)了 4× token compression,為高分辨率視覺理解與生成提供了更高效率的統(tǒng)一建模方式。

相比單純列舉性能,我們更想強(qiáng)調(diào)另一點(diǎn):CHEERS 達(dá)成這些結(jié)果時,使用的數(shù)據(jù)規(guī)模顯著小于部分同類方法。CHEERS 總訓(xùn)練樣本規(guī)模為 83M,相比一些同類工作節(jié)省了約 2× 甚至更多的數(shù)據(jù)需求,仍然能夠達(dá)到同規(guī)模 SOTA 或領(lǐng)先性能。這說明 CHEERS 的優(yōu)勢不只是 “訓(xùn)得出來”,而是它對已有預(yù)訓(xùn)練知識具有更高的繼承和利用效率。某種意義上,這比單純提升某個 benchmark 分?jǐn)?shù)更值得關(guān)注,因?yàn)榻y(tǒng)一多模態(tài)走到今天,真正稀缺的已經(jīng)不只是數(shù)據(jù)規(guī)模,而是如何把已有知識體系更高效地組織起來。

五、總結(jié)

在我們看來,CHEERS 的意義不止體現(xiàn)在結(jié)果上,也體現(xiàn)在它對統(tǒng)一多模態(tài)研究提供了一些值得繼續(xù)思考的方向。

第一個啟發(fā)是:統(tǒng)一模型真正需要統(tǒng)一的,未必是單一視覺表示本身,而可能是一個足夠穩(wěn)定、足夠高效的信息接口。如果不同任務(wù)對視覺信息的需求本來就不同,那么比起強(qiáng)行讓所有能力共享同一份表征,更重要的也許是讓不同信息以合適方式進(jìn)入統(tǒng)一主干。

第二個啟發(fā)是:理解與生成并不一定互相拖累,關(guān)鍵在于架構(gòu)設(shè)計(jì)是否合理。論文表明,在統(tǒng)一架構(gòu)設(shè)計(jì)下,聯(lián)合訓(xùn)練生成目標(biāo)不會顯著破壞理解能力,反而有機(jī)會帶來細(xì)粒度感知層面的增益。

第三個啟發(fā)是:高效統(tǒng)一多模態(tài),不一定意味著更重、更大、更復(fù)雜。CHEERS 用簡單的系統(tǒng)改動,完成了從傳統(tǒng)理解型 VLM 到統(tǒng)一模型的升級,這為后續(xù)很多開源工作提供了一種更現(xiàn)實(shí)的參考路徑。

第四個啟發(fā)是:效率問題本身就是統(tǒng)一多模態(tài)問題的一部分。CHEERS 的 4× token compression 不只是工程優(yōu)化,也意味著高分辨率理解與生成可以在更現(xiàn)實(shí)的計(jì)算預(yù)算下被同時納入一個系統(tǒng)中,這對未來更長上下文、更復(fù)雜視覺輸入的統(tǒng)一建模都很關(guān)鍵。

我們期待的不只是一個更強(qiáng)的模型,而是一條讓更多研究者和開發(fā)者都能繼續(xù)往前推進(jìn)的路線。因此我們開源了訓(xùn)練、推理測評代碼和模型權(quán)重,并于近期開源微調(diào)數(shù)據(jù)。希望大家可以支持我們的工作。

作者簡介:

張易辰,碩士,高級工程師,專注于理解生成統(tǒng)一方向,面向基礎(chǔ)模型架構(gòu)設(shè)計(jì)、大模型預(yù)訓(xùn)練進(jìn)行了相關(guān)研究;彭達(dá),碩士在讀,專注于多模態(tài)理解和生成、高效推理,面向基礎(chǔ)架構(gòu)、預(yù)訓(xùn)練、視頻高效編碼進(jìn)行了相關(guān)研究;通訊作者郭宗昊,博士,清華THUNLP訪問學(xué)者,專注于多模態(tài)智能,面向多模態(tài)基礎(chǔ)模型架構(gòu)設(shè)計(jì)、大模型預(yù)訓(xùn)練與模型深思考能力進(jìn)行了相關(guān)研究,在CVPR、NeurIPS、IJCV等頂會頂刊發(fā)表論文20余篇,谷歌學(xué)術(shù)引用超2000次。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
四川井研一公交車身標(biāo)語引爭議 官方:系個人自費(fèi)5000元投放的廣告,已整改清除

四川井研一公交車身標(biāo)語引爭議 官方:系個人自費(fèi)5000元投放的廣告,已整改清除

紅星新聞
2026-03-25 20:09:43
美媒曬NBA球隊(duì)市值排名:勇士113.3億美元居首 湖人第2火箭第10

美媒曬NBA球隊(duì)市值排名:勇士113.3億美元居首 湖人第2火箭第10

羅說NBA
2026-03-26 06:18:02
見證歷史,中國讓Open AI絕望了!

見證歷史,中國讓Open AI絕望了!

君臨財(cái)富
2026-03-25 23:36:26
伊朗軍方:中東地區(qū)內(nèi)“所有美軍基地已被摧毀” 部分美軍指揮官和士兵已離開基地 伊朗武裝力量正展開搜捕

伊朗軍方:中東地區(qū)內(nèi)“所有美軍基地已被摧毀” 部分美軍指揮官和士兵已離開基地 伊朗武裝力量正展開搜捕

閃電新聞
2026-03-26 10:00:46
終于知道廣東人為啥不抑郁了!網(wǎng)友:西醫(yī)叫抑郁,中醫(yī)叫郁結(jié)

終于知道廣東人為啥不抑郁了!網(wǎng)友:西醫(yī)叫抑郁,中醫(yī)叫郁結(jié)

另子維愛讀史
2026-03-25 22:34:08
A股:緊急提醒股民,主力已攤牌!明天,3月26日周四尾聲將至?

A股:緊急提醒股民,主力已攤牌!明天,3月26日周四尾聲將至?

云鵬敘事
2026-03-26 00:00:06
好萊塢的AI招魂術(shù):死亡不再是勞動的終點(diǎn)

好萊塢的AI招魂術(shù):死亡不再是勞動的終點(diǎn)

動察Beating
2026-03-26 11:06:56
日本不再歡迎中國人?3月起日本簽證“一刀切”,華人進(jìn)退兩難!

日本不再歡迎中國人?3月起日本簽證“一刀切”,華人進(jìn)退兩難!

有范又有料
2026-03-25 14:08:39
2026QS世界大學(xué)學(xué)科排名正式發(fā)布!

2026QS世界大學(xué)學(xué)科排名正式發(fā)布!

雙一流高校
2026-03-26 00:11:50
白宮:美國總統(tǒng)特朗普將于5月訪華

白宮:美國總統(tǒng)特朗普將于5月訪華

輦轂
2026-03-26 05:18:40
尺度大到曾下架!模特冠軍泳裝大雷出演影游即將發(fā)售

尺度大到曾下架!模特冠軍泳裝大雷出演影游即將發(fā)售

游民星空
2026-03-26 11:58:13
河南三個大爺自駕三輪車出游106天,總里程超3000公里,平均年齡超75歲!游歷八省,分工明確,當(dāng)事人:出發(fā)前約定互不追責(zé),子女簽字見證

河南三個大爺自駕三輪車出游106天,總里程超3000公里,平均年齡超75歲!游歷八省,分工明確,當(dāng)事人:出發(fā)前約定互不追責(zé),子女簽字見證

大風(fēng)新聞
2026-03-25 19:23:14
加時崩盤!火箭108-110森林狼,本場誰是罪魁禍?zhǔn)?,?shù)據(jù)不會說謊

加時崩盤!火箭108-110森林狼,本場誰是罪魁禍?zhǔn)?,?shù)據(jù)不會說謊

小徐講八卦
2026-03-26 12:55:53
寫小說判十年,把生殖器放女孩嘴巴里判兩年九個月

寫小說判十年,把生殖器放女孩嘴巴里判兩年九個月

昊軒看世界
2026-03-24 19:56:42
中東突發(fā)!剛剛,直線拉升

中東突發(fā)!剛剛,直線拉升

中國基金報(bào)
2026-03-26 12:35:21
蒙古總理當(dāng)眾給斯大林一耳光,走出宴會廳3小時后,被扣上間諜帽子槍決

蒙古總理當(dāng)眾給斯大林一耳光,走出宴會廳3小時后,被扣上間諜帽子槍決

老杉說歷史
2026-03-23 22:17:08
為什么建議你多做俯臥撐?6個被低估的好處

為什么建議你多做俯臥撐?6個被低估的好處

增肌減脂
2026-03-25 11:53:14
4億預(yù)算!穆里尼奧是重返切爾西還是執(zhí)掌葡萄牙隊(duì),終極抉擇困難

4億預(yù)算!穆里尼奧是重返切爾西還是執(zhí)掌葡萄牙隊(duì),終極抉擇困難

成吉思熱
2026-03-26 10:02:48
油價反轉(zhuǎn)!95號汽油破9元后迎下調(diào),4月7日調(diào)價最新預(yù)測

油價反轉(zhuǎn)!95號汽油破9元后迎下調(diào),4月7日調(diào)價最新預(yù)測

復(fù)轉(zhuǎn)這些年
2026-03-26 09:40:14
殺不死的薩達(dá)姆:隱藏19年的秘密浮出水面,6個替身做到以假亂真

殺不死的薩達(dá)姆:隱藏19年的秘密浮出水面,6個替身做到以假亂真

丞丞故事匯
2026-03-26 10:43:34
2026-03-26 16:07:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12605文章數(shù) 142593關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

上海媽媽尋親27年懸賞市區(qū)一套房:不用盡孝 要個擁抱

頭條要聞

上海媽媽尋親27年懸賞市區(qū)一套房:不用盡孝 要個擁抱

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂要聞

張雪峰家人首發(fā)聲 不設(shè)追思會喪事從簡

財(cái)經(jīng)要聞

黃仁勛:芯片公司的時代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

旅游
時尚
教育
藝術(shù)
公開課

旅游要聞

濟(jì)南動物園“花朝薈”系列活動浪漫上演

皮衣+裙,高級到炸

教育要聞

教育部部署開展2026年全國中小學(xué)生安全教育周活動

藝術(shù)要聞

哪一座橋不是風(fēng)景?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版