国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

視覺生成的隱藏天花板|VTP:MiniMax海螺視頻首次開源 · 技術(shù)解讀

0
分享至

MiniMax 的視頻向來很頂,但技術(shù)上一直是個(gè)黑盒

剛剛,海螺團(tuán)隊(duì)第一次自揭面紗,帶來了首個(gè)開源項(xiàng)目:VTP
Visual Tokenizer Pre-training

VTP 這東西非常有趣:搞圖像、視頻生成的團(tuán)隊(duì),或都能因此受益


Tech Report

先做個(gè)信息鋪墊,現(xiàn)在主流的 AI 生圖模型,底層都是兩步走:

第一步,壓縮
把一張圖像壓縮成一組數(shù)字,這組數(shù)字能代表這張圖的核心信息

第二步,生成
AI 在這組數(shù)字的空間里做生成,生成完再還原成圖像


兩階段架構(gòu)

其中,負(fù)責(zé)第一步的模塊,就叫「分詞器」,Tokenizer;負(fù)責(zé)第二步的,則是擴(kuò)散模型Diffusion Model

論文中,發(fā)現(xiàn)一個(gè)反直覺的現(xiàn)象
分詞器訓(xùn)練得越久,還原能力越強(qiáng),生成效果反而越差
論文把這個(gè)困境叫做預(yù)訓(xùn)練縮放問題


預(yù)訓(xùn)練縮放問題

進(jìn)一步,論文中也發(fā)現(xiàn)了
讓分詞器學(xué)會(huì)「理解」,比學(xué)會(huì)「還原」更重要
論文管這叫理解力驅(qū)動(dòng)生成

于是,對(duì)于分詞器,就有了

理解力越強(qiáng),壓出的數(shù)字越有意義,擴(kuò)散模型越容易學(xué),生成效果越好
問題在哪

視覺分詞器是怎么訓(xùn)練的?
傳統(tǒng)做法,是讓它學(xué)「重建」:把圖像壓縮成一組數(shù)字,再從這組數(shù)字還原回圖像,還原得越接近原圖越好

這個(gè)訓(xùn)練目標(biāo)聽起來很合理
壓縮再還原,損失越小,說明這組數(shù)字保留的信息越完整

但論文做了一組實(shí)驗(yàn),發(fā)現(xiàn)了問題


訓(xùn)練越久,重建越好,生成越差

具體來說,就是,隨著訓(xùn)練時(shí)間增加,模型產(chǎn)生了一些有趣的現(xiàn)象

重建能力持續(xù)變強(qiáng)
rFID(衡量還原質(zhì)量,越小越好)從2.0降到0.5

生成能力持續(xù)變差
gFID(衡量生成質(zhì)量,越小越好)從55漲到58

這就是論文定義的「預(yù)訓(xùn)練縮放問題」(Pre-training Scaling Problem):你往視覺分詞器里砸再多算力,也換不來更好的生成效果


持續(xù)投入,并不會(huì)帶來顯著結(jié)果

對(duì)于做圖像生成、視頻生成的團(tuán)隊(duì)來說,這是個(gè)壞消息
論文數(shù)據(jù)顯示,傳統(tǒng)方法在總算力的1/10處就開始停滯了
之后再加算力,生成效果不升反降

為什么會(huì)這樣

重建任務(wù),讓模型學(xué)錯(cuò)了東西
論文給出了這樣的解釋

當(dāng)視覺分詞器學(xué)習(xí)「還原像素」時(shí),它會(huì)把注意力放在「底層信息」上:
邊緣在哪、紋理是什么樣顏色的精確數(shù)值是多少
這些信息對(duì)于「還原」很重要
像素級(jí)的細(xì)節(jié)越準(zhǔn)確,還原出來的圖像越接近原圖


底層信息(重建) vs 高層語義(生成)

但生成的時(shí)候,其實(shí)需要的不是這些
生成模型需要的是「高層語義」:
這張圖里有什么東西是什么場(chǎng)景、物體之間是什么關(guān)系整體氛圍是什么

在分詞器被過度訓(xùn)練后,通過它的到的信息,就會(huì)更偏向于「底層信息」,而非「高層語義
到了生成的時(shí)候,,很難從中「理解」圖像應(yīng)該是什么樣的,效果自然變差

于是,從結(jié)果上,我們就看到了做得越好,效果越差
(像不像辦公室里,讓你加班改細(xì)節(jié)的老板)


理解力與生成質(zhì)量的關(guān)系

可以看一下這個(gè)圖,是論文的核心發(fā)現(xiàn)
對(duì)于傳統(tǒng)自編碼器,理解力和生成質(zhì)量都卡在左下角,增加訓(xùn)練量也不動(dòng)
對(duì)于 VTP(紅色點(diǎn)),理解力越強(qiáng),生成質(zhì)量越好,持續(xù)往右上角走

綜上:理解力才是驅(qū)動(dòng)生成的關(guān)鍵因素

怎么解決

既然問題定位到了:分詞器學(xué)偏了
那么,解決方案也很清晰:讓分詞器學(xué)全
一邊學(xué)重建,一邊學(xué)理解

VTP 正式這個(gè)思路
把三種訓(xùn)練目標(biāo)合在一起,聯(lián)合優(yōu)化

其一、圖文對(duì)比學(xué)習(xí)

圖文對(duì)比學(xué)習(xí)這一過程中,VTP 采用 CLIP 的訓(xùn)練方式

大致是這樣 給模型看大量的「圖像 + 文字描述」配對(duì)數(shù)據(jù),讓圖像壓縮出來的數(shù)字表示和對(duì)應(yīng)文字的數(shù)字表示靠近

比如,給一張狗的照片,壓縮后的數(shù)字表示要和「一只金毛犬在草地上奔跑」這句話的數(shù)字表示相似


圖文對(duì)比學(xué)習(xí)

這樣視覺分詞器在壓縮圖像時(shí),就會(huì)保留語義信息,知道這張圖「是什么」

其二、感知空間結(jié)構(gòu)

感知空間結(jié)構(gòu)中,VTP 采用 DINOv2 的訓(xùn)練方式,具體包括兩類任務(wù)

第一類:
遮住圖像的一部分,讓模型預(yù)測(cè)被遮住的內(nèi)容
這迫使模型理解圖像的整體結(jié)構(gòu),而不是只記住局部像素

第二類
是對(duì)同一張圖像做不同的裁剪和變換,讓模型輸出的表示保持一致

這樣,模型就會(huì)被迫使著學(xué)習(xí)圖像的本質(zhì)特征,而不是被具體的像素值干擾


通過自監(jiān)督,學(xué)習(xí)空間結(jié)構(gòu)其三、像素重建

上面說了,要一邊學(xué)重建,一邊學(xué)理解
所以,傳統(tǒng)的還原任務(wù)不能完全丟掉,但權(quán)重要調(diào)低

論文發(fā)現(xiàn),把重建任務(wù)的損失權(quán)重設(shè)成0.1,對(duì)生成效果最好
(相比而言,理解任務(wù)的權(quán)重為1.0


權(quán)重需要調(diào)整

至此,把這三個(gè)目標(biāo)聯(lián)合訓(xùn)練,讓視覺分詞器同時(shí)具備三種能力
理解圖像內(nèi)容、感知空間結(jié)構(gòu)、保留像素細(xì)節(jié)


就這樣,VTP 有了三種能力

額外的,VTP 用的是 Vision Transformer(ViT),不是傳統(tǒng)的 CNN
實(shí)驗(yàn)數(shù)據(jù)顯示,ViT 架構(gòu)在同等配置下生成效果更好,計(jì)算量還更低

還有一個(gè)有關(guān)于 batch size 的細(xì)節(jié)
不同訓(xùn)練任務(wù),對(duì) batch size 的需求差異很大:

  • ? 圖文對(duì)比學(xué)習(xí)需要很大的 batch(16k

  • ? 自監(jiān)督和重建任務(wù)用小 batch 就夠(4k2k


對(duì)于 batch 這個(gè)問題,解決方法是這樣:
每個(gè) batch 里,全部樣本用于圖文對(duì)比學(xué)習(xí),隨機(jī)抽取一部分用于自監(jiān)督和重建

效果如何

論文做了大量對(duì)比實(shí)驗(yàn),從三個(gè)維度驗(yàn)證 VTP 的效果

維度一:理解、重建、生成的關(guān)系

先看下對(duì)比吧

純重建訓(xùn)練:越練越差


重建越好、生成越差

隨著訓(xùn)練時(shí)間增加:

  • ? 重建能力持續(xù)變強(qiáng):rFID2.07降到0.51

  • ? 生成能力反而變差:gFID55.04漲到58.56

加入理解任務(wù):三項(xiàng)全漲


CLIP+SSL+AE 聯(lián)合訓(xùn)練

用 CLIP + SSL + 重建 聯(lián)合訓(xùn)練后:

  • ? 生成能力大幅提升:gFID降到27.8

  • ? 理解能力同步提升:Linear Probe 達(dá)到74.9%

  • ? 重建能力也沒掉:rFID降到0.36

三種能力不沖突,可以同時(shí)提升

維度二:縮放特性

傳統(tǒng)方法存在天花板,VTP 則打破了這個(gè)天花板


縮放特性對(duì)比:算力、參數(shù)、數(shù)據(jù)

數(shù)據(jù)縮放

  • ? 傳統(tǒng)自編碼器:訓(xùn)練數(shù)據(jù)從 10 萬張擴(kuò)到 1 億張,gFID只從58.37降到56.71

  • ? VTP:同樣的數(shù)據(jù)擴(kuò)展,gFID47.59降到27.45

算力縮放

  • ? 傳統(tǒng)自編碼器:算力增加到1/10處就停滯,之后gFID不降反升

  • ? VTP:算力增加10倍,gFID提升65.8%,曲線仍在下降

參數(shù)縮放

  • ? 傳統(tǒng)自編碼器:模型從20M參數(shù)擴(kuò)到300M參數(shù),gFID卡在57不動(dòng)

  • ? VTP:模型從 Small 到 Large,gFID31.28降到26.12

這意味著:在視覺分詞器階段投入更多資源,終于能換來持續(xù)的回報(bào)了

維度三:與現(xiàn)有方法對(duì)比VTP 與主流方案的效果對(duì)比

  • ? VTP-L 在理解能力上超過了原版 CLIP(78.2%vs75.5%

  • ? 在重建能力上超過了 Stable Diffusion 的 VAE(rFID 0.36vs0.63

  • ? 在生成能力上超過了此前的改進(jìn)方法 VA-VAE(gFID 2.81vs4.29

收斂速度方面:

  • ? 比 VA-VAE 快4.1 倍

  • ? 比原版 LDM 快5.7 倍

收斂速度 最后

MiniMax 的視頻能力很能打,實(shí)屬第一梯隊(duì),但技術(shù)上幾乎不對(duì)外

而 MiniMax 這次的開源,選了視覺分詞器這個(gè)方向,去嘗試解決一個(gè)行業(yè)里很多人遇到過、但沒人系統(tǒng)解釋過的問題:
為什么分詞器訓(xùn)得越好,生成效果反而沒提升

過去一年的動(dòng)作看,隔段時(shí)間,總能掏出點(diǎn)新東西

論文
https://huggingface.co/papers/2512.13687

模型
https://huggingface.co/collections/MiniMaxAI/vtp

代碼
https://github.com/MiniMax-AI/VTP

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
退休千萬別漏了!工齡超過30年,不管企退機(jī)關(guān)退,這些好處都能要

退休千萬別漏了!工齡超過30年,不管企退機(jī)關(guān)退,這些好處都能要

小虎新車推薦員
2025-12-14 13:59:59
胖東來新店售賣簽名球衣,包括梅西、姆巴佩等球星,最貴喬丹球衣138000元,客服:已有人購買

胖東來新店售賣簽名球衣,包括梅西、姆巴佩等球星,最貴喬丹球衣138000元,客服:已有人購買

極目新聞
2025-12-24 19:01:24
貝佐斯為桑切斯慶生!前首富斷崖式衰老像圣誕老人,倆人都很招搖

貝佐斯為桑切斯慶生!前首富斷崖式衰老像圣誕老人,倆人都很招搖

丁丁鯉史紀(jì)
2025-12-23 21:31:01
人民幣,大消息!

人民幣,大消息!

中國(guó)能源網(wǎng)
2025-12-24 18:06:04
如果一個(gè)人還在穿10年前的衣服,那說明了這3個(gè)問題

如果一個(gè)人還在穿10年前的衣服,那說明了這3個(gè)問題

詩詞中國(guó)
2025-12-16 19:33:58
股票被套別躺平!主力自救法:10萬本金虧到5萬,反賺60%

股票被套別躺平!主力自救法:10萬本金虧到5萬,反賺60%

流蘇晚晴
2025-12-18 18:35:55
南京博物院又爆猛料!龐家揭徐鶯“身份造假”,比電視劇還要精彩

南京博物院又爆猛料!龐家揭徐鶯“身份造假”,比電視劇還要精彩

科學(xué)發(fā)掘
2025-12-24 06:39:09
意外!曹赟定離開申花后現(xiàn)身新去處發(fā)聲,已否認(rèn)下賽季復(fù)出踢中乙

意外!曹赟定離開申花后現(xiàn)身新去處發(fā)聲,已否認(rèn)下賽季復(fù)出踢中乙

佳佳說奇事故事
2025-12-24 13:51:42
看了新加坡媒體的披露,我才知道,中國(guó)已經(jīng)沒必要向世界證明什么

看了新加坡媒體的披露,我才知道,中國(guó)已經(jīng)沒必要向世界證明什么

有范又有料
2025-11-28 15:56:03
廣東迎來第4個(gè)千萬級(jí)機(jī)場(chǎng)

廣東迎來第4個(gè)千萬級(jí)機(jī)場(chǎng)

中國(guó)青年報(bào)
2025-12-24 21:00:14
68歲相聲演員娶小30歲洋妻,生一屋混血兒移居國(guó)外,如今過得怎樣

68歲相聲演員娶小30歲洋妻,生一屋混血兒移居國(guó)外,如今過得怎樣

豐譚筆錄
2025-12-24 00:09:46
徐正源:成都是我的第二故鄉(xiāng),成都一切的好我都記在心里

徐正源:成都是我的第二故鄉(xiāng),成都一切的好我都記在心里

懂球帝
2025-12-24 11:55:31
合租四年的女室友,突然要辭職回家相親,我打趣說:別走了嫁給我

合租四年的女室友,突然要辭職回家相親,我打趣說:別走了嫁給我

今天說故事
2025-12-20 10:04:23
華為隨行WiFi X官宣:定位超級(jí)直播神器,2026年3月發(fā)布

華為隨行WiFi X官宣:定位超級(jí)直播神器,2026年3月發(fā)布

IT之家
2025-12-24 16:30:20
12歲的喬治王子現(xiàn)身帥到認(rèn)不出!身高1米75快要超過媽媽凱特王妃

12歲的喬治王子現(xiàn)身帥到認(rèn)不出!身高1米75快要超過媽媽凱特王妃

溫讀史
2025-11-09 09:25:54
世錦賽+奧運(yùn)會(huì)+世錦賽,重慶運(yùn)動(dòng)員丁欣怡連續(xù)三年斬獲世界冠軍

世錦賽+奧運(yùn)會(huì)+世錦賽,重慶運(yùn)動(dòng)員丁欣怡連續(xù)三年斬獲世界冠軍

上游新聞
2025-12-24 15:11:09
癱子娘、瘋子爹!744分高考狀元被清華錄取8年后,現(xiàn)狀令人淚目

癱子娘、瘋子爹!744分高考狀元被清華錄取8年后,現(xiàn)狀令人淚目

阿柒的訊
2025-12-22 18:46:40
香港網(wǎng)友談金信煜被解約:他拒絕在人工草訓(xùn)練,而且拿著高薪

香港網(wǎng)友談金信煜被解約:他拒絕在人工草訓(xùn)練,而且拿著高薪

懂球帝
2025-12-24 12:26:29
《老舅》大結(jié)局:崔小紅終身不再回國(guó),燒烤店老板賣調(diào)料成為富翁

《老舅》大結(jié)局:崔小紅終身不再回國(guó),燒烤店老板賣調(diào)料成為富翁

精彩背后
2025-12-22 17:47:16
海歸光環(huán)徹底消失?49.5萬留學(xué)生涌回國(guó),殘酷真相:企業(yè)只認(rèn)這個(gè)

海歸光環(huán)徹底消失?49.5萬留學(xué)生涌回國(guó),殘酷真相:企業(yè)只認(rèn)這個(gè)

夢(mèng)史
2025-12-23 10:18:20
2025-12-25 05:16:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
224文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財(cái)經(jīng)要聞

北京進(jìn)一步放松限購 滬深是否會(huì)跟進(jìn)?

汽車要聞

“運(yùn)動(dòng)版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

健康
旅游
藝術(shù)
數(shù)碼
手機(jī)

這些新療法,讓化療不再那么痛苦

旅游要聞

上海藏2800株水上紅杉!免費(fèi)開放,夕陽下美成油畫

藝術(shù)要聞

巨星劉德華1000萬善款建村,為何如今竟成山間“空心村”?

數(shù)碼要聞

AMD Zen 6與Intel Nova Lake或?qū)⑸涎?88 MB 3D緩存“大戰(zhàn)”

手機(jī)要聞

榮耀Magic8 Ultra:雙3D生物識(shí)別+LOFIC主攝,還有24GB大內(nèi)存!

無障礙瀏覽 進(jìn)入關(guān)懷版