国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

視覺生成的隱藏天花板|VTP:MiniMax海螺視頻首次開源 · 技術(shù)解讀

0
分享至

MiniMax 的視頻向來很頂,但技術(shù)上一直是個黑盒

剛剛,海螺團(tuán)隊(duì)第一次自揭面紗,帶來了首個開源項(xiàng)目:VTP
Visual Tokenizer Pre-training

VTP 這東西非常有趣:搞圖像、視頻生成的團(tuán)隊(duì),或都能因此受益


Tech Report

先做個信息鋪墊,現(xiàn)在主流的 AI 生圖模型,底層都是兩步走:

第一步,壓縮
把一張圖像壓縮成一組數(shù)字,這組數(shù)字能代表這張圖的核心信息

第二步,生成
AI 在這組數(shù)字的空間里做生成,生成完再還原成圖像


兩階段架構(gòu)

其中,負(fù)責(zé)第一步的模塊,就叫「分詞器」,Tokenizer;負(fù)責(zé)第二步的,則是擴(kuò)散模型Diffusion Model

論文中,發(fā)現(xiàn)一個反直覺的現(xiàn)象
分詞器訓(xùn)練得越久,還原能力越強(qiáng),生成效果反而越差
論文把這個困境叫做預(yù)訓(xùn)練縮放問題


預(yù)訓(xùn)練縮放問題

進(jìn)一步,論文中也發(fā)現(xiàn)了
讓分詞器學(xué)會「理解」,比學(xué)會「還原」更重要
論文管這叫理解力驅(qū)動生成

于是,對于分詞器,就有了

理解力越強(qiáng),壓出的數(shù)字越有意義,擴(kuò)散模型越容易學(xué),生成效果越好
問題在哪

視覺分詞器是怎么訓(xùn)練的?
傳統(tǒng)做法,是讓它學(xué)「重建」:把圖像壓縮成一組數(shù)字,再從這組數(shù)字還原回圖像,還原得越接近原圖越好

這個訓(xùn)練目標(biāo)聽起來很合理
壓縮再還原,損失越小,說明這組數(shù)字保留的信息越完整

但論文做了一組實(shí)驗(yàn),發(fā)現(xiàn)了問題


訓(xùn)練越久,重建越好,生成越差

具體來說,就是,隨著訓(xùn)練時間增加,模型產(chǎn)生了一些有趣的現(xiàn)象

重建能力持續(xù)變強(qiáng)
rFID(衡量還原質(zhì)量,越小越好)從2.0降到0.5

生成能力持續(xù)變差
gFID(衡量生成質(zhì)量,越小越好)從55漲到58

這就是論文定義的「預(yù)訓(xùn)練縮放問題」(Pre-training Scaling Problem):你往視覺分詞器里砸再多算力,也換不來更好的生成效果


持續(xù)投入,并不會帶來顯著結(jié)果

對于做圖像生成、視頻生成的團(tuán)隊(duì)來說,這是個壞消息
論文數(shù)據(jù)顯示,傳統(tǒng)方法在總算力的1/10處就開始停滯了
之后再加算力,生成效果不升反降

為什么會這樣

重建任務(wù),讓模型學(xué)錯了東西
論文給出了這樣的解釋

當(dāng)視覺分詞器學(xué)習(xí)「還原像素」時,它會把注意力放在「底層信息」上:
邊緣在哪、紋理是什么樣顏色的精確數(shù)值是多少
這些信息對于「還原」很重要
像素級的細(xì)節(jié)越準(zhǔn)確,還原出來的圖像越接近原圖


底層信息(重建) vs 高層語義(生成)

但生成的時候,其實(shí)需要的不是這些
生成模型需要的是「高層語義」:
這張圖里有什么東西、是什么場景物體之間是什么關(guān)系、整體氛圍是什么

在分詞器被過度訓(xùn)練后,通過它的到的信息,就會更偏向于「底層信息」,而非「高層語義
到了生成的時候,,很難從中「理解」圖像應(yīng)該是什么樣的,效果自然變差

于是,從結(jié)果上,我們就看到了做得越好,效果越差
(像不像辦公室里,讓你加班改細(xì)節(jié)的老板)


理解力與生成質(zhì)量的關(guān)系

可以看一下這個圖,是論文的核心發(fā)現(xiàn)
對于傳統(tǒng)自編碼器,理解力和生成質(zhì)量都卡在左下角,增加訓(xùn)練量也不動
對于 VTP(紅色點(diǎn)),理解力越強(qiáng),生成質(zhì)量越好,持續(xù)往右上角走

綜上:理解力才是驅(qū)動生成的關(guān)鍵因素

怎么解決

既然問題定位到了:分詞器學(xué)偏了
那么,解決方案也很清晰:讓分詞器學(xué)全
一邊學(xué)重建,一邊學(xué)理解

VTP 正式這個思路
把三種訓(xùn)練目標(biāo)合在一起,聯(lián)合優(yōu)化

其一、圖文對比學(xué)習(xí)

圖文對比學(xué)習(xí)這一過程中,VTP 采用 CLIP 的訓(xùn)練方式

大致是這樣 給模型看大量的「圖像 + 文字描述」配對數(shù)據(jù),讓圖像壓縮出來的數(shù)字表示和對應(yīng)文字的數(shù)字表示靠近

比如,給一張狗的照片,壓縮后的數(shù)字表示要和「一只金毛犬在草地上奔跑」這句話的數(shù)字表示相似


圖文對比學(xué)習(xí)

這樣視覺分詞器在壓縮圖像時,就會保留語義信息,知道這張圖「是什么」

其二、感知空間結(jié)構(gòu)

感知空間結(jié)構(gòu)中,VTP 采用 DINOv2 的訓(xùn)練方式,具體包括兩類任務(wù)

第一類:
遮住圖像的一部分,讓模型預(yù)測被遮住的內(nèi)容
這迫使模型理解圖像的整體結(jié)構(gòu),而不是只記住局部像素

第二類
是對同一張圖像做不同的裁剪和變換,讓模型輸出的表示保持一致

這樣,模型就會被迫使著學(xué)習(xí)圖像的本質(zhì)特征,而不是被具體的像素值干擾


通過自監(jiān)督,學(xué)習(xí)空間結(jié)構(gòu)其三、像素重建

上面說了,要一邊學(xué)重建,一邊學(xué)理解
所以,傳統(tǒng)的還原任務(wù)不能完全丟掉,但權(quán)重要調(diào)低

論文發(fā)現(xiàn),把重建任務(wù)的損失權(quán)重設(shè)成0.1,對生成效果最好
(相比而言,理解任務(wù)的權(quán)重為1.0


權(quán)重需要調(diào)整

至此,把這三個目標(biāo)聯(lián)合訓(xùn)練,讓視覺分詞器同時具備三種能力
理解圖像內(nèi)容感知空間結(jié)構(gòu)、保留像素細(xì)節(jié)


就這樣,VTP 有了三種能力

額外的,VTP 用的是 Vision Transformer(ViT),不是傳統(tǒng)的 CNN
實(shí)驗(yàn)數(shù)據(jù)顯示,ViT 架構(gòu)在同等配置下生成效果更好,計(jì)算量還更低

還有一個有關(guān)于 batch size 的細(xì)節(jié)
不同訓(xùn)練任務(wù),對 batch size 的需求差異很大:

  • ? 圖文對比學(xué)習(xí)需要很大的 batch(16k

  • ? 自監(jiān)督和重建任務(wù)用小 batch 就夠(4k2k


對于 batch 這個問題,解決方法是這樣:
每個 batch 里,全部樣本用于圖文對比學(xué)習(xí),隨機(jī)抽取一部分用于自監(jiān)督和重建

效果如何

論文做了大量對比實(shí)驗(yàn),從三個維度驗(yàn)證 VTP 的效果

維度一:理解、重建、生成的關(guān)系

先看下對比吧

純重建訓(xùn)練:越練越差


重建越好、生成越差

隨著訓(xùn)練時間增加:

  • ? 重建能力持續(xù)變強(qiáng):rFID2.07降到0.51

  • ? 生成能力反而變差:gFID55.04漲到58.56

加入理解任務(wù):三項(xiàng)全漲


CLIP+SSL+AE 聯(lián)合訓(xùn)練

用 CLIP + SSL + 重建 聯(lián)合訓(xùn)練后:

  • ? 生成能力大幅提升:gFID降到27.8

  • ? 理解能力同步提升:Linear Probe 達(dá)到74.9%

  • ? 重建能力也沒掉:rFID降到0.36

三種能力不沖突,可以同時提升

維度二:縮放特性

傳統(tǒng)方法存在天花板,VTP 則打破了這個天花板


縮放特性對比:算力、參數(shù)、數(shù)據(jù)

數(shù)據(jù)縮放

  • ? 傳統(tǒng)自編碼器:訓(xùn)練數(shù)據(jù)從 10 萬張擴(kuò)到 1 億張,gFID只從58.37降到56.71

  • ? VTP:同樣的數(shù)據(jù)擴(kuò)展,gFID47.59降到27.45

算力縮放

  • ? 傳統(tǒng)自編碼器:算力增加到1/10處就停滯,之后gFID不降反升

  • ? VTP:算力增加10倍,gFID提升65.8%,曲線仍在下降

參數(shù)縮放

  • ? 傳統(tǒng)自編碼器:模型從20M參數(shù)擴(kuò)到300M參數(shù),gFID卡在57不動

  • ? VTP:模型從 Small 到 Large,gFID31.28降到26.12

這意味著:在視覺分詞器階段投入更多資源,終于能換來持續(xù)的回報了

維度三:與現(xiàn)有方法對比VTP 與主流方案的效果對比

  • ? VTP-L 在理解能力上超過了原版 CLIP(78.2%vs75.5%

  • ? 在重建能力上超過了 Stable Diffusion 的 VAE(rFID 0.36vs0.63

  • ? 在生成能力上超過了此前的改進(jìn)方法 VA-VAE(gFID 2.81vs4.29

收斂速度方面:

  • ? 比 VA-VAE 快4.1 倍

  • ? 比原版 LDM 快5.7 倍

收斂速度 最后

MiniMax 的視頻能力很能打,實(shí)屬第一梯隊(duì),但技術(shù)上幾乎不對外

而 MiniMax 這次的開源,選了視覺分詞器這個方向,去嘗試解決一個行業(yè)里很多人遇到過、但沒人系統(tǒng)解釋過的問題:
為什么分詞器訓(xùn)得越好,生成效果反而沒提升

過去一年的動作看,隔段時間,總能掏出點(diǎn)新東西

論文
https://huggingface.co/papers/2512.13687

模型
https://huggingface.co/collections/MiniMaxAI/vtp

代碼
https://github.com/MiniMax-AI/VTP

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“00后”陳某某被押赴刑場 執(zhí)行死刑

“00后”陳某某被押赴刑場 執(zhí)行死刑

閃電新聞
2026-02-07 16:53:35
外媒:美國駐巴基斯坦使館所在區(qū)域發(fā)生槍擊事件

外媒:美國駐巴基斯坦使館所在區(qū)域發(fā)生槍擊事件

參考消息
2026-03-01 20:58:54
朱婷加比相撞,緊急送醫(yī)治療,檢查結(jié)果出爐

朱婷加比相撞,緊急送醫(yī)治療,檢查結(jié)果出爐

跑者排球視角
2026-03-02 23:29:37
天生一張娃娃臉都已經(jīng)46了,你敢想

天生一張娃娃臉都已經(jīng)46了,你敢想

小影的娛樂
2026-03-03 01:29:50
火箭隊(duì)傳聞:泰厄斯·瓊斯被獨(dú)行俠裁掉后,火箭隊(duì)會考慮他嗎?

火箭隊(duì)傳聞:泰厄斯·瓊斯被獨(dú)行俠裁掉后,火箭隊(duì)會考慮他嗎?

好火子
2026-03-03 02:30:22
9000萬人點(diǎn)燃怒火!伊朗1200枚導(dǎo)彈反擊,中俄緊急通話表態(tài)!

9000萬人點(diǎn)燃怒火!伊朗1200枚導(dǎo)彈反擊,中俄緊急通話表態(tài)!

薛小榮
2026-03-02 19:03:17
深度 | 最高領(lǐng)袖身亡,美以叫囂繼續(xù)打,伊朗能否挺過47年來最致命危機(jī)?

深度 | 最高領(lǐng)袖身亡,美以叫囂繼續(xù)打,伊朗能否挺過47年來最致命危機(jī)?

上觀新聞
2026-03-01 16:17:08
10萬億度需求也不買!中國攤牌,輸電專線全叫停,國產(chǎn)電價教做人

10萬億度需求也不買!中國攤牌,輸電專線全叫停,國產(chǎn)電價教做人

阿器談史
2026-01-26 20:05:32
來搞笑的?超級杯花名冊漏洞百出:照片古早且粗糙,譯名疊詞

來搞笑的?超級杯花名冊漏洞百出:照片古早且粗糙,譯名疊詞

懂球帝
2026-03-02 22:29:12
港姐冠軍傳變TVB棄將轉(zhuǎn)做司儀吸金力暴增,回鄉(xiāng)拜祠堂騷纖腰慶生

港姐冠軍傳變TVB棄將轉(zhuǎn)做司儀吸金力暴增,回鄉(xiāng)拜祠堂騷纖腰慶生

粵睇先生
2026-03-02 23:16:25
5點(diǎn)就有人來排隊(duì),有的口味下午就沒貨了!雨雪難擋京城元宵熱銷!現(xiàn)場直擊——

5點(diǎn)就有人來排隊(duì),有的口味下午就沒貨了!雨雪難擋京城元宵熱銷!現(xiàn)場直擊——

家住大興
2026-03-02 19:42:53
母子變仇敵!河南男子身患尿毒癥,和母親配型成功,母親表示不換

母子變仇敵!河南男子身患尿毒癥,和母親配型成功,母親表示不換

好笑娛樂君每一天
2026-03-01 00:29:47
中國男籃獲勝!世預(yù)賽積分榜誕生,首支隊(duì)伍晉級,下場賽程出爐

中國男籃獲勝!世預(yù)賽積分榜誕生,首支隊(duì)伍晉級,下場賽程出爐

桃葉渡春
2026-03-03 00:41:00
伊朗用“霍拉姆沙赫爾-4”導(dǎo)彈發(fā)動第十波攻勢

伊朗用“霍拉姆沙赫爾-4”導(dǎo)彈發(fā)動第十波攻勢

財聯(lián)社
2026-03-02 15:40:23
美以伊激戰(zhàn)48小時!三方損失全曝光,誰最慘?后續(xù)走向徹底明朗

美以伊激戰(zhàn)48小時!三方損失全曝光,誰最慘?后續(xù)走向徹底明朗

起喜電影
2026-03-02 12:46:05
汪小菲終于說出真相!大S私自把兩個孩子由貴族學(xué)校轉(zhuǎn)到社區(qū)小學(xué)

汪小菲終于說出真相!大S私自把兩個孩子由貴族學(xué)校轉(zhuǎn)到社區(qū)小學(xué)

魔都姐姐雜談
2026-03-03 04:32:22
吉爾吉斯斯坦總統(tǒng)直言:我們身上流著的是李陵的血,跟中國是手足

吉爾吉斯斯坦總統(tǒng)直言:我們身上流著的是李陵的血,跟中國是手足

文史微鑒
2025-12-04 22:02:53
第九波打擊開始!伊朗襲擊美航母,特朗普惱羞成怒,英法德或參戰(zhàn)

第九波打擊開始!伊朗襲擊美航母,特朗普惱羞成怒,英法德或參戰(zhàn)

阿器談史
2026-03-02 09:53:36
不要再叫喊擊沉美航母了:擊沉一艘航母有多難?你根本看不懂

不要再叫喊擊沉美航母了:擊沉一艘航母有多難?你根本看不懂

起喜電影
2026-03-02 07:35:37
中國要做好戰(zhàn)爭準(zhǔn)備,中國的下場戰(zhàn)爭不是印度菲律賓越南而是日本

中國要做好戰(zhàn)爭準(zhǔn)備,中國的下場戰(zhàn)爭不是印度菲律賓越南而是日本

百態(tài)人間
2026-01-09 17:17:17
2026-03-03 05:28:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
309文章數(shù) 45關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

特朗普:對伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

頭條要聞

特朗普:對伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

藝術(shù)
本地
教育
健康
公開課

藝術(shù)要聞

這四位老人的花鳥畫,竟讓人欲罷不能!

本地新聞

津南好·四時總相宜

教育要聞

3月13日截止!山東綜評云平臺填寫教程!有視頻!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版