網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

視覺生成的隱藏天花板｜VTP：MiniMax海螺視頻首次開源 · 技術(shù)解讀

2025-12-19 09:48:18　來源: 賽博禪心

北京舉報

分享至

MiniMax 的視頻向來很頂，但技術(shù)上一直是個黑盒

剛剛，海螺團(tuán)隊(duì)第一次自揭面紗，帶來了首個開源項(xiàng)目：VTP
Visual Tokenizer Pre-training

VTP 這東西非常有趣：搞圖像、視頻生成的團(tuán)隊(duì)，或都能因此受益

Tech Report

先做個信息鋪墊，現(xiàn)在主流的 AI 生圖模型，底層都是兩步走：

第一步，壓縮
把一張圖像壓縮成一組數(shù)字，這組數(shù)字能代表這張圖的核心信息

第二步，生成
AI 在這組數(shù)字的空間里做生成，生成完再還原成圖像

兩階段架構(gòu)

其中，負(fù)責(zé)第一步的模塊，就叫「分詞器」，Tokenizer；負(fù)責(zé)第二步的，則是擴(kuò)散模型Diffusion Model

論文中，發(fā)現(xiàn)一個反直覺的現(xiàn)象
分詞器訓(xùn)練得越久，還原能力越強(qiáng)，生成效果反而越差
論文把這個困境叫做預(yù)訓(xùn)練縮放問題

預(yù)訓(xùn)練縮放問題

進(jìn)一步，論文中也發(fā)現(xiàn)了
讓分詞器學(xué)會「理解」，比學(xué)會「還原」更重要
論文管這叫理解力驅(qū)動生成

于是，對于分詞器，就有了

理解力越強(qiáng)，壓出的數(shù)字越有意義，擴(kuò)散模型越容易學(xué)，生成效果越好

問題在哪

視覺分詞器是怎么訓(xùn)練的？
傳統(tǒng)做法，是讓它學(xué)「重建」：把圖像壓縮成一組數(shù)字，再從這組數(shù)字還原回圖像，還原得越接近原圖越好

這個訓(xùn)練目標(biāo)聽起來很合理
壓縮再還原，損失越小，說明這組數(shù)字保留的信息越完整

但論文做了一組實(shí)驗(yàn)，發(fā)現(xiàn)了問題

訓(xùn)練越久，重建越好，生成越差

具體來說，就是，隨著訓(xùn)練時間增加，模型產(chǎn)生了一些有趣的現(xiàn)象

重建能力持續(xù)變強(qiáng)
rFID（衡量還原質(zhì)量，越小越好）從2.0降到0.5

生成能力持續(xù)變差
gFID（衡量生成質(zhì)量，越小越好）從55漲到58

這就是論文定義的「預(yù)訓(xùn)練縮放問題」（Pre-training Scaling Problem）：你往視覺分詞器里砸再多算力，也換不來更好的生成效果

持續(xù)投入，并不會帶來顯著結(jié)果

對于做圖像生成、視頻生成的團(tuán)隊(duì)來說，這是個壞消息
論文數(shù)據(jù)顯示，傳統(tǒng)方法在總算力的1/10處就開始停滯了
之后再加算力，生成效果不升反降

為什么會這樣

重建任務(wù)，讓模型學(xué)錯了東西
論文給出了這樣的解釋

當(dāng)視覺分詞器學(xué)習(xí)「還原像素」時，它會把注意力放在「底層信息」上：
邊緣在哪、紋理是什么樣、顏色的精確數(shù)值是多少
這些信息對于「還原」很重要
像素級的細(xì)節(jié)越準(zhǔn)確，還原出來的圖像越接近原圖

底層信息（重建） vs 高層語義（生成）

但生成的時候，其實(shí)需要的不是這些
生成模型需要的是「高層語義」：
這張圖里有什么東西、是什么場景、物體之間是什么關(guān)系、整體氛圍是什么

在分詞器被過度訓(xùn)練后，通過它的到的信息，就會更偏向于「底層信息」，而非「高層語義」
到了生成的時候，，很難從中「理解」圖像應(yīng)該是什么樣的，效果自然變差

于是，從結(jié)果上，我們就看到了做得越好，效果越差
（像不像辦公室里，讓你加班改細(xì)節(jié)的老板）

理解力與生成質(zhì)量的關(guān)系

可以看一下這個圖，是論文的核心發(fā)現(xiàn)
對于傳統(tǒng)自編碼器，理解力和生成質(zhì)量都卡在左下角，增加訓(xùn)練量也不動
對于 VTP（紅色點(diǎn)），理解力越強(qiáng)，生成質(zhì)量越好，持續(xù)往右上角走

綜上：理解力才是驅(qū)動生成的關(guān)鍵因素

怎么解決

既然問題定位到了：分詞器學(xué)偏了
那么，解決方案也很清晰：讓分詞器學(xué)全
一邊學(xué)重建，一邊學(xué)理解

VTP 正式這個思路
把三種訓(xùn)練目標(biāo)合在一起，聯(lián)合優(yōu)化

其一、圖文對比學(xué)習(xí)

在圖文對比學(xué)習(xí)這一過程中，VTP 采用 CLIP 的訓(xùn)練方式

大致是這樣給模型看大量的「圖像 + 文字描述」配對數(shù)據(jù)，讓圖像壓縮出來的數(shù)字表示和對應(yīng)文字的數(shù)字表示靠近

比如，給一張狗的照片，壓縮后的數(shù)字表示要和「一只金毛犬在草地上奔跑」這句話的數(shù)字表示相似

圖文對比學(xué)習(xí)

這樣視覺分詞器在壓縮圖像時，就會保留語義信息，知道這張圖「是什么」

其二、感知空間結(jié)構(gòu)

在感知空間結(jié)構(gòu)中，VTP 采用 DINOv2 的訓(xùn)練方式，具體包括兩類任務(wù)

第一類：
遮住圖像的一部分，讓模型預(yù)測被遮住的內(nèi)容
這迫使模型理解圖像的整體結(jié)構(gòu)，而不是只記住局部像素

第二類
是對同一張圖像做不同的裁剪和變換，讓模型輸出的表示保持一致

這樣，模型就會被迫使著學(xué)習(xí)圖像的本質(zhì)特征，而不是被具體的像素值干擾

通過自監(jiān)督，學(xué)習(xí)空間結(jié)構(gòu)其三、像素重建

上面說了，要一邊學(xué)重建，一邊學(xué)理解
所以，傳統(tǒng)的還原任務(wù)不能完全丟掉，但權(quán)重要調(diào)低

論文發(fā)現(xiàn)，把重建任務(wù)的損失權(quán)重設(shè)成0.1，對生成效果最好
（相比而言，理解任務(wù)的權(quán)重為1.0）

權(quán)重需要調(diào)整

至此，把這三個目標(biāo)聯(lián)合訓(xùn)練，讓視覺分詞器同時具備三種能力
理解圖像內(nèi)容、感知空間結(jié)構(gòu)、保留像素細(xì)節(jié)

就這樣，VTP 有了三種能力

額外的，VTP 用的是 Vision Transformer（ViT），不是傳統(tǒng)的 CNN
實(shí)驗(yàn)數(shù)據(jù)顯示，ViT 架構(gòu)在同等配置下生成效果更好，計(jì)算量還更低

還有一個有關(guān)于 batch size 的細(xì)節(jié)
不同訓(xùn)練任務(wù)，對 batch size 的需求差異很大：

? 圖文對比學(xué)習(xí)需要很大的 batch（16k）
? 自監(jiān)督和重建任務(wù)用小 batch 就夠（4k和2k）

對于 batch 這個問題，解決方法是這樣：
每個 batch 里，全部樣本用于圖文對比學(xué)習(xí)，隨機(jī)抽取一部分用于自監(jiān)督和重建

效果如何

論文做了大量對比實(shí)驗(yàn)，從三個維度驗(yàn)證 VTP 的效果

維度一：理解、重建、生成的關(guān)系

先看下對比吧

純重建訓(xùn)練：越練越差

重建越好、生成越差

隨著訓(xùn)練時間增加：

? 重建能力持續(xù)變強(qiáng)：rFID從2.07降到0.51
? 生成能力反而變差：gFID從55.04漲到58.56

加入理解任務(wù)：三項(xiàng)全漲

CLIP+SSL+AE 聯(lián)合訓(xùn)練

用 CLIP + SSL + 重建聯(lián)合訓(xùn)練后：

? 生成能力大幅提升：gFID降到27.8
? 理解能力同步提升：Linear Probe 達(dá)到74.9%
? 重建能力也沒掉：rFID降到0.36

三種能力不沖突，可以同時提升

維度二：縮放特性

傳統(tǒng)方法存在天花板，VTP 則打破了這個天花板

縮放特性對比：算力、參數(shù)、數(shù)據(jù)

數(shù)據(jù)縮放

? 傳統(tǒng)自編碼器：訓(xùn)練數(shù)據(jù)從 10 萬張擴(kuò)到 1 億張，gFID只從58.37降到56.71
? VTP：同樣的數(shù)據(jù)擴(kuò)展，gFID從47.59降到27.45

算力縮放

? 傳統(tǒng)自編碼器：算力增加到1/10處就停滯，之后gFID不降反升
? VTP：算力增加10倍，gFID提升65.8%，曲線仍在下降

參數(shù)縮放

? 傳統(tǒng)自編碼器：模型從20M參數(shù)擴(kuò)到300M參數(shù)，gFID卡在57不動
? VTP：模型從 Small 到 Large，gFID從31.28降到26.12

這意味著：在視覺分詞器階段投入更多資源，終于能換來持續(xù)的回報了

維度三：與現(xiàn)有方法對比VTP 與主流方案的效果對比

? VTP-L 在理解能力上超過了原版 CLIP（78.2%vs75.5%）
? 在重建能力上超過了 Stable Diffusion 的 VAE（rFID 0.36vs0.63）
? 在生成能力上超過了此前的改進(jìn)方法 VA-VAE（gFID 2.81vs4.29）

收斂速度方面：

? 比 VA-VAE 快4.1 倍
? 比原版 LDM 快5.7 倍

收斂速度最后

MiniMax 的視頻能力很能打，實(shí)屬第一梯隊(duì)，但技術(shù)上幾乎不對外

而 MiniMax 這次的開源，選了視覺分詞器這個方向，去嘗試解決一個行業(yè)里很多人遇到過、但沒人系統(tǒng)解釋過的問題：
為什么分詞器訓(xùn)得越好，生成效果反而沒提升

過去一年的動作看，隔段時間，總能掏出點(diǎn)新東西

論文
https://huggingface.co/papers/2512.13687

模型
https://huggingface.co/collections/MiniMaxAI/vtp

代碼
https://github.com/MiniMax-AI/VTP

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

閆俊杰定調(diào)2026年AI勝負(fù)手

智東西 2026-03-03 00:25:13
0 跟貼 0
當(dāng)模型開始長出平臺：MiniMax的轉(zhuǎn)身時刻

華爾街見聞官方 2026-03-02 19:18:03
0 跟貼 0

MiniMax電話會：圍繞“全模態(tài)”與“高質(zhì)量”，告別單純“卷模型”，向AI平臺生態(tài)演進(jìn)

華爾街見聞官方 2026-03-02 21:45:36
0 跟貼 0

CL-Bench的故事沒有結(jié)束，生成式CL-Bench：GENIUS來了

機(jī)器之心Pro 2026-03-02 17:46:26
0 跟貼 0
SFT遠(yuǎn)不如RL？永不過時的剃刀原則打開終身學(xué)習(xí)大模型訓(xùn)練的大門

機(jī)器之心Pro 2025-09-09 20:19:13
0 跟貼 0

AI對抗遷移性評估的「撥亂反正」：那些年效果虛高的攻防算法們

機(jī)器之心Pro 2025-10-27 18:44:58
0 跟貼 0

AP2O-Coder 讓大模型擁有「錯題本」，像人類一樣按題型高效刷題

機(jī)器之心Pro 2026-01-14 15:07:07
0 跟貼 0
理論上樓上的干不過樓下的，因?yàn)闃窍碌�，可以把天花板打掉�?/a>

大哥說生活 2026-03-02 09:01:27
0 跟貼 0

香江 1 號絕版占位立鼎中國一線 CBD 頂豪價值天花板

廣州房產(chǎn) 2026-03-02 22:59:10
0 跟貼 0
美女路邊買完小吃才發(fā)現(xiàn)，原來都是這樣操作的，果然無奸不商

絕世搞笑秀 2026-03-02 16:39:09
1 跟貼 1
女子撿了一堆紫色海螺，準(zhǔn)備洗凈后做成精美擺件，網(wǎng)友：好漂亮的顏色

都市觀察 2026-03-02 08:51:06
0 跟貼 0
這就是東北人吹牛的天花板嗎？看完我直接笑出眼淚！

讓硪狠疲憊 2026-03-03 03:28:57
0 跟貼 0
亞洲現(xiàn)役天花板，當(dāng)之無愧的一哥，用腦子踢球的男人！

逗趣爆米花 2026-03-01 16:15:17
2 跟貼 2
2026運(yùn)勢天花板！這3個生肖喜事扎堆，第一名直接開掛！

毅談生肖 2026-03-02 16:23:52
0 跟貼 0
純電MPV天花板，別克至境世家純電版來了！

豪車事 2026-03-02 19:35:13
4 跟貼 4
樓上裝修鉆我天花板20個洞，我沒去找他，把房子租給八年電焊師

奶茶麥子 2026-03-02 23:38:10
7 跟貼 7
選美大賽冠軍，身材已經(jīng)是天花板了，結(jié)局動作才是精髓

栗子生活醬 2026-03-01 15:13:52
0 跟貼 0
曾經(jīng)“狗都不買”的二樓，如今成了年輕人的“香餑餑”？

繪本家居 2026-03-02 11:39:27
4 跟貼 4
員工伙食天花板，老板請頂級大廚掌勺

三馬說劇 2026-03-01 10:21:05
1 跟貼 1
帶你一口氣認(rèn)識18種蟹，那你見過幾個？

抬起頭看黑板 2026-03-02 15:34:39
1 跟貼 1
小伙在海里撿到一個包包，里面的物品讓人看了不寒而栗

心開動漫鑫鑫 2026-03-03 00:38:45
0 跟貼 0
烏克蘭體操辣妹在家練一字馬，腳和天花板的距離僅有0.1厘米

體育圈的那點(diǎn)事 2026-03-01 12:30:00
0 跟貼 0
全球最燒錢的十大動漫，全程視覺盛宴，每部都是業(yè)界良心

小Q侃電影 2026-03-02 19:52:01
2 跟貼 2
原來老外制作天花板吊頂是這樣的

奇妙觀探 2026-03-02 13:05:28
0 跟貼 0
大腦如何欺騙你？旋轉(zhuǎn)窗戶背后的空間錯覺

強(qiáng)哥到了 2026-03-02 22:11:46
1 跟貼 1
司機(jī)拉貨天花板，巨型的大鐵碗

焦點(diǎn)視訊 2026-03-02 11:57:46
0 跟貼 0
博主發(fā)現(xiàn)窗簾縫隙可“小孔成像”，天花板變屏幕映出樓下車水馬龍

資訊正當(dāng)午 2026-02-28 16:28:34
0 跟貼 0
MINIMAX：2025年收入約7900萬美元

每日經(jīng)濟(jì)新聞 2026-03-02 22:58:37
1 跟貼 1
戶外鳥蛤！

臻愛搞笑 2026-03-02 10:17:06
1 跟貼 1
男子給懷孕的妻子捕魚時，不料發(fā)現(xiàn)很多的鴨蛋和海螺，這下發(fā)財了

劉戰(zhàn)朋愛喵 2026-03-02 14:48:36
0 跟貼 0
細(xì)節(jié)處見新表達(dá)，西安歐亞學(xué)院視覺新版本發(fā)布!

校園關(guān)注 2026-03-02 13:10:07
0 跟貼 0
瞄準(zhǔn)時一只眼影響精準(zhǔn)的原因是什么？

田哥哥 2026-03-02 03:28:37
0 跟貼 0
全景視覺的Depth Anything來了！

機(jī)器之心Pro 2025-12-29 16:54:58
0 跟貼 0
如何重新找回你的注意力（全文7500字）

黃先生斜杠青年 2026-03-03 00:07:35
0 跟貼 0
仿真落地三難點(diǎn)：物理、視覺、交互

量子位 2025-12-12 04:34:09
0 跟貼 0
站在花雞坡上，就能俯瞰三峽大壩全景的最佳免費(fèi)觀景臺網(wǎng)友：這視覺效果簡直了

營天下 2026-02-26 18:27:11
259 跟貼 259
很少有人知道曲線鋸背后原理！自制超實(shí)用木工工具！

大春不一樣 2026-02-28 11:46:42
0 跟貼 0
極氪公布春節(jié)十大獵裝旅行路線，揭秘深度自駕游版圖

魯中晨報 2026-02-26 12:29:41
15583 跟貼 15583
蘋果偷偷換工藝，Ultra 3 表殼上竟然有細(xì)密紋理！

愛范兒 2025-11-19 13:45:55
26 跟貼 26
Alec Radford新作：給大模型做腦部手術(shù)，知識重學(xué)成本暴增7000倍

機(jī)器之心Pro 2026-03-02 14:24:39
0 跟貼 0

賽博禪心

拜AI古佛，修賽博禪心

309文章數(shù) 45關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術(shù)

本地

教育

健康

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產(chǎn)30天

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

視覺生成的隱藏天花板｜VTP：MiniMax海螺視頻首次開源 · 技術(shù)解讀

蘋果中國官網(wǎng)上線iPhone 17e，4499元起

特朗普:對伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

特朗普:對伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

李亞鵬與哥哥和解 只有一條真心話短信

油價飆升 美伊沖突將如何攪動全球經(jīng)濟(jì)

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

這四位老人的花鳥畫，竟讓人欲罷不能！

津南好·四時總相宜

3月13日截止！山東綜評云平臺填寫教程！有視頻！

轉(zhuǎn)頭就暈的耳石癥，能開車上班嗎？

蘋果中國官網(wǎng)上線iPhone 17e，4499元起

特朗普:對伊朗打擊或持續(xù)4至5周已擊沉其10艘艦艇

特朗普:對伊朗打擊或持續(xù)4至5周已擊沉其10艘艦艇

李亞鵬與哥哥和解只有一條真心話短信

油價飆升美伊沖突將如何攪動全球經(jīng)濟(jì)

國民SUV再添一員瑞虎7L靜態(tài)體驗(yàn)

這四位老人的花鳥畫，竟讓人欲罷不能！

3月13日截止！山東綜評云平臺填寫教程！有視頻！

轉(zhuǎn)頭就暈的耳石癥，能開車上班嗎？