国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

VFMTok: Visual Foundation Models驅(qū)動的Tokenizer時代來臨

0
分享至



視覺 Tokenizer 的困境與破局

近年來,自回歸(Autoregressive, AR)模型在語言生成領域的成功激發(fā)了其在圖像生成領域的應用,涌現(xiàn)出 DALL-E、Parti、VAR 和 LlamaGen 等代表性工作。這類技術高度依賴于 VQGAN 等視覺 Tokenizer,它負責將高維、冗余的像素空間映射到一個低維、緊湊的離散潛在空間,是決定生成模型上限的基石。

然而,以 VQGAN 為代表的傳統(tǒng) Tokenizer 通常需要從零開始訓練,其訓練目標由像素級重建損失函數(shù)主導,導致其產(chǎn)生的潛在空間:

  1. 富含低層細節(jié)特征卻缺乏高層語義信息:能很好地還原圖像細節(jié),但潛在編碼本身缺乏高層語義信息。
  2. 較高的潛在空間冗余:VAGAN 基于圖像塊 (patch) 逐一進行量化,而圖像中的物體通常是不規(guī)則的區(qū)域,基于圖像塊的量化降低了 tokens 的編碼效率。
  3. 無視結構特性的表征:潛在空間的組織較為混亂,使得生成模型不僅需要更長的訓練時間來學習其潛在空間分布,而且往往得借助 CFG(Classifier-Free Guidance, CFG)等技巧來實現(xiàn)高保真度的圖像生成,增加了模型推理時間。

與此同時,預訓練的視覺基礎模型(Visual Foundation Models, VFMs),如 CLIP、DINOv2、SigLIP2 等,在提取豐富語義且可泛化視覺特征方面表現(xiàn)出了強大的能力。這些模型通過自監(jiān)督或語言監(jiān)督的方式進行訓練,它們能夠有效抽象出圖像中的高層語義信息,因此這些預訓練的視覺基礎模型大多應用于圖像內(nèi)容理解任務當中。直接將其應用于圖像重建和生成任務上卻鮮有人探索。

基于此,香港大學 CVMI Lab 和階躍星辰 AIGC 團隊提出一個大膽假設:原本為視覺理解任務設計的預訓練視覺基礎模型,其潛在特征是否也能直接作為圖像重建與生成的魯棒結構化表征?

為了驗證這一猜想,我們探索了一個基礎視覺模型新的應用新方向:用凍結的預訓練視覺基礎模型構造離散的視覺 Tokenizer,將其應用于圖像重建和自回歸圖像生成任務上。

我們發(fā)現(xiàn),相比于傳統(tǒng)的視覺 Tokenizer 模型,視覺基礎模型驅(qū)動的圖像 Tokenizer 在這兩項任務上均表現(xiàn)出優(yōu)異的性能。



  • 論文標題: Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation
  • 論文地址: https://arxiv.org/pdf/2507.08441
  • Huggingface: https://huggingface.co/papers/2507.08441
  • Github:
  • https://github.com/CVMI-Lab/VFMTok.git (Vanilla version)
  • https://github.com/CVMI-Lab/VFMTok-RAR.git (Ultra version)

探索性發(fā)現(xiàn)

為了驗證視覺基礎模型 (VFMs) 能否構造高質(zhì)量的視覺 Tokenizer,我們首次嘗試使用不同的凍結的預訓練基礎視覺模型 (VFMs) 提取圖像特征,將其送入 VQGAN 的編碼器中進行端到端訓練。訓練階段只有量化器(quantilizer)和解碼器中的參數(shù)會進行更新,隨后用它完成自回歸圖像生成任務。

實驗表明:凍結的視覺基礎模型 (VFMs) 提取的圖像特征可以直接用于圖像重建,且訓練好的視覺 Tokenizer 在自回歸圖像生成任務上的表現(xiàn)優(yōu)于傳統(tǒng)的視覺 Tokenizer 模型。

這一發(fā)現(xiàn)凸顯了預訓練視覺基礎模型 (VFMs) 構造高質(zhì)量視覺 Tokenizer 的巨大潛力。



核心思想

基于我們的探索性發(fā)現(xiàn):凍結的視覺基礎模型 (VFMs) 可以直接構造高質(zhì)量的視覺 Tokenizer 并進行端到端地訓練,我們對構造的視覺 Tokenizer 的結構進行進一步的優(yōu)化 —— 利用視覺基礎模型 (VFMs)提取圖像的多層特征 (Multi-level Features Extraction),這有助于同時捕獲圖像中的低層細節(jié)特征和高層語義信息。

同時,我們注意到現(xiàn)有的量化機制 (quantization) 都是對圖像塊 (patch) 逐一量化,而圖像中物體一般都是形狀不規(guī)則的,因此我們設計了區(qū)域自適應的量化 (Region-Adaptive Quantization) 方案。該方案可以進一步降低潛在特征空間的冗余度,提高視覺 tokens 的利用效率。

此外,因為視覺基礎模型的參數(shù)是凍結的,因此在重建圖像內(nèi)容的同時,我們也設計了語義特征重建的目標函數(shù) (Semantic Reconstruction Objective),來提升視覺 Tokenizer 的語義保真度。我們將基于視覺基礎模型 (VFMs) 的 Tokenizer 稱之為VFMTok。



VFMTok 架構圖

關鍵技術細節(jié)

  • 多層圖像特征提取 (Multi-level Features Extraction)

為了同時捕獲圖像低層細節(jié)特征和高層語義信息方便圖像重建,VFMTok 采用凍結的預訓練的視覺基礎模型 (VFMs) 作為編碼器提取多層級語義特征。VFMTok 按照等間隔的方式從預訓練基礎模型 (VFMs) 中提取多層特征 (multi-level features)。

  • 區(qū)域自適應量化 (Region-Adaptive Quantization)

為了實現(xiàn)區(qū)域自適應量化 (Region-Adaptive Quantization) 機制,VFMTok 通過可學習「錨點查詢」(Anchor Queries)結合可變形注意力機制(Deformable Attention)自適應地從多層級特征 (multi-level features) 中進行區(qū)域自適應的特征采樣 (Region-Adaptive Sampling)。

這種方式能聚焦于采樣圖像中模式一致的區(qū)域。隨后,VFMToks 對可學習「錨點查詢」(Anchor Queries)進行量化 (quantization)。這種方式可以有效提升 token 的利用效率 —— 用更少的 tokens(256)來表征一張圖像。



  • 語義重建目標(Semantic Reconstruction Objective)

因為視覺基礎模型在 Tokenizer 的訓練階段參數(shù)是凍結的,因此 VFMTok 在重建圖像的同時,也會重建凍結的基礎模型(VFM)最后一層的語義特征。

為了實現(xiàn)這一點,VFMTok 解碼階段設計了一個共享的輕量級 Vision Transformer(ViT)。這個 ViT 接收區(qū)域自適應量化后的 tokens,結合一個可學習的 mask token 以及一組可學習的位置編碼(Positional Embedding)作為輸入,分別產(chǎn)生用于圖像重建和語義重建的特征。共享 ViT 的設計既減少了參數(shù)量又保證了語義保真度。其雙重目標函數(shù)是:





訓練完成后,VFMTok 可以被應用于圖像自適應回歸任務上,基于 next-token prediction 的方式生成高質(zhì)量的圖像內(nèi)容。

實驗亮點與分析

1.卓越的重建生成質(zhì)量與效率

大量實驗表明,基于視覺基礎模型 (VFMs) 構造的視覺 Tokenizer——VFMTok,具備高質(zhì)量、高效率的圖像重建和自回歸圖像生成能力。

  • 更好的圖像重建質(zhì)量:相較于傳統(tǒng)的視覺 Tokenizer,VFMTok 可以用更少的 token 數(shù)量(僅用 256 個)實現(xiàn)更優(yōu)的重建質(zhì)量(0.89 rFID, 215.4 rIS)和更高的碼本利用率 (100%),超越了之前大部分傳統(tǒng)的離散 Tokenizers。



  • 更快的生成訓練收斂速度:相比于經(jīng)典的 VQGAN 這類 Tokenizer,VFMTok 能夠顯著提升自回歸模型訓練階段的收斂速度 ——訓練收斂速度提升了 3 倍。



  • 更好的生成性能:在 ImageNet 256x256 的 class-to-image 生成任務上,VFMTok-1.4B 模型在參數(shù)量更少、訓練迭代次數(shù)更少的情況下,自回歸生成性能超越了同類 LlamaGen-3B。此外,在接入更好的自回歸圖像生成框架 RAR 后,實現(xiàn)了SOTA 的圖像生成性能(gFID: 1.36)。



  • CFG-free 優(yōu)越性:值得注意的是,VFMTok 在有無 CFG 的情況下性能幾乎一致(gFID: 2.07 vs 2.04),而 LlamaGen 則會從 2.19 急劇惡化至 9.38。這證明了其潛在空間具有極強的語義一致性,無需 CFG 即可實現(xiàn)高保真度的 class-to-image 圖像生成,可以進一步減少圖像生成時間。
  • 更快的推理速度:由于 tokens 數(shù)量減半(256 vs. 576),自回歸模型的生成過程長度減半,推理速度因此獲得了約 4 倍的提升。

2.消融實驗的有力證明

僅使用凍結的 VFM 作為編碼器,線性探針準確率(linear probing)就從 VQGAN 的 23.1% 提升至56.4%。引入?yún)^(qū)域自適應量化 (Region-Adaptive Quantization) 和語義特征重建 (Semantic Reconstruction Objective) 后,VFMTok 僅用 256 個 Token 就能在重建質(zhì)量(rFID 0.89 vs 0.95) 上全面超越使用 576 個 Token 的 VQGAN 基線 Tokenizer。



總結與展望

VFMTok 首次證明了凍結的視覺基礎模型 (VFMs) 提取的圖像特征能有效用于圖像重建與生成,同時可以提升 Tokenizer 語義表征能力,使自回歸 (AR) 圖像生成模型收斂更快,并能實現(xiàn) CFG-free 的高保真圖像合成。VFMTok 提出的區(qū)域自適應量化機制,通過有效利用圖像區(qū)域的固有冗余實現(xiàn)緊湊編碼,在減少視覺 token 數(shù)量的同時提升性能,實現(xiàn)高效且高質(zhì)量的自回歸圖像生成。

大量實驗驗證了 VFMTok 在圖像重建和自回歸生成中的有效性,確立了預訓練視覺基礎模型 (VFMs) 構造高質(zhì)量、高效率 Tokenizer 的主導地位。

由此可見,利用 VFM 的先驗知識是構建高質(zhì)量潛在空間的必由之路,也是構建下一代 Tokenizer 的關鍵,這比任何從零開始的正則化或約束都更根本、更有效。預訓練視覺基礎模型的巨大潛力值得我們在未來深入挖掘,最終可能探索出一個能夠有效兼容所有生成模型的、語義豐富、高質(zhì)高效的「統(tǒng)一 Tokenizer」。

VFMTok 論文與代碼均已公開,歡迎感興趣的同學閱讀、復現(xiàn)以及深入討論。

作者介紹

本文作者主要來自于香港大學 CVMI Lab 和階躍星辰 AIGC 團隊。階躍星辰 AIGC 團隊主要致力于圖像生成底模、圖像編輯底模、世界模型以及 RL 后訓練研究和落地。歡迎志同道合的同學交流和加入,一起為 AIGC 社區(qū)貢獻力量。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
花27萬元拍下周口太昊陵廟會攤位的“標王”攤主已盈利,當事人:每天工作十多個小時賣豬蹄數(shù)千只,明年會繼續(xù)競拍

花27萬元拍下周口太昊陵廟會攤位的“標王”攤主已盈利,當事人:每天工作十多個小時賣豬蹄數(shù)千只,明年會繼續(xù)競拍

極目新聞
2026-04-19 22:39:27
王毅通告全世界,53國獲零關稅特權,唯獨一國沒得到,中方選邊站

王毅通告全世界,53國獲零關稅特權,唯獨一國沒得到,中方選邊站

觸摸史跡
2026-04-20 03:39:03
秦嵐 x 黑絲要人命

秦嵐 x 黑絲要人命

TVB的四小花
2026-04-20 01:48:17
綠軍123-91大勝76人!我不得不承認5個現(xiàn)實:東部冠軍懸念不大

綠軍123-91大勝76人!我不得不承認5個現(xiàn)實:東部冠軍懸念不大

毒舌NBA
2026-04-20 04:55:07
一輛20萬的新車,卡扣斷了,修不起;89元的零件 逼人換13萬電池包

一輛20萬的新車,卡扣斷了,修不起;89元的零件 逼人換13萬電池包

娛樂圈的筆娛君
2026-04-20 02:07:08
哇塞,這大體格太完美了,誰娶了她,定能旺三代

哇塞,這大體格太完美了,誰娶了她,定能旺三代

東方不敗然多多
2026-04-19 18:01:19
57歲好萊塢女星太敢說:自曝生猛夫妻生活,不用生娃更盡興

57歲好萊塢女星太敢說:自曝生猛夫妻生活,不用生娃更盡興

橙星文娛
2026-04-18 16:47:02
WTI原油期貨開盤大漲7%

WTI原油期貨開盤大漲7%

財聯(lián)社
2026-04-20 06:03:42
間諜就在我們身邊!4月16日,央視報道了一個讓人后背發(fā)涼的新聞

間諜就在我們身邊!4月16日,央視報道了一個讓人后背發(fā)涼的新聞

丁丁鯉史紀
2026-04-19 19:43:57
什么原因?僅僅一百五十年,江陰靖江長江江面居然縮窄了80%

什么原因?僅僅一百五十年,江陰靖江長江江面居然縮窄了80%

抽象派大師
2026-04-20 01:27:38
魏建軍發(fā)布會現(xiàn)場痛批營銷團隊5分鐘:無法轉(zhuǎn)化工程師成果“相當于犯罪”

魏建軍發(fā)布會現(xiàn)場痛批營銷團隊5分鐘:無法轉(zhuǎn)化工程師成果“相當于犯罪”

三言科技
2026-04-18 20:55:06
機關事業(yè)單位“緊日子”來臨,2026年起,這些費用一律不再報銷

機關事業(yè)單位“緊日子”來臨,2026年起,這些費用一律不再報銷

復轉(zhuǎn)這些年
2026-04-19 19:13:36
震驚!兒媳失業(yè)近一年,每天只買菜做飯,河南婆婆吐槽勸兒子離婚

震驚!兒媳失業(yè)近一年,每天只買菜做飯,河南婆婆吐槽勸兒子離婚

火山詩話
2026-04-19 09:20:26
塔圖姆25+11+7布朗26分,費城雙槍打鐵,綠軍大勝76人刷爆紀錄

塔圖姆25+11+7布朗26分,費城雙槍打鐵,綠軍大勝76人刷爆紀錄

釘釘陌上花開
2026-04-20 05:20:14
打蛇打七寸!中國全面斷供開始,日本多行業(yè)停擺,高市真慌了

打蛇打七寸!中國全面斷供開始,日本多行業(yè)停擺,高市真慌了

來科點譜
2026-04-19 07:17:32
足壇悲喜夜:拜仁奪冠,阿森納巴黎翻車,穆帥神換人絕殺

足壇悲喜夜:拜仁奪冠,阿森納巴黎翻車,穆帥神換人絕殺

二爺臺球解說
2026-04-20 05:46:11
73場造13球 荷蘭新帶刀后衛(wèi)已成曼城今夏重點引援目標 3豪門來搶

73場造13球 荷蘭新帶刀后衛(wèi)已成曼城今夏重點引援目標 3豪門來搶

零度眼看球
2026-04-20 07:30:58
不歡迎中國人的7個國家,不待見寫在臉上,中國游客仍蜂擁而至

不歡迎中國人的7個國家,不待見寫在臉上,中國游客仍蜂擁而至

史行途
2026-04-20 00:15:27
5300萬芬尼遭DNP!火蜜諷斯通又出敗筆 巴克利吐槽烏度卡毫無戰(zhàn)術

5300萬芬尼遭DNP!火蜜諷斯通又出敗筆 巴克利吐槽烏度卡毫無戰(zhàn)術

顏小白的籃球夢
2026-04-20 07:00:23
在美以高壓下,伊朗內(nèi)部出現(xiàn)多起極端事件

在美以高壓下,伊朗內(nèi)部出現(xiàn)多起極端事件

高博新視野
2026-04-18 06:00:18
2026-04-20 07:44:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12795文章數(shù) 142632關注度
往期回顧 全部

科技要聞

50分26秒破人類紀錄!300臺機器人狂飆半馬

頭條要聞

特朗普:美伊20日將舉行談判 再不接受協(xié)議就轟炸伊朗

頭條要聞

特朗普:美伊20日將舉行談判 再不接受協(xié)議就轟炸伊朗

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

房產(chǎn)
家居
游戲
本地
藝術

房產(chǎn)要聞

官宣簽約最強城更!??跇鞘?,突然殺入神秘房企!

家居要聞

法式線條 時光靜淌

PS必吃榜!5月陣容前瞻 007新游終于來了

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

藝術要聞

蒲華寫水仙,清健嫵媚

無障礙瀏覽 進入關懷版