斯坦福、英偉達(dá)、新國立推出InfoTok，用信息論定義高效視頻分詞

2026-03-30 15:39:13　來源: 機(jī)器之心Pro

河北舉報

分享至

在生成式 AI 領(lǐng)域，視覺分詞器（Visual Tokenizer）通常采用固定壓縮率 —— 無論是單調(diào)的監(jiān)控畫面，還是復(fù)雜的動作大片，都被切分為等量的 Token。這種 "一刀切" 的做法不僅會造成巨大的計算冗余，也產(chǎn)生了 “信息量” 不同的 Token，不利于下游理解生成任務(wù)處理。

近日，來自斯坦福大學(xué)、英偉達(dá)（NVIDIA）Cosmos 團(tuán)隊和新加坡國立大學(xué)的研究團(tuán)隊提出了一種基于信息論的自適應(yīng)視頻分詞器InfoTok，能根據(jù)視頻內(nèi)容復(fù)雜度自動分配 Token 數(shù)量，實(shí)現(xiàn)了2.3 倍壓縮率，推理速度比同類自適應(yīng)方案11 倍的同時取得了更優(yōu)的重建質(zhì)量，為高效視頻理解與生成開辟了新的可能。該論文在已被 ICLR 2026 接收為 Oral 口頭報告，第一作者為斯坦福大學(xué) Haotian Ye 和新加坡國立大學(xué) Qiyuan He。

論文標(biāo)題：InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression
論文鏈接：https://arxiv.org/abs/2512.16975
項(xiàng)目主頁：https://research.nvidia.com/labs/dir/infotok/
代碼及權(quán)重：https://github.com/YWolfeee/InfoTo

左——原始視頻；中——InfoTok的重建視頻；右——柱狀圖顯示每幀平均 Token 使用率。亮色區(qū)域表示分配了更多 Token，黑色區(qū)域表示被大幅壓縮�？梢钥吹�，分詞器自動在動態(tài)、信息豐富的區(qū)域投入更多 Token，而在靜態(tài)區(qū)域大幅節(jié)省。

動機(jī)：什么才是好的視頻分詞器？

當(dāng)前的視覺基礎(chǔ)模型 —— 無論是大語言模型驅(qū)動的視頻理解，還是擴(kuò)散模型、自回歸模型支撐的視頻生成 —— 都遵循一套共同的范式：先將原始像素壓縮為緊湊的潛在表示（Token），再對這些表示進(jìn)行建模。這第一步，就是分詞（Tokenization）

那么，什么樣的視頻分詞器才算 "好"？理想情況下，一個優(yōu)秀的視頻分詞器至少應(yīng)滿足三個標(biāo)準(zhǔn)：

高壓縮率：大幅縮減數(shù)據(jù)量，使下游生成模型能夠高效運(yùn)行。
高保真度：壓縮后的 Token 應(yīng)保留足夠信息，支持高質(zhì)量的視頻重建。
語義豐富：Token 應(yīng)捕獲視頻中語義上有意義的內(nèi)容，而非機(jī)械切分。

然而，當(dāng)前主流的視覺分詞器并不滿足這些標(biāo)準(zhǔn)。它們將視頻幀切分為均勻網(wǎng)格，并以固定壓縮率對每一段視頻進(jìn)行壓縮 —— 無論是幾乎靜止的風(fēng)景延時還是車輛穿梭的繁忙街景，無論是細(xì)膩復(fù)雜的人物表情還是簡單純凈的湛藍(lán)天空，竟然都會消耗完全相同數(shù)量的 Token。直覺告訴我們這并不是合理的：復(fù)雜的畫面理應(yīng)比簡單的畫面消耗更多 Token。

我們?yōu)槭裁磿a(chǎn)生這樣的直覺？復(fù)雜與簡單畫面的區(qū)別應(yīng)該怎么刻畫？怎樣的壓縮程度才是合理、第一性的？為了回答這些問題，InfoTok 團(tuán)隊將目光投向了信息論，尋找一個有理論保障的答案。

理論：為什么固定壓縮率的分詞器注定次優(yōu)？

讓我們把直覺形式化�；乜瓷厦娴难菔疽曨l —— 第二個視頻兩側(cè)是大面積的純白區(qū)域，信息量為零，而固定速率的分詞器仍然對這些空白區(qū)域投入了與中央動態(tài)內(nèi)容完全相同的 Token 數(shù)量。這顯然是浪費(fèi)。問題在于如何用數(shù)學(xué)語言定義這種 "浪費(fèi)"

InfoTok 團(tuán)隊的思路是參考經(jīng)典信息論。香農(nóng)（Shannon）的信源編碼定理告訴我們一個深刻的道理：一個信號越容易被預(yù)測，表示它的信息量越少，因而所需的 Token 也應(yīng)該越少；反之，越稀有、越出乎意料的內(nèi)容，就包含了越多的信息量，因而應(yīng)分配越多的比特。換言之，這種可預(yù)測性在信息論中被認(rèn)為是衡量信息量（也即編碼需要的 Token 數(shù)）的關(guān)鍵。

香農(nóng)經(jīng)典的編碼定理說明，當(dāng)這一原則被嚴(yán)格遵循時，總體表示成本將達(dá)到理論最優(yōu)。研究團(tuán)隊將這一原則嚴(yán)格推廣到了視頻分詞場景：

定理（最優(yōu)自適應(yīng)分詞）：T 為任意碼本大小為 C 的分詞器；N_x 為分配給視頻 x 的 Token 數(shù)量；p(x) 為數(shù)據(jù)分布下視頻 x 的概率。期望 Token 數(shù)以熵為下界，且理想情況下可以達(dá)到。

Huffman 編碼類比：在字母編碼中，Huffman 編碼為高頻字母分配短碼——同樣的原則應(yīng)當(dāng)應(yīng)用于視頻 Token 的分配。

回到上面的視頻示例：純白邊框是高度可預(yù)測的 —— 幾乎零信息 —— 但固定壓縮率分詞器卻對它們投入了與動態(tài)內(nèi)容等量的 Token。這正是低效的根源：它違反了高效壓縮最基本的原則。

方法：從理論到實(shí)踐

理論告訴我們最優(yōu)分詞應(yīng)該自適應(yīng)地匹配每段視頻的信息量。但落地時面臨兩個具體問題：

1.該分配多少 Token？定理說答案取決于 p (x)，但我們無法直接計算視頻的真實(shí)似然概率。如何在實(shí)踐中估計合適的 Token 數(shù)量？

2.確定數(shù)量后如何編碼？標(biāo)準(zhǔn)分詞器產(chǎn)生固定長度序列。我們需要一種能壓縮到可變數(shù)量 Token 并且仍然重建良好的架構(gòu)。

InfoTok 用兩個對應(yīng)的組件解決了這兩個挑戰(zhàn)：ELBO 路由器（決定分配多少 Token）和自適應(yīng)壓縮器（執(zhí)行變長編碼）。二者作為即插即用插件，架設(shè)在任何現(xiàn)有固定壓縮率分詞器（本文使用 NVIDIA 推出的 Cosmos Tokenizer）之上。

InfoTok 框架總覽：路由器根據(jù)視頻復(fù)雜度決定 Token 數(shù)量 N_x；自適應(yīng)壓縮器將固定長度嵌入轉(zhuǎn)換為 N_x 個離散 Token。

ELBO 路由器：讓信息復(fù)雜度自動 "定價"

雖然我們無法直接計算 p (x)，但可以計算其證據(jù)下界（ELBO）—— 一個可計算的代理指標(biāo)，用于衡量視頻在基礎(chǔ)分詞器下的 "可預(yù)測性"。這引出了一個關(guān)鍵的理論結(jié)果：

定理（InfoTok 的近最優(yōu)性）：如果使用基于 ELBO 的路由器并最小化重建損失來訓(xùn)練，期望 Token 數(shù)以熵為界，差距項(xiàng)在 ELBO 緊致時趨于零。

直白地說：使用 ELBO 來決定 Token 數(shù)量，可以實(shí)現(xiàn)近最優(yōu)的壓縮效果。映射關(guān)系非常直觀：

ELBO 高（內(nèi)容可預(yù)測 / 簡單場景） → 分配更少 Token
ELBO 低（內(nèi)容復(fù)雜 / 出乎意料） → 分配更多 Token

具體來說，路由器的計算公式為：

其中 β 控制平均壓縮水平。最關(guān)鍵的優(yōu)勢在于：ELBO 可以直接從任何預(yù)訓(xùn)練的分詞器中廉價計算得到，無需額外模型。

自適應(yīng)壓縮器：變長序列的智能打包

路由器確定了 Token 預(yù)算 N_x 后，基于 Transformer 的自適應(yīng)壓縮器負(fù)責(zé)將固定長度的嵌入智能地 "打包" 進(jìn)變長的 Token 序列中。具體而言，他會動態(tài)地要求輸出時信息量低的 Token 位置被省略，并通過端到端網(wǎng)絡(luò)訓(xùn)練將這部分的信息濃縮到一個由路由器事先決定長度的 Token 序列中。

當(dāng)預(yù)算吃緊時，它學(xué)會濃縮精華，每個 Token 承載更多信息；
當(dāng)預(yù)算充足時，它則保留完整細(xì)節(jié)，信息分散到更多 Token 中。

需要注意，Token 被省略的位置由于信息量低，經(jīng)過網(wǎng)絡(luò)后信息可以幾乎無損的合并到更短的輸出序列中，此時這些被保留的 Token 的語義將會有所改變 —— 從結(jié)果上看，每個 Token 最后的信息量（也即 p (x) ）將會趨于相等，從而實(shí)現(xiàn)壓縮、保真度、語義的平衡。具體的實(shí)現(xiàn)代碼請見論文。

實(shí)驗(yàn)結(jié)果

可視化效果：自適應(yīng)分詞隨場景、時間動態(tài)調(diào)整編碼

以下展示了 InfoTok 在不同場景下生成的 Token 掩碼。每個動圖中：左側(cè)為原始視頻，中間為 InfoTok 的重建視頻（亮區(qū)表示高信息量區(qū)域，被分配了 Token；暗區(qū)表示低信息量區(qū)域，信息被壓縮到其他 Token 中），右側(cè)柱狀圖顯示每幀的 Token 使用率。

第一人稱場景（EgoExo4D 數(shù)據(jù)集）：

由于相機(jī)運(yùn)動導(dǎo)致整個畫面都在變化，Token 分布相對均勻 —— 但周圍黑色邊框（相機(jī)視野之外）由于高度可預(yù)測，被完全壓縮掉。

駕駛場景（BDD 數(shù)據(jù)集）：

Token 自動集中在移動車輛和道路邊緣，而靜態(tài)的天空和路面幾乎不消耗 Token。

機(jī)器人操作場景（Bridge 數(shù)據(jù)集）：

機(jī)械臂和被操作物體處高亮，固定的桌面背景保持黑暗 ——Token 精準(zhǔn)地 "吸附" 在了任務(wù)相關(guān)的區(qū)域。

可視化效果：不同壓縮級別下的重建質(zhì)量

InfoTok 的一個獨(dú)特能力是可以在任意 Token 長度下進(jìn)行分詞，在壓縮率和質(zhì)量之間優(yōu)雅地權(quán)衡。下圖展示了同一段駕駛視頻在五個壓縮級別下的重建效果（從原始到逐步提高壓縮率）：

簡單的高速公路場景（背景靜態(tài)）即使在極高壓縮下仍保持出色畫質(zhì)，而復(fù)雜的交叉路口則需要更多 Token 來保留細(xì)節(jié) —— 這正是自適應(yīng)分詞的價值所在。

定量指標(biāo)

視覺效果令人信服，但數(shù)字是否也支持這一結(jié)論？研究團(tuán)隊在標(biāo)準(zhǔn)視頻重建基準(zhǔn)（TokenBench 和 DAVIS）上進(jìn)行了全面評估，以 Cosmos 分詞器為基礎(chǔ)，對比了兩種 InfoTok 變體 ——InfoTok（固定 ELBO 路由器）和 InfoTok-Flex（靈活路由器）—— 與固定壓縮率基線以及基于啟發(fā)式的動態(tài)編碼器 ElasticTok。

實(shí)驗(yàn)結(jié)果：在 TokenBench 和 DAVIS 上對固定長度和自適應(yīng)分詞器的評估。在兩種壓縮級別（0.81 和 0.56）下與 ElasticTok 對比，最佳結(jié)果以粗體標(biāo)注。

關(guān)鍵結(jié)論：InfoTok 可以在節(jié)省 20% Token 的情況下實(shí)現(xiàn)無損重建，在 2.3 倍壓縮率下仍然全面超越 ElasticTok。

更重要的是，基于 ELBO 的路由器在所有壓縮級別上都一致地優(yōu)于啟發(fā)式方法 —— 而非僅在某個特定工作點(diǎn)上：

全面對比：質(zhì)量指標(biāo)（PSNR↑、LPIPS↓、FVD↓）vs. 壓縮率（BPP??），(a-c) TokenBench，(d-f) DAVIS，(g) 推理效率。InfoTok 在所有壓縮級別上全面占優(yōu)，同時推理效率顯著更高（快 11 倍）。

結(jié)語與展望

InfoTok 證明了在 AI 飛速發(fā)展、大模型無所不能的今天，我們?nèi)钥梢詮慕?jīng)典信息論中汲取靈感大幅優(yōu)化 AI 效率。通過用基于 ELBO 的路由器替代啟發(fā)式壓縮策略，InfoTok 以更少的 Token 實(shí)現(xiàn)了更好的重建質(zhì)量 —— 并且在現(xiàn)有分詞器之上僅需極小的額外開銷。

研究團(tuán)隊指出了幾個令人期待的未來方向：

連續(xù) Token：InfoTok 當(dāng)前工作在離散 Token 空間。然而，其信息論框架同樣適用于連續(xù)潛在表示 —— 自適應(yīng)地分配潛在維度或通道。這有望彌合離散分詞器（用于自回歸模型）與連續(xù) VAE 編碼器（用于擴(kuò)散模型）之間的鴻溝，提供統(tǒng)一的自適應(yīng)壓縮框架。
下游視頻生成：將自適應(yīng)分詞深度整合進(jìn)視頻生成管線，讓變長 Token 序列同時帶來質(zhì)量和效率的提升。
超越視頻：InfoTok 背后的信息論原則并不局限于視頻 —— 圖像、3D 場景、多模態(tài)數(shù)據(jù)同樣存在非均勻的信息密度分布，都可以從自適應(yīng)分詞中獲益。

隨著這一技術(shù)的普及，我們或許離更長、更細(xì)膩、更高效的 AI 視頻生成時代又近了一步。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.