国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

斯坦福、英偉達(dá)、新國立推出InfoTok,用信息論定義高效視頻分詞

0
分享至



在生成式 AI 領(lǐng)域,視覺分詞器(Visual Tokenizer)通常采用固定壓縮率 —— 無論是單調(diào)的監(jiān)控畫面,還是復(fù)雜的動作大片,都被切分為等量的 Token。這種 "一刀切" 的做法不僅會造成巨大的計算冗余,也產(chǎn)生了 “信息量” 不同的 Token,不利于下游理解生成任務(wù)處理。

近日,來自斯坦福大學(xué)、英偉達(dá)(NVIDIA)Cosmos 團(tuán)隊和新加坡國立大學(xué)的研究團(tuán)隊提出了一種基于信息論的自適應(yīng)視頻分詞器InfoTok,能根據(jù)視頻內(nèi)容復(fù)雜度自動分配 Token 數(shù)量,實(shí)現(xiàn)了2.3 倍壓縮率,推理速度比同類自適應(yīng)方案11 倍的同時取得了更優(yōu)的重建質(zhì)量,為高效視頻理解與生成開辟了新的可能。該論文在已被 ICLR 2026 接收為 Oral 口頭報告,第一作者為斯坦福大學(xué) Haotian Ye 和新加坡國立大學(xué) Qiyuan He。



  • 論文標(biāo)題:InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression
  • 論文鏈接:https://arxiv.org/abs/2512.16975
  • 項(xiàng)目主頁:https://research.nvidia.com/labs/dir/infotok/
  • 代碼及權(quán)重:https://github.com/YWolfeee/InfoTo







左——原始視頻;中——InfoTok的重建視頻;右——柱狀圖顯示每幀平均 Token 使用率。亮色區(qū)域表示分配了更多 Token,黑色區(qū)域表示被大幅壓縮?梢钥吹,分詞器自動在動態(tài)、信息豐富的區(qū)域投入更多 Token,而在靜態(tài)區(qū)域大幅節(jié)省。

動機(jī):什么才是好的視頻分詞器?

當(dāng)前的視覺基礎(chǔ)模型 —— 無論是大語言模型驅(qū)動的視頻理解,還是擴(kuò)散模型、自回歸模型支撐的視頻生成 —— 都遵循一套共同的范式:先將原始像素壓縮為緊湊的潛在表示(Token),再對這些表示進(jìn)行建模。這第一步,就是分詞(Tokenization)

那么,什么樣的視頻分詞器才算 "好"?理想情況下,一個優(yōu)秀的視頻分詞器至少應(yīng)滿足三個標(biāo)準(zhǔn):

  • 高壓縮率:大幅縮減數(shù)據(jù)量,使下游生成模型能夠高效運(yùn)行。
  • 高保真度:壓縮后的 Token 應(yīng)保留足夠信息,支持高質(zhì)量的視頻重建。
  • 語義豐富:Token 應(yīng)捕獲視頻中語義上有意義的內(nèi)容,而非機(jī)械切分。

然而,當(dāng)前主流的視覺分詞器并不滿足這些標(biāo)準(zhǔn)。它們將視頻幀切分為均勻網(wǎng)格,并以固定壓縮率對每一段視頻進(jìn)行壓縮 —— 無論是幾乎靜止的風(fēng)景延時還是車輛穿梭的繁忙街景,無論是細(xì)膩復(fù)雜的人物表情還是簡單純凈的湛藍(lán)天空,竟然都會消耗完全相同數(shù)量的 Token。直覺告訴我們這并不是合理的:復(fù)雜的畫面理應(yīng)比簡單的畫面消耗更多 Token。

我們?yōu)槭裁磿a(chǎn)生這樣的直覺?復(fù)雜與簡單畫面的區(qū)別應(yīng)該怎么刻畫?怎樣的壓縮程度才是合理、第一性的?為了回答這些問題,InfoTok 團(tuán)隊將目光投向了信息論,尋找一個有理論保障的答案。

理論:為什么固定壓縮率的分詞器注定次優(yōu)?

讓我們把直覺形式化;乜瓷厦娴难菔疽曨l —— 第二個視頻兩側(cè)是大面積的純白區(qū)域,信息量為零,而固定速率的分詞器仍然對這些空白區(qū)域投入了與中央動態(tài)內(nèi)容完全相同的 Token 數(shù)量。這顯然是浪費(fèi)。問題在于如何用數(shù)學(xué)語言定義這種 "浪費(fèi)"

InfoTok 團(tuán)隊的思路是參考經(jīng)典信息論。香農(nóng)(Shannon)的信源編碼定理告訴我們一個深刻的道理:一個信號越容易被預(yù)測,表示它的信息量越少,因而所需的 Token 也應(yīng)該越少;反之,越稀有、越出乎意料的內(nèi)容,就包含了越多的信息量,因而應(yīng)分配越多的比特。 換言之,這種可預(yù)測性在信息論中被認(rèn)為是衡量信息量(也即編碼需要的 Token 數(shù))的關(guān)鍵。

香農(nóng)經(jīng)典的編碼定理說明,當(dāng)這一原則被嚴(yán)格遵循時,總體表示成本將達(dá)到理論最優(yōu)。研究團(tuán)隊將這一原則嚴(yán)格推廣到了視頻分詞場景:



定理(最優(yōu)自適應(yīng)分詞):T 為任意碼本大小為 C 的分詞器;N_x 為分配給視頻 x 的 Token 數(shù)量;p(x) 為數(shù)據(jù)分布下視頻 x 的概率。期望 Token 數(shù)以熵為下界,且理想情況下可以達(dá)到。





Huffman 編碼類比:在字母編碼中,Huffman 編碼為高頻字母分配短碼——同樣的原則應(yīng)當(dāng)應(yīng)用于視頻 Token 的分配。

回到上面的視頻示例:純白邊框是高度可預(yù)測的 —— 幾乎零信息 —— 但固定壓縮率分詞器卻對它們投入了與動態(tài)內(nèi)容等量的 Token。這正是低效的根源:它違反了高效壓縮最基本的原則。

方法:從理論到實(shí)踐

理論告訴我們最優(yōu)分詞應(yīng)該自適應(yīng)地匹配每段視頻的信息量。但落地時面臨兩個具體問題:

1.該分配多少 Token?定理說答案取決于 p (x),但我們無法直接計算視頻的真實(shí)似然概率。如何在實(shí)踐中估計合適的 Token 數(shù)量?

2.確定數(shù)量后如何編碼?標(biāo)準(zhǔn)分詞器產(chǎn)生固定長度序列。我們需要一種能壓縮到可變數(shù)量 Token 并且仍然重建良好的架構(gòu)。

InfoTok 用兩個對應(yīng)的組件解決了這兩個挑戰(zhàn):ELBO 路由器(決定分配多少 Token)和自適應(yīng)壓縮器(執(zhí)行變長編碼)。二者作為即插即用插件,架設(shè)在任何現(xiàn)有固定壓縮率分詞器(本文使用 NVIDIA 推出的 Cosmos Tokenizer)之上。



InfoTok 框架總覽:路由器根據(jù)視頻復(fù)雜度決定 Token 數(shù)量 N_x;自適應(yīng)壓縮器將固定長度嵌入轉(zhuǎn)換為 N_x 個離散 Token。

ELBO 路由器:讓信息復(fù)雜度自動 "定價"

雖然我們無法直接計算 p (x),但可以計算其證據(jù)下界(ELBO)—— 一個可計算的代理指標(biāo),用于衡量視頻在基礎(chǔ)分詞器下的 "可預(yù)測性"。這引出了一個關(guān)鍵的理論結(jié)果:



定理(InfoTok 的近最優(yōu)性):如果使用基于 ELBO 的路由器并最小化重建損失來訓(xùn)練,期望 Token 數(shù)以熵為界,差距項(xiàng)在 ELBO 緊致時趨于零。

直白地說:使用 ELBO 來決定 Token 數(shù)量,可以實(shí)現(xiàn)近最優(yōu)的壓縮效果。 映射關(guān)系非常直觀:

  • ELBO 高(內(nèi)容可預(yù)測 / 簡單場景) → 分配更少 Token
  • ELBO 低(內(nèi)容復(fù)雜 / 出乎意料) → 分配更多 Token

具體來說,路由器的計算公式為:





其中 β 控制平均壓縮水平。最關(guān)鍵的優(yōu)勢在于:ELBO 可以直接從任何預(yù)訓(xùn)練的分詞器中廉價計算得到,無需額外模型。

自適應(yīng)壓縮器:變長序列的智能打包

路由器確定了 Token 預(yù)算 N_x 后,基于 Transformer 的自適應(yīng)壓縮器負(fù)責(zé)將固定長度的嵌入智能地 "打包" 進(jìn)變長的 Token 序列中。具體而言,他會動態(tài)地要求輸出時信息量低的 Token 位置被省略,并通過端到端網(wǎng)絡(luò)訓(xùn)練將這部分的信息濃縮到一個由路由器事先決定長度的 Token 序列中。

  • 當(dāng)預(yù)算吃緊時,它學(xué)會濃縮精華,每個 Token 承載更多信息;
  • 當(dāng)預(yù)算充足時,它則保留完整細(xì)節(jié),信息分散到更多 Token 中。

需要注意,Token 被省略的位置由于信息量低,經(jīng)過網(wǎng)絡(luò)后信息可以幾乎無損的合并到更短的輸出序列中,此時這些被保留的 Token 的語義將會有所改變 —— 從結(jié)果上看,每個 Token 最后的信息量(也即 p (x) )將會趨于相等,從而實(shí)現(xiàn)壓縮、保真度、語義的平衡。具體的實(shí)現(xiàn)代碼請見論文。

實(shí)驗(yàn)結(jié)果

可視化效果:自適應(yīng)分詞隨場景、時間動態(tài)調(diào)整編碼

以下展示了 InfoTok 在不同場景下生成的 Token 掩碼。每個動圖中:左側(cè)為原始視頻,中間為 InfoTok 的重建視頻(亮區(qū)表示高信息量區(qū)域,被分配了 Token;暗區(qū)表示低信息量區(qū)域,信息被壓縮到其他 Token 中),右側(cè)柱狀圖顯示每幀的 Token 使用率。

第一人稱場景(EgoExo4D 數(shù)據(jù)集):



由于相機(jī)運(yùn)動導(dǎo)致整個畫面都在變化,Token 分布相對均勻 —— 但周圍黑色邊框(相機(jī)視野之外)由于高度可預(yù)測,被完全壓縮掉。

駕駛場景(BDD 數(shù)據(jù)集):



Token 自動集中在移動車輛和道路邊緣,而靜態(tài)的天空和路面幾乎不消耗 Token。

機(jī)器人操作場景(Bridge 數(shù)據(jù)集):



機(jī)械臂和被操作物體處高亮,固定的桌面背景保持黑暗 ——Token 精準(zhǔn)地 "吸附" 在了任務(wù)相關(guān)的區(qū)域。

可視化效果:不同壓縮級別下的重建質(zhì)量

InfoTok 的一個獨(dú)特能力是可以在任意 Token 長度下進(jìn)行分詞,在壓縮率和質(zhì)量之間優(yōu)雅地權(quán)衡。下圖展示了同一段駕駛視頻在五個壓縮級別下的重建效果(從原始到逐步提高壓縮率):



簡單的高速公路場景(背景靜態(tài))即使在極高壓縮下仍保持出色畫質(zhì),而復(fù)雜的交叉路口則需要更多 Token 來保留細(xì)節(jié) —— 這正是自適應(yīng)分詞的價值所在。

定量指標(biāo)

視覺效果令人信服,但數(shù)字是否也支持這一結(jié)論?研究團(tuán)隊在標(biāo)準(zhǔn)視頻重建基準(zhǔn)(TokenBench 和 DAVIS)上進(jìn)行了全面評估,以 Cosmos 分詞器為基礎(chǔ),對比了兩種 InfoTok 變體 ——InfoTok(固定 ELBO 路由器)和 InfoTok-Flex(靈活路由器)—— 與固定壓縮率基線以及基于啟發(fā)式的動態(tài)編碼器 ElasticTok。



實(shí)驗(yàn)結(jié)果:在 TokenBench 和 DAVIS 上對固定長度和自適應(yīng)分詞器的評估。在兩種壓縮級別(0.81 和 0.56)下與 ElasticTok 對比,最佳結(jié)果以粗體標(biāo)注。

關(guān)鍵結(jié)論:InfoTok 可以在節(jié)省 20% Token 的情況下實(shí)現(xiàn)無損重建,在 2.3 倍壓縮率下仍然全面超越 ElasticTok。

更重要的是,基于 ELBO 的路由器在所有壓縮級別上都一致地優(yōu)于啟發(fā)式方法 —— 而非僅在某個特定工作點(diǎn)上:



全面對比:質(zhì)量指標(biāo)(PSNR↑、LPIPS↓、FVD↓)vs. 壓縮率(BPP??),(a-c) TokenBench,(d-f) DAVIS,(g) 推理效率。InfoTok 在所有壓縮級別上全面占優(yōu),同時推理效率顯著更高(快 11 倍)。

結(jié)語與展望

InfoTok 證明了在 AI 飛速發(fā)展、大模型無所不能的今天,我們?nèi)钥梢詮慕?jīng)典信息論中汲取靈感大幅優(yōu)化 AI 效率。通過用基于 ELBO 的路由器替代啟發(fā)式壓縮策略,InfoTok 以更少的 Token 實(shí)現(xiàn)了更好的重建質(zhì)量 —— 并且在現(xiàn)有分詞器之上僅需極小的額外開銷。

研究團(tuán)隊指出了幾個令人期待的未來方向:

  • 連續(xù) Token:InfoTok 當(dāng)前工作在離散 Token 空間。然而,其信息論框架同樣適用于連續(xù)潛在表示 —— 自適應(yīng)地分配潛在維度或通道。這有望彌合離散分詞器(用于自回歸模型)與連續(xù) VAE 編碼器(用于擴(kuò)散模型)之間的鴻溝,提供統(tǒng)一的自適應(yīng)壓縮框架。
  • 下游視頻生成:將自適應(yīng)分詞深度整合進(jìn)視頻生成管線,讓變長 Token 序列同時帶來質(zhì)量和效率的提升。
  • 超越視頻:InfoTok 背后的信息論原則并不局限于視頻 —— 圖像、3D 場景、多模態(tài)數(shù)據(jù)同樣存在非均勻的信息密度分布,都可以從自適應(yīng)分詞中獲益。

隨著這一技術(shù)的普及,我們或許離更長、更細(xì)膩、更高效的 AI 視頻生成時代又近了一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
外圍大跌,今天A股靠什么穩(wěn)?

外圍大跌,今天A股靠什么穩(wěn)?

每經(jīng)牛眼
2026-03-30 16:15:59
網(wǎng)約車司機(jī)花1200元把車改成“頭等艙”,收到6000元打賞

網(wǎng)約車司機(jī)花1200元把車改成“頭等艙”,收到6000元打賞

用車指南
2026-03-29 10:01:32
快訊!菲律賓外長宣布了!

快訊!菲律賓外長宣布了!

達(dá)文西看世界
2026-03-30 15:52:01
看懵了!初代iPhone到iPhone 17自拍對比 網(wǎng)友吐槽幾乎一樣

看懵了!初代iPhone到iPhone 17自拍對比 網(wǎng)友吐槽幾乎一樣

安兔兔
2026-03-29 22:03:34
69搶桑蠶絲內(nèi)衣!聚攏有型、舒適,穿一次就上癮,美哭了

69搶桑蠶絲內(nèi)衣!聚攏有型、舒適,穿一次就上癮,美哭了

十點(diǎn)讀書
2026-03-29 18:40:41
藍(lán)莓再次被關(guān)注?研究發(fā)現(xiàn):藍(lán)莓或可在30小時內(nèi)清除體內(nèi)45%因子

藍(lán)莓再次被關(guān)注?研究發(fā)現(xiàn):藍(lán)莓或可在30小時內(nèi)清除體內(nèi)45%因子

垚垚分享健康
2026-03-29 11:55:24
一天被毀21臺梅卡瓦!美媒:以軍遭遇40年來最大損失,瀕臨崩潰!

一天被毀21臺梅卡瓦!美媒:以軍遭遇40年來最大損失,瀕臨崩潰!

軍機(jī)Talk
2026-03-29 14:03:41
油價下跌2.79元/升,近4年最大下降后全漲回來,下次4月7日調(diào)價

油價下跌2.79元/升,近4年最大下降后全漲回來,下次4月7日調(diào)價

豬友巴巴
2026-03-28 15:35:03
鄭麗文4月7日登陸,傅崐萁或?qū)㈦S行,藍(lán)營大佬發(fā)聲,朱立倫尷尬了

鄭麗文4月7日登陸,傅崐萁或?qū)㈦S行,藍(lán)營大佬發(fā)聲,朱立倫尷尬了

愛意隨風(fēng)起呀
2026-03-30 17:34:15
48歲吳佩慈露面,穿小腳褲簡單干練,失去了昔日的貴婦氣質(zhì)

48歲吳佩慈露面,穿小腳褲簡單干練,失去了昔日的貴婦氣質(zhì)

凡知
2026-03-30 09:20:06
十里長街送雪峰,主流媒體集體裝瞎!你們的良心,被流量喂狗了?

十里長街送雪峰,主流媒體集體裝瞎!你們的良心,被流量喂狗了?

老馬拉車莫少裝
2026-03-30 20:30:06
懸念不大了!西部前10最終排名預(yù)測:火箭第6避開湖人,勇士墊底

懸念不大了!西部前10最終排名預(yù)測:火箭第6避開湖人,勇士墊底

小火箭愛體育
2026-03-30 17:05:17
伊朗短信動員全國人準(zhǔn)備“犧牲”

伊朗短信動員全國人準(zhǔn)備“犧牲”

桂系007
2026-03-30 03:16:29
3-2險爆冷,蒯曼賽后回應(yīng)!張本美和狂轟18-16!孫穎莎今晚登場!

3-2險爆冷,蒯曼賽后回應(yīng)!張本美和狂轟18-16!孫穎莎今晚登場!

不似少年游
2026-03-30 16:53:01
好變態(tài)!1090投1000中!92%的命中率炸裂了!

好變態(tài)!1090投1000中!92%的命中率炸裂了!

柚子說球
2026-03-29 17:52:30
美被曝正討論派軍進(jìn)入伊朗提取約450公斤高濃縮鈾

美被曝正討論派軍進(jìn)入伊朗提取約450公斤高濃縮鈾

新京報
2026-03-30 20:38:16
朝鮮經(jīng)濟(jì)落后吃不飽飯,卻能養(yǎng)得起百萬大軍,到底如何做到的?

朝鮮經(jīng)濟(jì)落后吃不飽飯,卻能養(yǎng)得起百萬大軍,到底如何做到的?

世界圈
2026-03-29 02:20:03
阿聯(lián)酋明牌支持美軍,徹底打服伊朗!為什么阿拉伯人不愿中立了?

阿聯(lián)酋明牌支持美軍,徹底打服伊朗!為什么阿拉伯人不愿中立了?

漫步獨(dú)行俠
2026-03-29 18:13:56
被騙160萬,中國老板把日本公司掛閑魚!被7萬人圍觀后,對方慌了

被騙160萬,中國老板把日本公司掛閑魚!被7萬人圍觀后,對方慌了

行者聊官
2026-03-30 12:46:28
美國也沒想到,轉(zhuǎn)為中國籍僅6年,谷愛凌竟已成美國頭號勁敵

美國也沒想到,轉(zhuǎn)為中國籍僅6年,谷愛凌竟已成美國頭號勁敵

削桐作琴
2026-02-25 18:15:14
2026-03-30 21:08:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12640文章數(shù) 142599關(guān)注度
往期回顧 全部

科技要聞

一句謊言引發(fā)的硅谷血案

頭條要聞

中國向能源緊缺的東南亞國家出口柴油等燃料 官方回應(yīng)

頭條要聞

中國向能源緊缺的東南亞國家出口柴油等燃料 官方回應(yīng)

體育要聞

想進(jìn)世界杯,意大利還要過他這一關(guān)

娛樂要聞

單依純凌晨發(fā)長文道歉!李榮浩再回應(yīng)

財經(jīng)要聞

本輪地緣沖突,A股憑什么走出獨(dú)立行情

汽車要聞

限時12.58萬起 銀河星耀8遠(yuǎn)航家系列上市

態(tài)度原創(chuàng)

游戲
房產(chǎn)
健康
家居
手機(jī)

四月PS新會免游戲爆料!類魂與二次元雙大作領(lǐng)銜

房產(chǎn)要聞

重磅!番禺20宗涉宅地亮相,萬博CBD宅地將上新!

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

家居要聞

東方法式美學(xué) 現(xiàn)代簡約

手機(jī)要聞

vivo推出Y500s手機(jī):驍龍4 Gen 2,1799元起

無障礙瀏覽 進(jìn)入關(guān)懷版