国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

對話靈感實驗室:Glint-MVT v2.0 統(tǒng)一圖像和視頻,助力提升VLM視頻分析效率與能力

0
分享至

出品 | 網(wǎng)易科技《態(tài)度》欄目

作者 | 紀川

編輯 | 定西

世界不是由一張張靜態(tài)圖片組成的,而是連續(xù)流動的視頻。

但在過去很長一段時間里,AI 處理視頻的方式卻顯得極其笨拙:先把視頻解壓成一幀幀圖片,再像翻連環(huán)畫一樣去理解。這種行業(yè)慣例帶來了巨大的算力浪費——畢竟,視頻中90% 的信息都是冗余的背景。

既然視頻本身就是被壓縮過的,為什么非要把它解壓成圖片再分析?這種多此一舉的行業(yè)慣例,是不是可以被打破?

帶著這個問題,靈感實驗室新一代視覺基礎模型Glint-MVT v2.0(以下簡稱MVT v2.0)選擇了一條“少有人走的路”——圖像和視頻統(tǒng)一編碼,通過視頻編碼在壓縮域進行高效分析——這正是MVT v2.0的核心突破。

MVT v2.0利用視頻編碼自帶的運動矢量Motion Vector和殘差(Residual)信息,生成了一張“信息量熱圖”。模型只保留那些包含關鍵動作或細節(jié)變化的Patch(圖像塊),而將背景等低信息量的部分直接丟棄。

這一策略直接減少了 90% 的冗余 Token

“說到底,我們只是利用了視頻編碼的原理,不再把那些冗余找回來。”靈感實驗室負責人馮子勇解釋道。但這看似簡單的邏輯轉換,卻帶來極大的能力提升:在全幀率分析下,MVT v2.0 的推理速度提升了 ;任務表現(xiàn)方面,將Glint-MVT v2.0用作VideoLLM的視覺編碼器,在MVBench、VideoMME、Percepton Test等視頻基準上超過Google SigLIP2。

Glint-MVT v2.0任務的表現(xiàn)

然而,這場突圍并非一蹴而就。

如果把時間軸拉回幾年前,這支專注底層視覺編碼的團隊其實更像是一群在快車道旁默默修路的人。

 2023 年發(fā)布Glint-MVT v1.0 開始,靈感實驗室一直在探索視覺和多模態(tài)領域的技術創(chuàng)新。在 v1.0 階段,為了給億張無標注圖片打上偽標簽,他們采用標簽采樣方法來解決噪聲問題;到了v1.1,為了突破單標簽的限制,他們優(yōu)化了損失函數(shù),讓模型學會一眼看多物;再到v1.5 版本,通過引入專家模型和OCR,把模型對局部細節(jié)和文字特征的理解能力拉到了新高度。

Glint-MVT系列論文:

1.0:Unicom: Universal and Compact Representation Learning for Image Retrieval

1.1:Multi-label Cluster Discrimination for Visual Representation Learning

1.5:Region-based Cluster Discrimination for Visual Representation Learning

正是一步步的技術積累,才讓他們最終在MVT v2.0 階段打破了圖像與視頻的界限,走通了這條高效分析之路。

以下是網(wǎng)易科技與靈感實驗室團隊(以下簡稱“靈感”)的對話,經(jīng)不改變原意的編輯。

統(tǒng)一圖像與視頻人們看到的世界是視頻,而不是靜態(tài)圖片

網(wǎng)易科技:簡單介紹一下Glint-MVT,從1.01.5版本大概是一個什么樣的情況?這次2.0版本最大的升級是什么?

靈感:1.0、1.11.5版本,MVT視覺模型基座的關注點都在圖片上,1.x系列都定義在圖像領域。

我們在v1.0v1.1時關注的是怎么訓練一個好的圖像編碼器(Encoder)。到了v1.5,我們的重點方向是細粒度,也就是提升局部區(qū)域的表征。結果發(fā)現(xiàn)到2025年三四月份,各種各樣的模型基本上都是針對這個點來做的,競爭非常激烈。再往下做,只能像大廠那樣堆資源,對我們來說相對困難。

所以,我們決定在v2.0做一次較大升級。MVT v2.0最大的創(chuàng)新性在于統(tǒng)一支持圖像和視頻,把視頻加進來,統(tǒng)一在一個Encoder里面。

Glint-MVT v2.0方法示意圖

網(wǎng)易科技:對于你們來說,參與 MVT v2.0 的過程中最興奮的一個瞬間是什么?

靈感:第一次聽到基于 Codec(編解碼)輸入的結果還可以的時候,那個瞬間最興奮。

因為做統(tǒng)一支持圖像和視頻視覺編碼器的人還是比較少的,而且我們想顛覆的是把視頻變成圖片流這樣一種根深蒂固的觀念。在這條路上,沒有太多前人的工作可借鑒。當驗證結果出來,說明這個路線是可行的,這給了我們很大的鼓舞。

網(wǎng)易科技:當前主流做法仍是分別訓練圖像和視頻模型。你們選擇研發(fā)圖像和視頻統(tǒng)一的視覺編碼器,這個想法是在什么契機下產(chǎn)生的?是為了解決業(yè)務痛點,還是純粹的技術推演?

靈感:這個想法是幾個方向逐步凝聚在一起,慢慢萌生出來的。既有業(yè)務痛點的驅(qū)動,也有對技術本質(zhì)的思考。

首先,從業(yè)務痛點來看,視頻分析在我們的業(yè)務(如安防、銀行、體育動作識別等場景)中占據(jù)重要地位。

長期以來,行業(yè)慣例是把視頻解碼為一幀幀圖片單獨分析。但這存在一個問題:我們拿到的視頻本來就是被壓縮過的,壓縮后的體積可能只有原來的十分之一,說明大量冗余已經(jīng)被剔除了。但慣有做法是把冗余解壓回來再分析,這不僅浪費算力,而且性能強依賴于解碼器性能和內(nèi)存帶寬。既然視頻本身的信息量是滿的,為什么不能直接在壓縮域上做分析?

其次,從技術推演來看,圖像編碼器這個賽道已經(jīng)卷到基本沒有空間了,技術發(fā)展必然會轉向視頻分析。

最后,從第一性原理來看,我們看到的世界從來都是視頻,不是靜態(tài)圖片。我們的空間推理和事件推理都是構建在視頻之上的。圖片本質(zhì)上是靜態(tài)的視頻,所以視頻是可以包含圖片的。MVT v2.0 就是基于這樣的思考。

削減90% 視頻Token:只保留“最有信息量”的 Patch

網(wǎng)易科技:我看到一個數(shù)字,MVT v2.0利用視頻編碼信息減少了90%token數(shù)量。這意味著什么?請用更通俗的方式解釋,這是如何實現(xiàn)的?

靈感:90%的減少,是通過只保留最有信息量Patch(圖像塊)實現(xiàn)的。

視頻編碼器在壓縮視頻時,會自動產(chǎn)生兩種非常寶貴的信號:

·MV(運動矢量) 告訴我們哪些塊在動、怎么動。

·Residual(殘差) 告訴我們哪些地方預測不準、哪里有細節(jié)和邊緣的變化。

我們將 MV Residual 融合成一張信息量熱圖,熱越高,表示這個區(qū)域越可能包含關鍵動作或關鍵細節(jié)。然后,我們在每幀只保留一個固定預算的 Top-k 關鍵Patch,把剩余大部分低信息量的Patch 直接扔掉,不再變成Token 輸入。所以,Token 從全量覆蓋變成了預算可控的稀疏輸入,90% 的削減就是這樣來的。

比如固定攝像頭的監(jiān)控視頻,很多背景是不動的。說到底,視頻流在傳輸時,冗余部分已經(jīng)被扔掉了,否則帶寬扛不住。我們只是利用這個原理,不再把那些冗余找回來,直接對變化的部分做分析。

網(wǎng)易科技:如此大幅度的 Token 削減,如何保證不丟失關鍵信息?在實現(xiàn)效率提升的過程中,你們面臨的最大權衡是什么?

靈感:我們能在大幅降 Token 的同時盡量保住關鍵信息,核心在于兩點:

第一,我們刪掉的不是隨機內(nèi)容,而是低信息量內(nèi)容。MV Residual 本身就是編碼器為了壓縮而標記出的變化難預測細節(jié)。它天然在提醒我們:哪里更值得花比特,也就更值得讓模型花算力。因此我們優(yōu)先保留的區(qū)域,往往正是主體動作、交互區(qū)域這些理解視頻最關鍵的地方。

第二,我們做了防止誤選的處理。例如,我們會做全局相機運動補償,把鏡頭平移或抖動造成的整體運動扣掉,避免背景因為鏡頭運動被誤認為很重要,從而把有限的預算更集中在真實運動的主體上。同時MV Residual 是互補的,融合后更穩(wěn)。

自左向右分別為:原始視頻、均勻幀采樣(常規(guī)用法)、時間顯著性檢測、類編解碼器風格的塊提取

網(wǎng)易科技:在大模型參數(shù)量越來越大的今天,你們似乎在追求一種更輕量、更高效的表達方式。這是否代表你們對未來視覺模型發(fā)展方向的一種不同判斷?

靈感: 覺得參數(shù)量擴大是否能帶來更好的性能,或者說能好多少,這才是本質(zhì)。我們其實是在追求性價比。

如果在這個規(guī)模下性能已經(jīng)很不錯了,再往后堆參數(shù)需要耗費巨大的資源但提升不顯著,那就不值得。

MVT v2.0 中視頻的表達直接來源于視頻Codec,這是基于我們對視頻本質(zhì)的理解——圖片流本身就是冗余的。我們不盲目追求大參數(shù),而是追求更本質(zhì)、更高效的表達。

網(wǎng)易科技:了解到 MVT v2.0 可以應用于VLM(視覺語言模型)。這是否意味著它的目標是成為下一代多模態(tài)大模型的視覺編碼器?與目前主流的VLM 視覺編碼器相比,優(yōu)勢體現(xiàn)在哪里?

靈感:是的,我們內(nèi)部已經(jīng)驗證了它作為 VLM 視覺底座的效果。與目前主流的模型相比,優(yōu)勢主要體現(xiàn)在:

·性能上:在全幀率分析的情況下,我們能提速 5。

·效果上:視頻理解任務效果超過了 SigLIP2。

·功能上:原生支持全幀率和高速運動分析,這是傳統(tǒng)抽幀方案很難做到的。

技術好奇心與野心探索視覺特征表達的新路徑

網(wǎng)易科技:這項技術突破,最先會應用到哪些產(chǎn)品或解決方案中?

靈感:像安防或銀行的視頻分析產(chǎn)品中,立刻就可以應用。因為 MVT v2.0 可以進行全幀率分析,像打斗、快速奔跑等這些快速動作的識別,以前因為算力限制很難做全幀率,現(xiàn)在都可以應用上了。

此外,我們認為凡是涉及快速運動、高幀率視頻分析的場景都可以受益,比如具身智能(機器人需要實時感知和響應動作變化)。

網(wǎng)易科技:回看MVT1.01.5再到現(xiàn)在的2.0,這條技術路線上,有沒有哪個階段是團隊感到最迷茫的?

靈感:是在 1.5 版本推出之前。

v1.0 v1.1 的時候,做這個方向的工作還不是很多,我們也就是自己探索,預期沒那么高,結果出來得也快。但到了1.5 階段(大概2025年初),我們明顯感覺到同類型的工作不停地發(fā)表,競爭變得非常激烈,同時也有其他訓練方法(如 MAE、圖文對比學習)的沖擊。那時候壓力很大,只能一點一點往前推。

很幸運的是,后來MVT v1.5 ICCV 2025(國際計算機視覺大會)錄用了,這給了我們很大的信心,做v2.0 的時候底氣就更足了。

網(wǎng)易科技:現(xiàn)在的AI人才市場非常瘋狂。比較好奇靈感實驗室的成員是一群什么樣的人?

靈感:我們的團隊成員大多覺得視覺特征表達還有其他的路徑,不一定是大廠所定義的那樣。大家有一種純粹的技術好奇心,想去探索不一樣的路。這有點像在 GPT-3 出來之前,大家主要用的還是BERT,但最后證明GPT 這條路是對的。

公司也支持我們?nèi)ヌ剿鬟@種非共識的、偏底層的研究。

網(wǎng)易科技:靈感實驗室的下一步技術演進方向是什么?

靈感:2.0版本只是個開始,剛把這個點做通了,但離做得很好還有很長路要走。我們下一步的方向是:

·第一,要更高效,F(xiàn)在雖然利用了流里的信息,但還要經(jīng)過一步處理,希望能做到直接進流、直接分析。

·第二,做流式(Streaming)分析。現(xiàn)在很多VLM是離線分析的,我們希望基于2.0VLM能像看球賽解說一樣,實時進流、實時分析。

·第三,兼容3D重建。像Gaussian SplattingVGGT這種,希望能直接把視頻塞進去就生成3D場景或點云。

更大的野心是,視頻的理解和生成能不能一體化?同一個Encoder既能輸出理解的特征,也能輸出生成的特征。

網(wǎng)易科技:如果用一個詞來形容 MVT v2.0 對當前視覺領域的意義,你們會選哪個詞?

靈感:啟發(fā)。

我們希望能對其他做視覺的研究者有更多的啟發(fā),讓大家看到除了堆參數(shù)、解圖片流之外,還有通過視頻編碼壓縮域進行高效分析這條路,歡迎大家跟我們一起探索。

延伸閱讀
相關推薦
熱點推薦
特大地磁暴爆發(fā)!星鏈衛(wèi)星大量墜落地球,空間站航天員該怎么應對

特大地磁暴爆發(fā)!星鏈衛(wèi)星大量墜落地球,空間站航天員該怎么應對

三農(nóng)老歷
2026-01-22 00:17:52
爆冷!國乒新科世界冠軍一輪游 2-3不敵向鵬,德比戰(zhàn)上演窒息對決

爆冷!國乒新科世界冠軍一輪游 2-3不敵向鵬,德比戰(zhàn)上演窒息對決

好乒乓
2026-01-22 12:14:06
拋夫棄子遠嫁富商,與刀郎離婚34載后的楊娜,如今竟活成了這樣!

拋夫棄子遠嫁富商,與刀郎離婚34載后的楊娜,如今竟活成了這樣!

火之文
2026-01-20 14:22:24
為什么酒店床上總放四個枕頭?

為什么酒店床上總放四個枕頭?

中國新聞周刊
2026-01-20 21:26:19
贏了官司卻虧到吐血!嫣然醫(yī)院搬家,房東成年度最大笑話!

贏了官司卻虧到吐血!嫣然醫(yī)院搬家,房東成年度最大笑話!

達文西看世界
2026-01-20 13:35:51
獄中,趙一曼的肚子鼓了起來,一旁的敵人拍了拍趙一曼的肚子

獄中,趙一曼的肚子鼓了起來,一旁的敵人拍了拍趙一曼的肚子

嘆為觀止易
2026-01-22 10:30:51
和尚寫了一首詠梅詩,大詩人隨手給改了一個字,便成詠梅千古名作

和尚寫了一首詠梅詩,大詩人隨手給改了一個字,便成詠梅千古名作

長風文史
2026-01-13 11:45:24
別吃!2022年上海水電工垃圾桶撿到上百斤肉,準備享用時被發(fā)現(xiàn)

別吃!2022年上海水電工垃圾桶撿到上百斤肉,準備享用時被發(fā)現(xiàn)

萬象硬核本尊
2026-01-21 18:54:46
金玟哉談紅牌:我確實拉拽了對手,這是一次犯規(guī)

金玟哉談紅牌:我確實拉拽了對手,這是一次犯規(guī)

懂球帝
2026-01-22 08:10:04
利歐股份繼續(xù)跌停

利歐股份繼續(xù)跌停

每日經(jīng)濟新聞
2026-01-22 10:03:19
工信部下達“強制瘦身令”:不達標的新能源車,禁止“出道”

工信部下達“強制瘦身令”:不達標的新能源車,禁止“出道”

DearAuto
2026-01-21 09:52:46
當下,已經(jīng)沒有人愿意好好上班了!

當下,已經(jīng)沒有人愿意好好上班了!

黯泉
2026-01-21 22:52:39
初高中的區(qū)別:初中認真學,成績就不差;高中沒天賦,課都聽不懂

初高中的區(qū)別:初中認真學,成績就不差;高中沒天賦,課都聽不懂

好爸育兒
2026-01-21 22:16:05
澳網(wǎng)女單32強出16席!10位種子+3位大滿貫淘汰,斯瓦泰克被盼奪冠

澳網(wǎng)女單32強出16席!10位種子+3位大滿貫淘汰,斯瓦泰克被盼奪冠

排球黃金眼
2026-01-22 00:56:25
演員馬曉峰患癌后遺癥說話不清,老友王一楠姚安濂家宴探望

演員馬曉峰患癌后遺癥說話不清,老友王一楠姚安濂家宴探望

孤酒老巷QA
2026-01-21 13:52:02
官媒親宣,李現(xiàn)、楊紫同時傳來喜訊,網(wǎng)友恭喜:終于等到這一天

官媒親宣,李現(xiàn)、楊紫同時傳來喜訊,網(wǎng)友恭喜:終于等到這一天

查爾菲的筆記
2026-01-21 19:42:16
有哪些說話給人下套的例子?網(wǎng)友:偏僻叫不到代駕,都給安排明白

有哪些說話給人下套的例子?網(wǎng)友:偏僻叫不到代駕,都給安排明白

夜深愛雜談
2026-01-21 20:01:54
馬克龍涉華表態(tài),中方回應

馬克龍涉華表態(tài),中方回應

環(huán)球時報國際
2026-01-21 16:20:45
若得8+3控衛(wèi),火箭中鋒短板迎刃而解?阿門重回4號位,斯通精明

若得8+3控衛(wèi),火箭中鋒短板迎刃而解?阿門重回4號位,斯通精明

熊哥愛籃球
2026-01-22 13:11:49
俄國客商賒購800臺挖掘機,全廠高管反對,廠長力排眾議出貨

俄國客商賒購800臺挖掘機,全廠高管反對,廠長力排眾議出貨

白云故事
2026-01-06 04:30:03
2026-01-22 13:47:00

科技要聞

幾千億只是開胃菜,AI基建還得再砸?guī)兹f億

頭條要聞

小伙騎車撞特斯拉后貸款賠1.5萬修車費 發(fā)票只開9千元

頭條要聞

小伙騎車撞特斯拉后貸款賠1.5萬修車費 發(fā)票只開9千元

體育要聞

珍妮回應爆料:湖人不感激詹姆斯付出絕非事實

娛樂要聞

鐘麗緹土耳其高空落淚 與張倫碩擁吻

財經(jīng)要聞

申通快遞創(chuàng)始人被前夫索要股份

汽車要聞

今年集中上市 旅行車的春天可能真要來了

態(tài)度原創(chuàng)

游戲
房產(chǎn)
時尚
數(shù)碼
公開課

威世智竊喜?萬智牌新卡包混入3月預定的珍稀卡

房產(chǎn)要聞

那個砸下400億的綠地,又要殺回海南了!

50+女性穿衣沒頭緒?教你3個顯瘦還時髦的思路,照搬就好看

數(shù)碼要聞

當貝耳機Air 1 重磅發(fā)布:行業(yè)首款抗菌耳夾式耳機

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版
×