国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

記得住、答得快、用得?。篐ERMES 流式視頻理解實(shí)時(shí)響應(yīng)提速10倍

0
分享至



復(fù)旦大學(xué)、上海創(chuàng)智學(xué)院與新加坡國立大學(xué)聯(lián)合提出HERMES,一個(gè)面向流式視頻理解的免訓(xùn)練 (training-free)框架。它將 KV Cache 重新建模為層次化記憶系統(tǒng),在用戶提問到來時(shí)無需額外檢索或輔助計(jì)算,就能直接復(fù)用緩存進(jìn)行回答。

在多項(xiàng)流式與離線視頻基準(zhǔn)上的實(shí)驗(yàn)表明,HERMES 在相較均勻采樣減少 68% 視頻 token的情況下,仍能取得可比甚至更優(yōu)的理解性能;在流式數(shù)據(jù)集上最高帶來11.4%的增益, 并實(shí)現(xiàn)最高10倍 (10×)的首個(gè) token 生成時(shí)間 (TTFT) 加速。

在現(xiàn)實(shí)世界中,人類理解視頻流并不是把所有畫面一股腦 “存下來” 再慢慢分析。看一場直播、盯一段監(jiān)控、觀察一臺正在運(yùn)轉(zhuǎn)的機(jī)器人時(shí),我們會自然地把剛發(fā)生的內(nèi)容保留在注意力前沿,同時(shí)把更早但更關(guān)鍵的線索壓縮進(jìn)長期記憶里。等到有人發(fā)問時(shí),我們往往可以立刻回答,而不需要重新把整段過程回放一遍。

然而,現(xiàn)有多模態(tài)大語言模型在離線視頻理解上已經(jīng)取得了顯著進(jìn)展,一旦進(jìn)入流式視頻場景,卻常常陷入三難困境:既要保持理解性能穩(wěn)定,又要做到實(shí)時(shí)響應(yīng),還要把 GPU 顯存開銷壓在可部署范圍內(nèi)。已有方法中,一部分會把歷史視頻內(nèi)容轉(zhuǎn)存到外部 CPU、磁盤或數(shù)據(jù)庫中,等用戶提問時(shí)再額外檢索和重建上下文;另一部分雖然嘗試直接壓縮緩存,卻往往缺乏細(xì)粒度管理和可解釋性。

現(xiàn)在,這個(gè)問題有了一個(gè)更優(yōu)雅的答案。研究團(tuán)隊(duì)提出HERMES(KV Cache as HiERarchical Memory for Efficient Streaming Video Understanding,ACL-2026),不再把 KV Cache 視作一個(gè)被動的中間產(chǎn)物,而是把它看作視頻流理解中的層次化記憶系統(tǒng)。在這一視角下,緩存不僅可以被壓縮,更可以被 “管理”。目前,該工作已被 ACL 2026 主會錄用。



  • 論文標(biāo)題:HERMES:KV Cache as HiERarchical Memory for Efficient Streaming Video Understanding
  • 論文地址: https://arxiv.org/pdf/2601.14724
  • 代碼地址: https://github.com/haowei-freesky/HERMES
  • 項(xiàng)目主頁: https://hermes-streaming.github.io/

從離線理解到流式理解:

為什么這個(gè)問題這么難?

傳統(tǒng)離線視頻理解默認(rèn) “視頻已經(jīng)完整給出”,模型可以在統(tǒng)一采樣后一次性編碼、一次性回答。但流式視頻完全不同:未來幀未知,用戶問題未知,視頻時(shí)長也可能持續(xù)增長。這意味著模型無法提前知道哪些片段最重要,也不能把每一幀都永遠(yuǎn)保存在 GPU 中。

過去的方法大多在兩條路之間搖擺:

依賴外部記憶。把歷史視頻內(nèi)容以文本描述 (caption)、視覺特征塊 (patch) 或 KV 狀態(tài)形式轉(zhuǎn)移到 CPU、磁盤或數(shù)據(jù)庫里,等提問時(shí)再檢索回來。這類方法的主要問題是延遲高,而且會引入額外計(jì)算鏈路。

直接復(fù)用內(nèi)部緩存。把 KV Cache 當(dāng)作模型內(nèi)部記憶來使用,理論上更適合低延遲場景;但如果沒有精細(xì)的保留與淘汰機(jī)制,緩存很快就會被不斷增長的視頻流擠爆,或者在壓縮過程中丟失真正關(guān)鍵的信息。

換句話說,流式視頻理解真正缺的,不只是 “更小的緩存”,而是一套更接近人類記憶組織方式的緩存管理機(jī)制。



圖 1:HERMES 概念圖。左側(cè)展示了其將 KV Cache 視作層次化記憶系統(tǒng)的整體框架;右側(cè)則展示了不同層的注意力偏好與效率測試結(jié)果。

HERMES:把 KV Cache 變成分層視頻記憶

HERMES 最有啟發(fā)性的地方,在于它不是從工程經(jīng)驗(yàn)出發(fā)硬做壓縮,而是先通過注意力機(jī)制分析,去觀察不同解碼層到底更偏好什么樣的視頻信息。研究團(tuán)隊(duì)發(fā)現(xiàn),在流式輸入下,不同層實(shí)際上天然呈現(xiàn)出不同的 “記憶分工”。

一個(gè)關(guān)鍵洞察:不同層,關(guān)注的是不同粒度的信息

研究發(fā)現(xiàn),淺層、中層和深層對視頻 token 的偏好并不相同:

淺層像感官記憶。它們對最新到來的幀有明顯的近期偏好 (recency bias),更關(guān)心 “剛剛發(fā)生了什么”。

中層像工作記憶。它們會在近期信息和更早的語義信息之間做平衡,承擔(dān)承上啟下的過渡作用。

深層像長期記憶。它們不再單純偏向最近幀,而是會周期性地鎖定一些幀級 “錨點(diǎn)” token,用來保留更長時(shí)間跨度上的關(guān)鍵語義。



圖 2:不同層對流式視頻 token 的注意力偏好。淺層更關(guān)注最近 token,深層更傾向于捕捉具有節(jié)奏性的幀級錨點(diǎn),中層則承擔(dān)過渡作用。

這意味著,KV Cache 并不是一個(gè) “各層同質(zhì)” 的存儲池,而天然更像一個(gè)由感官記憶、工作記憶和長期記憶組成的層次化系統(tǒng)。HERMES 正是基于這一點(diǎn),重新設(shè)計(jì)了流式視頻緩存的保留策略。

方法三件套:分層管理、跨層平滑、位置重索引



圖 3:HERMES 方法總覽圖。包括 “分層 KV Cache 管理”、“跨層記憶平滑” 和 “位置重索引” 三大關(guān)鍵組件。

圍繞 “KV Cache 是層次化記憶” 這一核心認(rèn)識,HERMES 構(gòu)建了三大關(guān)鍵組件:

1. 分層 KV Cache 管理(Hierarchical KV Cache Management)

HERMES 不再對所有層采用統(tǒng)一的淘汰策略,而是按層分配不同保留邏輯。淺層主要按時(shí)間新近性保留 token;深層則更多依據(jù)對用戶查詢的注意力重要性來保留幀級錨點(diǎn);中層通過對 “新近性” 和 “注意力分?jǐn)?shù)” 做插值,在二者之間取得平衡。

2. 跨層記憶平滑(Cross-Layer Memory Smoothing)

如果每一層都獨(dú)立淘汰 token,就容易出現(xiàn)不同層在同一緩存位置上 “記的不是同一個(gè)東西” 的問題。HERMES 通過從深層向淺層傳播重要性信號,對跨層記憶進(jìn)行平滑,讓多層緩存之間保持更一致的視覺記憶結(jié)構(gòu)。

3. 位置重索引(Position Re-Indexing)

隨著流式輸入不斷累積,token 的位置索引會越來越大,最終逼近模型支持的上限,影響生成質(zhì)量。HERMES 通過位置重索引,把保留下來的 token 重新映射到連續(xù)位置區(qū)間中;在流式任務(wù)上使用更省算力的惰性重索引 (lazy re-indexing),在離線長視頻評測上則使用更穩(wěn)定的即時(shí)重索引 (eager re-indexing)。

這三步結(jié)合起來,讓 HERMES 能在不依賴額外訓(xùn)練、不需要查詢時(shí)外部檢索的前提下,直接復(fù)用一份緊湊而有效的緩存,支撐實(shí)時(shí)視頻問答。

實(shí)驗(yàn)結(jié)果:HERMES 不只是更快,

還在多個(gè)基準(zhǔn)上更穩(wěn)更準(zhǔn)

主結(jié)果:在流式視頻基準(zhǔn)上顯著領(lǐng)先 training-free 基線

研究團(tuán)隊(duì)在StreamingBench、OVO-Bench、RVS-Ego、RVS-Movie等多個(gè)流式視頻任務(wù)上進(jìn)行了系統(tǒng)評估。結(jié)果顯示,HERMES 不僅超過了對應(yīng)的基礎(chǔ)模型,也普遍優(yōu)于現(xiàn)有 training-free 的 offline-to-online 方法。

以Qwen2.5-VL-7B為例,在僅使用4K video tokens的情況下,HERMES 在 StreamingBench 上達(dá)到79.44%,相較基座模型的73.31%提升6.13個(gè)點(diǎn);在綜合平均指標(biāo)上達(dá)到59.21%,相比基座模型的52.28%提升6.93個(gè)點(diǎn)?;赒wen2.5-VL-32B的 HERMES 版本則進(jìn)一步將綜合平均表現(xiàn)提升到64.82%。



圖 4:StreamingBench 與 OVO-Bench 上的主結(jié)果。HERMES 在眾多 offline-to-online 方案中表現(xiàn)突出,并在不同底座模型上均能穩(wěn)定提升。

在開放式流式問答任務(wù)上,HERMES 同樣展現(xiàn)出更細(xì)粒度的時(shí)序與空間理解能力,在RVS-Ego和RVS-Movie上相較基礎(chǔ)模型最高可提升11.4%,說明其優(yōu)勢不僅體現(xiàn)在多選題上,也體現(xiàn)在更接近真實(shí)使用場景的開放問答中。

效率優(yōu)勢:查詢到來時(shí) “實(shí)時(shí)開口”

如果說準(zhǔn)確率證明了 HERMES “記得住”,那么效率實(shí)驗(yàn)證明了它 “答得快”。由于 HERMES 在用戶提問到來時(shí)不需要額外檢索或輔助計(jì)算,它可以直接在現(xiàn)有緩存上完成回答,這一點(diǎn)對流式交互尤為關(guān)鍵。

在基于LLaVA-OV-7B、4K-token memory budget的測試中,HERMES 在不同輸入幀數(shù)下都保持了穩(wěn)定的顯存占用與極低的 TTFT。論文顯示,在16、64、256幀輸入下,其 TTFT 分別約為27 ms、29 ms、28 ms;在256 幀設(shè)置下,相比此前的 SOTA 方法StreamingTOM,HERMES 實(shí)現(xiàn)了約10×的 TTFT 加速。



圖 5:效率對比結(jié)果。隨著輸入幀數(shù)增加,HERMES 仍能保持穩(wěn)定的 GPU 顯存占用和極低的 Time To First Token (TTFT)。

更重要的是,這種速度優(yōu)勢不是靠犧牲緩存上限換來的。HERMES 在固定緊湊顯存預(yù)算下持續(xù)工作,避免了隨視頻流增長而不斷抬升的顯存壓力,更適合真實(shí)部署中的長期在線場景。

更少 token,不代表更差理解

HERMES 的另一個(gè)重要意義在于,它證明了流式視頻理解并不一定依賴 “保存盡可能多的幀”。論文指出,相比均勻采樣方案,HERMES 最多可減少68%的視頻 token,但依然能在多個(gè)流式和離線基準(zhǔn)上保持競爭力。

在離線視頻任務(wù)上,HERMES 并沒有因?yàn)槊嫦蛄魇綀鼍霸O(shè)計(jì)而犧牲泛化性。以LLaVA-OV-7B為基座時(shí),HERMES 在Egoschema和VideoMME上分別達(dá)到 60.29% 和 49.22%,高于基座模型;在MVBench上則取得與基座相當(dāng)?shù)慕Y(jié)果。這說明它不僅適用于持續(xù)在線的視頻流,也具備向更廣泛長視頻理解任務(wù)遷移的能力。



圖 6:不同 memory budget 下的性能變化。實(shí)驗(yàn)表明,HERMES 在約 4K memory budget 左右已經(jīng)能在流式與離線任務(wù)間取得較好平衡。

從消融實(shí)驗(yàn)可以看到,HERMES 的提升并非來自單一技巧,而是來自一整套協(xié)同設(shè)計(jì):分層緩存管理決定 “留什么”,跨層記憶平滑解決 “不同層是否記一致”,位置重索引保證 “長流式輸入下還能穩(wěn)定生成”。這些模塊共同構(gòu)成了它的性能與效率優(yōu)勢。


為什么 HERMES 值得關(guān)注?

HERMES 的價(jià)值,不只是又一個(gè)在榜單上更高分的方法,更在于它為流式視頻理解提供了一種更自然的系統(tǒng)設(shè)計(jì)思路。

它更接近真實(shí)部署需求。對于視頻助手、機(jī)器人、智能安防、車載系統(tǒng)等場景來說,用戶不會等待模型重新檢索長上下文再開始作答。HERMES 把 “實(shí)時(shí)響應(yīng)” 放在架構(gòu)設(shè)計(jì)的中心位置,這一點(diǎn)非常關(guān)鍵。

它給出了更有解釋性的緩存視角。很多緩存壓縮方法是經(jīng)驗(yàn)性的,而 HERMES 先做機(jī)制分析,再據(jù)此設(shè)計(jì)記憶管理規(guī)則,使 “為什么保留這些 token” 這件事變得更清楚。

它是training-free、plug-and-play的。 論文在 LLaVA-OV 與 Qwen2.5-VL 等不同基礎(chǔ)模型上驗(yàn)證了 HERMES 的通用性,說明它不是與某個(gè)單獨(dú)模型強(qiáng)綁定的工程 patch,而更像一種可遷移的流式理解范式。

未來展望:讓視頻大模型真正走向持續(xù)在線

HERMES 所回答的,不只是 “如何壓縮 KV Cache”,而是 “如何讓視頻大模型以更像記憶系統(tǒng)的方式持續(xù)工作”。從這個(gè)角度看,它為下一代流式多模態(tài)智能體提供了一個(gè)很重要的方向:模型不必在每次回答前重新回看全部歷史,而是應(yīng)該學(xué)會像人一樣,保留最新感知、提煉關(guān)鍵錨點(diǎn)、壓縮長期經(jīng)驗(yàn),并在需要時(shí)迅速調(diào)用。

我們可以預(yù)期,這種思路會在更多實(shí)時(shí)視頻場景中釋放價(jià)值,例如長時(shí)監(jiān)控理解、第一視角視頻助手、機(jī)器人持續(xù)感知、在線教育分析以及人機(jī)實(shí)時(shí)協(xié)作等。隨著流式視頻應(yīng)用不斷增多,像 HERMES 這樣兼顧準(zhǔn)確性、低延遲與低顯存開銷的方法,很可能成為視頻大模型從 “能看視頻” 邁向 “能持續(xù)在線理解視頻” 的關(guān)鍵一步。

作者簡介:

第一作者為復(fù)旦大學(xué)一年級博士生張浩威和南京大學(xué)本科生楊樞棟;合作者包括新加坡國立大學(xué) See-Kiong Ng 教授;通訊作者為復(fù)旦大學(xué)計(jì)算與智能創(chuàng)新學(xué)院青年研究員傅金蘭與邱錫鵬教授。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點(diǎn)
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來 | 伊朗的反應(yīng)為何如此激烈

偉偉道來 | 伊朗的反應(yīng)為何如此激烈

經(jīng)濟(jì)觀察報(bào)
2026-05-06 11:40:46
吳宜澤透露拿到獎金后準(zhǔn)備在英國買房,50萬英鎊獎金需交稅超23萬鎊,實(shí)際到手約26.5萬鎊

吳宜澤透露拿到獎金后準(zhǔn)備在英國買房,50萬英鎊獎金需交稅超23萬鎊,實(shí)際到手約26.5萬鎊

大風(fēng)新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個(gè)隱私,是性感嗎?

女性跑步:暴露這個(gè)隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

懂球帝
2026-05-05 19:39:09
在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒一個(gè)在出現(xiàn)場

在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒一個(gè)在出現(xiàn)場

侃故事的阿慶
2026-05-06 09:21:32
被延長的搶救時(shí)間,被卡住的工傷認(rèn)定

被延長的搶救時(shí)間,被卡住的工傷認(rèn)定

新京報(bào)
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動筷子

畫夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說故事的阿襲
2026-05-05 20:20:30
8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當(dāng)?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報(bào)
2026-05-06 12:38:05
中美同時(shí)向全球下達(dá)禁令,各國都傻眼了!美媒:中國此舉史無前例

中美同時(shí)向全球下達(dá)禁令,各國都傻眼了!美媒:中國此舉史無前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

男子購百萬保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

頭條要聞

男子購百萬保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個(gè)人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財(cái)經(jīng)要聞

人形機(jī)器人七小龍:誰真能賣 誰在講故事?

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

教育
本地
數(shù)碼
健康
時(shí)尚

教育要聞

六條邏輯主線替代四個(gè)大概念,反映了怎樣的理念? | 高中課標(biāo)修訂解讀⑥

本地新聞

用青花瓷的方式,打開西溪濕地

數(shù)碼要聞

七彩虹戰(zhàn)斧B860M超級黑刃主板圖賞:899元的“千元旗艦”

干細(xì)胞治燒燙傷面臨這些“瓶頸”

卷首語|這屆年輕人,全員渡劫奧德賽

無障礙瀏覽 進(jìn)入關(guān)懷版