国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

南大騰訊聯合提出TimeLens,數據+算法全方位升級

0
分享至



隨著多模態(tài)大模型(MLLMs)的飛速發(fā)展,模型已經能夠很好地理解視頻中 “發(fā)生了什么(What)”,卻無法精準地定位到事件在視頻中 “何時發(fā)生(When)”。這種視頻時序定位(Video Temporal Grounding, VTG)能力的嚴重缺陷,已成為制約 MLLM 邁向更精細化的視頻理解的主要瓶頸。

長期以來,大量研究致力于設計復雜的模型結構,卻忽視了兩個關鍵問題:在數據層面,我們依賴的評測基準是否可靠?在算法層面,是否存在一套簡潔通用的最佳實踐?

針對上述痛點,來自南京大學、騰訊 ARC Lab 和上海 AI Lab 的聯合研究團隊提出了TimeLens(時間透鏡),系統性地揭示了現有數據的“評測陷阱”,構建出更可靠的評測基準和高質量訓練數據,并探索出一套簡潔有效的算法優(yōu)化。得益于這些貢獻,僅8B 參數的 TimeLens 模型成為了開源模型中的新 SOTA,更擊敗了 GPT-5 和 Gemini-2.5-Flash 等閉源巨頭。





  • 論文標題:TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs
  • 論文鏈接: https://arxiv.org/abs/2512.14698
  • 項目主頁: https://timelens-arc-lab.github.io/
  • 代碼鏈接: https://github.com/TencentARC/TimeLens

核心洞察:撥開數據質量的迷霧

在深度學習中,“Data is fuel”(數據即燃料)是公認的真理。然而,團隊發(fā)現,在 VTG 領域,燃料的質量卻令人擔憂。

1. 現有基準的 “隱形陷阱”

研究團隊通過一套標注流水線,對 Charades-STA、ActivityNet Captions 和 QVHighlights 等主流基準進行了嚴格的人工核驗,發(fā)現這些基準數據集中充斥著大量的標注錯誤。許多樣本中的文本描述模糊不清,或是文本描述的事件在視頻中根本未出現。標注方面,也存在大量的時間邊界標注錯誤,或是同一描述對應了視頻中的多個片段卻只標注了其中之一(漏標)。統計數據顯示,這些錯誤在現有基準中的比例極高。





2. TimeLens-Bench:對評估結果的“撥亂反正”

為了解決現有數據集中存在的嚴重錯誤,團隊構建了嚴格的標注準則,對上述三個基準數據集進行了全面的修復和重新標注,推出了TimeLens-Bench。這是一個經過嚴格交叉驗證的高質量評測基準,能夠更真實地反映模型的時序定位能力。

將 TimeLens-Bench 和原始 Benchmark 上的評測結果進行對比,揭露了過往評估結果的不可靠—— 舊基準嚴重高估了開源模型的能力,而掩蓋了前沿閉源模型(如 Gemini)的真實水平。TimeLens-Bench 對這一錯誤進行了撥亂反正,事實上,現有開源模型仍明顯落后于閉源模型。



3. 高質量訓練數據:TimeLens-100K

針對同樣低質量的訓練數據,團隊設計了一套自動化流水線,對訓練數據進行了大規(guī)模的清洗和重標,發(fā)布了高質量的大型訓練數據集 TimeLens-100K。實驗證明,數據質量的提升能帶來顯著的性能增長。



算法設計的“最佳實踐”

在夯實數據基礎后,TimeLens 進一步對 MLLM 在 VTG 任務上的算法設計進行了全方位的消融實驗,從時間戳編碼到訓練范式,總結出一套簡潔有效的 “最佳實踐”。

1. 簡潔有效的時間戳編碼

時間戳編碼(timestamp encoding)是 VTG 任務中的關鍵模型結構設計,決定了模型能否準確地感知到輸入的每一視頻幀的采樣時間。

團隊全面地對比了各種時間戳編碼方式的優(yōu)劣。實驗結果表明,最優(yōu)的時間戳編碼方式是簡單的交錯文本編碼(Interleaved Textual Encoding) 策略,即在每一幀的視覺 Token 前插入文本形式的時間戳 token。這種方法無需修改 LLM 的底層架構,保證了實現上的簡潔,同時還能取得最優(yōu)的效果。





2. 訓練范式:Thinking-free RLVR 的勝利

隨著 DeepSeek-R1 等一系列工作的提出,帶有可驗證獎勵機制的強化學習(RLVR)范式在提升模型推理能力方面的作用備受關注。而在 VTG 領域,關于訓練范式的幾個關鍵問題尚無定論:

  • 有監(jiān)督微調(SFT)仍是 VTG 領域最為主流的訓練范式,RLVR 范式在同樣的訓練開銷下,是否明顯優(yōu)于 SFT?
  • 時序定位任務是一個以感知 (Perception) 而非推理 (Reasoning) 為主的任務。針對這樣的任務進行 RLVR 訓練時,顯式的思考過程(thinking)是否是必須的?
  • SFT+RLVR 的多階段訓練,是否比單階段訓練的效果更好?

TimeLens 對比了多種訓練范式的優(yōu)劣。結論出人意料且極具啟發(fā)性:單階段的 Thinking-free RLVR 訓練范式在計算效率和性能上均取得了最優(yōu)。該范式直接讓模型輸出定位結果,并根據定位準確率(IoU)給予獎勵。這種方式不需要生成冗長的中間思考過程,訓練和推理效率高于 Thinking-based RLVR 范式和多階段訓練范式,且性能優(yōu)于 SFT 范式。

這一結果表明,對于時序定位這種偏向感知(Perception-heavy)的任務,顯式的思考過程不是必須的。 模型可以直接學習從任務輸入到輸出的映射,不需要進行復雜的邏輯推理。



3. 關鍵訓練技巧:Early Stopping 與 Difficulty-based Sampling

針對Thinking-free RLVR范式,團隊進行了更加深入的實驗探究,發(fā)現了兩個關鍵的訓練技巧。

首先,與 SFT 中 “訓練越久越好” 的共識不同,在 RL 訓練中,當獎勵指標進入平臺期后,就應該采用早停策略(Early Stopping) 立即停止訓練,在該階段之后繼續(xù)訓練反而會使得模型的性能下降。

其次,基于難度的數據采樣(Difficulty-based Sampling) 至關重要。即使數據的標注質量有保證,也并非所有的數據都適合用于 RLVR 訓練。需要預先使用待訓練的模型進行推理,評估每個訓練樣本的難度,采樣足夠具有挑戰(zhàn)性的樣本進行 RLVR 訓練,才能最大程度上提升模型的性能。



實驗驗證:8B 模型逆襲閉源巨頭

研究團隊將上述數據和算法層面的所有改進聚合在了一起,每一項技術都帶來了明顯的性能提升,最終得到了 TimeLens 系列模型。



評測結果表明,TimeLens-8B 展現出了驚人的性能,不僅大幅超越了 Qwen3-VL 等開源模型成為新的開源 SOTA,更以 8B 的參數量,在多項核心指標上全面擊敗了 GPT-5 和 Gemini-2.5-Flash 等前沿的閉源模型。



這一結果有力地證明了:在 VTG 任務中,通過系統性地提升數據質量并采用有效的算法設計,開源小尺寸模型完全具備挑戰(zhàn)甚至超越閉源大模型的能力。

總結

TimeLens 的貢獻不止于一個 SOTA 開源模型。團隊在數據和算法雙維度的系統性探索,為后續(xù)研究提供了極具參考價值的方法論與設計藍圖。

目前,TimeLens 的代碼、模型、訓練數據和評測基準都已開源,希望能為未來的視頻時序定位研究提供一個更好的起點。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一次違規(guī)吃喝 1人失去生命9人受到嚴肅處理

一次違規(guī)吃喝 1人失去生命9人受到嚴肅處理

極目新聞
2026-01-11 20:46:13
北京輸球揪出最大毒瘤!他上場17分鐘,投籃5中0,下滑太嚴重了

北京輸球揪出最大毒瘤!他上場17分鐘,投籃5中0,下滑太嚴重了

籃球專區(qū)
2026-01-11 21:59:43
格陵蘭島普通百姓:囤糧、存錢,努力保持冷靜,本以為美國是盟友,不料竟成其獵物

格陵蘭島普通百姓:囤糧、存錢,努力保持冷靜,本以為美國是盟友,不料竟成其獵物

紅星新聞
2026-01-11 17:33:21
危險正在逼近波司登

危險正在逼近波司登

功夫財經
2026-01-10 09:13:40
比23億更嚴重:欣旺達或讓數萬海外車主陷入安全隱患

比23億更嚴重:欣旺達或讓數萬海外車主陷入安全隱患

鈦媒體APP
2026-01-11 19:54:44
明搶5000萬桶石油后,特朗普轉頭才發(fā)現:中國連一桶都不肯買了

明搶5000萬桶石油后,特朗普轉頭才發(fā)現:中國連一桶都不肯買了

奇思妙想生活家
2026-01-11 15:03:30
問題到底出在哪里?為什么那么多人不信官方說法…

問題到底出在哪里?為什么那么多人不信官方說法…

慧翔百科
2026-01-10 13:44:32
國運來了誰也擋不??!100年前北洋政府隨手簽的條約,如今贏麻了

國運來了誰也擋不??!100年前北洋政府隨手簽的條約,如今贏麻了

云霄紀史觀
2026-01-09 09:55:07
日網熱搜:日本政府決定拋售7萬億日元中國國債,打擊中國經濟

日網熱搜:日本政府決定拋售7萬億日元中國國債,打擊中國經濟

朔方瞭望
2026-01-11 11:10:46
“年度反腐大片”唐仁健流淚懺悔:建“周末愉快”微信群召集老板吃喝 被留置前晚還在外喝酒

“年度反腐大片”唐仁健流淚懺悔:建“周末愉快”微信群召集老板吃喝 被留置前晚還在外喝酒

紅星新聞
2026-01-11 21:29:38
張本智和被淘汰!3:4不敵林昀儒,無緣冠軍,國乒男單也全軍覆沒

張本智和被淘汰!3:4不敵林昀儒,無緣冠軍,國乒男單也全軍覆沒

國乒二三事
2026-01-11 21:10:53
洋帥首秀!新疆39分狂勝送江蘇8連敗 阿不都15+5+4龐崢麟15分

洋帥首秀!新疆39分狂勝送江蘇8連敗 阿不都15+5+4龐崢麟15分

醉臥浮生
2026-01-11 22:02:00
揚威亞洲!韓媒盛贊U23國足:黃金一代!中國隊真要進世界杯嗎?

揚威亞洲!韓媒盛贊U23國足:黃金一代!中國隊真要進世界杯嗎?

國足風云
2026-01-11 21:49:11
又贏麻了?KK園區(qū)清零?衛(wèi)星圖打臉擴建,媒體宣傳網友不買賬為啥

又贏麻了?KK園區(qū)清零?衛(wèi)星圖打臉擴建,媒體宣傳網友不買賬為啥

眼光很亮
2026-01-11 15:03:16
成都61歲男子將長約17cm紅薯塞入肛門,卡住無法取出,紅薯尺寸過大,最終手術取出

成都61歲男子將長約17cm紅薯塞入肛門,卡住無法取出,紅薯尺寸過大,最終手術取出

觀威海
2026-01-10 16:54:03
燒光500億的“中國寶馬”,引爆2026年第一顆雷

燒光500億的“中國寶馬”,引爆2026年第一顆雷

金錯刀
2026-01-10 20:09:00
鰲太線2死1墜崖事件完整經過梳理:19歲高顏女大學生被活活凍死!

鰲太線2死1墜崖事件完整經過梳理:19歲高顏女大學生被活活凍死!

不二表姐
2026-01-10 22:29:28
“死了么”APP創(chuàng)始人:開發(fā)成本1000多元,團隊系三個95后,計劃出售10%股份,估值已達到1000萬元人民幣

“死了么”APP創(chuàng)始人:開發(fā)成本1000多元,團隊系三個95后,計劃出售10%股份,估值已達到1000萬元人民幣

大風新聞
2026-01-11 11:03:04
閆學晶發(fā)文致歉:我討厭那個下意識里露出輕視的自己

閆學晶發(fā)文致歉:我討厭那個下意識里露出輕視的自己

紅星新聞
2026-01-11 21:29:38
單親媽媽,只身闖電詐園區(qū)

單親媽媽,只身闖電詐園區(qū)

中國新聞周刊
2026-01-11 17:41:03
2026-01-11 23:11:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12088文章數 142535關注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

4.5萬株草莓苗停止生長 果農急求助1小時后獲專家回應

頭條要聞

4.5萬株草莓苗停止生長 果農急求助1小時后獲專家回應

體育要聞

U23國足形勢:末輪不負泰國即確保晉級

娛樂要聞

留幾手為閆學晶叫屈?稱網友自卑敏感

財經要聞

外賣平臺"燒錢搶存量市場"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補貼后9.98萬起

態(tài)度原創(chuàng)

房產
健康
數碼
教育
手機

房產要聞

66萬方!4755套!三亞巨量房源正瘋狂砸出!

這些新療法,讓化療不再那么痛苦

數碼要聞

科技有AI,連接全球:海信家電參展CES 2026,定義智慧生活新圖景

教育要聞

現在最雞娃的群體就是體制內的成員!

手機要聞

曝三星Galaxy S26 Ultra支持?eSIM,新機下月見

無障礙瀏覽 進入關懷版