国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

模型自己找視覺(jué)線(xiàn)索,小紅書(shū)Video-Thinker破解視頻推理困局

0
分享至



隨著多模態(tài)大語(yǔ)言模型(MLLM)的飛速發(fā)展,“Thinking with Images” 范式已在圖像理解和推理任務(wù)上取得了革命性突破 —— 模型不再是被動(dòng)接收視覺(jué)信息,而是學(xué)會(huì)了主動(dòng)定位與思考。

然而,當(dāng)面對(duì)包含復(fù)雜時(shí)序依賴(lài)與動(dòng)態(tài)敘事的視頻推理任務(wù)時(shí),這一能力尚未得到有效延伸?,F(xiàn)有的視頻推理方法往往受限于對(duì)外部工具的依賴(lài)或預(yù)設(shè)的提示詞策略,難以讓模型內(nèi)生出對(duì)時(shí)間序列的自主導(dǎo)航與深度理解能力,導(dǎo)致模型在處理長(zhǎng)視頻或復(fù)雜邏輯時(shí)顯得捉襟見(jiàn)肘。

為攻克這一難題,來(lái)自小紅書(shū)的研究團(tuán)隊(duì)提出了 Video-Thinker:一種全新的 “Thinking with Videos” 范式,旨在通過(guò)強(qiáng)化學(xué)習(xí)激發(fā) MLLM 在視頻推理中的內(nèi)生智能。

與傳統(tǒng)方法不同,Video-Thinker 不依賴(lài)構(gòu)建和調(diào)用外部工具,而是將 “時(shí)序定位(Grounding)” 與 “視覺(jué)描述(Captioning)” 這兩種核心能力內(nèi)化在模型的思維鏈(CoT)中,使其能在推理過(guò)程中自主尋找關(guān)鍵幀并提取視覺(jué)線(xiàn)索。

團(tuán)隊(duì)精心構(gòu)建了包含 10K 高質(zhì)量樣本的 Video-Thinker-10K 數(shù)據(jù)集,并采用 “監(jiān)督微調(diào) + 強(qiáng)化學(xué)習(xí)” 的兩階段訓(xùn)練策略。這一方法成功讓模型在無(wú)外部輔助的情況下,實(shí)現(xiàn)了對(duì)視頻內(nèi)容的自主探索與自我修正。

實(shí)驗(yàn)結(jié)果顯示,Video-Thinker-7B 憑借極高的數(shù)據(jù)效率,在 Video-Holmes 等多個(gè)高難度視頻推理榜單上顯著超越了現(xiàn)有基線(xiàn),確立了 7B 量級(jí) MLLM 的 SOTA(State-of-the-Art)性能,為視頻大模型的動(dòng)態(tài)推理開(kāi)辟了新路徑。



  • 論文地址:https://www.arxiv.org/abs/2510.23473
  • 模型地址:https://huggingface.co/ShijianW01/Video-Thinker-7B
  • 代碼地址:https://github.com/DeepExperience/Video-Thinker

一、背景:視頻推理的 “工具依賴(lài)?yán)Ь帧?與破局需求

在多模態(tài)大語(yǔ)言模型(MLLM)進(jìn)化的浪潮中,“Thinking with Images” 范式已經(jīng)讓模型在靜態(tài)圖像的理解與推理上取得了令人矚目的突破。當(dāng)模型學(xué)會(huì)了在像素間主動(dòng)定位與思考,靜態(tài)畫(huà)面不再是信息的黑盒。

然而,當(dāng)我們?cè)噲D將這種范式延伸至視頻領(lǐng)域時(shí),情況卻變得復(fù)雜得多。視頻不僅僅是圖像的簡(jiǎn)單堆疊,更包含了復(fù)雜的時(shí)序依賴(lài)、動(dòng)態(tài)的敘事邏輯以及稍縱即逝的視覺(jué)細(xì)節(jié)。面對(duì)這種高維度的信息流,現(xiàn)有的視頻推理方法正面臨著難以突破的瓶頸。

當(dāng)前主流的視頻大模型在處理復(fù)雜推理任務(wù)時(shí),往往陷入了一種對(duì) “外部輔助” 的過(guò)度依賴(lài)。為了彌補(bǔ)模型對(duì)長(zhǎng)視頻處理能力的不足,研究者們通常采用掛載外部視覺(jué)工具(如檢測(cè)器、追蹤器)或設(shè)計(jì)繁復(fù)的預(yù)設(shè)提示詞策略來(lái)輔助模型。這種做法雖然在一定程度上緩解了信息獲取的難題,卻在本質(zhì)上造成了推理過(guò)程的 “割裂”:模型并非真正 “看見(jiàn)” 并 “理解” 了視頻的時(shí)間脈絡(luò),而是被動(dòng)地接收外部工具提取的碎片化特征,或是機(jī)械地遵循預(yù)設(shè)步驟進(jìn)行填空。

這種缺乏內(nèi)生主動(dòng)性的架構(gòu),導(dǎo)致模型在面對(duì)長(zhǎng)視頻或需要深度邏輯推演的任務(wù)時(shí)顯得捉襟見(jiàn)肘。由于缺乏對(duì)時(shí)間序列的自主導(dǎo)航能力,模型無(wú)法像人類(lèi)一樣根據(jù)當(dāng)前的思考線(xiàn)索去主動(dòng) “快進(jìn)”、“倒帶” 或聚焦于某個(gè)關(guān)鍵幀。它無(wú)法自主決定何時(shí)通過(guò) “Grounding(時(shí)序定位)” 來(lái)鎖定證據(jù),也無(wú)法靈活地利用 “Captioning(視覺(jué)描述)” 來(lái)提煉線(xiàn)索。這種感知與推理的脫節(jié),使得模型難以在動(dòng)態(tài)變化的視頻內(nèi)容中構(gòu)建起連貫的思維鏈,最終限制了視頻大模型向更高階智能的躍升。

如何讓模型擺脫對(duì)外掛拐杖的依賴(lài),內(nèi)生出在時(shí)間流中自由探索與自我修正的能力,成為了視頻推理領(lǐng)域亟待攻克的難題。

二、方法:內(nèi)生能力導(dǎo)向的 “數(shù)據(jù) - 訓(xùn)練” 全鏈路設(shè)計(jì)

Video-Thinker 的核心愿景在于實(shí)現(xiàn) “能力內(nèi)化”:打破傳統(tǒng)視頻大模型對(duì)外部視覺(jué)工具的依賴(lài),將 “時(shí)序定位(Grounding)” 與 “視覺(jué)描述(Captioning)” 這兩大核心能力直接植入模型的思維鏈(CoT)中。為達(dá)成這一目標(biāo),團(tuán)隊(duì)設(shè)計(jì)了一套精密的 “數(shù)據(jù) - 訓(xùn)練” 協(xié)同機(jī)制:首先構(gòu)建 Video-Thinker-10K 高質(zhì)量結(jié)構(gòu)化數(shù)據(jù),隨后通過(guò) “監(jiān)督微調(diào)(SFT)+ 組相對(duì)策略?xún)?yōu)化(GRPO)” 的兩階段訓(xùn)練范式,成功讓模型學(xué)會(huì)了在動(dòng)態(tài)視頻流中自主導(dǎo)航、主動(dòng)思考。



數(shù)據(jù)煉金:Hindsight-Curation 驅(qū)動(dòng)的思維鏈構(gòu)建



要讓模型真正掌握視頻場(chǎng)景下的復(fù)雜推理能力,構(gòu)建高質(zhì)量的訓(xùn)練數(shù)據(jù)是必經(jīng)之路。然而,現(xiàn)有的開(kāi)源視頻數(shù)據(jù)集普遍存在 “二元割裂” 的結(jié)構(gòu)性缺陷:一類(lèi)是以 ActivityNet、YouCook2 為代表的描述型數(shù)據(jù),雖然擁有精確的時(shí)間段標(biāo)注和畫(huà)面描述,但缺乏需要深度思考的邏輯問(wèn)答;另一類(lèi)是以 STAR、LVBench 為代表的問(wèn)答型數(shù)據(jù),雖然問(wèn)題極具挑戰(zhàn)性,卻往往缺失了支撐答案的關(guān)鍵幀定位與視覺(jué)細(xì)節(jié)。為了彌補(bǔ)這一鴻溝,團(tuán)隊(duì)整合了六大主流數(shù)據(jù)集,構(gòu)建了 Video-Thinker-10K。該數(shù)據(jù)集并未止步于簡(jiǎn)單的拼接,而是引入了一套 “后見(jiàn)之明(Hindsight-Curation)” 的自動(dòng)化流水線(xiàn),通過(guò) “補(bǔ)全 - 合成 - 驗(yàn)證” 的嚴(yán)密閉環(huán),生產(chǎn)出兼具精準(zhǔn)時(shí)序定位(Grounding)與詳盡視覺(jué)描述(Captioning)的結(jié)構(gòu)化推理數(shù)據(jù),確保模型在學(xué)習(xí)過(guò)程中能夠建立起從視覺(jué)證據(jù)到邏輯結(jié)論的完整映射。

Step 1: 雙向信息補(bǔ)全

面對(duì)不同源數(shù)據(jù)特性的差異,團(tuán)隊(duì)將 ActivityNet、TutorialVQA,、YouCook2、STAR、ScaleLong 和 LVBench 六大主流數(shù)據(jù)集劃分為互補(bǔ)的兩類(lèi),并實(shí)施了 “缺什么補(bǔ)什么” 的數(shù)據(jù)增強(qiáng)策略:

  • 針對(duì) “有描述無(wú)推理” 的數(shù)據(jù)(如 ActivityNet、TutorialVQA、YouCook2):這類(lèi)數(shù)據(jù)具備精確的時(shí)間段標(biāo)注和詳盡的動(dòng)作描述,但缺乏深度的邏輯問(wèn)答。團(tuán)隊(duì)利用 DeepSeek-R1 強(qiáng)大的邏輯推理能力,以原有的細(xì)粒度片段描述為上下文,合成出需要跨越多個(gè)時(shí)間片段進(jìn)行綜合分析的復(fù)雜多跳問(wèn)題,將單純的感知任務(wù)升級(jí)為邏輯推理任務(wù)。
  • 針對(duì) “有問(wèn)答無(wú)細(xì)節(jié)” 的數(shù)據(jù)(如 STAR、ScaleLong、LVBench):這類(lèi)數(shù)據(jù)雖然包含極具挑戰(zhàn)性的推理問(wèn)答,卻往往缺失了支撐答案的具體視覺(jué)描述。團(tuán)隊(duì)借助 Gemini-2.5-Flash-Lite 的長(zhǎng)窗口視覺(jué)理解能力,以標(biāo)準(zhǔn)答案為錨點(diǎn)進(jìn)行反向推導(dǎo),為關(guān)鍵時(shí)間窗口生成了與答案強(qiáng)相關(guān)的精細(xì)化視覺(jué)描述(Answer-Conditioned Captions),填補(bǔ)了推理過(guò)程中視覺(jué)證據(jù)的空白。

Step 2: 結(jié)構(gòu)化思維鏈合成

在完成了基礎(chǔ)信息的雙向補(bǔ)全后,系統(tǒng)調(diào)用 DeepSeek-V3 執(zhí)行 “反向推理合成(Reverse-Curation Generation)”。模型接收標(biāo)準(zhǔn)答案、時(shí)序標(biāo)注以及生成的視覺(jué)描述作為輸入,被要求倒推并生成一條邏輯嚴(yán)密、逐步展開(kāi)的推理軌跡。這條軌跡并非自由發(fā)散,而是必須嚴(yán)格遵循預(yù)定義的結(jié)構(gòu)化格式,顯式地將推理過(guò)程拆解為三個(gè)關(guān)鍵動(dòng)作:

  • :執(zhí)行時(shí)序定位任務(wù),精確劃定包含關(guān)鍵信息的視頻時(shí)間窗口,明確模型 “關(guān)注哪里”;
  • :執(zhí)行視覺(jué)證據(jù)提取任務(wù),對(duì)該時(shí)間窗口內(nèi)的核心視覺(jué)線(xiàn)索進(jìn)行總結(jié)與描述,闡述模型 “看到了什么”;
  • :執(zhí)行深度分析任務(wù),基于提取的時(shí)空線(xiàn)索進(jìn)行邏輯推演與綜合判斷,連接視覺(jué)證據(jù)與最終答案,解釋 “意味著什么”。

Step 3: 后見(jiàn)之明驗(yàn)證機(jī)制(Hindsight Curation)

這是保障數(shù)據(jù)質(zhì)量的關(guān)鍵防線(xiàn)。為了確保合成的推理軌跡真實(shí)有效而非 “自說(shuō)自話(huà)”,團(tuán)隊(duì)引入了創(chuàng)新的 “后見(jiàn)之明” 驗(yàn)證流程,替代了昂貴的人工抽檢。具體而言,系統(tǒng)使用 Qwen2.5-VL-7B-Instruct 充當(dāng) “獨(dú)立驗(yàn)證官”,在屏蔽原始視頻輸入的情況下,僅將上一步生成的 時(shí)序標(biāo)簽和 視覺(jué)描述作為上下文輸入給模型。系統(tǒng)隨后檢測(cè)驗(yàn)證官能否僅憑這些提取出的線(xiàn)索推導(dǎo)出正確的標(biāo)準(zhǔn)答案。如果驗(yàn)證失敗,意味著生成的視覺(jué)線(xiàn)索不足以支撐推理結(jié)論,系統(tǒng)將自動(dòng)觸發(fā)再生流程,進(jìn)行最多三次的迭代修正。

這種 “以結(jié)果驗(yàn)證過(guò)程” 的閉環(huán)機(jī)制,有效剔除了無(wú)效或低質(zhì)量的樣本,確保了最終保留在 Video-Thinker-10K 中的每一條數(shù)據(jù),其視覺(jué)證據(jù)與邏輯結(jié)論之間都具備嚴(yán)密且可復(fù)現(xiàn)的因果關(guān)系。

監(jiān)督微調(diào)建立結(jié)構(gòu)化思維范式

監(jiān)督微調(diào)(SFT)階段旨在完成模型的 “冷啟動(dòng)” 初始化。由于預(yù)訓(xùn)練的多模態(tài)大模型本身并不具備輸出特定標(biāo)簽(如 或 )的習(xí)慣,SFT 階段的主要任務(wù)是通過(guò)強(qiáng)制教學(xué),讓模型習(xí)得 Video-Thinker 獨(dú)有的結(jié)構(gòu)化思考范式。

對(duì)于每一個(gè)樣本 (V, Q, T, Y),其中 V 是視頻,Q 是問(wèn)題, T 是包含 , 和

的思維鏈, Y 是最終答案。SFT 的優(yōu)化目標(biāo)是最小化思維鏈與答案的負(fù)對(duì)數(shù)似然:



通過(guò)這一階段的訓(xùn)練,模型不再將視頻視為一個(gè)模糊的整體進(jìn)行黑盒猜測(cè),而是建立起了一套嚴(yán)謹(jǐn)?shù)?“定位 - 感知 - 推理” 標(biāo)準(zhǔn)動(dòng)作序列:即先通過(guò) 標(biāo)簽主動(dòng)定位關(guān)鍵片段,再利用 標(biāo)簽提取視覺(jué)細(xì)節(jié),最后通過(guò)

標(biāo)簽進(jìn)行邏輯整合。這種顯式的思維約束,不僅教會(huì)了模型如何使用內(nèi)部工具,更有效抑制了其在缺乏證據(jù)時(shí)直接生成答案的幻覺(jué)傾向,為后續(xù)的強(qiáng)化學(xué)習(xí)奠定了堅(jiān)實(shí)的策略基礎(chǔ)。

強(qiáng)化學(xué)習(xí)激發(fā)內(nèi)生智能與 “頓悟” 時(shí)刻

雖然 SFT 賦予了模型結(jié)構(gòu)化的表達(dá)形式,但僅憑監(jiān)督微調(diào),模型往往只能 “模仿” 訓(xùn)練數(shù)據(jù)的表面模式,難以應(yīng)對(duì)分布外的復(fù)雜場(chǎng)景。真正的智能源于在探索中自我優(yōu)化,因此訓(xùn)練進(jìn)入第二階段:采用組相對(duì)策略?xún)?yōu)化(Group Relative Policy Optimization, GRPO)激發(fā)模型的內(nèi)生潛能。

不同于傳統(tǒng) PPO 算法依賴(lài)龐大的價(jià)值網(wǎng)絡(luò)來(lái)評(píng)估狀態(tài)價(jià)值,GRPO 采用了一種更為高效的策略:它通過(guò)對(duì)同一輸入并行采樣多組不同的推理軌跡,利用組內(nèi)輸出的相對(duì)優(yōu)勢(shì)來(lái)指導(dǎo)梯度更新。這種 “摒棄 Critic 模型” 的設(shè)計(jì)不僅大幅降低了顯存占用和計(jì)算成本,更關(guān)鍵的是,它允許模型在反復(fù)的試錯(cuò)與自我博弈中,自主探索出如何更高效地調(diào)用 和 錨點(diǎn)來(lái)解決新問(wèn)題,從而將機(jī)械的格式遵循升華為靈活的視頻思維能力,真正實(shí)現(xiàn)對(duì)視頻內(nèi)容的自主導(dǎo)航。

采樣與雙重獎(jiǎng)勵(lì)設(shè)計(jì)



策略?xún)?yōu)化目標(biāo)







涌現(xiàn)的 “Aha Moment”

經(jīng)過(guò) GRPO 的強(qiáng)化訓(xùn)練后,Video-Thinker 開(kāi)始涌現(xiàn)出類(lèi)似人類(lèi)的高階認(rèn)知行為 —— 我們稱(chēng)之為 “頓悟時(shí)刻(Aha Moment)”。與傳統(tǒng)模型線(xiàn)性的、單向的生成過(guò)程不同,Video-Thinker 在面對(duì)復(fù)雜推理時(shí),不再是一條路走到黑。我們觀察到,模型開(kāi)始在思維鏈中自發(fā)展現(xiàn)出元認(rèn)知(Metacognition)特征:它會(huì)對(duì)其初步生成的時(shí)序定位或視覺(jué)描述進(jìn)行 “回頭看”,主動(dòng)發(fā)起自我質(zhì)疑與修正。

這種動(dòng)態(tài)的內(nèi)部反饋機(jī)制,使得模型不再是被動(dòng)的信息接收者,而是主動(dòng)的探尋者。正是這種內(nèi)生的反思能力,讓 Video-Thinker 能夠在僅有 7B 參數(shù)量且僅使用 10K 訓(xùn)練數(shù)據(jù)的情況下,打破了參數(shù)規(guī)模的限制,在 Video-Holmes 等高難度視頻推理基準(zhǔn)上,大幅超越了依賴(lài)海量數(shù)據(jù)訓(xùn)練的現(xiàn)有基線(xiàn)模型。

三、評(píng)測(cè):全面驗(yàn)證,7B 模型刷新視頻推理 SOTA

實(shí)驗(yàn)設(shè)置

為了全方位驗(yàn)證 Video-Thinker 的視頻推理能力,研究團(tuán)隊(duì)構(gòu)建了包含域內(nèi)(In-Domain)與域外(Out-of-Domain)的雙重評(píng)估體系。

  • 訓(xùn)練配置: 研究選用 Qwen2.5-VL-7B-Instruct 作為基礎(chǔ)模型。訓(xùn)練過(guò)程嚴(yán)格遵循 “兩階段” 范式:首先在 Video-Thinker-10K 數(shù)據(jù)集上進(jìn)行 1 個(gè) epoch 的監(jiān)督微調(diào)(SFT),讓模型習(xí)得結(jié)構(gòu)化的思考格式;隨后引入 GRPO 算法進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,以激發(fā)模型自主視頻推理的潛能。
  • 評(píng)測(cè)數(shù)據(jù)集:
  • 域內(nèi)評(píng)測(cè):基于 ActivityNet、Star、ScaleLong、YouCook2、LVBench 等五個(gè)訓(xùn)練數(shù)據(jù)集構(gòu)建了測(cè)試集(Held-out test sets),用于評(píng)估模型在熟悉領(lǐng)域內(nèi)的表現(xiàn)。
  • 域外評(píng)測(cè):精選了 Video-Holmes、CG-Bench-Reasoning、VRBench、SciVideoBench、VideoTT、VideoMME 等六個(gè)具有挑戰(zhàn)性的高難度復(fù)雜視頻推理基準(zhǔn),重點(diǎn)考察模型在未知場(chǎng)景下的泛化能力。
  • 基線(xiàn)模型: 對(duì)比陣容強(qiáng)大,涵蓋了 InternVL、Qwen2.5-VL 等 5 個(gè)主流開(kāi)源多模態(tài)基礎(chǔ)模型,以及 Video-R1、VideoChat-R1、Temporal-R1 等 12 個(gè)開(kāi)源視頻推理模型,確保了比較的公平性與廣泛性。

總體性能對(duì)比

實(shí)驗(yàn)結(jié)果表明,Video-Thinker-7B 在各項(xiàng)視頻推理基準(zhǔn)上均展現(xiàn)出顯著優(yōu)勢(shì),成功確立了 7B 參數(shù)量級(jí)模型的新 SOTA(State-of-the-Art)。

  • 核心發(fā)現(xiàn)與數(shù)據(jù)解讀:
  • 域外泛化能力的質(zhì)變: Video-Thinker 在處理未見(jiàn)過(guò)的復(fù)雜任務(wù)時(shí)表現(xiàn)尤為驚艷。在偵探推理類(lèi)的 Video-Holmes 榜單上,模型取得了 43.22% 的準(zhǔn)確率,超越了次優(yōu)基線(xiàn)模型 4.68 個(gè)百分點(diǎn);在綜合性基準(zhǔn) VRBench 上,準(zhǔn)確率高達(dá) 80.69%,大幅領(lǐng)先最佳基線(xiàn) 11.44%。這充分證明了 Video-Thinker 并非僅僅 “記住” 了訓(xùn)練數(shù)據(jù),而是真正習(xí)得了通過(guò) “定位” 和 “描述” 來(lái)解決通用視頻問(wèn)題的能力。
  • SFT 與 RL 的協(xié)同效應(yīng): 消融實(shí)驗(yàn)揭示了一個(gè)關(guān)鍵結(jié)論:僅靠 SFT 無(wú)法實(shí)現(xiàn)強(qiáng)泛化。Video-Thinker-SFT-7B 版本在多個(gè)基準(zhǔn)上的表現(xiàn)甚至低于基礎(chǔ)模型,這說(shuō)明 SFT 的主要作用在于 “規(guī)范格式”。而隨后的GRPO 強(qiáng)化學(xué)習(xí)階段才是性能飛躍的關(guān)鍵,它使模型在 Video-Holmes 上的性能提升了 11.70%,在 VRBench 上提升了 18.29%。這種 “先通過(guò) SFT 立規(guī)矩,再通過(guò) GRPO 練內(nèi)功” 的組合,被證明是提升大模型復(fù)雜推理能力的必由之路。



推理幀數(shù)魯棒性分析:更高效的時(shí)序信息整合

視頻理解往往受限于輸入幀數(shù)。為了探究 Video-Thinker 是否依賴(lài)高幀率輸入,團(tuán)隊(duì)對(duì)比了模型在 16 幀、32 幀和 64 幀設(shè)置下的表現(xiàn)。實(shí)驗(yàn)數(shù)據(jù)表明:

  • 正向的 Scaling Law: 隨著輸入幀數(shù)從 16 增加到 64,絕大多數(shù)模型的性能均呈上升趨勢(shì),說(shuō)明更豐富的時(shí)序信息確實(shí)有助于推理。
  • 全方位的性能壓制: 值得注意的是,Video-Thinker-7B 在所有幀數(shù)檔位上均持續(xù)優(yōu)于對(duì)比基線(xiàn)(Qwen2.5-VL 和 Video-R1)。即使在僅輸入 16 幀的受限條件下,Video-Thinker 依然能保持高水準(zhǔn)的推理精度。這意味著該模型具備更高效的時(shí)序信息整合機(jī)制,無(wú)論是在計(jì)算資源受限的低幀率場(chǎng)景,還是信息豐富的高幀率場(chǎng)景,都能穩(wěn)定發(fā)揮。



深度歸因分析:定位與描述能力的顯著增強(qiáng)

Video-Thinker 的核心假設(shè)是:強(qiáng)大的視頻推理源于對(duì)視頻內(nèi)容的精準(zhǔn) “定位(Grounding)” 和細(xì)致 “描述(Captioning)”。為了驗(yàn)證這一假設(shè),研究團(tuán)隊(duì)不僅評(píng)測(cè)最終答案的準(zhǔn)確率,還專(zhuān)門(mén)針對(duì)這兩項(xiàng)中間過(guò)程能力進(jìn)行了定量評(píng)測(cè)。評(píng)測(cè)結(jié)果表明:

  • 時(shí)序定位(Grounding):在要求模型輸出關(guān)鍵時(shí)間片段的任務(wù)中,Video-Thinker-7B 的平均交并比(mIoU)達(dá)到了 48.22%,相比基礎(chǔ)模型(27.47%)提升了 75.5%。在 Recall@0.3 指標(biāo)上,Video-Thinker 更是達(dá)到了 79.29%,幾乎是基礎(chǔ)模型的兩倍。這表明模型在回答問(wèn)題前,確實(shí)精準(zhǔn)鎖定了視頻中的關(guān)鍵線(xiàn)索,而非盲目猜測(cè)。
  • 內(nèi)容描述(Captioning):在視頻片段描述任務(wù)中,Video-Thinker 在 BLEU、METEOR 和 ROUGE-L 三大指標(biāo)上全面領(lǐng)先。與基礎(chǔ)模型相比,其整體描述質(zhì)量提升了 31.2%;與 Video-R1 相比,提升幅度更是達(dá)到了 61.0%。生成更準(zhǔn)確、更相關(guān)的中間描述,為模型進(jìn)行后續(xù)的邏輯推理提供了堅(jiān)實(shí)的信息基礎(chǔ)。



消融實(shí)驗(yàn):內(nèi)生能力 vs 外部工具

既然 “定位” 和 “描述” 如此重要,是否可以直接給基礎(chǔ)模型外掛現(xiàn)成的專(zhuān)用工具(如專(zhuān)門(mén)的 Grounding 模型或 Captioning 模型)來(lái)達(dá)到同樣的效果?研究團(tuán)隊(duì)進(jìn)行了一組反直覺(jué)但極具價(jià)值的對(duì)比實(shí)驗(yàn)。

1. 簡(jiǎn)單外掛工具的 “負(fù)優(yōu)化” 陷阱:實(shí)驗(yàn)結(jié)果首先打破了 “工具越強(qiáng)效果越好” 的迷思。當(dāng)團(tuán)隊(duì)嘗試 “基礎(chǔ)模型 + 即插即用工具(Plug-and-play Tools)” 的組合時(shí),模型性能不升反降。例如,使用 Temporal-R1-7B 配合 SkyCaptioner-V1-8B 時(shí),準(zhǔn)確率跌至 30.58%;即便調(diào)用參數(shù)量大十倍的 Qwen2.5-VL-72B-Instruct 作為專(zhuān)家工具,其 33.96% 的得分依然未能超過(guò)僅使用 7B 基礎(chǔ)模型的效果。這表明簡(jiǎn)單的工具堆疊會(huì)造成信息割裂,導(dǎo)致推理鏈路效率降低。

2. 現(xiàn)有工具調(diào)用方法的局限:為了進(jìn)一步驗(yàn)證,團(tuán)隊(duì)對(duì)比了現(xiàn)有的代表性工具使用方法 —— VideoMind-7B。雖然 VideoMind-7B 通過(guò)更復(fù)雜的工具調(diào)用策略,將 Video-Holmes 的得分提升到了 38.98%,成功超越了基礎(chǔ)模型和簡(jiǎn)單的外掛方案,但相比于 Video-Thinker 它依然存在明顯差距(落后約 4.2%)。這說(shuō)明即便是成熟的外部工具調(diào)用方式,在信息傳遞的連貫性和推理深度上仍存在天花板。

3. Video-Thinker 內(nèi)生思維鏈的壓倒性?xún)?yōu)勢(shì):最終,通過(guò)訓(xùn)練獲得內(nèi)生能力的 Video-Thinker-7B 展現(xiàn)了統(tǒng)治級(jí)的表現(xiàn)。它在 Video-Holmes 上取得了 43.22% 的全場(chǎng)最高分(紅色加粗),不僅遠(yuǎn)超外掛工具方案,也顯著優(yōu)于 VideoMind-7B;同時(shí)在 VRBench 上更是達(dá)到了 80.69% 的高分。實(shí)驗(yàn)有力地證明,在視頻推理任務(wù)中,將 “感知 - 定位 - 描述 - 推理” 無(wú)縫融合的內(nèi)生思維鏈(Endogenous CoT),比簡(jiǎn)單的工具堆疊甚至 VideoMind 這種外部調(diào)用方法都更為高效可靠。



四、結(jié)語(yǔ):內(nèi)生智能引領(lǐng)視頻推理新方向

Video-Thinker 的核心價(jià)值,在于打破了 “視頻推理必須依賴(lài)外部工具” 的固有認(rèn)知,通過(guò) “高質(zhì)量數(shù)據(jù)合成 + 精準(zhǔn)強(qiáng)化訓(xùn)練” 的全鏈路設(shè)計(jì),讓 MLLM 真正實(shí)現(xiàn)內(nèi)生 “時(shí)序定位” 與 “片段描述” 能力,實(shí)現(xiàn)了端到端的自主視頻思考。其 7B 參數(shù)模型在多領(lǐng)域基準(zhǔn)上刷新 SOTA 的表現(xiàn),證明了視頻推理能力并非依賴(lài) “大參數(shù) + 大數(shù)據(jù)” 的堆砌,而是在于對(duì)核心內(nèi)生能力的精準(zhǔn)培養(yǎng)。未來(lái),隨著技術(shù)迭代,Video-Thinker 有望進(jìn)一步集成音頻、字幕等多模態(tài)信息,拓展至小時(shí)級(jí)長(zhǎng)視頻推理場(chǎng)景,讓 “用視頻思考” 成為 MLLM 的基礎(chǔ)能力。這種內(nèi)生智能驅(qū)動(dòng)的技術(shù)路徑,不僅為視頻推理領(lǐng)域提供了新范式,更將加速 AI 在安防監(jiān)控、智能教育、工業(yè)運(yùn)維等領(lǐng)域的落地應(yīng)用,真正賦能千行百業(yè)的智能化升級(jí)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
爆:工信部副部長(zhǎng),“空降”通信央企董事長(zhǎng)!

爆:工信部副部長(zhǎng),“空降”通信央企董事長(zhǎng)!

通信頭條
2026-03-02 21:06:39
果然不簡(jiǎn)單:中國(guó)摁住日本后,又讓美國(guó)見(jiàn)識(shí)了北京的“陽(yáng)謀”

果然不簡(jiǎn)單:中國(guó)摁住日本后,又讓美國(guó)見(jiàn)識(shí)了北京的“陽(yáng)謀”

通文知史
2026-03-01 23:25:03
越南專(zhuān)家犀利剖析:中國(guó)真正對(duì)手并不是美國(guó),全球信仰體系崩塌

越南專(zhuān)家犀利剖析:中國(guó)真正對(duì)手并不是美國(guó),全球信仰體系崩塌

史行途
2026-03-03 00:37:02
從伊朗的情況來(lái)看,中國(guó)有可能存在特務(wù)的人群不只是出國(guó)留學(xué)人員

從伊朗的情況來(lái)看,中國(guó)有可能存在特務(wù)的人群不只是出國(guó)留學(xué)人員

忠于法紀(jì)
2025-12-09 21:28:55
3月1日俄烏最新:恐怖的場(chǎng)景

3月1日俄烏最新:恐怖的場(chǎng)景

西樓飲月
2026-03-01 20:55:56
歐盟下禁令,禁止中國(guó)機(jī)構(gòu)參與930億關(guān)鍵科研項(xiàng)目,包含AI與芯片

歐盟下禁令,禁止中國(guó)機(jī)構(gòu)參與930億關(guān)鍵科研項(xiàng)目,包含AI與芯片

臨云史策
2026-03-01 14:32:13
韓國(guó)網(wǎng)紅博主上海旅游被宰客?一頓火鍋花了177萬(wàn)韓幣!

韓國(guó)網(wǎng)紅博主上海旅游被宰客?一頓火鍋花了177萬(wàn)韓幣!

奮斗在韓國(guó)
2026-03-02 11:00:03
我見(jiàn)過(guò)最傻的父母,攥著大把的存款和退休金,卻等著給子女當(dāng)遺產(chǎn)

我見(jiàn)過(guò)最傻的父母,攥著大把的存款和退休金,卻等著給子女當(dāng)遺產(chǎn)

i書(shū)與房
2026-02-25 17:22:34
26年堅(jiān)定持有的十只黑馬股,預(yù)定翻倍增長(zhǎng)?。ňx)

26年堅(jiān)定持有的十只黑馬股,預(yù)定翻倍增長(zhǎng)?。ňx)

漲多寶
2026-03-02 14:45:51
出事了,戰(zhàn)爭(zhēng)形勢(shì)不妙!

出事了,戰(zhàn)爭(zhēng)形勢(shì)不妙!

君臨策
2026-03-02 19:16:06
男子送相親對(duì)象回家遇其忘帶鑰匙,開(kāi)房遭拒后女子怒斥男子真沒(méi)用

男子送相親對(duì)象回家遇其忘帶鑰匙,開(kāi)房遭拒后女子怒斥男子真沒(méi)用

朗威談星座
2026-03-02 16:54:30
哈梅內(nèi)伊一死,普京急召全體高層,防空系統(tǒng)全失靈,俄這次背大鍋

哈梅內(nèi)伊一死,普京急召全體高層,防空系統(tǒng)全失靈,俄這次背大鍋

夢(mèng)在深巷aqa
2026-03-02 01:17:46
小天賜,終為父母當(dāng)年的“沖動(dòng)”買(mǎi)了單,年僅6歲活得不像個(gè)小孩

小天賜,終為父母當(dāng)年的“沖動(dòng)”買(mǎi)了單,年僅6歲活得不像個(gè)小孩

奇怪的鯊魚(yú)們
2026-03-02 13:11:54
上海著名主持人淚目!中東戰(zhàn)火下,有人平安返航、有人新婚分離、有人只想回家

上海著名主持人淚目!中東戰(zhàn)火下,有人平安返航、有人新婚分離、有人只想回家

上觀新聞
2026-03-02 15:27:27
美方:伊朗試圖暗殺特朗普

美方:伊朗試圖暗殺特朗普

第一財(cái)經(jīng)資訊
2026-03-02 22:05:26
最新!油價(jià)調(diào)整通知

最新!油價(jià)調(diào)整通知

大象新聞
2026-03-03 00:50:03
這個(gè)死磕王楚欽的裁判,決賽就沒(méi)讓她上場(chǎng)

這個(gè)死磕王楚欽的裁判,決賽就沒(méi)讓她上場(chǎng)

楊仔述
2026-03-02 11:13:02
馬斯切拉諾:球員們下半場(chǎng)踢得像一支冠軍之師,功勞屬于他們

馬斯切拉諾:球員們下半場(chǎng)踢得像一支冠軍之師,功勞屬于他們

懂球帝
2026-03-02 12:16:36
臺(tái)積電創(chuàng)辦人張忠謀:如果想扼殺中國(guó)大陸,中國(guó)大陸真的無(wú)能為力

臺(tái)積電創(chuàng)辦人張忠謀:如果想扼殺中國(guó)大陸,中國(guó)大陸真的無(wú)能為力

混沌錄
2026-02-27 21:29:05
日本專(zhuān)家:中國(guó)的7nm不是開(kāi)始,而是終點(diǎn)

日本專(zhuān)家:中國(guó)的7nm不是開(kāi)始,而是終點(diǎn)

芯火相承
2026-03-02 19:55:03
2026-03-03 03:12:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12395文章數(shù) 142575關(guān)注度
往期回顧 全部

科技要聞

蘋(píng)果中國(guó)官網(wǎng)上線(xiàn)iPhone 17e,4499元起

頭條要聞

中國(guó)留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國(guó)留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂(lè)要聞

李亞鵬與哥哥和解 只有一條真心話(huà)短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車(chē)要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

家居
親子
本地
藝術(shù)
公開(kāi)課

家居要聞

萬(wàn)物互聯(lián) 享科技福祉

親子要聞

45歲這年,我這個(gè)二胎媽媽決定做一件“瘋狂”的事

本地新聞

津南好·四時(shí)總相宜

藝術(shù)要聞

這四位老人的花鳥(niǎo)畫(huà),竟讓人欲罷不能!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版