国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

模型自己找視覺線索,小紅書Video-Thinker破解視頻推理困局

0
分享至



隨著多模態(tài)大語言模型(MLLM)的飛速發(fā)展,“Thinking with Images” 范式已在圖像理解和推理任務(wù)上取得了革命性突破 —— 模型不再是被動接收視覺信息,而是學(xué)會了主動定位與思考。

然而,當(dāng)面對包含復(fù)雜時序依賴與動態(tài)敘事的視頻推理任務(wù)時,這一能力尚未得到有效延伸。現(xiàn)有的視頻推理方法往往受限于對外部工具的依賴或預(yù)設(shè)的提示詞策略,難以讓模型內(nèi)生出對時間序列的自主導(dǎo)航與深度理解能力,導(dǎo)致模型在處理長視頻或復(fù)雜邏輯時顯得捉襟見肘。

為攻克這一難題,來自小紅書的研究團(tuán)隊提出了 Video-Thinker:一種全新的 “Thinking with Videos” 范式,旨在通過強(qiáng)化學(xué)習(xí)激發(fā) MLLM 在視頻推理中的內(nèi)生智能。

與傳統(tǒng)方法不同,Video-Thinker 不依賴構(gòu)建和調(diào)用外部工具,而是將 “時序定位(Grounding)” 與 “視覺描述(Captioning)” 這兩種核心能力內(nèi)化在模型的思維鏈(CoT)中,使其能在推理過程中自主尋找關(guān)鍵幀并提取視覺線索。

團(tuán)隊精心構(gòu)建了包含 10K 高質(zhì)量樣本的 Video-Thinker-10K 數(shù)據(jù)集,并采用 “監(jiān)督微調(diào) + 強(qiáng)化學(xué)習(xí)” 的兩階段訓(xùn)練策略。這一方法成功讓模型在無外部輔助的情況下,實現(xiàn)了對視頻內(nèi)容的自主探索與自我修正。

實驗結(jié)果顯示,Video-Thinker-7B 憑借極高的數(shù)據(jù)效率,在 Video-Holmes 等多個高難度視頻推理榜單上顯著超越了現(xiàn)有基線,確立了 7B 量級 MLLM 的 SOTA(State-of-the-Art)性能,為視頻大模型的動態(tài)推理開辟了新路徑。



  • 論文地址:https://www.arxiv.org/abs/2510.23473
  • 模型地址:https://huggingface.co/ShijianW01/Video-Thinker-7B
  • 代碼地址:https://github.com/DeepExperience/Video-Thinker

一、背景:視頻推理的 “工具依賴?yán)Ь帧?與破局需求

在多模態(tài)大語言模型(MLLM)進(jìn)化的浪潮中,“Thinking with Images” 范式已經(jīng)讓模型在靜態(tài)圖像的理解與推理上取得了令人矚目的突破。當(dāng)模型學(xué)會了在像素間主動定位與思考,靜態(tài)畫面不再是信息的黑盒。

然而,當(dāng)我們試圖將這種范式延伸至視頻領(lǐng)域時,情況卻變得復(fù)雜得多。視頻不僅僅是圖像的簡單堆疊,更包含了復(fù)雜的時序依賴、動態(tài)的敘事邏輯以及稍縱即逝的視覺細(xì)節(jié)。面對這種高維度的信息流,現(xiàn)有的視頻推理方法正面臨著難以突破的瓶頸。

當(dāng)前主流的視頻大模型在處理復(fù)雜推理任務(wù)時,往往陷入了一種對 “外部輔助” 的過度依賴。為了彌補(bǔ)模型對長視頻處理能力的不足,研究者們通常采用掛載外部視覺工具(如檢測器、追蹤器)或設(shè)計繁復(fù)的預(yù)設(shè)提示詞策略來輔助模型。這種做法雖然在一定程度上緩解了信息獲取的難題,卻在本質(zhì)上造成了推理過程的 “割裂”:模型并非真正 “看見” 并 “理解” 了視頻的時間脈絡(luò),而是被動地接收外部工具提取的碎片化特征,或是機(jī)械地遵循預(yù)設(shè)步驟進(jìn)行填空。

這種缺乏內(nèi)生主動性的架構(gòu),導(dǎo)致模型在面對長視頻或需要深度邏輯推演的任務(wù)時顯得捉襟見肘。由于缺乏對時間序列的自主導(dǎo)航能力,模型無法像人類一樣根據(jù)當(dāng)前的思考線索去主動 “快進(jìn)”、“倒帶” 或聚焦于某個關(guān)鍵幀。它無法自主決定何時通過 “Grounding(時序定位)” 來鎖定證據(jù),也無法靈活地利用 “Captioning(視覺描述)” 來提煉線索。這種感知與推理的脫節(jié),使得模型難以在動態(tài)變化的視頻內(nèi)容中構(gòu)建起連貫的思維鏈,最終限制了視頻大模型向更高階智能的躍升。

如何讓模型擺脫對外掛拐杖的依賴,內(nèi)生出在時間流中自由探索與自我修正的能力,成為了視頻推理領(lǐng)域亟待攻克的難題。

二、方法:內(nèi)生能力導(dǎo)向的 “數(shù)據(jù) - 訓(xùn)練” 全鏈路設(shè)計

Video-Thinker 的核心愿景在于實現(xiàn) “能力內(nèi)化”:打破傳統(tǒng)視頻大模型對外部視覺工具的依賴,將 “時序定位(Grounding)” 與 “視覺描述(Captioning)” 這兩大核心能力直接植入模型的思維鏈(CoT)中。為達(dá)成這一目標(biāo),團(tuán)隊設(shè)計了一套精密的 “數(shù)據(jù) - 訓(xùn)練” 協(xié)同機(jī)制:首先構(gòu)建 Video-Thinker-10K 高質(zhì)量結(jié)構(gòu)化數(shù)據(jù),隨后通過 “監(jiān)督微調(diào)(SFT)+ 組相對策略優(yōu)化(GRPO)” 的兩階段訓(xùn)練范式,成功讓模型學(xué)會了在動態(tài)視頻流中自主導(dǎo)航、主動思考。



數(shù)據(jù)煉金:Hindsight-Curation 驅(qū)動的思維鏈構(gòu)建



要讓模型真正掌握視頻場景下的復(fù)雜推理能力,構(gòu)建高質(zhì)量的訓(xùn)練數(shù)據(jù)是必經(jīng)之路。然而,現(xiàn)有的開源視頻數(shù)據(jù)集普遍存在 “二元割裂” 的結(jié)構(gòu)性缺陷:一類是以 ActivityNet、YouCook2 為代表的描述型數(shù)據(jù),雖然擁有精確的時間段標(biāo)注和畫面描述,但缺乏需要深度思考的邏輯問答;另一類是以 STAR、LVBench 為代表的問答型數(shù)據(jù),雖然問題極具挑戰(zhàn)性,卻往往缺失了支撐答案的關(guān)鍵幀定位與視覺細(xì)節(jié)。為了彌補(bǔ)這一鴻溝,團(tuán)隊整合了六大主流數(shù)據(jù)集,構(gòu)建了 Video-Thinker-10K。該數(shù)據(jù)集并未止步于簡單的拼接,而是引入了一套 “后見之明(Hindsight-Curation)” 的自動化流水線,通過 “補(bǔ)全 - 合成 - 驗證” 的嚴(yán)密閉環(huán),生產(chǎn)出兼具精準(zhǔn)時序定位(Grounding)與詳盡視覺描述(Captioning)的結(jié)構(gòu)化推理數(shù)據(jù),確保模型在學(xué)習(xí)過程中能夠建立起從視覺證據(jù)到邏輯結(jié)論的完整映射。

Step 1: 雙向信息補(bǔ)全

面對不同源數(shù)據(jù)特性的差異,團(tuán)隊將 ActivityNet、TutorialVQA,、YouCook2、STAR、ScaleLong 和 LVBench 六大主流數(shù)據(jù)集劃分為互補(bǔ)的兩類,并實施了 “缺什么補(bǔ)什么” 的數(shù)據(jù)增強(qiáng)策略:

  • 針對 “有描述無推理” 的數(shù)據(jù)(如 ActivityNet、TutorialVQA、YouCook2):這類數(shù)據(jù)具備精確的時間段標(biāo)注和詳盡的動作描述,但缺乏深度的邏輯問答。團(tuán)隊利用 DeepSeek-R1 強(qiáng)大的邏輯推理能力,以原有的細(xì)粒度片段描述為上下文,合成出需要跨越多個時間片段進(jìn)行綜合分析的復(fù)雜多跳問題,將單純的感知任務(wù)升級為邏輯推理任務(wù)。
  • 針對 “有問答無細(xì)節(jié)” 的數(shù)據(jù)(如 STAR、ScaleLong、LVBench):這類數(shù)據(jù)雖然包含極具挑戰(zhàn)性的推理問答,卻往往缺失了支撐答案的具體視覺描述。團(tuán)隊借助 Gemini-2.5-Flash-Lite 的長窗口視覺理解能力,以標(biāo)準(zhǔn)答案為錨點(diǎn)進(jìn)行反向推導(dǎo),為關(guān)鍵時間窗口生成了與答案強(qiáng)相關(guān)的精細(xì)化視覺描述(Answer-Conditioned Captions),填補(bǔ)了推理過程中視覺證據(jù)的空白。

Step 2: 結(jié)構(gòu)化思維鏈合成

在完成了基礎(chǔ)信息的雙向補(bǔ)全后,系統(tǒng)調(diào)用 DeepSeek-V3 執(zhí)行 “反向推理合成(Reverse-Curation Generation)”。模型接收標(biāo)準(zhǔn)答案、時序標(biāo)注以及生成的視覺描述作為輸入,被要求倒推并生成一條邏輯嚴(yán)密、逐步展開的推理軌跡。這條軌跡并非自由發(fā)散,而是必須嚴(yán)格遵循預(yù)定義的結(jié)構(gòu)化格式,顯式地將推理過程拆解為三個關(guān)鍵動作:

  • :執(zhí)行時序定位任務(wù),精確劃定包含關(guān)鍵信息的視頻時間窗口,明確模型 “關(guān)注哪里”;
  • :執(zhí)行視覺證據(jù)提取任務(wù),對該時間窗口內(nèi)的核心視覺線索進(jìn)行總結(jié)與描述,闡述模型 “看到了什么”;
  • :執(zhí)行深度分析任務(wù),基于提取的時空線索進(jìn)行邏輯推演與綜合判斷,連接視覺證據(jù)與最終答案,解釋 “意味著什么”。

Step 3: 后見之明驗證機(jī)制(Hindsight Curation)

這是保障數(shù)據(jù)質(zhì)量的關(guān)鍵防線。為了確保合成的推理軌跡真實有效而非 “自說自話”,團(tuán)隊引入了創(chuàng)新的 “后見之明” 驗證流程,替代了昂貴的人工抽檢。具體而言,系統(tǒng)使用 Qwen2.5-VL-7B-Instruct 充當(dāng) “獨(dú)立驗證官”,在屏蔽原始視頻輸入的情況下,僅將上一步生成的 時序標(biāo)簽和 視覺描述作為上下文輸入給模型。系統(tǒng)隨后檢測驗證官能否僅憑這些提取出的線索推導(dǎo)出正確的標(biāo)準(zhǔn)答案。如果驗證失敗,意味著生成的視覺線索不足以支撐推理結(jié)論,系統(tǒng)將自動觸發(fā)再生流程,進(jìn)行最多三次的迭代修正。

這種 “以結(jié)果驗證過程” 的閉環(huán)機(jī)制,有效剔除了無效或低質(zhì)量的樣本,確保了最終保留在 Video-Thinker-10K 中的每一條數(shù)據(jù),其視覺證據(jù)與邏輯結(jié)論之間都具備嚴(yán)密且可復(fù)現(xiàn)的因果關(guān)系。

監(jiān)督微調(diào)建立結(jié)構(gòu)化思維范式

監(jiān)督微調(diào)(SFT)階段旨在完成模型的 “冷啟動” 初始化。由于預(yù)訓(xùn)練的多模態(tài)大模型本身并不具備輸出特定標(biāo)簽(如 或 )的習(xí)慣,SFT 階段的主要任務(wù)是通過強(qiáng)制教學(xué),讓模型習(xí)得 Video-Thinker 獨(dú)有的結(jié)構(gòu)化思考范式。

對于每一個樣本 (V, Q, T, Y),其中 V 是視頻,Q 是問題, T 是包含 , 和

的思維鏈, Y 是最終答案。SFT 的優(yōu)化目標(biāo)是最小化思維鏈與答案的負(fù)對數(shù)似然:



通過這一階段的訓(xùn)練,模型不再將視頻視為一個模糊的整體進(jìn)行黑盒猜測,而是建立起了一套嚴(yán)謹(jǐn)?shù)?“定位 - 感知 - 推理” 標(biāo)準(zhǔn)動作序列:即先通過 標(biāo)簽主動定位關(guān)鍵片段,再利用 標(biāo)簽提取視覺細(xì)節(jié),最后通過

標(biāo)簽進(jìn)行邏輯整合。這種顯式的思維約束,不僅教會了模型如何使用內(nèi)部工具,更有效抑制了其在缺乏證據(jù)時直接生成答案的幻覺傾向,為后續(xù)的強(qiáng)化學(xué)習(xí)奠定了堅實的策略基礎(chǔ)。

強(qiáng)化學(xué)習(xí)激發(fā)內(nèi)生智能與 “頓悟” 時刻

雖然 SFT 賦予了模型結(jié)構(gòu)化的表達(dá)形式,但僅憑監(jiān)督微調(diào),模型往往只能 “模仿” 訓(xùn)練數(shù)據(jù)的表面模式,難以應(yīng)對分布外的復(fù)雜場景。真正的智能源于在探索中自我優(yōu)化,因此訓(xùn)練進(jìn)入第二階段:采用組相對策略優(yōu)化(Group Relative Policy Optimization, GRPO)激發(fā)模型的內(nèi)生潛能。

不同于傳統(tǒng) PPO 算法依賴龐大的價值網(wǎng)絡(luò)來評估狀態(tài)價值,GRPO 采用了一種更為高效的策略:它通過對同一輸入并行采樣多組不同的推理軌跡,利用組內(nèi)輸出的相對優(yōu)勢來指導(dǎo)梯度更新。這種 “摒棄 Critic 模型” 的設(shè)計不僅大幅降低了顯存占用和計算成本,更關(guān)鍵的是,它允許模型在反復(fù)的試錯與自我博弈中,自主探索出如何更高效地調(diào)用 和 錨點(diǎn)來解決新問題,從而將機(jī)械的格式遵循升華為靈活的視頻思維能力,真正實現(xiàn)對視頻內(nèi)容的自主導(dǎo)航。

采樣與雙重獎勵設(shè)計



策略優(yōu)化目標(biāo)







涌現(xiàn)的 “Aha Moment”

經(jīng)過 GRPO 的強(qiáng)化訓(xùn)練后,Video-Thinker 開始涌現(xiàn)出類似人類的高階認(rèn)知行為 —— 我們稱之為 “頓悟時刻(Aha Moment)”。與傳統(tǒng)模型線性的、單向的生成過程不同,Video-Thinker 在面對復(fù)雜推理時,不再是一條路走到黑。我們觀察到,模型開始在思維鏈中自發(fā)展現(xiàn)出元認(rèn)知(Metacognition)特征:它會對其初步生成的時序定位或視覺描述進(jìn)行 “回頭看”,主動發(fā)起自我質(zhì)疑與修正。

這種動態(tài)的內(nèi)部反饋機(jī)制,使得模型不再是被動的信息接收者,而是主動的探尋者。正是這種內(nèi)生的反思能力,讓 Video-Thinker 能夠在僅有 7B 參數(shù)量且僅使用 10K 訓(xùn)練數(shù)據(jù)的情況下,打破了參數(shù)規(guī)模的限制,在 Video-Holmes 等高難度視頻推理基準(zhǔn)上,大幅超越了依賴海量數(shù)據(jù)訓(xùn)練的現(xiàn)有基線模型。

三、評測:全面驗證,7B 模型刷新視頻推理 SOTA

實驗設(shè)置

為了全方位驗證 Video-Thinker 的視頻推理能力,研究團(tuán)隊構(gòu)建了包含域內(nèi)(In-Domain)與域外(Out-of-Domain)的雙重評估體系。

  • 訓(xùn)練配置: 研究選用 Qwen2.5-VL-7B-Instruct 作為基礎(chǔ)模型。訓(xùn)練過程嚴(yán)格遵循 “兩階段” 范式:首先在 Video-Thinker-10K 數(shù)據(jù)集上進(jìn)行 1 個 epoch 的監(jiān)督微調(diào)(SFT),讓模型習(xí)得結(jié)構(gòu)化的思考格式;隨后引入 GRPO 算法進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,以激發(fā)模型自主視頻推理的潛能。
  • 評測數(shù)據(jù)集:
  • 域內(nèi)評測:基于 ActivityNet、Star、ScaleLong、YouCook2、LVBench 等五個訓(xùn)練數(shù)據(jù)集構(gòu)建了測試集(Held-out test sets),用于評估模型在熟悉領(lǐng)域內(nèi)的表現(xiàn)。
  • 域外評測:精選了 Video-Holmes、CG-Bench-Reasoning、VRBench、SciVideoBench、VideoTT、VideoMME 等六個具有挑戰(zhàn)性的高難度復(fù)雜視頻推理基準(zhǔn),重點(diǎn)考察模型在未知場景下的泛化能力。
  • 基線模型: 對比陣容強(qiáng)大,涵蓋了 InternVL、Qwen2.5-VL 等 5 個主流開源多模態(tài)基礎(chǔ)模型,以及 Video-R1、VideoChat-R1、Temporal-R1 等 12 個開源視頻推理模型,確保了比較的公平性與廣泛性。

總體性能對比

實驗結(jié)果表明,Video-Thinker-7B 在各項視頻推理基準(zhǔn)上均展現(xiàn)出顯著優(yōu)勢,成功確立了 7B 參數(shù)量級模型的新 SOTA(State-of-the-Art)。

  • 核心發(fā)現(xiàn)與數(shù)據(jù)解讀:
  • 域外泛化能力的質(zhì)變: Video-Thinker 在處理未見過的復(fù)雜任務(wù)時表現(xiàn)尤為驚艷。在偵探推理類的 Video-Holmes 榜單上,模型取得了 43.22% 的準(zhǔn)確率,超越了次優(yōu)基線模型 4.68 個百分點(diǎn);在綜合性基準(zhǔn) VRBench 上,準(zhǔn)確率高達(dá) 80.69%,大幅領(lǐng)先最佳基線 11.44%。這充分證明了 Video-Thinker 并非僅僅 “記住” 了訓(xùn)練數(shù)據(jù),而是真正習(xí)得了通過 “定位” 和 “描述” 來解決通用視頻問題的能力。
  • SFT 與 RL 的協(xié)同效應(yīng): 消融實驗揭示了一個關(guān)鍵結(jié)論:僅靠 SFT 無法實現(xiàn)強(qiáng)泛化。Video-Thinker-SFT-7B 版本在多個基準(zhǔn)上的表現(xiàn)甚至低于基礎(chǔ)模型,這說明 SFT 的主要作用在于 “規(guī)范格式”。而隨后的GRPO 強(qiáng)化學(xué)習(xí)階段才是性能飛躍的關(guān)鍵,它使模型在 Video-Holmes 上的性能提升了 11.70%,在 VRBench 上提升了 18.29%。這種 “先通過 SFT 立規(guī)矩,再通過 GRPO 練內(nèi)功” 的組合,被證明是提升大模型復(fù)雜推理能力的必由之路。



推理幀數(shù)魯棒性分析:更高效的時序信息整合

視頻理解往往受限于輸入幀數(shù)。為了探究 Video-Thinker 是否依賴高幀率輸入,團(tuán)隊對比了模型在 16 幀、32 幀和 64 幀設(shè)置下的表現(xiàn)。實驗數(shù)據(jù)表明:

  • 正向的 Scaling Law: 隨著輸入幀數(shù)從 16 增加到 64,絕大多數(shù)模型的性能均呈上升趨勢,說明更豐富的時序信息確實有助于推理。
  • 全方位的性能壓制: 值得注意的是,Video-Thinker-7B 在所有幀數(shù)檔位上均持續(xù)優(yōu)于對比基線(Qwen2.5-VL 和 Video-R1)。即使在僅輸入 16 幀的受限條件下,Video-Thinker 依然能保持高水準(zhǔn)的推理精度。這意味著該模型具備更高效的時序信息整合機(jī)制,無論是在計算資源受限的低幀率場景,還是信息豐富的高幀率場景,都能穩(wěn)定發(fā)揮。



深度歸因分析:定位與描述能力的顯著增強(qiáng)

Video-Thinker 的核心假設(shè)是:強(qiáng)大的視頻推理源于對視頻內(nèi)容的精準(zhǔn) “定位(Grounding)” 和細(xì)致 “描述(Captioning)”。為了驗證這一假設(shè),研究團(tuán)隊不僅評測最終答案的準(zhǔn)確率,還專門針對這兩項中間過程能力進(jìn)行了定量評測。評測結(jié)果表明:

  • 時序定位(Grounding):在要求模型輸出關(guān)鍵時間片段的任務(wù)中,Video-Thinker-7B 的平均交并比(mIoU)達(dá)到了 48.22%,相比基礎(chǔ)模型(27.47%)提升了 75.5%。在 Recall@0.3 指標(biāo)上,Video-Thinker 更是達(dá)到了 79.29%,幾乎是基礎(chǔ)模型的兩倍。這表明模型在回答問題前,確實精準(zhǔn)鎖定了視頻中的關(guān)鍵線索,而非盲目猜測。
  • 內(nèi)容描述(Captioning):在視頻片段描述任務(wù)中,Video-Thinker 在 BLEU、METEOR 和 ROUGE-L 三大指標(biāo)上全面領(lǐng)先。與基礎(chǔ)模型相比,其整體描述質(zhì)量提升了 31.2%;與 Video-R1 相比,提升幅度更是達(dá)到了 61.0%。生成更準(zhǔn)確、更相關(guān)的中間描述,為模型進(jìn)行后續(xù)的邏輯推理提供了堅實的信息基礎(chǔ)。



消融實驗:內(nèi)生能力 vs 外部工具

既然 “定位” 和 “描述” 如此重要,是否可以直接給基礎(chǔ)模型外掛現(xiàn)成的專用工具(如專門的 Grounding 模型或 Captioning 模型)來達(dá)到同樣的效果?研究團(tuán)隊進(jìn)行了一組反直覺但極具價值的對比實驗。

1. 簡單外掛工具的 “負(fù)優(yōu)化” 陷阱:實驗結(jié)果首先打破了 “工具越強(qiáng)效果越好” 的迷思。當(dāng)團(tuán)隊嘗試 “基礎(chǔ)模型 + 即插即用工具(Plug-and-play Tools)” 的組合時,模型性能不升反降。例如,使用 Temporal-R1-7B 配合 SkyCaptioner-V1-8B 時,準(zhǔn)確率跌至 30.58%;即便調(diào)用參數(shù)量大十倍的 Qwen2.5-VL-72B-Instruct 作為專家工具,其 33.96% 的得分依然未能超過僅使用 7B 基礎(chǔ)模型的效果。這表明簡單的工具堆疊會造成信息割裂,導(dǎo)致推理鏈路效率降低。

2. 現(xiàn)有工具調(diào)用方法的局限:為了進(jìn)一步驗證,團(tuán)隊對比了現(xiàn)有的代表性工具使用方法 —— VideoMind-7B。雖然 VideoMind-7B 通過更復(fù)雜的工具調(diào)用策略,將 Video-Holmes 的得分提升到了 38.98%,成功超越了基礎(chǔ)模型和簡單的外掛方案,但相比于 Video-Thinker 它依然存在明顯差距(落后約 4.2%)。這說明即便是成熟的外部工具調(diào)用方式,在信息傳遞的連貫性和推理深度上仍存在天花板。

3. Video-Thinker 內(nèi)生思維鏈的壓倒性優(yōu)勢:最終,通過訓(xùn)練獲得內(nèi)生能力的 Video-Thinker-7B 展現(xiàn)了統(tǒng)治級的表現(xiàn)。它在 Video-Holmes 上取得了 43.22% 的全場最高分(紅色加粗),不僅遠(yuǎn)超外掛工具方案,也顯著優(yōu)于 VideoMind-7B;同時在 VRBench 上更是達(dá)到了 80.69% 的高分。實驗有力地證明,在視頻推理任務(wù)中,將 “感知 - 定位 - 描述 - 推理” 無縫融合的內(nèi)生思維鏈(Endogenous CoT),比簡單的工具堆疊甚至 VideoMind 這種外部調(diào)用方法都更為高效可靠。



四、結(jié)語:內(nèi)生智能引領(lǐng)視頻推理新方向

Video-Thinker 的核心價值,在于打破了 “視頻推理必須依賴外部工具” 的固有認(rèn)知,通過 “高質(zhì)量數(shù)據(jù)合成 + 精準(zhǔn)強(qiáng)化訓(xùn)練” 的全鏈路設(shè)計,讓 MLLM 真正實現(xiàn)內(nèi)生 “時序定位” 與 “片段描述” 能力,實現(xiàn)了端到端的自主視頻思考。其 7B 參數(shù)模型在多領(lǐng)域基準(zhǔn)上刷新 SOTA 的表現(xiàn),證明了視頻推理能力并非依賴 “大參數(shù) + 大數(shù)據(jù)” 的堆砌,而是在于對核心內(nèi)生能力的精準(zhǔn)培養(yǎng)。未來,隨著技術(shù)迭代,Video-Thinker 有望進(jìn)一步集成音頻、字幕等多模態(tài)信息,拓展至小時級長視頻推理場景,讓 “用視頻思考” 成為 MLLM 的基礎(chǔ)能力。這種內(nèi)生智能驅(qū)動的技術(shù)路徑,不僅為視頻推理領(lǐng)域提供了新范式,更將加速 AI 在安防監(jiān)控、智能教育、工業(yè)運(yùn)維等領(lǐng)域的落地應(yīng)用,真正賦能千行百業(yè)的智能化升級。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗最大的內(nèi)鬼浮出水面!

伊朗最大的內(nèi)鬼浮出水面!

仰望星空的一粒沙子
2026-03-01 22:29:18
美軍瞞不住了!炸航母基地,炸11億美元雷達(dá),幾十萬噸燃油被點(diǎn)燃

美軍瞞不住了!炸航母基地,炸11億美元雷達(dá),幾十萬噸燃油被點(diǎn)燃

書紀(jì)文譚
2026-03-01 23:26:27
美以空襲伊朗,阿拉伯國家聯(lián)盟發(fā)聲:“阿拉伯-以色列沖突升級為全面地區(qū)戰(zhàn)爭的時刻”

美以空襲伊朗,阿拉伯國家聯(lián)盟發(fā)聲:“阿拉伯-以色列沖突升級為全面地區(qū)戰(zhàn)爭的時刻”

環(huán)球網(wǎng)資訊
2026-03-01 11:00:18
“大力神”軍機(jī)墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

“大力神”軍機(jī)墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

每日經(jīng)濟(jì)新聞
2026-02-28 14:37:58
特朗普稱美方“基本摧毀”伊朗海軍總部

特朗普稱美方“基本摧毀”伊朗海軍總部

財聯(lián)社
2026-03-02 01:29:13
陸軍總司令遇難,最高領(lǐng)袖已被炸?伊朗報復(fù),第一支援兵出現(xiàn)

陸軍總司令遇難,最高領(lǐng)袖已被炸?伊朗報復(fù),第一支援兵出現(xiàn)

吳欣純Deborah
2026-03-01 12:28:11
“反詐老陳”賬號被封,本人回應(yīng):問心無愧!MCN機(jī)構(gòu):即刻解除所有合約,雙方合作立即終止

“反詐老陳”賬號被封,本人回應(yīng):問心無愧!MCN機(jī)構(gòu):即刻解除所有合約,雙方合作立即終止

都市快報橙柿互動
2026-03-01 07:15:47
20名伊朗女排姑娘,剛創(chuàng)造了62年紀(jì)錄,卻被導(dǎo)彈永遠(yuǎn)留在了訓(xùn)練場

20名伊朗女排姑娘,剛創(chuàng)造了62年紀(jì)錄,卻被導(dǎo)彈永遠(yuǎn)留在了訓(xùn)練場

眼界縱橫
2026-03-01 21:50:28
網(wǎng)友預(yù)測明天早上10點(diǎn)半 deepseek 發(fā)布V4 模型,首次沒給英偉達(dá)權(quán)限,選擇與華為合作

網(wǎng)友預(yù)測明天早上10點(diǎn)半 deepseek 發(fā)布V4 模型,首次沒給英偉達(dá)權(quán)限,選擇與華為合作

風(fēng)向觀察
2026-03-01 17:11:32
女單頒獎!王曼昱領(lǐng)獎杯開心,孫穎莎獲全程歡呼,展可愛一幕!

女單頒獎!王曼昱領(lǐng)獎杯開心,孫穎莎獲全程歡呼,展可愛一幕!

籃球資訊達(dá)人
2026-03-01 20:51:07
真的天塌!拔乳牙竟把孩子2顆恒牙拔掉,鹽城一口腔醫(yī)生整出事故

真的天塌!拔乳牙竟把孩子2顆恒牙拔掉,鹽城一口腔醫(yī)生整出事故

火山詩話
2026-03-01 18:08:52
美國2個月內(nèi)悍然對兩國領(lǐng)導(dǎo)人發(fā)動襲擊,繼委內(nèi)瑞拉、伊朗之后,下一個會是誰?專家:有可能是古巴

美國2個月內(nèi)悍然對兩國領(lǐng)導(dǎo)人發(fā)動襲擊,繼委內(nèi)瑞拉、伊朗之后,下一個會是誰?專家:有可能是古巴

極目新聞
2026-03-01 15:07:54
中國演員度假滯留迪拜,航班一次又一次被取消,發(fā)視頻稱“想回家”

中國演員度假滯留迪拜,航班一次又一次被取消,發(fā)視頻稱“想回家”

上觀新聞
2026-03-01 17:25:04
1971年伊朗花20億干這么愚蠢的事情,最終成為最昂貴的葬禮

1971年伊朗花20億干這么愚蠢的事情,最終成為最昂貴的葬禮

爆角追蹤
2026-03-01 15:28:53
近期,一名中國男子去泰國玩,花6000泰銖找21歲女孩,悲劇發(fā)生了

近期,一名中國男子去泰國玩,花6000泰銖找21歲女孩,悲劇發(fā)生了

鯨探所長
2026-03-01 14:38:25
外媒稱哈梅內(nèi)伊在其工作場所遇害,為何沒躲避?為何能精準(zhǔn)定位?

外媒稱哈梅內(nèi)伊在其工作場所遇害,為何沒躲避?為何能精準(zhǔn)定位?

之乎者也小魚兒
2026-03-01 11:44:00
暴雪藍(lán)色預(yù)警:山西、河北、山東、河南等地部分地區(qū)有暴雪

暴雪藍(lán)色預(yù)警:山西、河北、山東、河南等地部分地區(qū)有暴雪

界面新聞
2026-03-01 10:11:27
A股:大家坐穩(wěn)扶好了,美以伊大沖突,牛市或?qū)⒃俅沃匮輾v史了!

A股:大家坐穩(wěn)扶好了,美以伊大沖突,牛市或?qū)⒃俅沃匮輾v史了!

夜深愛雜談
2026-03-01 19:34:36
哈梅內(nèi)伊:舊時代的最后一個獨(dú)裁者

哈梅內(nèi)伊:舊時代的最后一個獨(dú)裁者

黔有虎
2026-03-01 19:08:14
全線拉升!剛剛,超10萬人爆倉!伊朗總統(tǒng),最新發(fā)聲!伊朗股市按下“暫停鍵”

全線拉升!剛剛,超10萬人爆倉!伊朗總統(tǒng),最新發(fā)聲!伊朗股市按下“暫停鍵”

每日經(jīng)濟(jì)新聞
2026-03-01 19:40:50
2026-03-02 06:11:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

特朗普警告伊朗“不要報復(fù)” 伊朗外長回應(yīng)

頭條要聞

特朗普警告伊朗“不要報復(fù)” 伊朗外長回應(yīng)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

游戲
數(shù)碼
手機(jī)
親子
本地

以《生化危機(jī)》命名?Capcom解答對RE引擎的誤讀

數(shù)碼要聞

曝蘋果WWDC 26將推Core AI框架取代Core ML并公布多項AI功能

手機(jī)要聞

現(xiàn)場直擊!榮耀Robot Phone機(jī)器人手機(jī)長啥樣

親子要聞

帶娃看醫(yī)生,聽懂這幾句話少走90%彎路!

本地新聞

津南好·四時總相宜

無障礙瀏覽 進(jìn)入關(guān)懷版