網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

西澳大學(xué)等聯(lián)合團(tuán)隊(duì)給模型裝上了一套"事件日歷"

2026-04-20 21:52:10　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由西澳大學(xué)、騰訊優(yōu)圖實(shí)驗(yàn)室、香港中文大學(xué)（深圳）、南方科技大學(xué)和莫納什大學(xué)聯(lián)合開展的研究，以預(yù)印本形式于2026年4月6日發(fā)布在arXiv平臺(tái)，論文編號(hào)為arXiv:2604.04415。研究的核心成果是一個(gè)名為Factum-4B的視頻理解模型，以及一套訓(xùn)練它的全新方法體系。

你有沒有想過，當(dāng)一個(gè)人工智能模型"看"一段視頻時(shí)，它究竟在做什么？表面上，它好像在"理解"畫面，但實(shí)際上，現(xiàn)有的大多數(shù)視頻AI都像一個(gè)記憶力不太好的觀眾——?jiǎng)偪赐暌欢?，就忘了前面發(fā)生了什么，更別提推斷出各個(gè)事件之間的前因后果。

這恰恰是當(dāng)前視頻AI領(lǐng)域的核心痛點(diǎn)。研究團(tuán)隊(duì)發(fā)現(xiàn)，那些被設(shè)計(jì)為"會(huì)思考"的AI模型，在處理視頻問題時(shí)往往比普通模型表現(xiàn)更差。這就好比你買了一個(gè)"加強(qiáng)版"學(xué)習(xí)工具，結(jié)果它學(xué)了半天，反而越學(xué)越亂。問題出在哪里？這支研究團(tuán)隊(duì)認(rèn)為，根源在于這些模型沒有建立起一套有條理的"事件日歷"，就直接開始推理，導(dǎo)致思維飄移、證據(jù)丟失、邏輯混亂。

這項(xiàng)研究的解法，借鑒了人類大腦處理視頻的方式。心理學(xué)研究早就發(fā)現(xiàn)，人在理解一段視頻時(shí)，并不是一幀一幀地死記硬背，而是先在腦海里建立一個(gè)結(jié)構(gòu)化的草圖——誰在做什么、在哪里做、大概什么時(shí)間——然后再基于這個(gè)草圖去推理。Factum-4B就是按照這個(gè)思路被設(shè)計(jì)出來的：先建立一份"結(jié)構(gòu)化事件檔案"，再據(jù)此進(jìn)行有據(jù)可查的因果推理。

一、視頻AI的通病：看了又忘，想了又亂

要理解這項(xiàng)研究解決了什么問題，先得搞清楚現(xiàn)有的視頻AI到底哪里出了問題。

現(xiàn)有的視頻大語言模型（也就是那些能回答關(guān)于視頻問題的AI）普遍依賴一種叫做"思維鏈"的方法。這種方法本來是為文字任務(wù)設(shè)計(jì)的：讓AI在給出答案之前，先寫出一步步的推理過程，就像數(shù)學(xué)題的解題步驟一樣。這在純文字任務(wù)上效果不錯(cuò)，但視頻不是文字。

視頻的特點(diǎn)是信息量極度密集，而且充滿了時(shí)間上的冗余。如果你讓AI對(duì)著一段十分鐘的視頻做自由推理，它很容易陷入這樣的困境：花了大量篇幅描述不重要的畫面細(xì)節(jié)，把真正關(guān)鍵的線索淹沒在一堆廢話里；或者跳來跳去地分析幾個(gè)孤立的時(shí)間點(diǎn)，完全沒有把握住事件之間的連續(xù)性和因果關(guān)系。

研究團(tuán)隊(duì)做了一個(gè)直接的實(shí)驗(yàn)驗(yàn)證：他們把同一個(gè)基礎(chǔ)模型分成兩個(gè)版本，一個(gè)是普通的"指令跟隨版"，一個(gè)是加入了自由思維鏈的"思考增強(qiáng)版"。結(jié)果發(fā)現(xiàn)，那個(gè)號(hào)稱更會(huì)思考的版本，在幾乎所有視頻理解測試上都不如普通版本。這個(gè)結(jié)論聽起來反直覺，但背后的道理很清晰：不加約束的思考，在視頻這種高度時(shí)序化的信息面前，只會(huì)制造混亂，而不是帶來洞見。

這就是這支研究團(tuán)隊(duì)要解決的核心問題：如何給AI的"思考"加上一套有意義的框架，讓它既不亂說廢話，又能真正理解視頻里發(fā)生了什么。

二、解法核心：先記"事件日歷"，再推理

研究團(tuán)隊(duì)提出的解法，圍繞一個(gè)他們命名為"結(jié)構(gòu)化事件檔案"（Structured Event Facts）的概念展開。簡單來說，這就是一份關(guān)于視頻的結(jié)構(gòu)化摘要，在AI開始回答任何問題之前，必須先把這份摘要寫完。

這份摘要的格式非常具體。對(duì)于視頻中的每一個(gè)時(shí)間段（大約每10到30秒一段），AI必須記錄下以下六類信息：時(shí)間段的起止時(shí)間、畫面中出現(xiàn)的人物、人物的具體動(dòng)作、所處的場景、畫面中的關(guān)鍵物體、攝像機(jī)的運(yùn)動(dòng)方式，以及一段把上述所有信息整合在一起的事件描述。

以論文中的示例為例——一段關(guān)于在停車場鏟雪的視頻——AI會(huì)先寫下類似這樣的檔案：在0到39秒，一位穿黑色外套的女士用鏟子清理人行道上的積雪，手持?jǐn)z像機(jī)跟隨拍攝；在39到100秒，一位戴王冠、穿米色夾克的男士進(jìn)入停車場，開始鏟除一輛銀色汽車引擎蓋上的積雪……如此逐段記錄，直到視頻結(jié)束。

有了這份"事件日歷"，AI在回答"這個(gè)人什么時(shí)候開始鏟地上的雪"這類問題時(shí)，就不再需要憑印象瞎猜，而是可以像偵探翻閱案件筆記一樣，逐條核對(duì)檔案，找出符合條件的時(shí)間段，然后通過檢驗(yàn)前后事件的邏輯連貫性來確認(rèn)答案。

研究團(tuán)隊(duì)把后續(xù)的推理過程也設(shè)計(jì)得同樣有條理，分為三個(gè)步驟。第一步叫"全局搜索與定位"：AI在事件檔案中尋找與問題相關(guān)的關(guān)鍵詞，快速鎖定候選的時(shí)間段。第二步叫"因果驗(yàn)證"：AI檢查候選時(shí)間段的前一段和后一段，確認(rèn)這個(gè)時(shí)間段在整個(gè)事件鏈中是否說得通——前面有沒有合理的鋪墊，后面有沒有合理的延續(xù)。第三步叫"最終對(duì)齊"：AI進(jìn)行全局一致性檢查，確保推斷出的時(shí)間范圍真的包含在觀察到的活動(dòng)序列之內(nèi)。

這三步放在一起，構(gòu)成了一套從"找線索"到"驗(yàn)線索"再到"得結(jié)論"的完整推理流程，而不是像以前那樣?xùn)|一句西一句地亂想。

三、數(shù)據(jù)工程：60000條訓(xùn)練樣本是怎么造出來的

有了好的設(shè)計(jì)思路，還得有足夠高質(zhì)量的訓(xùn)練數(shù)據(jù)，模型才能真正學(xué)會(huì)這套方法。研究團(tuán)隊(duì)為此專門構(gòu)建了一個(gè)名為CausalFact-60K的數(shù)據(jù)集，總計(jì)包含32049條視頻樣本和約60000條標(biāo)注。

數(shù)據(jù)來源方面，研究團(tuán)隊(duì)從多個(gè)高質(zhì)量的視頻時(shí)序理解數(shù)據(jù)集中篩選素材，包括ActivityNet-Captions、QVHighlights、COIN、Charades-STA等，所有視頻均來自這些數(shù)據(jù)集的訓(xùn)練集，不使用原始的文字標(biāo)注。為確保數(shù)據(jù)密度，團(tuán)隊(duì)設(shè)定了一個(gè)篩選標(biāo)準(zhǔn)：一段150秒的視頻，至少要包含5個(gè)標(biāo)注事件，才夠資格進(jìn)入訓(xùn)練集。那些事件密度不夠的視頻不會(huì)被完全丟棄，而是被保留下來用于后續(xù)的強(qiáng)化學(xué)習(xí)階段。

數(shù)據(jù)標(biāo)注過程分為兩大階段。第一階段專注于生成結(jié)構(gòu)化事件檔案。團(tuán)隊(duì)使用了兩個(gè)當(dāng)時(shí)最強(qiáng)大的視覺語言模型交替工作：Qwen3-VL-235B負(fù)責(zé)生成初稿，Gemini 2.5 Pro負(fù)責(zé)審核和質(zhì)量打分；然后兩者對(duì)換角色，讓生成方和審核方相互牽制，避免任何一個(gè)模型的偏好污染數(shù)據(jù)質(zhì)量。生成好的檔案還會(huì)經(jīng)過人工抽樣檢查，每批1000條樣本中隨機(jī)抽取500條進(jìn)行人工核驗(yàn)。

第二階段在已有事件檔案的基礎(chǔ)上生成推理思維鏈。由于思維鏈對(duì)邏輯質(zhì)量的要求更高，這個(gè)階段只使用Gemini 2.5 Pro作為生成器，Qwen3-VL擔(dān)任質(zhì)量審核員。流程同樣包含人工抽樣檢查。

在任務(wù)類型分布上，這批訓(xùn)練數(shù)據(jù)以時(shí)序定位任務(wù)為主，占53%，因?yàn)檫@類任務(wù)有明確的時(shí)間重疊率（IoU）作為評(píng)判標(biāo)準(zhǔn)，能給強(qiáng)化學(xué)習(xí)提供穩(wěn)定的獎(jiǎng)勵(lì)信號(hào)?？臻g問答和推理問答各占約21%和20%，確保模型不只會(huì)定位時(shí)間，還保有基本的語義理解能力。剩余少量任務(wù)包括時(shí)序問答、全局描述和局部描述，起到補(bǔ)充覆蓋的作用。

四、四階段訓(xùn)練：從"認(rèn)字"到"寫作文"

拿到了數(shù)據(jù)，研究團(tuán)隊(duì)面臨的下一個(gè)問題是：怎么把這些能力一步步注入模型？如果一上來就讓模型學(xué)"先寫檔案、再推理、再給答案"這一整套流程，模型會(huì)因?yàn)槿蝿?wù)太難而直接崩潰——要么檔案寫得一團(tuán)糟，要么推理過程毫無結(jié)構(gòu)，兩者兼顧根本學(xué)不會(huì)。

解決辦法是把訓(xùn)練拆成四個(gè)漸進(jìn)式階段，就像學(xué)寫文章要先認(rèn)字、再造句、再寫段落、再寫完整作文一樣。

第一階段專注于讓模型學(xué)會(huì)"寫事件檔案"。這個(gè)階段的任務(wù)只有一件事：給模型看視頻，讓它輸出格式正確、內(nèi)容準(zhǔn)確的結(jié)構(gòu)化事件描述。沒有任何推理，純粹是訓(xùn)練模型的結(jié)構(gòu)化感知能力。

第一階段半是一個(gè)過渡步驟，研究團(tuán)隊(duì)稱之為"格式預(yù)熱"。這個(gè)階段的任務(wù)內(nèi)容和第一階段一模一樣——還是寫事件檔案——但輸出格式變了：模型現(xiàn)在必須把檔案放在特定的XML標(biāo)簽里，后面再跟著一個(gè)思考標(biāo)簽和一個(gè)回答標(biāo)簽，只是思考內(nèi)容暫時(shí)是個(gè)空占位符。這看起來微不足道，但實(shí)踐發(fā)現(xiàn)如果跳過這步，模型在下一階段會(huì)產(chǎn)生大量格式錯(cuò)誤，就像要求一個(gè)從沒寫過格式文件的人突然交出規(guī)范的合同一樣。

第二階段是"思維預(yù)熱"。這時(shí)候，訓(xùn)練數(shù)據(jù)換成了真實(shí)的視頻問答任務(wù)，模型需要先生成事件檔案，再按照三步推理框架（全局搜索、因果驗(yàn)證、最終對(duì)齊）寫出完整的推理過程，最后給出答案。通過第一和第一半階段的鋪墊，模型這時(shí)候已經(jīng)有了足夠的基礎(chǔ)來學(xué)習(xí)這套完整流程。

第三階段是強(qiáng)化學(xué)習(xí)階段，也是整個(gè)訓(xùn)練體系最復(fù)雜的部分，后面會(huì)專門展開講。

五、獎(jiǎng)勵(lì)機(jī)制：如何評(píng)判AI的"答卷"質(zhì)量

在強(qiáng)化學(xué)習(xí)階段，AI需要知道自己做對(duì)了還是做錯(cuò)了，才能改進(jìn)。研究團(tuán)隊(duì)設(shè)計(jì)了四類獎(jiǎng)勵(lì)信號(hào)，分別衡量AI回答的不同維度。

第一類是格式獎(jiǎng)勵(lì)，檢查AI的回答是否嚴(yán)格遵守了"事件檔案+思考過程+最終答案"的結(jié)構(gòu)，以及思考過程里是否包含了"全局搜索"、"因果驗(yàn)證"、"最終對(duì)齊"、"前因"、"視覺驗(yàn)證"、"后果"這六個(gè)關(guān)鍵詞。格式完全正確得滿分1.0，只滿足基本格式要求但缺少關(guān)鍵詞得0.5分，格式完全錯(cuò)誤得0分。

第二類是時(shí)序定位獎(jiǎng)勵(lì)，用于時(shí)間段定位類任務(wù)。評(píng)判標(biāo)準(zhǔn)是AI預(yù)測的時(shí)間段與正確答案的重疊程度。如果AI預(yù)測的是單個(gè)連續(xù)時(shí)間段，但正確答案是多個(gè)不連續(xù)片段，系統(tǒng)會(huì)取"覆蓋率"和"區(qū)間重疊率"中較高的一個(gè)分?jǐn)?shù)，避免因?yàn)楦袷讲町惗e(cuò)誤懲罰了實(shí)質(zhì)正確的答案。

第三類是多項(xiàng)選擇準(zhǔn)確率，用于選擇題類任務(wù)，非零即一，選對(duì)了就是滿分，選錯(cuò)了就是零分。

第四類是長度獎(jiǎng)勵(lì)，這是最有趣的一個(gè)設(shè)計(jì)。研究團(tuán)隊(duì)發(fā)現(xiàn)，讓AI在寫完整推理鏈的同時(shí)保持簡潔，是一件很難的事。如果任由AI自由生成，它很容易變成一個(gè)"廢話大王"，把簡單問題寫成論文。為此團(tuán)隊(duì)設(shè)計(jì)了一個(gè)"軟懲罰"機(jī)制：在目標(biāo)長度以內(nèi)不扣分，超過目標(biāo)長度之后按比例線性扣分，超過上限則直接給零分。這比一刀切的硬截?cái)嘁獪睾偷枚?，不?huì)造成訓(xùn)練的不穩(wěn)定。

六、平衡的難題：強(qiáng)化學(xué)習(xí)遇上多目標(biāo)沖突

四類獎(jiǎng)勵(lì)聽起來很全面，但同時(shí)優(yōu)化它們卻帶來了一個(gè)頭疼的問題。研究團(tuán)隊(duì)發(fā)現(xiàn)，這四個(gè)目標(biāo)之間存在天然的緊張關(guān)系——特別是"內(nèi)容完整性"和"長度效率"之間的矛盾。要寫一份完整、詳細(xì)的事件檔案，必然需要更多的篇幅；但長度獎(jiǎng)勵(lì)又在懲罰過長的輸出。這兩個(gè)目標(biāo)在拉鋸，導(dǎo)致模型在訓(xùn)練時(shí)無所適從。

傳統(tǒng)的解決方法是把多個(gè)獎(jiǎng)勵(lì)加權(quán)求和，化為一個(gè)綜合分?jǐn)?shù)。但這種方法有一個(gè)根本缺陷：權(quán)重是固定的，而實(shí)際訓(xùn)練過程中不同獎(jiǎng)勵(lì)信號(hào)之間的相對(duì)重要性會(huì)動(dòng)態(tài)變化。固定權(quán)重往往會(huì)讓模型傾向于把容易拿高分的獎(jiǎng)勵(lì)做到極致，而忽視那些本來更稀缺、更關(guān)鍵的信號(hào)。

研究團(tuán)隊(duì)借鑒了一種叫做"多梯度下降算法"（MGDA）的數(shù)學(xué)工具，提出了他們自己的解法，稱為"帕累托前沿引導(dǎo)優(yōu)勢平衡"算法，簡稱P-FAB。

這個(gè)名字聽起來很嚇人，但核心思想可以用一個(gè)簡單的比喻來理解。假設(shè)你在組織一支四人樂隊(duì)，四個(gè)人分別代表格式、準(zhǔn)確性、因果完整性和簡潔性四個(gè)目標(biāo)。每個(gè)人都有自己想要演奏的方向，如果四個(gè)人各說各話，演出就會(huì)一團(tuán)糟。P-FAB的作用，就是找出一個(gè)指揮方向，讓這四個(gè)人都往同一個(gè)方向走，同時(shí)確保那些平時(shí)搶不到話語權(quán)的成員（比如因果完整性這個(gè)難以滿足的目標(biāo)）能得到更多關(guān)注。

具體在數(shù)學(xué)上，P-FAB的做法是這樣的：先對(duì)每個(gè)獎(jiǎng)勵(lì)信號(hào)做中心化處理，消除基準(zhǔn)差異；再對(duì)各信號(hào)做標(biāo)準(zhǔn)化處理，消除量綱不同帶來的影響；然后用一個(gè)叫"弗蘭克-沃爾夫算法"的迭代方法，在標(biāo)準(zhǔn)化空間里尋找一組權(quán)重，使得加權(quán)后的綜合方向?qū)λ心繕?biāo)都盡可能有利，而不是偏向某一個(gè)。

最終得到的權(quán)重是動(dòng)態(tài)的——每一批訓(xùn)練數(shù)據(jù)，權(quán)重都會(huì)重新計(jì)算。那些當(dāng)前表現(xiàn)較差、信號(hào)稀疏的目標(biāo)會(huì)自動(dòng)獲得更高的權(quán)重，從而得到更多關(guān)注；那些已經(jīng)做得不錯(cuò)的目標(biāo)則適當(dāng)降權(quán)。這就像一個(gè)有彈性的管理系統(tǒng)，總是把資源優(yōu)先投入到最需要改進(jìn)的地方。

論文中給出了一個(gè)對(duì)比示例：同樣一組訓(xùn)練樣本，在傳統(tǒng)GRPO方法下，四個(gè)不同的候選回答可能計(jì)算出完全相同的優(yōu)勢值，模型根本無法區(qū)分它們的高下；而P-FAB方法下，四個(gè)樣本得到了明顯不同的分?jǐn)?shù)，讓模型能夠清晰地判斷哪個(gè)方向值得追求。

七、實(shí)驗(yàn)結(jié)果：小模型的大表現(xiàn)

Factum-4B是以Qwen3-VL-4B-Instruct為基礎(chǔ)模型訓(xùn)練出來的，參數(shù)量只有40億，屬于相當(dāng)輕量的規(guī)模。研究團(tuán)隊(duì)在多個(gè)視頻理解基準(zhǔn)測試上進(jìn)行了評(píng)估，結(jié)果出人意料地強(qiáng)勢。

在視頻時(shí)序定位任務(wù)上，研究團(tuán)隊(duì)測試了三個(gè)數(shù)據(jù)集：Charades-TimeLens（一個(gè)重新標(biāo)注了高質(zhì)量時(shí)間戳的室內(nèi)活動(dòng)視頻集）、ActivityNet-TimeLens（重新標(biāo)注了更精確邊界的開放域視頻集）以及ActivityNet-Captions（一個(gè)廣泛使用的大規(guī)?；鶞?zhǔn)）。評(píng)判指標(biāo)是"Recall@1"，即AI給出的最優(yōu)預(yù)測答案與正確答案的時(shí)間重疊率超過某個(gè)閾值的比例，閾值分別為0.3、0.5和0.7——閾值越高，對(duì)精度的要求越嚴(yán)格。

在ActivityNet-Captions上，F(xiàn)actum-4B的R1@0.5達(dá)到48.4%，R1@0.7達(dá)到28.1%，大幅超過了參數(shù)量更大的Time-R1-7B模型（后者R1@0.5僅39.0%，R1@0.7僅21.4%）。在高精度指標(biāo)R1@0.7上，F(xiàn)actum-4B在所有開源模型中排名第一。更值得注意的是，F(xiàn)actum-4B使用的幀率僅為每秒1幀，而對(duì)比的開源模型普遍使用每秒2幀，相當(dāng)于Factum-4B用更少的視覺信息取得了更好的結(jié)果。

在通用視頻理解基準(zhǔn)上，研究團(tuán)隊(duì)還測試了VideoMME（涵蓋電影、體育、紀(jì)錄片的長視頻評(píng)測集）、MLVU（面向長視頻的多任務(wù)評(píng)測集）、ETBench（細(xì)粒度時(shí)間敏感視頻理解基準(zhǔn)）和NExT-GQA（基于因果和時(shí)序問答的視覺定位基準(zhǔn)）。

Factum-4B在VideoMME上達(dá)到64.7%的準(zhǔn)確率，在NExT-GQA上達(dá)到73.6%，比同參數(shù)量的Qwen3-VL-4B-Thinking版本高出整整7個(gè)百分點(diǎn)。在ETBench的8個(gè)子任務(wù)中，F(xiàn)actum-4B在6個(gè)上取得了最高分，其中時(shí)序視頻定位子任務(wù)得分66.1%，時(shí)序事件匹配子任務(wù)得分26.8%，后者甚至超過了專有閉源模型GPT-4o。

消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了每個(gè)設(shè)計(jì)模塊的貢獻(xiàn)。去掉事件檔案只保留推理過程，VideoMME準(zhǔn)確率從64.7%跌至60.8%；去掉推理過程只保留事件檔案，準(zhǔn)確率跌至58.5%，是所有變體中跌幅最大的，說明如果沒有推理橋梁，檔案里的信息也無法被有效利用。去掉強(qiáng)化學(xué)習(xí)只用監(jiān)督微調(diào)，ActivityNet R1@0.3比完整模型低8.3個(gè)百分點(diǎn)。將P-FAB替換為普通GRPO，在group size為4時(shí)性能差距為1.2個(gè)百分點(diǎn)，在group size為8時(shí)差距擴(kuò)大到2.5個(gè)百分點(diǎn)，表明P-FAB的優(yōu)勢在更大規(guī)模的對(duì)比組設(shè)置下更加突出。

八、這項(xiàng)研究的邊界與展望

研究團(tuán)隊(duì)在論文中也坦率地指出了當(dāng)前工作的局限性。Factum-4B的訓(xùn)練數(shù)據(jù)規(guī)模仍然有限，總共只有約32000個(gè)視頻樣本，相比業(yè)界頭部模型的訓(xùn)練規(guī)模還有相當(dāng)大的差距。這意味著模型在某些特定類型的視頻任務(wù)上可能表現(xiàn)不穩(wěn)定，要想在所有視頻理解任務(wù)上都取得優(yōu)異表現(xiàn)，需要進(jìn)一步擴(kuò)展數(shù)據(jù)規(guī)模。

此外，這項(xiàng)研究目前聚焦于視頻時(shí)序理解和因果推理方向，對(duì)于純粹的空間理解（比如精確定位畫面中的物體位置）、復(fù)雜的多輪對(duì)話或需要外部知識(shí)的問答，尚未進(jìn)行系統(tǒng)性探索。

從更宏觀的視角來看，這項(xiàng)研究揭示了一個(gè)有趣的認(rèn)知科學(xué)啟示：人工智能的設(shè)計(jì)越接近人類認(rèn)知的實(shí)際工作方式，往往就越有效。人類不是靠強(qiáng)大的蠻力逐幀記憶視頻，而是靠構(gòu)建有意義的事件結(jié)構(gòu)來理解視頻；AI也不應(yīng)該靠無結(jié)構(gòu)的冗長推理來處理視頻，而應(yīng)該先建立結(jié)構(gòu)化的認(rèn)知地圖，再在地圖上尋路。

歸根結(jié)底，這項(xiàng)研究做的事情可以用一句話概括：它給AI看視頻時(shí)加上了一個(gè)"先記筆記、再動(dòng)筆答題"的習(xí)慣。這個(gè)習(xí)慣看起來簡單，卻解決了長期困擾視頻AI的核心難題——如何在時(shí)間維度上保持因果邏輯的連貫性。

以前的視頻AI像一個(gè)只會(huì)隨手亂寫讀書筆記的學(xué)生，內(nèi)容散亂、重點(diǎn)不突出、前后矛盾；Factum-4B更像一個(gè)養(yǎng)成了良好學(xué)習(xí)習(xí)慣的學(xué)生，每次讀完一段就整理好時(shí)間線，標(biāo)注好關(guān)鍵事件，然后再基于這份有條理的筆記去回答問題。成績的差距，從實(shí)驗(yàn)數(shù)據(jù)來看是顯而易見的。

對(duì)于普通人來說，這項(xiàng)研究離日常生活的距離或許比想象中近得多。視頻內(nèi)容的智能檢索、安防攝像頭的行為分析、體育比賽的自動(dòng)解說、醫(yī)療手術(shù)視頻的質(zhì)量審查——所有這些應(yīng)用場景都需要AI不僅能"看到"視頻中發(fā)生了什么，更要能理解事件之間的時(shí)間順序和因果關(guān)系。Factum-4B的方法提供了一條可擴(kuò)展的路徑，而且它用一個(gè)40億參數(shù)的小模型就做到了許多70億參數(shù)模型做不到的事情，這對(duì)于資源有限的研究者和開發(fā)者來說是一個(gè)頗具參考價(jià)值的信號(hào)。

對(duì)這項(xiàng)研究感興趣的讀者，可以通過arXiv編號(hào)2604.04415查閱完整論文，論文題目為"Structured Causal Video Reasoning via Multi-Objective Alignment"。

Q&A

Q1：Factum-4B的"結(jié)構(gòu)化事件檔案"和普通視頻字幕有什么區(qū)別？

A：普通視頻字幕通常是對(duì)畫面的自由描述，格式隨意，內(nèi)容可能冗長也可能遺漏關(guān)鍵信息。Factum-4B的結(jié)構(gòu)化事件檔案則嚴(yán)格要求每個(gè)時(shí)間段必須記錄六類信息：人物、動(dòng)作、場景、物體、攝像機(jī)運(yùn)動(dòng)和事件描述，格式固定且每類信息都有明確的填寫規(guī)則（比如畫面中沒有人時(shí)，動(dòng)作一欄必須寫"None"）。這種強(qiáng)制結(jié)構(gòu)確保了檔案的信息密度和格式一致性，也讓后續(xù)的推理過程有可靠的依據(jù)可查，而不是在模糊描述中猜測。

Q2：P-FAB算法為什么比傳統(tǒng)的多獎(jiǎng)勵(lì)加權(quán)方法更有效？

A：傳統(tǒng)方法把多個(gè)獎(jiǎng)勵(lì)信號(hào)乘以固定權(quán)重后加總，得到一個(gè)綜合分?jǐn)?shù)。這有兩個(gè)問題：權(quán)重固定意味著無法適應(yīng)訓(xùn)練過程中不同目標(biāo)的動(dòng)態(tài)變化；加總之后不同目標(biāo)之間的差異被抹平，模型看不出哪些樣本在哪些方面更優(yōu)秀。P-FAB在標(biāo)準(zhǔn)化空間里動(dòng)態(tài)計(jì)算權(quán)重，確保稀缺的、難以滿足的目標(biāo)獲得更多關(guān)注，同時(shí)為每個(gè)訓(xùn)練樣本生成更有區(qū)分度的優(yōu)勢值，讓模型在正確的方向上學(xué)習(xí)。

Q3：Factum-4B在視頻理解上比GPT-4o強(qiáng)在哪里？

A：Factum-4B并不是全面超越GPT-4o，而是在特定的時(shí)間敏感任務(wù)上表現(xiàn)更優(yōu)。具體來說，在ETBench基準(zhǔn)的時(shí)序事件匹配子任務(wù)上，F(xiàn)actum-4B得分26.8%，高于GPT-4o的13.6%；在時(shí)序視頻定位子任務(wù)上同樣領(lǐng)先。這主要得益于Factum-4B專門針對(duì)時(shí)間因果推理進(jìn)行了優(yōu)化訓(xùn)練，而通用大模型在這類精細(xì)化時(shí)序任務(wù)上并不具備專項(xiàng)優(yōu)勢。不過在其他通用理解任務(wù)上，GPT-4o等大型閉源模型整體上仍有較大優(yōu)勢。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.