国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

西澳大學(xué)等聯(lián)合團(tuán)隊(duì)給模型裝上了一套"事件日歷"

0
分享至


這項(xiàng)由西澳大學(xué)、騰訊優(yōu)圖實(shí)驗(yàn)室、香港中文大學(xué)(深圳)、南方科技大學(xué)和莫納什大學(xué)聯(lián)合開展的研究,以預(yù)印本形式于2026年4月6日發(fā)布在arXiv平臺(tái),論文編號(hào)為arXiv:2604.04415。研究的核心成果是一個(gè)名為Factum-4B的視頻理解模型,以及一套訓(xùn)練它的全新方法體系。

你有沒有想過,當(dāng)一個(gè)人工智能模型"看"一段視頻時(shí),它究竟在做什么?表面上,它好像在"理解"畫面,但實(shí)際上,現(xiàn)有的大多數(shù)視頻AI都像一個(gè)記憶力不太好的觀眾——?jiǎng)偪赐暌欢?,就忘了前面發(fā)生了什么,更別提推斷出各個(gè)事件之間的前因后果。

這恰恰是當(dāng)前視頻AI領(lǐng)域的核心痛點(diǎn)。研究團(tuán)隊(duì)發(fā)現(xiàn),那些被設(shè)計(jì)為"會(huì)思考"的AI模型,在處理視頻問題時(shí)往往比普通模型表現(xiàn)更差。這就好比你買了一個(gè)"加強(qiáng)版"學(xué)習(xí)工具,結(jié)果它學(xué)了半天,反而越學(xué)越亂。問題出在哪里?這支研究團(tuán)隊(duì)認(rèn)為,根源在于這些模型沒有建立起一套有條理的"事件日歷",就直接開始推理,導(dǎo)致思維飄移、證據(jù)丟失、邏輯混亂。

這項(xiàng)研究的解法,借鑒了人類大腦處理視頻的方式。心理學(xué)研究早就發(fā)現(xiàn),人在理解一段視頻時(shí),并不是一幀一幀地死記硬背,而是先在腦海里建立一個(gè)結(jié)構(gòu)化的草圖——誰在做什么、在哪里做、大概什么時(shí)間——然后再基于這個(gè)草圖去推理。Factum-4B就是按照這個(gè)思路被設(shè)計(jì)出來的:先建立一份"結(jié)構(gòu)化事件檔案",再據(jù)此進(jìn)行有據(jù)可查的因果推理。

一、視頻AI的通病:看了又忘,想了又亂

要理解這項(xiàng)研究解決了什么問題,先得搞清楚現(xiàn)有的視頻AI到底哪里出了問題。

現(xiàn)有的視頻大語言模型(也就是那些能回答關(guān)于視頻問題的AI)普遍依賴一種叫做"思維鏈"的方法。這種方法本來是為文字任務(wù)設(shè)計(jì)的:讓AI在給出答案之前,先寫出一步步的推理過程,就像數(shù)學(xué)題的解題步驟一樣。這在純文字任務(wù)上效果不錯(cuò),但視頻不是文字。

視頻的特點(diǎn)是信息量極度密集,而且充滿了時(shí)間上的冗余。如果你讓AI對(duì)著一段十分鐘的視頻做自由推理,它很容易陷入這樣的困境:花了大量篇幅描述不重要的畫面細(xì)節(jié),把真正關(guān)鍵的線索淹沒在一堆廢話里;或者跳來跳去地分析幾個(gè)孤立的時(shí)間點(diǎn),完全沒有把握住事件之間的連續(xù)性和因果關(guān)系。

研究團(tuán)隊(duì)做了一個(gè)直接的實(shí)驗(yàn)驗(yàn)證:他們把同一個(gè)基礎(chǔ)模型分成兩個(gè)版本,一個(gè)是普通的"指令跟隨版",一個(gè)是加入了自由思維鏈的"思考增強(qiáng)版"。結(jié)果發(fā)現(xiàn),那個(gè)號(hào)稱更會(huì)思考的版本,在幾乎所有視頻理解測試上都不如普通版本。這個(gè)結(jié)論聽起來反直覺,但背后的道理很清晰:不加約束的思考,在視頻這種高度時(shí)序化的信息面前,只會(huì)制造混亂,而不是帶來洞見。

這就是這支研究團(tuán)隊(duì)要解決的核心問題:如何給AI的"思考"加上一套有意義的框架,讓它既不亂說廢話,又能真正理解視頻里發(fā)生了什么。

二、解法核心:先記"事件日歷",再推理

研究團(tuán)隊(duì)提出的解法,圍繞一個(gè)他們命名為"結(jié)構(gòu)化事件檔案"(Structured Event Facts)的概念展開。簡單來說,這就是一份關(guān)于視頻的結(jié)構(gòu)化摘要,在AI開始回答任何問題之前,必須先把這份摘要寫完。

這份摘要的格式非常具體。對(duì)于視頻中的每一個(gè)時(shí)間段(大約每10到30秒一段),AI必須記錄下以下六類信息:時(shí)間段的起止時(shí)間、畫面中出現(xiàn)的人物、人物的具體動(dòng)作、所處的場景、畫面中的關(guān)鍵物體、攝像機(jī)的運(yùn)動(dòng)方式,以及一段把上述所有信息整合在一起的事件描述。

以論文中的示例為例——一段關(guān)于在停車場鏟雪的視頻——AI會(huì)先寫下類似這樣的檔案:在0到39秒,一位穿黑色外套的女士用鏟子清理人行道上的積雪,手持?jǐn)z像機(jī)跟隨拍攝;在39到100秒,一位戴王冠、穿米色夾克的男士進(jìn)入停車場,開始鏟除一輛銀色汽車引擎蓋上的積雪……如此逐段記錄,直到視頻結(jié)束。

有了這份"事件日歷",AI在回答"這個(gè)人什么時(shí)候開始鏟地上的雪"這類問題時(shí),就不再需要憑印象瞎猜,而是可以像偵探翻閱案件筆記一樣,逐條核對(duì)檔案,找出符合條件的時(shí)間段,然后通過檢驗(yàn)前后事件的邏輯連貫性來確認(rèn)答案。

研究團(tuán)隊(duì)把后續(xù)的推理過程也設(shè)計(jì)得同樣有條理,分為三個(gè)步驟。第一步叫"全局搜索與定位":AI在事件檔案中尋找與問題相關(guān)的關(guān)鍵詞,快速鎖定候選的時(shí)間段。第二步叫"因果驗(yàn)證":AI檢查候選時(shí)間段的前一段和后一段,確認(rèn)這個(gè)時(shí)間段在整個(gè)事件鏈中是否說得通——前面有沒有合理的鋪墊,后面有沒有合理的延續(xù)。第三步叫"最終對(duì)齊":AI進(jìn)行全局一致性檢查,確保推斷出的時(shí)間范圍真的包含在觀察到的活動(dòng)序列之內(nèi)。

這三步放在一起,構(gòu)成了一套從"找線索"到"驗(yàn)線索"再到"得結(jié)論"的完整推理流程,而不是像以前那樣?xùn)|一句西一句地亂想。

三、數(shù)據(jù)工程:60000條訓(xùn)練樣本是怎么造出來的

有了好的設(shè)計(jì)思路,還得有足夠高質(zhì)量的訓(xùn)練數(shù)據(jù),模型才能真正學(xué)會(huì)這套方法。研究團(tuán)隊(duì)為此專門構(gòu)建了一個(gè)名為CausalFact-60K的數(shù)據(jù)集,總計(jì)包含32049條視頻樣本和約60000條標(biāo)注。

數(shù)據(jù)來源方面,研究團(tuán)隊(duì)從多個(gè)高質(zhì)量的視頻時(shí)序理解數(shù)據(jù)集中篩選素材,包括ActivityNet-Captions、QVHighlights、COIN、Charades-STA等,所有視頻均來自這些數(shù)據(jù)集的訓(xùn)練集,不使用原始的文字標(biāo)注。為確保數(shù)據(jù)密度,團(tuán)隊(duì)設(shè)定了一個(gè)篩選標(biāo)準(zhǔn):一段150秒的視頻,至少要包含5個(gè)標(biāo)注事件,才夠資格進(jìn)入訓(xùn)練集。那些事件密度不夠的視頻不會(huì)被完全丟棄,而是被保留下來用于后續(xù)的強(qiáng)化學(xué)習(xí)階段。

數(shù)據(jù)標(biāo)注過程分為兩大階段。第一階段專注于生成結(jié)構(gòu)化事件檔案。團(tuán)隊(duì)使用了兩個(gè)當(dāng)時(shí)最強(qiáng)大的視覺語言模型交替工作:Qwen3-VL-235B負(fù)責(zé)生成初稿,Gemini 2.5 Pro負(fù)責(zé)審核和質(zhì)量打分;然后兩者對(duì)換角色,讓生成方和審核方相互牽制,避免任何一個(gè)模型的偏好污染數(shù)據(jù)質(zhì)量。生成好的檔案還會(huì)經(jīng)過人工抽樣檢查,每批1000條樣本中隨機(jī)抽取500條進(jìn)行人工核驗(yàn)。

第二階段在已有事件檔案的基礎(chǔ)上生成推理思維鏈。由于思維鏈對(duì)邏輯質(zhì)量的要求更高,這個(gè)階段只使用Gemini 2.5 Pro作為生成器,Qwen3-VL擔(dān)任質(zhì)量審核員。流程同樣包含人工抽樣檢查。

在任務(wù)類型分布上,這批訓(xùn)練數(shù)據(jù)以時(shí)序定位任務(wù)為主,占53%,因?yàn)檫@類任務(wù)有明確的時(shí)間重疊率(IoU)作為評(píng)判標(biāo)準(zhǔn),能給強(qiáng)化學(xué)習(xí)提供穩(wěn)定的獎(jiǎng)勵(lì)信號(hào)??臻g問答和推理問答各占約21%和20%,確保模型不只會(huì)定位時(shí)間,還保有基本的語義理解能力。剩余少量任務(wù)包括時(shí)序問答、全局描述和局部描述,起到補(bǔ)充覆蓋的作用。

四、四階段訓(xùn)練:從"認(rèn)字"到"寫作文"

拿到了數(shù)據(jù),研究團(tuán)隊(duì)面臨的下一個(gè)問題是:怎么把這些能力一步步注入模型?如果一上來就讓模型學(xué)"先寫檔案、再推理、再給答案"這一整套流程,模型會(huì)因?yàn)槿蝿?wù)太難而直接崩潰——要么檔案寫得一團(tuán)糟,要么推理過程毫無結(jié)構(gòu),兩者兼顧根本學(xué)不會(huì)。

解決辦法是把訓(xùn)練拆成四個(gè)漸進(jìn)式階段,就像學(xué)寫文章要先認(rèn)字、再造句、再寫段落、再寫完整作文一樣。

第一階段專注于讓模型學(xué)會(huì)"寫事件檔案"。這個(gè)階段的任務(wù)只有一件事:給模型看視頻,讓它輸出格式正確、內(nèi)容準(zhǔn)確的結(jié)構(gòu)化事件描述。沒有任何推理,純粹是訓(xùn)練模型的結(jié)構(gòu)化感知能力。

第一階段半是一個(gè)過渡步驟,研究團(tuán)隊(duì)稱之為"格式預(yù)熱"。這個(gè)階段的任務(wù)內(nèi)容和第一階段一模一樣——還是寫事件檔案——但輸出格式變了:模型現(xiàn)在必須把檔案放在特定的XML標(biāo)簽里,后面再跟著一個(gè)思考標(biāo)簽和一個(gè)回答標(biāo)簽,只是思考內(nèi)容暫時(shí)是個(gè)空占位符。這看起來微不足道,但實(shí)踐發(fā)現(xiàn)如果跳過這步,模型在下一階段會(huì)產(chǎn)生大量格式錯(cuò)誤,就像要求一個(gè)從沒寫過格式文件的人突然交出規(guī)范的合同一樣。

第二階段是"思維預(yù)熱"。這時(shí)候,訓(xùn)練數(shù)據(jù)換成了真實(shí)的視頻問答任務(wù),模型需要先生成事件檔案,再按照三步推理框架(全局搜索、因果驗(yàn)證、最終對(duì)齊)寫出完整的推理過程,最后給出答案。通過第一和第一半階段的鋪墊,模型這時(shí)候已經(jīng)有了足夠的基礎(chǔ)來學(xué)習(xí)這套完整流程。

第三階段是強(qiáng)化學(xué)習(xí)階段,也是整個(gè)訓(xùn)練體系最復(fù)雜的部分,后面會(huì)專門展開講。

五、獎(jiǎng)勵(lì)機(jī)制:如何評(píng)判AI的"答卷"質(zhì)量

在強(qiáng)化學(xué)習(xí)階段,AI需要知道自己做對(duì)了還是做錯(cuò)了,才能改進(jìn)。研究團(tuán)隊(duì)設(shè)計(jì)了四類獎(jiǎng)勵(lì)信號(hào),分別衡量AI回答的不同維度。

第一類是格式獎(jiǎng)勵(lì),檢查AI的回答是否嚴(yán)格遵守了"事件檔案+思考過程+最終答案"的結(jié)構(gòu),以及思考過程里是否包含了"全局搜索"、"因果驗(yàn)證"、"最終對(duì)齊"、"前因"、"視覺驗(yàn)證"、"后果"這六個(gè)關(guān)鍵詞。格式完全正確得滿分1.0,只滿足基本格式要求但缺少關(guān)鍵詞得0.5分,格式完全錯(cuò)誤得0分。

第二類是時(shí)序定位獎(jiǎng)勵(lì),用于時(shí)間段定位類任務(wù)。評(píng)判標(biāo)準(zhǔn)是AI預(yù)測的時(shí)間段與正確答案的重疊程度。如果AI預(yù)測的是單個(gè)連續(xù)時(shí)間段,但正確答案是多個(gè)不連續(xù)片段,系統(tǒng)會(huì)取"覆蓋率"和"區(qū)間重疊率"中較高的一個(gè)分?jǐn)?shù),避免因?yàn)楦袷讲町惗e(cuò)誤懲罰了實(shí)質(zhì)正確的答案。

第三類是多項(xiàng)選擇準(zhǔn)確率,用于選擇題類任務(wù),非零即一,選對(duì)了就是滿分,選錯(cuò)了就是零分。

第四類是長度獎(jiǎng)勵(lì),這是最有趣的一個(gè)設(shè)計(jì)。研究團(tuán)隊(duì)發(fā)現(xiàn),讓AI在寫完整推理鏈的同時(shí)保持簡潔,是一件很難的事。如果任由AI自由生成,它很容易變成一個(gè)"廢話大王",把簡單問題寫成論文。為此團(tuán)隊(duì)設(shè)計(jì)了一個(gè)"軟懲罰"機(jī)制:在目標(biāo)長度以內(nèi)不扣分,超過目標(biāo)長度之后按比例線性扣分,超過上限則直接給零分。這比一刀切的硬截?cái)嘁獪睾偷枚?,不?huì)造成訓(xùn)練的不穩(wěn)定。

六、平衡的難題:強(qiáng)化學(xué)習(xí)遇上多目標(biāo)沖突

四類獎(jiǎng)勵(lì)聽起來很全面,但同時(shí)優(yōu)化它們卻帶來了一個(gè)頭疼的問題。研究團(tuán)隊(duì)發(fā)現(xiàn),這四個(gè)目標(biāo)之間存在天然的緊張關(guān)系——特別是"內(nèi)容完整性"和"長度效率"之間的矛盾。要寫一份完整、詳細(xì)的事件檔案,必然需要更多的篇幅;但長度獎(jiǎng)勵(lì)又在懲罰過長的輸出。這兩個(gè)目標(biāo)在拉鋸,導(dǎo)致模型在訓(xùn)練時(shí)無所適從。

傳統(tǒng)的解決方法是把多個(gè)獎(jiǎng)勵(lì)加權(quán)求和,化為一個(gè)綜合分?jǐn)?shù)。但這種方法有一個(gè)根本缺陷:權(quán)重是固定的,而實(shí)際訓(xùn)練過程中不同獎(jiǎng)勵(lì)信號(hào)之間的相對(duì)重要性會(huì)動(dòng)態(tài)變化。固定權(quán)重往往會(huì)讓模型傾向于把容易拿高分的獎(jiǎng)勵(lì)做到極致,而忽視那些本來更稀缺、更關(guān)鍵的信號(hào)。

研究團(tuán)隊(duì)借鑒了一種叫做"多梯度下降算法"(MGDA)的數(shù)學(xué)工具,提出了他們自己的解法,稱為"帕累托前沿引導(dǎo)優(yōu)勢平衡"算法,簡稱P-FAB。

這個(gè)名字聽起來很嚇人,但核心思想可以用一個(gè)簡單的比喻來理解。假設(shè)你在組織一支四人樂隊(duì),四個(gè)人分別代表格式、準(zhǔn)確性、因果完整性和簡潔性四個(gè)目標(biāo)。每個(gè)人都有自己想要演奏的方向,如果四個(gè)人各說各話,演出就會(huì)一團(tuán)糟。P-FAB的作用,就是找出一個(gè)指揮方向,讓這四個(gè)人都往同一個(gè)方向走,同時(shí)確保那些平時(shí)搶不到話語權(quán)的成員(比如因果完整性這個(gè)難以滿足的目標(biāo))能得到更多關(guān)注。

具體在數(shù)學(xué)上,P-FAB的做法是這樣的:先對(duì)每個(gè)獎(jiǎng)勵(lì)信號(hào)做中心化處理,消除基準(zhǔn)差異;再對(duì)各信號(hào)做標(biāo)準(zhǔn)化處理,消除量綱不同帶來的影響;然后用一個(gè)叫"弗蘭克-沃爾夫算法"的迭代方法,在標(biāo)準(zhǔn)化空間里尋找一組權(quán)重,使得加權(quán)后的綜合方向?qū)λ心繕?biāo)都盡可能有利,而不是偏向某一個(gè)。

最終得到的權(quán)重是動(dòng)態(tài)的——每一批訓(xùn)練數(shù)據(jù),權(quán)重都會(huì)重新計(jì)算。那些當(dāng)前表現(xiàn)較差、信號(hào)稀疏的目標(biāo)會(huì)自動(dòng)獲得更高的權(quán)重,從而得到更多關(guān)注;那些已經(jīng)做得不錯(cuò)的目標(biāo)則適當(dāng)降權(quán)。這就像一個(gè)有彈性的管理系統(tǒng),總是把資源優(yōu)先投入到最需要改進(jìn)的地方。

論文中給出了一個(gè)對(duì)比示例:同樣一組訓(xùn)練樣本,在傳統(tǒng)GRPO方法下,四個(gè)不同的候選回答可能計(jì)算出完全相同的優(yōu)勢值,模型根本無法區(qū)分它們的高下;而P-FAB方法下,四個(gè)樣本得到了明顯不同的分?jǐn)?shù),讓模型能夠清晰地判斷哪個(gè)方向值得追求。

七、實(shí)驗(yàn)結(jié)果:小模型的大表現(xiàn)

Factum-4B是以Qwen3-VL-4B-Instruct為基礎(chǔ)模型訓(xùn)練出來的,參數(shù)量只有40億,屬于相當(dāng)輕量的規(guī)模。研究團(tuán)隊(duì)在多個(gè)視頻理解基準(zhǔn)測試上進(jìn)行了評(píng)估,結(jié)果出人意料地強(qiáng)勢。

在視頻時(shí)序定位任務(wù)上,研究團(tuán)隊(duì)測試了三個(gè)數(shù)據(jù)集:Charades-TimeLens(一個(gè)重新標(biāo)注了高質(zhì)量時(shí)間戳的室內(nèi)活動(dòng)視頻集)、ActivityNet-TimeLens(重新標(biāo)注了更精確邊界的開放域視頻集)以及ActivityNet-Captions(一個(gè)廣泛使用的大規(guī)?;鶞?zhǔn))。評(píng)判指標(biāo)是"Recall@1",即AI給出的最優(yōu)預(yù)測答案與正確答案的時(shí)間重疊率超過某個(gè)閾值的比例,閾值分別為0.3、0.5和0.7——閾值越高,對(duì)精度的要求越嚴(yán)格。

在ActivityNet-Captions上,F(xiàn)actum-4B的R1@0.5達(dá)到48.4%,R1@0.7達(dá)到28.1%,大幅超過了參數(shù)量更大的Time-R1-7B模型(后者R1@0.5僅39.0%,R1@0.7僅21.4%)。在高精度指標(biāo)R1@0.7上,F(xiàn)actum-4B在所有開源模型中排名第一。更值得注意的是,F(xiàn)actum-4B使用的幀率僅為每秒1幀,而對(duì)比的開源模型普遍使用每秒2幀,相當(dāng)于Factum-4B用更少的視覺信息取得了更好的結(jié)果。

在通用視頻理解基準(zhǔn)上,研究團(tuán)隊(duì)還測試了VideoMME(涵蓋電影、體育、紀(jì)錄片的長視頻評(píng)測集)、MLVU(面向長視頻的多任務(wù)評(píng)測集)、ETBench(細(xì)粒度時(shí)間敏感視頻理解基準(zhǔn))和NExT-GQA(基于因果和時(shí)序問答的視覺定位基準(zhǔn))。

Factum-4B在VideoMME上達(dá)到64.7%的準(zhǔn)確率,在NExT-GQA上達(dá)到73.6%,比同參數(shù)量的Qwen3-VL-4B-Thinking版本高出整整7個(gè)百分點(diǎn)。在ETBench的8個(gè)子任務(wù)中,F(xiàn)actum-4B在6個(gè)上取得了最高分,其中時(shí)序視頻定位子任務(wù)得分66.1%,時(shí)序事件匹配子任務(wù)得分26.8%,后者甚至超過了專有閉源模型GPT-4o。

消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了每個(gè)設(shè)計(jì)模塊的貢獻(xiàn)。去掉事件檔案只保留推理過程,VideoMME準(zhǔn)確率從64.7%跌至60.8%;去掉推理過程只保留事件檔案,準(zhǔn)確率跌至58.5%,是所有變體中跌幅最大的,說明如果沒有推理橋梁,檔案里的信息也無法被有效利用。去掉強(qiáng)化學(xué)習(xí)只用監(jiān)督微調(diào),ActivityNet R1@0.3比完整模型低8.3個(gè)百分點(diǎn)。將P-FAB替換為普通GRPO,在group size為4時(shí)性能差距為1.2個(gè)百分點(diǎn),在group size為8時(shí)差距擴(kuò)大到2.5個(gè)百分點(diǎn),表明P-FAB的優(yōu)勢在更大規(guī)模的對(duì)比組設(shè)置下更加突出。

八、這項(xiàng)研究的邊界與展望

研究團(tuán)隊(duì)在論文中也坦率地指出了當(dāng)前工作的局限性。Factum-4B的訓(xùn)練數(shù)據(jù)規(guī)模仍然有限,總共只有約32000個(gè)視頻樣本,相比業(yè)界頭部模型的訓(xùn)練規(guī)模還有相當(dāng)大的差距。這意味著模型在某些特定類型的視頻任務(wù)上可能表現(xiàn)不穩(wěn)定,要想在所有視頻理解任務(wù)上都取得優(yōu)異表現(xiàn),需要進(jìn)一步擴(kuò)展數(shù)據(jù)規(guī)模。

此外,這項(xiàng)研究目前聚焦于視頻時(shí)序理解和因果推理方向,對(duì)于純粹的空間理解(比如精確定位畫面中的物體位置)、復(fù)雜的多輪對(duì)話或需要外部知識(shí)的問答,尚未進(jìn)行系統(tǒng)性探索。

從更宏觀的視角來看,這項(xiàng)研究揭示了一個(gè)有趣的認(rèn)知科學(xué)啟示:人工智能的設(shè)計(jì)越接近人類認(rèn)知的實(shí)際工作方式,往往就越有效。人類不是靠強(qiáng)大的蠻力逐幀記憶視頻,而是靠構(gòu)建有意義的事件結(jié)構(gòu)來理解視頻;AI也不應(yīng)該靠無結(jié)構(gòu)的冗長推理來處理視頻,而應(yīng)該先建立結(jié)構(gòu)化的認(rèn)知地圖,再在地圖上尋路。

歸根結(jié)底,這項(xiàng)研究做的事情可以用一句話概括:它給AI看視頻時(shí)加上了一個(gè)"先記筆記、再動(dòng)筆答題"的習(xí)慣。這個(gè)習(xí)慣看起來簡單,卻解決了長期困擾視頻AI的核心難題——如何在時(shí)間維度上保持因果邏輯的連貫性。

以前的視頻AI像一個(gè)只會(huì)隨手亂寫讀書筆記的學(xué)生,內(nèi)容散亂、重點(diǎn)不突出、前后矛盾;Factum-4B更像一個(gè)養(yǎng)成了良好學(xué)習(xí)習(xí)慣的學(xué)生,每次讀完一段就整理好時(shí)間線,標(biāo)注好關(guān)鍵事件,然后再基于這份有條理的筆記去回答問題。成績的差距,從實(shí)驗(yàn)數(shù)據(jù)來看是顯而易見的。

對(duì)于普通人來說,這項(xiàng)研究離日常生活的距離或許比想象中近得多。視頻內(nèi)容的智能檢索、安防攝像頭的行為分析、體育比賽的自動(dòng)解說、醫(yī)療手術(shù)視頻的質(zhì)量審查——所有這些應(yīng)用場景都需要AI不僅能"看到"視頻中發(fā)生了什么,更要能理解事件之間的時(shí)間順序和因果關(guān)系。Factum-4B的方法提供了一條可擴(kuò)展的路徑,而且它用一個(gè)40億參數(shù)的小模型就做到了許多70億參數(shù)模型做不到的事情,這對(duì)于資源有限的研究者和開發(fā)者來說是一個(gè)頗具參考價(jià)值的信號(hào)。

對(duì)這項(xiàng)研究感興趣的讀者,可以通過arXiv編號(hào)2604.04415查閱完整論文,論文題目為"Structured Causal Video Reasoning via Multi-Objective Alignment"。

Q&A

Q1:Factum-4B的"結(jié)構(gòu)化事件檔案"和普通視頻字幕有什么區(qū)別?

A:普通視頻字幕通常是對(duì)畫面的自由描述,格式隨意,內(nèi)容可能冗長也可能遺漏關(guān)鍵信息。Factum-4B的結(jié)構(gòu)化事件檔案則嚴(yán)格要求每個(gè)時(shí)間段必須記錄六類信息:人物、動(dòng)作、場景、物體、攝像機(jī)運(yùn)動(dòng)和事件描述,格式固定且每類信息都有明確的填寫規(guī)則(比如畫面中沒有人時(shí),動(dòng)作一欄必須寫"None")。這種強(qiáng)制結(jié)構(gòu)確保了檔案的信息密度和格式一致性,也讓后續(xù)的推理過程有可靠的依據(jù)可查,而不是在模糊描述中猜測。

Q2:P-FAB算法為什么比傳統(tǒng)的多獎(jiǎng)勵(lì)加權(quán)方法更有效?

A:傳統(tǒng)方法把多個(gè)獎(jiǎng)勵(lì)信號(hào)乘以固定權(quán)重后加總,得到一個(gè)綜合分?jǐn)?shù)。這有兩個(gè)問題:權(quán)重固定意味著無法適應(yīng)訓(xùn)練過程中不同目標(biāo)的動(dòng)態(tài)變化;加總之后不同目標(biāo)之間的差異被抹平,模型看不出哪些樣本在哪些方面更優(yōu)秀。P-FAB在標(biāo)準(zhǔn)化空間里動(dòng)態(tài)計(jì)算權(quán)重,確保稀缺的、難以滿足的目標(biāo)獲得更多關(guān)注,同時(shí)為每個(gè)訓(xùn)練樣本生成更有區(qū)分度的優(yōu)勢值,讓模型在正確的方向上學(xué)習(xí)。

Q3:Factum-4B在視頻理解上比GPT-4o強(qiáng)在哪里?

A:Factum-4B并不是全面超越GPT-4o,而是在特定的時(shí)間敏感任務(wù)上表現(xiàn)更優(yōu)。具體來說,在ETBench基準(zhǔn)的時(shí)序事件匹配子任務(wù)上,F(xiàn)actum-4B得分26.8%,高于GPT-4o的13.6%;在時(shí)序視頻定位子任務(wù)上同樣領(lǐng)先。這主要得益于Factum-4B專門針對(duì)時(shí)間因果推理進(jìn)行了優(yōu)化訓(xùn)練,而通用大模型在這類精細(xì)化時(shí)序任務(wù)上并不具備專項(xiàng)優(yōu)勢。不過在其他通用理解任務(wù)上,GPT-4o等大型閉源模型整體上仍有較大優(yōu)勢。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
出海更難了!俄朝圖們江公路大橋合攏,預(yù)計(jì)今年6月正式通車

出海更難了!俄朝圖們江公路大橋合攏,預(yù)計(jì)今年6月正式通車

全城探秘
2026-04-22 16:41:13
我有罪,大導(dǎo)演昆汀花1萬美金,在包房舔腳半小時(shí),直到皮膚起皺

我有罪,大導(dǎo)演昆汀花1萬美金,在包房舔腳半小時(shí),直到皮膚起皺

西樓知趣雜談
2026-04-20 08:40:47
任澤平退款731萬,恒大高管們開始退錢了

任澤平退款731萬,恒大高管們開始退錢了

互聯(lián)網(wǎng)大觀
2026-04-22 13:44:17
伊朗“宮斗”分出勝負(fù)?12小時(shí)就改口要談判,改革派重新占據(jù)上風(fēng)

伊朗“宮斗”分出勝負(fù)?12小時(shí)就改口要談判,改革派重新占據(jù)上風(fēng)

民間胡扯老哥
2026-04-22 05:07:48
騰訊與阿里巴巴洽談投資DeepSeek 估值超過200億美元

騰訊與阿里巴巴洽談投資DeepSeek 估值超過200億美元

財(cái)聯(lián)社
2026-04-22 19:24:36
日艦闖臺(tái)海3天后,高市被逼辭職,岸田已扛旗,052D抵近奄美大島

日艦闖臺(tái)海3天后,高市被逼辭職,岸田已扛旗,052D抵近奄美大島

古事尋蹤記
2026-04-22 07:16:16
情侶約會(huì)求“刺激”,雙雙被抓,審訊時(shí)互相甩鍋

情侶約會(huì)求“刺激”,雙雙被抓,審訊時(shí)互相甩鍋

深圳晚報(bào)
2026-04-22 10:11:17
山西忻州市公務(wù)員局發(fā)布情況說明:楊某媛(女)與自媒體貼文中所分析的楊某媛并非同一人

山西忻州市公務(wù)員局發(fā)布情況說明:楊某媛(女)與自媒體貼文中所分析的楊某媛并非同一人

環(huán)球網(wǎng)資訊
2026-04-22 16:51:03
醫(yī)院的專家號(hào)剛放出就瞬間“秒空”,上海三甲醫(yī)院緊急報(bào)警!警方:對(duì)倒賣醫(yī)院號(hào)源犯罪團(tuán)伙的李某、鄭某等人依法刑事拘留

醫(yī)院的專家號(hào)剛放出就瞬間“秒空”,上海三甲醫(yī)院緊急報(bào)警!警方:對(duì)倒賣醫(yī)院號(hào)源犯罪團(tuán)伙的李某、鄭某等人依法刑事拘留

大風(fēng)新聞
2026-04-22 15:12:13
深度 |大限到期,一日之內(nèi)極限反轉(zhuǎn),特朗普為何延長?;??伊朗為何不領(lǐng)情?

深度 |大限到期,一日之內(nèi)極限反轉(zhuǎn),特朗普為何延長停火?伊朗為何不領(lǐng)情?

上觀新聞
2026-04-22 17:19:03
烏克蘭沒錢打俄羅斯了!國庫見底外援青黃不接,普通人積蓄一夜縮水民不聊生

烏克蘭沒錢打俄羅斯了!國庫見底外援青黃不接,普通人積蓄一夜縮水民不聊生

網(wǎng)易新聞出品
2026-04-22 18:42:46
朝鮮發(fā)聲痛批日本,要求日本向中國道歉:針對(duì)中國駐日使館的連環(huán)恐怖威脅,是對(duì)國際法的粗暴違反與公然挑釁

朝鮮發(fā)聲痛批日本,要求日本向中國道歉:針對(duì)中國駐日使館的連環(huán)恐怖威脅,是對(duì)國際法的粗暴違反與公然挑釁

大風(fēng)新聞
2026-04-22 18:42:23
央視曝光:“哪吒”造車3年虧損183億,多地國資投資難追回,倒貼式招商引資傷了誰?

央視曝光:“哪吒”造車3年虧損183億,多地國資投資難追回,倒貼式招商引資傷了誰?

新京報(bào)政事兒
2026-04-21 23:04:31
演員王大陸一審被判刑

演員王大陸一審被判刑

極目新聞
2026-04-22 12:35:08
高99米,北京最高摩天輪歡樂谷“大眼京”預(yù)計(jì)6月28日運(yùn)營

高99米,北京最高摩天輪歡樂谷“大眼京”預(yù)計(jì)6月28日運(yùn)營

新京報(bào)
2026-04-22 13:06:20
2032奧運(yùn)主辦地確定,結(jié)果吃驚全球,奧運(yùn)格局將重塑

2032奧運(yùn)主辦地確定,結(jié)果吃驚全球,奧運(yùn)格局將重塑

天馬幸福的人生
2026-04-22 06:41:59
英雄航天員陳冬肩章已更為少將軍銜 系我國第二批航天員,在軌時(shí)長超400天

英雄航天員陳冬肩章已更為少將軍銜 系我國第二批航天員,在軌時(shí)長超400天

紅星新聞
2026-04-22 16:31:28
季后賽破5000分!杜蘭特復(fù)出23+6仍輸 下半場僅3分全場9失誤

季后賽破5000分!杜蘭特復(fù)出23+6仍輸 下半場僅3分全場9失誤

醉臥浮生
2026-04-22 13:17:43
爆料瘋傳!中南醫(yī)院“王護(hù)士長”被扒,她到底有沒有問題?

爆料瘋傳!中南醫(yī)院“王護(hù)士長”被扒,她到底有沒有問題?

墜入二次元的海洋
2026-04-22 10:14:47
5月1日起正式嚴(yán)打!8類灰色行為直接入刑,所有人務(wù)必警惕

5月1日起正式嚴(yán)打!8類灰色行為直接入刑,所有人務(wù)必警惕

另子維愛讀史
2026-04-22 07:39:03
2026-04-22 19:56:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

體育要聞

網(wǎng)易傳媒再度簽約法國隊(duì)和阿根廷隊(duì)

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長停火期限

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

藝術(shù)
本地
游戲
時(shí)尚
公開課

藝術(shù)要聞

無花不風(fēng)景

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

《黑旗RE》官宣直播!B站抖音中文預(yù)告片首發(fā)!

初夏穿赫本的白褲子,清新又高級(jí)!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版