国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

浙江大學(xué)教AI"玩拼圖":讓機(jī)器真正聽懂視頻,而不是偷懶走捷徑

0
分享至


這項(xiàng)由浙江大學(xué)與小米公司聯(lián)合開展的研究發(fā)表于2026年4月,論文編號為arXiv:2604.08209,題為"OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering",有興趣深入了解的讀者可以通過該編號查詢完整論文。

研究團(tuán)隊(duì)面對的核心難題,可以用一句話來描述:如何讓AI在同時(shí)擁有眼睛和耳朵的情況下,真正地把兩者結(jié)合起來用,而不是偷懶只靠其中一個(gè)感官來解題?

一、為什么教AI"看"視頻這件事,比你想象的難多了

電視機(jī)和收音機(jī)的區(qū)別,大家都很清楚。視頻里有畫面、有聲音,兩者共同講述一個(gè)故事。對人類來說,同時(shí)接收視覺和聽覺信息、然后融合理解,是一件再自然不過的事。但對于AI來說,這件事出奇地難做到。

目前最先進(jìn)的大型語言模型,在純文字的任務(wù)上已經(jīng)相當(dāng)厲害,比如解數(shù)學(xué)題、寫代碼,甚至與人對話。這類成功很大程度上依賴一種叫"強(qiáng)化學(xué)習(xí)后訓(xùn)練"的技術(shù)——簡單理解,就是給AI出題、判斷答案對不對、然后獎(jiǎng)勵(lì)或懲罰它,逐步讓它越來越聰明。然而,把這套方法搬到視頻和音頻的領(lǐng)域里,卻遇到了一個(gè)幾乎無法繞過的麻煩:沒有足夠多的高質(zhì)量標(biāo)注數(shù)據(jù)。

數(shù)學(xué)題有標(biāo)準(zhǔn)答案,代碼能運(yùn)行就是對。但要讓AI理解一段視頻里視覺和聽覺的深層聯(lián)系,就需要人工去標(biāo)注大量"這個(gè)畫面配這段聲音,它們之間的關(guān)系是這樣的",這種工作既昂貴又耗時(shí),根本做不到大規(guī)模展開。

浙江大學(xué)和小米的研究團(tuán)隊(duì)從另一個(gè)角度切入:能不能找一個(gè)不需要人工標(biāo)注的任務(wù),讓AI在完成這個(gè)任務(wù)的過程中,自然地學(xué)會(huì)整合視覺和聽覺信息?他們想到了一個(gè)絕妙的類比——拼圖游戲。

二、把視頻打亂再還原:一個(gè)既簡單又深刻的訓(xùn)練游戲

核心思路是這樣的:拿一段視頻,把它剪成若干小片段,然后打亂順序給AI看,要求AI把正確的順序還原出來。就像給你一本書的六個(gè)章節(jié),但順序被打亂了,你需要根據(jù)內(nèi)容判斷哪章在前、哪章在后。

這個(gè)任務(wù)之所以精妙,在于它有天然的"標(biāo)準(zhǔn)答案"——視頻原本的時(shí)間順序就是正確答案,完全不需要人類去標(biāo)注。同時(shí),要想把順序還原得好,AI就不得不認(rèn)真分析每個(gè)片段里發(fā)生了什么,以及片段之間的邏輯關(guān)系,這正是理解視頻所需要的核心能力。

研究團(tuán)隊(duì)把這套方法命名為OmniJigsaw("全感官拼圖")。他們把每個(gè)視頻均勻切成6個(gè)片段,然后在切割處各丟掉5%的內(nèi)容,目的是防止AI靠相鄰片段的邊界拼接特征作弊——就像拼圖時(shí)不讓你通過紙板背面的紋路來匹配,必須真正看圖案內(nèi)容。打亂后的片段交給AI,AI需要用思維鏈(一步步列出推理過程)來分析,最終給出原始順序。

三、當(dāng)AI擁有"雙眼"和"耳朵"時(shí),它會(huì)選擇只用其中一個(gè)

研究團(tuán)隊(duì)最初的做法是最直接的:給AI完整的視頻片段(既有畫面又有聲音),讓它同時(shí)依靠兩種信息來判斷順序。這個(gè)策略被稱為"聯(lián)合模態(tài)整合"(JMI)。

結(jié)果出乎意料地令人失望。AI在這種情況下的表現(xiàn),反而不如只給它看畫面或只讓它聽聲音的版本。

研究團(tuán)隊(duì)把這個(gè)現(xiàn)象命名為"雙模態(tài)捷徑效應(yīng)"。道理其實(shí)不難理解:當(dāng)你同時(shí)給了AI兩條路,它會(huì)自然地選擇那條更容易走的路。如果一段視頻的畫面內(nèi)容足夠明顯,AI就只靠畫面來判斷;如果音頻里有清晰的語音線索,AI就只靠聲音來判斷。兩種模態(tài)并存,反而給了它"偷懶"的機(jī)會(huì)——它不需要把兩者結(jié)合起來,就能大概率答對題目,于是它就沒有動(dòng)力去真正學(xué)會(huì)融合理解。

從訓(xùn)練角度來看,這種"偷懶"是災(zāi)難性的。AI雖然答對了題,但它沒有學(xué)到真正有價(jià)值的技能,就好像學(xué)生在考試中靠猜答案拿到了分?jǐn)?shù),但實(shí)際上什么都沒學(xué)會(huì)。

為了解決這個(gè)問題,研究團(tuán)隊(duì)設(shè)計(jì)了兩種更聰明的訓(xùn)練策略。

四、第一種解法:在整段視頻層面,逼著AI只用一種感官

第一種策略叫做"樣本級模態(tài)選擇"(SMS)。它的工作方式分兩步:首先,讓AI分析整段視頻,判斷這個(gè)視頻的時(shí)間線索主要來自畫面還是聲音。比如一段烹飪教學(xué)視頻,廚師的操作步驟在畫面上非常清晰,那畫面就是主導(dǎo)模態(tài);而一段播客節(jié)目,說話人一直坐在那里幾乎不動(dòng),聲音里的內(nèi)容才是真正的故事線,那音頻就是主導(dǎo)模態(tài)。

確定了主導(dǎo)模態(tài)之后,系統(tǒng)就只保留那個(gè)模態(tài)的信息,把另一個(gè)模態(tài)完全遮掉,然后再讓AI做拼圖排序。這樣,AI就沒有"走捷徑"的機(jī)會(huì),必須認(rèn)認(rèn)真真地分析它面前的那一種信息,深度理解其中的時(shí)間邏輯。

這個(gè)方法有效地消除了"捷徑效應(yīng)",因?yàn)楦揪蜎]有第二條路可走。不過,它也有局限性:一段視頻的主導(dǎo)模態(tài)是在整體層面判斷的,但實(shí)際上,同一段視頻里,某些片段可能畫面最重要,另一些片段可能聲音最關(guān)鍵。一刀切的全局判斷,會(huì)錯(cuò)過這種局部的細(xì)節(jié)。

五、第二種解法:更精細(xì)的操作,逐片段決定用哪只感官

第二種策略叫做"片段級模態(tài)遮蔽"(CMM),也是研究中效果最好的方法。它的邏輯更進(jìn)一步:不是在整個(gè)視頻層面做決定,而是對每一個(gè)小片段單獨(dú)評估,決定這個(gè)片段應(yīng)該保留畫面、保留聲音、還是兩者都保留。

具體操作分兩個(gè)階段。第一階段,AI先按正常順序看完所有6個(gè)片段,然后為每個(gè)片段做一個(gè)"模態(tài)標(biāo)簽"的決定——比如:第1片畫面里有明顯動(dòng)作變化,標(biāo)記為"只保留畫面";第3片里有關(guān)鍵對白,標(biāo)記為"只保留聲音";第5片里畫面和聲音都有不可或缺的信息,標(biāo)記為"兩者都保留"。整體上,研究團(tuán)隊(duì)要求這6個(gè)片段的標(biāo)簽不能全是一種,必須有一定的混搭,這樣才能真正鍛煉AI跨模態(tài)整合的能力。

第二階段,按照這些標(biāo)簽處理打亂順序后的片段——被標(biāo)為"只看畫面"的,就把聲音替換為靜音;被標(biāo)為"只聽聲音"的,就把畫面替換為全黑。然后把這些處理過的片段打亂順序,交給AI去排序。

這時(shí)候,AI面臨的挑戰(zhàn)就完全不同了。某些片段只有畫面,某些只有聲音,還有些兩者都有。要把正確的順序拼出來,AI必須在分析不同片段時(shí)不停地在"看"和"聽"兩種模式之間切換,并且把從不同模態(tài)獲得的零散線索拼接成一個(gè)完整的時(shí)間圖譜。這正是真正的跨模態(tài)理解能力。

從訓(xùn)練曲線來看,CMM策略下AI的任務(wù)獎(jiǎng)勵(lì)增長得更慢,這是因?yàn)轭}目更難了,AI不得不做更深層的分析。但最終,它學(xué)到的能力更扎實(shí),在各種下游任務(wù)上的表現(xiàn)也更出色。

六、一套挑剔的"質(zhì)檢流水線",確保拼圖本身值得拼

研究團(tuán)隊(duì)很早就意識(shí)到一個(gè)關(guān)鍵問題:拼圖本身必須是好拼圖。如果給AI的訓(xùn)練素材是一段幾乎沒有變化的視頻——比如一小時(shí)的會(huì)議錄像,畫面一直是同一間會(huì)議室,聲音是均勻的背景噪聲——那么打亂順序之后,AI幾乎無法判斷哪段在前哪段在后,這種數(shù)據(jù)對訓(xùn)練完全沒有價(jià)值,甚至?xí)a(chǎn)生負(fù)面效果。

為此,他們設(shè)計(jì)了一條嚴(yán)格的兩階段篩選流水線。

第一階段用輕量級的信號檢測方法快速過濾。首先,視頻必須同時(shí)有畫面和聲音,缺少任何一種的直接淘汰。然后,檢查畫面的動(dòng)態(tài)性:通過計(jì)算相鄰幀之間的平均絕對差值,如果超過70%的幀之間幾乎沒有變化,就認(rèn)定這是一段低動(dòng)態(tài)視頻,直接丟棄。接著是音頻質(zhì)量檢查:用音量能量(RMS)來判斷是否大部分時(shí)間是靜音,用頻譜變化率(Spectral Flux)來判斷聲音是否單調(diào)無變化,不通過這兩項(xiàng)檢查的視頻同樣淘汰。還有一項(xiàng)獨(dú)特的檢測:用專門的語音活動(dòng)檢測模型(Silero VAD)來分析視頻中語音內(nèi)容的比例,要求在30%到80%之間——太低說明幾乎沒有語音信息,太高則說明畫面上可能沒什么有意義的視覺變化,兩者都不適合作為訓(xùn)練素材。

通過第一階段篩選的視頻,還要接受第二階段的語義層面審查。研究團(tuán)隊(duì)用一個(gè)相對輕量的多模態(tài)大模型(Qwen2.5-VL-7B)來擔(dān)任"審查員"。這個(gè)模型會(huì)看200幀均勻采樣的畫面,思考這段視頻是否具備清晰的因果進(jìn)展(比如先放材料、再烹飪、再出鍋)、視覺狀態(tài)是否有明顯變化、事件之間是否有邏輯連貫性、是否存在明確的時(shí)間標(biāo)志。如果這段視頻是循環(huán)重復(fù)的動(dòng)作、畫面太相似以至于順序無法判斷、或者各片段之間缺乏內(nèi)在聯(lián)系,就會(huì)被標(biāo)記為不合格。

整個(gè)審查過程要求模型先在特定標(biāo)簽內(nèi)寫下推理過程,最后輸出"是"或"否"的判定,只有兩者都通過才算合格。

從實(shí)際數(shù)據(jù)來看,這條流水線的淘汰率相當(dāng)高。研究團(tuán)隊(duì)從三個(gè)來源共收集了約49619個(gè)原始視頻樣本,經(jīng)過第一階段信號篩選,剩下約9046個(gè);再經(jīng)過第二階段語義篩選,最終只保留了8220個(gè)高質(zhì)量樣本,淘汰率超過83%。這8220個(gè)樣本被稱為OmniJigsaw-8K數(shù)據(jù)集,其中8156個(gè)用于訓(xùn)練,64個(gè)用于驗(yàn)證。

七、獎(jiǎng)懲機(jī)制:不只是答對就給糖,必須全部答對才能吃大餐

訓(xùn)練AI的過程需要設(shè)計(jì)合理的獎(jiǎng)懲機(jī)制,研究團(tuán)隊(duì)在這方面也做了細(xì)致的考量。

基本獎(jiǎng)勵(lì)由兩部分組成。第一部分是"位置準(zhǔn)確率":AI給出的每個(gè)片段位置,如果與正確位置吻合,就得一分,6個(gè)片段滿分6分,取平均值。第二部分是"鄰接準(zhǔn)確率":檢查AI給出的順序中,相鄰兩個(gè)片段是否也和正確順序中相鄰的兩個(gè)片段一致。這一指標(biāo)的價(jià)值在于,即使整體排序不完全正確,也能鼓勵(lì)A(yù)I識(shí)別出局部的正確關(guān)系,體現(xiàn)部分推理成功。兩部分各占50%權(quán)重。

除此之外,還有格式獎(jiǎng)勵(lì):如果AI按照要求的格式(先寫思考過程,再寫最終答案)來回答,就額外加0.2分,這是鼓勵(lì)A(yù)I進(jìn)行深度推理而非直接猜答案。還有重復(fù)懲罰:如果AI在思考過程中不斷重復(fù)相同的文字(一段20字以上的內(nèi)容重復(fù)出現(xiàn)超過3次),就扣0.5分,防止它在不知所措時(shí)靠"水字?jǐn)?shù)"來湊答案。

最精妙的設(shè)計(jì)是一個(gè)"準(zhǔn)確率折扣因子"。這個(gè)因子的規(guī)則是:只有當(dāng)AI把6個(gè)片段全部排對時(shí),才能拿到全額的位置和鄰接獎(jiǎng)勵(lì);只要有一個(gè)片段排錯(cuò),這兩項(xiàng)獎(jiǎng)勵(lì)就會(huì)打折到原來的20%。

這個(gè)設(shè)計(jì)背后的邏輯非常有趣:在強(qiáng)化學(xué)習(xí)中,AI通常會(huì)嘗試找到"代價(jià)最小的成功路徑"。如果排對5個(gè)、排錯(cuò)1個(gè)也能得到不錯(cuò)的獎(jiǎng)勵(lì),AI就可能滿足于這種"差不多就行"的狀態(tài),不再努力追求完美答案。折扣因子人為地放大了"完全正確"和"差一點(diǎn)"之間的差距,讓AI感受到:差一點(diǎn)點(diǎn)和差很多在獎(jiǎng)勵(lì)上沒有本質(zhì)區(qū)別,只有全對才是真正的成功。實(shí)驗(yàn)結(jié)果表明,加入這個(gè)折扣因子后,AI在訓(xùn)練過程中持續(xù)探索、持續(xù)進(jìn)步,而去掉折扣因子的對照組則很快陷入停滯。

八、15個(gè)測試場地,全面檢驗(yàn)AI的視聽理解能力

研究團(tuán)隊(duì)用15個(gè)不同的標(biāo)準(zhǔn)測試集來評估OmniJigsaw訓(xùn)練出來的AI能力,涵蓋視頻理解、音頻理解和視聽協(xié)同推理三大類。

在視頻理解方面,研究團(tuán)隊(duì)使用了8個(gè)測試集,涵蓋從基礎(chǔ)時(shí)間感知到高層認(rèn)知推理的各個(gè)維度。AoTBench專門測試AI對"時(shí)間箭頭"的感知,也就是能否判斷事件發(fā)生的先后順序;TempCompass和TUNA-Bench測試AI對視頻內(nèi)容細(xì)節(jié)的細(xì)粒度理解;Video-Holmes和Video-TT則考驗(yàn)更高層次的推理能力,需要AI像偵探一樣從視頻中搜集線索來回答復(fù)雜問題;MLVU、MLVU-Test和Video-MME則關(guān)注長視頻的全局理解和多任務(wù)綜合表現(xiàn)。

基準(zhǔn)模型是Qwen3-Omni-30B-A3B-Instruct,這是一個(gè)已經(jīng)相當(dāng)強(qiáng)大的多模態(tài)大模型。經(jīng)過OmniJigsaw的CMM策略訓(xùn)練之后,它在MLVU-Test上提升了4.38分,在AoTBench上提升了4.02分,在Video-TT上提升了2.70分,在TUNA-Bench上提升了2.72分,在幾乎所有視頻測試集上都有明顯提升。

在音頻理解方面,測試集包括MMAU-Pro(綜合聽覺理解)、MMAU-test-mini(層次化推理)、MMSU(細(xì)粒度感知)和MMAR(需要深度推理的音頻場景)。CMM策略在MMAR上帶來了2.50分的提升,在MMAU-Pro上提升了1.98分。值得一提的是,CMM策略下訓(xùn)練出來的AI,在音頻理解上的表現(xiàn)甚至超過了只靠音頻片段訓(xùn)練的"純音頻拼圖"版本,說明視覺信息的融合確實(shí)幫助AI更好地理解了聲音。

在視聽協(xié)同推理方面,測試集包括DailyOmni(測試視聽時(shí)間對齊)、IntentBench(測試行為和意圖推理)和OmniVideoBench(需要同時(shí)利用視覺和音頻線索才能回答的問題)。CMM策略在OmniVideoBench上提升了1.70分,在IntentBench上提升了1.49分,在DailyOmni上提升了1.17分,全面驗(yàn)證了跨模態(tài)協(xié)同推理能力的提升。

研究還專門比較了有音頻和無音頻兩種評測模式下的表現(xiàn),發(fā)現(xiàn)OmniJigsaw在兩種情況下都有穩(wěn)定提升,說明它不只是學(xué)會(huì)了利用音頻信息,而是真正提升了底層的推理能力。

九、當(dāng)你給AI"更多信息",它反而學(xué)得更差

研究過程中一個(gè)反直覺的發(fā)現(xiàn)值得單獨(dú)來說。研究團(tuán)隊(duì)專門比較了CMM、JMI(全信息聯(lián)合訓(xùn)練)以及只用視頻或只用音頻的單模態(tài)訓(xùn)練這四種策略,發(fā)現(xiàn)了一個(gè)非常有趣的規(guī)律。

單模態(tài)的視頻拼圖訓(xùn)練,能有效提升AI的視頻理解能力;單模態(tài)的音頻拼圖訓(xùn)練,能有效提升AI的音頻理解能力——這都符合預(yù)期。但是,JMI(同時(shí)提供視頻和音頻的全信息訓(xùn)練)卻在視頻理解和音頻理解兩方面都比對應(yīng)的單模態(tài)訓(xùn)練更差,而不是更好。

從訓(xùn)練過程的獎(jiǎng)勵(lì)曲線來看,JMI策略下AI的任務(wù)完成率最高,說明它確實(shí)能答出更多題。但正因?yàn)槿绱?,它沒有動(dòng)力深入分析每個(gè)片段的內(nèi)容——有一條容易走的路,它就走那條路。訓(xùn)練過程中它的推理記錄里甚至出現(xiàn)了"全程只依賴語言線索"這樣的表述,說明它在完全忽視視覺信息。

CMM策略恰好反過來。因?yàn)椴煌蔚哪B(tài)被隨機(jī)遮掉,AI每次都不知道下一個(gè)片段能給它什么信息,必須認(rèn)真對待每一個(gè)有效的信息來源,才能把六個(gè)片段的順序拼出來。這種"信息不完整"的壓力,反而逼出了更深度的學(xué)習(xí)。

這個(gè)發(fā)現(xiàn)對AI訓(xùn)練領(lǐng)域來說很有啟發(fā)意義:給模型更多信息,不一定會(huì)帶來更好的學(xué)習(xí)效果;有時(shí)候,策略性地限制信息、制造適當(dāng)?shù)男畔⑷笨?,反而能逼迫模型發(fā)展出更強(qiáng)的能力。

十、定性分析:從AI的"思考過程"里,看見真正的理解

研究團(tuán)隊(duì)還專門比較了CMM和JMI兩種策略訓(xùn)練后AI在答題時(shí)的思考過程,發(fā)現(xiàn)了明顯的質(zhì)量差異。

JMI策略訓(xùn)練出來的AI,在分析一段烹飪教學(xué)視頻時(shí),它的思考記錄里出現(xiàn)了"全程完全只依賴語言線索、沒有任何視覺分析"這樣的表述,最終給出了錯(cuò)誤答案。這說明它在處理畫面內(nèi)容時(shí)走了捷徑,沒有真正融合視覺信息。

CMM策略訓(xùn)練出來的AI,在處理同一段視頻時(shí),它會(huì)分別描述每個(gè)片段的視覺內(nèi)容(比如"第4片展示了最終清理干凈的魚排,畫面非常清晰,展示了成品")和音頻內(nèi)容(比如"第5片的男人正在直接對著鏡頭講話,音頻帶來了與即時(shí)切割動(dòng)作無直接關(guān)聯(lián)的新信息,音頻是這個(gè)片段的核心"),然后把這些分析綜合起來,按照"準(zhǔn)備→操作→精細(xì)處理→完成→講解技巧"的邏輯推導(dǎo)出正確順序,最終給出了正確答案。

這個(gè)對比清楚地展示了兩種訓(xùn)練策略在培養(yǎng)AI能力上的本質(zhì)差異:一個(gè)只是學(xué)會(huì)了"猜題技巧",另一個(gè)學(xué)會(huì)了"真正理解視頻"。

說到底,OmniJigsaw這項(xiàng)研究的核心貢獻(xiàn)在于:它找到了一種幾乎不需要人類標(biāo)注就能大規(guī)模訓(xùn)練AI跨模態(tài)理解能力的方法。通過一個(gè)看似簡單的拼圖游戲,配上精心設(shè)計(jì)的模態(tài)遮蔽策略、嚴(yán)格的數(shù)據(jù)篩選流水線和合理的獎(jiǎng)懲機(jī)制,它讓AI在同時(shí)擁有"眼睛"和"耳朵"的情況下,真正學(xué)會(huì)了把兩者結(jié)合起來用,而不是偷懶只靠其中一個(gè)。

這對我們來說意味著什么?未來的視頻助手、會(huì)議總結(jié)工具、教育視頻分析系統(tǒng),都可能因?yàn)檫@類技術(shù)而變得更聰明——不只是聽懂你說了什么,也不只是看懂畫面里發(fā)生了什么,而是真正像人一樣同時(shí)理解聲音和畫面之間的關(guān)系,然后給出更準(zhǔn)確、更有洞察的分析。

當(dāng)然,研究團(tuán)隊(duì)也坦誠地指出了幾個(gè)局限:這項(xiàng)研究只在一個(gè)基礎(chǔ)模型上做了實(shí)驗(yàn),能否推廣到不同規(guī)模的模型還需要驗(yàn)證;數(shù)據(jù)篩選流程是在訓(xùn)練前一次性完成的,無法根據(jù)AI當(dāng)前的能力水平動(dòng)態(tài)調(diào)整難度;視頻片段的劃分方式還比較簡單,都是等長切割,更復(fù)雜的切割策略可能帶來更好的效果;獎(jiǎng)勵(lì)機(jī)制目前只關(guān)注排序是否正確,如果能加入對推理質(zhì)量的評價(jià),效果可能會(huì)進(jìn)一步提升。

有興趣深入了解這項(xiàng)研究全部細(xì)節(jié)的讀者,可以通過arXiv編號2604.08209查詢完整論文。

Q&A

Q1:OmniJigsaw訓(xùn)練出來的AI,在日常生活里能有什么具體用處?

A:經(jīng)過OmniJigsaw方法訓(xùn)練的AI,在理解視頻內(nèi)容方面明顯更準(zhǔn)確。比如,用它來總結(jié)一段會(huì)議錄像時(shí),它不只會(huì)轉(zhuǎn)錄說話內(nèi)容,還能結(jié)合畫面中人物的動(dòng)作、展示的圖表來理解會(huì)議的實(shí)際進(jìn)展;分析一段教學(xué)視頻時(shí),它能同時(shí)理解畫面里的操作步驟和講解音頻,給出更完整的內(nèi)容描述。任何需要同時(shí)看畫面和聽聲音才能真正理解的場景,都能從中受益。

Q2:OmniJigsaw的"雙模態(tài)捷徑效應(yīng)"是怎么發(fā)現(xiàn)的,又是怎么解決的?

A:研究團(tuán)隊(duì)最初直接把完整的視頻(同時(shí)含畫面和聲音)用來訓(xùn)練AI做拼圖排序,結(jié)果發(fā)現(xiàn)AI的表現(xiàn)反而不如只提供畫面或只提供聲音的版本。通過分析AI的思考記錄,他們發(fā)現(xiàn)AI在兩種信息都有的情況下,會(huì)選擇更容易分析的那個(gè)模態(tài)來解題,完全忽視另一個(gè)。解決方案是CMM策略:對每個(gè)視頻片段單獨(dú)決定保留哪種模態(tài)的信息,強(qiáng)制AI在不同片段之間切換使用視覺和聽覺,沒有"走捷徑"的機(jī)會(huì)。

Q3:OmniJigsaw數(shù)據(jù)篩選流水線為什么要淘汰掉83%以上的原始視頻?

A:因?yàn)槠磮D游戲本身必須是"可解的",才有訓(xùn)練價(jià)值。如果視頻幾乎沒有變化(比如靜態(tài)畫面、單調(diào)噪聲),打亂順序后AI根本無法判斷哪段在前、哪段在后,這種訓(xùn)練樣本不只沒有價(jià)值,還會(huì)給AI錯(cuò)誤的信號。第一階段通過信號檢測快速排除靜態(tài)視頻和音頻質(zhì)量差的樣本,第二階段用語義模型判斷視頻是否有清晰的時(shí)間因果邏輯和狀態(tài)變化。只有同時(shí)通過兩關(guān)的視頻,才能保證AI在訓(xùn)練時(shí)面對的是真正"值得拼"的拼圖。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
晚年米芾寫出此大字神作,筆法縱橫莫測,堪稱生平不世出的經(jīng)典

晚年米芾寫出此大字神作,筆法縱橫莫測,堪稱生平不世出的經(jīng)典

幸福娃3790
2026-04-09 11:55:20
你見過老板是怎么把生意干黃的?網(wǎng)友:拿了雙一次性筷子還追出來

你見過老板是怎么把生意干黃的?網(wǎng)友:拿了雙一次性筷子還追出來

夜深愛雜談
2026-04-20 09:31:31
蔚來,我算是把你看清了

蔚來,我算是把你看清了

汽車十三行
2026-04-21 11:56:48
為什么2026教育突然松綁了?網(wǎng)友:過度內(nèi)卷只會(huì)影響孩子心理健康

為什么2026教育突然松綁了?網(wǎng)友:過度內(nèi)卷只會(huì)影響孩子心理健康

另子維愛讀史
2026-04-21 20:14:40
中方禁令為何時(shí)隔百天才爆發(fā)?日本媒體不再隱瞞,遮羞布被揭下

中方禁令為何時(shí)隔百天才爆發(fā)?日本媒體不再隱瞞,遮羞布被揭下

誰將笑到最后
2026-04-22 17:27:39
汪嘉偉之子汪崎:心疼母親鄧星,再難不“啃”父親,贏得繼母好評

汪嘉偉之子汪崎:心疼母親鄧星,再難不“啃”父親,贏得繼母好評

細(xì)品名人
2026-03-26 07:10:29
2105km續(xù)航,9.79萬!比亞迪官宣:新車上市

2105km續(xù)航,9.79萬!比亞迪官宣:新車上市

新浪財(cái)經(jīng)
2026-04-21 14:30:59
收拾完伊朗,下一個(gè)輪到中國?以色列發(fā)戰(zhàn)爭威脅,中方送出5個(gè)字

收拾完伊朗,下一個(gè)輪到中國?以色列發(fā)戰(zhàn)爭威脅,中方送出5個(gè)字

千羽解讀
2026-04-18 10:12:15
阿斯塔納航空將于6月3日開通廣州—阿斯塔納直飛航線

阿斯塔納航空將于6月3日開通廣州—阿斯塔納直飛航線

北京商報(bào)
2026-04-21 15:34:11
凱特致敬伊麗莎白女王,戴其生前珍珠項(xiàng)鏈亮相,細(xì)節(jié)盡顯高情商

凱特致敬伊麗莎白女王,戴其生前珍珠項(xiàng)鏈亮相,細(xì)節(jié)盡顯高情商

世界王室那些事
2026-04-22 17:29:57
港媒:兩岸已步入到“準(zhǔn)統(tǒng)一”階段,“西藏模式”更具參考!

港媒:兩岸已步入到“準(zhǔn)統(tǒng)一”階段,“西藏模式”更具參考!

娛樂圈的筆娛君
2026-04-21 17:59:45
美加州熱氣球耗盡燃料降民居后院 13乘客淡定揮手 房主:難以置信

美加州熱氣球耗盡燃料降民居后院 13乘客淡定揮手 房主:難以置信

環(huán)球趣聞分享
2026-04-22 13:40:09
我國肝癌高發(fā),茶葉是背后的禍因?醫(yī)生勸告:3種茶才是幫兇

我國肝癌高發(fā),茶葉是背后的禍因?醫(yī)生勸告:3種茶才是幫兇

岐黃傳人孫大夫
2026-04-12 06:30:03
特朗普下令“無限期停戰(zhàn)”,9千萬伊朗人熬過最艱苦時(shí)刻?

特朗普下令“無限期停戰(zhàn)”,9千萬伊朗人熬過最艱苦時(shí)刻?

牛鍋巴小釩
2026-04-22 16:01:58
603169,被證監(jiān)會(huì)立案!

603169,被證監(jiān)會(huì)立案!

證券時(shí)報(bào)e公司
2026-04-22 17:54:29
51歲李健,每天只吃一餐,每周4次健身,身體狀態(tài)像20歲小伙子

51歲李健,每天只吃一餐,每周4次健身,身體狀態(tài)像20歲小伙子

馬拉松跑步健身
2026-04-13 22:00:23
解秀梅大膽擁抱毛主席,多年后呂厚民回憶稱:主席可能被嚇到了

解秀梅大膽擁抱毛主席,多年后呂厚民回憶稱:主席可能被嚇到了

春秋硯
2026-04-22 11:40:08
iPhone 17突然降價(jià),這應(yīng)該是目前最香的iPhone了

iPhone 17突然降價(jià),這應(yīng)該是目前最香的iPhone了

劉奔跑
2026-04-19 23:10:21
蘋果8號員工干了49年:裁員名單繞著他走,因?yàn)橘r不起

蘋果8號員工干了49年:裁員名單繞著他走,因?yàn)橘r不起

世界圈
2026-04-04 13:13:03
發(fā)現(xiàn)了嗎,越是分床睡、經(jīng)濟(jì)AA制、不干涉對方隱私的夫妻,感情濃度往往越低,越把婚姻過成......

發(fā)現(xiàn)了嗎,越是分床睡、經(jīng)濟(jì)AA制、不干涉對方隱私的夫妻,感情濃度往往越低,越把婚姻過成......

LULU生活家
2026-04-21 19:20:03
2026-04-22 18:07:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

特朗普180°轉(zhuǎn)彎延長?;?伊朗硬剛首次直接回絕談判

頭條要聞

特朗普180°轉(zhuǎn)彎延長停火 伊朗硬剛首次直接回絕談判

體育要聞

網(wǎng)易傳媒再度簽約法國隊(duì)和阿根廷隊(duì)

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長停火期限

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

本地
藝術(shù)
房產(chǎn)
公開課
軍事航空

本地新聞

春色滿城關(guān)不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

藝術(shù)要聞

無花不風(fēng)景

房產(chǎn)要聞

狂搶284輪!中海??谠倌弥匕跽兀?/h3>

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普宣布延長停火 伊朗表態(tài)

無障礙瀏覽 進(jìn)入關(guān)懷版