国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

CVPR 2026 | 字節(jié)世界模型新作,僅靠視覺學(xué)習(xí)真實(shí)世界知識(shí)

0
分享至



視覺世界模型 “VideoWorld 2” 由豆包大模型團(tuán)隊(duì)與北京交通大學(xué)聯(lián)合提出。不同于 Sora 2 、Veo 3、Wan 2.2 等主流多模態(tài)模型,VideoWorld 系列工作在業(yè)界首次實(shí)現(xiàn)無需依賴語言模型,即可認(rèn)知世界。

現(xiàn)有的模型大多依賴語言或標(biāo)簽數(shù)據(jù)學(xué)習(xí)知識(shí)。然而,語言并不能捕捉真實(shí)世界中的所有知識(shí)。例如,復(fù)雜的動(dòng)態(tài)變化、空間關(guān)系以及背后的物理規(guī)律等,難以通過語言清晰表達(dá)。

正如李飛飛教授所說, “幼兒可以不依靠語言理解真實(shí)世界”,VideoWorld 系列 僅通過 “視覺信息”,即瀏覽視頻數(shù)據(jù),就能讓機(jī)器掌握推理、規(guī)劃和決策等復(fù)雜能力。在新作 VideoWorld 2 中,模型進(jìn)一步擴(kuò)展到真實(shí)場(chǎng)景,能夠僅瀏覽視頻,掌握長(zhǎng)達(dá) 1 分鐘的復(fù)雜手工制作任務(wù),并已入選頂級(jí)會(huì)議 CVPR 2026

AI 可以直接從視頻中學(xué)習(xí)真實(shí)世界中的復(fù)雜技能嗎?就像人類可以僅靠瀏覽視頻學(xué)習(xí)折紙、搭樂高積木等技巧。

豆包大模型團(tuán)隊(duì)與北京交通大學(xué)聯(lián)合提出了 VideoWorld 2,一種通用視覺世界模型,旨在不依賴語言模型,僅靠瀏覽視頻,掌握復(fù)雜、長(zhǎng)時(shí)序的真實(shí)世界知識(shí)。

正如李飛飛教授在其演講中所言,視覺能力的出現(xiàn)引發(fā)了寒武紀(jì)生命大爆發(fā),進(jìn)而推動(dòng)了智能的飛躍式發(fā)展。VideoWorld 2 通過研究使 AI 直接從真實(shí)視頻中學(xué)習(xí)復(fù)雜任務(wù)知識(shí),探索了 AI 智能的邊界。

VideoWorld 2 揭示了直接從真實(shí)視頻中學(xué)習(xí)的關(guān)鍵在于解耦關(guān)鍵動(dòng)作和無關(guān)視覺細(xì)節(jié),并據(jù)此提出一種動(dòng)態(tài)增強(qiáng)型潛動(dòng)態(tài)模型,將真實(shí)世界視頻中的復(fù)雜外觀與任務(wù)核心動(dòng)作解耦,顯著提升復(fù)雜長(zhǎng)時(shí)序任務(wù)的學(xué)習(xí)效率和效果。

僅通過瀏覽教程視頻,VideoWorld 2 即可完成諸如折紙和搭積木等長(zhǎng)達(dá)一分鐘的復(fù)雜手工制作任務(wù)。這些任務(wù)涉及當(dāng)前 AI 難以掌握的細(xì)粒度操作與長(zhǎng)程規(guī)劃能力。VideoWorld 2 的成功率遠(yuǎn)高于目前最先進(jìn)的技術(shù)(例如 Sora 2、Veo 3 和 Wan 2.2),成功率提升超過 70%,而后者幾乎無法完成這樣的復(fù)雜任務(wù)。此外,它還能將這些技能遷移至多種未見場(chǎng)景,并實(shí)現(xiàn)跨環(huán)境的多任務(wù)機(jī)器人操控。

團(tuán)隊(duì)認(rèn)為,盡管面向真實(shí)世界中的視頻知識(shí)學(xué)習(xí)與技能泛化仍存在很大挑戰(zhàn), VideoWorld 2 有潛力從視頻數(shù)據(jù)中學(xué)習(xí)更多樣和復(fù)雜的任務(wù)技能。

目前,該項(xiàng)目論文被 CVPR 2026 錄用,代碼與模型已開源,歡迎體驗(yàn)交流。



  • 論文鏈接:https://arxiv.org/abs/2602.10102
  • 項(xiàng)目主頁(yè):https://maverickren.github.io/VideoWorld2.github.io/
  • X 鏈接:https://x.com/XiaojieJin/status/2021469936363991162?s=20

現(xiàn)有 AI 難以從真實(shí)世界視頻中學(xué)習(xí)知識(shí)

面向本次研究,團(tuán)隊(duì)構(gòu)建了兩個(gè)實(shí)驗(yàn)環(huán)境:視頻手工制作和視頻機(jī)器人操控。

其中,手工制作視頻包含多種場(chǎng)景下的精細(xì)動(dòng)作與環(huán)境變化,如紙張的不規(guī)則形變、視角切換與遮擋等。同時(shí),這些視頻時(shí)長(zhǎng)達(dá)分鐘級(jí)別,包含多個(gè)連續(xù)的操作步驟。相比娛樂向視頻,手工制作可以作為一個(gè)評(píng)估模型復(fù)雜知識(shí)學(xué)習(xí)能力的理想測(cè)試環(huán)境。

同時(shí),團(tuán)隊(duì)還選取了機(jī)器人任務(wù),以考察模型在理解控制規(guī)則和規(guī)劃任務(wù)方面的能力。

在模型訓(xùn)練環(huán)節(jié),團(tuán)隊(duì)要求模型 “觀看” 教程視頻數(shù)據(jù),以此得到一個(gè)可以根據(jù)過往觀測(cè),預(yù)測(cè)未來畫面的視頻生成器。

在測(cè)試階段,團(tuán)隊(duì)要求模型在新的環(huán)境下,生成訓(xùn)練集中展示的任務(wù)技巧,并轉(zhuǎn)換為準(zhǔn)確連貫的視頻。對(duì)于需要具體動(dòng)作輸出的任務(wù),模型可以在瀏覽大量視頻后,額外訓(xùn)練一個(gè)輕量的動(dòng)作預(yù)測(cè)頭,充分發(fā)揮從視頻中預(yù)先學(xué)習(xí)的知識(shí)。

團(tuán)隊(duì)首先測(cè)試了主流的視頻生成模型,如 Sora2,Veo3 和 Wan2.2 等。如下圖右側(cè)所示,這些模型雖然善于生成精美的畫面,但是全部無法生成完整準(zhǔn)確的折紙任務(wù)。

團(tuán)隊(duì)又測(cè)試了系列工作中的初代模型 VideoWorld。 VideoWorld 主要為模擬場(chǎng)景下的視頻知識(shí)學(xué)習(xí)設(shè)計(jì),如視頻圍棋和模擬機(jī)器人操控,外觀與動(dòng)作均較簡(jiǎn)單。雖然 VideoWorld 的任務(wù)成功率更高,但輸出仍包含大量錯(cuò)誤的動(dòng)作。



團(tuán)隊(duì)將這歸因于 —— 模型難以充分解耦嵌入在視覺變化中的任務(wù)核心動(dòng)作,過擬合到了無關(guān)細(xì)節(jié)。例如,相機(jī)的抖動(dòng),光影變化與無關(guān)外觀細(xì)節(jié)。這種過擬合會(huì)降低長(zhǎng)距離生成的穩(wěn)定性與準(zhǔn)確性。

相反,人類可以輕松地從復(fù)雜的外觀變化中提取關(guān)鍵的任務(wù)動(dòng)態(tài)。

增強(qiáng)視覺動(dòng)態(tài)解耦能力,提升視頻學(xué)習(xí)效果

根據(jù)上述觀測(cè),團(tuán)隊(duì)提出 VideoWorld 2,旨在通過顯示的增強(qiáng)對(duì)外觀與動(dòng)作信息的解耦,提升知識(shí)學(xué)習(xí)的魯棒性。

為此,VideoWorld 2 引入了一個(gè)動(dòng)態(tài)增強(qiáng)型潛動(dòng)態(tài)模型(dLDM, dynamic-enhanced Latent Dynamic Model), 可提取視頻中的任務(wù)核心動(dòng)作并壓縮為緊湊的潛在編碼,提高模型的知識(shí)學(xué)習(xí)效果。

dLDM 包含一個(gè) MAGVITv2 風(fēng)格的編碼器 - 解碼器結(jié)構(gòu)以及一個(gè)預(yù)訓(xùn)練的視頻生成模型(VDM, Video Diffusion Model)。編解碼器將未來的視頻變化壓縮為緊湊的潛在編碼,VDM 則負(fù)責(zé)將潛在編碼渲染為視頻。

對(duì)于一個(gè)視頻片段,編碼器先以因果方式提取每幀特征圖,并定義了一組注意力模塊和對(duì)應(yīng)可學(xué)習(xí)向量。每個(gè)向量通過注意力機(jī)制捕捉第一幀至后續(xù)固定幀的動(dòng)態(tài)變化信息,然后通過 FSQ 量化。其中,量化器作為信息篩選器,防止模型簡(jiǎn)單記憶后續(xù)幀原始內(nèi)容,而非壓縮關(guān)鍵動(dòng)態(tài)信息。

接下來,這些潛在編碼會(huì)作為 VDM 的條件輸入,以因果交叉注意力的形式與 VDM 進(jìn)行交互,基于去噪擴(kuò)散方式被渲染回視頻。

由于 VDM 具有豐富的外觀先驗(yàn)知識(shí),潛在編碼可以僅關(guān)注緊湊的、可泛化的動(dòng)作信息,而不過擬合至無關(guān)外觀細(xì)節(jié)。

初代 VideoWorld 中僅使用編碼器 - 解碼器結(jié)構(gòu)來壓縮視頻變化,并重建視頻。由于解碼器結(jié)構(gòu)不包含外觀先驗(yàn)知識(shí),其重建優(yōu)化目標(biāo)易為擾潛在編碼引入環(huán)境噪聲,難以充分解耦真實(shí)環(huán)境下的復(fù)雜外觀與任務(wù)動(dòng)作信息。

通過將 VDM 作為外觀渲染器,VideoWorld 2 實(shí)現(xiàn)了緊湊且魯棒的視覺表示,可以捕捉復(fù)雜、長(zhǎng)距離視覺序列中的核心動(dòng)態(tài)信息,這對(duì)于真實(shí)世界中的推理規(guī)劃任務(wù)至關(guān)重要。

同時(shí),團(tuán)隊(duì)并未完全摒棄原始的解碼器結(jié)構(gòu),仍要求其利用首幀特征圖與幀間視覺變化編碼來重建后續(xù)幀,并阻斷了該過程向潛在編碼的梯度回傳。由于梯度被截?cái)?,解碼器的重建任務(wù)不會(huì)干擾潛在編碼的學(xué)習(xí);同時(shí),其重建的粗粒度視頻動(dòng)態(tài)可作為輔助信息輸入 VDM,從而穩(wěn)定訓(xùn)練,使 VDM 能夠?qū)W⒂谕庥^渲染,無需從零開始學(xué)習(xí)任務(wù)動(dòng)態(tài)信息。

下圖為 dLDM 的模型架構(gòu):



通過引入 dLDM,在無需任何文本描述的情況下,VideoWorld 2 即可以在各種環(huán)境下完成長(zhǎng)達(dá)一分鐘以上的連貫折紙、搭積木等手工制作任務(wù),并可以應(yīng)用至機(jī)器人操控場(chǎng)景。

從更多視頻中學(xué)習(xí),提取通用技能

針對(duì) dLDM 視頻學(xué)習(xí)效果的原因,團(tuán)隊(duì)進(jìn)行了以下分析,并發(fā)現(xiàn) dLDM 可以從大量真實(shí)世界視頻中提取相似的運(yùn)動(dòng)模式

下圖展示了 dLDM 在大量真實(shí)世界視頻上訓(xùn)練后,對(duì)潛在空間中距離相近編碼所屬視頻片段的可視化結(jié)果。

可以看出,這些編碼表達(dá)了相同的運(yùn)動(dòng)模式(如不同方向的位移、折紙中的通用動(dòng)作等)。盡管它們所處的環(huán)境和實(shí)體各不相同,但在潛在空間中具有相似的表達(dá),這極大程度上有助于模型學(xué)習(xí)可泛化的策略。



進(jìn)一步地,團(tuán)隊(duì)對(duì)潛在編碼進(jìn)行了 UMAP 可視化(見下圖),其中每個(gè)數(shù)據(jù)點(diǎn)代表一個(gè)潛在編碼。

UMAP 作為一種主流的降維算法,能夠?qū)⒏呔S數(shù)據(jù)映射至低維空間,從而直觀展示模型的特征表征能力。圖中點(diǎn)的物理距離越近,表明其在原始高維空間中的相似度越高。

團(tuán)隊(duì)可視化了在 CALVIN 和 BRIDGE 兩個(gè)環(huán)境中學(xué)習(xí)到的潛在編碼。盡管這兩個(gè)環(huán)境外觀差異顯著(前者為仿真環(huán)境,后者為真實(shí)世界視頻),但它們具有相似的動(dòng)作空間(如機(jī)械臂的定向位移)。

如下圖所示,左側(cè)為 VideoWorld 2 提取的潛在編碼,右側(cè)為前作 VideoWorld 的結(jié)果。對(duì)比可見,對(duì)于跨環(huán)境的相似機(jī)械臂運(yùn)動(dòng),VideoWorld 2 在潛在空間中呈現(xiàn)出更顯著的聚類趨勢(shì),其表現(xiàn)明顯優(yōu)于 VideoWorld。這表明模型能夠更好地提取跨場(chǎng)景的共性,掌握更具泛化性的策略知識(shí)。



團(tuán)隊(duì)認(rèn)為,視覺能力是自然界中生物智能實(shí)現(xiàn)跨越式演化的重要推動(dòng)力。對(duì)于 AI 而言,從視覺中學(xué)習(xí)和理解真實(shí)世界知識(shí),或許是邁向更高階智能的重要途徑。

未來,團(tuán)隊(duì)將致力于從視覺中學(xué)習(xí)和理解真實(shí)世界的復(fù)雜知識(shí)結(jié)構(gòu),構(gòu)建能夠自主感知、推理與行動(dòng)的更強(qiáng)大的通用智能體。

作者介紹:



任中偉:VideoWorld 項(xiàng)目核心成員,北京交通大學(xué)計(jì)算機(jī)學(xué)院博士生。目前在字節(jié)跳動(dòng)大模型團(tuán)隊(duì)實(shí)習(xí),期間在 CVPR 頂級(jí)會(huì)議上發(fā)表多篇論文,并受邀擔(dān)任了 CVPR,ICCV 等多個(gè)頂級(jí)會(huì)議審稿人。研究方向包括多模態(tài)感知與推理、世界模型、視頻生成等。



靳瀟杰:VideoWorld 系列項(xiàng)目負(fù)責(zé)人,現(xiàn)任北京交通大學(xué)計(jì)算機(jī)學(xué)院教授 / 博導(dǎo),國(guó)家高層次青年人才,曾任字節(jié)跳動(dòng)美國(guó)研究院創(chuàng)始成員和技術(shù)負(fù)責(zé)人。研究方向?yàn)槎嗄B(tài)智能、世界模型、高效深度學(xué)習(xí)等。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
拿10枚奧運(yùn)獎(jiǎng)牌,27歲張雨霏正式上任,職務(wù)不一般,級(jí)別年薪如何

拿10枚奧運(yùn)獎(jiǎng)牌,27歲張雨霏正式上任,職務(wù)不一般,級(jí)別年薪如何

查爾菲的筆記
2026-03-09 13:28:14
中日關(guān)系跌至冰點(diǎn),日企卻用55.5%的暴漲,打了高市早苗一記耳光

中日關(guān)系跌至冰點(diǎn),日企卻用55.5%的暴漲,打了高市早苗一記耳光

奇思妙想生活家
2026-03-09 13:20:16
逼走樊振東?打壓陳夢(mèng)?排擠張繼科?50歲劉國(guó)梁身上的傳聞太離譜

逼走樊振東?打壓陳夢(mèng)?排擠張繼科?50歲劉國(guó)梁身上的傳聞太離譜

林子說事
2026-03-09 15:43:58
中方最擔(dān)心的事情發(fā)生了,伊朗越過了紅線,秘密武器直逼以方心臟

中方最擔(dān)心的事情發(fā)生了,伊朗越過了紅線,秘密武器直逼以方心臟

面包夾知識(shí)
2026-03-09 19:04:49
涉嫌嚴(yán)重違紀(jì)違法,安徽一公司原總經(jīng)理主動(dòng)投案

涉嫌嚴(yán)重違紀(jì)違法,安徽一公司原總經(jīng)理主動(dòng)投案

網(wǎng)易安徽
2026-03-09 18:25:27
今天,“養(yǎng)龍蝦”引爆漲停潮

今天,“養(yǎng)龍蝦”引爆漲停潮

新浪財(cái)經(jīng)
2026-03-09 16:36:11
擬重大資產(chǎn)重組,002445,“一”字漲停,封單超250萬手!

擬重大資產(chǎn)重組,002445,“一”字漲停,封單超250萬手!

數(shù)據(jù)寶
2026-03-09 10:38:52
人民日?qǐng)?bào):最高級(jí)的教育,就抓這三樣!

人民日?qǐng)?bào):最高級(jí)的教育,就抓這三樣!

諾媽家有男寶娃
2026-03-06 14:29:59
43天寒假無休送外賣掙萬元,財(cái)務(wù)管理專業(yè)大三學(xué)生收獲人生“第一桶金”

43天寒假無休送外賣掙萬元,財(cái)務(wù)管理專業(yè)大三學(xué)生收獲人生“第一桶金”

封面新聞
2026-03-09 13:14:08
雷軍:未來每周或僅需工作3天 每天工作2小時(shí) 建議大家用開放心態(tài)迎接

雷軍:未來每周或僅需工作3天 每天工作2小時(shí) 建議大家用開放心態(tài)迎接

快科技
2026-03-07 14:42:06
外交部:中方將采取必要措施保障自身能源安全

外交部:中方將采取必要措施保障自身能源安全

環(huán)球網(wǎng)資訊
2026-03-09 15:55:04
1998年數(shù)萬華人遭屠殺,中國(guó)為何沒出兵?26年后答案讓人沉默

1998年數(shù)萬華人遭屠殺,中國(guó)為何沒出兵?26年后答案讓人沉默

哄動(dòng)一時(shí)啊
2026-02-17 22:21:25
高速服務(wù)區(qū)靠什么盈利?保潔大姐說出真相,顛覆了我的三觀!

高速服務(wù)區(qū)靠什么盈利?保潔大姐說出真相,顛覆了我的三觀!

愛下廚的阿釃
2026-03-08 16:21:08
滅國(guó)級(jí)絞殺!伊朗新領(lǐng)袖剛上臺(tái),美軍基地全面開放,這要徹底亡國(guó)

滅國(guó)級(jí)絞殺!伊朗新領(lǐng)袖剛上臺(tái),美軍基地全面開放,這要徹底亡國(guó)

黑鷹觀軍事
2026-03-09 15:11:34
就地解散嗎?火藥耗盡后的伊朗革命衛(wèi)隊(duì)

就地解散嗎?火藥耗盡后的伊朗革命衛(wèi)隊(duì)

民間鐵血柔情
2026-03-09 06:04:26
就在今晚!3月9日晚19:30!中央5套CCTV5、CCTV5+直播節(jié)目表

就在今晚!3月9日晚19:30!中央5套CCTV5、CCTV5+直播節(jié)目表

皮皮觀天下
2026-03-09 04:17:40
給廳長(zhǎng)開車6年我從不提私事,父親貨車被扣,廳長(zhǎng)遞來一個(gè)眼神

給廳長(zhǎng)開車6年我從不提私事,父親貨車被扣,廳長(zhǎng)遞來一個(gè)眼神

小月故事
2026-03-06 14:48:51
郭廣昌徹底“甩雷”

郭廣昌徹底“甩雷”

智趣財(cái)經(jīng)
2026-03-09 11:39:56
中國(guó)為何要掛日式燈籠?博主譴責(zé)這是嚴(yán)重的“文化錯(cuò)位”

中國(guó)為何要掛日式燈籠?博主譴責(zé)這是嚴(yán)重的“文化錯(cuò)位”

映射生活的身影
2026-03-09 03:08:46
伊朗選出新領(lǐng)袖,戰(zhàn)事還要打多久:“凱恩預(yù)言”或成真,特朗普打“退堂鼓”?

伊朗選出新領(lǐng)袖,戰(zhàn)事還要打多久:“凱恩預(yù)言”或成真,特朗普打“退堂鼓”?

紅星新聞
2026-03-09 10:05:03
2026-03-09 19:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12451文章數(shù) 142579關(guān)注度
往期回顧 全部

科技要聞

OpenClaw更新,"養(yǎng)蝦"再也不會(huì)犯健忘癥了

頭條要聞

媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

頭條要聞

媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

體育要聞

36連勝終結(jié)!大魔王也是可以戰(zhàn)勝的

娛樂要聞

姆巴佩戀情確認(rèn)!與26歲新歡共度良宵

財(cái)經(jīng)要聞

油價(jià)破100美元年內(nèi)漲80% 全球市場(chǎng)劇震

汽車要聞

對(duì)標(biāo)奔馳小號(hào)G級(jí) 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

旅游
家居
藝術(shù)
房產(chǎn)
公開課

旅游要聞

濰坊青州:上稍桃花始盛開 春日美景迎客來

家居要聞

獨(dú)棟獨(dú)院 精致親子墅

藝術(shù)要聞

吳冠中畫長(zhǎng)江,氣勢(shì)磅礴

房產(chǎn)要聞

國(guó)家要砸400億!海南這個(gè)超級(jí)項(xiàng)目又有新消息!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版