網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

CVPR 2026 | 字節(jié)世界模型新作，僅靠視覺學(xué)習(xí)真實(shí)世界知識(shí)

2026-03-09 14:20:52　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

視覺世界模型 “VideoWorld 2” 由豆包大模型團(tuán)隊(duì)與北京交通大學(xué)聯(lián)合提出。不同于 Sora 2 、Veo 3、Wan 2.2 等主流多模態(tài)模型，VideoWorld 系列工作在業(yè)界首次實(shí)現(xiàn)無需依賴語言模型，即可認(rèn)知世界。

現(xiàn)有的模型大多依賴語言或標(biāo)簽數(shù)據(jù)學(xué)習(xí)知識(shí)。然而，語言并不能捕捉真實(shí)世界中的所有知識(shí)。例如，復(fù)雜的動(dòng)態(tài)變化、空間關(guān)系以及背后的物理規(guī)律等，難以通過語言清晰表達(dá)。

正如李飛飛教授所說， “幼兒可以不依靠語言理解真實(shí)世界”，VideoWorld 系列僅通過 “視覺信息”，即瀏覽視頻數(shù)據(jù)，就能讓機(jī)器掌握推理、規(guī)劃和決策等復(fù)雜能力。在新作 VideoWorld 2 中，模型進(jìn)一步擴(kuò)展到真實(shí)場(chǎng)景，能夠僅瀏覽視頻，掌握長(zhǎng)達(dá) 1 分鐘的復(fù)雜手工制作任務(wù)，并已入選頂級(jí)會(huì)議 CVPR 2026

AI 可以直接從視頻中學(xué)習(xí)真實(shí)世界中的復(fù)雜技能嗎？就像人類可以僅靠瀏覽視頻學(xué)習(xí)折紙、搭樂高積木等技巧。

豆包大模型團(tuán)隊(duì)與北京交通大學(xué)聯(lián)合提出了 VideoWorld 2，一種通用視覺世界模型，旨在不依賴語言模型，僅靠瀏覽視頻，掌握復(fù)雜、長(zhǎng)時(shí)序的真實(shí)世界知識(shí)。

正如李飛飛教授在其演講中所言，視覺能力的出現(xiàn)引發(fā)了寒武紀(jì)生命大爆發(fā)，進(jìn)而推動(dòng)了智能的飛躍式發(fā)展。VideoWorld 2 通過研究使 AI 直接從真實(shí)視頻中學(xué)習(xí)復(fù)雜任務(wù)知識(shí)，探索了 AI 智能的邊界。

VideoWorld 2 揭示了直接從真實(shí)視頻中學(xué)習(xí)的關(guān)鍵在于解耦關(guān)鍵動(dòng)作和無關(guān)視覺細(xì)節(jié)，并據(jù)此提出一種動(dòng)態(tài)增強(qiáng)型潛動(dòng)態(tài)模型，將真實(shí)世界視頻中的復(fù)雜外觀與任務(wù)核心動(dòng)作解耦，顯著提升復(fù)雜長(zhǎng)時(shí)序任務(wù)的學(xué)習(xí)效率和效果。

僅通過瀏覽教程視頻，VideoWorld 2 即可完成諸如折紙和搭積木等長(zhǎng)達(dá)一分鐘的復(fù)雜手工制作任務(wù)。這些任務(wù)涉及當(dāng)前 AI 難以掌握的細(xì)粒度操作與長(zhǎng)程規(guī)劃能力。VideoWorld 2 的成功率遠(yuǎn)高于目前最先進(jìn)的技術(shù)（例如 Sora 2、Veo 3 和 Wan 2.2），成功率提升超過 70%，而后者幾乎無法完成這樣的復(fù)雜任務(wù)。此外，它還能將這些技能遷移至多種未見場(chǎng)景，并實(shí)現(xiàn)跨環(huán)境的多任務(wù)機(jī)器人操控。

團(tuán)隊(duì)認(rèn)為，盡管面向真實(shí)世界中的視頻知識(shí)學(xué)習(xí)與技能泛化仍存在很大挑戰(zhàn)， VideoWorld 2 有潛力從視頻數(shù)據(jù)中學(xué)習(xí)更多樣和復(fù)雜的任務(wù)技能。

目前，該項(xiàng)目論文被 CVPR 2026 錄用，代碼與模型已開源，歡迎體驗(yàn)交流。

論文鏈接：https://arxiv.org/abs/2602.10102
項(xiàng)目主頁(yè)：https://maverickren.github.io/VideoWorld2.github.io/
X 鏈接：https://x.com/XiaojieJin/status/2021469936363991162?s=20

現(xiàn)有 AI 難以從真實(shí)世界視頻中學(xué)習(xí)知識(shí)

面向本次研究，團(tuán)隊(duì)構(gòu)建了兩個(gè)實(shí)驗(yàn)環(huán)境：視頻手工制作和視頻機(jī)器人操控。

其中，手工制作視頻包含多種場(chǎng)景下的精細(xì)動(dòng)作與環(huán)境變化，如紙張的不規(guī)則形變、視角切換與遮擋等。同時(shí)，這些視頻時(shí)長(zhǎng)達(dá)分鐘級(jí)別，包含多個(gè)連續(xù)的操作步驟。相比娛樂向視頻，手工制作可以作為一個(gè)評(píng)估模型復(fù)雜知識(shí)學(xué)習(xí)能力的理想測(cè)試環(huán)境。

同時(shí)，團(tuán)隊(duì)還選取了機(jī)器人任務(wù)，以考察模型在理解控制規(guī)則和規(guī)劃任務(wù)方面的能力。

在模型訓(xùn)練環(huán)節(jié)，團(tuán)隊(duì)要求模型 “觀看” 教程視頻數(shù)據(jù)，以此得到一個(gè)可以根據(jù)過往觀測(cè)，預(yù)測(cè)未來畫面的視頻生成器。

在測(cè)試階段，團(tuán)隊(duì)要求模型在新的環(huán)境下，生成訓(xùn)練集中展示的任務(wù)技巧，并轉(zhuǎn)換為準(zhǔn)確連貫的視頻。對(duì)于需要具體動(dòng)作輸出的任務(wù)，模型可以在瀏覽大量視頻后，額外訓(xùn)練一個(gè)輕量的動(dòng)作預(yù)測(cè)頭，充分發(fā)揮從視頻中預(yù)先學(xué)習(xí)的知識(shí)。

團(tuán)隊(duì)首先測(cè)試了主流的視頻生成模型，如 Sora2，Veo3 和 Wan2.2 等。如下圖右側(cè)所示，這些模型雖然善于生成精美的畫面，但是全部無法生成完整準(zhǔn)確的折紙任務(wù)。

團(tuán)隊(duì)又測(cè)試了系列工作中的初代模型 VideoWorld。 VideoWorld 主要為模擬場(chǎng)景下的視頻知識(shí)學(xué)習(xí)設(shè)計(jì)，如視頻圍棋和模擬機(jī)器人操控，外觀與動(dòng)作均較簡(jiǎn)單。雖然 VideoWorld 的任務(wù)成功率更高，但輸出仍包含大量錯(cuò)誤的動(dòng)作。

團(tuán)隊(duì)將這歸因于 —— 模型難以充分解耦嵌入在視覺變化中的任務(wù)核心動(dòng)作，過擬合到了無關(guān)細(xì)節(jié)。例如，相機(jī)的抖動(dòng)，光影變化與無關(guān)外觀細(xì)節(jié)。這種過擬合會(huì)降低長(zhǎng)距離生成的穩(wěn)定性與準(zhǔn)確性。

相反，人類可以輕松地從復(fù)雜的外觀變化中提取關(guān)鍵的任務(wù)動(dòng)態(tài)。

增強(qiáng)視覺動(dòng)態(tài)解耦能力，提升視頻學(xué)習(xí)效果

根據(jù)上述觀測(cè)，團(tuán)隊(duì)提出 VideoWorld 2，旨在通過顯示的增強(qiáng)對(duì)外觀與動(dòng)作信息的解耦，提升知識(shí)學(xué)習(xí)的魯棒性。

為此，VideoWorld 2 引入了一個(gè)動(dòng)態(tài)增強(qiáng)型潛動(dòng)態(tài)模型（dLDM, dynamic-enhanced Latent Dynamic Model）, 可提取視頻中的任務(wù)核心動(dòng)作并壓縮為緊湊的潛在編碼，提高模型的知識(shí)學(xué)習(xí)效果。

dLDM 包含一個(gè) MAGVITv2 風(fēng)格的編碼器 - 解碼器結(jié)構(gòu)以及一個(gè)預(yù)訓(xùn)練的視頻生成模型（VDM, Video Diffusion Model）。編解碼器將未來的視頻變化壓縮為緊湊的潛在編碼，VDM 則負(fù)責(zé)將潛在編碼渲染為視頻。

對(duì)于一個(gè)視頻片段，編碼器先以因果方式提取每幀特征圖，并定義了一組注意力模塊和對(duì)應(yīng)可學(xué)習(xí)向量。每個(gè)向量通過注意力機(jī)制捕捉第一幀至后續(xù)固定幀的動(dòng)態(tài)變化信息，然后通過 FSQ 量化。其中，量化器作為信息篩選器，防止模型簡(jiǎn)單記憶后續(xù)幀原始內(nèi)容，而非壓縮關(guān)鍵動(dòng)態(tài)信息。

接下來，這些潛在編碼會(huì)作為 VDM 的條件輸入，以因果交叉注意力的形式與 VDM 進(jìn)行交互，基于去噪擴(kuò)散方式被渲染回視頻。

由于 VDM 具有豐富的外觀先驗(yàn)知識(shí)，潛在編碼可以僅關(guān)注緊湊的、可泛化的動(dòng)作信息，而不過擬合至無關(guān)外觀細(xì)節(jié)。

初代 VideoWorld 中僅使用編碼器 - 解碼器結(jié)構(gòu)來壓縮視頻變化，并重建視頻。由于解碼器結(jié)構(gòu)不包含外觀先驗(yàn)知識(shí)，其重建優(yōu)化目標(biāo)易為擾潛在編碼引入環(huán)境噪聲，難以充分解耦真實(shí)環(huán)境下的復(fù)雜外觀與任務(wù)動(dòng)作信息。

通過將 VDM 作為外觀渲染器，VideoWorld 2 實(shí)現(xiàn)了緊湊且魯棒的視覺表示，可以捕捉復(fù)雜、長(zhǎng)距離視覺序列中的核心動(dòng)態(tài)信息，這對(duì)于真實(shí)世界中的推理規(guī)劃任務(wù)至關(guān)重要。

同時(shí)，團(tuán)隊(duì)并未完全摒棄原始的解碼器結(jié)構(gòu)，仍要求其利用首幀特征圖與幀間視覺變化編碼來重建后續(xù)幀，并阻斷了該過程向潛在編碼的梯度回傳。由于梯度被截?cái)?，解碼器的重建任務(wù)不會(huì)干擾潛在編碼的學(xué)習(xí)；同時(shí)，其重建的粗粒度視頻動(dòng)態(tài)可作為輔助信息輸入 VDM，從而穩(wěn)定訓(xùn)練，使 VDM 能夠?qū)Ｗ⒂谕庥^渲染，無需從零開始學(xué)習(xí)任務(wù)動(dòng)態(tài)信息。

下圖為 dLDM 的模型架構(gòu)：

通過引入 dLDM，在無需任何文本描述的情況下，VideoWorld 2 即可以在各種環(huán)境下完成長(zhǎng)達(dá)一分鐘以上的連貫折紙、搭積木等手工制作任務(wù)，并可以應(yīng)用至機(jī)器人操控場(chǎng)景。

從更多視頻中學(xué)習(xí)，提取通用技能

針對(duì) dLDM 視頻學(xué)習(xí)效果的原因，團(tuán)隊(duì)進(jìn)行了以下分析，并發(fā)現(xiàn) dLDM 可以從大量真實(shí)世界視頻中提取相似的運(yùn)動(dòng)模式

下圖展示了 dLDM 在大量真實(shí)世界視頻上訓(xùn)練后，對(duì)潛在空間中距離相近編碼所屬視頻片段的可視化結(jié)果。

可以看出，這些編碼表達(dá)了相同的運(yùn)動(dòng)模式（如不同方向的位移、折紙中的通用動(dòng)作等）。盡管它們所處的環(huán)境和實(shí)體各不相同，但在潛在空間中具有相似的表達(dá)，這極大程度上有助于模型學(xué)習(xí)可泛化的策略。

進(jìn)一步地，團(tuán)隊(duì)對(duì)潛在編碼進(jìn)行了 UMAP 可視化（見下圖），其中每個(gè)數(shù)據(jù)點(diǎn)代表一個(gè)潛在編碼。

UMAP 作為一種主流的降維算法，能夠?qū)⒏呔S數(shù)據(jù)映射至低維空間，從而直觀展示模型的特征表征能力。圖中點(diǎn)的物理距離越近，表明其在原始高維空間中的相似度越高。

團(tuán)隊(duì)可視化了在 CALVIN 和 BRIDGE 兩個(gè)環(huán)境中學(xué)習(xí)到的潛在編碼。盡管這兩個(gè)環(huán)境外觀差異顯著（前者為仿真環(huán)境，后者為真實(shí)世界視頻），但它們具有相似的動(dòng)作空間（如機(jī)械臂的定向位移）。

如下圖所示，左側(cè)為 VideoWorld 2 提取的潛在編碼，右側(cè)為前作 VideoWorld 的結(jié)果。對(duì)比可見，對(duì)于跨環(huán)境的相似機(jī)械臂運(yùn)動(dòng)，VideoWorld 2 在潛在空間中呈現(xiàn)出更顯著的聚類趨勢(shì)，其表現(xiàn)明顯優(yōu)于 VideoWorld。這表明模型能夠更好地提取跨場(chǎng)景的共性，掌握更具泛化性的策略知識(shí)。

團(tuán)隊(duì)認(rèn)為，視覺能力是自然界中生物智能實(shí)現(xiàn)跨越式演化的重要推動(dòng)力。對(duì)于 AI 而言，從視覺中學(xué)習(xí)和理解真實(shí)世界知識(shí)，或許是邁向更高階智能的重要途徑。

未來，團(tuán)隊(duì)將致力于從視覺中學(xué)習(xí)和理解真實(shí)世界的復(fù)雜知識(shí)結(jié)構(gòu)，構(gòu)建能夠自主感知、推理與行動(dòng)的更強(qiáng)大的通用智能體。

作者介紹：

任中偉：VideoWorld 項(xiàng)目核心成員，北京交通大學(xué)計(jì)算機(jī)學(xué)院博士生。目前在字節(jié)跳動(dòng)大模型團(tuán)隊(duì)實(shí)習(xí)，期間在 CVPR 頂級(jí)會(huì)議上發(fā)表多篇論文，并受邀擔(dān)任了 CVPR，ICCV 等多個(gè)頂級(jí)會(huì)議審稿人。研究方向包括多模態(tài)感知與推理、世界模型、視頻生成等。

靳瀟杰：VideoWorld 系列項(xiàng)目負(fù)責(zé)人，現(xiàn)任北京交通大學(xué)計(jì)算機(jī)學(xué)院教授 / 博導(dǎo)，國(guó)家高層次青年人才，曾任字節(jié)跳動(dòng)美國(guó)研究院創(chuàng)始成員和技術(shù)負(fù)責(zé)人。研究方向?yàn)槎嗄B(tài)智能、世界模型、高效深度學(xué)習(xí)等。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.