国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

視頻模型能解決機器人“預測未來”的問題嗎?短期能,長期不行

0
分享至

2026 年 2 月 12 日,普林斯頓大學機械與航空航天工程系副教授 Anirudha Majumdar 在 X 上發(fā)表了一篇長博文,直面一個正在機器人學界升溫的核心爭論:為具身智能構(gòu)建世界模型,到底應不應該去“預測像素”?

Majumdar 是普林斯頓機器人研究倡議(Princeton Robotics Initiative)的聯(lián)合主任,同時在 Google DeepMind 擔任兼職訪問研究科學家。他的研究聚焦于讓機器人在以人為中心的環(huán)境中安全、可靠地泛化到新場景,曾獲斯隆研究獎(Sloan Fellowship)、兩次 Google 教授研究獎,以及《國際機器人研究期刊》(IJRR)年度最佳論文等榮譽。


圖丨Anirudha Majumdar(來源:Princeton MAE)

他本人也是去年 12 月 Google DeepMind 那篇引發(fā)廣泛關(guān)注的 Veo 機器人策略評估工作的合作者之一,該研究展示了如何用前沿視頻生成模型 Veo 作為機器人策略的“世界仿真器”,通過 1,600 多次真實世界評估驗證了其有效性。

在文章中,Majumdar 表示當前機器人領(lǐng)域的世界模型幾乎等同于視頻生成模型,這條路線在概念簡潔性、評估便利性、商業(yè)推動力等方面擁有不容低估的短期優(yōu)勢;但 Yann LeCun 倡導多年的潛在世界模型(以 JEPA 架構(gòu)為代表)在長時域規(guī)劃上更具前景,可能在五年左右的時間尺度上成為關(guān)鍵組件。兩者并非你死我活的替代關(guān)系,更可能走向協(xié)同。

以下是這篇博文的全文編譯。

機器人的世界模型

在機器人學界,一個大致的共識似乎正彌漫在空氣中:未來的通用策略將建立在“世界建模”的配方之上,而非迄今為止占主導地位的 VLM(Vision-Language Model,視覺語言模型)骨架方案。

論點如下:VLM 沒有被顯式地訓練來預測未來,因此在幾何、空間和物理推理能力上,也就是預測動作精細后果所需的那類能力并不可靠。相比之下,世界模型允許機器人“想象”未來以進行規(guī)劃,例如:(1)生成一段想象中成功執(zhí)行的視頻,再用逆動力學模型推斷所需動作;或者(2)直接使用一個以動作為條件的世界模型來優(yōu)化規(guī)劃。

2026 年初的機器人學:世界模型=視頻模型

在 2026 年初,機器人領(lǐng)域的世界建模由視頻世界模型主導,即那些被訓練來預測未來視頻幀(以文本以及潛在的動作為條件)的生成式模型。這些模型建立在視頻建模領(lǐng)域巨大進步的基礎(chǔ)之上:在互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)上訓練的基于擴散的架構(gòu),能夠生成驚人逼真的視頻,包含復雜的物理交互,例如來自 Veo、Cosmos 和 Wan 的視頻。

僅在過去一年中,我們就已經(jīng)看到經(jīng)過機器人數(shù)據(jù)微調(diào)的視頻模型能夠執(zhí)行策略評估、數(shù)據(jù)生成和推理時規(guī)劃生成;相關(guān)綜述可參閱文獻[1]。就我個人而言,參與 Veo 的策略評估工作提供了一次巨大的認知更新,看到如下所示的視頻模型“仿真”,讓我確信視頻模型終于到了可以在機器人領(lǐng)域大展身手的時刻。

視頻模型的挑戰(zhàn)

盡管結(jié)果令人振奮,當前所有用于機器人的視頻模型都受到同一組幻覺問題的困擾:物體憑空復制、無中生有、憑空消失,或者在自發(fā)地或在被遮擋后重新出現(xiàn)時發(fā)生形變。

此外,長時域生成是一個重大挑戰(zhàn):當前機器人領(lǐng)域的視頻模型很難在超過 20-30 秒之后仍能產(chǎn)出高質(zhì)量的生成結(jié)果。

潛在世界模型:不要預測像素

從直覺上看,視頻建模對于世界模型而言似乎是一個不必要地困難的任務。預測背景中樹葉運動的像素級細節(jié),或者預測即將出現(xiàn)在我辦公室門口的人的精確面部特征,顯然是沒有必要的。

我們可以轉(zhuǎn)而構(gòu)建一個潛在世界模型(latent world model),只預測環(huán)境的某些特征。具體來說,通過預測可預測之物,我們可以將表征能力集中在真正重要的事情上,而不是那些細枝末節(jié),比如在特定光照條件下物體的精確外觀。

Yann LeCun 多年來已經(jīng)非常有力地闡述了這一論點(參見他在普林斯頓機器人研討會上的演講)。他在 Meta 和 NYU 的團隊開發(fā)了多種形式的 JEPA(Joint-Embedding Predictive Architecture,聯(lián)合嵌入預測架構(gòu)),這種架構(gòu)學習觀測的潛在表征,以預測其他(例如未來)觀測的表征。

V-JEPA 2 展示了這種自監(jiān)督學習如何涌現(xiàn)出有用的視頻特征。此外,該工作還展示了模型的動作條件版本如何通過在推理時優(yōu)化動作序列來實現(xiàn)機器人規(guī)劃。

潛在世界模型的論點在長時域任務上尤其有說服力。預測世界在未來 10-20 秒內(nèi)如何在像素層面演化似乎還說得過去,但將這一尺度擴展到分鐘或小時級別,既極其困難,又完全沒有必要。

為什么視頻模型將在短期內(nèi)勝出

在接觸視頻模型之前,我曾被上述潛在世界模型的論點所說服;只預測世界顯著特征的極簡主義方法確實很有吸引力。然而,我想要論證的是,視頻建模在技術(shù)和實踐上有一些不應被低估的顯著優(yōu)勢。這些優(yōu)勢在一年前對我來說并不顯而易見,我希望在這里把它們明確寫出來能對其他人有所幫助。

概念上的簡潔性。視頻建模的任務是明確無歧義的:預測未來幀。類似于 LLM(Large Language Model,大語言模型)的下一個 token 預測,一個清晰的監(jiān)督信號可以為下游任務帶來良好的特征,以及諸如物體分割、視頻編輯和視覺推理等涌現(xiàn)能力。

這與 JEPA 形成鮮明對比:預測可預測之物這一任務并非完全指定的(not fully specified),如果實現(xiàn)不當會導致表征坍縮——構(gòu)建一個可預測嵌入的最簡單方式就是讓它成為常數(shù)。

清晰的評估指標。對視頻模型進行爬坡優(yōu)化(hill-climbing)是直截了當?shù)摹S袠藴手笜耍ㄈ?LPIPS 或 FID)可以用來評估視頻生成的質(zhì)量。JEPA 則不然,它優(yōu)化的損失函數(shù)并不一定與下游性能相關(guān)(不過最近的 LeJepa 論文在這方面展現(xiàn)了一些積極跡象)。

推理時縮放與驗證器。視頻模型允許 VLM 被直接用作驗證器。通過生成多段視頻并用 VLM 打分,我們可以過濾掉不真實或低質(zhì)量的生成結(jié)果。這提供了一個簡潔的推理時縮放配方。

視頻模型賦能策略評估。視頻模型可以充當機器人策略的完整仿真器。為了執(zhí)行閉環(huán) rollout,仿真器的輸出必須與策略的輸入匹配。對于視覺運動控制(visuomotor control),這就要求生成完整的圖像(除非策略被迫在潛在世界模型的潛在空間中接收輸入)。

視頻模型與圖像編輯器的天然組合。視頻模型可以接受編輯后的幀作為輸入。正如我們在 Veo 工作中所展示的,這提供了一個簡潔的配方,用于在分布外(out-of-distribution)場景中進行策略評估。

真實世界的觀測可以被編輯(例如引入新物體或背景),然后用于條件化策略 rollout??梢韵胂?,類似的策略也能用于視頻模型在分布外場景中的數(shù)據(jù)生成(類似于 DreamGen)。

巨大的商業(yè)激勵。支持視頻模型的主要論點實際上是一個非技術(shù)性的。開發(fā)好的視頻生成模型面臨著巨大的商業(yè)壓力。從社交媒體應用到電影制作,視頻模型將以獨立于機器人領(lǐng)域的速度快速發(fā)展。

我們已經(jīng)反復看到這部電影的劇情,從用于游戲的深度相機,到用于智能手機的 IMU(Inertial Measurement Unit,慣性測量單元),再到用于 NLP(Natural Language Processing,自然語言處理)的 LLM——因獨立商業(yè)原因開發(fā)的技術(shù),最終革新了機器人學。同樣的事情很可能也會發(fā)生在視頻模型身上。

在近期(2-3 年),我預計視頻模型將繼續(xù)作為機器人世界建模的主導力量。尤其是對于短時域操作任務,這仍然是當今機器人學大部分研究的北極星,我預計上述優(yōu)勢將超過潛在世界模型的潛在收益。

JEPA 會在長期勝出嗎?

JEPA 用于機器人的核心未解技術(shù)問題是:JEPA 學到的"可預測特征"是否等同于對機器人有用的特征?可預測的特征本身并不一定有用——我們總是可以預測那個將任何圖像映射為常數(shù)的特征。然而,DINO 的存在提供了一個強有力的證據(jù),它可以說是 JEPA 風格自監(jiān)督學習最大的成功案例。

DINO 特征在廣泛的下游視覺任務中取得了最先進的結(jié)果,如分割、深度預測和物體檢測。類似的收益能否在機器人世界建模中實現(xiàn),仍然是一個開放問題。

為了超越視頻模型,JEPA 還需要克服我上面強調(diào)的一些商業(yè)壓力。然而,LeCun 的 AMI 初創(chuàng)公司似乎有可能積聚足夠的資源來跨越這一障礙,并展示 JEPA 在世界建模方面的威力。

如果讓我在大約 5 年的時間線上下注,我會押注 JEPA 成為機器人世界模型的關(guān)鍵組成部分。我懷疑,一旦我們在基礎(chǔ)操作技能上取得進展,超過幾秒的時間跨度將真正開始在機器人學中變得重要,屆時 JEPA 在規(guī)劃方面的優(yōu)勢應該會顯現(xiàn)出來。

然而,基于上一節(jié)強調(diào)的原因,我不認為 JEPA 會一對一地替代視頻模型。首先,JEPA 和視頻模型可以協(xié)同工作。事實上,我們已經(jīng)看到了將兩者結(jié)合的工作,例如用潛在世界模型在推理時改進視頻模型。此外,JEPA 的表征學習目標也可以與視頻重建目標同時應用。最后,對于策略評估等用例,視頻生成有非常明確的優(yōu)勢(例如使用圖像編輯來生成場景變體)。

無論事情最終如何發(fā)展,這都是一個非常激動人心的時刻,不同的實體正在下注不同的路線,還有一些根本性的開放問題等待解決。

參考資料:

1.https://x.com/Majumdar_Ani/status/2021242532517040560

2.Mei et al., 2026, "Video Generation Models in Robotics -- Applications, Research Challenges, Future Directions".

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
給領(lǐng)導送禮,這4種行為最招厭,送了不如不送

給領(lǐng)導送禮,這4種行為最招厭,送了不如不送

第一管理
2026-02-25 15:51:03
雷迪克談東契奇空位3分絕殺沒投:原本為他設計戰(zhàn)術(shù) 也有不錯機會

雷迪克談東契奇空位3分絕殺沒投:原本為他設計戰(zhàn)術(shù) 也有不錯機會

Emily說個球
2026-02-25 14:19:06
央行點名“十宗罪”!浦發(fā)銀行:10萬億資產(chǎn)的冰與火

央行點名“十宗罪”!浦發(fā)銀行:10萬億資產(chǎn)的冰與火

杠桿游戲
2026-02-26 00:24:06
甘肅省城鄉(xiāng)發(fā)展投資集團有限公司原董事長陳策被“雙開”

甘肅省城鄉(xiāng)發(fā)展投資集團有限公司原董事長陳策被“雙開”

界面新聞
2026-02-25 15:59:30
美方證實:增派大批F-22

美方證實:增派大批F-22

環(huán)球時報國際
2026-02-26 00:00:04
斯諾克戰(zhàn)報:趙心童10連勝兩桿破百險勝,周躍龍4-0橫掃晉級

斯諾克戰(zhàn)報:趙心童10連勝兩桿破百險勝,周躍龍4-0橫掃晉級

看盡人間百態(tài)
2026-02-25 21:11:29
廣東將迎今年以來第一次大范圍降雨過程

廣東將迎今年以來第一次大范圍降雨過程

中國能源網(wǎng)
2026-02-25 15:26:16
退休大爺多吃了塊紅燒肉,被兒子兒媳辱罵,他走后兒子崩潰

退休大爺多吃了塊紅燒肉,被兒子兒媳辱罵,他走后兒子崩潰

奶茶麥子
2026-02-25 16:23:23
斯內(nèi)德:我因為對普雷斯蒂安尼的評論收到4000條死亡威脅

斯內(nèi)德:我因為對普雷斯蒂安尼的評論收到4000條死亡威脅

懂球帝
2026-02-25 18:48:12
“全屋定制”漸漸退出中國家庭?學學浙江人的做法,美觀無甲醛!

“全屋定制”漸漸退出中國家庭?學學浙江人的做法,美觀無甲醛!

家居設計師蘇哥
2026-02-25 13:36:32
飛天茅臺出廠價上調(diào)?貴州茅臺辟謠

飛天茅臺出廠價上調(diào)?貴州茅臺辟謠

中國基金報
2026-02-25 14:29:32
啟程訪華前,默茨表態(tài)

啟程訪華前,默茨表態(tài)

極目新聞
2026-02-25 10:27:29
封神!株洲司機最后1秒沖過收費站,收費員比他還瘋,全網(wǎng)笑炸

封神!株洲司機最后1秒沖過收費站,收費員比他還瘋,全網(wǎng)笑炸

觀察鑒娛
2026-02-25 10:09:22
戰(zhàn)場大反轉(zhuǎn)!烏軍2月打出意外戰(zhàn)果,默茨直言:抵抗遠超外界想象

戰(zhàn)場大反轉(zhuǎn)!烏軍2月打出意外戰(zhàn)果,默茨直言:抵抗遠超外界想象

老馬拉車莫少裝
2026-02-25 22:29:53
又一部國產(chǎn)劇,靠「擦邊」火出圈了

又一部國產(chǎn)劇,靠「擦邊」火出圈了

獨立魚
2026-02-04 21:49:46
《純真年代的愛情》結(jié)局:方穆靜出國讀博,費霓生子,連漪最好命

《純真年代的愛情》結(jié)局:方穆靜出國讀博,費霓生子,連漪最好命

小白兔YY
2026-02-25 15:52:48
趙心童之后,中國又一斯諾克天才出現(xiàn),不是吳宜澤和斯佳輝

趙心童之后,中國又一斯諾克天才出現(xiàn),不是吳宜澤和斯佳輝

老高說體育
2026-02-25 11:41:00
美國也沒想到,轉(zhuǎn)為中國籍僅6年,谷愛凌竟已成美國頭號勁敵

美國也沒想到,轉(zhuǎn)為中國籍僅6年,谷愛凌竟已成美國頭號勁敵

青煙小先生
2026-01-31 19:10:22
天生一張娃娃臉都已經(jīng)46了,你敢想

天生一張娃娃臉都已經(jīng)46了,你敢想

超人強動物俱樂部
2026-02-25 19:21:58
以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

八斗小先生
2025-12-26 09:33:27
2026-02-26 01:03:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16320文章數(shù) 514654關(guān)注度
往期回顧 全部

科技要聞

“機器人只跳舞,沒什么用”

頭條要聞

女子爬山失聯(lián)10天后遺體被找到 丈夫:她登頂神情恐懼

頭條要聞

女子爬山失聯(lián)10天后遺體被找到 丈夫:她登頂神情恐懼

體育要聞

勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

娛樂要聞

黃曉明新戀情!與小22歲美女同游新加坡

財經(jīng)要聞

上海樓市放大招,地產(chǎn)預期別太大

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

數(shù)碼
藝術(shù)
旅游
教育
家居

數(shù)碼要聞

超頻三銀翼DT360 Max ARGB Display一體式水冷開售,1299元

藝術(shù)要聞

這些作品太美了,仙氣飄飄,三位大咖不容錯過!

旅游要聞

“四省人氣”匯聚單縣浮龍湖

教育要聞

初中三年,如何不掉隊?

家居要聞

藝居辦公 溫度與效率

無障礙瀏覽 進入關(guān)懷版