網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

訓練機器人方式對了嗎？英偉達DreamZero雙榜第一新反思

2026-03-03 20:55:03　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

近日，NVIDIA 發(fā)布的世界 - 動作模型 DreamZero，在兩項頗具代表性的機器人基準測試 RoboArena 、MolmoSpaces 上雙雙登頂。

DreamZero 核心思想是：在同一個模型里，同時預測未來視頻和機器人動作。也就是說，DreamZero 讓機器人在行動前，先在模型內(nèi)部想象未來。

但問題也隨之而來。

為什么這種邊預測世界、邊預測動作的設計，會帶來如此顯著的性能提升？它到底比傳統(tǒng)策略模型或世界模型強在哪里？是真正的范式突破，還是數(shù)據(jù)與模型規(guī)模的勝利？

圍繞這些問題，近期一篇頗具討論度的分析文章《Why is DreamZero so good at robotics?》給出了一個更深入的解讀：在訓練一個通用機器人策略時，你的數(shù)據(jù)和模型架構需要具備哪些特征？這篇文章的解讀，正在對以往的認知提出質疑。

文章作者是一位名叫 Chris Paxton 機器人與人工智能研究者，曾在 Hello Robot 負責具身智能（Embodied AI）方向的研究工作。此前，Paxton 在 NVIDIA Research 以及 Meta 旗下的基礎人工智能研究機構 FAIR 工作過。

這篇文章從模型介紹、訓練數(shù)據(jù)分布、模型主干規(guī)模、時間上下文長度，以及視頻生成作為輔助監(jiān)督信號等多個維度，拆解了 DreamZero 表現(xiàn)突出的可能原因。

文章地址：https://itcanthink.substack.com/p/why-is-dreamzero-so-good-at-robotics

接下來是文章主要內(nèi)容。

DreamZero 是什么？

DreamZero 是 NVIDIA 提出的「世界 — 動作模型」（world-action model）。它借鑒了世界模型中的許多核心思想，尤其是視頻生成對機器人任務有價值這一理念，但在關鍵設計上做了幾處重要改動。其中最關鍵的一點是：它聯(lián)合建模動作生成與視頻生成。

通常來說，世界模型大致可以分為兩類：

動作條件世界模型：學習狀態(tài)與動作到下一狀態(tài)的映射，即 x′=f (x,a)。其中 x 表示當前觀測狀態(tài)，a 表示動作。例如 V-JEPA 2 或近期 RISE 論文中的世界模型就屬于這一類。

逆動力學世界模型（inverse dynamics world models）：例如 NVIDIA 的 DreamGen 或 1X 的世界模型。這類方法先學習 x′=f (x)，然后再通過一個逆動力學模型學習 a=g (x,x′)。

相比之下，DreamZero 更像一個傳統(tǒng)的機器人策略模型，但它同時還會預測未來視頻。因此，它學習的更接近于：(x′,a)=f (x)。

也就是說，它在同一個模型中同時預測未來狀態(tài)和對應動作

我們也可以把它與傳統(tǒng)的視覺 — 語言 — 動作模型（vision-language-action model）進行對比：DreamZero 不僅預測動作，還預測未來畫面。這為模型提供了一種更豐富的監(jiān)督信號，不僅告訴它該做什么，還告訴它世界接下來會變成什么樣，從而幫助模型更好地學習環(huán)境演化的規(guī)律。

基準

RoboArena 是一個基于 Droid 構建的分布式真實世界基準測試。全球各地的評測者擁有相對相似的機器人和實驗設置，并根據(jù)不同的自然語言指令，運行一系列開放式的機器人任務評測。

這意味著，從數(shù)據(jù)分布的角度來看，它在某種程度上屬于 DreamZero 的分布內(nèi)（in-distribution）場景。因為 DreamZero 本身就是在 Droid 數(shù)據(jù)上訓練的，而 Droid 中包含了非常相似的任務和實驗環(huán)境。但與此同時，這仍然是一個真實世界的評估環(huán)境，意味著會存在各種現(xiàn)實中的復雜性和變化；而且具體任務是由評測者自行選擇的。

RoboArena 還是一個 head-to-head 式的比較基準，有點類似于在大模型發(fā)展中產(chǎn)生重要影響的 Chatbot Arena。

MolmoSpaces 是一個新的基準測試平臺，具備高保真物理模擬能力和多樣化、程序化生成的環(huán)境。

其中，MolmoSpaces-Bench 重點測試在多種受控變化條件下的任務表現(xiàn)，包括抓?。╬ick）、放置（place）、開合（open and close）等基礎操作，以及這些操作的組合任務。

這是一個尚未接近性能飽和的新基準，也就是說，模型之間仍然存在明顯差距，仍有較大提升空間。而 DreamZero 在這些測試中都取得了優(yōu)異表現(xiàn)。

我們能從中學到什么？

我們可以具體對比一下 DreamZero 和 pi-0.5，因為 pi-0.5 是目前排名第二的模型。

訓練數(shù)據(jù)方面

pi-0.5 使用了超過 1 萬小時的真實機器人數(shù)據(jù)、視覺語言模型（VLM）數(shù)據(jù)，以及 Droid 數(shù)據(jù)集進行訓練。而 DreamZero 則根據(jù)不同的模型版本（checkpoint），使用 DROID 數(shù)據(jù)或 AgiBot 數(shù)據(jù)進行訓練。

訓練數(shù)據(jù)的分布很可能在這里起到了至關重要的作用。可以注意到，在 DreamZero 的論文中，它在 AgiBot 數(shù)據(jù)集上的表現(xiàn)明顯優(yōu)于 pi-0.5（而 AgiBot 并不包含在 pi-0.5 的訓練數(shù)據(jù)中）；但在雙方都使用過的 DROID-Franka 設置下，兩者的性能差距則要小得多。

這似乎也在暗示：那額外的 1 萬小時機器人數(shù)據(jù)，可能并不像人們想象中那樣萬能有效。

更關鍵的，或許不是數(shù)據(jù)量本身，而是是否在正確分布的機器人數(shù)據(jù)上進行預訓練。在另一篇近期博客文章中，Physical Intelligence 展示了一個非常顯著的結果：當模型在與目標任務分布高度一致的合作方數(shù)據(jù)上進行預訓練時，性能會出現(xiàn)大幅提升

因此，也許從另一種機器人身上額外增加 1 萬小時的數(shù)據(jù)，并不一定比使用手頭那些廉價、充足的第一視角視頻數(shù)據(jù)更有效。對于那些希望訓練跨機體通用機器人大腦的研究者來說，這可能并不是一個好消息。換句話說，從不同機器人形態(tài)中獲得的收益，可能并不會比單純加入大量低成本的第一視角視頻數(shù)據(jù)更多。

模型主干

首先是主干模型規(guī)模之差。

DreamZero 基于 Wan2.1-I2V-14B-480P 構建，是一個 140 億參數(shù)的視頻生成模型，相比之下，pi-0.5 基于 30 億參數(shù)的開源視覺語言模型 PaliGemma 進行訓練，參數(shù)規(guī)模差了將近 5 倍。

其次是信息輸入方式不同。

DreamZero 最多可以接收 8 幀上下文輸入，等于讓模型看一個短視頻片段。pi-0.5 只能輸入單幀圖像，每次決策只看當前一張照片。

在真實世界中，機器人任務幾乎都具備幾個典型特征：環(huán)境往往是部分可觀測的，存在復雜的物理動態(tài)過程，并且高度依賴對時間連續(xù)性的理解。例如，一扇門可能剛剛被推開了一點、某個物體正在滑動、機械臂上一刻的速度和加速度都會影響下一步動作的結果。

如果模型只能看到單幀圖像，它往往無法判斷物體是在運動還是靜止，也難以推斷當前狀態(tài)是否由之前的動作所引發(fā)，更無法理解慣性等物理效應。

而如果模型能夠觀察連續(xù)的多幀畫面，比如 8 幀歷史信息，它就能捕捉到運動趨勢和狀態(tài)變化，更容易學習到潛在的物理規(guī)律，從而在控制和決策上表現(xiàn)得更加穩(wěn)定和準確。

模型規(guī)模

DreamZero 是一個體量巨大的模型，而論文中相當一部分工作其實是在解決如何讓這個 140 億參數(shù)的龐然大物實現(xiàn)實時運行。論文中的消融實驗似乎表明，模型規(guī)模在性能表現(xiàn)上起到了非常關鍵的作用。

同時引入更長的歷史信息、擴大模型規(guī)模，通常都會帶來一個問題：模型更難訓練，而且在低數(shù)據(jù)環(huán)境下更容易過擬合。與大語言模型不同，后者由于擁有海量數(shù)據(jù)，幾乎不用擔心過擬合問題。機器人領域本質上始終處于一個低數(shù)據(jù)環(huán)境中。即便是現(xiàn)在，DROID 數(shù)據(jù)集相比最小規(guī)模的 LLM 數(shù)據(jù)集，也依然小得多。

因此可以提出一個猜想：視頻生成目標在這里充當了一種輔助損失（auxiliary loss）。它為 DreamZero 模型施加了一種結構約束，迫使模型學習某種內(nèi)部的世界模型。與來自機器人動作的稀疏信號相比，視頻預測提供了一種更強、更密集的監(jiān)督信號。這可能使模型更容易適應那些它并未直接訓練過的、多樣化的 MolmoSpaces 環(huán)境。

最后的思考

僅憑這些論文，我們?nèi)匀粺o法得出全部結論。我們無法獲得 Physical Intelligence 所使用的全部數(shù)據(jù)；NVIDIA 用于推理的 GB200 設備目前也并不容易獲取。但對很多人來說，可以得出一個經(jīng)驗，也許我們并不需要此前認為那么多的數(shù)據(jù)，就能夠在真實世界機器人任務中取得強勁表現(xiàn)。

最后，作者表示，接下來幾周會推出一期 RoboPapers 播客節(jié)目，專門討論 DreamZero；此外，下周也會發(fā)布一篇更深入的分析報告，感興趣的讀者可以關注一下。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.