国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

訓練機器人方式對了嗎?英偉達DreamZero雙榜第一新反思

0
分享至

機器之心編輯部

近日,NVIDIA 發(fā)布的世界 - 動作模型 DreamZero,在兩項頗具代表性的機器人基準測試 RoboArena 、MolmoSpaces 上雙雙登頂。



DreamZero 核心思想是:在同一個模型里,同時預測未來視頻和機器人動作。也就是說,DreamZero 讓機器人在行動前,先在模型內(nèi)部想象未來。

但問題也隨之而來。

為什么這種邊預測世界、邊預測動作的設計,會帶來如此顯著的性能提升?它到底比傳統(tǒng)策略模型或世界模型強在哪里?是真正的范式突破,還是數(shù)據(jù)與模型規(guī)模的勝利?

圍繞這些問題,近期一篇頗具討論度的分析文章《Why is DreamZero so good at robotics?》給出了一個更深入的解讀:在訓練一個通用機器人策略時,你的數(shù)據(jù)和模型架構需要具備哪些特征?這篇文章的解讀,正在對以往的認知提出質疑。

文章作者是一位名叫 Chris Paxton 機器人與人工智能研究者,曾在 Hello Robot 負責具身智能(Embodied AI)方向的研究工作。此前,Paxton 在 NVIDIA Research 以及 Meta 旗下的基礎人工智能研究機構 FAIR 工作過。



這篇文章從模型介紹、訓練數(shù)據(jù)分布、模型主干規(guī)模、時間上下文長度,以及視頻生成作為輔助監(jiān)督信號等多個維度,拆解了 DreamZero 表現(xiàn)突出的可能原因。



文章地址:https://itcanthink.substack.com/p/why-is-dreamzero-so-good-at-robotics

接下來是文章主要內(nèi)容。

DreamZero 是什么?



DreamZero 是 NVIDIA 提出的「世界 — 動作模型」(world-action model)。它借鑒了世界模型中的許多核心思想,尤其是視頻生成對機器人任務有價值這一理念,但在關鍵設計上做了幾處重要改動。其中最關鍵的一點是:它聯(lián)合建模動作生成與視頻生成。

通常來說,世界模型大致可以分為兩類:

動作條件世界模型:學習狀態(tài)與動作到下一狀態(tài)的映射,即 x′=f (x,a)。其中 x 表示當前觀測狀態(tài),a 表示動作。例如 V-JEPA 2 或近期 RISE 論文中的世界模型就屬于這一類。

逆動力學世界模型(inverse dynamics world models):例如 NVIDIA 的 DreamGen 或 1X 的世界模型。這類方法先學習 x′=f (x),然后再通過一個逆動力學模型學習 a=g (x,x′)。

相比之下,DreamZero 更像一個傳統(tǒng)的機器人策略模型,但它同時還會預測未來視頻。因此,它學習的更接近于:(x′,a)=f (x)。

也就是說,它在同一個模型中同時預測未來狀態(tài)和對應動作

我們也可以把它與傳統(tǒng)的視覺 — 語言 — 動作模型(vision-language-action model)進行對比:DreamZero 不僅預測動作,還預測未來畫面。這為模型提供了一種更豐富的監(jiān)督信號,不僅告訴它該做什么,還告訴它世界接下來會變成什么樣,從而幫助模型更好地學習環(huán)境演化的規(guī)律。

基準



RoboArena 是一個基于 Droid 構建的分布式真實世界基準測試。全球各地的評測者擁有相對相似的機器人和實驗設置,并根據(jù)不同的自然語言指令,運行一系列開放式的機器人任務評測。

這意味著,從數(shù)據(jù)分布的角度來看,它在某種程度上屬于 DreamZero 的分布內(nèi)(in-distribution)場景。因為 DreamZero 本身就是在 Droid 數(shù)據(jù)上訓練的,而 Droid 中包含了非常相似的任務和實驗環(huán)境。但與此同時,這仍然是一個真實世界的評估環(huán)境,意味著會存在各種現(xiàn)實中的復雜性和變化;而且具體任務是由評測者自行選擇的。

RoboArena 還是一個 head-to-head 式的比較基準,有點類似于在大模型發(fā)展中產(chǎn)生重要影響的 Chatbot Arena。



MolmoSpaces 是一個新的基準測試平臺,具備高保真物理模擬能力和多樣化、程序化生成的環(huán)境。

其中,MolmoSpaces-Bench 重點測試在多種受控變化條件下的任務表現(xiàn),包括抓?。╬ick)、放置(place)、開合(open and close)等基礎操作,以及這些操作的組合任務。

這是一個尚未接近性能飽和的新基準,也就是說,模型之間仍然存在明顯差距,仍有較大提升空間。而 DreamZero 在這些測試中都取得了優(yōu)異表現(xiàn)。

我們能從中學到什么?

我們可以具體對比一下 DreamZero 和 pi-0.5,因為 pi-0.5 是目前排名第二的模型。

訓練數(shù)據(jù)方面

pi-0.5 使用了超過 1 萬小時的真實機器人數(shù)據(jù)、視覺語言模型(VLM)數(shù)據(jù),以及 Droid 數(shù)據(jù)集進行訓練。而 DreamZero 則根據(jù)不同的模型版本(checkpoint),使用 DROID 數(shù)據(jù)或 AgiBot 數(shù)據(jù)進行訓練。

訓練數(shù)據(jù)的分布很可能在這里起到了至關重要的作用。可以注意到,在 DreamZero 的論文中,它在 AgiBot 數(shù)據(jù)集上的表現(xiàn)明顯優(yōu)于 pi-0.5(而 AgiBot 并不包含在 pi-0.5 的訓練數(shù)據(jù)中);但在雙方都使用過的 DROID-Franka 設置下,兩者的性能差距則要小得多。



這似乎也在暗示:那額外的 1 萬小時機器人數(shù)據(jù),可能并不像人們想象中那樣萬能有效。

更關鍵的,或許不是數(shù)據(jù)量本身,而是是否在正確分布的機器人數(shù)據(jù)上進行預訓練。在另一篇近期博客文章中,Physical Intelligence 展示了一個非常顯著的結果:當模型在與目標任務分布高度一致的合作方數(shù)據(jù)上進行預訓練時,性能會出現(xiàn)大幅提升



因此,也許從另一種機器人身上額外增加 1 萬小時的數(shù)據(jù),并不一定比使用手頭那些廉價、充足的第一視角視頻數(shù)據(jù)更有效。對于那些希望訓練跨機體通用機器人大腦的研究者來說,這可能并不是一個好消息。換句話說,從不同機器人形態(tài)中獲得的收益,可能并不會比單純加入大量低成本的第一視角視頻數(shù)據(jù)更多。

模型主干

首先是主干模型規(guī)模之差。

DreamZero 基于 Wan2.1-I2V-14B-480P 構建,是一個 140 億參數(shù)的視頻生成模型,相比之下,pi-0.5 基于 30 億參數(shù)的開源視覺語言模型 PaliGemma 進行訓練,參數(shù)規(guī)模差了將近 5 倍。

其次是信息輸入方式不同。

DreamZero 最多可以接收 8 幀上下文輸入,等于讓模型看一個短視頻片段。pi-0.5 只能輸入單幀圖像,每次決策只看當前一張照片。

在真實世界中,機器人任務幾乎都具備幾個典型特征:環(huán)境往往是部分可觀測的,存在復雜的物理動態(tài)過程,并且高度依賴對時間連續(xù)性的理解。例如,一扇門可能剛剛被推開了一點、某個物體正在滑動、機械臂上一刻的速度和加速度都會影響下一步動作的結果。

如果模型只能看到單幀圖像,它往往無法判斷物體是在運動還是靜止,也難以推斷當前狀態(tài)是否由之前的動作所引發(fā),更無法理解慣性等物理效應。

而如果模型能夠觀察連續(xù)的多幀畫面,比如 8 幀歷史信息,它就能捕捉到運動趨勢和狀態(tài)變化,更容易學習到潛在的物理規(guī)律,從而在控制和決策上表現(xiàn)得更加穩(wěn)定和準確。

模型規(guī)模

DreamZero 是一個體量巨大的模型,而論文中相當一部分工作其實是在解決如何讓這個 140 億參數(shù)的龐然大物實現(xiàn)實時運行。論文中的消融實驗似乎表明,模型規(guī)模在性能表現(xiàn)上起到了非常關鍵的作用。



同時引入更長的歷史信息、擴大模型規(guī)模,通常都會帶來一個問題:模型更難訓練,而且在低數(shù)據(jù)環(huán)境下更容易過擬合。與大語言模型不同,后者由于擁有海量數(shù)據(jù),幾乎不用擔心過擬合問題。機器人領域本質上始終處于一個低數(shù)據(jù)環(huán)境中。即便是現(xiàn)在,DROID 數(shù)據(jù)集相比最小規(guī)模的 LLM 數(shù)據(jù)集,也依然小得多。

因此可以提出一個猜想:視頻生成目標在這里充當了一種輔助損失(auxiliary loss)。它為 DreamZero 模型施加了一種結構約束,迫使模型學習某種內(nèi)部的世界模型。與來自機器人動作的稀疏信號相比,視頻預測提供了一種更強、更密集的監(jiān)督信號。這可能使模型更容易適應那些它并未直接訓練過的、多樣化的 MolmoSpaces 環(huán)境。

最后的思考

僅憑這些論文,我們?nèi)匀粺o法得出全部結論。我們無法獲得 Physical Intelligence 所使用的全部數(shù)據(jù);NVIDIA 用于推理的 GB200 設備目前也并不容易獲取。但對很多人來說,可以得出一個經(jīng)驗,也許我們并不需要此前認為那么多的數(shù)據(jù),就能夠在真實世界機器人任務中取得強勁表現(xiàn)。

最后,作者表示,接下來幾周會推出一期 RoboPapers 播客節(jié)目,專門討論 DreamZero;此外,下周也會發(fā)布一篇更深入的分析報告,感興趣的讀者可以關注一下。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
1.76億獨生子女,迎來一個壞消息,以后可能真的沒親戚了

1.76億獨生子女,迎來一個壞消息,以后可能真的沒親戚了

老特有話說
2026-03-01 21:57:03
對話鄭永年:美國2小時斬首哈梅內(nèi)伊,中國還要讓AI只做“煙花”嗎?

對話鄭永年:美國2小時斬首哈梅內(nèi)伊,中國還要讓AI只做“煙花”嗎?

大灣區(qū)評論
2026-03-02 21:12:24
楊麗萍被偶遇,純素顏下巴疊出5層褶,原生指甲長又白看著很粗糙

楊麗萍被偶遇,純素顏下巴疊出5層褶,原生指甲長又白看著很粗糙

削桐作琴
2026-02-25 18:38:30
女護士處理男患者隱私部位,會感覺難為情嗎?美女護士說出大實話

女護士處理男患者隱私部位,會感覺難為情嗎?美女護士說出大實話

第7情感
2025-09-17 12:12:15
鹿晗剛發(fā)布元宵節(jié)照片,關曉彤馬上發(fā)視頻回應,這是小情侶默契?

鹿晗剛發(fā)布元宵節(jié)照片,關曉彤馬上發(fā)視頻回應,這是小情侶默契?

陳意小可愛
2026-03-03 18:56:33
一家4口爬山祈福,33歲妻子墜亡,死者父親稱已完成尸檢,丈夫最新回應質疑:帶兒女山頂屋內(nèi)休息,20分鐘后人就不見了

一家4口爬山祈福,33歲妻子墜亡,死者父親稱已完成尸檢,丈夫最新回應質疑:帶兒女山頂屋內(nèi)休息,20分鐘后人就不見了

都市快報橙柿互動
2026-03-02 11:43:55
97年我在廣東打工,娶了離異的女同事,新婚當晚才知她真實身份

97年我在廣東打工,娶了離異的女同事,新婚當晚才知她真實身份

蘭姐說故事
2025-08-24 05:05:05
換帥血虧!阿隆索28場輸5場,阿韋洛亞12場就輸4場,球迷看懵了!

換帥血虧!阿隆索28場輸5場,阿韋洛亞12場就輸4場,球迷看懵了!

田先生籃球
2026-03-03 11:48:51
同樣煮餃子,“蓋蓋煮”和“不蓋蓋煮”區(qū)別大,難怪煮出來不一樣

同樣煮餃子,“蓋蓋煮”和“不蓋蓋煮”區(qū)別大,難怪煮出來不一樣

阿龍美食記
2026-02-23 17:00:18
伊朗外長號召美國人奪回自己的國家

伊朗外長號召美國人奪回自己的國家

界面新聞
2026-03-03 12:41:14
衛(wèi)星證實!林肯號航母被伊朗導彈襲擊時,進行90度機動規(guī)避!

衛(wèi)星證實!林肯號航母被伊朗導彈襲擊時,進行90度機動規(guī)避!

52赫茲實驗室
2026-03-02 21:00:37
國內(nèi)商品期貨夜盤開盤漲跌不一,滬金跌2.25%,滬銀跌6.86%

國內(nèi)商品期貨夜盤開盤漲跌不一,滬金跌2.25%,滬銀跌6.86%

每日經(jīng)濟新聞
2026-03-03 21:05:05
中國幫布隆迪種水稻,沒想到種得太好,撕毀了西方國家的偽善

中國幫布隆迪種水稻,沒想到種得太好,撕毀了西方國家的偽善

民智
2026-03-03 13:38:27
一個“文盲”,如何混成港樂無冕之王?

一個“文盲”,如何混成港樂無冕之王?

TVB的四小花
2026-03-02 20:35:49
沈騰、尹正《飛馳人生3》全球第一,已超《阿凡達3》

沈騰、尹正《飛馳人生3》全球第一,已超《阿凡達3》

紅星新聞
2026-03-03 14:01:18
魯迅家是如何衰敗的?魯迅肯定不會告訴你,因為實在“太丟人”

魯迅家是如何衰敗的?魯迅肯定不會告訴你,因為實在“太丟人”

顧史
2026-03-02 10:46:01
伊朗4枚彈道導彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

伊朗4枚彈道導彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

矚望云霄
2026-03-02 10:49:12
A股估值高或面臨下跌風險

A股估值高或面臨下跌風險

和訊網(wǎng)
2026-03-03 08:57:05
重大沖突!全球秩序開始重構,中華民族崛起的機會來了!

重大沖突!全球秩序開始重構,中華民族崛起的機會來了!

小白鴿財經(jīng)
2026-03-03 20:30:03
伊朗擊中了美軍航母?衛(wèi)星過頂,誰在說謊一目了然

伊朗擊中了美軍航母?衛(wèi)星過頂,誰在說謊一目了然

音樂時光的娛樂
2026-03-03 15:50:37
2026-03-03 23:48:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12403文章數(shù) 142577關注度
往期回顧 全部

科技要聞

擁抱AI的"牛馬":邊提效邊自嘲"自費"上班

頭條要聞

美國突發(fā)史無前例撤離令引外界擔憂:終極空襲或來臨

頭條要聞

美國突發(fā)史無前例撤離令引外界擔憂:終極空襲或來臨

體育要聞

35輪后積分-7,他們遭遇史上最早的降級

娛樂要聞

謝娜霸氣護夫:喊話薛之謙給張杰道歉

財經(jīng)要聞

特朗普“不惜一切”!全球股債齊崩

汽車要聞

第一梯隊輔助駕駛加持 iCAR V27定檔3月13日上市

態(tài)度原創(chuàng)

健康
本地
數(shù)碼
手機
公開課

轉頭就暈的耳石癥,能開車上班嗎?

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

數(shù)碼要聞

蘋果官網(wǎng)上架Studio Display XDR:27英寸5K視網(wǎng)膜屏 24999元起

手機要聞

曝OPPO Find X9 Ultra將登陸全球市場,折疊新機蓄勢待發(fā)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版