国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

英偉達(dá)研究:看完44000小時(shí)人類視頻后,機(jī)器人學(xué)會(huì)想象物理世界

0
分享至

在走向通用人工智能的道路上,機(jī)器人領(lǐng)域長期面臨著“莫拉維克悖論”的限制:許多對(duì)人類來說很困難的事,AI 卻很擅長;而許多對(duì)人類來說輕而易舉的事,AI 反而做不到。

例如,讓計(jì)算機(jī)在智力測試或棋類游戲中擊敗人類或許相對(duì)容易,但要讓機(jī)器人像一歲孩子那樣具備對(duì)物理世界的感知和運(yùn)動(dòng)本能,卻難如登天。

近年來,大語言模型展現(xiàn)了對(duì)人類知識(shí)的壓縮與生成能力,但在物理交互層面,如何讓智能體理解“動(dòng)作”與“環(huán)境”之間復(fù)雜的因果關(guān)系,始終是具身智能尚未攻克的難題。

近日,英偉達(dá)(NVIDIA)與其通用具身智能研究團(tuán)隊(duì)(GEAR)共 30 個(gè)作者聯(lián)合發(fā)布了一項(xiàng)代號(hào)為 DreamDojo 的最新研究成果,試圖從根本上影響機(jī)器人學(xué)習(xí)物理世界的方式。


(來源:GitHub)

這項(xiàng)工作并沒有依賴傳統(tǒng)的、昂貴的機(jī)器人遙操作數(shù)據(jù)堆疊,而是另辟蹊徑,構(gòu)建了一個(gè)包含 44,000 小時(shí)、第一人稱視角人類視頻的龐大數(shù)據(jù)庫,并以此訓(xùn)練出了一個(gè)能夠通用化的機(jī)器人世界模型。

這一模型不僅能夠逼真地生成物理交互視頻,更關(guān)鍵的是,它讓機(jī)器人首次具備了可控的“想象力”。即在執(zhí)行動(dòng)作之前,在潛意識(shí)中預(yù)演人類世界物理后果的能力。


(來源:論文)

世界模型的概念已經(jīng)并不新鮮。從早期的游戲環(huán)境模擬到自動(dòng)駕駛中的軌跡預(yù)測,預(yù)測未來狀態(tài)一直是智能決策的核心。然而,在開放世界的機(jī)器人操作任務(wù)中,世界模型的構(gòu)建面臨著獨(dú)特的挑戰(zhàn)。與有著清晰規(guī)則的電子游戲或結(jié)構(gòu)化道路不同,家庭、工廠或辦公室等非結(jié)構(gòu)化環(huán)境充滿了不確定性。

例如一個(gè)看似簡單的“抓取水杯”動(dòng)作,涉及物體材質(zhì)、摩擦力、液體晃動(dòng)以及機(jī)械臂動(dòng)力學(xué)等無數(shù)變量。此前的視頻生成模型,如 OpenAI 的 Sora 或 Google 的 Genie,雖然在畫面生成質(zhì)量上取得了突破,但它們大多缺乏精確的動(dòng)作控制接口,難以直接服務(wù)于機(jī)器人的決策回路。

而此次 DreamDojo 的核心突破就在于此,它證明了通過大規(guī)模的人類視頻預(yù)訓(xùn)練,結(jié)合創(chuàng)新的“潛在動(dòng)作”(Latent Actions)表征,可以有效地彌合人類與機(jī)器人之間的“具身差異”(Embodiment Gap),從而讓機(jī)器人獲得對(duì)物理規(guī)律的通用理解。

借力人類視頻突破數(shù)據(jù)缺口

長期以來,制約機(jī)器人基礎(chǔ)模型發(fā)展的最大瓶頸在于數(shù)據(jù)。盡管互聯(lián)網(wǎng)上充斥著萬億級(jí)別的文本和圖像數(shù)據(jù),但高質(zhì)量的“機(jī)器人操作數(shù)據(jù)”。即包含精確動(dòng)作指令(Action Labels)和環(huán)境反饋的序列數(shù)據(jù)卻極度稀缺。目前主流的機(jī)器人數(shù)據(jù)集,如 Open X-Embodiment,雖然匯集了多個(gè)實(shí)驗(yàn)室的數(shù)據(jù),但在場景多樣性和物理交互的豐富度上,仍遠(yuǎn)不足以覆蓋真實(shí)世界的復(fù)雜性。

英偉達(dá)團(tuán)隊(duì)意識(shí)到,單純依靠擴(kuò)大機(jī)器人實(shí)體數(shù)據(jù)的采集規(guī)模是不現(xiàn)實(shí)的。采集成本高昂、硬件損耗大、場景布置繁瑣,這些因素限制了數(shù)據(jù)的增長速度。相比之下,人類在日常生活中每時(shí)每刻都在與物理世界交互,而這些交互過程如果被記錄下來,本身就是蘊(yùn)含著豐富物理知識(shí)的寶庫。

為了挖掘這一寶庫,研究團(tuán)隊(duì)構(gòu)建了名為 DreamDojo-HV(Human Videos)的數(shù)據(jù)集。這是一個(gè)規(guī)模驚人的數(shù)據(jù)集合,包含了約 44,711 小時(shí)的第一人稱視角視頻。

這些視頻并非來自于受控的實(shí)驗(yàn)室環(huán)境,而是廣泛采集自真實(shí)世界,涵蓋了家庭烹飪、工業(yè)維修、手工制作、日常清潔等超過 6,000 種獨(dú)特的技能和 1,000 多種不同的場景。為了保證數(shù)據(jù)的多樣性,團(tuán)隊(duì)還特別整合了 EgoDex 等現(xiàn)有的高質(zhì)量數(shù)據(jù)集,使得 DreamDojo-HV 在規(guī)模上比此前機(jī)器人學(xué)習(xí)中使用的最大視頻數(shù)據(jù)集還要大出幾個(gè)數(shù)量級(jí)。


(來源:論文)

然而,直接使用人類視頻訓(xùn)練機(jī)器人模型也面臨著一定困難。最直觀的問題是:人類的手臂結(jié)構(gòu)與機(jī)器人的機(jī)械臂完全不同,且人類視頻中并不包含機(jī)器人的關(guān)節(jié)角度、力矩等控制信號(hào)。這種缺失導(dǎo)致模型難以直接學(xué)習(xí)“動(dòng)作”與“結(jié)果”之間的映射關(guān)系。

逐幀推理下一個(gè)動(dòng)作

為了解決無標(biāo)簽人類視頻的利用問題,DreamDojo 引入了一項(xiàng)關(guān)鍵技術(shù):連續(xù)潛在動(dòng)作(Continuous Latent Actions)。

在傳統(tǒng)的機(jī)器人學(xué)習(xí)中,模型通常直接預(yù)測離散的關(guān)節(jié)動(dòng)作或末端執(zhí)行器位姿。但在處理海量無標(biāo)注的人類視頻時(shí),這種方法行不通了。因此,研究人員設(shè)計(jì)了一個(gè)基于時(shí)空 Transformer 的變分自編碼器(VAE)作為“潛在動(dòng)作模型”。

這個(gè)模型的作用類似于一個(gè)能夠理解動(dòng)作本質(zhì)的“翻譯官”。它不關(guān)注具體的關(guān)節(jié)如何旋轉(zhuǎn),而是通過觀察視頻中連續(xù)幀的變化,提取出一個(gè)低維的、連續(xù)的潛在向量。這個(gè)向量代表了導(dǎo)致環(huán)境發(fā)生變化的“意圖”或“力學(xué)特征”。


圖 | 潛在動(dòng)作模型(來源:論文)

通過這種設(shè)計(jì),潛在動(dòng)作成為了連接人類視頻與機(jī)器人控制的通用橋梁。在預(yù)訓(xùn)練階段,模型通過自我監(jiān)督的方式,學(xué)習(xí)如何從像素變化中推斷出潛在動(dòng)作,并利用這些潛在動(dòng)作預(yù)測下一幀畫面。

這使得 DreamDojo 能夠在沒有顯式動(dòng)作標(biāo)簽的情況下,從 44,000 小時(shí)的視頻中汲取物理世界的因果邏輯。例如,它通過觀察無數(shù)次“手推開門”的視頻,學(xué)會(huì)了“施加推力”這一潛在動(dòng)作會(huì)導(dǎo)致“門打開”這一視覺結(jié)果的物理規(guī)律,而這種規(guī)律對(duì)于機(jī)器人來說同樣適用。

在具體的模型架構(gòu)上,DreamDojo 建立在英偉達(dá)此前發(fā)布的 Cosmos-Predict2.5 基礎(chǔ)之上。這是一個(gè)強(qiáng)大的潛在視頻擴(kuò)散模型(Latent Video Diffusion Model),原本用于通用的視頻生成。為了適應(yīng)機(jī)器人的實(shí)時(shí)控制需求,研究團(tuán)隊(duì)對(duì)其進(jìn)行了深度的改造。

為了提高動(dòng)作的可控性,團(tuán)隊(duì)放棄了絕對(duì)關(guān)節(jié)位置的輸入方式,轉(zhuǎn)而采用“相對(duì)動(dòng)作”(Relative Actions)作為條件。實(shí)驗(yàn)表明,相對(duì)動(dòng)作能夠更好地聚焦于物體與手部的交互變化,減少了背景環(huán)境對(duì)模型注意力的分散。

同時(shí),針對(duì)視頻生成中常見的“因果混淆”問題,即模型難以區(qū)分動(dòng)作是原因還是結(jié)果。研究團(tuán)隊(duì)提出了一種“分塊注入”(Chunked Injection)策略。

他們將未來的動(dòng)作序列打包成塊,一次性輸入到模型的每一幀生成過程中。這種強(qiáng)先驗(yàn)信息強(qiáng)制模型關(guān)注長時(shí)程的動(dòng)作影響,從而顯著提升了生成視頻的邏輯連貫性。

此外,為了確保生成的物理過程符合現(xiàn)實(shí)世界的連續(xù)性,研究團(tuán)隊(duì)還引入了專門的時(shí)間一致性損失函數(shù)(Temporal Consistency Loss)。這一函數(shù)約束了物體在時(shí)間軸上的運(yùn)動(dòng)軌跡,防止了視頻生成中常見的物體閃爍、憑空消失或形狀突變等偽影現(xiàn)象,確保了物理模擬的高保真度。

從慢速擴(kuò)散到超快實(shí)時(shí)“想象”

擁有一個(gè)懂物理的模型只是第一步,對(duì)于機(jī)器人應(yīng)用來說,推理速度至關(guān)重要。傳統(tǒng)的視頻擴(kuò)散模型生成一幀高質(zhì)量畫面往往需要數(shù)十次迭代,耗時(shí)數(shù)秒,這對(duì)于需要毫秒級(jí)響應(yīng)的機(jī)器人控制回路來說是不可接受的。

為了解決這一難題,DreamDojo 采用了一種名為“自強(qiáng)迫”(Self Forcing)的蒸餾技術(shù),成功將原本笨重的雙向注意力擴(kuò)散模型轉(zhuǎn)化為高效的自回歸模型。

這一過程通過“教師-學(xué)生”訓(xùn)練模式實(shí)現(xiàn):首先利用高精度的教師模型生成大量的軌跡數(shù)據(jù),然后訓(xùn)練學(xué)生模型去模仿這些軌跡。但在蒸餾過程中,學(xué)生模型不僅要學(xué)習(xí)單幀的生成,還要學(xué)習(xí)如何在僅有極短歷史上下文的情況下,預(yù)測未來的長期演變。

這一蒸餾過程將模型的推理步數(shù)從原本的 35 步大幅壓縮至 4 步。最終,DreamDojo 在單張 NVIDIA H100 GPU 上實(shí)現(xiàn)了 10.81 FPS(幀/秒)的實(shí)時(shí)推理速度。這意味著機(jī)器人可以在不到 0.1 秒的時(shí)間內(nèi),在“腦海”中生成未來的視覺反饋。

這不僅滿足了實(shí)時(shí)控制的要求,更讓長時(shí)程的交互模擬成為可能。實(shí)驗(yàn)顯示,經(jīng)過蒸餾后的模型能夠連續(xù)生成長達(dá) 1 分鐘(約 600 幀)的穩(wěn)定視頻,且在長時(shí)間跨度下依然保持對(duì)物體及其物理屬性的記憶,沒有出現(xiàn)常見的畫面崩壞。

打通“虛實(shí)”邊界的實(shí)際應(yīng)用

DreamDojo 的價(jià)值遠(yuǎn)不止于生成逼真的視頻,其實(shí)質(zhì)是為機(jī)器人提供了一個(gè)低成本、高保真的“試錯(cuò)空間”?;谶@一世界模型,英偉達(dá)團(tuán)隊(duì)展示了三項(xiàng)核心應(yīng)用,充分證明了其在機(jī)器人研發(fā)與部署流程中的潛力。

首先是策略評(píng)估(Policy Evaluation)。在機(jī)器人開發(fā)中,驗(yàn)證一個(gè)新的控制策略通常需要實(shí)機(jī)測試,這不僅效率低下,還伴隨著硬件損壞的風(fēng)險(xiǎn)。DreamDojo 提供了一個(gè)替代方案:將策略部署在世界模型中,讓機(jī)器人在虛擬的視頻流中執(zhí)行任務(wù)。

研究人員在 AgiBot 機(jī)器人的水果包裝任務(wù)中進(jìn)行了驗(yàn)證,結(jié)果令人振奮:DreamDojo 模擬出的任務(wù)成功率與真實(shí)世界的成功率呈現(xiàn)出極高的線性相關(guān)性(Pearson 相關(guān)系數(shù)高達(dá) 0.995)。這意味著開發(fā)者可以放心地在模擬環(huán)境中篩選最優(yōu)策略,而無需在現(xiàn)實(shí)世界中進(jìn)行成百上千次的物理實(shí)驗(yàn)。

其次是基于模型的規(guī)劃(Model-based Planning)。利用 DreamDojo 的預(yù)測能力,機(jī)器人可以在執(zhí)行動(dòng)作之前,在“思維”中并行推演多種動(dòng)作方案的結(jié)果。

例如,在抓取一個(gè)被遮擋的蘋果時(shí),機(jī)器人可以預(yù)演直接抓取和先移開遮擋物兩種方案,DreamDojo 會(huì)即時(shí)生成相應(yīng)的未來視頻。通過評(píng)估視頻中的任務(wù)完成度,機(jī)器人可以選擇最優(yōu)路徑。實(shí)驗(yàn)表明,在引入這種在線規(guī)劃機(jī)制后,機(jī)器人在復(fù)雜長程任務(wù)中的成功率相比直接執(zhí)行策略提升了近兩倍。

最后是實(shí)時(shí)遙操作(Live Teleoperation)。借助蒸餾后的高推理速度,操作員可以通過 VR 手柄實(shí)時(shí)驅(qū)動(dòng)虛擬環(huán)境中的機(jī)器人。DreamDojo 能夠即時(shí)響應(yīng)操作員的動(dòng)作,并生成相應(yīng)的視覺反饋。這種“所見即所得”的零延遲體驗(yàn),不僅為遠(yuǎn)程控制提供了新的界面,也為人類向機(jī)器人演示復(fù)雜技能提供了更直觀的數(shù)據(jù)收集方式。


(來源:論文)

當(dāng)然,DreamDojo 并非完美無缺。英偉達(dá)團(tuán)隊(duì)在報(bào)告中坦誠地指出了當(dāng)前模型的局限性。盡管在大部分日常場景中表現(xiàn)優(yōu)異,但在面對(duì)一些極端動(dòng)態(tài)(如快速揮手、物體高速碰撞)或涉及復(fù)雜流體動(dòng)力學(xué)(如倒水時(shí)的水流湍流)的場景時(shí),生成的視頻仍會(huì)出現(xiàn)物理失真或模糊。

此外,雖然模型在未見過的物體上展現(xiàn)了良好的泛化性,但對(duì)于完全陌生的物理機(jī)制(例如具有特殊彈性的軟體材料),其預(yù)測能力依然有限。

此外,目前的 DreamDojo 主要側(cè)重于視覺層面的物理模擬,尚未整合觸覺、聽覺等多模態(tài)信息。對(duì)于像“盲插鑰匙”或“判斷物體重量”這樣極度依賴觸覺反饋的精細(xì)操作任務(wù),單純依靠視覺預(yù)測的世界模型仍顯得力不從心。未來的研究方向可能需要探索如何將觸覺信號(hào)引入潛在動(dòng)作空間,構(gòu)建更加全能的多模態(tài)世界模型。

https://arxiv.org/abs/2602.06949

運(yùn)營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
沖上熱搜!中秋請(qǐng)3天假堪比春節(jié),13天超長假期!最實(shí)用拼假攻略已備好

沖上熱搜!中秋請(qǐng)3天假堪比春節(jié),13天超長假期!最實(shí)用拼假攻略已備好

上觀新聞
2026-02-25 14:08:57
韓“蛇蝎美人”在汽車旅館誘殺男子致2死1傷,首個(gè)受害者系男友,曾詢問AI如何殺人;案發(fā)后漲粉50倍,評(píng)論區(qū)被“顏值即正義”刷屏

韓“蛇蝎美人”在汽車旅館誘殺男子致2死1傷,首個(gè)受害者系男友,曾詢問AI如何殺人;案發(fā)后漲粉50倍,評(píng)論區(qū)被“顏值即正義”刷屏

大風(fēng)新聞
2026-02-25 16:49:05
聞泰科技稱正積極處置安世控制權(quán)事件,中國區(qū)業(yè)務(wù)較為穩(wěn)健

聞泰科技稱正積極處置安世控制權(quán)事件,中國區(qū)業(yè)務(wù)較為穩(wěn)健

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-02-25 20:18:11
宇樹機(jī)器人去年只賣了5500多臺(tái),普通家庭基本沒有買的

宇樹機(jī)器人去年只賣了5500多臺(tái),普通家庭基本沒有買的

爆角追蹤
2026-02-25 10:08:50
含淚告別賽場!43歲了,已經(jīng)是個(gè)傳奇!

含淚告別賽場!43歲了,已經(jīng)是個(gè)傳奇!

德譯洋洋
2026-02-25 12:20:33
微信出新功能,網(wǎng)友:簡直是社恐福音

微信出新功能,網(wǎng)友:簡直是社恐福音

南方都市報(bào)
2026-02-25 16:59:07
秦皇島發(fā)生當(dāng)街殺人惡性事件,疑因情感糾紛,撞停車輛后鈍器錘頭

秦皇島發(fā)生當(dāng)街殺人惡性事件,疑因情感糾紛,撞停車輛后鈍器錘頭

爆角追蹤
2026-02-25 19:24:37
吵架將孩子扔河里后續(xù):原因曝光,夫妻身份被扒,娃狀態(tài)讓人擔(dān)憂

吵架將孩子扔河里后續(xù):原因曝光,夫妻身份被扒,娃狀態(tài)讓人擔(dān)憂

社會(huì)日日鮮
2026-02-24 09:37:52
紫牛頭條 | 全家出游老人服務(wù)區(qū)內(nèi)被狗撲咬骨折,犬主付千元后駕車離開,警方已立案

紫牛頭條 | 全家出游老人服務(wù)區(qū)內(nèi)被狗撲咬骨折,犬主付千元后駕車離開,警方已立案

揚(yáng)子晚報(bào)
2026-02-24 23:56:16
黃曉明戀情曝光!與美女穿情侶裝并同游,女方年齡被扒疑似小22歲

黃曉明戀情曝光!與美女穿情侶裝并同游,女方年齡被扒疑似小22歲

萌神木木
2026-02-25 16:55:16
近百萬元存款被悄悄轉(zhuǎn)走!上海獨(dú)居老太毫無察覺,還說“我有兩套房,你可以搬來同住”

近百萬元存款被悄悄轉(zhuǎn)走!上海獨(dú)居老太毫無察覺,還說“我有兩套房,你可以搬來同住”

瀟湘晨報(bào)
2026-02-25 16:39:13
全網(wǎng)好奇,谷愛凌嘴里咬的東西是啥?

全網(wǎng)好奇,谷愛凌嘴里咬的東西是啥?

有意思報(bào)告
2026-02-25 12:25:30
同家族近20人在路上祭祖遇車禍,致2死多傷后又遇理賠難,多方回應(yīng)

同家族近20人在路上祭祖遇車禍,致2死多傷后又遇理賠難,多方回應(yīng)

大風(fēng)新聞
2026-02-25 17:00:14
特朗普對(duì)華態(tài)度 180 度轉(zhuǎn)變,美媒:想贏中國只有一條路可選

特朗普對(duì)華態(tài)度 180 度轉(zhuǎn)變,美媒:想贏中國只有一條路可選

議紀(jì)史
2026-02-24 18:45:06
貝加爾湖事故中溺亡的7名國人,很大可能連賠償都拿不到

貝加爾湖事故中溺亡的7名國人,很大可能連賠償都拿不到

律法刑道
2026-02-25 12:16:48
巴拿馬總統(tǒng)慌了,他猛然發(fā)現(xiàn):強(qiáng)吞中國18億資產(chǎn),竟是自尋死路

巴拿馬總統(tǒng)慌了,他猛然發(fā)現(xiàn):強(qiáng)吞中國18億資產(chǎn),竟是自尋死路

東極妙嚴(yán)
2026-02-25 16:40:08
2450元降至118元!春節(jié)假期過后,有潮汕酒店價(jià)格大降95%

2450元降至118元!春節(jié)假期過后,有潮汕酒店價(jià)格大降95%

第一財(cái)經(jīng)資訊
2026-02-24 20:41:17
全國統(tǒng)一執(zhí)行!3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

全國統(tǒng)一執(zhí)行!3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

墨蘭史書
2026-02-24 22:41:18
男子花5600元套中汽車:老板當(dāng)場翻臉,要30萬押金,被扒底朝天

男子花5600元套中汽車:老板當(dāng)場翻臉,要30萬押金,被扒底朝天

奇思妙想草葉君
2026-02-24 20:42:14
中到大雨局部暴雨!廣東天氣即將“大變臉”

中到大雨局部暴雨!廣東天氣即將“大變臉”

深圳晚報(bào)
2026-02-25 08:12:15
2026-02-25 20:59:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16320文章數(shù) 514653關(guān)注度
往期回顧 全部

科技要聞

“機(jī)器人只跳舞,沒什么用”

頭條要聞

近百萬元存款被送快遞小伙悄悄轉(zhuǎn)走 獨(dú)居老太毫無察覺

頭條要聞

近百萬元存款被送快遞小伙悄悄轉(zhuǎn)走 獨(dú)居老太毫無察覺

體育要聞

曝雄鹿計(jì)劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

黃曉明新戀情!與小22歲美女同游新加坡

財(cái)經(jīng)要聞

上海樓市放大招,地產(chǎn)預(yù)期別太大

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

藝術(shù)
教育
房產(chǎn)
本地
公開課

藝術(shù)要聞

這位藝術(shù)家的馬賽克畫讓人驚嘆不已!

教育要聞

教育部:學(xué)生每天體育2小時(shí)、課間15分鐘已在全國所有省份部署推開

房產(chǎn)要聞

海南樓市春節(jié)熱銷地圖曝光!三亞、陵水又殺瘋了!

本地新聞

津南好·四時(shí)總相宜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版