国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

英偉達(dá)兩篇論文,帶來了VLA之后具身智能的新范式

0
分享至


文章轉(zhuǎn)載于騰訊科技
作者: 博陽

2025年,具身智能領(lǐng)域最火的詞就是VLA(視覺-語言-動作模型)。

它成了一種席卷全行業(yè)的共識,一個(gè)關(guān)于具身基礎(chǔ)模型的標(biāo)準(zhǔn)答案。在過去的一年里,資本和算力瘋狂涌入這條賽道,基本上所有的模型大廠,都在用這套范式。

但很快,現(xiàn)實(shí)的物理世界給所有從業(yè)者潑了一盆冷水。因?yàn)閂LA在物理動作執(zhí)行上很弱。

它能懂極其復(fù)雜的文字指令。但當(dāng)機(jī)械臂真正去抓取時(shí),它可能連如何調(diào)整手腕姿態(tài)以避開杯柄的阻擋都做不好,更別提讓它去執(zhí)行解開鞋帶這種涉及復(fù)雜物理形變的動作了。

VLA的另一個(gè)致命痛點(diǎn)是泛化。本來之所以大家要做模型更新,為的就是不用為每個(gè)特殊環(huán)境編程,看重的正是大模型的泛化能力。結(jié)果現(xiàn)在,任何超越訓(xùn)練規(guī)定環(huán)境的動作,VLA基本都無法泛化,甚至出了訓(xùn)練環(huán)境類似的環(huán)境都做不了。

整個(gè)行業(yè)把泛化的無力,歸結(jié)于數(shù)據(jù)的不足。大廠們開始投入億萬資金,用各種方式去采集數(shù)據(jù),試圖用海量的模擬演示來填補(bǔ)VLA的常識空缺。

但2026年初,英偉達(dá)(NVIDIA)發(fā)布了兩篇論文《DreamZero: World Action Models are Zero-shot Policies》和《DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos》兩篇論文,構(gòu)建了一套全新的具身智能基礎(chǔ)模型范式,打破了數(shù)據(jù)內(nèi)卷的僵局。


它們一起,給出了一個(gè)完全從視頻里學(xué)習(xí),Zero-shot(零樣本)就能泛化執(zhí)行不同工作的具身模型的可能。

1

VLA缺的不是數(shù)據(jù),而是世界模型

要理解DreamZero和Dream Dojo的顛覆性,必須先從底層剖析VLA的系統(tǒng)性缺陷。

VLA的最大問題,就是缺乏世界模型。VLA的底層架構(gòu)限制了它的認(rèn)知方式。從譜系上看,VLA和LLM的親緣更強(qiáng),反而和純視覺、純物理的親緣較弱。它通過交叉注意力機(jī)制(Cross-Attention)將圖像的像素塊映射到文本的語義空間中,在這個(gè)空間里,它理解了杯子和桌子的概念,理解了它們在二維畫面中的相對位置。

但物理世界不是二維的語義切片。物理世界是連續(xù)的,充滿了質(zhì)量、摩擦力、重力和幾何碰撞。

VLA對物理動作和世界的理解相對較弱,因?yàn)樗举|(zhì)上是一個(gè)「翻譯器」。

我們可以用物理學(xué)中的狀態(tài)轉(zhuǎn)移方程來解釋。一個(gè)完整的世界模型,本質(zhì)上是在學(xué)習(xí)一個(gè)條件概率分布。它能在給定當(dāng)前世界的狀態(tài)(視覺觀測)和機(jī)器人即將執(zhí)行的動作,預(yù)測世界下一秒會變成什么樣。

VLA從來沒有學(xué)過這個(gè)方程。VLA學(xué)習(xí)的是靜態(tài)視覺觀測+語言指令直接映射到可執(zhí)行動作的函數(shù)關(guān)系;卻沒被系統(tǒng)性地訓(xùn)練去預(yù)測動作后果、做反事實(shí)試錯。所以一旦環(huán)境、材質(zhì)、約束關(guān)系稍微變形,性能就會斷崖式下滑。

這就好比讓一個(gè)人在不理解幾何原理的情況下,去死記硬背一萬道幾何題的答案。遇到原題,他能快速寫出完美答案;遇到條件稍微變動的新題,他就徹底宕機(jī)。

VLA的泛化,本質(zhì)上只是高維語義空間中的插值。當(dāng)物理形態(tài)超出訓(xùn)練集的包絡(luò)面時(shí),插值就會失效。

與之對比的,是視頻生成模型。在Veo3、Sora 2和最近大火的Seedance 2生成的物理交互畫面已經(jīng)相當(dāng)逼真,流體、剛體、柔性材料的動作如此連貫,幾乎與現(xiàn)實(shí)世界難以區(qū)分。這說明,大規(guī)模視頻生成模型在海量的互聯(lián)網(wǎng)視頻中,很可能已經(jīng)隱式地壓縮并內(nèi)化了物理世界的基礎(chǔ)運(yùn)行規(guī)律,形成了一些世界模型。

即使強(qiáng)大如斯,視頻生成之前仍然主要被用在給VLA提供模擬數(shù)據(jù),而不是整合進(jìn)機(jī)器人的工作流中。

其實(shí),大家想利用視頻生成模型來控制機(jī)器人的念頭并不是從此開始的。在DreamZero之前,學(xué)術(shù)界和工業(yè)界也提出了多個(gè)解決方法。但這些方法無一例外地陷入了工程和邏輯的死胡同。

比如 LVP(大規(guī)模視頻規(guī)劃器)。它的思路是從一張圖和一句話,直接生成應(yīng)該如何完成任務(wù)的未來視頻計(jì)劃。再把視頻中的人手運(yùn)動重建成 3D 軌跡。是用視頻預(yù)訓(xùn)練,而不是語言預(yù)訓(xùn)練,作為機(jī)器人基礎(chǔ)能力的主軸。


第二種則是類似英偉達(dá)自己的DreamGen這種,生成視頻后,再反推動作。這是之前被寄予厚望的路線。它把整個(gè)基礎(chǔ)模型的架構(gòu)切分為兩半,上半部分是一個(gè)視頻模型,負(fù)責(zé)預(yù)測未來;下半部分是一個(gè)獨(dú)立訓(xùn)練的IDM網(wǎng)絡(luò),負(fù)責(zé)看著預(yù)測出來的視頻,反推并輸出動作。


以上兩種分階段的模式,最大的問題就是動作和視頻生成對不齊。動作那塊要求特別準(zhǔn)確,但視頻生成很難完美。一旦它產(chǎn)生的未來畫面帶有微小的像素偽影或物理幻覺,那不管是IDM或者點(diǎn)追蹤,都直接懵圈,成倍放大錯誤。視頻里機(jī)器人的手指位置偏了一微米,現(xiàn)實(shí)中機(jī)器人就根本什么都抓不住了。魯棒性極差。

第三種是Unified Video-Action(UVA,聯(lián)合視頻-動作生成)。這算是最先進(jìn)的方法了,它嘗試把視頻和動作放在同一個(gè)擴(kuò)散模型里的潛空間里學(xué)習(xí),兼顧了視頻預(yù)測和動作預(yù)測。而推理時(shí)又通過「解碼解耦」跳過視頻生成,以保證速度。但它的架構(gòu)使用了雙向擴(kuò)散(Bidirectional Diffusion)架構(gòu)。為了匹配語言指令的長度,必須對生成的視頻序列進(jìn)行大幅壓縮。這種做法徹底扭曲了原生的視頻時(shí)間流。時(shí)間都扭曲了,動作指令與視覺畫面的對齊幾乎就不可能了,所以這種方式的泛化性自然極差。


除此之外,這些方法都有一個(gè)致命的共同缺陷,就是太慢。視頻擴(kuò)散模型需要多步迭代去噪,生成幾秒鐘的動作往往需要幾十秒的計(jì)算。要是一個(gè)機(jī)器人把碗放進(jìn)碗柜要5分鐘,你怕是在邊上看著都得急瘋。

因此在2026年前所有新具身智能企業(yè)中,幾乎只有前一陣剛推出家用機(jī)器人的1X Technologies在嘗試這種視頻預(yù)測的方法。他們利用海量的“影子模式”(Shadow Mode)數(shù)據(jù),即在人類遙操作時(shí),讓模型在后臺同步運(yùn)行預(yù)測,用這種極高質(zhì)量的配對數(shù)據(jù)去硬生生訓(xùn)練那個(gè)脆弱的IDM。

但一時(shí)的失敗,并不意味著方向被否定。

在去年的機(jī)器人大會上,我采訪了很多國內(nèi)的具身智能學(xué)者。彼時(shí)正是谷歌 Veo 3和 Genie 3剛剛發(fā)布不久之時(shí)。大多數(shù)學(xué)者都對此印象深刻,意識到了視頻生成模型的世界理解能力。

因此在交流中,他們幾乎是以一種共識的口吻,提出生成可能是后續(xù)具身智能最靠譜的路徑。這比在模擬環(huán)境下(Simulation)產(chǎn)生數(shù)據(jù)要可能性更高。模擬器(如Isaac Gym或MuJoCo)受限于人類硬編碼的物理引擎,永遠(yuǎn)無法窮盡真實(shí)世界材質(zhì)的復(fù)雜性、光影的多變性和接觸力的非線性。而吸收了全人類視頻數(shù)據(jù)的生成模型,才是那個(gè)真正包含了萬物物理法則的超級模擬器。

但當(dāng)時(shí),這個(gè)思維還是停留在「數(shù)據(jù)」這個(gè)層面上,視頻生成取代VLA這個(gè)講法,基本還沒進(jìn)入視野。

但英偉達(dá)的研究,很可能就是讓這個(gè)想法,第一次變成有效的工程化路徑的轉(zhuǎn)折點(diǎn)。

1

DreamZero,以世界模型為基地的具身智能

前面已經(jīng)講了,過去利用視頻生成模型去構(gòu)建機(jī)器人動作所面對的三個(gè)主要問題。

一是分步導(dǎo)致的對齊問題。二是合一模式太差,沒法用的問題。三是太慢的問題。針對于此,英偉達(dá)先用DreamZero,給出了一條解決方法。


首先,DreamZero采用了視頻和動作預(yù)測同步端到端訓(xùn)練的方式。這就解決了過去分階段模式的不對齊問題。


其次,針對UVA的時(shí)空錯亂問題,DreamZero徹底拋棄了早期的雙向架構(gòu),轉(zhuǎn)而構(gòu)建了一個(gè)14B參數(shù)的自回歸 Diffusion Transformer (DiT)。這是目前標(biāo)準(zhǔn)的視頻生成模型架構(gòu)。它像語言模型生成文本一樣,嚴(yán)格按照時(shí)間順序,從左到右預(yù)測視頻和動作。在同一次擴(kuò)散前向里,同時(shí)預(yù)測視頻與動作。


這帶來了兩個(gè)好處。第一,保留了原生幀率,動作和畫面在時(shí)間軸上實(shí)現(xiàn)了絕對對齊。第二,它利用了KV Cache(鍵值緩存)技術(shù)。模型不需要每次都從頭計(jì)算歷史畫面,極大地節(jié)省了算力。

之后,為了解決自回歸導(dǎo)致的“誤差累積”和幻覺問題。DreamZero還引入了真實(shí)觀測注入。

模型預(yù)測出未來1.6秒的畫面和動作,機(jī)器人執(zhí)行完畢。而在動作執(zhí)行完的瞬間,獲取攝像頭拍下的絕對真實(shí)的當(dāng)前物理世界畫面,直接編碼并塞入KV Cache,覆蓋、替換掉模型剛才生成的假畫面。

這一步,瞬間斬?cái)嗔苏`差積累的因果鏈。模型被迫永遠(yuǎn)站在絕對真實(shí)的物理基石上,去思考下一步。

最后,也是最重要的一步,是解決生成慢的問題。

為了達(dá)到機(jī)器人控制需要的頻率,DreamZero發(fā)明了DreamZero-Flash技術(shù)。擴(kuò)散模型慢,是因?yàn)橥评頃r(shí)需要走完漫長的去噪鏈。如果強(qiáng)行減少步數(shù)(比如只用1步去噪),生成的動作質(zhì)量會斷崖式下跌,因?yàn)楫嬅孢€處在充滿噪點(diǎn)的模糊狀態(tài),模型無法從中提取精確的動作。

DreamZero-Flash的解法是「解耦噪聲調(diào)度」。在訓(xùn)練時(shí),它不再讓視頻和動作處于相同的噪聲級別。它強(qiáng)制模型看著極度模糊、充滿高強(qiáng)度噪聲的視覺畫面,去預(yù)測完全干凈、精準(zhǔn)的動作信號。這等于是在訓(xùn)練模型在看不清未來的情況下,憑借物理直覺做出正確反應(yīng)。


對于人來講,這是不可能的任務(wù),看不清就是做不了動作。但對模型來講,這似乎完全行得通。經(jīng)過這一訓(xùn)練,到了推理階段,模型只需要進(jìn)行僅僅1步去噪就能生成準(zhǔn)確動作。推理時(shí)間從350毫秒瞬間壓縮到了150毫秒。

這使得系統(tǒng)能夠以7Hz的頻率輸出動作塊,結(jié)合底層控制器,實(shí)現(xiàn)了相對平滑的實(shí)時(shí)執(zhí)行。

經(jīng)過了這一系列改造。DreamZero展現(xiàn)出了視頻生成世界模型的恐怖潛力。

最突出的是泛化能力。在AgiBot雙臂機(jī)器人的測試中,研究人員拋出了訓(xùn)練集里完全沒有見過的任務(wù)解開打結(jié)的鞋帶、從假人模型頭上摘下帽子、拿著刷子畫畫。

讓從頭訓(xùn)練的VLA來做,任務(wù)進(jìn)度幾乎為零,開始的地方都做不好。但DreamZero的平均任務(wù)進(jìn)度達(dá)到了39.5%,某些特定任務(wù)(如摘帽子)甚至高達(dá)85.7%。


這是因?yàn)镈reamZero的學(xué)習(xí)過程是顛覆性的。在訓(xùn)練時(shí)聯(lián)合預(yù)測視頻和動作,它被迫在潛空間中建立事物演變的因果鏈條。它知道如果不松開夾爪,被夾住的物體就不會掉落;它知道如果向前推倒一杯水,水會灑出來。

因?yàn)轭A(yù)設(shè)了基于視頻的世界模型,WAMs擁有了物理直覺。當(dāng)遇到未見過的任務(wù)時(shí),它不是在記憶庫里搜索類似的動作,而是在腦海中模擬出了動作的物理后果。只要這個(gè)物理后果符合語言指令的語義目標(biāo),它就能直接涌現(xiàn)出執(zhí)行動作。

這就是為什么它能在Zero-shot的情況下完成解鞋帶這種復(fù)雜任務(wù)。

更讓人震撼的是跨機(jī)體(Cross-Embodiment)能力。

在傳統(tǒng)的VLA范式下,你要讓一臺新形態(tài)的機(jī)器人干活,就必須雇人去給這臺機(jī)器人錄制專屬的遙操作數(shù)據(jù)。但在DreamZero中,研究人員只讓模型觀看了人類視角的錄像(純視頻,沒有任何電機(jī)動作參數(shù)),僅僅看了12分鐘。模型在未見任務(wù)上的表現(xiàn)就實(shí)現(xiàn)了42%的相對提升。

隨后,他們把在AgiBot上訓(xùn)練的模型,直接遷移到一臺完全不同的YAM機(jī)器人上。僅僅給它喂了30分鐘的非結(jié)構(gòu)化「玩耍數(shù)據(jù)」(Play Data),模型就完成了軀體適應(yīng),并且完美保留了零樣本泛化執(zhí)行復(fù)雜指令的能力。


這就是世界模型的降維打擊。物理規(guī)律是通用的,它只需要極少的數(shù)據(jù)去微調(diào)自己對新軀體運(yùn)動學(xué)邊界的認(rèn)知。

VLA最大的問題,DreamZero這樣預(yù)設(shè)了世界模型的動作模型 WAM(World Action Model)完美解決了。它不需要海量的機(jī)器人數(shù)據(jù)訓(xùn)練就能達(dá)成很好的泛化。

但我們必須保持清醒?;谝曨l生成的工程化路徑,其實(shí)依然有很多卡點(diǎn)。

相對于VLA動輒在消費(fèi)級顯卡上跑出20Hz、30Hz的驚人速度,DreamZero拼盡全力優(yōu)化后的7Hz依然很慢。并且,它對硬件要求更高,依賴于H100或GB200這樣的頂級芯片組成的計(jì)算集群來進(jìn)行并行推理。對于邊緣端部署的獨(dú)立機(jī)器人來說,這在目前的算力成本下是不可接受的。

不過,算力成本的下降服從摩爾定律,而算法架構(gòu)的物理認(rèn)知上限則是天花板。用昂貴的算力去換取原本根本不存在的泛化能力,這筆交易在技術(shù)演進(jìn)的長期視角下是絕對劃算的。

DreamZero的成功,意味著從VLA轉(zhuǎn)向視頻世界模型,不再是一個(gè)學(xué)術(shù)幻想,而是一個(gè)已經(jīng)跑通的可能。

1

世界模型需要的數(shù)據(jù),和VLA不一樣

在 DreamZero 的實(shí)驗(yàn)中,英偉達(dá)發(fā)現(xiàn)了一個(gè)反直覺的結(jié)論。

我們通常認(rèn)為數(shù)據(jù)越多越好。如果機(jī)器人學(xué)不會,那就再采集一萬小時(shí)數(shù)據(jù)。 但在世界模型的語境下,這個(gè)定律失效了。

DreamZero 揭示了新的法則 數(shù)據(jù)多樣性 > 數(shù)據(jù)重復(fù)量。

研究人員做了一組對照實(shí)驗(yàn) ,準(zhǔn)備了兩份數(shù)據(jù),總時(shí)長都是 500 小時(shí)。

數(shù)據(jù)集 A(重復(fù)組):包含 70 個(gè)任務(wù),每個(gè)任務(wù)有大量重復(fù)的演示,位置和環(huán)境變化很小。這是傳統(tǒng) VLA 喜歡的“刷題”模式。

數(shù)據(jù)集 B(多樣組):包含 22 個(gè)不同環(huán)境、數(shù)百個(gè)任務(wù),數(shù)據(jù)極其雜亂,幾乎不重復(fù)。

結(jié)果使用雜亂數(shù)據(jù)訓(xùn)練的 DreamZero,在未見任務(wù)上的泛化成功率達(dá)到了 50%。 而使用精美重復(fù)數(shù)據(jù)訓(xùn)練的模型,成功率只有 33%。

為什么? 這是因?yàn)?VLA 和 WAM 的學(xué)習(xí)邏輯根本不同。 VLA 是在背誦。WAM 是在學(xué)物理。

DreamZero 證明了對于學(xué)習(xí)物理規(guī)律而言,看 1 次在火星上煎蛋,比看 1000 次在廚房里煎蛋更有價(jià)值。

因?yàn)榍罢咛峁┝诵碌奈锢磉吔鐥l件,而后者只是在通過重復(fù)增加冗余。世界模型需要的是覆蓋率,而不是重復(fù)率。

1

下一步,是把世界模型訓(xùn)練的更好

DreamZero 的意義,是證明了WAM這條路完全能走通,還能非常好的泛化。

但想要持續(xù)提升DreamZero這樣模型的能力,我們還需要對它加以訓(xùn)練。盡可能強(qiáng)化它基于視頻生成的世界模型,最好還有個(gè)更嚴(yán)格的后驗(yàn)裁判,能夠指導(dǎo)它在后訓(xùn)練中持續(xù)提升準(zhǔn)確性。

這就是另一篇論文中 Dream Dojo 的作用。DreamZero 造出了引擎,DreamDojo 煉出了持續(xù)優(yōu)化這個(gè)引擎的燃油。

正如其名,它像是一座道場,要把世界模型訓(xùn)練這件事,從DreamZero這種一次性的科研 demo,豐富成一套可重復(fù)的工業(yè)流程。這套流程涵蓋了從數(shù)據(jù)攝入、表征對齊,到滾動預(yù)測、誤差診斷的全生命周期。

在 DreamDojo 出現(xiàn)之前,VLA(視覺-語言-動作)模型在數(shù)據(jù)上總是碰壁,面臨三重死穴。

1. 標(biāo)簽稀缺:互聯(lián)網(wǎng)視頻浩如煙海,但只有畫面,沒有動作數(shù)據(jù)(Action Labels)。

2. 工程地獄:機(jī)器人的身體千奇百怪。不同的自由度(DOF)、不同的控制頻率、不同的接口格式。試圖統(tǒng)一這些數(shù)據(jù),是工程師的噩夢。

3. 不可控:很多模型生成的視頻看著像,但在物理因果上是錯的。如果動作和后果不對齊,模型就無法進(jìn)行反事實(shí)(Counterfactual)推演。無法推演,就無法規(guī)劃。

但現(xiàn)在,因?yàn)橛辛艘曨l生成模型,這些就都不是問題了。DreamDojo 不是從零做 world model,它是站在「視頻基礎(chǔ)模型已經(jīng)把世界的視覺與時(shí)空規(guī)律學(xué)到一定程度」的臺階上,再強(qiáng)化對于具身智能來講,至關(guān)重要的交互因果和可控性。


既然人類視頻里沒有電機(jī)數(shù)據(jù),那我們就不要電機(jī)數(shù)據(jù)了。

DreamDojo 不再執(zhí)著于傳感器里的讀數(shù),而是去尋找動作的物理本質(zhì)。動作,本質(zhì)上就是一種讓世界狀態(tài)發(fā)生改變的力。

DreamDojo 設(shè)計(jì)了一個(gè)自監(jiān)督編碼器,專門盯著視頻的前后幀看。它在不斷地問自己一個(gè)問題,到底是什么力量,讓上一幀變成了下一幀?

機(jī)器自動提取出來的這個(gè)答案,就是連續(xù)潛在動作


DreamDojo 不再記錄絕對的關(guān)節(jié)姿態(tài)。因?yàn)榻^對姿態(tài)在高維空間里太稀疏、太難學(xué)。 它記錄的是變化量。每一幀都以當(dāng)前狀態(tài)為基準(zhǔn)歸零。這讓動作的分布變得更窄、更集中,模型更容易學(xué)會向左移一點(diǎn)這種通用的物理規(guī)律,而不是死記坐標(biāo)。

這就好比不需要知道一個(gè)人用了哪塊肌肉(傳感器數(shù)據(jù)),只要看他揮手砸杯子,杯子碎了,模型提取出揮手擊碎這個(gè)潛在動作的整個(gè)過程。

同時(shí),為了增強(qiáng)可控性。DreamDojo 不把整段動作軌跡當(dāng)作全局條件灌進(jìn)去,而是把連續(xù) 4 個(gè)動作拼成 chunk,只注入到對應(yīng)的 latent frame。通過這樣的拆分,模型被強(qiáng)制要求理解是這一個(gè)微小的動作切片,導(dǎo)致了下一刻的畫面變化。讓世界模型不會造成因果混淆。

視頻模型在這個(gè)過程中,把訓(xùn)練目標(biāo)從預(yù)測未來像不像,推向動作改變未來的方向與幅度是否一致。

這徹底打通了不同具身體之間物種隔離。 不同身體、不同場景做同一種動作,潛動作會趨于相近。模型不再需要知道手肘電機(jī)轉(zhuǎn)動 30 度,它只需要知道這個(gè)潛在動作會導(dǎo)致杯子被拿起。

而因?yàn)檫@個(gè)潛空間的動作規(guī)律對誰都一樣,不存在空間異構(gòu),不存在數(shù)據(jù)格式不通。

DreamDojo 在視頻生成這個(gè)世界模型的基礎(chǔ)上,用連續(xù)潛在動作這個(gè)數(shù)學(xué)上的通用語,把全人類的視頻資產(chǎn)轉(zhuǎn)換成了機(jī)器人可以理解的經(jīng)驗(yàn)。

為了達(dá)成這個(gè)目標(biāo),英偉達(dá)團(tuán)隊(duì)構(gòu)建了一個(gè) DreamDojo-HV(加上 In-lab 與 EgoDex)的數(shù)據(jù)集,是一個(gè)約 44,711 小時(shí)的第一視角人類交互混合數(shù)據(jù)集,覆蓋極其廣的日常場景與技能分布。包含上萬級場景、數(shù)千級任務(wù)、數(shù)萬級對象的長尾分布。


這個(gè)規(guī)模,比之前最大的機(jī)器人世界模型數(shù)據(jù)集大了 15 倍,場景豐富度高了 2000 倍。

結(jié)果 DreamDojo 在沒見過任何真機(jī)器人的情況下,僅憑看人類視頻預(yù)訓(xùn)練,就能在極少量的微調(diào)后,操控真機(jī)器人完成從未見過的任務(wù)。再通過蒸餾技術(shù),他們把這個(gè)龐大的世界模型壓縮到了能跑 10 FPS 的實(shí)時(shí)速度。


至此,結(jié)合Dream Dojo和DreamZero,這套建立在世界模型上的具身智能的閉環(huán)終于合上了。

它的底座是視頻生成模型,因?yàn)樗锢?。?gòu)架是DreamZero 代表的世界動作模型(WAM),它能通過預(yù)測未來來決策,而且讓可執(zhí)行與低延遲夠薄,能用。而其進(jìn)步的燃料,是DreamDojo 把物理與可檢驗(yàn)性做厚,讓全網(wǎng)的人類視頻,通過潛在動作轉(zhuǎn)化為機(jī)器人的經(jīng)驗(yàn)。

我們不再需要讓幾萬個(gè)博士去遙操作機(jī)器人了。只要讓機(jī)器人坐在那里,日夜不停地看人類干活的視頻,它就能學(xué)會關(guān)于物理世界的一切。

1

這,很可能是具身智能的范式轉(zhuǎn)變

DreamZero的出現(xiàn),敲響了具身智能純VLA時(shí)代的喪鐘。

這場范式的轉(zhuǎn)變可能,將深刻地重塑整個(gè)行業(yè)的生態(tài)。

首先是數(shù)據(jù)采集哲學(xué)的顛覆。在VLA范式下,從業(yè)者陷入了遙操作數(shù)據(jù)的囚徒困境,認(rèn)為只有花重金采集幾萬小時(shí)的精準(zhǔn)動作配對數(shù)據(jù),機(jī)器人才能變聰明。但DreamZero展示了跨機(jī)體學(xué)習(xí)的恐怖潛力,僅僅通過觀看人類行為的純視頻,模型就能汲取物理策略。

而Dream Dojo則意味著,YouTube、TikTok上那數(shù)以百億計(jì)的人類生活視頻,那座原本被認(rèn)為缺乏動作標(biāo)簽而對機(jī)器人無用的數(shù)據(jù)金礦,將被徹底解鎖。

從高成本的實(shí)體遙操作,轉(zhuǎn)向低成本的互聯(lián)網(wǎng)視頻挖掘,這是獲取常識的降維打擊。

最重要的是,我們對機(jī)器智能的認(rèn)知正在發(fā)生根本性轉(zhuǎn)移。

VLA時(shí)代,我們試圖通過教會機(jī)器認(rèn)字來讓它干活,結(jié)果得到了一個(gè)笨拙的翻譯官。現(xiàn)在,我們開始教會機(jī)器做夢,在腦海中生成、預(yù)測、模擬物理世界的演變。

當(dāng)一臺機(jī)器不再是機(jī)械地復(fù)讀數(shù)據(jù),而是能夠在內(nèi)部構(gòu)建一個(gè)符合物理定律的微縮宇宙,并在其中推演自己的行為后果時(shí),我們就已經(jīng)站在了通用具身智能的真正起點(diǎn)上。

這是一條更陡峭的路徑,但也必定通往更廣闊的未來。

點(diǎn)個(gè)愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
春節(jié)后,這4種蔬菜不要隨便買!菜販子:我從來不吃,顧客搶著買

春節(jié)后,這4種蔬菜不要隨便買!菜販子:我從來不吃,顧客搶著買

阿龍美食記
2026-02-26 10:37:19
西方陣營集體站隊(duì)!多國力挺美以行動,伊朗徹底陷入孤立

西方陣營集體站隊(duì)!多國力挺美以行動,伊朗徹底陷入孤立

老馬拉車莫少裝
2026-03-01 00:00:55
女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),2015年被親人點(diǎn)到不赴約

女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),2015年被親人點(diǎn)到不赴約

漢史趣聞
2025-11-08 09:27:32
重慶高速公路集團(tuán),穆軍任上被查,曾任兩江新區(qū)最大國企董事長

重慶高速公路集團(tuán),穆軍任上被查,曾任兩江新區(qū)最大國企董事長

新浪財(cái)經(jīng)
2026-02-28 20:20:04
離婚7年,39歲楊冪高調(diào)宣布喜訊,和前夫劉愷威已經(jīng)拉開距離

離婚7年,39歲楊冪高調(diào)宣布喜訊,和前夫劉愷威已經(jīng)拉開距離

洲洲影視娛評
2026-02-27 13:23:45
單局53-0被逆轉(zhuǎn)!4冠王送大禮,吳宜澤單桿73分逆轉(zhuǎn),追到1-1!

單局53-0被逆轉(zhuǎn)!4冠王送大禮,吳宜澤單桿73分逆轉(zhuǎn),追到1-1!

劉姚堯的文字城堡
2026-02-28 21:57:49
臉都不要了!中國男籃贏球后,裁判身份曝光不簡單,或遭重罰

臉都不要了!中國男籃贏球后,裁判身份曝光不簡單,或遭重罰

輸在感情刀
2026-02-28 01:24:16
特朗普鎖定目標(biāo),首個(gè)拒絕美國的國家出現(xiàn),哈梅內(nèi)伊安排好了后事

特朗普鎖定目標(biāo),首個(gè)拒絕美國的國家出現(xiàn),哈梅內(nèi)伊安排好了后事

兵說
2026-02-28 00:20:47
伊朗外長:伊朗已將導(dǎo)彈射程限制在2000公里以內(nèi)

伊朗外長:伊朗已將導(dǎo)彈射程限制在2000公里以內(nèi)

新華社
2026-02-27 10:33:20
黎巴嫩總理:貝魯特不會讓任何人將本國拖入戰(zhàn)爭

黎巴嫩總理:貝魯特不會讓任何人將本國拖入戰(zhàn)爭

參考消息
2026-02-28 17:39:04
馬布里,48歲,剛領(lǐng)著一位中國姑娘去領(lǐng)了證。

馬布里,48歲,剛領(lǐng)著一位中國姑娘去領(lǐng)了證。

南權(quán)先生
2026-02-28 15:50:16
洗草莓時(shí),有人放食鹽,有人放面粉,果農(nóng):都不對,教你正確做法

洗草莓時(shí),有人放食鹽,有人放面粉,果農(nóng):都不對,教你正確做法

阿龍美食記
2026-02-28 10:49:43
中國駐伊朗大使館通報(bào)伊朗陸地邊境口岸情況

中國駐伊朗大使館通報(bào)伊朗陸地邊境口岸情況

新華社
2026-03-01 00:29:02
浙江一男子口頭勸醉酒朋友別開車后離開,朋友幾分鐘后駕車身亡;法院:死者屬嚴(yán)重醉酒狀態(tài),不應(yīng)僅限于口頭提醒,男子被判賠9.5萬余元

浙江一男子口頭勸醉酒朋友別開車后離開,朋友幾分鐘后駕車身亡;法院:死者屬嚴(yán)重醉酒狀態(tài),不應(yīng)僅限于口頭提醒,男子被判賠9.5萬余元

揚(yáng)子晚報(bào)
2026-02-28 11:21:00
免去劉忠義的公安部部長助理職務(wù)

免去劉忠義的公安部部長助理職務(wù)

創(chuàng)作者_(dá)W4T9
2026-02-27 20:07:55
被罵“后媽式早餐“的她,全網(wǎng)有100萬人在追更!

被罵“后媽式早餐“的她,全網(wǎng)有100萬人在追更!

媽咪OK
2026-02-27 15:16:05
伊朗的投降王牌:只要美國松綁,出賣中國利益絕不會有半點(diǎn)猶豫

伊朗的投降王牌:只要美國松綁,出賣中國利益絕不會有半點(diǎn)猶豫

老范談史
2026-02-28 06:45:51
五角大樓怒了!F-35首席教官去中國打工,難怪我軍總能逮個(gè)正著

五角大樓怒了!F-35首席教官去中國打工,難怪我軍總能逮個(gè)正著

書紀(jì)文譚
2026-02-28 16:48:05
中國借給委內(nèi)瑞拉的650億打了水漂?美財(cái)長放話:別想從那拿石油

中國借給委內(nèi)瑞拉的650億打了水漂?美財(cái)長放話:別想從那拿石油

王二哥老搞笑
2026-02-28 11:04:45
1歲娃心臟有個(gè)大洞,英國醫(yī)生說沒救了!結(jié)果網(wǎng)友眾籌150萬,硬給救活了!

1歲娃心臟有個(gè)大洞,英國醫(yī)生說沒救了!結(jié)果網(wǎng)友眾籌150萬,硬給救活了!

英國那些事兒
2026-02-27 23:25:51
2026-03-01 01:19:00
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個(gè)星球。
2894文章數(shù) 10458關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

媒體:美以的真實(shí)目標(biāo)已經(jīng)擺上臺面 不達(dá)目的不罷休

頭條要聞

媒體:美以的真實(shí)目標(biāo)已經(jīng)擺上臺面 不達(dá)目的不罷休

體育要聞

球隊(duì)主力全報(bào)銷?頂風(fēng)擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財(cái)經(jīng)要聞

沖突爆發(fā) 市場變天?

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

時(shí)尚
本地
親子
數(shù)碼
健康

這6款發(fā)色居然這么火?50張圖可以直接給tony

本地新聞

津南好·四時(shí)總相宜

親子要聞

嬰兒吃的“洋”輔食,九成靠代工貼牌?涉及上市公司

數(shù)碼要聞

小米超薄充電寶亮相MWC,98g有多能打?

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

無障礙瀏覽 進(jìn)入關(guān)懷版