国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

物理AI的「原生」時刻:原力靈機發(fā)布具身大模型DM0

0
分享至



當(dāng)前,大語言模型(LLMs)和視覺語言模型(VLMs)在語義領(lǐng)域的成功未能直接遷移至物理機器人,歸根結(jié)底在于其互聯(lián)網(wǎng)原生的基因。主流的 “預(yù)訓(xùn)練 - 后適配”(Pretrain-then-Adapt)的范式依賴互聯(lián)網(wǎng)靜態(tài)數(shù)據(jù),導(dǎo)致模型先天缺失物理基礎(chǔ)(Physical Grounding),在落地時往往顧此失彼:要么導(dǎo)致操作與導(dǎo)航的模塊割裂,要么引發(fā)災(zāi)難性遺忘,在追求控制精度的過程中丟失了核心的通用推理能力。



圖 1:DM0 在異構(gòu)語料庫上進行預(yù)訓(xùn)練 —— 無縫整合互聯(lián)網(wǎng)、自動駕駛和具身操作數(shù)據(jù)。

為了打破這一局限,原力靈機聯(lián)合階躍星辰提出一種名為 DM0 的具身原生(Embodied-Native) VLA 模型,其工作核心在于「從 0 開始」:從訓(xùn)練的最初階段,就采用統(tǒng)一的視角,將具身傳感器與運動數(shù)據(jù)視為與語言、視覺數(shù)據(jù)同等重要的一等公民。

作為一個端到端模型,DM0 可以無縫統(tǒng)一機器人的精細(xì)操作(Manipulation)與移動導(dǎo)航(Navigation)。在 RoboChallenge 真實世界基準(zhǔn)測試 Table 30 中,DM0 在單任務(wù)(Specialist)和多任務(wù)(Generalist)兩種設(shè)置下均以顯著優(yōu)勢領(lǐng)先現(xiàn)有 SOTA 模型,展現(xiàn)出極其強大的物理世界泛化與執(zhí)行能力。



  • 論文名稱: DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI
  • 論文鏈接:https://arxiv.org/html/2602.14974v1
  • DM0 GitHub : https://github.com/Dexmal/dexbotic
  • DM0 Hugging Face: https://huggingface.co/collections/Dexmal/dm0

方法與架構(gòu):多源混合訓(xùn)練與空間腳手架

真正的通用機器人需要一個具身原生模型,這要求模型必須調(diào)和異構(gòu)數(shù)據(jù)源 —— 涵蓋互聯(lián)網(wǎng)語料、自動駕駛?cè)罩疽约皺C器人操作軌跡,學(xué)習(xí)既具有豐富語義又具備物理可執(zhí)行性的表征。為此,DM0 并未采用簡單的端到端多層感知機映射,而是設(shè)計了一套精妙的多源混合訓(xùn)練與具身空間腳手架(Embodied Spatial Scaffolding)架構(gòu)。

整體模型架構(gòu)



圖 2:DM0 架構(gòu)圖,包含 VLM 主干和基于流匹配(Flow Matching)的動作專家。

DM0 的核心架構(gòu)由兩個主要組件構(gòu)成:

1.VLM 主干網(wǎng)絡(luò): 基于 Qwen3-1.7B 大語言模型構(gòu)建,并增加了一個強大的感知編碼器 PE,負(fù)責(zé)多模態(tài)感知、語義理解以及在機器人環(huán)境中的具身推理。輸入的多視角圖像會被調(diào)整為 728×728 的高分辨率,經(jīng)過感知編碼器處理后,提取出細(xì)粒度的視覺特征。

2. 動作專家: 這是一個基于流匹配的連續(xù)控制模塊。它不直接從圖像提取特征,而是接收來自 VLM 主干網(wǎng)絡(luò)提取的鍵值(KV)緩存作為條件輸入,從而生成平滑、精確的連續(xù)控制動作。

在推理時,DM0 支持兩種模式:既可以直接從多模態(tài)觀察和指令中預(yù)測連續(xù)動作;也可以先通過 VLM 生成文本形式的具身推理過程,隨后將這些推理文本作為條件,引導(dǎo)動作專家輸出動作。

多源混合訓(xùn)練

聯(lián)合優(yōu)化語言目標(biāo)與連續(xù)控制目標(biāo)往往會破壞預(yù)訓(xùn)練 VLM 中保存的語義表征。為了解決這個問題,DM0 采用了一種受知識隔離(Knowledge Insulation)啟發(fā)的混合梯度策略。

具體而言,在針對具身機器人數(shù)據(jù)進行訓(xùn)練時,動作專家的梯度不會回傳給 VLM 主干網(wǎng)絡(luò)。這種解耦操作有效防止機器人動作數(shù)據(jù)對 VLM 通用常識的侵蝕。與此同時,VLM 仍然會繼續(xù)使用非具身數(shù)據(jù)進行更新,不斷優(yōu)化其通用語言和視覺理解能力。此外,VLM 還被監(jiān)督預(yù)測離散的動作 Token,促使它編碼出有利于下游連續(xù)動作預(yù)測的動作相關(guān)語義。

具身空間腳手架

為進一步彌合高級語言推理與低級動作控制之間的鴻溝,本文創(chuàng)新性提出一套分層預(yù)測框架 —— 具身空間腳手架。在訓(xùn)練中,模型被要求順序執(zhí)行以下輔助任務(wù),構(gòu)建出空間維度的思維鏈(Spatial CoT):

1. 子任務(wù)預(yù)測: 將復(fù)雜的總指令分解為一系列可解釋、易管理的子步驟。

2. 目標(biāo)邊界框預(yù)測: 在視覺觀察中預(yù)測出目標(biāo)物體或目標(biāo)區(qū)域的 2D 邊界框。

3. 末端執(zhí)行器軌跡預(yù)測: 預(yù)測機器臂末端在主攝像機視圖下的未來 2D 軌跡。

4. 離散動作預(yù)測: 預(yù)測代表機器人控制命令的離散 Token。

這種設(shè)計如同為模型搭建一層層腳手架,引導(dǎo)其從抽象的語義意圖,逐步過渡到以物體為中心的空間定位,再到動作相關(guān)的幾何軌跡,最終落地為底層控制。這種信息瓶頸機制不僅過濾了任務(wù)無關(guān)的噪聲,還極大地限制了動作策略的解空間。

三階段訓(xùn)練配方:從互聯(lián)網(wǎng)原生走向具身原生



圖 4:預(yù)訓(xùn)練、中期訓(xùn)練、后期訓(xùn)練的數(shù)據(jù)混合比例。

DM0 的強大不僅源于架構(gòu),更歸功于其精心設(shè)計的三階段訓(xùn)練 pipeline,總計消耗了高達 1.2T Token 的數(shù)據(jù)。預(yù)訓(xùn)練階段在大規(guī)模的互聯(lián)網(wǎng)、自動駕駛和具身數(shù)據(jù)上建立強大的多模態(tài)感知;中訓(xùn)練階段加入動作預(yù)測,并在跨多種機器人平臺的具身數(shù)據(jù)上把模型錨定為可執(zhí)行的控制,同時保留通用對話能力;后訓(xùn)練階段則收窄所使用的本體與數(shù)據(jù)范圍,以便在少數(shù)目標(biāo)平臺上穩(wěn)定視覺 - 運動對齊。

Pretraining

這個階段,模型在一套極其豐富的異構(gòu)語料庫上進行聯(lián)合優(yōu)化,參數(shù)全部解凍。數(shù)據(jù)不僅包含傳統(tǒng)的網(wǎng)頁文本、教育文獻、OCR 數(shù)據(jù)和通用 VQA,還極具前瞻性地引入 GUI 界面數(shù)據(jù)、自動駕駛深度檢測數(shù)據(jù)以及大量的具身數(shù)據(jù)。通過 1.13T Token 的大規(guī)模洗禮,模型在獲得語義知識的同時,隱式地掌握了物理先驗(如空間關(guān)系、深度結(jié)構(gòu)、物理動力學(xué))。

Mid-Training

中期訓(xùn)練階段引入了動作預(yù)測模塊,數(shù)據(jù)規(guī)模約為 200M 樣本。此時,混合梯度策略(知識隔離)開始生效。數(shù)據(jù)混合了跨形態(tài)的單臂 / 雙臂機器人軌跡(如 Franka、UR5、ALOHA)、仿真環(huán)境數(shù)據(jù)以及視覺 - 語言指令微調(diào)數(shù)據(jù)(如 Cambrian-10M、LLaVA-OV)。為了增強模型的長程規(guī)劃能力,本文還專門構(gòu)建了具身推理(ER)數(shù)據(jù)集,包含任務(wù)分解、進度估計等訓(xùn)練項。

Post-Training

后期訓(xùn)練階段旨在將模型對齊到實際部署的硬件上。使用約 50M 樣本,將目標(biāo)縮小至少數(shù)特定的真實機器人平臺。減少不同形態(tài)機器人的分布方差,使得模型能在目標(biāo)機械臂上建立極其穩(wěn)定的視覺 - 運動映射。

實驗結(jié)果:在 RoboChallenge 上的碾壓級表現(xiàn)

為全面驗證 DM0 的物理世界交互能力,DM0 在極具挑戰(zhàn)性的 RoboChallenge 真實世界基準(zhǔn) Table30 上進行評估。該基準(zhǔn)包含 30 個需要多步推理和精確連續(xù)控制的長視野桌面操作任務(wù)。

單任務(wù)(Specialist)評估



表 1:RoboChallenge Table30 上 SOTA 開源 VLA 模型的對比結(jié)果。

如表 1 所示,DM0-Specialist 模型在僅有 2.4B 參數(shù)量的情況下,在 UR5、Franka、ARX5、ALOHA 等多個機器人平臺上,全面超越參數(shù)量更大的 Spirit-v1.5 (4B)、GigaBrain-0.1 (3B) 、pi0.5 (3B) 等 SOTA 開源模型,取得了 62.00% 的平均成功率。

值得注意的是,在諸如 “在籃子中整理水果”、“插網(wǎng)線” 和 “掃垃圾” 這類長時序、強交互的復(fù)雜任務(wù)中,DM0 甚至取得了 100% 或 80% 這樣接近完美的成績,而其他基準(zhǔn)模型在這些任務(wù)上經(jīng)常徹底失。0%)。

多任務(wù)(Generalist)評估



表 2:RoboChallenge Table30 上當(dāng)前最佳的開源 VLA 多任務(wù)模型的對比結(jié)果。

在更考驗?zāi)P涂缛蝿?wù)適應(yīng)能力的多任務(wù)中(一個模型同時掌握某平臺下的所有任務(wù)),DM0-Generalist 同樣展現(xiàn)出壓倒性優(yōu)勢,取得了 37.3% 的平均成功率和 49.08 的任務(wù)得分,大幅超越了之前最強的 pi0.5 模型的 17.67% 和 31.27;特別是在 “堆疊彩色方塊”、“將鞋子放在鞋架上” 等需要高精度空間理解的任務(wù)中,DM0 依然能夠打出滿分。



表 5:DM0 具備在具身場景中預(yù)測子任務(wù)的思維鏈(CoT)能力。

除了卓越的動作執(zhí)行能力,由于實施了知識隔離,處于 Mid-Training 階段的 DM0 依然完美保留了多模態(tài)對話能力。在具身場景的物體檢測、復(fù)雜圖表 OCR 識別、甚至是作為手機智能體(Mobile Agent)識別外賣按鈕的任務(wù)中,它也能對答如流。

結(jié)論與未來展望

DM0 從根本上重新思考了通用機器人策略的開發(fā)路徑。它證明了與其讓純語義的大語言模型在事后去適應(yīng)機器人身體,不如在預(yù)訓(xùn)練的萌芽期,就將物理世界的感知與多源數(shù)據(jù)相融合,構(gòu)建一個真正意義上的具身原生 VLA 模型;其獨創(chuàng)的混合梯度訓(xùn)練保護了認(rèn)知不退化,而具身空間腳手架則賦予了模型三維空間的推理直覺。

盡管 DM0 已經(jīng)樹立了一個強大的基準(zhǔn),但這僅僅是 Physical AI 邁出的一小步。論文的最后,作者團隊也指出了幾個極具潛力的演進方向:

1. 具身原生的 Scaling Laws: DM0 目前依然是一個 2B 級別的輕量化模型。未來,團隊計劃將其擴展至 7B 甚至 30B 規(guī)模,并吞吐更為龐大的仿真 + 真實的混合數(shù)據(jù)集,以期觀察到在物理推理層面的涌現(xiàn)能力。

2. 更廣闊的多模態(tài)感知: 現(xiàn)實世界的物理交互絕不僅限于看和說。DM0 的預(yù)訓(xùn)練階段未來有望直接整合觸覺反饋、音頻以及純深度信息,讓機器人即便在視野受限的動態(tài)環(huán)境中依然游刃有余。

3. 長程推理與世界模型: 現(xiàn)有的空間腳手架雖然解決了部分規(guī)劃問題,但跨越超長時間維度的任務(wù)仍是業(yè)界難題。未來,若能將世界模型整合進 DM0 ,賦予機器人在腦海中預(yù)演動作后果并進行長期規(guī)劃的能力,真正的全能型 Physical AI 將不再遙遠(yuǎn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
離譜?國安29歲外援遭不可明說的傷病 回國做手術(shù)感染+現(xiàn)已不能動

離譜?國安29歲外援遭不可明說的傷病 回國做手術(shù)感染+現(xiàn)已不能動

我愛英超
2026-03-11 17:46:18
特朗普突然調(diào)轉(zhuǎn)槍口?美伊打到第十天,伊朗一個動作讓美軍慌了神

特朗普突然調(diào)轉(zhuǎn)槍口?美伊打到第十天,伊朗一個動作讓美軍慌了神

泛舟碧波湖水
2026-03-11 16:36:51
“中方是否就霍爾木茲海峽暢通問題同伊朗溝通”,外交部回應(yīng):對當(dāng)前中東局勢持續(xù)緊張深感憂慮,當(dāng)務(wù)之急是有關(guān)各方立即停止軍事行動

“中方是否就霍爾木茲海峽暢通問題同伊朗溝通”,外交部回應(yīng):對當(dāng)前中東局勢持續(xù)緊張深感憂慮,當(dāng)務(wù)之急是有關(guān)各方立即停止軍事行動

極目新聞
2026-03-11 15:54:30
盈科律所回應(yīng)“創(chuàng)始人梅向榮被指爆雷”:后續(xù)會出公告

盈科律所回應(yīng)“創(chuàng)始人梅向榮被指爆雷”:后續(xù)會出公告

紅星資本局
2026-03-11 14:54:06
美軍印太司令:再遭中國攔截就采取行動,中國軍隊需要提前防范

美軍印太司令:再遭中國攔截就采取行動,中國軍隊需要提前防范

紀(jì)中百大事
2026-03-09 10:00:26
錦江飯店被收歸國有后,創(chuàng)始人董竹君慘遭除名,96歲時仍在奔走

錦江飯店被收歸國有后,創(chuàng)始人董竹君慘遭除名,96歲時仍在奔走

史之銘
2026-03-03 22:44:25
TVB前“咪神”大婚驚艷四座,這胸圍是真實存在的嗎?

TVB前“咪神”大婚驚艷四座,這胸圍是真實存在的嗎?

娛樂領(lǐng)航家
2026-03-09 21:30:03
錢再多又怎樣?楊瀾參加車展全程被冷落,丈夫大腹便便不正眼看她

錢再多又怎樣?楊瀾參加車展全程被冷落,丈夫大腹便便不正眼看她

翰飛觀事
2026-03-11 17:13:41
我去!內(nèi)娛最大的性丑聞,拍出來了

我去!內(nèi)娛最大的性丑聞,拍出來了

皮蛋兒電影
2026-03-04 14:39:25
谷愛凌把米蘭冬奧會全部獎金796萬自己4萬,一共800萬全部捐出去

谷愛凌把米蘭冬奧會全部獎金796萬自己4萬,一共800萬全部捐出去

離離言幾許
2026-03-09 22:43:32
伊朗已抓捕 30名間諜 81名內(nèi)鬼

伊朗已抓捕 30名間諜 81名內(nèi)鬼

每日經(jīng)濟新聞
2026-03-11 09:21:00
75億,“網(wǎng)紅美食之王”破產(chǎn)了

75億,“網(wǎng)紅美食之王”破產(chǎn)了

品牌頭版
2026-03-10 20:31:30
698分孫女被軍校拒絕,農(nóng)民爺爺尋求真相,軍校校長看見爺爺敬禮

698分孫女被軍校拒絕,農(nóng)民爺爺尋求真相,軍校校長看見爺爺敬禮

紅豆講堂
2025-09-12 11:28:18
全球追殺令正式啟動,特朗普改口示弱,伊朗:何時停戰(zhàn)我們說了算

全球追殺令正式啟動,特朗普改口示弱,伊朗:何時停戰(zhàn)我們說了算

小小科普員
2026-03-11 17:31:11
小區(qū)樓上天天晚上都有女的大聲叫。。。

小區(qū)樓上天天晚上都有女的大聲叫。。。

微微熱評
2025-12-24 00:26:04
國際足聯(lián)主席:特朗普歡迎伊朗到美國參加世界杯 !

國際足聯(lián)主席:特朗普歡迎伊朗到美國參加世界杯 !

每日經(jīng)濟新聞
2026-03-11 18:09:03
美媒評論東風(fēng)5C導(dǎo)彈:恐怖!如果丟一枚到美國,會造成怎樣的景象

美媒評論東風(fēng)5C導(dǎo)彈:恐怖!如果丟一枚到美國,會造成怎樣的景象

朝子亥
2026-03-10 19:15:03
目標(biāo)美軍第五艦隊,伊朗發(fā)起第37輪打擊!以外長稱將與美協(xié)商對伊朗行動結(jié)束時間,特朗普松口“有條件談判”,伊朗:不談

目標(biāo)美軍第五艦隊,伊朗發(fā)起第37輪打擊!以外長稱將與美協(xié)商對伊朗行動結(jié)束時間,特朗普松口“有條件談判”,伊朗:不談

每日經(jīng)濟新聞
2026-03-11 08:47:37
特朗普要溜?這一次絕不能讓美國輕易地跑了!

特朗普要溜?這一次絕不能讓美國輕易地跑了!

李光滿說
2026-03-10 15:03:03
外甥住我家16年考上清華,我退休賣房旅游,外甥:我的房子憑什么賣

外甥住我家16年考上清華,我退休賣房旅游,外甥:我的房子憑什么賣

熱心市民小黃
2026-03-07 19:01:37
2026-03-11 18:43:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12476文章數(shù) 142582關(guān)注度
往期回顧 全部

科技要聞

騰訊急了急了,微信絕密AI智能體首度曝光

頭條要聞

重慶13歲少年"街舞世界杯"奪冠 最初目標(biāo)僅是進下一輪

頭條要聞

重慶13歲少年"街舞世界杯"奪冠 最初目標(biāo)僅是進下一輪

體育要聞

郭艾倫重傷,CBA下半賽季還能期待些什么

娛樂要聞

楊冪連續(xù)五年為劉詩詩慶生,劉詩詩回應(yīng)

財經(jīng)要聞

喚醒10萬億存量資金 公積金改革大潮來了

汽車要聞

蓮花糾偏, 馮擎峰的“收”與“守”

態(tài)度原創(chuàng)

藝術(shù)
旅游
時尚
游戲
公開課

藝術(shù)要聞

這組剪紙?zhí)懒耍?/h3>

旅游要聞

美團旅行:“春假經(jīng)濟”釋放消費潛能,大型主題樂園成家庭出游熱門目的地

看來看去還是這些穿搭最高級,不老套、不死板,舒適又顯氣質(zhì)

KK平臺DotA核心優(yōu)勢,2026重塑Dota1競技體驗!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版