原力靈機具身大模型DM0硬核拆解：物理AI如何迎來自己的“原生”時代

2026-02-28 11:30:38　來源: AI科技大本營

北京舉報

分享至

責(zé)編 | 夢依丹

出品丨AI 科技大本營（ID：rgznai100）

當(dāng)前，大語言模型（LLMs）和視覺語言模型（VLMs）在語義領(lǐng)域的成功未能直接遷移至物理機器人，歸根結(jié)底在于其互聯(lián)網(wǎng)原生的基因。主流的“預(yù)訓(xùn)練-后適配”（Pretrain-then-Adapt）的范式依賴互聯(lián)網(wǎng)靜態(tài)數(shù)據(jù)，導(dǎo)致模型先天缺失物理基礎(chǔ)（Physical Grounding），在落地時往往顧此失彼：要么導(dǎo)致操作與導(dǎo)航的模塊割裂，要么引發(fā)災(zāi)難性遺忘，在追求控制精度的過程中丟失了核心的通用推理能力。

圖1：DM0 在異構(gòu)語料庫上進行預(yù)訓(xùn)練——無縫整合互聯(lián)網(wǎng)、自動駕駛和具身操作數(shù)據(jù)

為了打破這一局限，原力靈機聯(lián)合階躍星辰提出一種名為 DM0 的具身原生（Embodied-Native） VLA 模型，其工作核心在于「從0開始」：從訓(xùn)練的最初階段，就采用統(tǒng)一的視角，將具身傳感器與運動數(shù)據(jù)視為與語言、視覺數(shù)據(jù)同等重要的一等公民。

作為一個端到端模型，DM0 可以無縫統(tǒng)一機器人的精細操作（Manipulation）與移動導(dǎo)航（Navigation）。在 RoboChallenge 真實世界基準(zhǔn)測試 Table 30 中，DM0 在單任務(wù)（Specialist）和多任務(wù)（Generalist）兩種設(shè)置下均以顯著優(yōu)勢領(lǐng)先現(xiàn)有 SOTA 模型，展現(xiàn)出極其強大的物理世界泛化與執(zhí)行能力。

論文名稱： DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI
論文鏈接：https://arxiv.org/html/2602.14974v1
DM0 GitHub ： https://github.com/Dexmal/dexbotic
DM0 Hugging Face： https://huggingface.co/collections/Dexmal/dm0

方法與架構(gòu)：多源混合訓(xùn)練與空間腳手架

真正的通用機器人需要一個具身原生模型，這要求模型必須調(diào)和異構(gòu)數(shù)據(jù)源——涵蓋互聯(lián)網(wǎng)語料、自動駕駛?cè)罩疽约皺C器人操作軌跡，學(xué)習(xí)既具有豐富語義又具備物理可執(zhí)行性的表征。為此，DM0 并未采用簡單的端到端多層感知機映射，而是設(shè)計了一套精妙的多源混合訓(xùn)練與具身空間腳手架（Embodied Spatial Scaffolding）架構(gòu)。

整體模型架構(gòu)

圖 2：DM0 架構(gòu)圖，包含 VLM 主干和基于流匹配（Flow Matching）的動作專家

DM0 的核心架構(gòu)由兩個主要組件構(gòu)成：

VLM 主干網(wǎng)絡(luò)：基于 Qwen3-1.7B 大語言模型構(gòu)建，并增加了一個強大的感知編碼器 PE，負(fù)責(zé)多模態(tài)感知、語義理解以及在機器人環(huán)境中的具身推理。輸入的多視角圖像會被調(diào)整為 728×728 的高分辨率，經(jīng)過感知編碼器處理后，提取出細粒度的視覺特征。
動作專家：這是一個基于流匹配的連續(xù)控制模塊。它不直接從圖像提取特征，而是接收來自 VLM 主干網(wǎng)絡(luò)提取的鍵值（KV）緩存作為條件輸入，從而生成平滑、精確的連續(xù)控制動作。

在推理時，DM0 支持兩種模式：既可以直接從多模態(tài)觀察和指令中預(yù)測連續(xù)動作；也可以先通過 VLM 生成文本形式的具身推理過程，隨后將這些推理文本作為條件，引導(dǎo)動作專家輸出動作。

多源混合訓(xùn)練

聯(lián)合優(yōu)化語言目標(biāo)與連續(xù)控制目標(biāo)往往會破壞預(yù)訓(xùn)練 VLM 中保存的語義表征。為了解決這個問題，DM0 采用了一種受知識隔離（Knowledge Insulation）啟發(fā)的混合梯度策略。

具體而言，在針對具身機器人數(shù)據(jù)進行訓(xùn)練時，動作專家的梯度不會回傳給 VLM 主干網(wǎng)絡(luò)。這種解耦操作有效防止機器人動作數(shù)據(jù)對 VLM 通用常識的侵蝕。與此同時，VLM 仍然會繼續(xù)使用非具身數(shù)據(jù)進行更新，不斷優(yōu)化其通用語言和視覺理解能力。此外，VLM 還被監(jiān)督預(yù)測離散的動作 Token，促使它編碼出有利于下游連續(xù)動作預(yù)測的動作相關(guān)語義。

具身空間腳手架

為進一步彌合高級語言推理與低級動作控制之間的鴻溝，本文創(chuàng)新性提出一套分層預(yù)測框架——具身空間腳手架。在訓(xùn)練中，模型被要求順序執(zhí)行以下輔助任務(wù)，構(gòu)建出空間維度的思維鏈（Spatial CoT）：

子任務(wù)預(yù)測：將復(fù)雜的總指令分解為一系列可解釋、易管理的子步驟。
目標(biāo)邊界框預(yù)測：在視覺觀察中預(yù)測出目標(biāo)物體或目標(biāo)區(qū)域的 2D 邊界框。
末端執(zhí)行器軌跡預(yù)測：預(yù)測機器臂末端在主攝像機視圖下的未來 2D 軌跡。
離散動作預(yù)測：預(yù)測代表機器人控制命令的離散 Token。

這種設(shè)計如同為模型搭建一層層腳手架，引導(dǎo)其從抽象的語義意圖，逐步過渡到以物體為中心的空間定位，再到動作相關(guān)的幾何軌跡，最終落地為底層控制。這種信息瓶頸機制不僅過濾了任務(wù)無關(guān)的噪聲，還極大地限制了動作策略的解空間。

三階段訓(xùn)練配方：從互聯(lián)網(wǎng)原生走向具身原生

圖3：預(yù)訓(xùn)練、中期訓(xùn)練、后期訓(xùn)練的數(shù)據(jù)混合比例

DM0 的強大不僅源于架構(gòu)，更歸功于其精心設(shè)計的三階段訓(xùn)練 pipeline，總計消耗了高達 1.2T Token 的數(shù)據(jù)。預(yù)訓(xùn)練階段在大規(guī)模的互聯(lián)網(wǎng)、自動駕駛和具身數(shù)據(jù)上建立強大的多模態(tài)感知；中訓(xùn)練階段加入動作預(yù)測，并在跨多種機器人平臺的具身數(shù)據(jù)上把模型錨定為可執(zhí)行的控制，同時保留通用對話能力；后訓(xùn)練階段則收窄所使用的本體與數(shù)據(jù)范圍，以便在少數(shù)目標(biāo)平臺上穩(wěn)定視覺-運動對齊。

Pretraining

這個階段，模型在一套極其豐富的異構(gòu)語料庫上進行聯(lián)合優(yōu)化，參數(shù)全部解凍。數(shù)據(jù)不僅包含傳統(tǒng)的網(wǎng)頁文本、教育文獻、OCR 數(shù)據(jù)和通用 VQA，還極具前瞻性地引入 GUI 界面數(shù)據(jù)、自動駕駛深度檢測數(shù)據(jù)以及大量的具身數(shù)據(jù)。通過 1.13T Token 的大規(guī)模洗禮，模型在獲得語義知識的同時，隱式地掌握了物理先驗（如空間關(guān)系、深度結(jié)構(gòu)、物理動力學(xué)）。

Mid-Training

中期訓(xùn)練階段引入了動作預(yù)測模塊，數(shù)據(jù)規(guī)模約為 200M 樣本。此時，混合梯度策略（知識隔離）開始生效。數(shù)據(jù)混合了跨形態(tài)的單臂/雙臂機器人軌跡（如 Franka、UR5、ALOHA）、仿真環(huán)境數(shù)據(jù)以及視覺-語言指令微調(diào)數(shù)據(jù)（如 Cambrian-10M、LLaVA-OV）。為了增強模型的長程規(guī)劃能力，本文還專門構(gòu)建了具身推理（ER）數(shù)據(jù)集，包含任務(wù)分解、進度估計等訓(xùn)練項。

Post-Training

后期訓(xùn)練階段旨在將模型對齊到實際部署的硬件上。使用約 50M 樣本，將目標(biāo)縮小至少數(shù)特定的真實機器人平臺。減少不同形態(tài)機器人的分布方差，使得模型能在目標(biāo)機械臂上建立極其穩(wěn)定的視覺-運動映射。

實驗結(jié)果：在 RoboChallenge 上的碾壓級表現(xiàn)

為全面驗證 DM0 的物理世界交互能力，DM0 在極具挑戰(zhàn)性的 RoboChallenge 真實世界基準(zhǔn) Table30 上進行評估。該基準(zhǔn)包含 30 個需要多步推理和精確連續(xù)控制的長視野桌面操作任務(wù)。

單任務(wù)（Specialist）評估

表 1：RoboChallenge Table30 上 SOTA 開源 VLA 模型的對比結(jié)果

如表 1 所示，DM0-Specialist 模型在僅有 2.4B 參數(shù)量的情況下，在 UR5、Franka、ARX5、ALOHA 等多個機器人平臺上，全面超越參數(shù)量更大的 Spirit-v1.5 (4B)、GigaBrain-0.1 (3B) 、pi0.5 (3B) 等 SOTA 開源模型，取得了 62.00% 的平均成功率。

值得注意的是，在諸如“在籃子中整理水果”、“插網(wǎng)線”和“掃垃圾”這類長時序、強交互的復(fù)雜任務(wù)中，DM0 甚至取得了 100% 或 80% 這樣接近完美的成績，而其他基準(zhǔn)模型在這些任務(wù)上經(jīng)常徹底失?。?%）。

多任務(wù)（Generalist）評估

表 2：RoboChallenge Table30 上當(dāng)前最佳的開源 VLA 多任務(wù)模型的對比結(jié)果

在更考驗?zāi)Ｐ涂缛蝿?wù)適應(yīng)能力的多任務(wù)中（一個模型同時掌握某平臺下的所有任務(wù)），DM0-Generalist 同樣展現(xiàn)出壓倒性優(yōu)勢，取得了 37.3% 的平均成功率和 49.08 的任務(wù)得分，大幅超越了之前最強的 pi0.5 模型的 17.67% 和 31.27；特別是在“堆疊彩色方塊”、“將鞋子放在鞋架上”等需要高精度空間理解的任務(wù)中，DM0 依然能夠打出滿分。

圖4：DM0 具備在具身場景中預(yù)測子任務(wù)的思維鏈（CoT）能力

除了卓越的動作執(zhí)行能力，由于實施了知識隔離，處于 Mid-Training 階段的 DM0 依然完美保留了多模態(tài)對話能力。在具身場景的物體檢測、復(fù)雜圖表 OCR 識別、甚至是作為手機智能體（Mobile Agent）識別外賣按鈕的任務(wù)中，它也能對答如流。

結(jié)論與未來展望

DM0 從根本上重新思考了通用機器人策略的開發(fā)路徑。它證明了與其讓純語義的大語言模型在事后去適應(yīng)機器人身體，不如在預(yù)訓(xùn)練的萌芽期，就將物理世界的感知與多源數(shù)據(jù)相融合，構(gòu)建一個真正意義上的具身原生 VLA 模型；其獨創(chuàng)的混合梯度訓(xùn)練保護了認(rèn)知不退化，而具身空間腳手架則賦予了模型三維空間的推理直覺。

盡管 DM0 已經(jīng)樹立了一個強大的基準(zhǔn)，但這僅僅是 Physical AI 邁出的一小步。論文的最后，作者團隊也指出了幾個極具潛力的演進方向：

具身原生的 Scaling Laws： DM0 目前依然是一個 2B 級別的輕量化模型。未來，團隊計劃將其擴展至 7B 甚至 30B 規(guī)模，并吞吐更為龐大的仿真+真實的混合數(shù)據(jù)集，以期觀察到在物理推理層面的涌現(xiàn)能力。
更廣闊的多模態(tài)感知：現(xiàn)實世界的物理交互絕不僅限于看和說。DM0 的預(yù)訓(xùn)練階段未來有望直接整合觸覺反饋、音頻以及純深度信息，讓機器人即便在視野受限的動態(tài)環(huán)境中依然游刃有余。
長程推理與世界模型：現(xiàn)有的空間腳手架雖然解決了部分規(guī)劃問題，但跨越超長時間維度的任務(wù)仍是業(yè)界難題。未來，若能將世界模型整合進 DM0 ，賦予機器人在腦海中預(yù)演動作后果并進行長期規(guī)劃的能力，真正的全能型 Physical AI 將不再遙遠。

未來沒有前后端，只有 AI Agent 工程師。

這場十倍速的變革已至，你的下一步在哪？

4 月 17-18 日，由 CSDN 與奇點智能研究院聯(lián)合主辦「2026 奇點智能技術(shù)大會」將在上海隆重召開，大會聚焦 Agent 系統(tǒng)、世界模型、AI 原生研發(fā)等 12 大前沿專題，為你繪制通往未來的認(rèn)知地圖。

成為時代的見證者，更要成為時代的先行者。

奇點智能技術(shù)大會上海站，我們不見不散！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.