網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Dexmal 原力靈機(jī)硬核開源Dexbotic：一站式搞定VLA研究，終結(jié)重復(fù)造輪子

2025-10-22 22:59:39　來源: 機(jī)器人前瞻

北京舉報(bào)

分享至

機(jī)器人前瞻（公眾號(hào)：robot_pro）
作者許麗思
編輯漠影

在具身智能全面競(jìng)速的當(dāng)下，一個(gè)長期被忽視的問題正被不斷放大。

VLA模型作為具身智能領(lǐng)域的核心范式，是機(jī)器人感知、理解與行動(dòng)的核心路徑。然而，過去幾年的研究實(shí)踐中，VLA的開發(fā)生態(tài)卻呈現(xiàn)出碎片化的問題：不同研究機(jī)構(gòu)采用不同的深度學(xué)習(xí)框架、模型結(jié)構(gòu)和訓(xùn)練管線，導(dǎo)致算法復(fù)現(xiàn)困難、工程協(xié)同復(fù)雜。研究者往往需要反復(fù)配置多份實(shí)驗(yàn)環(huán)境，只為比較不同算法的性能；而模型結(jié)果的公平性和可重復(fù)性，也會(huì)受到質(zhì)疑。

與此同時(shí)，許多流行的VLA策略仍然建立在過時(shí)的VLA模型或LLM模型之上。比如，OpenVLA及其衍生模型CogACT、OFT，都還是基于Llama2，這意味著，它們無法充分利用表示能力更強(qiáng)的Qwen3等模型帶來提升能力。

結(jié)果就是，行業(yè)在表面上推陳出新，實(shí)則在同一代技術(shù)框架內(nèi)打轉(zhuǎn)。這種學(xué)術(shù)與工程層面的重復(fù)造輪子，也成為制約具身智能快速落地的隱性桎梏。

對(duì)此，Dexmal原力靈機(jī)推出了Dexbotic，這是一套基于PyTorch框架的開源VLA模型工具箱，旨在為具身智能研究者提供一個(gè)標(biāo)準(zhǔn)化、模塊化、高性能的一站式科研基礎(chǔ)設(shè)施。

Dexbotic以“統(tǒng)一架構(gòu)+強(qiáng)大預(yù)訓(xùn)練模型+實(shí)驗(yàn)即腳本”為核心，提供了一個(gè)可同時(shí)支持多種主流VLA策略的統(tǒng)一代碼庫，使用戶僅需一次環(huán)境配置即可復(fù)現(xiàn)多種VLA方法。Dexbotic統(tǒng)一的策略表示形式，使得無論是機(jī)器人操作還是導(dǎo)航，這些不同類型的VLA策略都可以在統(tǒng)一框架下進(jìn)行定義與比較。

相關(guān)鏈接如下：

官網(wǎng)：https://dexbotic.com/

Paper：https://dexbotic.com/dexbotic_tech_report.pdf

GitHub：https://github.com/Dexmal/dexbotic

Hugging Face：https://huggingface.co/collections/Dexmal/dexbotic-68f20493f6808a776bfc9fc4

一、統(tǒng)一數(shù)據(jù)格式，整合多源機(jī)器人數(shù)據(jù)集

傳統(tǒng)VLA研究經(jīng)常因?yàn)閿?shù)據(jù)往往格式各異、命名混亂，視頻、傳感器狀態(tài)與文本描述難以統(tǒng)一對(duì)齊而陷入混亂，各種信息常需手工對(duì)齊，既耗時(shí)又易錯(cuò)。

對(duì)此，Dexbotic設(shè)計(jì)了一種名為Dexdata的統(tǒng)一高效的數(shù)據(jù)格式，為UR5、Franka、ALOHA、ARX5等多款主流機(jī)器人提供統(tǒng)一的數(shù)據(jù)格式。

在Dexdata格式中，所有內(nèi)容被結(jié)構(gòu)化存儲(chǔ)為兩個(gè)核心目錄：視頻目錄與JSONL目錄，視頻目錄中存儲(chǔ).mp4格式的視頻文件，而JSONL目錄中存儲(chǔ)對(duì)應(yīng)的文本信息。每個(gè)JSONL文件包含單個(gè)機(jī)器人任務(wù)的完整數(shù)據(jù)，還包含index_cache.json文件，用于記錄所有任務(wù)的元數(shù)據(jù)并加速數(shù)據(jù)訪問。

基于Dexdata格式的數(shù)據(jù)，系統(tǒng)將自動(dòng)執(zhí)行數(shù)據(jù)處理流程，提取圖像、文本及狀態(tài)信息用于模型訓(xùn)練，提高訓(xùn)練效率。相比Lerobot與RLDS等格式，Dexdata在數(shù)據(jù)加載與模型訓(xùn)練階段能顯著節(jié)省存儲(chǔ)空間。

數(shù)據(jù)標(biāo)準(zhǔn)化是研究的基礎(chǔ)，實(shí)則決定了后續(xù)多機(jī)器人、多視角的可拓展性，也決定了具身智能的規(guī)?；l(fā)展?jié)摿Α?/p>

Dexdata的創(chuàng)新之處，就在于沒有局限于單一機(jī)器人類型，而是構(gòu)建了可拓展的通用框架，讓不同機(jī)器人的數(shù)據(jù)能夠在同一框架下復(fù)用。Dexmal原力靈機(jī)團(tuán)隊(duì)還表示，他們將持續(xù)擴(kuò)展Dexdata的適配范圍，讓更多機(jī)器人平臺(tái)接入這一標(biāo)準(zhǔn)。

二、提供兩種高性能預(yù)訓(xùn)練模型，支持多種主流VLA策略

Dexbotic從零開始預(yù)訓(xùn)練了視覺-語言模型DexboticVLM，既可以直接支持離散VLA訓(xùn)練，也可以作為現(xiàn)有VLA策略的基座模型。該模型采用模塊化設(shè)計(jì)，整合了CLIP作為視覺編碼器、兩層MLP作為投影層、Qwen2.5作為大語言模型。

Dexbotic 提供了兩種預(yù)訓(xùn)練模型：

離散型預(yù)訓(xùn)練模型（Dexbotic-Base）：適用于通用VLA策略，模型使用了來自O(shè)pen-X Embodiment數(shù)據(jù)集、RLBench、Libero、Maniskill2等多個(gè)仿真器的數(shù)據(jù)，并融合了UR5等真實(shí)機(jī)械人的數(shù)據(jù)。，用離散化token形式來學(xué)習(xí)動(dòng)作空間。研究者可直接在此模型上微調(diào)，復(fù)現(xiàn)π0、OFT、CogACT、MemoryVLA等主流算法，而無需從零訓(xùn)練。

連續(xù)型預(yù)訓(xùn)練模型（Dexbotic-CogACT）：專為連續(xù)動(dòng)作策略設(shè)計(jì)，包括單臂和雙臂兩個(gè)版本。單臂模型基于Dexbotic-Base進(jìn)行連續(xù)表征預(yù)訓(xùn)練，數(shù)據(jù)來自O(shè)pen-X Embodiment子集與團(tuán)隊(duì)私有數(shù)據(jù)集；雙臂版本包含來自8種真實(shí)單臂機(jī)器人（UR5、Franka、UniTree Z1、Realman GEN72、ARX5等）的52個(gè)任務(wù)數(shù)據(jù)，還進(jìn)一步引入Robomind、AgiBot World 及 ALOHA雙臂數(shù)據(jù)，以支持多視角輸入與雙臂任務(wù)。

Dexbotic這種同時(shí)覆蓋離散與連續(xù)動(dòng)作策略的設(shè)計(jì)，精準(zhǔn)擊中了當(dāng)前VLA研究的核心需求差異，既兼顧了學(xué)術(shù)研究的開放性，又考慮了產(chǎn)業(yè)落地的實(shí)用性。

目前，DexboticVLM了同時(shí)提供支持π0、OpenVLA-OFT、CogACT、MemoryVLA等多種VLA策略的統(tǒng)一代碼庫，用戶僅需一次環(huán)境配置即可復(fù)現(xiàn)多種VLA方法。另外，用戶也可以便捷地自定義新的VLA模型。這就讓研究者無需重復(fù)搭建環(huán)境，也能輕松橫向比較不同策略的性能，從而在統(tǒng)一標(biāo)準(zhǔn)下推動(dòng)算法的進(jìn)化。

三、創(chuàng)新實(shí)驗(yàn)?zāi)_本機(jī)制，讓開發(fā)流程更加簡(jiǎn)潔高效

在傳統(tǒng)的VLA開發(fā)流程中，研究者需要手動(dòng)配置大量YAML文件，這些配置復(fù)雜、易錯(cuò)，不僅浪費(fèi)大量時(shí)間，也容易讓科研的可復(fù)現(xiàn)性陷入混亂。

而Dexbotic秉持著“實(shí)驗(yàn)為中心”的理念，重塑了這一流程。它創(chuàng)新性引入的實(shí)驗(yàn)?zāi)_本機(jī)制，把一套復(fù)雜的實(shí)驗(yàn)配置，簡(jiǎn)化為一套可繼承的腳本體系，在確保系統(tǒng)穩(wěn)定性的同時(shí)支持快速實(shí)驗(yàn)迭代開發(fā)。

具體來說，用戶不再需要手動(dòng)維護(hù)龐雜的配置文件，可基于base_exp腳本繼承配置，修改優(yōu)化器、數(shù)據(jù)、模型等字段，不必復(fù)制完整文件即可創(chuàng)建新的實(shí)驗(yàn)方案。運(yùn)行命令格式為：python xxx_exp.py -task train。

這樣的機(jī)制就意味著，研究人員的時(shí)間不再浪費(fèi)在環(huán)境修補(bǔ)與路徑兼容上，而能真正投入到算法優(yōu)化本身，提升研究單位產(chǎn)出。不僅提升了個(gè)體效率，更能加速整個(gè)行業(yè)的技術(shù)迭代速度，形成良性創(chuàng)新循環(huán)。

Dexbotic同時(shí)支持云端與本地一體化訓(xùn)練，它既可運(yùn)行在阿里云、火山引擎等大規(guī)模云訓(xùn)練平臺(tái)上，也適配RTX 4090等消費(fèi)級(jí)顯卡的本地訓(xùn)練環(huán)境。這讓研究門檻被大幅降低，中小型團(tuán)隊(duì)甚至個(gè)人研究者，都可以以更低成本參與到具身智能的創(chuàng)新浪潮中?？梢哉f，Dexbotic讓做實(shí)驗(yàn)本身重新變成了一件輕松、高效且透明的事情。

四、顯著提升多個(gè)主流仿真器效果，還能完成多項(xiàng)日常任務(wù)

在多個(gè)主流具身智能仿真基準(zhǔn)，如SimplerEnv、CALVIN、ManiSkill2、RoboTwin2.0 和 LIBERO上，Dexbotic 團(tuán)隊(duì)系統(tǒng)驗(yàn)證了模型表現(xiàn)。結(jié)果顯示，基于Dexbotic的策略在各項(xiàng)指標(biāo)上都顯著超越了原版。

以SimplerEnv為例，在“將勺子放在毛巾上”、“將胡蘿卜放在盤子上”、“堆疊方塊”與“將茄子放入籃子”這些任務(wù)中，Dexbotic的CogACT較原版性能提升18.2%，DB-OFT相較原版提升46.2%。同時(shí)，DB-MemoryVLA在該環(huán)境下的成功率達(dá)到81.3%，比原始版本提升近10%。

在CALVIN的長時(shí)序操作任務(wù)中，DB-CogACT在所有指標(biāo)上均優(yōu)于原始模型，平均任務(wù)長度達(dá)到4.06，較原版提升0.81。DB-OFT版本也表現(xiàn)出更優(yōu)的泛化性能。

在ManiSkill2的多個(gè)抓取與放置任務(wù)中，Dexbotic在五個(gè)代表性任務(wù)上進(jìn)行了驗(yàn)證。相比原始CogACT、OFT，DB-CogACT將平均成功率又進(jìn)一步提升了4%，DB-OFT更是將平均成功率提升了42%。

在RoboTwin2.0測(cè)試中，CogACT在調(diào)整瓶子、抓取滾筒、放置空杯和放置手機(jī)支架這四個(gè)任務(wù)的平均成功率為43.75%，而DB-CogACT的成功率達(dá)到了57%。這表明，Dexbotic的預(yù)訓(xùn)練模型在雙臂機(jī)器人形態(tài)下能帶來顯著的性能提升。

在LIBERO基準(zhǔn)測(cè)試中，許多先進(jìn)VLA策略性能已經(jīng)接近飽和。但是借助Dexbotic預(yù)訓(xùn)練模型，像CogACT、MemoryVLA這些策略的性能還能進(jìn)一步提升，比如，DB-CogACT在四個(gè)任務(wù)集上的平均成功率比CogACT基線提高了1.3%。

在真實(shí)世界實(shí)驗(yàn)中，Dexbotic在UR5e、Franka、ALOHA、ARX5等機(jī)器人平臺(tái)上完成了包括擺放餐盤、尋找特定盒子、按順序按下按鈕等多項(xiàng)任務(wù)，成功率普遍在80%-100%之間，展現(xiàn)了較強(qiáng)的可遷移性與控制穩(wěn)定性。

不過，Dexbotic也驗(yàn)證了，在“撕碎紙張”“把薯?xiàng)l倒進(jìn)盤子里”這類精細(xì)操作任務(wù)上，當(dāng)前VLA策略還存在一定挑戰(zhàn)。

具身智能的研究離不開開源硬件的支撐。Dexmal原力靈還推出了其首款開源硬件產(chǎn)品——Dexbotic Open Source – W1（DOS-W1）,為行業(yè)提供一個(gè)低門檻、高可復(fù)現(xiàn)性的硬件底座。

DOS-W1采用完全開源的設(shè)計(jì)方案，即將開源所有的文檔、BOM、設(shè)計(jì)圖紙、組裝方案、相關(guān)代碼；采用大量的快拆結(jié)構(gòu)與可替換模塊，極大地降低了機(jī)器人的使用門檻、改造便利性和維護(hù)便利性。同時(shí)，其符合人體工學(xué)的抗疲勞設(shè)計(jì)，有效提升了操作人員的舒適度與數(shù)據(jù)采集效率。

DOS-W1不只是一個(gè)硬件平臺(tái)，也是構(gòu)建產(chǎn)業(yè)開放生態(tài)的重要節(jié)點(diǎn)。Dexmal原力靈機(jī)將與各產(chǎn)業(yè)伙伴一起，持續(xù)豐富Dexbotic Open Source系列。產(chǎn)業(yè)鏈共創(chuàng)，有望使其成為一個(gè)讓更多人真正參與進(jìn)來的、能持續(xù)把創(chuàng)新能力帶到現(xiàn)實(shí)世界的加速器。

五、結(jié)語：加速具身大腦發(fā)展的關(guān)鍵一步

在具身智能的發(fā)展道路上，Dexbotic的意義遠(yuǎn)不止一個(gè)開源工具箱。它的出現(xiàn)，不僅顯著簡(jiǎn)化了VLA模型的復(fù)現(xiàn)與實(shí)驗(yàn)流程、顯著提升研究效率，還通過高性能預(yù)訓(xùn)練模型與模塊化架構(gòu)推動(dòng)了具身智能研究的發(fā)展，是解決具身大腦的關(guān)鍵一步。

對(duì)研究者而言，不僅可以使用Dexbotic開發(fā)更多真實(shí)世界任務(wù)，還能把基于Dexbotic開發(fā)的策略提交至RoboChallenge平臺(tái)。RoboChallenge基于多款主流機(jī)器人底座、遠(yuǎn)程真機(jī)實(shí)驗(yàn)、Table30桌面操作基準(zhǔn)測(cè)試集，夠克服真實(shí)環(huán)境下的性能驗(yàn)證、標(biāo)準(zhǔn)化測(cè)試條件、公開可訪問測(cè)試平臺(tái)等挑戰(zhàn)，為模型（VLAs）在機(jī)器人的實(shí)際應(yīng)用提供更加可靠和可比較的評(píng)估標(biāo)準(zhǔn)。

Dexmal原力靈機(jī)稱，將持續(xù)投入Dexbotic生態(tài)建設(shè)，計(jì)劃擴(kuò)展更多先進(jìn)VLM基座模型，集成仿真到真實(shí)物理世界的遷移學(xué)習(xí)工具鏈，并建立社區(qū)驅(qū)動(dòng)的模型貢獻(xiàn)機(jī)制。還邀請(qǐng)全球開發(fā)者通過代碼貢獻(xiàn)、算法優(yōu)化、應(yīng)用案例分享，共同參與Dexbotic社區(qū)建設(shè)，為通用機(jī)器人智能的到來奠定堅(jiān)實(shí)基礎(chǔ)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.