国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

小米首代機器人VLA模型開源,雷軍把門檻打下來了,消費級顯卡可跑SOTA

0
分享至



仿真測試跑贏全球30款競品。

作者 |李水青

編輯 |漠影

機器人前瞻2月12日報道,今天,小米開源其首代機器人VLA(視覺-語言-動作)大模型——Xiaomi-Robotics-0。

該模型擁有4.7B參數(shù),采用MoT混合架構(gòu)實現(xiàn)“大腦小腦”協(xié)同,在LIBERO、SimplerEnv、CALVIN三大主流仿真基準(zhǔn)測試中,包攬所有細(xì)分項SOTA(行業(yè)最佳)。

在真機評估中,Xiaomi-Robotics-0在疊毛巾、拆樂高等任務(wù)中動作連貫、反應(yīng)靈敏。并且,該模型能在消費級顯卡上實現(xiàn)實時推理。


▲將毛巾攤平-疊好

為了訓(xùn)練模型Xiaomi-Robotics-0,小米利用了一個龐大的數(shù)據(jù)集,包含2億級機器人軌跡數(shù)據(jù)與超過8000萬個通用視覺-語言數(shù)據(jù)樣本,其中包括338小時樂高拆卸、400小時毛巾折疊的數(shù)據(jù)。

目前,小米已開源了Xiaomi-Robotics-0的模型權(quán)重和完整代碼,包括技術(shù)報告也可以在下面地址中查看。

技術(shù)主頁:

https://xiaomi-robotics-0.github.io

開源代碼:

https://github.com/XiaomiRobotics/Xiaomi-Robotics-0

模型權(quán)重:

https://huggingface.co/XiaomiRobotics

01.

拿下三大主流仿真測試SOTA

拆樂高、疊毛巾都勝任

Xiaomi-Robotics-0在三項仿真基準(zhǔn)測試的所有Benchmark、30種模型對比中,均取得了SOTA性能。

具體而言,它在LIBERO上的平均成功率達(dá)到98.7%。在SimplerEnv上,其在視覺匹配(85.5%)、視覺聚合(74.7%)和WidowX(79.2%)方面均表現(xiàn)出色。在CALVIN上,它在ABC-D和ABCD-D分割上的平均長度分別達(dá)到4.75和4.80。

在VLM基準(zhǔn)測試中,其預(yù)訓(xùn)練模型與基礎(chǔ)預(yù)訓(xùn)練VLM的性能相當(dāng)。Xiaomi-Robotics-0保留了VLM本身的多模態(tài)理解能力,尤其是在具身更相關(guān)的Benchmark中表現(xiàn)較好,這是之前的很多VLA模型所不具備的。


▲該模型在VLA、VLM的Benchmark以及真實機器人的效果指標(biāo)

在真實機器人評估中,Xiaomi-Robotics-0在兩項具有挑戰(zhàn)性的雙手機器人操作任務(wù)——樂高拆卸和毛巾折疊中,實現(xiàn)了高成功率和強大的吞吐量,手眼協(xié)調(diào)表現(xiàn)較好。

以下是部分真機運行片段:


▲將大塊積木逐步拆成小塊


▲主動將多余毛巾放回以進(jìn)行疊放

02.

采用MoT混合架構(gòu)

大小腦聯(lián)動實現(xiàn)精準(zhǔn)手眼協(xié)同

為了兼顧通用理解與精細(xì)控制,Xiaomi-Robotics-0采用了主流的MoT (Mixture-of-Transformers)架構(gòu)。

該架構(gòu)包括一個視覺語言大腦(VLM)和一個動作執(zhí)行小腦(Action Expert)。

視覺語言大腦:團隊采用了多模態(tài)VLM大模型作為底座,它負(fù)責(zé)理解人類的模糊指令,如“請把毛巾疊好”,并從高清視覺輸入中捕捉空間關(guān)系。

動作執(zhí)行小腦:為了生成高頻、平滑的動作,團隊嵌入了多層的 Diffusion Transformer (DiT)。它不直接輸出單一動作,而是生成一個“動作塊”(Action Chunk),并通過流匹配(Flow-matching)技術(shù)確保動作的精準(zhǔn)度。


▲模型架構(gòu)及訓(xùn)練方法

這種“大腦+小腦”的組合,讓模型既能聽懂指令,又能像人類一樣,在動作執(zhí)行時保持極高的物理靈活性。


▲主動靈活調(diào)整自身動作

03.

基于2億級數(shù)據(jù)訓(xùn)練

分兩階段進(jìn)化

如何讓模型既不丟失常識,又精通“體力活”?

團隊的訓(xùn)練利用了一個龐大的數(shù)據(jù)集,其中包含約2億個機器人軌跡時間步長,和超過8000萬個通用視覺-語言數(shù)據(jù)樣本。機器人數(shù)據(jù)來源于開源數(shù)據(jù)集和通過遠(yuǎn)程操作收集的內(nèi)部數(shù)據(jù),包括338小時的樂高拆卸數(shù)據(jù)、400小時的毛巾折疊數(shù)據(jù)。

與此同時,團隊還設(shè)計了一套訓(xùn)練配方,包括跨模態(tài)預(yù)訓(xùn)練和后訓(xùn)練兩個階段。

1、跨模態(tài)預(yù)訓(xùn)練:提高模型動作分布預(yù)測能力

大部分VLA模型在學(xué)動作時往往會“變笨”,失去本身的理解能力。團隊通過多模態(tài)與動作數(shù)據(jù)的混合訓(xùn)練,讓模型在學(xué)會操作的同時,依然保持較強的物體檢測、視覺問答和邏輯推理能力。

VLM協(xié)同訓(xùn)練:團隊首先引入了Action Proposal機制,強迫VLM模型在理解圖像的同時預(yù)測多種動作分布。這一步是為了讓VLM的特征空間與動作空間對齊,不再僅僅是“紙上談兵”。

DiT專項訓(xùn)練:隨后,團隊凍結(jié)VLM,專注于訓(xùn)練DiT, 學(xué)習(xí)如何從噪聲中恢復(fù)出精準(zhǔn)的動作序列。這一階段,團隊去除了VLM的離散Token,完全依賴KV特征進(jìn)行條件生成。通過DiT專項訓(xùn)練,模型可以生成高度平滑、精準(zhǔn)的的動作序列。


▲多模態(tài)數(shù)據(jù)與跨本體機器人數(shù)據(jù)的分布

2、后訓(xùn)練:保障動作連貫流暢

這是解鎖物理智能的核心路徑。針對推理延遲引發(fā)的真機“動作斷層”問題,團隊采用異步推理模式——讓模型推理與機器人運行脫離同步約束、異步執(zhí)行,從機制上保障動作連貫流暢。


▲異步推理示意圖,模型推理延遲不影響真機連續(xù)性運行

為進(jìn)一步強化模型對環(huán)境變化的響應(yīng)敏捷性與運行穩(wěn)定性,團隊引入了:

Clean Action Prefix:將前一時刻預(yù)測的動作作為輸入,確保動作軌跡在時間維度上是連續(xù)的、不抖動的,進(jìn)一步增加流暢性。

Λ-shape Attention Mask:通過特殊的注意力掩碼,強制模型更關(guān)注當(dāng)前的視覺反饋,而不是沉溺于歷史慣性。這讓機器人在面對環(huán)境突發(fā)變化時,能夠展現(xiàn)出極強的反應(yīng)性物理智能。


▲團隊采用特殊的注意力掩碼機制,有效緩解動作慣性

04.

結(jié)語:VLA模型加速走向消費級部署

小米此次開源的Xiaomi-Robotics-0采用大小腦分工的MoT混合架構(gòu),既保留了VLM的多模態(tài)知識儲備,又解決了傳統(tǒng)VLA模型“學(xué)動作、忘視覺”的災(zāi)難性遺忘問題。

值得關(guān)注的是,該模型能在消費級顯卡上實現(xiàn)實時推理,具身智能模型的部署門檻正下沉到普通開發(fā)者桌面,機器人軟件棧的平民化正在加速到來。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
干掉伊朗精神領(lǐng)袖和前總統(tǒng)后,特朗普稱同意與伊朗新領(lǐng)導(dǎo)層對話

干掉伊朗精神領(lǐng)袖和前總統(tǒng)后,特朗普稱同意與伊朗新領(lǐng)導(dǎo)層對話

我心縱橫天地間
2026-03-02 07:57:15
特朗普怎么都沒想到:哈梅死前留下25字遺言,中國不許三件事發(fā)生

特朗普怎么都沒想到:哈梅死前留下25字遺言,中國不許三件事發(fā)生

小濤叨叨
2026-03-02 18:05:02
湖人2替補打成寶貝了!肯納德進(jìn)攻太全面,克勒貝爾效果壓艾頓!

湖人2替補打成寶貝了!肯納德進(jìn)攻太全面,克勒貝爾效果壓艾頓!

籃球資訊達(dá)人
2026-03-02 14:24:49
能量是守恒的,那么宇宙大爆炸產(chǎn)生的能量是怎么來的?

能量是守恒的,那么宇宙大爆炸產(chǎn)生的能量是怎么來的?

宇宙時空
2026-03-01 18:15:03
高考數(shù)學(xué)命題老師葛軍入駐抖音 評論區(qū)炸出一堆2003年的高考生

高考數(shù)學(xué)命題老師葛軍入駐抖音 評論區(qū)炸出一堆2003年的高考生

閃電新聞
2026-02-28 11:48:30
從長安到洛陽,末路天子的最后掙扎,唐昭宗遷都路上的生死博弈

從長安到洛陽,末路天子的最后掙扎,唐昭宗遷都路上的生死博弈

歷史按察使司
2026-03-02 12:15:12
給哥嫂孩子發(fā)15年紅包,每人2000,今年我娃剛出生 大嫂就提議互免

給哥嫂孩子發(fā)15年紅包,每人2000,今年我娃剛出生 大嫂就提議互免

游戲收藏指南
2026-02-28 19:30:05
央視主持沙桐:離婚后妻子嘲諷二人多年沒性生活,前妻直言別扯淡

央視主持沙桐:離婚后妻子嘲諷二人多年沒性生活,前妻直言別扯淡

冷紫葉
2026-02-25 15:28:41
中國正加速拋售美債,美專家:中國用了新拋售方式,完全無法干預(yù)

中國正加速拋售美債,美專家:中國用了新拋售方式,完全無法干預(yù)

似水流年忘我
2026-01-29 01:24:08
絕命師血戰(zhàn)三十萬敵軍,僅團長一人幸存,自覺無顏見人;毛主席問道:為何不來見我?

絕命師血戰(zhàn)三十萬敵軍,僅團長一人幸存,自覺無顏見人;毛主席問道:為何不來見我?

史海孤雁
2026-03-02 16:42:13
內(nèi)賈德遇害細(xì)節(jié)公布,家中遭毒手,本人和保鏢雙雙殞命?

內(nèi)賈德遇害細(xì)節(jié)公布,家中遭毒手,本人和保鏢雙雙殞命?

阿器談史
2026-03-02 18:48:10
不得不佩服,中國的戰(zhàn)略眼光,還是很敏銳的!

不得不佩服,中國的戰(zhàn)略眼光,還是很敏銳的!

達(dá)文西看世界
2026-03-02 18:40:02
又有5國參戰(zhàn)!中東亂成一鍋粥,美媒再爆料:沙特欺騙了全世界

又有5國參戰(zhàn)!中東亂成一鍋粥,美媒再爆料:沙特欺騙了全世界

東極妙嚴(yán)
2026-03-02 15:50:51
抗美援朝被彭總火線撤職的5位師級將領(lǐng),后來都授了什么軍銜

抗美援朝被彭總火線撤職的5位師級將領(lǐng),后來都授了什么軍銜

鶴羽說個事
2026-03-01 18:26:08
方媛曬3胎女兒滿月禮!金鎖玉鐲多到放不下,3500的嬰兒車不算貴

方媛曬3胎女兒滿月禮!金鎖玉鐲多到放不下,3500的嬰兒車不算貴

小娛樂悠悠
2026-02-28 11:02:55
特朗普突然壓住對臺軍售,白宮內(nèi)部吵翻了,到底在怕什么?

特朗普突然壓住對臺軍售,白宮內(nèi)部吵翻了,到底在怕什么?

Ck的蜜糖
2026-03-02 19:05:18
C羅獲邀重返歐洲足壇!主帥直言:他若來此踢球?qū)⑹菈艋脮r刻

C羅獲邀重返歐洲足壇!主帥直言:他若來此踢球?qū)⑹菈艋脮r刻

臻體育
2026-03-01 22:41:03
一旦戰(zhàn)爭爆發(fā),敵方的核彈炸毀三峽大壩,我國將面臨怎樣的后果?

一旦戰(zhàn)爭爆發(fā),敵方的核彈炸毀三峽大壩,我國將面臨怎樣的后果?

琴音繚繞回
2026-01-25 15:23:04
戚薇身材這么好嗎?

戚薇身材這么好嗎?

草莓解說體育
2026-03-02 19:07:08
26年三分榜前三都在黃蜂!波波維奇的徒孫,打造出新版海嘯兄弟

26年三分榜前三都在黃蜂!波波維奇的徒孫,打造出新版海嘯兄弟

你的籃球頻道
2026-03-02 13:45:17
2026-03-02 19:40:49
機器人前瞻
機器人前瞻
專注于機器人報道的媒體
378文章數(shù) 8關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

美記者詢問就伊朗局勢中方會采取什么行動 外交部回應(yīng)

頭條要聞

美記者詢問就伊朗局勢中方會采取什么行動 外交部回應(yīng)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

金銀大漲 市場仍在評估沖突會否長期化

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

數(shù)碼
時尚
游戲
藝術(shù)
本地

數(shù)碼要聞

Anker安克MWC 2026推Soundcore多彩中端新品!

從每天只睡4小時到8小時:一個失眠者的自救指南

《王者榮耀世界》終于定檔!你會第一時間玩嗎?

藝術(shù)要聞

簡約的風(fēng)景畫,美國畫家Ben Bauer作品

本地新聞

津南好·四時總相宜

無障礙瀏覽 進(jìn)入關(guān)懷版