国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

小米首代機器人VLA模型開源,雷軍把門檻打下來了,消費級顯卡可跑

0
分享至


機器人前瞻(公眾號:robot_pro)
作者 李水青
編輯 漠影

機器人前瞻2月12日報道,今天,小米開源其首代機器人VLA(視覺-語言-動作)大模型——Xiaomi-Robotics-0。

該模型擁有4.7B參數(shù),采用MoT混合架構(gòu)實現(xiàn)“大腦小腦”協(xié)同,在LIBERO、SimplerEnv、CALVIN三大主流仿真基準測試中,包攬所有細分項SOTA(行業(yè)最佳)。

在真機評估中,Xiaomi-Robotics-0在疊毛巾、拆樂高等任務(wù)中動作連貫、反應(yīng)靈敏。并且,該模型能在消費級顯卡上實現(xiàn)實時推理。


▲將毛巾攤平-疊好

為了訓練模型Xiaomi-Robotics-0,小米利用了一個龐大的數(shù)據(jù)集,包含2億級機器人軌跡數(shù)據(jù)與超過8000萬個通用視覺-語言數(shù)據(jù)樣本,其中包括338小時樂高拆卸、400小時毛巾折疊的數(shù)據(jù)。

目前,小米已開源了Xiaomi-Robotics-0的模型權(quán)重和完整代碼,包括技術(shù)報告也可以在下面地址中查看。

技術(shù)主頁:
https://xiaomi-robotics-0.github.io
開源代碼:
https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
模型權(quán)重:
https://huggingface.co/XiaomiRobotics

一、拿下三大主流仿真測試SOTA,拆樂高、疊毛巾都勝任

Xiaomi-Robotics-0在三項仿真基準測試的所有Benchmark、30種模型對比中,均取得了SOTA性能。

具體而言,它在LIBERO上的平均成功率達到98.7%。在SimplerEnv上,其在視覺匹配(85.5%)、視覺聚合(74.7%)和WidowX(79.2%)方面均表現(xiàn)出色。在CALVIN上,它在ABC-D和ABCD-D分割上的平均長度分別達到4.75和4.80。

在VLM基準測試中,其預訓練模型與基礎(chǔ)預訓練VLM的性能相當。Xiaomi-Robotics-0保留了VLM本身的多模態(tài)理解能力,尤其是在具身更相關(guān)的Benchmark中表現(xiàn)較好,這是之前的很多VLA模型所不具備的。


▲該模型在VLA、VLM的Benchmark以及真實機器人的效果指標

在真實機器人評估中,Xiaomi-Robotics-0在兩項具有挑戰(zhàn)性的雙手機器人操作任務(wù)——樂高拆卸和毛巾折疊中,實現(xiàn)了高成功率和強大的吞吐量,手眼協(xié)調(diào)表現(xiàn)較好。

以下是部分真機運行片段:


▲將大塊積木逐步拆成小塊


▲主動將多余毛巾放回以進行疊放

二、采用MoT混合架構(gòu),大小腦聯(lián)動實現(xiàn)精準手眼協(xié)同

為了兼顧通用理解與精細控制,Xiaomi-Robotics-0采用了主流的MoT (Mixture-of-Transformers)架構(gòu)。

該架構(gòu)包括一個視覺語言大腦(VLM)和一個動作執(zhí)行小腦(Action Expert)。

視覺語言大腦:團隊采用了多模態(tài)VLM大模型作為底座,它負責理解人類的模糊指令,如“請把毛巾疊好”,并從高清視覺輸入中捕捉空間關(guān)系。

動作執(zhí)行小腦:為了生成高頻、平滑的動作,團隊嵌入了多層的 Diffusion Transformer (DiT)。它不直接輸出單一動作,而是生成一個“動作塊”(Action Chunk),并通過流匹配(Flow-matching)技術(shù)確保動作的精準度。


▲模型架構(gòu)及訓練方法

這種“大腦+小腦”的組合,讓模型既能聽懂指令,又能像人類一樣,在動作執(zhí)行時保持極高的物理靈活性。


▲主動靈活調(diào)整自身動作

三、基于2億級數(shù)據(jù)訓練,分兩階段進化

如何讓模型既不丟失常識,又精通“體力活”?

團隊的訓練利用了一個龐大的數(shù)據(jù)集,其中包含約2億個機器人軌跡時間步長,和超過8000萬個通用視覺-語言數(shù)據(jù)樣本。機器人數(shù)據(jù)來源于開源數(shù)據(jù)集和通過遠程操作收集的內(nèi)部數(shù)據(jù),包括338小時的樂高拆卸數(shù)據(jù)、400小時的毛巾折疊數(shù)據(jù)。

與此同時,團隊還設(shè)計了一套訓練配方,包括跨模態(tài)預訓練和后訓練兩個階段。

1、跨模態(tài)預訓練:提高模型動作分布預測能力

大部分VLA模型在學動作時往往會“變笨”,失去本身的理解能力。團隊通過多模態(tài)與動作數(shù)據(jù)的混合訓練,讓模型在學會操作的同時,依然保持較強的物體檢測、視覺問答和邏輯推理能力。

VLM協(xié)同訓練:團隊首先引入了Action Proposal機制,強迫VLM模型在理解圖像的同時預測多種動作分布。這一步是為了讓VLM的特征空間與動作空間對齊,不再僅僅是“紙上談兵”。

DiT專項訓練:隨后,團隊凍結(jié)VLM,專注于訓練DiT, 學習如何從噪聲中恢復出精準的動作序列。這一階段,團隊去除了VLM的離散Token,完全依賴KV特征進行條件生成。通過DiT專項訓練,模型可以生成高度平滑、精準的的動作序列。


▲多模態(tài)數(shù)據(jù)與跨本體機器人數(shù)據(jù)的分布

2、后訓練:保障動作連貫流暢

這是解鎖物理智能的核心路徑。針對推理延遲引發(fā)的真機“動作斷層”問題,團隊采用異步推理模式——讓模型推理與機器人運行脫離同步約束、異步執(zhí)行,從機制上保障動作連貫流暢。


▲異步推理示意圖,模型推理延遲不影響真機連續(xù)性運行

為進一步強化模型對環(huán)境變化的響應(yīng)敏捷性與運行穩(wěn)定性,團隊引入了:

Clean Action Prefix:將前一時刻預測的動作作為輸入,確保動作軌跡在時間維度上是連續(xù)的、不抖動的,進一步增加流暢性。

Λ-shape Attention Mask:通過特殊的注意力掩碼,強制模型更關(guān)注當前的視覺反饋,而不是沉溺于歷史慣性。這讓機器人在面對環(huán)境突發(fā)變化時,能夠展現(xiàn)出極強的反應(yīng)性物理智能。


▲團隊采用特殊的注意力掩碼機制,有效緩解動作慣性

結(jié)語:VLA模型加速走向消費級部署

小米此次開源的Xiaomi-Robotics-0采用大小腦分工的MoT混合架構(gòu),既保留了VLM的多模態(tài)知識儲備,又解決了傳統(tǒng)VLA模型“學動作、忘視覺”的災(zāi)難性遺忘問題。

值得關(guān)注的是,該模型能在消費級顯卡上實現(xiàn)實時推理,具身智能模型的部署門檻正下沉到普通開發(fā)者桌面,機器人軟件棧的平民化正在加速到來。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
日本人又開始不安了,只因為美伊開戰(zhàn),霍爾木茲海峽被封鎖

日本人又開始不安了,只因為美伊開戰(zhàn),霍爾木茲海峽被封鎖

貍花小咪
2026-03-02 13:37:54
湖人大勝后喜憂參半,詹姆斯又迎里程碑,未來一周連遇強敵

湖人大勝后喜憂參半,詹姆斯又迎里程碑,未來一周連遇強敵

謝說籃球
2026-03-02 15:45:32
張維伊難以承擔董璇與小酒窩奢華消費,三亞之行顯現(xiàn)真相

張維伊難以承擔董璇與小酒窩奢華消費,三亞之行顯現(xiàn)真相

動物奇奇怪怪
2026-03-01 20:54:36
1949年傅作義任水利部長遭閑置,主席當面質(zhì)問,周恩來聽聞當即發(fā)火

1949年傅作義任水利部長遭閑置,主席當面質(zhì)問,周恩來聽聞當即發(fā)火

磊子講史
2026-01-14 10:12:21
哈梅內(nèi)伊接班人亮劍!一夜打遍中東美軍,要讓美以:為其感到后悔

哈梅內(nèi)伊接班人亮劍!一夜打遍中東美軍,要讓美以:為其感到后悔

紀中百大事
2026-03-02 10:48:32
19歲印度女孩聽說中國男人不打老婆、女人能掙錢,連夜瞞家人來華

19歲印度女孩聽說中國男人不打老婆、女人能掙錢,連夜瞞家人來華

南權(quán)先生
2026-03-02 15:31:29
不突出個人,改突出領(lǐng)導了:王勵勤主C,孫穎莎、王楚欽退居兩翼

不突出個人,改突出領(lǐng)導了:王勵勤主C,孫穎莎、王楚欽退居兩翼

冥王星與一只碗
2026-02-16 11:14:33
資本大佬為何總緊盯孫千?并非演技多出眾,顏值有多高

資本大佬為何總緊盯孫千?并非演技多出眾,顏值有多高

觀察鑒娛
2026-03-02 10:18:18
3月30日起執(zhí)行!國務(wù)院824號令:農(nóng)村土葬老墳處置規(guī)則與權(quán)益保護

3月30日起執(zhí)行!國務(wù)院824號令:農(nóng)村土葬老墳處置規(guī)則與權(quán)益保護

三農(nóng)雷哥
2026-02-26 19:39:24
哈梅內(nèi)伊遇害,特朗普上當了!

哈梅內(nèi)伊遇害,特朗普上當了!

戎評
2026-03-02 13:06:25
被加拿大養(yǎng)父母拋棄,回國認親的張云鵬經(jīng)歷悲慘,親爹媽早已離異

被加拿大養(yǎng)父母拋棄,回國認親的張云鵬經(jīng)歷悲慘,親爹媽早已離異

阿芒娛樂說
2026-03-01 17:42:16
贏球僅1天,中國男籃壞消息傳來:將失去1個主場,沖4連勝難了

贏球僅1天,中國男籃壞消息傳來:將失去1個主場,沖4連勝難了

何老師呀
2026-03-02 12:23:00
回了一趟老家,我看見縣城里的千萬種活法

回了一趟老家,我看見縣城里的千萬種活法

每日人物
2026-03-02 09:37:05
4-2!邁阿密半場連扳4球獲賽季首勝 38歲梅西2射1傳+生涯進898球

4-2!邁阿密半場連扳4球獲賽季首勝 38歲梅西2射1傳+生涯進898球

我愛英超
2026-03-02 10:16:26
王楚欽孫穎莎新加坡城市宣傳照,何卓佳發(fā)抖音,把自己照顧的很好

王楚欽孫穎莎新加坡城市宣傳照,何卓佳發(fā)抖音,把自己照顧的很好

林子說事
2026-03-02 12:38:18
畜生父親虞天華被執(zhí)行死刑,押赴刑場前高喊:這輩子值了!

畜生父親虞天華被執(zhí)行死刑,押赴刑場前高喊:這輩子值了!

紙鳶奇譚
2024-12-04 21:37:57
汪小菲再曝猛料:離婚后相親對象全是警花公務(wù)員,馬筱梅笑死了

汪小菲再曝猛料:離婚后相親對象全是警花公務(wù)員,馬筱梅笑死了

小徐講八卦
2026-03-02 13:51:17
什么調(diào)料最易致癌?是蠔油嗎?提醒:這3種調(diào)料做飯時盡量少放

什么調(diào)料最易致癌?是蠔油嗎?提醒:這3種調(diào)料做飯時盡量少放

冷眼看世界728
2026-03-02 10:00:13
俄軍已到位,中東局勢緊張,美航母面臨挑戰(zhàn)。

俄軍已到位,中東局勢緊張,美航母面臨挑戰(zhàn)。

說宇宙
2026-03-02 15:37:09
男籃世預賽亞大區(qū)出線更新,兩隊提前晉級,中國贏1場即上岸

男籃世預賽亞大區(qū)出線更新,兩隊提前晉級,中國贏1場即上岸

籃球看比賽
2026-03-02 15:04:01
2026-03-02 16:11:00
機器人前瞻
機器人前瞻
專注于機器人報道的媒體
378文章數(shù) 8關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓

體育要聞

卡里克主場5連勝!隊史第2人通過最大考驗

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

金銀大漲 市場仍在評估沖突會否長期化

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

手機
家居
教育
游戲
旅游

手機要聞

OPPO Find N6核心亮點曝光:滿級防水+久用無折痕,刷新折疊屏體驗

家居要聞

萬物互聯(lián) 享科技福祉

教育要聞

唐宇出任成都市第二中學黨委書記

三角洲玩家沒續(xù)艦長遭主播毀號!一億資產(chǎn)30秒清空

旅游要聞

常州永州雙城文旅亮相上海,超值福利邀你踏青出游

無障礙瀏覽 進入關(guān)懷版