国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華研究生開源大一統(tǒng)世界模型:性能超越硅谷標(biāo)桿40%!

0
分享至

金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

國產(chǎn)開源具身世界模型,直接秒了Pi-0.5,而且還是幾位清華碩、博士研究生領(lǐng)銜推出的。



這就是由生數(shù)科技聯(lián)合清華大學(xué),正式開源的大一統(tǒng)世界模型——Motus。

項(xiàng)目主要負(fù)責(zé)人,是來自清華大學(xué)計(jì)算機(jī)系朱軍教授TSAIL實(shí)驗(yàn)室的二年級碩士生畢弘喆和三年級博士生譚恒楷

之所以說是大一統(tǒng),是因?yàn)镸otus在架構(gòu)上,直接把VLA(視覺-語言-動作)、世界模型、視頻生成、逆動力學(xué)、視頻-動作聯(lián)合預(yù)測這五種具身智能范式,首次實(shí)現(xiàn)了“看-想-動”的完美閉環(huán)。

而且在50項(xiàng)通用任務(wù)的測試中,Motus的絕對成功率比國際頂尖的Pi-0.5提升了35%以上,最高提升幅度甚至達(dá)到了40%!

在Motus的加持之下,現(xiàn)在的機(jī)器人已經(jīng)具備了預(yù)測未來的能力。

瞧,Cloudflare人機(jī)驗(yàn)證任務(wù),機(jī)器人可以輕松拿捏:



視頻地址:https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA

從視頻中不難看出,面對形狀不規(guī)則的曲面鼠標(biāo),Motus控制的機(jī)械臂不僅能精準(zhǔn)識別,還能根據(jù)鼠標(biāo)與屏幕點(diǎn)擊框的距離,平穩(wěn)連續(xù)地移動,最后極度精準(zhǔn)地完成點(diǎn)擊。

再如長程多步推理的孔明棋任務(wù),Motus同樣展現(xiàn)出了嚴(yán)密的邏輯閉環(huán),一步步解開棋局:



視頻地址:https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA

再來看一個堪稱是機(jī)器人噩夢的任務(wù)——疊衣服



視頻地址:https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA

衣服這種柔性物體的形變是過程中持續(xù)不斷發(fā)生的,但在Motus手下,整個過程絲滑順暢,就像有了人類的觸覺和預(yù)判一樣。

可以說,Motus的出現(xiàn),率先在具身智能領(lǐng)域發(fā)現(xiàn)了Scaling Law,直接復(fù)刻了當(dāng)年GPT-2被定義為“無監(jiān)督多任務(wù)學(xué)習(xí)者”的奇跡。

很多CTO、創(chuàng)始人們看完之后直呼“妙哉”:

  • 這是互聯(lián)網(wǎng)視頻學(xué)習(xí)與現(xiàn)實(shí)世界機(jī)器人之間的巧妙橋梁。
  • Motus的Latent Action范式太妙了。統(tǒng)一的VLA架構(gòu)消除了機(jī)器人學(xué)中的模型碎片化,這才是真正的突破。
  • 將感知、預(yù)測和行動統(tǒng)一在智能體內(nèi)部確實(shí)是實(shí)質(zhì)性的進(jìn)展。



包括此前大火的英偉達(dá)Cosmos policy、DreamZero這些工作,被認(rèn)為是顛覆了VLA的范式,轉(zhuǎn)向WA(World Action Models)或VA(Vision Action)范式;但其核心思想與Motus相近,大同小異。

目前,Motus的代碼、模型權(quán)重已全部開源(鏈接在文末)。

那么接下來,我們就來扒一扒這個大一統(tǒng)世界模型是如何實(shí)現(xiàn)的。

一個架構(gòu)統(tǒng)一了五種范式

在過去,具身智能領(lǐng)域可以說是散裝的。

因?yàn)橄馰LA、世界模型、視頻生成、逆動力學(xué)、視頻-動作聯(lián)合預(yù)測等模型,很難有機(jī)地湊成一個整體。

而Motus最大的亮點(diǎn),在一個框架內(nèi)把這五種范式全包圓了。



大一統(tǒng)背后的技術(shù),便是Mixture-of-Transformer(MoT)架構(gòu),配合Tri-model Joint Attention(三模態(tài)聯(lián)合注意力)機(jī)制。

簡單來說,通過這種方式,Motus相當(dāng)于把三個專家攢到了一起:

  • 理解專家(大腦):基于Qwen-VL,負(fù)責(zé)看懂環(huán)境和指令;
  • 視頻生成專家(想象力):基于Wan 2.2,負(fù)責(zé)推演未來畫面;
  • 動作專家(小腦):負(fù)責(zé)具體的運(yùn)動控制。

通過Tri-model Joint Attention,這三位專家可以在同一個注意力層里實(shí)時交換信息。

這就賦予了機(jī)器人一種很像人類的能力:不僅能看見(感知),還能在腦海里想象動作發(fā)生后的未來畫面(預(yù)測),從而反過來倒推現(xiàn)在該做什么動作(決策)。

這正是我們剛才提到的“看—想—動”閉環(huán)。

但要訓(xùn)練這樣一個全能模型,光在模型框架層面下功夫還是不夠的——數(shù)據(jù),也是一個老大難的問題。

因?yàn)闄C(jī)器人真機(jī)數(shù)據(jù)太貴、太少,而互聯(lián)網(wǎng)上雖然有海量的視頻,卻只有畫面,沒有動作標(biāo)簽(Action Label)。

為了解決這個問題,Motus采取的策略便是潛動作(Latent Action)



研究團(tuán)隊(duì)利用光流技術(shù)(Optical Flow),捕捉視頻里像素級的運(yùn)動軌跡,然后提出了一種Delta Action機(jī)制,將這些像素的變化翻譯成機(jī)器人的動作趨勢。

這個思路可以說是比較巧妙,就像是讓機(jī)器人看武俠片學(xué)功夫。

雖然沒有人手把手教(沒有真機(jī)數(shù)據(jù)標(biāo)簽),但機(jī)器人通過觀察視頻里高手的動作軌跡(光流),看多了自然就懂了招式和發(fā)力方向(潛動作)。



由此,上至昂貴的真機(jī)數(shù)據(jù),下至浩如煙海的互聯(lián)網(wǎng)視頻、人類第一視角視頻(Egocentric Video),Motus全都能吃進(jìn)去,從中提取通用的物理交互先驗(yàn)。

除此之外,基于數(shù)據(jù)金字塔和潛動作,Motus還構(gòu)建了一套三階段訓(xùn)練流程,逐步將通用的物理動力學(xué)常識“蒸餾”為精確的機(jī)器人控制能力:

  • 視頻生成預(yù)訓(xùn)練。利用多機(jī)器人軌跡和人類操作視頻來微調(diào)視頻生成專家,使其能根據(jù)條件幀和語言指令生成合理的機(jī)器人操作視頻。
  • 潛動作預(yù)訓(xùn)練。在凍結(jié)VLM的情況下,用視頻、語言和潛動作同時預(yù)訓(xùn)練三個專家,將通用的運(yùn)動先驗(yàn)充分地注入Motus中。
  • 特定本體微調(diào)。利用目標(biāo)機(jī)器人的真機(jī)數(shù)據(jù)對Motus進(jìn)行整體微調(diào),將模型適應(yīng)到特定場景下的下游任務(wù),例如RoboTwin仿真和真機(jī)機(jī)械臂抓取。



Scaling Law在物理世界跑通了

研究的實(shí)驗(yàn)結(jié)果表明:Scaling Law在物理世界里,真的跑通了。

在仿真榜單RoboTwin 2.0上,在50個通用任務(wù)中,Motus的平均成功率達(dá)到了88%



特別是在高難度的Stack Bowls Three(疊三個碗) 任務(wù)中,稍微一點(diǎn)誤差就會導(dǎo)致碗塔倒塌。此前的基線模型在這個任務(wù)上的成功率不到16%,可以說是“帕金森級手抖”。

而Motus的成功率直接飆升至95%!

但比單點(diǎn)成績更讓人驚艷的,是下面這張Scaling Curves(擴(kuò)展曲線)。





△上圖為數(shù)據(jù)量Scaling,下圖為任務(wù)數(shù)量Scaling。紅色為Motus,藍(lán)色為Pi-0.5

隨著訓(xùn)練任務(wù)數(shù)量的增加(橫軸),藍(lán)色的線(Pi-0.5)呈現(xiàn)下降趨勢。這意味著傳統(tǒng)的模型架構(gòu)在面對多任務(wù)時,容易發(fā)生過擬合,學(xué)了新的忘了舊的。

而紅色的線(Motus)則是一路持續(xù)上升。

這證明了:只要模型架構(gòu)足夠統(tǒng)一、數(shù)據(jù)來源足夠雜,具身智能完全可以像LLM一樣,涌現(xiàn)出跨任務(wù)的通用泛化能力。

這也正是GPT-2當(dāng)年帶給NLP領(lǐng)域的震撼——Language Models are Unsupervised Multitask Learners。現(xiàn)在,Motus在具身智能領(lǐng)域復(fù)刻了這一奇跡。

真機(jī)測試中,無論是AC-One還是Agilex-Aloha-2機(jī)械臂,Motus都表現(xiàn)出了較好的適應(yīng)性。



△左:AC-One;右:Agilex-Aloha-2

數(shù)據(jù)顯示,Motus的數(shù)據(jù)效率比對手提升了13.55倍。也就是說,達(dá)到同樣的水平,Motus只需要別人十幾分之一的數(shù)據(jù)量。

清華研究生領(lǐng)銜

最后,讓我們把目光投向這個大一統(tǒng)世界模型背后的團(tuán)隊(duì)。

Motus由生數(shù)科技聯(lián)合清華大學(xué)發(fā)布,而共同領(lǐng)銜的一作,是兩位非常年輕的清華學(xué)生:

  • 畢弘喆(Hongzhe Bi):清華大學(xué)計(jì)算機(jī)系TSAIL實(shí)驗(yàn)室二年級碩士生。他的研究方向就是具身智能基礎(chǔ)模型,此前還是CVPR2025 RoboTwin雙臂機(jī)器人競賽真機(jī)賽冠軍。
  • 譚恒楷(Hengkai Tan):清華大學(xué)計(jì)算機(jī)系TSAIL實(shí)驗(yàn)室三年級博士生。主攻視頻世界模型和具身大模型,曾獲NOI銀牌,在RDT、Vidar等多個重要項(xiàng)目中都有他的身影。

此外,團(tuán)隊(duì)成員還包括謝盛昊、王澤遠(yuǎn)、黃舒翮、劉海天等,均來自清華TSAIL實(shí)驗(yàn)室(朱軍教授課題組)。

而作為聯(lián)合發(fā)布方的生數(shù)科技,這次開源Motus,也暴露了其在世界模型上的布局。

熟悉生數(shù)科技的朋友都知道,他們剛完成新一輪融資,而且一直堅(jiān)持視頻大模型是通往AGI的核心路徑。

在生數(shù)看來,視頻天然承載了真實(shí)世界的物理時空、因果邏輯與動態(tài)演變。Motus的出現(xiàn),正是這一戰(zhàn)略的重要拼圖。

它標(biāo)志著機(jī)器人從“機(jī)械執(zhí)行”向“端到端智能”的跨越,也推動了整個行業(yè)從單點(diǎn)突破走向統(tǒng)一基座。

產(chǎn)學(xué)研協(xié)作在這里發(fā)揮了巨大的化學(xué)反應(yīng):生數(shù)在多模態(tài)大模型上的深厚積累,加上清華團(tuán)隊(duì)的頂尖算法能力,才催生出了Motus這個大一統(tǒng)的世界模型。

Motus于25年12月就全部開源并發(fā)布論文,早于行業(yè)2個月,而最近火熱的基于視頻模型的具身智能路線,生數(shù)科技與清華大學(xué)在2025年7月份就已經(jīng)發(fā)表Vidar具身視頻模型,領(lǐng)先于行業(yè)半年之久。

目前,Motus已經(jīng)全量開源。

感興趣的小伙伴可以圍觀一下啦~

論文地址:
https://arxiv.org/abs/2512.13030

項(xiàng)目地址:
https://motus-robotics.github.io/motus

開源倉庫:
https://github.com/thu-ml/Motus

模型權(quán)重:
https://huggingface.co/motus-robotics

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
斷崖式下跌!中國人突然不愛喝酒了?真相太扎心!

斷崖式下跌!中國人突然不愛喝酒了?真相太扎心!

達(dá)文西看世界
2026-01-18 20:56:11
哇,體態(tài)豐腴,也壯實(shí) 太美了,簡直是楊貴妃在世

哇,體態(tài)豐腴,也壯實(shí) 太美了,簡直是楊貴妃在世

陳意小可愛
2026-02-25 02:20:54
注意繞行!無錫這條主干道要大修了

注意繞行!無錫這條主干道要大修了

江南晚報(bào)
2026-02-24 21:54:51
24日下午WTT大滿貫:16強(qiáng)出爐,松島強(qiáng)勢逆轉(zhuǎn),王楚欽大戰(zhàn)戶上!

24日下午WTT大滿貫:16強(qiáng)出爐,松島強(qiáng)勢逆轉(zhuǎn),王楚欽大戰(zhàn)戶上!

秋姐居
2026-02-24 19:59:15
山東一村莊800人姓“蔄”,無法出門打工留學(xué),孩子只能隨母姓

山東一村莊800人姓“蔄”,無法出門打工留學(xué),孩子只能隨母姓

南宗歷史
2026-02-25 00:29:20
冷空氣+下雨!廣東局地強(qiáng)對流上線,出門多穿一件

冷空氣+下雨!廣東局地強(qiáng)對流上線,出門多穿一件

城事特搜
2026-02-24 18:34:20
美國海關(guān)正式公告:對所有國家加征10%關(guān)稅!豁免清單公布

美國海關(guān)正式公告:對所有國家加征10%關(guān)稅!豁免清單公布

貿(mào)易夜航
2026-02-24 15:14:55
你有沒有發(fā)現(xiàn),今年春節(jié)很反常,大家都不再裝了

你有沒有發(fā)現(xiàn),今年春節(jié)很反常,大家都不再裝了

念得小柔
2026-02-24 10:22:49
四川成都一佳人好漂亮, 身高169cm,體重48kg 美的讓人移不開眼

四川成都一佳人好漂亮, 身高169cm,體重48kg 美的讓人移不開眼

喜歡歷史的阿繁
2026-02-07 14:21:17
燕郊高樓林立,通勤人擠破頭,房子卻沒人要了

燕郊高樓林立,通勤人擠破頭,房子卻沒人要了

林子說事
2026-02-23 20:51:33
駐日武官王慶簡:為日本潛伏20年出賣軍事機(jī)密,卻因一動作暴露身份

駐日武官王慶簡:為日本潛伏20年出賣軍事機(jī)密,卻因一動作暴露身份

睡前講故事
2026-02-03 20:55:43
西方濾鏡破碎!美游客拒不回國,死磕2400小時,這記耳光打得太響

西方濾鏡破碎!美游客拒不回國,死磕2400小時,這記耳光打得太響

人間放映廳
2026-02-24 15:15:09
今晚24點(diǎn)起,這款共享電單車將退出昆明主城運(yùn)營

今晚24點(diǎn)起,這款共享電單車將退出昆明主城運(yùn)營

8099999街頭巷尾
2026-02-24 13:07:07
上市首月就險(xiǎn)些奪得銷冠的AION i60,為何會這么猛!

上市首月就險(xiǎn)些奪得銷冠的AION i60,為何會這么猛!

大俠上車
2026-02-24 15:34:37
221名女囚流放澳洲,下船時很多懷孕,這批女囚孕育出了一個國家

221名女囚流放澳洲,下船時很多懷孕,這批女囚孕育出了一個國家

千秋文化
2026-01-30 21:45:45
賴清德出席?;鶗顒訒r,多次以“中國大陸”稱呼對岸

賴清德出席?;鶗顒訒r,多次以“中國大陸”稱呼對岸

娛樂圈的筆娛君
2026-02-24 16:41:17
最高法機(jī)關(guān)報(bào):十年前彭宇案的真相是什么?

最高法機(jī)關(guān)報(bào):十年前彭宇案的真相是什么?

蕭十一郎1993
2026-02-23 21:28:33
綠地建設(shè)集團(tuán)被懸賞

綠地建設(shè)集團(tuán)被懸賞

地產(chǎn)微資訊
2026-02-24 09:13:08
中國小伙破解西方發(fā)動機(jī)獨(dú)家解讀技術(shù)獲國家獎勵800萬

中國小伙破解西方發(fā)動機(jī)獨(dú)家解讀技術(shù)獲國家獎勵800萬

暮雨咋歇著
2026-02-25 01:35:26
山西農(nóng)戶在家挖地道,本想存儲過冬食物,結(jié)果無意發(fā)現(xiàn)了一條密道

山西農(nóng)戶在家挖地道,本想存儲過冬食物,結(jié)果無意發(fā)現(xiàn)了一條密道

南權(quán)先生
2026-02-24 15:58:07
2026-02-25 03:52:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12196文章數(shù) 176392關(guān)注度
往期回顧 全部

科技要聞

宇樹科技發(fā)布四足機(jī)器人Unitree As2

頭條要聞

男子摟住繼女強(qiáng)吻動作親密 當(dāng)?shù)貗D聯(lián)介入

頭條要聞

男子摟住繼女強(qiáng)吻動作親密 當(dāng)?shù)貗D聯(lián)介入

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個熱愛單板滑雪的少年

娛樂要聞

汪小菲官宣三胎出生:承諾會照顧好3個孩子

財(cái)經(jīng)要聞

縣城消費(fèi)「限時繁榮」了十天

汽車要聞

入門即滿配 威蘭達(dá)AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

旅游
教育
游戲
家居
本地

旅游要聞

避寒+冰雪雙爆!5.96億人出游,解鎖新春新玩法

教育要聞

馬馬馬上上岸!!!TTS《大吉大利復(fù)試手冊》+復(fù)試班:紙質(zhì)筆記與1v1模擬面試堂堂上線!!

LOL傳奇選手公布戀情!發(fā)博曬照被夸夫妻相,女方身份曝光

家居要聞

本真棲居 愛暖伴流年

本地新聞

春花齊放2026:《駿馬奔騰迎新歲》

無障礙瀏覽 進(jìn)入關(guān)懷版