国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

更全面具身智能真機(jī)評(píng)測(cè)!CVPR 2026 ManipArena挑戰(zhàn)賽邀你打榜

0
分享至



編輯|Panda

過(guò)去一年,具身智能領(lǐng)域迎來(lái)了爆發(fā)式增長(zhǎng)。從后空翻到托馬斯回旋,從整理衣物到?jīng)_泡咖啡……各類令人驚艷的機(jī)器人演示視頻層出不窮。

然而,在這些技術(shù)繁榮的背后,行業(yè)正面臨一個(gè)愈發(fā)核心的拷問(wèn):我們到底應(yīng)該如何判斷一個(gè)具身智能模型是真的取得了泛化能力的進(jìn)步,還是僅僅針對(duì)特定任務(wù)與場(chǎng)景進(jìn)行了精心優(yōu)化?

在真實(shí)的物理世界中,評(píng)測(cè)一項(xiàng)操作任務(wù)的復(fù)雜性遠(yuǎn)超 LLM 等純軟件領(lǐng)域。當(dāng)前的許多測(cè)試往往依賴于預(yù)設(shè)環(huán)境中的 sweet spot 或是無(wú)數(shù)次的重試。具身智能產(chǎn)業(yè)正加速?gòu)募夹g(shù)研發(fā)向規(guī)模化落地全面躍遷,而統(tǒng)一、高標(biāo)準(zhǔn)的真機(jī)評(píng)測(cè)體系長(zhǎng)期缺位,已成為行業(yè)發(fā)展的核心痛點(diǎn)。

這一缺位不僅無(wú)法為產(chǎn)業(yè)樹立清晰的發(fā)展基準(zhǔn),更直接制約了模型的迭代效率。長(zhǎng)此以往,研發(fā)資源極易過(guò)度流向容易出視覺效果的表演項(xiàng)目,使得整個(gè)具身智能行業(yè)面臨「劣幣驅(qū)逐良幣」的商業(yè)風(fēng)險(xiǎn)。

在具身智能走向規(guī)模化落地的關(guān)鍵節(jié)點(diǎn),建立科學(xué)的可量化、可復(fù)現(xiàn)、高信度的真機(jī)評(píng)測(cè)標(biāo)尺已成為亟待解決的行業(yè)共識(shí)。

為了破解這一困局,中山大學(xué)攜手自變量機(jī)器人、MBZUAI 等機(jī)構(gòu),在 CVPR 2026 的 Embodied AI Workshop 上正式推出了官方競(jìng)賽:ManipArena



  • 官網(wǎng)地址:https://maniparena.x2robot.com/
  • 技術(shù)報(bào)告:ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation
  • 報(bào)告地址:https://maniparena.x2robot.com/maniparena.pdf
  • 數(shù)據(jù)集:https://huggingface.co/datasets/ManipArena/maniparena-dataset

不同于傳統(tǒng)仿真評(píng)測(cè)或簡(jiǎn)單桌面抓取測(cè)試,ManipArena 提供了20 個(gè)真機(jī)任務(wù)(包括 5 個(gè)初賽任務(wù)和 15 個(gè)決賽任務(wù),涉及執(zhí)行推理、語(yǔ)義推理、移動(dòng)操作三種任務(wù)類型)、10812 條高質(zhì)量遙操作軌跡,并通過(guò)獨(dú)特的綠幕可控環(huán)境和分層 OOD 評(píng)估設(shè)計(jì),構(gòu)建了一個(gè)可以精確診斷模型泛化能力的科學(xué)化評(píng)測(cè)框架。



ManipArena 的三種任務(wù)類型

作為目前規(guī)模最大的真機(jī)操作評(píng)測(cè)平臺(tái)之一,ManipArena 旨在通過(guò)極其嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)設(shè)計(jì)與科學(xué)化框架,精確診斷視覺-語(yǔ)言-動(dòng)作模型(VLA)或世界模型(WAM)在真實(shí)世界中的通用推理與泛化能力,力求為行業(yè)樹立一個(gè)規(guī)范且公平的評(píng)測(cè)新標(biāo)桿。

事實(shí)上,基于該平臺(tái)的首批基準(zhǔn)測(cè)試已經(jīng)給出了極具價(jià)值的行業(yè)洞察。ManipArena 團(tuán)隊(duì)對(duì)代表 VLA 的 π?.? 與代表世界模型的 DreamZero 進(jìn)行了大規(guī)模真機(jī)對(duì)比測(cè)試。

初步的評(píng)測(cè)數(shù)據(jù)清晰地勾勒出兩類模型互補(bǔ)的能力邊界:多任務(wù) VLA模型具備更強(qiáng)的精細(xì)操作能力,但泛化表現(xiàn)脆弱,面對(duì)分布外物體易出現(xiàn)災(zāi)難性退化;世界模型則展現(xiàn)出顯著的泛化魯棒性,但僅限于粗粒度操作,在精細(xì)任務(wù)上力不從心。兩種范式各有所長(zhǎng),未來(lái)的通用具身操作系統(tǒng)或需深度融合二者的優(yōu)勢(shì)。

深度解析 ManipArena

精準(zhǔn)診斷泛化瓶頸的科學(xué)框架

針對(duì)行業(yè)痛點(diǎn),ManipArena 提出了三個(gè)核心的評(píng)測(cè)創(chuàng)新。這套體系旨在給模型做「全面的體檢」,讓真實(shí)的性能差異浮出水面。

分層 OOD 評(píng)估,精準(zhǔn)診斷泛化瓶頸

以往的評(píng)測(cè)往往只給出一個(gè)最終的總分,很難反映模型的真實(shí)能力邊界。而ManipArena 會(huì)為每個(gè)任務(wù)進(jìn)行 10 次測(cè)試,且每個(gè)任務(wù)的 10 次測(cè)試按難度進(jìn)行了分層設(shè)計(jì)

其中,T1 至 T4 測(cè)試域內(nèi)能力,例如讓機(jī)器人操作訓(xùn)練集中見過(guò)的不同位置的不銹鋼勺。T5 至 T8 引入視覺偏移,要求模型處理形狀不同但仍在訓(xùn)練分布內(nèi)的物品,例如兒童勺。最困難的 T9 至 T10 則是語(yǔ)義 OOD 測(cè)試,平臺(tái)會(huì)引入訓(xùn)練中從未見過(guò)的全新材質(zhì)或類別,例如黑色的塑料勺。



「將勺子放入碗里」任務(wù)的勺子泛化示例

這種階梯狀的設(shè)計(jì),使得單次評(píng)估就能為模型繪制出完整的泛化衰減曲線。

初步評(píng)測(cè)結(jié)果:揭示當(dāng)前 VLA 模型的泛化邊界

技術(shù)報(bào)告披露了部分基線模型的初步評(píng)測(cè)數(shù)據(jù)。結(jié)果顯示,當(dāng)前的主流視覺語(yǔ)言動(dòng)作模型在面對(duì)多變量疊加的分布外測(cè)試時(shí),依然存在嚴(yán)重的泛化軟肋。

在單一因素發(fā)生改變時(shí),模型尚能保持一定的任務(wù)完成度。例如在耳機(jī)分類任務(wù)中,僅改變耳機(jī)類型時(shí),模型平均能獲得 2.0 分。一旦面對(duì)復(fù)合型分布外測(cè)試,即同時(shí)改變耳機(jī)的類型和顏色,模型的表現(xiàn)會(huì)立刻出現(xiàn)災(zāi)難性崩潰,平均得分直接降為 0 分。而在勺子放置任務(wù)中,當(dāng)材質(zhì)和顏色同時(shí)發(fā)生改變時(shí),模型的得分呈現(xiàn)出極端的兩極分化,要么拿滿分,要么直接得 0 分。



此外,評(píng)測(cè)數(shù)據(jù)還揭示了一個(gè)重要現(xiàn)象:對(duì)于當(dāng)前的模型而言,物體形狀的相似度比語(yǔ)義類別的歸屬更加重要。在眼鏡放置任務(wù)中,雖然測(cè)試物品在語(yǔ)義上都屬于「眼鏡」,但模型對(duì)不同物品的表現(xiàn)差異巨大。與訓(xùn)練集形狀相同但尺寸更小的兒童眼鏡獲得了 10.0 分的滿分。形狀相似但風(fēng)格不同的墨鏡獲得了 8.5 分。形狀完全不同的護(hù)目鏡得分則急劇下降至 5.0 分,并且方差極大。

這些真實(shí)的評(píng)測(cè)數(shù)據(jù)表明:當(dāng)前的具身智能模型往往表現(xiàn)出一種脆弱的泛化能力。它們很難做到優(yōu)雅地降級(jí),往往只會(huì)在完美成功與徹底失敗之間橫跳。這進(jìn)一步印證了 ManipArena 設(shè)立多層級(jí)、多變量評(píng)估體系的工程價(jià)值,即幫助研發(fā)人員看清模型學(xué)到的究竟是深層的語(yǔ)義概念,還僅僅是針對(duì)特定形狀的抓取策略。

綠幕可控環(huán)境與系統(tǒng)化多樣性,回歸科學(xué)嚴(yán)謹(jǐn)性

在真實(shí)的開放環(huán)境中,光線的細(xì)微偏移都會(huì)導(dǎo)致模型動(dòng)作失敗。為了排除此類環(huán)境干擾,ManipArena 將所有的評(píng)估都放置在帶有固定光源的綠幕封閉工作站中進(jìn)行。

這種設(shè)計(jì)可從物理源頭上徹底排除陰影移動(dòng)、高光反射以及白平衡變化等視覺干擾,進(jìn)而能保證模型性能差異純粹反映策略能力的強(qiáng)弱,滿足了科學(xué)實(shí)驗(yàn)嚴(yán)謹(jǐn)性的基本要求。同時(shí),在綠幕環(huán)境下,還可以進(jìn)行更多可控的分層泛化的實(shí)驗(yàn),比如像影視制作一樣直接給機(jī)器人換個(gè)操作場(chǎng)景。

在這個(gè)純凈的視覺環(huán)境中,平臺(tái)進(jìn)一步注入了三個(gè)層級(jí)的系統(tǒng)化多樣性參數(shù):



三個(gè)層級(jí)的訓(xùn)練多樣性

  • 物理屬性層:涵蓋物品材質(zhì)、顏色與尺寸的變化。
  • 空間布局層:系統(tǒng)性地改變物體的位置與朝向組合。
  • 針對(duì)語(yǔ)義推理任務(wù)的組合層:改變物品的序列和類別分配。

所有維度的分布都保持均勻,防止模型依靠頻率偏差走捷徑。

開放 56 維底層感知信號(hào),補(bǔ)齊力覺控制拼圖

在數(shù)據(jù)維度上,ManipArena 提供了每幀高達(dá)56維的本體感覺數(shù)據(jù)。除了常規(guī)的關(guān)節(jié)位置、末端位姿以及夾爪狀態(tài),數(shù)據(jù)集特別收錄了電機(jī)電流數(shù)據(jù)和關(guān)節(jié)速度數(shù)據(jù)。



完整的 56 維本體感受規(guī)范。所有模式的采樣頻率均為 20 Hz

這 56 維信號(hào)遠(yuǎn)超常規(guī)的機(jī)器人學(xué)習(xí)數(shù)據(jù)集,它不僅涵蓋了雙臂各自 7 DOF 的關(guān)節(jié)位置、末端位姿、夾爪狀態(tài)以及 3 路同步視頻流,更重點(diǎn)保留了電機(jī)電流數(shù)據(jù)和關(guān)節(jié)速度數(shù)據(jù)。

要知道,電機(jī)電流可以作為底層力矩的代理信號(hào),而關(guān)節(jié)速度則能捕捉動(dòng)態(tài)運(yùn)動(dòng)軌跡,補(bǔ)充靜態(tài)位置信息。對(duì)于倒水感知液體重量、插線感知物理接觸阻力等任務(wù)來(lái)說(shuō),這些信息極其關(guān)鍵。

目前主流的視覺語(yǔ)言動(dòng)作模型均未充分利用這些信號(hào)。這些底層感知信號(hào)的加入,直接鼓勵(lì)了力敏感(force-sensitive)策略的研究,可助力智能體更好地學(xué)會(huì)掌握抓取物品的力道。

任務(wù)設(shè)置:極高含金量與全場(chǎng)景覆蓋

在 ManipArena 的任務(wù)庫(kù)中,沒有任何毫無(wú)挑戰(zhàn)的簡(jiǎn)單抓取測(cè)試。這 20 個(gè)真機(jī)任務(wù)(分為 15 個(gè)桌面任務(wù)和 5 個(gè)需要空間導(dǎo)航的移動(dòng)操作任務(wù))全部以推理為核心考量,區(qū)別僅僅在于推理的瓶頸發(fā)生在哪里。



桌面任務(wù)與移動(dòng)操作任務(wù)的機(jī)器人平臺(tái)和評(píng)估環(huán)境

為了支撐起如此高難度的評(píng)測(cè)體系,團(tuán)隊(duì)構(gòu)建了龐大的高質(zhì)量數(shù)據(jù)集,共計(jì)包含 10812 條遙操作軌跡,總時(shí)長(zhǎng)約 188 小時(shí),累計(jì)幀數(shù)超過(guò) 1350 萬(wàn)幀。這批數(shù)據(jù)由 5 臺(tái)真機(jī)平臺(tái)并行采集完成,以扎實(shí)的規(guī)模確保了評(píng)測(cè)的有效性。



不同任務(wù)類別的任務(wù)統(tǒng)計(jì)數(shù)據(jù)

全方位推理:跨越感知與執(zhí)行的鴻溝

賽事將桌面任務(wù)細(xì)分為兩個(gè)維度。

其中 10 個(gè)任務(wù)側(cè)重于執(zhí)行推理。它們要求機(jī)器人在明確目標(biāo)后,去解決具體的動(dòng)作執(zhí)行難題,例如完成亞厘米級(jí)的精準(zhǔn)插入、感知液體動(dòng)力學(xué)進(jìn)行力控倒水,以及進(jìn)行雙臂協(xié)作遞交插線等。



一個(gè)將水壺的水倒入杯子任務(wù),這里可以同時(shí)看到三個(gè)視角的畫面,右側(cè)還提供了任務(wù)描述以及場(chǎng)景細(xì)節(jié)

另外 5 個(gè)桌面任務(wù)則聚焦語(yǔ)義推理。機(jī)器人需要先理解復(fù)雜的語(yǔ)義關(guān)系才能采取行動(dòng),比如從雜物堆中識(shí)別出特定類型的耳機(jī)并進(jìn)行分類,在多個(gè)食物中找到水果,或者讀取打印好的顏色序列并按照對(duì)應(yīng)順序按下按鈕。這種設(shè)定有效地檢驗(yàn)了模型對(duì)物體類別與屬性的真實(shí)理解程度,篩選出真正具備認(rèn)知能力的智能體。



一個(gè)將水果放入籃子任務(wù)

走向空間導(dǎo)航:移動(dòng)操作任務(wù)的深度拓展

為了覆蓋更完整的操作場(chǎng)景,ManipArena 在同類賽事中引入了 5 個(gè)移動(dòng)操作任務(wù),包括收納衣物、掛畫以及整理鞋子等。這些任務(wù)將評(píng)測(cè)范圍從有限的桌面延展到了 3×3 米的真實(shí)物理空間。

移動(dòng)任務(wù)要求機(jī)器人具備出色的導(dǎo)航與操作協(xié)同能力。根據(jù)統(tǒng)計(jì),移動(dòng)任務(wù)的平均執(zhí)行時(shí)長(zhǎng)達(dá)到 144 秒左右(20 fps 幀率下平均 2878 幀),大約是桌面任務(wù)時(shí)長(zhǎng)的 4.3 倍。

以最具挑戰(zhàn)性的衣物收納任務(wù)為例,機(jī)器人需要完成 3 次往返,經(jīng)歷 14 個(gè)連續(xù)的子步驟,平均耗時(shí)高達(dá) 194 秒。這種長(zhǎng)序列的設(shè)定,對(duì)當(dāng)前視覺語(yǔ)言動(dòng)作模型在固定上下文窗口下的時(shí)序建模能力提出了極大的考驗(yàn)。



一個(gè)衣物收納任務(wù)

「單一模型」規(guī)則:杜絕過(guò)度擬合的捷徑

尤為嚴(yán)苛的是,賽事官方制定了「一個(gè)模型應(yīng)對(duì)所有任務(wù)」的核心規(guī)則:參賽隊(duì)伍必須提交一個(gè)統(tǒng)一的推理端點(diǎn)來(lái)應(yīng)對(duì)決賽階段的所有 20 個(gè)挑戰(zhàn),不被允許針對(duì)單一任務(wù)去訓(xùn)練專門的專家模型

這意味著同一套策略體系必須同時(shí)精通倒水、插線、分揀耳機(jī)以及按按鈕等截然不同的操作。這一規(guī)則強(qiáng)行封死了針對(duì)特定任務(wù)過(guò)度擬合的捷徑,迫使參賽者將研發(fā)重心回歸到打造真正具備通用推理與泛化能力的基礎(chǔ)模型上。

這場(chǎng)具身操作的大考

等你接招!

對(duì)于廣大研究者而言,參與真機(jī)評(píng)測(cè)的最大阻礙往往是極其高昂的硬件成本。ManipArena 創(chuàng)新性地采用了Server-Side 遠(yuǎn)程真機(jī)評(píng)測(cè)架構(gòu):參賽隊(duì)伍完全不需要購(gòu)買或者調(diào)試任何真實(shí)的機(jī)器人硬件,僅僅需要擁有一臺(tái) GPU 服務(wù)器并暴露一個(gè) HTTP 推理端點(diǎn)即可。

這種架構(gòu)為學(xué)術(shù)界和工業(yè)界提供了一個(gè)極低成本的「真機(jī)實(shí)驗(yàn)室」。賽事的官方基礎(chǔ)設(shè)施會(huì)接管所有的硬件控制與數(shù)據(jù)采集工作。這確保了所有模型都能在完全相同的物理?xiàng)l件下進(jìn)行公平比較。

值得一提的是,ManipArena 的所有 20 個(gè)任務(wù)均統(tǒng)一采用自變量機(jī)器人(X Square Robot)的雙臂系統(tǒng)進(jìn)行評(píng)測(cè)。這套專為 AI 而生的硬件結(jié)構(gòu)設(shè)計(jì)能夠更好地完成模型復(fù)現(xiàn),從根本上消除了不同硬件平臺(tái)帶來(lái)的物理差異。這意味著在這里,最終的性能差異將純粹反映參賽團(tuán)隊(duì)策略能力的強(qiáng)弱,真正實(shí)現(xiàn)了「評(píng)測(cè)從未如此簡(jiǎn)單」的愿景。

同時(shí),參賽者的模型權(quán)重和核心代碼始終保留在本地服務(wù)器上,實(shí)現(xiàn)了嚴(yán)格的知識(shí)產(chǎn)權(quán)保護(hù)

官方也非常鼓勵(lì)參賽者將 ManipArena 作為一個(gè)研究平臺(tái),基于真實(shí)的評(píng)測(cè)結(jié)果去驗(yàn)證新算法并發(fā)表學(xué)術(shù)論文。

為了進(jìn)一步激勵(lì)整個(gè)技術(shù)社區(qū)的參與, ManipArena 官方還為賽事設(shè)置了實(shí)質(zhì)性獎(jiǎng)勵(lì)。



在初賽階段,第 1 名至第 3 名的隊(duì)伍將獲得 500 美元,第 4 名至第 9 名將獲得 300 美元,第 10 名至第 20 名將獲得 200 美元。而在最終的決賽階段,冠軍隊(duì)伍將斬獲 5000 美元以及 2 臺(tái) 6 軸機(jī)械臂,亞軍和季軍也將分別獲得 3000 美元 + 2 臺(tái) 6 軸機(jī)械臂,以及 2000 美元 + 2 臺(tái) 6 軸機(jī)械臂的獎(jiǎng)勵(lì)。

在評(píng)分機(jī)制上,ManipArena 摒棄了傳統(tǒng)的二元成功率標(biāo)準(zhǔn),引入了子任務(wù)部分得分制。具體而言,每個(gè)任務(wù)包含 10 次測(cè)試(trial),每次滿分為 10 分。系統(tǒng)會(huì)根據(jù)子任務(wù)的完成度給出對(duì)應(yīng)分?jǐn)?shù)。目前開放評(píng)測(cè)的 15 個(gè)桌面任務(wù)總分為 1500 分,最終排名將嚴(yán)格按照總分高低進(jìn)行排序。



每個(gè)任務(wù)的子任務(wù)統(tǒng)計(jì)數(shù)據(jù)

例如在倒水任務(wù)中,如果模型成功抓取并舉起了水壺,即使最后倒水失敗,依然可以獲得相應(yīng)的過(guò)程分?jǐn)?shù)。這種精細(xì)化的評(píng)分體系提供了更豐富的診斷信號(hào)。它能夠準(zhǔn)確揭示模型到底在任務(wù)流水線的哪一個(gè)具體環(huán)節(jié)出現(xiàn)了失誤,從而為研發(fā)人員提供極具指導(dǎo)意義的工程反饋。



倒水任務(wù)的描述以及詳細(xì)操作和評(píng)分

那么,當(dāng)前的具身大模型的表現(xiàn)如何呢?ManipArena 目前已經(jīng)測(cè)試了π?.?-Single(為每個(gè)任務(wù)獨(dú)立微調(diào))、π?.?-OneModel(統(tǒng)一處理全部 15 個(gè)任務(wù))和DreamZero三個(gè)模型(通過(guò)自回歸視頻擴(kuò)散先「想象」未來(lái)畫面再?gòu)闹刑崛?dòng)作),涵蓋視覺-語(yǔ)言-動(dòng)作模型(VLA)和世界動(dòng)作模型(WAM)這兩條當(dāng)前具身領(lǐng)域備受矚目的技術(shù)路線,得到了一組基準(zhǔn)成績(jī)。

從總分來(lái)看,在滿分 1500 分的挑戰(zhàn)中,π?.?-OneModel 以 640.5 分領(lǐng)跑,π?.?-Single 緊隨其后獲得 626.3 分,DreamZero 則為 500.3 分。觀察成功率(SR)可以發(fā)現(xiàn),大量任務(wù)的成功率為 0%。這充分說(shuō)明了該評(píng)測(cè)體系具有極高的挑戰(zhàn)性。詳見下表:



同時(shí),這些結(jié)果也揭示了這兩種技術(shù)路線截然不同的能力邊界:

  • VLA 具備跨任務(wù)遷移潛力,但存在程序性遺忘。π?.?-OneModel 的成績(jī)證明了多任務(wù)聯(lián)合訓(xùn)練的有效性,其在語(yǔ)義推理上實(shí)現(xiàn)了顯著的跨任務(wù)遷移。但代價(jià)是模型在需要讀取場(chǎng)景指示并執(zhí)行特定程序的任務(wù)中,出現(xiàn)了明顯的程序性知識(shí)遺忘,暴露出多任務(wù)訓(xùn)練的本質(zhì)取舍。
  • 世界模型在空間泛化上極具優(yōu)勢(shì),但精細(xì)操作存在軟肋。DreamZero 在純粹的抓取放置任務(wù)(pick_items_basket 任務(wù)上拿下了 97.8 的高分與 90% 的成功率)以及分布外泛化上表現(xiàn)出極強(qiáng)的魯棒性(在 pick_items_into_basket 任務(wù)中,籃子位置從右側(cè)逐步移到左側(cè)。π?.?-OneModel 的成績(jī)從 4.05 分暴跌到 2.25 分(-44%),π?.?-Single 更是從 4.25 跌到 1.83(-57%)。而 DreamZero 從 10.0 分到 9.25 分,僅下降 8%。),抗干擾能力遠(yuǎn)超 VLA。但面對(duì)需要毫米級(jí)精度或雙臂協(xié)同的精細(xì)操作時(shí),它往往只能完成粗粒度的初始步驟。這反映出世界模型在粗粒度視頻預(yù)測(cè)與精細(xì)動(dòng)作控制之間存在天然的精度瓶頸,單步推理耗時(shí)極長(zhǎng)(比 VLA 慢 50 至 70 倍)。

基于子任務(wù)評(píng)分體系提煉出的 5 維能力邊界圖譜進(jìn)一步印證了這一點(diǎn)。



VLA 擅長(zhǎng)精度控制和語(yǔ)義理解,世界模型在空間泛化和粗粒度規(guī)劃上更勝一籌。這清楚地揭示出,未來(lái)的通用操作模型需要深度融合 VLA 和 WAM 這兩種范式的優(yōu)勢(shì)。完整的測(cè)試數(shù)據(jù)與評(píng)測(cè)視頻均可在官方網(wǎng)站獲取,這為行業(yè)探索能力邊界提供了極具價(jià)值的實(shí)證基礎(chǔ)。

從更宏觀的行業(yè)視角來(lái)看,ManipArena 的出現(xiàn)恰逢其時(shí)。它不僅僅是一場(chǎng)單純的比賽,更是一個(gè)高標(biāo)準(zhǔn)的開放研發(fā)平臺(tái)。其構(gòu)建的分層 OOD 評(píng)估體系、多元化場(chǎng)景設(shè)計(jì)以及子任務(wù)部分得分機(jī)制,具備天然的學(xué)術(shù)實(shí)驗(yàn)適配性,完全可以作為廣大研究者日常研發(fā)成果的 benchmark。

官方全力歡迎并支持參賽者依托 ManipArena 的權(quán)威評(píng)測(cè)成果發(fā)表高水平學(xué)術(shù)論文。未來(lái),當(dāng)各個(gè)頂尖團(tuán)隊(duì)想要展示最前沿的模型能力以及想測(cè)試對(duì)不同模型的改進(jìn)時(shí),完全可以在 ManipArena 這個(gè)公開的平臺(tái)上同臺(tái)競(jìng)技。

通過(guò)科研創(chuàng)新與產(chǎn)業(yè)驗(yàn)證的雙向賦能,ManipArena 將為視覺語(yǔ)言動(dòng)作模型和世界模型的持續(xù)迭代提供堅(jiān)實(shí)的基礎(chǔ),加速整個(gè)具身智能產(chǎn)業(yè)向真實(shí)世界的大規(guī)模部署邁進(jìn)。

報(bào)名方式

參賽者可通過(guò)官方平臺(tái)注冊(cè)并獲取訓(xùn)練數(shù)據(jù),訓(xùn)練統(tǒng)一模型后提交評(píng)測(cè)接口參與比賽。

  • 更多信息請(qǐng)?jiān)L問(wèn):https://maniparena.x2robot.com/
  • 聯(lián)系方式:maniparena@gmail.com

文中視頻鏈接:https://mp.weixin.qq.com/s/greKLeayuGqSYmVFdOBSFA

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
最大的臺(tái)獨(dú)分子,再也藏不住尾巴,終于露出來(lái)了骯臟的腦袋!

最大的臺(tái)獨(dú)分子,再也藏不住尾巴,終于露出來(lái)了骯臟的腦袋!

南權(quán)先生
2026-03-25 15:29:51
有些話真的不能亂說(shuō),有些事真的不能亂做!網(wǎng)友:?這是預(yù)言啊

有些話真的不能亂說(shuō),有些事真的不能亂做!網(wǎng)友:?這是預(yù)言啊

另子維愛讀史
2026-03-18 20:37:08
廣州又一家廣式酒家宣布閉店,為啥老廣最愛的平價(jià)茶樓一家家消失

廣州又一家廣式酒家宣布閉店,為啥老廣最愛的平價(jià)茶樓一家家消失

奇思妙想生活家
2026-03-26 00:19:15
歐洲是如何悄然介入美伊戰(zhàn)爭(zhēng)的

歐洲是如何悄然介入美伊戰(zhàn)爭(zhēng)的

澎湃新聞
2026-03-24 20:54:04
新消息!伊朗突然宣布了!

新消息!伊朗突然宣布了!

達(dá)文西看世界
2026-03-23 20:29:16
說(shuō)劉亦菲美被放大的,看看她和中華小姐冠軍同框就懂了

說(shuō)劉亦菲美被放大的,看看她和中華小姐冠軍同框就懂了

手工制作阿殲
2026-03-25 11:36:59
這些“垃圾花”也該被315曝光,別再坑害花友了,白送都不能要

這些“垃圾花”也該被315曝光,別再坑害花友了,白送都不能要

三農(nóng)老歷
2026-03-20 00:32:02
太離譜!意大利公投年輕選民投票率飆升,67%反對(duì)票重創(chuàng)總理

太離譜!意大利公投年輕選民投票率飆升,67%反對(duì)票重創(chuàng)總理

冷眼看盡世間繁華
2026-03-25 14:08:07
喪心病狂!河南14歲少年被虐死案:死時(shí)穿紙尿褲,胃里空無(wú)一物

喪心病狂!河南14歲少年被虐死案:死時(shí)穿紙尿褲,胃里空無(wú)一物

春日在捕月
2026-03-25 01:00:23
王毅判斷沒錯(cuò),短短三天中方見識(shí)了:比利時(shí)的虛偽、西班牙的真誠(chéng)

王毅判斷沒錯(cuò),短短三天中方見識(shí)了:比利時(shí)的虛偽、西班牙的真誠(chéng)

墨印齋
2026-03-26 01:52:13
淚目!張雪峰與001號(hào)員工萬(wàn)霞:從3500月薪到不離不棄看哭無(wú)數(shù)人

淚目!張雪峰與001號(hào)員工萬(wàn)霞:從3500月薪到不離不棄看哭無(wú)數(shù)人

喜歡歷史的阿繁
2026-03-25 20:44:01
甘油三酯"禍?zhǔn)?quot;被發(fā)現(xiàn),是豬油的12倍?專家嘆息:還有人天天在吃

甘油三酯"禍?zhǔn)?quot;被發(fā)現(xiàn),是豬油的12倍?專家嘆息:還有人天天在吃

芳芳?xì)v史燴
2026-03-23 11:04:46
既然給臉不要臉,那就徹底撕破臉!王毅外長(zhǎng)已經(jīng)把話挑明了

既然給臉不要臉,那就徹底撕破臉!王毅外長(zhǎng)已經(jīng)把話挑明了

安安說(shuō)
2026-02-01 14:01:51
7部舊手機(jī)換回一臺(tái)iPhone11!廢舊手機(jī)回收市場(chǎng)突然火了,存儲(chǔ)芯片短缺推高回收價(jià),壓箱底的“電子垃圾”成了香餑餑

7部舊手機(jī)換回一臺(tái)iPhone11!廢舊手機(jī)回收市場(chǎng)突然火了,存儲(chǔ)芯片短缺推高回收價(jià),壓箱底的“電子垃圾”成了香餑餑

觀威海
2026-03-25 10:51:03
神壇徹底崩塌!李莉被中情局盯上的謊言,該徹底戳穿了

神壇徹底崩塌!李莉被中情局盯上的謊言,該徹底戳穿了

老馬拉車莫少裝
2026-03-01 17:23:52
51歲男子突發(fā)心梗猝死!不想得心梗,牢記晚飯4不吃,睡前4不要!

51歲男子突發(fā)心梗猝死!不想得心梗,牢記晚飯4不吃,睡前4不要!

健康之光
2026-03-20 17:05:06
別再喊王思雨老婆了!看她的擇偶標(biāo)準(zhǔn),真給你機(jī)會(huì),你能達(dá)標(biāo)嗎?

別再喊王思雨老婆了!看她的擇偶標(biāo)準(zhǔn),真給你機(jī)會(huì),你能達(dá)標(biāo)嗎?

萌蘭聊個(gè)球
2026-03-25 10:11:51
喂流浪貓被鄰居害死后續(xù):兇手拒認(rèn)錯(cuò),事后叫囂,家屬行為更惡心

喂流浪貓被鄰居害死后續(xù):兇手拒認(rèn)錯(cuò),事后叫囂,家屬行為更惡心

阿腩講娛樂
2026-03-26 01:22:38
從鋼鐵防線到進(jìn)攻獠牙!安東尼奧的U23國(guó)足,正在撕掉標(biāo)簽

從鋼鐵防線到進(jìn)攻獠牙!安東尼奧的U23國(guó)足,正在撕掉標(biāo)簽

曹老師評(píng)球
2026-03-25 21:54:07
世界杯名單有變!國(guó)乒王牌退賽,溫瑞博大黑馬,王楚欽情況有變!

世界杯名單有變!國(guó)乒王牌退賽,溫瑞博大黑馬,王楚欽情況有變!

曹說(shuō)體育
2026-03-25 11:00:43
2026-03-26 04:00:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12598文章數(shù) 142593關(guān)注度
往期回顧 全部

科技要聞

紅極一時(shí)卻草草收?qǐng)?,Sora宣布正式關(guān)停

頭條要聞

伊朗:正在搜捕逃亡美軍

頭條要聞

伊朗:正在搜捕逃亡美軍

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財(cái)經(jīng)要聞

管濤:中東局勢(shì)如何影響人民幣匯率走勢(shì)?

汽車要聞

智己LS8放大招 30萬(wàn)內(nèi)8系旗艦+全線控底盤秀實(shí)力

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
本地
公開課
軍事航空

藝術(shù)要聞

張雪峰走了,他公司所在的這棟樓高177.8米,耗資超10億!

房產(chǎn)要聞

41億!259畝!建學(xué)?!齺嗊@個(gè)大城更,最新方案曝光!

本地新聞

來(lái)永泰同安 赴一場(chǎng)春天的約會(huì)

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗重申非交戰(zhàn)國(guó)家船只可安全通過(guò)霍爾木茲海峽

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版