国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

RoboChallenge發(fā)布年度報(bào)告:評(píng)測(cè)標(biāo)尺夠權(quán)威嗎?

0
分享至

當(dāng)下的具身智能行業(yè)可謂陷入了“Demo”的怪圈,大家驚呼于視頻內(nèi)機(jī)器人的流暢操作,但視頻中的機(jī)器人卻又在現(xiàn)實(shí)世界中頻繁失誤。

這種虛假繁榮的背后,其實(shí)是行業(yè)長(zhǎng)期缺乏真實(shí)場(chǎng)景驗(yàn)證、評(píng)測(cè)標(biāo)準(zhǔn)模糊等問題。機(jī)器人從實(shí)驗(yàn)室走到現(xiàn)實(shí)世界,始終被仿真到現(xiàn)實(shí)世界等難題所制約。

模擬器的評(píng)估無法完美復(fù)現(xiàn)真實(shí)世界中的物理擾動(dòng)、環(huán)境變異等關(guān)鍵因素,在此背景下,2025年10月原力靈機(jī)Dexmal與Hugging Face聯(lián)合推出了全球首個(gè)具身智能大規(guī)模評(píng)測(cè)平臺(tái)——RoboChallenge。

緊隨其后,原力靈機(jī)又與Hugging Face聯(lián)合智源研究院、智元機(jī)器人、Qwen、星海圖、自變量、清華大學(xué)、西安交通大學(xué)及GOSIM等機(jī)構(gòu),于2025年11月20日正式成立RoboChallenge組委會(huì)。

2026年1月11日,RoboChallenge榜單更新,前三名依次為Spirit v1.5、pi0.5、WALL-OSS。其中,Spirit v1.5是出自中國(guó)千尋智能自研的模型,而WALL-OSS則是自變量機(jī)器人的全自研開源操作大模型。

這個(gè)榜單釋放出了一個(gè)重磅信號(hào):中國(guó)自主研發(fā)的具身智能模型,已具備與國(guó)外頂級(jí)模型同臺(tái)對(duì)打的實(shí)力,甚至還打贏了。

不過,作為推出還沒多久的新興評(píng)測(cè)平臺(tái),尚處發(fā)展完善階段,網(wǎng)絡(luò)上的態(tài)度也充滿爭(zhēng)議,所以AI科技評(píng)論打算從技術(shù)和核心設(shè)計(jì)的角度,對(duì)RoboChallenge進(jìn)行深度拆解與解讀。

01RoboChallenge系統(tǒng)核心設(shè)計(jì)

在具身智能領(lǐng)域,真機(jī)評(píng)測(cè)的標(biāo)準(zhǔn)化與公平性?期以來一直是制約技術(shù)橫向?qū)Ρ鹊年P(guān)鍵瓶頸。而缺乏統(tǒng)一的評(píng)測(cè)標(biāo)尺,更讓不同團(tuán)隊(duì)的技術(shù)成果難以形成有效對(duì)比,嚴(yán)重影響了行業(yè)迭代效率。

但提供機(jī)器人在線服務(wù)并非表面看上去那么簡(jiǎn)單,首要問題是如何向提交算法的用戶開放機(jī)器人訪問權(quán)限。

RoboChallenge最開始考慮了三種主要的模式,分別是模型級(jí)提交、系統(tǒng)級(jí)提交、模型API調(diào)用,但這三種模式最后都沒有采用,原因在于:

?計(jì)算兼容性:提交模型并使其在其他環(huán)境中正確運(yùn)行極為復(fù)雜。軟件棧和硬件配置難以匹配,除非提供完全訪問權(quán)限,否則幾乎無法調(diào)試。

?靈活性:RoboChallenge不希望將用戶限制在以往系統(tǒng)中默認(rèn)的 “觀測(cè) - 動(dòng)作” 映射所隱含的 “暫停 - 推理” 控制模式中。

?可訪問性:并非所有人都擁有公網(wǎng)IP,尤其是在網(wǎng)絡(luò)地址轉(zhuǎn)換(NAT)主導(dǎo)的現(xiàn)代互聯(lián)網(wǎng)環(huán)境中。

于是,RoboChallenge采用 “遠(yuǎn)程機(jī)器人” 交互范式,摒棄傳統(tǒng)模型提交、Docker鏡像部署等方案,讓用戶無需上傳模型文件或推理代碼,通過標(biāo)準(zhǔn)化低層級(jí)API即可實(shí)現(xiàn)全異步交互。

不同于仿真測(cè)試,RoboChallenge擁有UR5、Franka、ARX5、ALOHA等主流機(jī)型在內(nèi)的20臺(tái)真機(jī)測(cè)試集群,對(duì)這些機(jī)器人的選擇上,還有幾條準(zhǔn)則:耐用性、普及性、安全性以及性能良好。

所有機(jī)器人均搭載Intel RealSense深度相機(jī),包含俯視工作區(qū)域的主相機(jī)、機(jī)械臂末端的腕部相機(jī)及單臂設(shè)備專用的側(cè)面相機(jī),為VLA模型提供多視角觀測(cè)數(shù)據(jù)。

前期的準(zhǔn)備完善后,RoboChallenge又發(fā)現(xiàn)測(cè)試中的各種因素會(huì)導(dǎo)致最后的結(jié)果巨大,難以成為客觀、公正的測(cè)評(píng)體系。因此,需要一套規(guī)范的方法來控制測(cè)試中的各種因素。

首先,對(duì)于測(cè)試人員導(dǎo)致的差異,RoboChallenge對(duì)有經(jīng)驗(yàn)、無經(jīng)驗(yàn)、適應(yīng)性的測(cè)試人員進(jìn)行了測(cè)試,發(fā)現(xiàn)了一種 “最佳區(qū)域效應(yīng)”(Sweet-spot Effect),如下圖所示,存在特定的物體位置組合,在這些位置上任務(wù)更有可能成功。根據(jù)這些經(jīng)驗(yàn),RoboChallenge設(shè)計(jì)出了更完善的評(píng)估協(xié)議,特別是更穩(wěn)定的物體重置方法。


RoboChallenge還對(duì)環(huán)境中的各種因素進(jìn)行了研究,比如光照條件,但進(jìn)行的概念驗(yàn)證實(shí)驗(yàn)發(fā)現(xiàn),背景或環(huán)境的變化不會(huì)對(duì)測(cè)試結(jié)果產(chǎn)生太大影響。


02 Table30基準(zhǔn)測(cè)試集

Table30基準(zhǔn)測(cè)試集包含30項(xiàng)圍繞固定工作臺(tái)執(zhí)行的任務(wù),涵蓋家庭、廚房、辦公、校園等多元場(chǎng)景,任務(wù)類型包括物體整理、機(jī)械操作、分類分揀、軟體處理等,全面覆蓋了VLA模型的核心技術(shù)挑戰(zhàn)。

這些任務(wù)衡量了通用機(jī)器人控制算法應(yīng)具備的多種能力,乍看下來很簡(jiǎn)單,但即使是最先進(jìn)的基礎(chǔ)模型也無法達(dá)到較高的總體成功率。



任務(wù)的選擇也不是毫無根據(jù)的,主要遵循難度覆蓋全面、算法挑戰(zhàn)覆蓋全面、貼近現(xiàn)實(shí)生活以及簡(jiǎn)潔性這四個(gè)原則。



RoboChallenge認(rèn)為,基準(zhǔn)測(cè)試集是衡量通用機(jī)器人技術(shù)方法的必要測(cè)試。并且,隨著評(píng)估數(shù)據(jù)的積累可以發(fā)現(xiàn)更多趨勢(shì):

首先是,模型的單任務(wù)與多任務(wù)模型的能力差距顯著。

RoboChallenge的評(píng)測(cè)區(qū)分了單任務(wù)模型和多任務(wù)模型,單任務(wù)模型是對(duì)特定任務(wù)進(jìn)行優(yōu)化,多任務(wù)模型能夠使適配不同類型的任務(wù),泛化能力較好。

對(duì)比同一基座模型在單任務(wù)與多任務(wù)設(shè)定下的表現(xiàn),pi0.5的多任務(wù)模型成功率相較于單任務(wù)模型下滑了25%。這一數(shù)據(jù)變相印證了模型需要提高多任務(wù)泛化能力。


至于如何平衡“單項(xiàng)精準(zhǔn)度”與“多任務(wù)適配性”,這或許將會(huì)成為通往通用具身智能的關(guān)鍵課題。

其次,任務(wù)難度梯隊(duì)清晰,部分任務(wù)成行業(yè)共性難題。

Table30的每一個(gè)任務(wù)都是賦予了機(jī)型、構(gòu)型、能力類型這三個(gè)維度,共15個(gè)標(biāo)簽。


通過對(duì)頭部模型成功率的分布,可以將30個(gè)標(biāo)準(zhǔn)化任務(wù)分為三個(gè)不同能力梯隊(duì)。

第一梯隊(duì)是hello world級(jí)任務(wù),這類人任務(wù)對(duì)于頭部模型而言沒有任何難度。第二梯隊(duì)是簡(jiǎn)單的任務(wù),對(duì)于頭部模型比較友好,難度較低。而第三梯隊(duì)則是特定模型的特長(zhǎng),此類任務(wù)呈現(xiàn)極端的兩級(jí)分化。

更值得關(guān)注的是,有部分任務(wù)呈現(xiàn)“零突破”的困境——所有參測(cè)模型成功率均為0%,典型案例包括“做素三明治”“給盆栽澆水”等任務(wù):


復(fù)盤任務(wù)后發(fā)現(xiàn),“做素三明治”任務(wù)的核心難點(diǎn)在于時(shí)序性,做三明治需要按照嚴(yán)格的順序來做,模型往往在第一步就容易出現(xiàn)數(shù)量錯(cuò)誤和失敗,所以容錯(cuò)率極低,一步錯(cuò)步步錯(cuò)。

“給盆栽澆水”任務(wù)則暴露了模型的時(shí)序依賴缺失問題,長(zhǎng)程任務(wù)要求模型維持對(duì)歷史狀態(tài)的記憶。一旦中間階段出現(xiàn)狀態(tài)丟失,模型就會(huì)陷入邏輯混亂,產(chǎn)生類似“幻覺”的隨機(jī)動(dòng)作。


此外,整理書籍、疊抹布、排列紙杯等任務(wù),也成為參測(cè)模型的高頻失敗場(chǎng)景。

除了Table30測(cè)試集中的30項(xiàng)任務(wù),RoboChallenge指出,當(dāng)前具身智能領(lǐng)域典型的“卡脖子”任務(wù)可以從靈巧性、泛化性、智能以及性能這四個(gè)維度梳理。靈巧性是指輸出不同的動(dòng)作、駕馭不同的身體;泛化性是指即使測(cè)評(píng)對(duì)象不同也能成功;智能是面對(duì)沒做過的任務(wù)也能嘗試做成功;性能是指機(jī)器人的效率。

總的來說,這些失敗案例共同指向一個(gè)核心結(jié)論:當(dāng)前VLA模型仍未突破“感知-理解-決策-執(zhí)行”的全閉環(huán)協(xié)同難題,距離真實(shí)場(chǎng)景的規(guī)?;瘧?yīng)用仍有較大差距。

可見,當(dāng)下的VLA參測(cè)模型仍然存在一些本質(zhì)上難以解決的因素,現(xiàn)有模型還有巨大的提升空間。

03 落地效果良好

RoboChallenge的報(bào)告中指出,平臺(tái)用戶注冊(cè)數(shù)與評(píng)測(cè)提交量在過去三個(gè)月呈指數(shù)級(jí)增長(zhǎng)。并且活躍用戶區(qū)域也不僅限于中國(guó)開發(fā)者,美國(guó)、新加坡等地的開發(fā)者正在逐漸涌入。


平臺(tái)累計(jì)執(zhí)行的真機(jī)測(cè)試總數(shù)甚至超過了4萬次,單日真機(jī)測(cè)試峰值達(dá)到834次,Table30測(cè)試集在Hugging Face平臺(tái)上的累計(jì)下載量已達(dá)17k次。

從上述前期的準(zhǔn)備和后期的效果上來看,RoboChallenge的確精準(zhǔn)衡量了VLA模型在真實(shí)場(chǎng)景中的綜合能力,為市場(chǎng)提供了一個(gè)較為客觀的評(píng)測(cè)標(biāo)尺。

同時(shí),也讓業(yè)內(nèi)人士發(fā)現(xiàn),VLA模型仍在攻克人類的本能級(jí)操作,參測(cè)模型雖具備較強(qiáng)的指令語義理解能力,但在精細(xì)操作任務(wù)中成功率不高。

而這些尚未解決的技術(shù)難題,也正是模型未來的核心發(fā)展方向。而當(dāng)當(dāng)前的技術(shù)難題被模型完美解決后,平臺(tái)未來將設(shè)計(jì)出更有區(qū)分度的Benchmark,持續(xù)引領(lǐng)模型技術(shù)迭代。

基于良好的發(fā)展基礎(chǔ),RoboChallenge進(jìn)一步釋放開放協(xié)作的信號(hào),明確表示希望能吸引更多研究機(jī)構(gòu)、科技企業(yè)、初創(chuàng)團(tuán)隊(duì)及高校力量加入。

RoboChallenge的早期發(fā)起人之一范浩強(qiáng)在回憶建立RoboChallenge的心路歷程時(shí),也迫切地表示想弄出下一個(gè)Benchmark,涵蓋更多更難的任務(wù),更長(zhǎng)程的、更廣泛的任務(wù),而打造有價(jià)值的真實(shí)任務(wù)、向真實(shí)場(chǎng)景靠攏,也是RoboChallenge 2026年的核心發(fā)展方向。他還真誠(chéng)地向全社會(huì)喊話,希望大家加入他們的社區(qū)一起討論、一起分享。

未來,隨著更多新鮮任務(wù)場(chǎng)景的注入、創(chuàng)新評(píng)估方法的融合及基準(zhǔn)測(cè)試集的持續(xù)迭代,或許能揭示具身智能模型更多的特性和不足,推動(dòng)具身智能模型向更通用、更實(shí)用的方向穩(wěn)步發(fā)展。

雷峰網(wǎng)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
到了美國(guó)終于敢說實(shí)話:中美之間藏在骨子里的差距,真的很扎心!

到了美國(guó)終于敢說實(shí)話:中美之間藏在骨子里的差距,真的很扎心!

天下霸奇
2026-02-27 08:51:57
網(wǎng)傳新能源汽車開征“里程稅”10省市試點(diǎn) 多地回應(yīng):沒有通知也無征收文件|云辟謠

網(wǎng)傳新能源汽車開征“里程稅”10省市試點(diǎn) 多地回應(yīng):沒有通知也無征收文件|云辟謠

封面新聞
2026-02-27 19:17:03
以色列全境響起警報(bào)

以色列全境響起警報(bào)

環(huán)球網(wǎng)資訊
2026-02-28 14:31:07
姜還是老的辣!港口被強(qiáng)收僅3天,李嘉誠(chéng)一招破局,令人刮目相看

姜還是老的辣!港口被強(qiáng)收僅3天,李嘉誠(chéng)一招破局,令人刮目相看

離離言幾許
2026-02-27 21:17:18
大快人心!打人夫妻再迎3大噩耗,舅舅被曝惡行,勢(shì)力再大也沒用

大快人心!打人夫妻再迎3大噩耗,舅舅被曝惡行,勢(shì)力再大也沒用

社會(huì)日日鮮
2026-02-28 11:20:06
一年8億兜底50萬從業(yè)者…中國(guó)企業(yè)家把錢花在了出乎意料的地方

一年8億兜底50萬從業(yè)者…中國(guó)企業(yè)家把錢花在了出乎意料的地方

智谷趨勢(shì)
2026-02-26 20:43:32
WTT大滿貫:王曼昱大逆轉(zhuǎn)!6-8落后連得5分,張本美和首局輸球!

WTT大滿貫:王曼昱大逆轉(zhuǎn)!6-8落后連得5分,張本美和首局輸球!

劉姚堯的文字城堡
2026-02-28 12:19:34
塵埃落定!廣東總商會(huì)副會(huì)長(zhǎng)被終身監(jiān)禁,101億贓款全部沒收

塵埃落定!廣東總商會(huì)副會(huì)長(zhǎng)被終身監(jiān)禁,101億贓款全部沒收

壹只灰鴿子
2026-02-17 22:45:09
79歲男子被“婦產(chǎn)科醫(yī)生”每月扣款9.9元,平臺(tái)認(rèn)證醫(yī)院卻稱查無此人,老人想申請(qǐng)扣款受阻

79歲男子被“婦產(chǎn)科醫(yī)生”每月扣款9.9元,平臺(tái)認(rèn)證醫(yī)院卻稱查無此人,老人想申請(qǐng)扣款受阻

大風(fēng)新聞
2026-02-28 11:44:08
直降1300元!新機(jī)官宣:3月11日,正式開售!

直降1300元!新機(jī)官宣:3月11日,正式開售!

科技堡壘
2026-02-27 11:25:29
阿富汗被巴基斯坦暴捶:塔利班軍事依舊簡(jiǎn)陋,財(cái)政多用于宗教建設(shè)

阿富汗被巴基斯坦暴捶:塔利班軍事依舊簡(jiǎn)陋,財(cái)政多用于宗教建設(shè)

黃娜老師
2026-02-27 22:32:30
火爆沖突!多爾特絆倒約基奇二級(jí)惡犯被驅(qū)逐 約基奇推搡杰林均吃T

火爆沖突!多爾特絆倒約基奇二級(jí)惡犯被驅(qū)逐 約基奇推搡杰林均吃T

醉臥浮生
2026-02-28 12:59:52
新華社快訊:以色列宣布襲擊伊朗

新華社快訊:以色列宣布襲擊伊朗

新華社
2026-02-28 14:23:03
160萬粉絲“反詐老陳”抖音賬號(hào)已搜索不到,官方:以打假反詐為名,煽動(dòng)網(wǎng)友對(duì)立,侮辱他人人格或企業(yè)聲譽(yù)

160萬粉絲“反詐老陳”抖音賬號(hào)已搜索不到,官方:以打假反詐為名,煽動(dòng)網(wǎng)友對(duì)立,侮辱他人人格或企業(yè)聲譽(yù)

都市快報(bào)橙柿互動(dòng)
2026-02-27 22:39:42
特朗普:不排除“友好接管古巴”,他們現(xiàn)在一無所有

特朗普:不排除“友好接管古巴”,他們現(xiàn)在一無所有

看看新聞Knews
2026-02-28 13:12:24
國(guó)家有難時(shí),請(qǐng)交出你的黃金和美元

國(guó)家有難時(shí),請(qǐng)交出你的黃金和美元

深度報(bào)
2026-02-27 21:34:36
亞歷山大復(fù)出36+9雷霆加時(shí)滅掘金 約基奇23+17+14穆雷39+8+6

亞歷山大復(fù)出36+9雷霆加時(shí)滅掘金 約基奇23+17+14穆雷39+8+6

醉臥浮生
2026-02-28 13:41:14
六位快樂的罕見病女孩相約長(zhǎng)沙錄歌:一定要見面,怕再失去我們中的任何一個(gè)

六位快樂的罕見病女孩相約長(zhǎng)沙錄歌:一定要見面,怕再失去我們中的任何一個(gè)

瀟湘晨報(bào)
2026-02-27 22:17:26
國(guó)企“軟裁員”正在蔓延:不辭退、不補(bǔ)償,用鈍刀子逼人主動(dòng)走

國(guó)企“軟裁員”正在蔓延:不辭退、不補(bǔ)償,用鈍刀子逼人主動(dòng)走

一口娛樂
2026-02-28 00:12:59
老人與十五級(jí)臺(tái)階的距離

老人與十五級(jí)臺(tái)階的距離

澎湃新聞
2026-02-28 07:38:31
2026-02-28 14:47:00
雷峰網(wǎng) incentive-icons
雷峰網(wǎng)
關(guān)注智能與未來!
68609文章數(shù) 656079關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

以色列防長(zhǎng):以色列已對(duì)伊朗發(fā)起預(yù)防性攻擊

頭條要聞

以色列防長(zhǎng):以色列已對(duì)伊朗發(fā)起預(yù)防性攻擊

體育要聞

球隊(duì)主力全報(bào)銷?頂風(fēng)擺爛演都不演了

娛樂要聞

疑似王一博被爆私密聊天記錄

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國(guó)家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

房產(chǎn)
本地
時(shí)尚
健康
軍事航空

房產(chǎn)要聞

重磅!海南“十五五”規(guī)劃出爐!未來五年,方向定了!

本地新聞

津南好·四時(shí)總相宜

被章若楠、秦嵐帶火的鞋子竟然是它?春天這樣穿又美又氣質(zhì)!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

軍事要聞

新華社:美國(guó)伊朗要打了嗎

無障礙瀏覽 進(jìn)入關(guān)懷版