国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

RoboChallenge發(fā)布年度報(bào)告:評(píng)測標(biāo)尺夠權(quán)威嗎?

0
分享至


具身模型在榜單里卷起來了。

作者丨劉欣

編輯丨馬曉寧 高景輝

當(dāng)下的具身智能行業(yè)可謂陷入了“Demo”的怪圈,大家驚呼于視頻內(nèi)機(jī)器人的流暢操作,但視頻中的機(jī)器人卻又在現(xiàn)實(shí)世界中頻繁失誤。

這種虛假繁榮的背后,其實(shí)是行業(yè)長期缺乏真實(shí)場景驗(yàn)證、評(píng)測標(biāo)準(zhǔn)模糊等問題。機(jī)器人從實(shí)驗(yàn)室走到現(xiàn)實(shí)世界,始終被仿真到現(xiàn)實(shí)世界等難題所制約。

模擬器的評(píng)估無法完美復(fù)現(xiàn)真實(shí)世界中的物理擾動(dòng)、環(huán)境變異等關(guān)鍵因素,在此背景下,2025年10月原力靈機(jī)Dexmal與Hugging Face聯(lián)合推出了全球首個(gè)具身智能大規(guī)模評(píng)測平臺(tái)——RoboChallenge。

緊隨其后,原力靈機(jī)又與Hugging Face聯(lián)合智源研究院、智元機(jī)器人、Qwen、星海圖、自變量、清華大學(xué)、西安交通大學(xué)及GOSIM等機(jī)構(gòu),于2025年11月20日正式成立RoboChallenge組委會(huì)。

2026年1月11日,RoboChallenge榜單更新,前三名依次為Spirit v1.5、pi0.5、WALL-OSS。其中,Spirit v1.5是出自中國千尋智能自研的模型,而WALL-OSS則是自變量機(jī)器人的全自研開源操作大模型。

這個(gè)榜單釋放出了一個(gè)重磅信號(hào):中國自主研發(fā)的具身智能模型,已具備與國外頂級(jí)模型同臺(tái)對打的實(shí)力,甚至還打贏了。

不過,作為推出還沒多久的新興評(píng)測平臺(tái),尚處發(fā)展完善階段,網(wǎng)絡(luò)上的態(tài)度也充滿爭議,所以AI科技評(píng)論打算從技術(shù)和核心設(shè)計(jì)的角度,對RoboChallenge進(jìn)行深度拆解與解讀。

01
RoboChallenge系統(tǒng)核心設(shè)計(jì)

在具身智能領(lǐng)域,真機(jī)評(píng)測的標(biāo)準(zhǔn)化與公平性?期以來一直是制約技術(shù)橫向?qū)Ρ鹊年P(guān)鍵瓶頸。而缺乏統(tǒng)一的評(píng)測標(biāo)尺,更讓不同團(tuán)隊(duì)的技術(shù)成果難以形成有效對比,嚴(yán)重影響了行業(yè)迭代效率。

但提供機(jī)器人在線服務(wù)并非表面看上去那么簡單,首要問題是如何向提交算法的用戶開放機(jī)器人訪問權(quán)限。

原力靈機(jī)最開始考慮了三種主要的模式,分別是模型級(jí)提交、系統(tǒng)級(jí)提交、模型API調(diào)用,但這三種模式最后都沒有采用,原因在于:

? 計(jì)算兼容性:提交模型并使其在其他環(huán)境中正確運(yùn)行極為復(fù)雜。軟件棧和硬件配置難以匹配,除非提供完全訪問權(quán)限,否則幾乎無法調(diào)試。

? 靈活性:原力靈機(jī)不希望將用戶限制在以往系統(tǒng)中默認(rèn)的 “觀測 - 動(dòng)作” 映射所隱含的 “暫停 - 推理” 控制模式中。

? 可訪問性:并非所有人都擁有公網(wǎng)IP,尤其是在網(wǎng)絡(luò)地址轉(zhuǎn)換(NAT)主導(dǎo)的現(xiàn)代互聯(lián)網(wǎng)環(huán)境中。

于是,原力靈機(jī)采用 “遠(yuǎn)程機(jī)器人” 交互范式,摒棄傳統(tǒng)模型提交、Docker鏡像部署等方案,讓用戶無需上傳模型文件或推理代碼,通過標(biāo)準(zhǔn)化低層級(jí)API即可實(shí)現(xiàn)全異步交互。

不同于仿真測試,RoboChallenge擁有UR5、Franka、ARX5、ALOHA等主流機(jī)型在內(nèi)的20臺(tái)真機(jī)測試集群,對這些機(jī)器人的選擇上,還有幾條準(zhǔn)則:耐用性、普及性、安全性以及性能良好。

所有機(jī)器人均搭載Intel RealSense深度相機(jī),包含俯視工作區(qū)域的主相機(jī)、機(jī)械臂末端的腕部相機(jī)及單臂設(shè)備專用的側(cè)面相機(jī),為VLA模型提供多視角觀測數(shù)據(jù)。

前期的準(zhǔn)備完善后,RoboChallenge又發(fā)現(xiàn)測試中的各種因素會(huì)導(dǎo)致最后的結(jié)果巨大,難以成為客觀、公正的測評(píng)體系。因此,需要一套規(guī)范的方法來控制測試中的各種因素。

首先,對于測試人員導(dǎo)致的差異,RoboChallenge對有經(jīng)驗(yàn)、無經(jīng)驗(yàn)、適應(yīng)性的測試人員進(jìn)行了測試,發(fā)現(xiàn)了一種 “最佳區(qū)域效應(yīng)”(Sweet-spot Effect),如下圖所示,存在特定的物體位置組合,在這些位置上任務(wù)更有可能成功。根據(jù)這些經(jīng)驗(yàn),RoboChallenge設(shè)計(jì)出了更完善的評(píng)估協(xié)議,特別是更穩(wěn)定的物體重置方法。


RoboChallenge還對環(huán)境中的各種因素進(jìn)行了研究,比如光照條件,但進(jìn)行的概念驗(yàn)證實(shí)驗(yàn)發(fā)現(xiàn),背景或環(huán)境的變化不會(huì)對測試結(jié)果產(chǎn)生太大影響。


02
Table30基準(zhǔn)測試集

Table30基準(zhǔn)測試集包含30項(xiàng)圍繞固定工作臺(tái)執(zhí)行的任務(wù),涵蓋家庭、廚房、辦公、校園等多元場景,任務(wù)類型包括物體整理、機(jī)械操作、分類分揀、軟體處理等,全面覆蓋了VLA模型的核心技術(shù)挑戰(zhàn)。

這些任務(wù)衡量了通用機(jī)器人控制算法應(yīng)具備的多種能力,乍看下來很簡單,但即使是最先進(jìn)的基礎(chǔ)模型也無法達(dá)到較高的總體成功率。



任務(wù)的選擇也不是毫無根據(jù)的,主要遵循難度覆蓋全面、算法挑戰(zhàn)覆蓋全面、貼近現(xiàn)實(shí)生活以及簡潔性這四個(gè)原則。



RoboChallenge認(rèn)為,基準(zhǔn)測試集是衡量通用機(jī)器人技術(shù)方法的必要測試。并且,隨著評(píng)估數(shù)據(jù)的積累可以發(fā)現(xiàn)更多趨勢:

首先是,模型的單任務(wù)與多任務(wù)模型的能力差距顯著。

RoboChallenge的評(píng)測區(qū)分了單任務(wù)模型和多任務(wù)模型,單任務(wù)模型是對特定任務(wù)進(jìn)行優(yōu)化,多任務(wù)模型能夠使適配不同類型的任務(wù),泛化能力較好。

對比同一基座模型在單任務(wù)與多任務(wù)設(shè)定下的表現(xiàn),pi0.5的多任務(wù)模型成功率相較于單任務(wù)模型下滑了25%。這一數(shù)據(jù)變相印證了模型需要提高多任務(wù)泛化能力。


至于如何平衡“單項(xiàng)精準(zhǔn)度”與“多任務(wù)適配性”,這或許將會(huì)成為通往通用具身智能的關(guān)鍵課題。

其次,任務(wù)難度梯隊(duì)清晰,部分任務(wù)成行業(yè)共性難題。

Table30的每一個(gè)任務(wù)都是賦予了機(jī)型、構(gòu)型、能力類型這三個(gè)維度,共15個(gè)標(biāo)簽。


通過對頭部模型成功率的分布,可以將30個(gè)標(biāo)準(zhǔn)化任務(wù)分為三個(gè)不同能力梯隊(duì)。

第一梯隊(duì)是hello world級(jí)任務(wù),這類人任務(wù)對于頭部模型而言沒有任何難度。第二梯隊(duì)是簡單的任務(wù),對于頭部模型比較友好,難度較低。而第三梯隊(duì)則是特定模型的特長,此類任務(wù)呈現(xiàn)極端的兩級(jí)分化。

更值得關(guān)注的是,有部分任務(wù)呈現(xiàn)“零突破”的困境——所有參測模型成功率均為0%,典型案例包括“做素三明治”“給盆栽澆水”等任務(wù):


復(fù)盤任務(wù)后發(fā)現(xiàn),“做素三明治”任務(wù)的核心難點(diǎn)在于時(shí)序性,做三明治需要按照嚴(yán)格的順序來做,模型往往在第一步就容易出現(xiàn)數(shù)量錯(cuò)誤和失敗,所以容錯(cuò)率極低,一步錯(cuò)步步錯(cuò)。

“給盆栽澆水”任務(wù)則暴露了模型的時(shí)序依賴缺失問題,長程任務(wù)要求模型維持對歷史狀態(tài)的記憶。一旦中間階段出現(xiàn)狀態(tài)丟失,模型就會(huì)陷入邏輯混亂,產(chǎn)生類似“幻覺”的隨機(jī)動(dòng)作。


此外,整理書籍、疊抹布、排列紙杯等任務(wù),也成為參測模型的高頻失敗場景。

除了Table30測試集中的30項(xiàng)任務(wù),RoboChallenge指出,當(dāng)前具身智能領(lǐng)域典型的“卡脖子”任務(wù)可以從靈巧性、泛化性、智能以及性能這四個(gè)維度梳理。靈巧性是指輸出不同的動(dòng)作、駕馭不同的身體;泛化性是指即使測評(píng)對象不同也能成功;智能是面對沒做過的任務(wù)也能嘗試做成功;性能是指機(jī)器人的效率。

總的來說,這些失敗案例共同指向一個(gè)核心結(jié)論:當(dāng)前VLA模型仍未突破“感知-理解-決策-執(zhí)行”的全閉環(huán)協(xié)同難題,距離真實(shí)場景的規(guī)?;瘧?yīng)用仍有較大差距。

可見,當(dāng)下的VLA參測模型仍然存在一些本質(zhì)上難以解決的因素,現(xiàn)有模型還有巨大的提升空間。

03
落地效果良好

RoboChallenge的報(bào)告中指出,平臺(tái)用戶注冊數(shù)與評(píng)測提交量在過去三個(gè)月呈指數(shù)級(jí)增長。并且活躍用戶區(qū)域也不僅限于中國開發(fā)者,美國、新加坡等地的開發(fā)者正在逐漸涌入。


平臺(tái)累計(jì)執(zhí)行的真機(jī)測試總數(shù)甚至超過了4萬次,單日真機(jī)測試峰值達(dá)到834次,Table30測試集在Hugging Face平臺(tái)上的累計(jì)下載量已達(dá)17k次。

從上述前期的準(zhǔn)備和后期的效果上來看,RoboChallenge的確精準(zhǔn)衡量了VLA模型在真實(shí)場景中的綜合能力,為市場提供了一個(gè)較為客觀的評(píng)測標(biāo)尺。

同時(shí),也讓業(yè)內(nèi)人士發(fā)現(xiàn),VLA模型仍在攻克人類的本能級(jí)操作,參測模型雖具備較強(qiáng)的指令語義理解能力,但在精細(xì)操作任務(wù)中成功率不高。

而這些尚未解決的技術(shù)難題,也正是模型未來的核心發(fā)展方向。而當(dāng)當(dāng)前的技術(shù)難題被模型完美解決后,平臺(tái)未來將設(shè)計(jì)出更有區(qū)分度的Benchmark,持續(xù)引領(lǐng)模型技術(shù)迭代。

基于良好的發(fā)展基礎(chǔ),RoboChallenge進(jìn)一步釋放開放協(xié)作的信號(hào),明確表示希望能吸引更多研究機(jī)構(gòu)、科技企業(yè)、初創(chuàng)團(tuán)隊(duì)及高校力量加入。

RoboChallenge的早期發(fā)起人之一范浩強(qiáng)在回憶建立RoboChallenge的心路歷程時(shí),也迫切地表示想弄出下一個(gè)Benchmark,涵蓋更多更難的任務(wù),更長程的、更廣泛的任務(wù),而打造有價(jià)值的真實(shí)任務(wù)、向真實(shí)場景靠攏,也是RoboChallenge 2026年的核心發(fā)展方向。他還真誠地向全社會(huì)喊話,希望大家加入他們的社區(qū)一起討論、一起分享。

未來,隨著更多新鮮任務(wù)場景的注入、創(chuàng)新評(píng)估方法的融合及基準(zhǔn)測試集的持續(xù)迭代,或許能揭示具身智能模型更多的特性和不足,推動(dòng)具身智能模型向更通用、更實(shí)用的方向穩(wěn)步發(fā)展。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
74比95慘敗丟冠!女籃霸主狂輸21分被掀翻:1年連丟三冠太慘了

74比95慘敗丟冠!女籃霸主狂輸21分被掀翻:1年連丟三冠太慘了

籃球快餐車
2026-03-10 05:40:05
凌晨,杭州外賣小哥追尾轎車提出400元私了!車主反手一個(gè)操作,被千萬網(wǎng)友夸爆!

凌晨,杭州外賣小哥追尾轎車提出400元私了!車主反手一個(gè)操作,被千萬網(wǎng)友夸爆!

環(huán)球網(wǎng)資訊
2026-03-09 15:45:13
家長曬女兒反被嘲:這不是小家碧玉,這是營養(yǎng)不良

家長曬女兒反被嘲:這不是小家碧玉,這是營養(yǎng)不良

蝴蝶花雨話教育
2026-03-04 01:20:03
田曦薇胸前的珍珠好大,屬實(shí)是被 “夾住” 了!

田曦薇胸前的珍珠好大,屬實(shí)是被 “夾住” 了!

飛娛日記
2026-03-08 08:53:03
皇馬叫停保級(jí)聚餐!C隊(duì)小將沒吃成飯,反倒化悲憤為力量4-0大勝

皇馬叫停保級(jí)聚餐!C隊(duì)小將沒吃成飯,反倒化悲憤為力量4-0大勝

仰臥撐FTUer
2026-03-10 19:26:03
龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個(gè)“硬傷”

龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個(gè)“硬傷”

她時(shí)尚丫
2026-02-17 22:41:30
復(fù)出首秀24分!二年級(jí)的米切爾,雷霆又一神簽約!

復(fù)出首秀24分!二年級(jí)的米切爾,雷霆又一神簽約!

籃球?qū)嶄?/span>
2026-03-10 23:50:33
在線吃瓜,北京北控球員廖三寧被爆出軌

在線吃瓜,北京北控球員廖三寧被爆出軌

郭夷包工頭
2026-03-09 20:59:43
柳某、王某等4人被西安警方查獲

柳某、王某等4人被西安警方查獲

91.6陜西交通廣播
2026-03-10 08:09:25
23支液體、15個(gè)小時(shí)的連續(xù)輸注,娃的情緒已經(jīng)接近暴躁

23支液體、15個(gè)小時(shí)的連續(xù)輸注,娃的情緒已經(jīng)接近暴躁

果殼
2026-03-08 20:08:15
他26歲拼命追一34歲有病、不能生、還窮的女人,所有人都說他瘋了

他26歲拼命追一34歲有病、不能生、還窮的女人,所有人都說他瘋了

南權(quán)先生
2026-02-09 15:56:02
外媒緊盯,臺(tái)島震動(dòng)!兩艘“超級(jí)戰(zhàn)艦”突然部署東海,危險(xiǎn)信號(hào)!

外媒緊盯,臺(tái)島震動(dòng)!兩艘“超級(jí)戰(zhàn)艦”突然部署東海,危險(xiǎn)信號(hào)!

頭條爆料007
2026-03-09 12:58:08
伊朗確認(rèn)穆杰塔巴受傷;專家會(huì)議都是些什么專家?

伊朗確認(rèn)穆杰塔巴受傷;專家會(huì)議都是些什么專家?

寰宇大觀察
2026-03-09 15:24:05
價(jià)格暴漲!越漲越買!這里,進(jìn)入搶貨模式

價(jià)格暴漲!越漲越買!這里,進(jìn)入搶貨模式

齊魯壹點(diǎn)
2026-03-10 07:37:15
伊朗究竟有多少女忍者?

伊朗究竟有多少女忍者?

不相及研究所
2026-03-10 22:22:10
伊朗還能高強(qiáng)度作戰(zhàn)至少半年?專家:影響戰(zhàn)爭長短和走向的因素有很多

伊朗還能高強(qiáng)度作戰(zhàn)至少半年?專家:影響戰(zhàn)爭長短和走向的因素有很多

紅星新聞
2026-03-09 20:44:41
總把長壽歸功于基因好?研究:全球百歲老人的共性是這份長壽菜單

總把長壽歸功于基因好?研究:全球百歲老人的共性是這份長壽菜單

時(shí)光派健康抗衰
2026-03-10 11:00:03
重慶最不像鎮(zhèn)的一個(gè)鎮(zhèn),人口13萬繁華叫板縣城,被稱為小香港

重慶最不像鎮(zhèn)的一個(gè)鎮(zhèn),人口13萬繁華叫板縣城,被稱為小香港

帶著瓶蓋兒去旅行
2026-03-10 21:41:03
地中海又傳來一聲巨響,俄6萬噸巨輪慘遭擊沉,普京:絕不輕饒!

地中海又傳來一聲巨響,俄6萬噸巨輪慘遭擊沉,普京:絕不輕饒!

趣文說娛
2026-03-09 17:52:17
日本遠(yuǎn)程導(dǎo)彈瞄準(zhǔn)上海?高市早已通告全球,解放軍新增2大利器

日本遠(yuǎn)程導(dǎo)彈瞄準(zhǔn)上海?高市早已通告全球,解放軍新增2大利器

千羽解讀
2026-03-10 19:38:35
2026-03-11 04:08:49
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

體育要聞

加蘭沒那么差,但鱸魚會(huì)用嗎?

娛樂要聞

《逐玉》注水風(fēng)波升級(jí)!315評(píng)論區(qū)淪陷

財(cái)經(jīng)要聞

“龍蝦補(bǔ)貼”密集出爐 最高1000萬!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

數(shù)碼
時(shí)尚
本地
手機(jī)
房產(chǎn)

數(shù)碼要聞

M5 Max 版 16 英寸 MacBook Pro 體驗(yàn):算力巔峰與專業(yè)視界

看來看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質(zhì)

本地新聞

云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

手機(jī)要聞

M5 Max 版 16 英寸 MacBook Pro 體驗(yàn):算力巔峰與專業(yè)視界

房產(chǎn)要聞

信號(hào)!千億巨頭入局,三亞開啟新一輪大征拆!

無障礙瀏覽 進(jìn)入關(guān)懷版