国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

鵬城實(shí)驗(yàn)室 X 中大hcp實(shí)驗(yàn)室推出 RADAR : 具身智能評(píng)測(cè)的新標(biāo)桿

0
分享至


面向真實(shí)世界的視覺-語言-動(dòng)作泛化能力評(píng)測(cè)。

01


核心亮點(diǎn)

RADAR(Real-world Autonomous Dynamics And Reasoning)是專為具身智能領(lǐng)域設(shè)計(jì)的全新一代評(píng)測(cè)基準(zhǔn),系統(tǒng)性地解決了現(xiàn)有評(píng)測(cè)體系的三大核心缺陷,為 VLA 模型提供真實(shí)可靠的泛化能力評(píng)估[1]。


Figure 1: 視覺-語言-動(dòng)作模型架構(gòu)示意圖

▎為什么需要 RADAR?

? 當(dāng)前具身智能評(píng)測(cè)面臨嚴(yán)峻的現(xiàn)實(shí)鴻溝問題:模型在傳統(tǒng)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,但在真實(shí)物理環(huán)境中卻表現(xiàn)不佳[1]?,F(xiàn)有評(píng)測(cè)體系存在三大系統(tǒng)性缺陷:

? 忽視真實(shí)世界動(dòng)態(tài)性:未考慮物體配置變化、機(jī)器人初始狀態(tài)、光照變化、傳感器噪聲等關(guān)鍵因素

? 缺乏空間-物理智能測(cè)試:簡(jiǎn)化為重復(fù)性操作任務(wù),無法探測(cè)幾何推理能力

? 評(píng)估方法不可擴(kuò)展:依賴簡(jiǎn)單 2D 指標(biāo)或人工監(jiān)督,成本高昂且存在偏差

02


RADAR 的三大核心創(chuàng)新

1. 系統(tǒng)化的物理動(dòng)態(tài)性建模

RADAR 引入四維物理擾動(dòng)軸,全面模擬真實(shí)世界的復(fù)雜性:


Table 1: RADAR 物理動(dòng)態(tài)性評(píng)測(cè)維度

關(guān)鍵發(fā)現(xiàn):在傳感器噪聲條件下,主流模型的 3D IoU 性能從 0.261 驟降至 0.068,揭示了嚴(yán)重的魯棒性不足[1]。


Figure 2: 不同的擾動(dòng)條件可視化

2. 分級(jí)任務(wù)設(shè)計(jì)與空間理解任務(wù)

為全面評(píng)估各模型的魯棒性與泛化能力,RADAR構(gòu)建了包含四種場(chǎng)景復(fù)雜度遞增的任務(wù)分組的測(cè)試集。此外,不同于傳統(tǒng)的簡(jiǎn)單抓取任務(wù),RADAR 設(shè)計(jì)了專門測(cè)試空間理解能力的任務(wù)集,RADAR要求模型展現(xiàn):

? 基本的具身操作能力

? 多目標(biāo)長(zhǎng)程任務(wù)能力

? 復(fù)雜場(chǎng)景下的決策能力

? 空間理解能力

這些任務(wù)揭示了當(dāng)前 VLA 模型在空間智能方面的顯著局限性[1]。


Figure 3: 空間推理任務(wù)示例:需要理解物體間的相對(duì)位置關(guān)系

3. 全自動(dòng)化評(píng)估流程(基于 3D 指標(biāo))

RADAR 的評(píng)估系統(tǒng)實(shí)現(xiàn)了完全自主化,具有以下優(yōu)勢(shì):

?精確空間視覺:采用雙視覺RGBD攝像頭定位三維空間指標(biāo),捕捉真實(shí)的空間結(jié)構(gòu)

?零人工干預(yù):全流程語義分割、3D重建自動(dòng)化,消除人為偏差

?可大規(guī)模擴(kuò)展:輕量化的分割重建模型支持批量測(cè)試,成本低廉

?結(jié)果可復(fù)現(xiàn):多步驟可重試的標(biāo)準(zhǔn)化流程確保評(píng)測(cè)一致性


Figure 4: 自主化 3D 評(píng)估系統(tǒng)

03


極簡(jiǎn)易用:快速上手指南

為什么選擇 RADAR?

1.即插即用:標(biāo)準(zhǔn)化接口設(shè)計(jì),與主流 VLA 框架無縫對(duì)接

2.文檔完善:詳細(xì)的使用教程和示例代碼

3.開箱即用:預(yù)配置的評(píng)測(cè)任務(wù)和環(huán)境

4.靈活擴(kuò)展:支持自定義任務(wù)和評(píng)估指標(biāo)

三步開始使用


Table 2: RADAR 快速啟動(dòng)流程

代碼示例

簡(jiǎn)單使用SDK代碼評(píng)測(cè)

from src.client import RADARClient

session_id = client.get_worker()

client.begin_eval({"task_id": "single_red"}) #開始評(píng)測(cè)

status = client.get_status()#獲取場(chǎng)景狀態(tài)

action = model(status)#運(yùn)行模型

client.send_action({"action_type": "test_action", "action_params": {}})#執(zhí)行動(dòng)作

result = client.end_evaluation()#結(jié)束評(píng)測(cè)


Figure 5: 遠(yuǎn)程部署,在線測(cè)試:RADAR 評(píng)測(cè)流程

04


震撼發(fā)現(xiàn):揭示模型真實(shí)能力

通過對(duì)多個(gè)主流 VLA 模型的系統(tǒng)性審計(jì),RADAR 發(fā)現(xiàn)了令人警醒的結(jié)果:

?脆弱性嚴(yán)重:在輕度物理擾動(dòng)下,性能急劇下降

?空間推理不足:模型缺乏真正的幾何理解能力

?泛化能力有限:仿真基準(zhǔn)的高分?jǐn)?shù)掩蓋了在真實(shí)環(huán)境中的失效

?關(guān)鍵數(shù)據(jù):傳感器噪聲導(dǎo)致 3D IoU 從 0.261 降至 0.068,下降幅度達(dá) 74%[1]。

這些發(fā)現(xiàn)挑戰(zhàn)了"傳統(tǒng)基準(zhǔn)高分 = 強(qiáng)具身智能"的假設(shè),凸顯了 RADAR 作為可靠評(píng)測(cè)標(biāo)準(zhǔn)的必要性。

05


RADAR 的獨(dú)特價(jià)值

對(duì)研究者

? 揭示模型在真實(shí)場(chǎng)景中的真實(shí)表現(xiàn)

? 識(shí)別具體的弱點(diǎn)和改進(jìn)方向

? 公平比較不同方法的泛化能力

? 推動(dòng)研究從"刷榜"轉(zhuǎn)向"真實(shí)魯棒性"

對(duì)領(lǐng)域發(fā)展

? 建立具身智能評(píng)測(cè)的新標(biāo)準(zhǔn)

? 彌合仿真與真實(shí)世界的鴻溝

? 促進(jìn)可復(fù)現(xiàn)、可擴(kuò)展的研究范式

? 加速具身智能技術(shù)的實(shí)用化進(jìn)程

加入 RADAR 社區(qū)

立即開始

? 論文:arXiv:2602.10980

? 代碼:即將開源(敬請(qǐng)關(guān)注)

? 文檔:完整使用指南和 API 文檔

? 支持:活躍的開發(fā)者社區(qū)

適用場(chǎng)景

無論您是在研究:

? 視覺-語言-動(dòng)作模型(VLA)

? 具身智能代理

? 機(jī)器人操作與規(guī)劃

? 多模態(tài)學(xué)習(xí)系統(tǒng)

RADAR 都是您不可或缺的評(píng)測(cè)工具!

聯(lián)系我們

我們期待與您一起推動(dòng)具身智能評(píng)測(cè)標(biāo)準(zhǔn)的進(jìn)步。歡迎:

? 使用 RADAR 評(píng)測(cè)您的模型

? 貢獻(xiàn)新的任務(wù)和評(píng)估指標(biāo)

? 提供反饋和改進(jìn)建議

? 參與社區(qū)討論和協(xié)作

06


結(jié)語

RADAR 不僅是一個(gè)評(píng)測(cè)工具,更是推動(dòng)具身智能邁向真實(shí)世界可靠性的重要一步。通過系統(tǒng)化的動(dòng)態(tài)性建模、專門的空間推理任務(wù)和全自動(dòng)化評(píng)估流程,RADAR 為領(lǐng)域提供了前所未有的洞察力。

讓我們一起構(gòu)建更魯棒、更可靠、更具泛化能力的具身智能系統(tǒng)!

References

[1] Chen, Y., Zhan, Z., Lin, X., Song, Z., Liu, H., Lyu, Q., Zu, Y., Chen, X., Liu, Z., Pu, T., Chen, T., Wang, K., Lin, L., & Wang, G. (2026). RADAR: Benchmarking Vision-Language-Action Generalization via Real-World Dynamics, Spatial-Physical Intelligence, and Autonomous Evaluation. arXiv preprint arXiv:2602.10980. https://arxiv.org/abs/2602.10980

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
兒子始終不露面,父親一直沒下葬:關(guān)于哈梅內(nèi)伊父子的那些傳聞

兒子始終不露面,父親一直沒下葬:關(guān)于哈梅內(nèi)伊父子的那些傳聞

鷹眼Defence
2026-04-25 16:20:33
烏克蘭清除全部庫皮揚(yáng)斯克俄軍部隊(duì)!摧毀紅軍村通訊系統(tǒng)

烏克蘭清除全部庫皮揚(yáng)斯克俄軍部隊(duì)!摧毀紅軍村通訊系統(tǒng)

項(xiàng)鵬飛
2026-04-24 12:48:43
第二個(gè)惡魔醫(yī)生被抓,鄭大一附院王福建為94名患者植入不需要器械

第二個(gè)惡魔醫(yī)生被抓,鄭大一附院王福建為94名患者植入不需要器械

大魚簡(jiǎn)科
2026-02-18 22:03:00
余承東最后的倔強(qiáng):比小米便宜100塊,然后呢?

余承東最后的倔強(qiáng):比小米便宜100塊,然后呢?

虎嗅APP
2026-04-24 04:36:06
2026車市大亂斗:8款10萬左右新車密集上市,最高純電670km!

2026車市大亂斗:8款10萬左右新車密集上市,最高純電670km!

小怪吃美食
2026-04-25 12:37:13
膽大包天!伊朗33艘快艇閃電突襲:美軍來不及出動(dòng),眼睜睜吃敗仗

膽大包天!伊朗33艘快艇閃電突襲:美軍來不及出動(dòng),眼睜睜吃敗仗

伴史緣
2026-04-25 14:02:08
連續(xù)三天嫖娼一次嫖倆,花800元?dú)У粢皇峙窈门?,他圖什么?

連續(xù)三天嫖娼一次嫖倆,花800元?dú)У粢皇峙窈门疲麍D什么?

橙星文娛
2026-04-23 18:58:44
張雪峰多位愛將離職,真相很殘忍

張雪峰多位愛將離職,真相很殘忍

新浪財(cái)經(jīng)
2026-04-24 19:11:55
055型萬噸大驅(qū)和052D型驅(qū)逐艦同框俯視圖對(duì)比

055型萬噸大驅(qū)和052D型驅(qū)逐艦同框俯視圖對(duì)比

烽火觀天下
2026-04-25 13:59:43
猛降14℃!降溫、降雨、雷暴大風(fēng)即將抵達(dá)長(zhǎng)沙!另外,“五一”假期長(zhǎng)沙天氣最新預(yù)測(cè)→

猛降14℃!降溫、降雨、雷暴大風(fēng)即將抵達(dá)長(zhǎng)沙!另外,“五一”假期長(zhǎng)沙天氣最新預(yù)測(cè)→

芒果都市
2026-04-25 15:31:14
第一集就全裸出鏡,女神新劇太生猛了

第一集就全裸出鏡,女神新劇太生猛了

來看美劇
2026-04-24 22:03:11
DeepSeek迎來史詩級(jí)更新

DeepSeek迎來史詩級(jí)更新

電腦吧評(píng)測(cè)室
2026-04-24 22:09:32
燃?xì)夤旧祥T安檢,根本不是查漏氣!真正目的其實(shí)是這3個(gè)

燃?xì)夤旧祥T安檢,根本不是查漏氣!真正目的其實(shí)是這3個(gè)

匹夫來搞笑
2026-04-20 13:24:51
昔日和王鈺棟齊名并稱國(guó)少雙星 如今卻淪落中甲碌碌無為 5輪0進(jìn)球

昔日和王鈺棟齊名并稱國(guó)少雙星 如今卻淪落中甲碌碌無為 5輪0進(jìn)球

零度眼看球
2026-04-25 08:54:32
震驚!許家印認(rèn)罪,背后隱藏的真相讓人難以置信!

震驚!許家印認(rèn)罪,背后隱藏的真相讓人難以置信!

人生錄
2026-04-24 09:21:59
中子星有多可怕?每立方厘米重10億噸,最高山峰只有1毫米

中子星有多可怕?每立方厘米重10億噸,最高山峰只有1毫米

觀察宇宙
2026-04-24 18:35:19
內(nèi)行人預(yù)測(cè),今年夏天或許很難熬,厄爾尼諾來襲!要小心了

內(nèi)行人預(yù)測(cè),今年夏天或許很難熬,厄爾尼諾來襲!要小心了

小談食刻美食
2026-04-24 07:43:25
永遠(yuǎn)不會(huì)倒閉的四大行業(yè),選對(duì)一輩子衣食無憂!

永遠(yuǎn)不會(huì)倒閉的四大行業(yè),選對(duì)一輩子衣食無憂!

細(xì)說職場(chǎng)
2026-04-08 06:22:58
59歲鞏俐身材引熱議,外套都快撐不住豐腴身材了,卻被夸少女體態(tài)

59歲鞏俐身材引熱議,外套都快撐不住豐腴身材了,卻被夸少女體態(tài)

一盅情懷
2026-03-16 16:52:57
方程豹鈦7 EV定價(jià)了,但這前備箱真是給“高人”準(zhǔn)備的?

方程豹鈦7 EV定價(jià)了,但這前備箱真是給“高人”準(zhǔn)備的?

華庭講美食
2026-04-25 17:19:14
2026-04-25 18:36:49
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7222文章數(shù) 20749關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4發(fā)布!黃仁勛預(yù)言的"災(zāi)難"降臨

頭條要聞

伊朗最高領(lǐng)袖一條腿截肢面部嚴(yán)重?zé)齻?通信方式披露

頭條要聞

伊朗最高領(lǐng)袖一條腿截肢面部嚴(yán)重?zé)齻?通信方式披露

體育要聞

火箭0-3觸發(fā)百分百出局定律:本季加時(shí)賽9戰(zhàn)8敗

娛樂要聞

鄧超最大的幸運(yùn),就是遇見孫儷

財(cái)經(jīng)要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態(tài)度原創(chuàng)

時(shí)尚
親子
健康
房產(chǎn)
軍事航空

上新|| 入夏第一件短袖,買它!

親子要聞

孩子上幼兒園第一天又哭又鬧?幾個(gè)原因,家長(zhǎng)提前了解

干細(xì)胞如何讓燒燙傷皮膚"再生"?

房產(chǎn)要聞

新一輪教育大爆發(fā)來了!??冢_始瘋狂建學(xué)校!

軍事要聞

美防長(zhǎng):戰(zhàn)事不會(huì)“沒完沒了”

無障礙瀏覽 進(jìn)入關(guān)懷版