RoboChallenge Table30 V2 正式發(fā)布，泛化時代開幕

2026-03-25 12:00:03　來源: 機器人大講堂

安徽舉報

分享至

具身智能，正在經(jīng)歷一場靜悄悄的"祛魅"。

過去兩年，VLA（視覺-語言-動作）與 WMA（世界模型-動作）模型研究論文快速增長，各類技術(shù)演示令人目不暇接，行業(yè)熱度空前高漲。然而，在光鮮的 demo 背后，一個系統(tǒng)性的尷尬正在蔓延：大量在仿真環(huán)境中表現(xiàn)出色的模型，一旦被部署至真實物理場景，便迅速失效。桌面高度差了5毫米，操作物體從剛性換成了軟布，背景光線發(fā)生了變化——這些在人類眼中微不足道的擾動，足以讓一個精心訓(xùn)練的具身模型當場翻車。

這不是偶發(fā)現(xiàn)象，而是具身智能領(lǐng)域的系統(tǒng)性頑疾：模型學(xué)會了記憶，卻還沒學(xué)會真正的理解。

帶著這一核心追問，由原力靈機與 Hugging Face 聯(lián)合發(fā)起的全球首個大規(guī)模真機評測平臺RoboChallenge，正式發(fā)布Table30 V2。這是對上一代評測體系的深度重構(gòu)，也是行業(yè)第一次將模型泛化能力納入系統(tǒng)性量化考核的嚴肅嘗試。它以“面向下一代模型的大規(guī)模真機原生泛化評測”為核心標準，從任務(wù)升級、評測升級到系統(tǒng)升級三個維度深度重構(gòu)：通過引入更嚴苛的軟體、工具使用及雙臂協(xié)作任務(wù)，支持零樣本與域外泛化測試，并實現(xiàn)3倍于往屆的系統(tǒng)吞吐量，為全球具身智能研究者打造一把精準的"泛化標尺"與公平、開放的真機競技場。同時Table30 V2預(yù)覽版將作為 RoboChallenge CVPR 2026 Workshop 競賽的首秀上線發(fā)布。

01.

為什么舊的評測體系不夠用了？

在深入 Table30 V2 之前，有必要先厘清一個問題：現(xiàn)有的具身智能評測，究竟差在哪里？

答案指向一個本質(zhì)缺陷：它們太容易被攻克了。在傳統(tǒng)評測框架中，研究團隊普遍針對特定任務(wù)進行單獨精調(diào)（Fine-tuning），催生了大批考試型模型——在固定場景下表現(xiàn)優(yōu)異，換個角度或物體便立刻失靈。與此同時，真機測試長期面臨成本高昂、難以復(fù)現(xiàn)、缺乏統(tǒng)一標準等核心痛點，導(dǎo)致模型評估往往停留在仿真器或高度受控的實驗室環(huán)境中，其現(xiàn)實世界智能成色幾何，始終難以量化評判。

這意味著，當一個模型在排行榜上占據(jù)高位時，我們實際上并不知道它在真實家庭或工廠場景中是否同樣可靠。這種認知盲區(qū)，正是制約具身智能從實驗室走向大規(guī)模應(yīng)用的隱性障礙。

Table30 V2 的邏輯起點，正是打破這道障礙。

02.

任務(wù)升級：讓真實世界的復(fù)雜性無處遁形

Table30 V2任務(wù)集

泛化能力的缺失，往往根植于對簡單任務(wù)的過擬合。Table30 V2 的第一維升級，直指任務(wù)集本身。

在保留 12 個經(jīng)典任務(wù)的基礎(chǔ)上，平臺新增 18 個全新雙臂靈巧操作任務(wù)，將總?cè)蝿?wù)數(shù)擴展至 30 個高難度場景。這些新任務(wù)并非隨意堆砌，而是圍繞三個方向精心設(shè)計，每一個方向都對應(yīng)著當前 VLA 模型的現(xiàn)實短板。

從硬到軟的跨越，是本次任務(wù)升級頗具代表性的突破。Table30 V2 引入了對繩索、布料等軟連續(xù)體物體的操作任務(wù)。與剛性物體不同，這類物體形變無限、狀態(tài)不固定，任何預(yù)設(shè)的幾何假設(shè)都將失效。模型必須在實時感知中動態(tài)建模物體狀態(tài)，并持續(xù)自適應(yīng)地調(diào)整控制策略——這直接將挑戰(zhàn)拉升至空間推理與自適應(yīng)控制能力的極限。

工具與空間的深度交互，則考驗的是模型對物理世界的因果推理。新增任務(wù)要求機器人準確使用工具，并實時理解工具與目標物體之間復(fù)雜的物理依賴關(guān)系。這不僅是精度控制的工程問題，更是對模型是否真正掌握物理常識的深度摸底——它能否理解施力方向、接觸面積與操作結(jié)果之間的因果鏈條，而非僅僅復(fù)現(xiàn)一套固定的動作序列？

雙臂協(xié)作的剛性約束，則將時序建模與多模態(tài)協(xié)調(diào)推向新高度。大量新任務(wù)要求雙手在動態(tài)受限的環(huán)境下實現(xiàn)高精度同步控制，左右手之間的實時配合對模型的全局規(guī)劃與局部精細控制同時提出了嚴格要求。

另外，在硬件層面，Table30 V2 還引入了新一代移動雙臂操縱平臺 DOS-W1（配備三角尖端夾具），與經(jīng)典 Aloha 系統(tǒng)并存，構(gòu)建雙機型并行評測機制。這一安排在降低參與門檻的同時，通過跨硬件配置的對比測試，嚴格驗證了模型在不同物理實體上的跨平臺魯棒性。

03.

評測升級：終結(jié)為比賽而調(diào)參的舊游戲

任務(wù)變難了，但如果評測協(xié)議本身存在漏洞，聰明的研究者總能找到鉆空子的方式。Table30 V2 的第二維升級，從根本上封堵了這些漏洞。

多任務(wù)范式的強制推行是第一道閘門。平臺明確禁止為每個任務(wù)單獨訓(xùn)練專用模型的作弊式優(yōu)化，強制要求參評者提交具備通用理解能力的單一模型。這一規(guī)則與構(gòu)建通用具身大模型的行業(yè)大趨勢高度一致，也讓評測結(jié)果真正反映模型的泛化能力，而非針對性調(diào)參的技巧。

零樣本（Zero-shot）測試，是本次升級最具顛覆意義的改變。Table30 V2 在物體級和環(huán)境級兩個層面系統(tǒng)性地引入零樣本測試：模型必須面對訓(xùn)練集中從未出現(xiàn)過的物體外觀，從未見過的場景背景，乃至動態(tài)變化的干擾條件——例如桌面高度被隨機微調(diào)。這一設(shè)計的深層邏輯在于：真正的智能，是推斷階段實時生成的，而非在訓(xùn)練階段提前記憶的。無法通過零樣本測試的模型，不論在單任務(wù)指標上多么亮眼，都不能被稱為真正具備泛化能力。

分層泛化矩陣（In-Domain vs. Out-of-Domain），則將壓力測試推向極致。除傳統(tǒng)域內(nèi)（In-Domain）評估外，Table30 V2 新增包含域外（OOD）場景的高階測試——極端情況下，測試臺甚至?xí)惶鎿Q為沙發(fā)等完全不可控的家居表面。這不再是一場分數(shù)游戲，而是一次對模型"智能本質(zhì)"的直接追問：它理解的是任務(wù)本身，還是特定視覺配置下的條件反射？

04.

系統(tǒng)升級：速度也是科研競爭力

在算法研究中，迭代速度即生產(chǎn)力。等待真機測試結(jié)果所消耗的時間，是制約研究節(jié)奏的一道隱性瓶頸。Table30 V2 的第三維升級，將這道瓶頸徹底打通。

通過大規(guī)模增購主流機器人硬件并優(yōu)化調(diào)度算法，Table30 V2 實現(xiàn)了3倍于往屆的系統(tǒng)吞吐量。與此同時，任務(wù)準備方式從"像素級嚴苛對齊"調(diào)整為更貼近現(xiàn)實的"粗略對齊"，大幅壓縮了任務(wù)間的空轉(zhuǎn)時間，確保研究團隊能夠高頻次地獲取測試反饋，將"訓(xùn)練-測試-迭代"的研發(fā)飛輪真正轉(zhuǎn)起來。

排行榜中新增的完成時間（Time to Complete）評分維度，則賦予了這一升級更深的戰(zhàn)略意義。它倒逼研究者在追求成功率的同時，優(yōu)化策略的實際執(zhí)行效率——一個需要30秒推理才能完成一次抓取的模型，在真實部署場景中毫無價值可言。這一指標的加入，讓評測結(jié)果與真實落地需求之間的對齊度大幅提升。

05.

數(shù)據(jù)說話：50%的天花板與接近零的地板

RoboChallenge 最新榜單（截止至2026.03.24）

Table30 V2 并非憑空而來，它的設(shè)計背后有一份來自真實世界的清醒報告作為支撐。

基于 2025 Q4 至 2026 Q1 期間平臺完成的數(shù)萬次嚴苛遠程真機測試，RoboChallenge 年度報告呈現(xiàn)了當前具身智能模型的真實能力邊界。當前表現(xiàn)最佳的模型DM0，整體成功率62%；GigaBrain-0.1，成功率約 52%；Pi0.5 為 42.67%；第10名 RDT-1B 僅為 15%?！隘B碗”和“物體移入盒子”成為多數(shù)模型首選的驗證任務(wù)，堪稱具身智能領(lǐng)域的“Hello World”；而涉及多步驟序列推理與精細操作的任務(wù)，如“制作三明治”成功率至今接近于零。

尤其值得關(guān)注的是，盡管參測模型在語義指令理解上已表現(xiàn)出一定能力，但在精細操作任務(wù)中的成功率普遍低于 15%。這揭示了當前 VLA 模型普遍存在的“理解-執(zhí)行”斷層：聽得懂，做不到。這些平臺上沉淀的大量真機失敗數(shù)據(jù)，構(gòu)成了一份公開的錯題集，是推動模型迭代的寶貴參考資產(chǎn)，也是 Table30 V2 設(shè)計思路的現(xiàn)實依據(jù)。

06.

開放社區(qū)，凝聚行業(yè)共識

RoboChallenge 不是一家公司的產(chǎn)品，而是行業(yè)共識的結(jié)晶。自 2025 年 11 月組委會成立以來，原力靈機、Hugging Face 聯(lián)合集結(jié)了智源研究院、智元機器人、Qwen、星海圖、自變量、清華大學(xué)、西安交通大學(xué)及 GOSIM，共同推動具身智能真機評測走向規(guī)范化與標準化。DM0、GigaBrain-0.1、Spirit-v1.5、Pi0、Pi0.5、RDT-1B、CogACT、OpenVLA-OFT 等主流開源模型已完成測試上榜，極佳視界、智源研究院、中移杭研、星海圖、地平線等機構(gòu)的模型正在緊鑼密鼓地推進真機實測。平臺活躍用戶已覆蓋中國（58.3%）、美國（22%）、新加坡（10.1%）等多個國家和地區(qū)，國際化社區(qū)生態(tài)正在迅速成形。

07.

CVPR 2026：泛化時代的第一場真機競技

Table30 V2 的預(yù)覽版，將作為RoboChallenge CVPR 2026 Workshop 競賽的首秀正式亮相。這是具身智能領(lǐng)域首次將大規(guī)模真機評測競賽帶上頂級計算機視覺學(xué)術(shù)會議的舞臺，最多 10 支隊伍將在真實機器人集群上與全球頂尖算法同臺較量，以真實數(shù)據(jù)說話。

關(guān)鍵時間節(jié)點：報名截止 4 月 25 日；評測基準四月中旬上線；最終競賽 5 月 15 日。競賽結(jié)束后，平臺將持續(xù)向全球研究者開放評測基礎(chǔ)設(shè)施，讓每一個有想法的團隊都能在真實機器人上驗證自己的模型。

泛化，是具身智能通往物理世界通用性的必由之路，也是下一座需要全球研究者共同攀登的山峰。Table30 V2，已經(jīng)開路。

報名及詳情：

https://robochallenge.cn/competition

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.