国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

上海交大給具身智能發(fā)了一張“統(tǒng)考卷”,這會是機器人的LMArena嗎?

0
分享至


智東西
作者 陳駿達
編輯 漠影

在具身智能領(lǐng)域,一個越來越突出的現(xiàn)實是:Demo,似乎成為了技術(shù)能力的通用敘事方式。

在發(fā)布會、短視頻和展臺上,我們反復(fù)看到類似的場景,機器人在精心布置的環(huán)境里完成一次抓取、一段行走,流程流暢、效果驚艷。

然而,一旦離開展示場景,問題便變得復(fù)雜得多。換一個光照條件、換一個物體材質(zhì)、稍微打亂順序,系統(tǒng)是否還能穩(wěn)定工作,外界往往無從得知。


不同廠商基于不同任務(wù)與展示方式來定義“領(lǐng)先”,使得這些Demo之間既難以橫向比較,也難以被復(fù)現(xiàn)驗證。在缺乏統(tǒng)一評測標(biāo)準(zhǔn)的情況下,Demo與實際落地之間的差異逐漸放大。

日前,圖靈獎得主姚期智便在一場演講中點破了這一現(xiàn)狀:(具身智能行業(yè))要從各說各話到統(tǒng)一評測,建立開放機制、安全規(guī)范等等,鼓勵開源復(fù)現(xiàn)與挑戰(zhàn)賽,讓優(yōu)秀的算法可以重復(fù)使用,可驗證、可產(chǎn)業(yè)化。

這一呼吁背后的核心,正是建立一套統(tǒng)一、科學(xué)且可被反復(fù)驗證的評測體系。2026年開年,上海交通大學(xué)等機構(gòu)聯(lián)合發(fā)布的GM-100,正是目前國內(nèi)少數(shù)試圖在這一方向上給出系統(tǒng)性解決方案的嘗試之一。


一、具身智能,缺一張“統(tǒng)考卷”

在一個仍處于早期探索階段的技術(shù)領(lǐng)域,評測體系的意義并不止于給模型排個名次,更像是一張“統(tǒng)考卷”:它通過題目設(shè)置,明確哪些能力被認(rèn)為是重要的,哪些問題值得被長期投入,從而在無形中塑造和引領(lǐng)整個行業(yè)的研究方向與技術(shù)路線。

但從現(xiàn)實情況來看,具身智能領(lǐng)域的評測體系仍然較為分散。不同企業(yè)和研究團隊往往使用各自的任務(wù)集、評測流程和指標(biāo)體系:有的側(cè)重抓取成功率,有的關(guān)注路徑規(guī)劃,有的強調(diào)單一長任務(wù)完成情況。

現(xiàn)有的評測在一定程度上推動了行業(yè)早期的發(fā)展,但其任務(wù)設(shè)置多集中于高頻、相對簡單的場景。隨著模型能力的提升,這類基準(zhǔn)對真實應(yīng)用的區(qū)分度正在下降,也越來越難以反映具身智能在復(fù)雜環(huán)境中的核心挑戰(zhàn)。

當(dāng)模型已經(jīng)可以穩(wěn)定完成這些“標(biāo)準(zhǔn)動作”時,繼續(xù)在同一類任務(wù)上刷分,往往只能體現(xiàn)工程調(diào)優(yōu)或場景適配能力,而難以揭示模型在復(fù)雜條件下的真實表現(xiàn)。行業(yè)在判斷技術(shù)成熟度時,仍然缺乏一個被廣泛認(rèn)可的客觀參照。

面向具身智能的未來,一個好的評測體系不只考“常見題”,還應(yīng)覆蓋偏題、難題和綜合題,結(jié)構(gòu)上既有基礎(chǔ)能力測試,也有對長尾行為和復(fù)雜交互的檢驗。

它的目標(biāo)不是讓模型看起來“很強”,而是清晰呈現(xiàn)模型在真實執(zhí)行中的能力邊界——在哪些條件下可以穩(wěn)定工作,在哪些情況下會失敗,失敗模式又是什么。

同時,隨著具身任務(wù)從單一動作走向長序列、多步驟協(xié)作,評測也不能唯結(jié)果論。是否完成任務(wù)固然重要,但完成過程中的決策質(zhì)量、異常處理方式、對環(huán)境和人類行為的響應(yīng),同樣是衡量系統(tǒng)成熟度的關(guān)鍵維度。

過去一段時間里,學(xué)術(shù)界和工業(yè)界已關(guān)注到這一問題,并著手解決。從李飛飛教授的BEHAVIOR,到HuggingFace聯(lián)合業(yè)內(nèi)打造的RoboChallenge,各種新的評測體系,恰恰折射出了行業(yè)對更全面評測的迫切需求。他們希望通過更具挑戰(zhàn)性和解釋力的測試體系,為技術(shù)演進提供清晰坐標(biāo)。

二、讓機器人穿糖葫蘆、開抽屜,如何揭示具身智能的能力邊界?

GM-100由100個任務(wù)組成,每個任務(wù)大約有100條訓(xùn)練軌跡和30條測試軌跡,總計13000條操作軌跡,規(guī)模已經(jīng)不小。不過,相比單純追求規(guī)模的數(shù)據(jù)集,真正讓GM-100與其他測評集打出差異化的,是其任務(wù)多樣性和評估系統(tǒng)性。

GM-100的主要作者與項目牽頭人、上海交通大學(xué)副教授李永露告訴智東西,其實驗室踐行的理念是“以數(shù)據(jù)為中心的具身智能”。

他認(rèn)為在這個時代,數(shù)據(jù)集和評測對科研的貢獻超過了60%,加些數(shù)據(jù),或是讓數(shù)據(jù)的分布更為健康,便有可能大幅推動模型能力的提升。

研究中,團隊對現(xiàn)有的海量數(shù)據(jù)集和任務(wù)進行了統(tǒng)計,發(fā)現(xiàn)大部分任務(wù)仍以 “pick, hold, place”這三大類為核心。因此,GM-100選擇了以長尾任務(wù)和精細(xì)操作為重點,力圖展現(xiàn)當(dāng)前具身智能在真實世界操作中的能力邊界。


任務(wù)設(shè)計過程中,研究團隊先對人類與物體的交互原語進行了系統(tǒng)分析,然后借助大語言模型生成候選任務(wù),再經(jīng)過專家篩選與優(yōu)化,最終形成100個任務(wù)。這些任務(wù)從日常常見到罕見,從簡單到復(fù)雜。

這些任務(wù)中有不少“反直覺”的存在——人類覺得非常精細(xì)困難的任務(wù),機器人反而能夠較好完成;而人類認(rèn)為非常簡單的操作,機器人卻經(jīng)常失敗。

該實驗室成員、上海交通大學(xué)博士生王梓宇告訴我們,像穿糖葫蘆這樣人類認(rèn)為對機器人比較復(fù)雜的任務(wù),機器人已經(jīng)能夠做到一定水平,而開抽屜、按臺燈開關(guān)或整理小物體等直覺上簡單的任務(wù),卻因為機械臂構(gòu)型、物體材質(zhì)、位置擺放以及指令理解等因素而變得困難。


▲GM-100中的部分任務(wù)

在現(xiàn)有評測體系普遍面臨任務(wù)同質(zhì)化、容易被針對性優(yōu)化“刷榜”的背景下,GM-100通過高度多樣化且長尾的任務(wù)來貼近真實物理世界。這拉高了針對性優(yōu)化的成本,進而有效引導(dǎo)模型發(fā)展通用能力,避免模型僅在簡單任務(wù)上過擬合的傾向。

在研究論文中,GM-100背后的團隊已經(jīng)驗證了這一測評集的有效性。他們對Diffusion Policy(DP)、π?、π?.?及GR00T等主流具身學(xué)習(xí)模型進行了測試。值得注意的是,GM-100評估指標(biāo)不止于傳統(tǒng)的任務(wù)成功率(SR),還引入了部分成功率(PSR)和動作預(yù)測誤差。

PSR讓多步驟任務(wù)的細(xì)節(jié)完成情況可量化,動作預(yù)測誤差則衡量模型在新軌跡上的模仿精度。這種多維度指標(biāo)使研究者能從不同角度衡量模型表現(xiàn)的強弱,遏制了模型通過“作弊”、“走捷徑”完成部分動作,鼓勵研究者關(guān)注模型真正的泛化和模仿能力。

結(jié)果顯示,GM-100的任務(wù)在許多機器人平臺上都可執(zhí)行,但也沒有過于簡單,不同模型在GM-100上的表現(xiàn)拉開了區(qū)分度,這證明任務(wù)設(shè)計本身是合理的。跨平臺測試也表明,這些任務(wù)在不同機器上具有一定的泛化價值,為評估模型能力提供了可靠參考。


三、不做“爹味很濃”的測評集,Benchmark不只靠權(quán)威說話

不過,對一個測評集來說,打造出來僅僅是第一步。如何讓更多的人用起來,對它產(chǎn)生信賴,可能是更為關(guān)鍵的一步。

在與李永露的溝通中,我們了解到,GM-100團隊在打造這一測評集的時候就意識到,一個真正有生命力的評測體系不能只靠“權(quán)威”,而應(yīng)走向“社區(qū)共建”。


▲李永露

換言之,他們似乎并未將自己定位為“裁判”,而是“搭臺者”。

當(dāng)前的機器人學(xué)習(xí)模型仍顯著受到測試者能力和環(huán)境條件的影響,GM-100不是要成為一個絕對公平的物理測試環(huán)境,這在當(dāng)前的產(chǎn)業(yè)發(fā)展階段也不現(xiàn)實。GM-100打造了一個開放平臺,研究人員可以自主上傳測試結(jié)果與證據(jù)視頻。

為了讓更多人參與這一評測,GM-100開源了全部100個任務(wù)的詳細(xì)說明,需要購買的物料清單精確到了淘寶鏈接,還上傳了每個任務(wù)約130條真實機器人操作數(shù)據(jù),極大降低了復(fù)現(xiàn)門檻。

對于開源模型,GM-100團隊進行驗證與作者身份確認(rèn),要求提交模型權(quán)重以供審核,并為符合標(biāo)準(zhǔn)的提交打上“已驗證”標(biāo)簽。未來,GM-100還會豐富社區(qū)的功能,讓用戶可以點評、收藏,表達自己的見解。

李永露說,他們不想成為一個“爹味很濃”的組織,來告訴大家應(yīng)該怎么做,因為這樣很有可能喪失公信力。相反,他們希望讓研究社區(qū)以“悠悠眾口”的模式,長期討論并建立共識,最終形成對模型能力的客觀評價。這種模式也有望讓“刷榜”、“作弊”的模型在群眾監(jiān)督下現(xiàn)出原形,最終建立起透明、可信的基準(zhǔn)測試體系。


▲GM-100的數(shù)據(jù)采集工作(圖源:RHOS)

對熟悉大模型評測的讀者來說,GM?100在理念上讓人聯(lián)想到LMArena。

LMArena 的公信力來自一種去權(quán)威化的評測機制:平臺通過匿名雙盲對比和真實用戶投票,讓性能評估不依賴單一指標(biāo)、不受品牌影響,再用Elo排名體系動態(tài)反映真實偏好,而非靠構(gòu)建者主觀設(shè)定的權(quán)威分?jǐn)?shù)。

在這一點上,GM 100同樣強調(diào)機制而非權(quán)威背書。它通過跨平臺數(shù)據(jù)、詳盡的交互說明和多維度指標(biāo)體系,使評估結(jié)果具有可復(fù)現(xiàn)性和解釋性,而非依賴實驗者主觀裁定。

兩者都探索了一種面向社區(qū)與實際表現(xiàn)的評估范式,試圖讓評測結(jié)果既透明可檢驗、又不受單一權(quán)威框架制約。

結(jié)語:GM-100將進一步擴展,不怕干“臟活累活”

李永露告訴我們,團隊不會止步于GM-100數(shù)據(jù)集的發(fā)布。GM取自“Great March”,寓意“長征”,團隊將逐步把任務(wù)庫擴展至300乃至1000項,并推進跨機器人平臺評測,以增強評測的覆蓋面。

長遠(yuǎn)來看,他們希望通過任務(wù)設(shè)計的系統(tǒng)化、評測維度的多元化(如引入進度評分、安全性、社會價值等指標(biāo)),打造更科學(xué)、更工程化的具身智能評測“奧林匹克”。

數(shù)據(jù)集和評測的構(gòu)建是公認(rèn)的“臟活累活”。正如李永露所說:“評測其實是一個挺苦的事情,這類工作并非在空調(diào)房里寫寫代碼就能完成,而需要實實在在動手操作,甚至擰螺絲。但完成后,對整個世界的貢獻卻非常巨大。”他希望更多年輕人、研究團隊和企業(yè)能夠參與,共同推進這一事業(yè)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
張雨綺假雙胞胎騙局被拆穿?疑似在美國代孕,親身產(chǎn)子湊數(shù)

張雨綺假雙胞胎騙局被拆穿?疑似在美國代孕,親身產(chǎn)子湊數(shù)

社會醬
2026-01-26 17:51:52
降5℃!廣東下波冷空氣,時間確定

降5℃!廣東下波冷空氣,時間確定

魯中晨報
2026-01-26 07:15:10
退臟衣女記者社死!囂張丟了鐵飯碗,商家硬剛到底,勢力大也沒用

退臟衣女記者社死!囂張丟了鐵飯碗,商家硬剛到底,勢力大也沒用

離離言幾許
2026-01-26 10:48:59
川崎重工將在2030前,使其所有發(fā)電發(fā)動機、燃?xì)廨啓C兼容氫燃料

川崎重工將在2030前,使其所有發(fā)電發(fā)動機、燃?xì)廨啓C兼容氫燃料

知識圈
2026-01-25 22:09:57
連續(xù)2年丟冠!張本智和質(zhì)疑松島輝空:鷹眼應(yīng)查他的發(fā)球 我不甘心

連續(xù)2年丟冠!張本智和質(zhì)疑松島輝空:鷹眼應(yīng)查他的發(fā)球 我不甘心

風(fēng)過鄉(xiāng)
2026-01-26 18:14:48
當(dāng)年舉報畢福劍的張清,落得何種結(jié)局?

當(dāng)年舉報畢福劍的張清,落得何種結(jié)局?

深度報
2026-01-22 23:29:58
張雨綺被實名舉報代孕、插足婚姻,據(jù)稱已退出遼寧春晚;前夫袁巴元前妻時隔1年公布警方調(diào)查結(jié)果

張雨綺被實名舉報代孕、插足婚姻,據(jù)稱已退出遼寧春晚;前夫袁巴元前妻時隔1年公布警方調(diào)查結(jié)果

大風(fēng)新聞
2026-01-26 09:51:06
10億產(chǎn)業(yè)毀于貪婪?云南毒紅薯后續(xù):無辜農(nóng)戶畝虧數(shù)千

10億產(chǎn)業(yè)毀于貪婪?云南毒紅薯后續(xù):無辜農(nóng)戶畝虧數(shù)千

愛下廚的阿椅
2026-01-26 06:45:40
A股:不要動!不要動!千萬莫要太沖動!周二大盤或許這樣走!

A股:不要動!不要動!千萬莫要太沖動!周二大盤或許這樣走!

股市皆大事
2026-01-26 15:21:11
李湘被英國相關(guān)部門調(diào)查,涉嫌用藝術(shù)品國際洗錢,王詩齡已經(jīng)休學(xué)

李湘被英國相關(guān)部門調(diào)查,涉嫌用藝術(shù)品國際洗錢,王詩齡已經(jīng)休學(xué)

花哥扒娛樂
2026-01-25 17:10:22
特朗普徹底破防,直接開罵!多國被現(xiàn)場點名,氣憤十分窒息

特朗普徹底破防,直接開罵!多國被現(xiàn)場點名,氣憤十分窒息

毛豆論道
2026-01-25 18:13:28
退臟衣女記者全網(wǎng)社死!正臉很白凈,壞到骨子里,山東文旅遭圍攻

退臟衣女記者全網(wǎng)社死!正臉很白凈,壞到骨子里,山東文旅遭圍攻

觀察鑒娛
2026-01-26 08:49:45
6名中國男子日本滑雪被困“死亡谷”,歷時20小時獲救,事發(fā)前一日剛有人脫困,大使館兩度發(fā)文提醒注意安全

6名中國男子日本滑雪被困“死亡谷”,歷時20小時獲救,事發(fā)前一日剛有人脫困,大使館兩度發(fā)文提醒注意安全

極目新聞
2026-01-26 18:36:30
哈梅內(nèi)伊為什么慌了

哈梅內(nèi)伊為什么慌了

臧啟玉律師
2026-01-26 11:13:42
市民吐槽羊城通突然欠費一千多萬?官方回應(yīng)了

市民吐槽羊城通突然欠費一千多萬?官方回應(yīng)了

南方都市報
2026-01-26 20:17:06
國際金價首破5000美元大關(guān)!金飾克價已超1570元,專家預(yù)測仍將震蕩上行

國際金價首破5000美元大關(guān)!金飾克價已超1570元,專家預(yù)測仍將震蕩上行

紅星資本局
2026-01-26 12:27:06
拿600萬頂薪,7戰(zhàn)一共得9分!CBA頭號“混子”,慘不忍睹

拿600萬頂薪,7戰(zhàn)一共得9分!CBA頭號“混子”,慘不忍睹

弄月公子
2026-01-26 08:53:27
“戲混子”沒走,比資本家丑孩子更可怕的是“星二代”開始世襲了

“戲混子”沒走,比資本家丑孩子更可怕的是“星二代”開始世襲了

流史歲月
2026-01-26 10:58:30
英法德站隊美軍,7國包圍伊朗,普京通告全球,俄下決心抗美援伊

英法德站隊美軍,7國包圍伊朗,普京通告全球,俄下決心抗美援伊

戰(zhàn)旗紅
2026-01-23 22:10:09
佛山路邊停車收費出“奇招”,被稱“吃相難看”

佛山路邊停車收費出“奇招”,被稱“吃相難看”

中國新聞周刊
2026-01-26 16:47:50
2026-01-26 20:28:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
11123文章數(shù) 116945關(guān)注度
往期回顧 全部

科技要聞

印奇再上牌桌,階躍融資50億

頭條要聞

國企董事長打傷要債人被拘 被打男子:80萬元一直不給

頭條要聞

國企董事長打傷要債人被拘 被打男子:80萬元一直不給

體育要聞

叛逆的大公子,要砸了貝克漢姆這塊招牌

娛樂要聞

張雨綺被實名舉報代孕、插足婚姻

財經(jīng)要聞

從美式斬殺線看中國社會的制度韌性構(gòu)建

汽車要聞

賓利第四臺Batur敞篷版發(fā)布 解鎖四項定制創(chuàng)新

態(tài)度原創(chuàng)

本地
房產(chǎn)
藝術(shù)
公開課
軍事航空

本地新聞

云游中國|格爾木的四季朋友圈,張張值得你點贊

房產(chǎn)要聞

突發(fā)!三亞官宣,調(diào)整安居房政策!

藝術(shù)要聞

溥心畬的花鳥,淡雅清新

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

委代總統(tǒng)稱遭美威脅:馬杜羅已死

無障礙瀏覽 進入關(guān)懷版