国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

極數(shù)迭代CEO佟顯喬:具身智能的數(shù)據(jù)工程解決方案思考丨GAIR 2025

0
分享至



具身數(shù)據(jù)是未來幾年一個較有確定性的好賽道。

作者丨高景輝

編輯丨馬曉寧

具身智能作為連接虛擬模型與物理世界的核心賽道,正成為行業(yè)競逐的焦點。而第八屆 GAIR 全球人工智能與機器人大會,便聚焦人工智能與機器人領(lǐng)域的前沿突破與產(chǎn)業(yè)落地,于日前圓滿落幕。

本次大會上,深圳極數(shù)迭代科技創(chuàng)始人佟顯喬博士,帶來了關(guān)于具身智能數(shù)據(jù)領(lǐng)域的深度分享。

在語言大模型憑借海量數(shù)據(jù)實現(xiàn)爆發(fā)式增長的背景下,具身智能與機器人領(lǐng)域卻面臨著數(shù)據(jù)供給的顯著缺口 —— 現(xiàn)有數(shù)據(jù)集規(guī)模僅達數(shù)千至十幾萬小時,與語言模型的海量數(shù)據(jù)儲備相去甚遠。數(shù)據(jù)作為具身智能發(fā)展的核心基石,其稀缺性、高成本與碎片化問題,已成為制約機器人泛化能力提升的關(guān)鍵瓶頸。

而佟顯喬博士結(jié)合自身深耕行業(yè)的實踐經(jīng)驗,從具身智能數(shù)據(jù)的核心價值、當(dāng)前行業(yè)面臨的三大瓶頸、數(shù)據(jù)工程的系統(tǒng)屬性,到針對性的產(chǎn)品解決方案展開全面闡述,為行業(yè)破解數(shù)據(jù)難題、推動具身智能規(guī)模化發(fā)展提供了極具參考價值的思路。

以下為佟顯喬博士的演講內(nèi)容,雷峰網(wǎng)做了不改變原意的編輯。

01

具身智能的數(shù)據(jù)價值

首先,既然大家都來到GAIR大會數(shù)據(jù)專場,就應(yīng)該知道從上一波語言大模型的發(fā)展來看,數(shù)據(jù)的需求量是特別大的。而在具身智能、數(shù)據(jù)和機器人這個領(lǐng)域,現(xiàn)在的這些數(shù)據(jù)其實是遠遠不夠的。目前普遍的數(shù)據(jù)集,數(shù)據(jù)量才幾千到上萬小時,最近美國的幾家公司也才推進到十幾萬小時。相比于語言模型那種動輒成千上萬的海量互聯(lián)網(wǎng)數(shù)據(jù),差距是很明顯的。


我覺得具身數(shù)據(jù)是未來幾年一個較有確定性的好賽道,雖然它現(xiàn)在的數(shù)據(jù)量非常少,但我們可以預(yù)見,不管未來具身模型怎么發(fā)展、本體怎么迭代,數(shù)據(jù)始終是基石,所以未來幾年的數(shù)據(jù)體量會非常大。因此我們說,具身數(shù)據(jù)服務(wù)會是下一個 Scale AI,或者說是機器人領(lǐng)域里一個比較確定性的數(shù)據(jù)服務(wù)機會。


02

具身智能的數(shù)據(jù)瓶頸

目前具身數(shù)據(jù)的瓶頸有哪些呢?其實類比 Scaling Law 來看,現(xiàn)在機器人的泛化能力還差很多。主要問題是模仿學(xué)習(xí)需要適配不同的本體、不同的數(shù)據(jù)、不同的場景,而現(xiàn)在我們的數(shù)據(jù)采集能力、空間泛化能力都是極其不夠的。根據(jù)一些學(xué)術(shù)論文的研究,泛化能力其實和數(shù)據(jù)數(shù)量呈冪律關(guān)系。根本問題在于,現(xiàn)在我們想讓機器人達到比較好的任務(wù)成功率,以現(xiàn)有數(shù)據(jù)量來看遠遠不夠。而且最近的一些工作也已經(jīng)證明,在機器人領(lǐng)域,Scaling Law 其實仍然是存在的,所以我們追求的還是 “大力出奇跡”——更多的數(shù)據(jù)大概率能帶來更好的效果,所以一定要解決數(shù)據(jù)需求的瓶頸。


然后說一下具身智能的技術(shù)路線。原本我們說的 “小腦加大腦” 路線,對應(yīng)的就是 system 1 和 system 2,右邊是端到端的數(shù)據(jù)路線。它雖然分成了不同的技術(shù)路線,但中間這塊相當(dāng)于把小腦的部分拆成了一些技能,或者說是通用技能。不管是這種分層的路線,還是端到端的路線,對具身數(shù)據(jù)的需求都是非常大的。


從這個角度來看,我們逐一分析一下:system 2 就是 “大腦”,主要負責(zé)理解物理世界的常識、理解人類的指令,把一個相對復(fù)雜的任務(wù)拆分成細節(jié)任務(wù),這些都可以看作是邏輯思考;而像小腦或者說技能層面,就包括抓取、按壓這些動作,都需要人類給它示教數(shù)據(jù),還有機器人的感知數(shù)據(jù)。它要泛化到不同的場景,就得多覆蓋各種不同的場景。而且對于小腦來說,很多都需要人類標注,就像我們做自動駕駛需要標框框一樣,做機器人數(shù)據(jù),你也得標關(guān)鍵幀、標它的動作、標它在干什么;端到端訓(xùn)練就是大腦加小腦的整合,不同的流派有不同的方法,但歸根結(jié)底,我們都需要不同的數(shù)據(jù),需要人的參與,需要覆蓋不同的場景、實現(xiàn)不同任務(wù)的泛化。


從定性分析來看,其實就是需要大腦的數(shù)據(jù)加上小腦的數(shù)據(jù),再乘以不同的機器人類別——因為現(xiàn)在跨本體的數(shù)據(jù)復(fù)用還是很難的。要滿足這個需求,有兩種方式:一種是放大人類的標注和演示,這就需要巨大的成本,因為可能需要更多不同的本體,投入會非常大;另一種是做更多泛化的任務(wù)和場景,這同樣是一筆很大的成本。

所以這些瓶頸主要集中在三點:第一是成本飛漲,現(xiàn)在很難承擔(dān)大規(guī)模高質(zhì)量的數(shù)據(jù)采集成本,不管是用動捕還是用真機采集數(shù)據(jù),都是很大的投入;第二是因為現(xiàn)在模型的跨本體能力弱,所以數(shù)據(jù)形成了很多數(shù)據(jù)孤島,也很難制定統(tǒng)一的標準;第三是很難評估現(xiàn)在這些數(shù)據(jù)的實際能力,這就是我們面臨的主要數(shù)據(jù)瓶頸。


03

具身智能數(shù)據(jù)工程

具身智能本身不是簡單的訓(xùn)模型,具身智能數(shù)據(jù)本身也是一項工程化工作。它從底層的采集設(shè)計,到數(shù)據(jù)標準的確立,再到真實環(huán)境、仿真環(huán)境下怎么采集、怎么部署,都是一系列的工程工作。


現(xiàn)在數(shù)據(jù)集的現(xiàn)狀是,有各種不同的數(shù)據(jù)集,包括操作類、移動類、邏輯語義類、導(dǎo)航類的數(shù)據(jù),但是大家都是各做各的。以后會不會有一個通用模型,把這些數(shù)據(jù)都聯(lián)系到一起?目前來看還不知道,或者說還做不到。


再說一下現(xiàn)在的真機采集仿真采集。真機采集現(xiàn)在有很多方式,比如遙操、示教,像右邊這種用末端執(zhí)行器動捕人類視覺數(shù)據(jù)來學(xué)習(xí),還有下面這種遙操同構(gòu)的遙操視學(xué)光冠操作,各種不同的數(shù)據(jù)采集方式都有。現(xiàn)在沒法說哪個數(shù)據(jù)好、哪個數(shù)據(jù)不好,它們在不同維度上都有各自的優(yōu)勢和劣勢,不同的團隊、不同的公司都在不同方向上做探索。


下一部分是仿真數(shù)據(jù),目前在軌跡合成、姿態(tài)合成、預(yù)測生成、決策生成這些方面,都有不同的探索。這個方向上大家也在嘗試不同的東西,因為有一些團隊認為,用仿真數(shù)據(jù)可能比真機數(shù)據(jù)能達到更好的效果。這就是真實數(shù)據(jù)和仿真數(shù)據(jù)的現(xiàn)狀。


那我們怎么解決這些問題呢?目前來看沒有一個通用的解法。在我們看來,就是針對不同的場景做不同的系統(tǒng)設(shè)計,在高效性和可靠性上找到最佳平衡。我們希望能確立一些數(shù)據(jù)標準,在真機數(shù)據(jù)、真實世界數(shù)據(jù)或者仿真數(shù)據(jù)上,都能實現(xiàn)成本降低和效率提升,最后在部署時,對接不同的機器人、不同的場景也能做到一些優(yōu)化。


那數(shù)據(jù)孤島問題怎么解決?從圖表上來看,縱軸代表數(shù)據(jù)的有效性,或者說越符合真機的數(shù)據(jù),比如遙操的固定真機,質(zhì)量是最高的;橫軸代表數(shù)據(jù)的通用性,比如人類的視頻數(shù)據(jù),數(shù)據(jù)量最大,但目前來看訓(xùn)練模型的效果可能是最差的。對于這種一個個的數(shù)據(jù)孤島,我們目前的解決方案就是應(yīng)收盡收。


04

具身智能數(shù)據(jù)平臺AIRSPEED

下面再說說我們公司,包括AIRS(深圳市人工智能與機器人研究院)做的具身智能數(shù)據(jù)平臺 AIRSPEED 的相關(guān)工作。我們希望在我們的平臺上,能兼容不同的機器人本體和遙操設(shè)備。通過不同的機器人接口、遙操接口、仿真接口,實現(xiàn)真機、仿真,以及不同機器人之間的良好兼容性。我們希望憑借這種高軟硬件兼容性,加上技術(shù)兼容性,實現(xiàn)生產(chǎn)的柔性化,更高效地生產(chǎn)數(shù)據(jù)。


在我們的架構(gòu)里,我們盡量減少用戶的編程需求。其實就是配置好遙操接口、機器人接口、數(shù)據(jù)集服務(wù),然后通過我們的一個接口,實現(xiàn)全流程順暢的數(shù)據(jù)生產(chǎn)。我們希望做成一個第三方平臺,減少客戶去適配不同機器人、不同數(shù)據(jù)的復(fù)雜工作。


目前來看,我們不只是一個技術(shù)解決方案,更是一個管理解決方案平臺。當(dāng)你的數(shù)據(jù)達到一定規(guī)模后,其實還需要管理大規(guī)模的采集員、標注員,還要做任務(wù)調(diào)度、數(shù)據(jù)處理和標注,這是一系列系統(tǒng)工程,這些都可以通過我們的平臺實現(xiàn)高效管理。


再說說我們平臺的優(yōu)勢:針對真機數(shù)據(jù),我們提出 “萬物皆可達”,就是適配不同的采集方案,從遙操到示教類,包括光冠、視覺位姿、動捕,我們分三個階段都會做兼容,盡量做到一個統(tǒng)一接口,讓更多客戶和平臺來適配我們的解決方案。


對于仿真數(shù)據(jù),我們提出 “萬物皆可生”,從軌跡合成、資產(chǎn)合成、決策生成和預(yù)測生成這四個維度,對不同的仿真平臺、不同的資產(chǎn)做到統(tǒng)一管理。


我們這個平臺主要是希望提高數(shù)據(jù)生產(chǎn)效率,所以也引入了 AI Agent 的概念,減輕任務(wù)管理員、任務(wù)調(diào)度員等群體的工作負擔(dān)。同時我們也加入了大模型,用來做自動標注、自動資源管理,還有一些訓(xùn)練模型的評測。其實我們就是想做具身智能數(shù)據(jù)的一個工具鏈,讓大家能用這個工具鏈更高效地訓(xùn)練模型,快速部署,拿到自己想要的效果。


我們在公司和 AIRS 也做了一些嘗試,目前不管是真機還是仿真,都具備了快速迭代模型的能力。在真實世界數(shù)據(jù)集的構(gòu)建上,我們實現(xiàn)了30多倍的加速,在仿真方面也有3.5倍的加速。我們希望以這個速度,用飛輪效應(yīng)的方式,讓模型迭代效率不斷提升。


這是我們的數(shù)據(jù)管理平臺,我們以數(shù)據(jù)集交付為中心,負責(zé)發(fā)布任務(wù)、管理設(shè)備、標注數(shù)據(jù),并且把任務(wù)、設(shè)備、標注、用戶分開管理。不同的客戶都可以在我們的平臺上直接做任務(wù)管理和生成,不管你是用遙操作、動捕,還是 UMI 這種設(shè)備,都可以接入我們平臺,實現(xiàn)統(tǒng)一的數(shù)據(jù)管理。


我們現(xiàn)在也有一些合作伙伴,包括遙操設(shè)備的合作伙伴、數(shù)據(jù)采集盒子的供應(yīng)商,還有不同的機器人廠商,都在和我們開展合作,這也是我們硬件產(chǎn)品的一些相關(guān)說明。最后再介紹一下公司:我們叫深圳極數(shù)迭代科技有限公司,是 AIRS 孵化的企業(yè),主要專注于機器人數(shù)據(jù)、具身數(shù)據(jù)方面的探索。

我們覺得在具身智能這個大賽道上,目前來看還有很多不確定性,但具身智能數(shù)據(jù)是這個不確定性中一個確定性的方向,所以我們希望從具身智能數(shù)據(jù)入手,做一些嘗試。我們公司主要以具身智能數(shù)據(jù)的 AIRSPEED 平臺為核心產(chǎn)品,用來提高數(shù)據(jù)效率。我們也有一些相關(guān)的著作,還有一本相關(guān)的書籍叫《具身智能數(shù)據(jù)工程》。

最后再跟大家大概講一下我們平臺的處理方式:進來之后可以以數(shù)據(jù)集為中心,建立不同的數(shù)據(jù)集,選擇不同的本體設(shè)備、遙操設(shè)備,做一些描述,然后從這個角度建立數(shù)據(jù)集,還可以克隆數(shù)據(jù)集。在數(shù)據(jù)集里面,我們可以新建不同的任務(wù),比如在桌子上拿一些玩具這樣的任務(wù)。我們還可以通過大模型批量建任務(wù),因為當(dāng)數(shù)據(jù)量越來越多的時候,很難靠人類去想這么多任務(wù)。批量建立任務(wù)之后,就發(fā)給采集員去采集數(shù)據(jù)——這是一個采集流程,用的是星塵機器人,做的是簡單的 pick and place 任務(wù)。

采集完任務(wù)后,就把數(shù)據(jù)上傳到平臺,標注員接到指令后就可以進行標注,這里展示的是關(guān)鍵幀標注,就是在機器人 pick 玩具的時候,做一些關(guān)鍵幀的標注。標注完之后,審核員可以通過,也可以駁回,比如覺得標注不標準或者有其他問題,像這個案例里,明顯機器人操作有問題,就把它刪掉。完成之后,就可以導(dǎo)出標準的數(shù)據(jù)集,既可以是 JSON,也可以是 lerobot 格式,拿到數(shù)據(jù)集之后就可以直接用來訓(xùn)練模型。

我們現(xiàn)在支持不同的機器人,比如星塵的機器人;還有不同的遙操設(shè)備,比如同構(gòu)的 Open Arm 機械臂、大象機器人配套的 VR 控制眼鏡,還有諾亦騰的動捕設(shè)備。我們也支持在仿真環(huán)境里做遙操和數(shù)據(jù)采集,比如 ALOHA 的同構(gòu)機械臂。

以上就是演講的所有內(nèi)容,希望大家一起在具身智能數(shù)據(jù)這個領(lǐng)域攜手合作。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
敢威脅中方航母安全,解放軍給出12字回應(yīng),句句不給日本情面?

敢威脅中方航母安全,解放軍給出12字回應(yīng),句句不給日本情面?

東方點兵
2025-12-20 18:55:06
12月20日金價:不出意外,黃金2026年可能這么走!

12月20日金價:不出意外,黃金2026年可能這么走!

說故事的阿襲
2025-12-20 05:29:13
美航母艦隊進戰(zhàn)位,委電話打到北京,救不救馬杜羅?王毅斬釘截鐵

美航母艦隊進戰(zhàn)位,委電話打到北京,救不救馬杜羅?王毅斬釘截鐵

芊芊子吟
2025-12-19 10:40:13
39 歲湖北跑圈女神錢志離世!月跑 3 個半馬,留下3 個年幼孩子!

39 歲湖北跑圈女神錢志離世!月跑 3 個半馬,留下3 個年幼孩子!

云中浮生
2025-12-20 20:33:30
今日冬至,提醒中老年人:多吃三樣,忌三件事,平安度過數(shù)九寒天

今日冬至,提醒中老年人:多吃三樣,忌三件事,平安度過數(shù)九寒天

Lily美食談
2025-12-21 00:13:24
河南美女“大晨”去世,年僅28歲,開的奧迪,喝酒畫面曝光引唏噓

河南美女“大晨”去世,年僅28歲,開的奧迪,喝酒畫面曝光引唏噓

詩意世界
2025-12-17 10:00:03
林峯前任怕失自由不肯生B狂開工!百億闊太家世神秘不讓父母露面

林峯前任怕失自由不肯生B狂開工!百億闊太家世神秘不讓父母露面

一盅情懷
2025-12-19 15:00:07
福建艦標配,直20F反潛直升機大圖來了,反艦反潛全能

福建艦標配,直20F反潛直升機大圖來了,反艦反潛全能

三叔的裝備空間
2025-12-20 19:58:54
美媒大肆炒作,美企CEO無語:是我們求中企救命啊…

美媒大肆炒作,美企CEO無語:是我們求中企救命啊…

觀察者網(wǎng)
2025-12-20 22:10:06
善惡終有報!拿下冠軍的張本智和,做夢也想不到,日媒居然這么做

善惡終有報!拿下冠軍的張本智和,做夢也想不到,日媒居然這么做

簡讀視覺
2025-12-19 20:18:39
王祖藍倆女兒同一天慶生,大女兒像爸小女兒像媽,倆娃身高都隨媽

王祖藍倆女兒同一天慶生,大女兒像爸小女兒像媽,倆娃身高都隨媽

阿搏體育
2025-12-21 00:12:42
真要降級了!U15東亞杯中國繼續(xù)墊底:下輪必須贏中國香港!

真要降級了!U15東亞杯中國繼續(xù)墊底:下輪必須贏中國香港!

邱澤云
2025-12-20 16:59:39
華子轟26+12仍無緣今日最佳!對不起,你碰到不講理的文班亞馬了

華子轟26+12仍無緣今日最佳!對不起,你碰到不講理的文班亞馬了

世界體育圈
2025-12-20 13:38:48
CBA官方首周收視戰(zhàn)報:抖音平臺累計觀看人次4.36億,累計觀看人數(shù)8502萬

CBA官方首周收視戰(zhàn)報:抖音平臺累計觀看人次4.36億,累計觀看人數(shù)8502萬

懂球帝
2025-12-20 18:24:15
場均21+3!火箭棄將或變?nèi)餍??斯通失算了!休賽期不該放走?>
    </a>
        <h3>
      <a href=熊哥愛籃球
2025-12-20 20:46:39
剛打開陳曉新劇,我兩眼一黑:女主這是穿著優(yōu)衣庫穿越來的嗎?

剛打開陳曉新劇,我兩眼一黑:女主這是穿著優(yōu)衣庫穿越來的嗎?

桑葚愛動畫
2025-12-11 13:11:11
伊薩克:這周我的訓(xùn)練情況很好,對陣熱刺會是場精彩的比賽

伊薩克:這周我的訓(xùn)練情況很好,對陣熱刺會是場精彩的比賽

懂球帝
2025-12-21 01:17:58
工信部一錘定音:新國標電動車可載人、能安裝后視鏡、續(xù)航80公里

工信部一錘定音:新國標電動車可載人、能安裝后視鏡、續(xù)航80公里

電動車的那些事兒
2025-12-18 07:51:56
美國FBI懸賞千萬美元全球通緝中國90后關(guān)天峰

美國FBI懸賞千萬美元全球通緝中國90后關(guān)天峰

勇士軍武閑談
2025-12-19 19:41:01
41歲戚薇骨瘦如柴不長肉!一家四口度假被偶遇,Lucky長大變了樣

41歲戚薇骨瘦如柴不長肉!一家四口度假被偶遇,Lucky長大變了樣

文刀貳
2025-12-20 22:27:38
2025-12-21 01:31:00
雷峰網(wǎng) incentive-icons
雷峰網(wǎng)
關(guān)注智能與未來!
68139文章數(shù) 656023關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

印度官員:若"臺灣有事" 印度不太可能像西方那樣回應(yīng)

頭條要聞

印度官員:若"臺灣有事" 印度不太可能像西方那樣回應(yīng)

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會陣容曝光,豪華陣仗

財經(jīng)要聞

求解“地方財政困難”

汽車要聞

嵐圖推進L3量產(chǎn)測試 已完成11萬公里實際道路驗證

態(tài)度原創(chuàng)

房產(chǎn)
游戲
親子
教育
軍事航空

房產(chǎn)要聞

廣州有態(tài)度,一座國際化社區(qū)給出的城市答案

新勞拉·克勞馥演員回憶《完美黑暗》項目取消經(jīng)歷

親子要聞

邊牧和德牧帶娃在外面挖坑,三個小朋友加起來800個心眼子!

教育要聞

高二英語詞匯量有3000,成績只有40多分,原因有兩個

軍事要聞

澤連斯基:前線局勢愈發(fā)艱難

無障礙瀏覽 進入關(guān)懷版