国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

銀河通用王鶴:VLA相當(dāng)于機(jī)器人的「義務(wù)教育」

0
分享至

在近日的北京智源大會(huì)上,北京大學(xué)助理教授、北京銀河通用機(jī)器人創(chuàng)始人兼CTO-王鶴,在備受關(guān)注的「具身智能與人形機(jī)器人」論壇上發(fā)表了演講,詳細(xì)介紹了VLA對(duì)于機(jī)器人智能發(fā)展的作用,以及銀河通用目前所做的工作。

RoboX對(duì)其演講內(nèi)容進(jìn)行了整理提煉,供大家參考。

簡(jiǎn)述VLA

通用機(jī)器人的本質(zhì),是通過具身智能驅(qū)動(dòng)高自由度的仿人本體。它不能只做某一件具體的事情,而是要服務(wù)千行百業(yè),千家萬(wàn)戶。

面對(duì)這樣的目標(biāo),王鶴認(rèn)為,VLA(Vision-Language-Action Model)的應(yīng)用是一個(gè)重要轉(zhuǎn)折點(diǎn)。

他介紹稱,VLA的輸入是人類的自然語(yǔ)言指令,這也是實(shí)現(xiàn)通用的一個(gè)關(guān)鍵點(diǎn),比過去的復(fù)雜指令更加通用。

另一個(gè)重要的模態(tài)是視覺:視覺占到了人類日常信息輸入量的80%以上。所以要想實(shí)現(xiàn)通用機(jī)器人,先納入視覺模態(tài)是非常重要的。

模型的輸出是Action。在谷歌的RT-2框架中,模型直接生成Everyday Robot末端執(zhí)行器的瞬時(shí)三維平動(dòng)和三維旋轉(zhuǎn)。該動(dòng)作指令可通過逆運(yùn)動(dòng)學(xué)(IK)求解器轉(zhuǎn)換為關(guān)節(jié)空間的目標(biāo)位姿,最終由PID/PD控制器驅(qū)動(dòng)執(zhí)行機(jī)構(gòu)完成運(yùn)動(dòng)控制。

王鶴表示,如果類比人體的運(yùn)動(dòng)控制及腦部系統(tǒng),VLA用于實(shí)時(shí)生成軌跡,控制則交由機(jī)械臂,做IK后再基于positional(位置信息)執(zhí)行。所以VLA不是「小腦」,更多的是「大腦」。

今天的VLA強(qiáng)調(diào)快速的閉環(huán)反饋,它的頻率從剛開始的3赫茲,到現(xiàn)在最快可達(dá)50赫茲甚至更高的反饋頻率,這就是大腦中的快系統(tǒng)。而一些邏輯推理和長(zhǎng)程規(guī)劃的東西,它會(huì)思考得更慢。

為何不能押寶真實(shí)數(shù)據(jù)?

目前,國(guó)際上訓(xùn)練VLA最主流的方式,是通過真機(jī)采集大量的遙操作數(shù)據(jù),例如特斯拉的遙操工廠、斯坦福大學(xué)的ALOHA等等。

“現(xiàn)在市場(chǎng)或政府都在討論要不要建大型的遙操場(chǎng),到底要建多少才夠。我們可以先看一下自動(dòng)駕駛使用的‘人類的遙操數(shù)據(jù)’——既然車就是機(jī)器人,那方向盤就是遙操的主臂,人就是遙操員?!?/p>

王鶴表示,如今的頭部車企,會(huì)有約百萬(wàn)輛級(jí)別的車每天在路上跑。按照15-30秒是一個(gè)clip的標(biāo)準(zhǔn),日回流量為上億clips;而目前具身智能最大的數(shù)據(jù)集約為100萬(wàn)-200萬(wàn)clips的數(shù)據(jù)集。

車的自由度只有兩個(gè):方向盤+油門剎車。而人形機(jī)器人的一條手臂就有六七個(gè)自由度,一只靈巧手有20個(gè)自由度,全身加起來有接近百個(gè)自由度。

如今的頭部人形機(jī)器人廠商,包括銀河通用,在真機(jī)數(shù)據(jù)采集這件事上,與汽車百萬(wàn)臺(tái)的數(shù)量中間存在巨大差距,這就是為什么不能夠完全押寶真實(shí)數(shù)據(jù)。

“如果想押寶真實(shí)數(shù)據(jù),就得先把人形機(jī)器人量產(chǎn)到百萬(wàn)千萬(wàn)臺(tái),然后再讓百萬(wàn)千萬(wàn)人去做數(shù)據(jù)采集。這一點(diǎn)會(huì)讓人形機(jī)器人或者VLA的發(fā)展陷入長(zhǎng)期的無(wú)法落地的狀態(tài)。”

如何訓(xùn)練端到端VLA?

王鶴指出,在此背景下,最主要的學(xué)術(shù)觀點(diǎn)就是用合成仿真數(shù)據(jù)解決難題——銀河通用正在從機(jī)器人與物體間的交互,以及靈巧手抓取標(biāo)簽和軌跡中,研究視覺層面仿真和現(xiàn)實(shí)之間的差異(Sim2Real Gap),并且在仿真器中通過大量的強(qiáng)化學(xué)習(xí),自主探索靈巧手抓取的方式。

今年,銀河通用構(gòu)建了一個(gè)完全用合成數(shù)據(jù)訓(xùn)練的具身端到端VLA大模型。

王鶴稱,它背后是數(shù)10億級(jí)別的機(jī)械臂抓取的軌跡幀,每一幀都有VLA label。并且,這些數(shù)據(jù)覆蓋了桌面上可能出現(xiàn)的各種物體及相關(guān)信息:包括名字、材質(zhì)、形狀、堆放方式、光照背景,桌子顏色紋理,以及其他變量等。

與DeepSeek千億萬(wàn)億級(jí)別的參數(shù)量不同,銀河通用的GraspVLA模型,是一個(gè)幾十億參數(shù)的端到端快系統(tǒng)。

該模型的訓(xùn)練特點(diǎn),是在輸出時(shí)用到了「具身思維鏈」:“比如‘拿起盒子’的動(dòng)作,我們先輸出一個(gè)2D的Bounding Box(邊界框),再用該輸出去進(jìn)一步思考如何做6D Grasping Pose。這兩個(gè)輸出本質(zhì)上都是Auto-Regressive(自回歸模型)中的離散Token,基于它們,可以用Flow Matching的Action Expert,去輸出七自由度的Delta Action。就和Google RT-2一樣,Delta Action可實(shí)現(xiàn)瞬時(shí)平動(dòng),瞬時(shí)轉(zhuǎn)動(dòng)和瞬時(shí)夾爪的閉合?!?/p>

王鶴表示,GraspVLA是第一次將2D Bounding Box、6D Grasping Pose引入作為思維鏈(CoT),最終輸出Delta Action的。

數(shù)據(jù)價(jià)值與測(cè)試效果

GraspVLA首先采用的就是合成數(shù)據(jù),由于這些數(shù)據(jù)將物體的2D Bounding Box標(biāo)簽、6D Grasping Pose的抓取標(biāo)簽,動(dòng)作軌跡標(biāo)簽等融在一起合成,從而可以保證其一致性。

但是,合成數(shù)據(jù)畢竟不能囊括物理世界的一切信息,所以銀河通用也在使用互聯(lián)網(wǎng)的圖文視頻數(shù)據(jù)。這些數(shù)據(jù)也被加以注釋和描述,約有一億數(shù)據(jù)也做了Bounding Box的注釋,這些數(shù)據(jù)會(huì)與合成數(shù)據(jù)進(jìn)行混合訓(xùn)練。

“互聯(lián)網(wǎng)的很多數(shù)據(jù)沒有Action標(biāo)簽,只有Bounding Box標(biāo)簽,所以我們的模型就只訓(xùn)練到第一步Bounding Box,并不輸出CoT和Action。經(jīng)過這樣的混合訓(xùn)練,我們可將互聯(lián)網(wǎng)上所有的感知、視覺和語(yǔ)義全部吸納進(jìn)來。”

王鶴指出,經(jīng)過訓(xùn)練,銀河通用的VLA端到端模型產(chǎn)生了非常強(qiáng)的零樣本泛化能力——經(jīng)過與π0(PI發(fā)布的具身智能大模型)對(duì)比,在全新的環(huán)境中,π0需要在指定的測(cè)試環(huán)境中進(jìn)行一定的數(shù)據(jù)微調(diào)才能工作,而GraspVLA則完全不需要微調(diào),成功率還比前者更高。

“π0只用到了100萬(wàn)到幾百萬(wàn)規(guī)模的數(shù)據(jù)集,而且還是一個(gè)‘很臟’的數(shù)據(jù)集,包括一些跨本體、多形態(tài)的機(jī)械臂、人形、輪式混在一起。我們則是單一機(jī)械臂的大規(guī)模高質(zhì)量物理仿真數(shù)據(jù)集,對(duì)于光照背景、物體位置、平面高度、開放詞匯類別、閉環(huán)、魯棒性,都有充分的零樣本的泛化性。”

王鶴舉了一個(gè)「抓取玩具鴨」的案例,輸入的語(yǔ)言指令就是「抓一個(gè)鴨子」,同時(shí)隨機(jī)采取了各種干擾方式,夾爪還是成功夾起了目標(biāo)。他認(rèn)為,這足以證明GraspVLA不是一個(gè)開環(huán)的模型。

對(duì)于該模型的架構(gòu)和數(shù)據(jù),銀河通用也進(jìn)行了機(jī)制消融實(shí)驗(yàn)。

“π0的模型只用仿真數(shù)據(jù),因此它直接輸出Action,成功率沒有想象的那么高,在真實(shí)世界只有20%。而我們的仿真數(shù)據(jù)用到了2D Bounding Box、6D Grasping Pose的全部標(biāo)簽,成功率在真實(shí)世界達(dá)到了93%。”

王鶴還表示,如果和π0.5這種多任務(wù)平行訓(xùn)練的模式相比,采用CoT的VLA成功率高了20%以上。

“上述成果都是基于全合成數(shù)據(jù)。如果你給我真實(shí)世界的動(dòng)作數(shù)據(jù),只會(huì)讓我更強(qiáng)?!?/p>

在「零樣本泛化」層面,他舉了個(gè)例子——在針對(duì)某品牌礦泉水進(jìn)行訓(xùn)練時(shí),貨架上一排擺了4瓶,一共5排;而測(cè)試時(shí)變成一排3瓶,一共4排,位置大小、高度、顏色,蓋子的直徑全變了。

“如果只是簡(jiǎn)單記憶,肯定是會(huì)抓錯(cuò)的,而我們現(xiàn)在能夠零樣本的泛化在新的飲品上。這就意味著,如果需要進(jìn)廠或進(jìn)店培訓(xùn),可以在一類樣品中只培訓(xùn)一個(gè),它就自動(dòng)在同類物體之間泛化,這樣的VLA才能成為老百姓或是工廠超市用得起的技術(shù)?!?/p>

VLA是「義務(wù)教育階段」

王鶴認(rèn)為,這種采用合成數(shù)據(jù)的具身端到端VLA訓(xùn)練新范式,相當(dāng)于人類的義務(wù)教育——它能將一項(xiàng)技能在十億百億規(guī)模的數(shù)據(jù)中進(jìn)行充分學(xué)習(xí),在徹底學(xué)會(huì)以后,就可以真實(shí)世界用很少量的數(shù)據(jù)進(jìn)行簡(jiǎn)單培訓(xùn),這相當(dāng)于職業(yè)教育,讓機(jī)器人能夠舉一反三地執(zhí)行真實(shí)場(chǎng)景的任務(wù)。

他介紹稱,在「貨架取物」的任務(wù)中,過去是基于視覺,對(duì)抓取Pose進(jìn)行估計(jì),再進(jìn)行軌跡執(zhí)行。這需要把商品放得稀疏一些,因?yàn)檐壽E規(guī)劃必須要避障。

而在銀河通用的實(shí)際操作中,貨架上的商品種類繁多,形態(tài)各異,從瓶裝水到真空包裝的鹵蛋都有,而且燈光、展區(qū)、物品位置都和測(cè)試布置完全不一樣?!斑@一看就是閉環(huán)的模型?!彼f道。

靈巧手+VLA的效果

除了展示的二指夾爪,銀河通用也對(duì)靈巧手進(jìn)行了長(zhǎng)時(shí)間測(cè)試。

“今年我們用自研的合成管線,第一次將33種人類抓取模式全部覆蓋:使用剪刀的手勢(shì)、持針抓的手勢(shì)等等,這些數(shù)據(jù)全都能合成?!?/p>

王鶴說的這套基于數(shù)學(xué)優(yōu)化和物理仿真的全鏈路合成管線,能夠GPU并行地產(chǎn)生大量的靈巧手抓取數(shù)據(jù),覆蓋上千萬(wàn)個(gè)不同的物體的抓取。而且還不僅限于抓取,還有各種各樣的操作。

例如疊衣服的任務(wù),從帽衫、跨欄、背心、長(zhǎng)袖、短袖、無(wú)袖、長(zhǎng)褲、短褲,各種紋理的衣物,都能夠大規(guī)模合成數(shù)據(jù),從而進(jìn)行非常長(zhǎng)程的示范學(xué)習(xí)。

從王鶴演示的視頻來看,靈巧手在疊衣服過程中,即便面對(duì)種種干擾也還是繼續(xù)完成了任務(wù)。

另外,其合成數(shù)據(jù)還覆蓋了自然語(yǔ)言視覺、自然語(yǔ)言導(dǎo)航、尋物,跟隨人等等。其中,在復(fù)雜環(huán)境中,聽從復(fù)雜指令跟隨人的示范非常有趣:

“在從來沒見過的場(chǎng)景里,沒有SLAM,沒有定位建圖,機(jī)器人能在陌生環(huán)境中服從一個(gè)非常長(zhǎng)的指令,例如Move to the man on the right side,then follow the man until you see a sofa?!?/p>

在示范視頻中,可以看到收到該指令的機(jī)器狗,跟隨一個(gè)人直到沙發(fā)邊,然后便停止跟隨。另一個(gè)案例中,即便人都在拐角處走出視野了,機(jī)器狗還能繼續(xù)轉(zhuǎn)彎跟隨,而且在商場(chǎng)的復(fù)雜環(huán)境中也沒有失誤。

“這就是端到端方案的效果。頭部車廠是單天回流1億條clips,可是總不能找100萬(wàn)人去操作機(jī)器狗,所以這其中全合成數(shù)據(jù)?!?/p>

已開始常態(tài)化運(yùn)行

目前,這些VLA端到端模型的技術(shù),已經(jīng)在零售、接待、康養(yǎng)和工業(yè)領(lǐng)域中逐步落地。

例如在24小時(shí)藥店的貨架區(qū)和柜子存儲(chǔ)區(qū),銀河通用已經(jīng)部署了人形機(jī)器人進(jìn)行取貨工作,這樣的店已經(jīng)常態(tài)化運(yùn)行7家。

關(guān)于「全人形」的工作

全人形機(jī)器人無(wú)疑是更難的,而銀河通用也已經(jīng)在全人形上開展工作。

“現(xiàn)在我們基于強(qiáng)化學(xué)習(xí)端到端全身控制的遙操,不僅能蹲,還可以向前前傾,能抓握地面上的東西。我們也在各種各樣的環(huán)境中去做全身遙操,并且全時(shí)維持身體的平穩(wěn)?!?/p>

這就是銀河通用聯(lián)合清華大學(xué)弋力助理教授團(tuán)隊(duì)發(fā)布的OpenWBT,這是一款全開源、多機(jī)型、跨虛實(shí)人形機(jī)器人全身遙操作系統(tǒng)。

王鶴介紹稱,該方法將原子技能進(jìn)行編碼、解碼,再把中間串聯(lián)的連接,通過強(qiáng)化學(xué)習(xí)構(gòu)成技能組合。

“大家只需要大家用VR頭顯、手柄,筆記本就可以輕松搭建。它既能在真實(shí)世界里遙操,又能在仿真世界里遙操,還可以跨機(jī)型?!?/p>

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“讓整個(gè)文明在今晚滅絕!”特朗普模仿尼克松“發(fā)瘋策略”,為何不靈了?

“讓整個(gè)文明在今晚滅絕!”特朗普模仿尼克松“發(fā)瘋策略”,為何不靈了?

紅星新聞
2026-04-10 16:02:14
無(wú)牌路虎加近500元油后逃單;加油站:已報(bào)警,人還未找到;警方:車玻璃上貼有反光材質(zhì),無(wú)法看清車內(nèi)人員長(zhǎng)相

無(wú)牌路虎加近500元油后逃單;加油站:已報(bào)警,人還未找到;警方:車玻璃上貼有反光材質(zhì),無(wú)法看清車內(nèi)人員長(zhǎng)相

大風(fēng)新聞
2026-04-09 17:27:02
蓄電池生產(chǎn)企業(yè)要求員工體檢前吃排鉛藥“不吃藥不讓上班” 官方確認(rèn)情況屬實(shí)

蓄電池生產(chǎn)企業(yè)要求員工體檢前吃排鉛藥“不吃藥不讓上班” 官方確認(rèn)情況屬實(shí)

閃電新聞
2026-04-10 10:21:21
“以軍疑從樓頂扔下巴勒斯坦兒童”,李在明:若為真,可有措施?

“以軍疑從樓頂扔下巴勒斯坦兒童”,李在明:若為真,可有措施?

觀察者網(wǎng)
2026-04-10 12:08:12
巴基斯坦狠批以色列,并部署空軍進(jìn)入伊朗

巴基斯坦狠批以色列,并部署空軍進(jìn)入伊朗

世家寶
2026-04-10 13:49:33
新疆開行全國(guó)首創(chuàng)棉花班列+白貨集拼專列 鐵路棉花運(yùn)量大幅增長(zhǎng)

新疆開行全國(guó)首創(chuàng)棉花班列+白貨集拼專列 鐵路棉花運(yùn)量大幅增長(zhǎng)

環(huán)球網(wǎng)資訊
2026-04-10 14:38:18
商務(wù)部:首次確定英國(guó)、西班牙、哈薩克斯坦、肯尼亞、泰國(guó)等為年度主題國(guó)

商務(wù)部:首次確定英國(guó)、西班牙、哈薩克斯坦、肯尼亞、泰國(guó)等為年度主題國(guó)

澎湃新聞
2026-04-09 15:52:26
全紅嬋后續(xù):四人已被帶走,全網(wǎng)追問群主,陳芋汐確認(rèn)在群里!

全紅嬋后續(xù):四人已被帶走,全網(wǎng)追問群主,陳芋汐確認(rèn)在群里!

眼光很亮
2026-04-10 13:53:56
鄭麗文直言不諱:中國(guó)就是我們的國(guó)家,解放軍就是我們的堅(jiān)強(qiáng)后盾

鄭麗文直言不諱:中國(guó)就是我們的國(guó)家,解放軍就是我們的堅(jiān)強(qiáng)后盾

小熊看國(guó)際
2026-04-10 12:29:18
為什么現(xiàn)在的美女都長(zhǎng)一個(gè)樣?因?yàn)樗齻冋萦玫亩际峭惶揍t(yī)美模版

為什么現(xiàn)在的美女都長(zhǎng)一個(gè)樣?因?yàn)樗齻冋萦玫亩际峭惶揍t(yī)美模版

三言四拍
2026-04-10 08:36:03
美伊?xí)勗诩?,巴首都“紅色警戒”:貴賓配貼身保鏢,萬(wàn)名軍警執(zhí)勤,備多個(gè)談判地點(diǎn)

美伊?xí)勗诩?,巴首都“紅色警戒”:貴賓配貼身保鏢,萬(wàn)名軍警執(zhí)勤,備多個(gè)談判地點(diǎn)

紅星新聞
2026-04-10 16:02:14
賈平凹之女賈淺淺被調(diào)查,連米芾的芾字都不認(rèn)識(shí),引起書法界震怒

賈平凹之女賈淺淺被調(diào)查,連米芾的芾字都不認(rèn)識(shí),引起書法界震怒

潮鹿逐夢(mèng)
2026-04-10 12:43:59
42萬(wàn)開賣蔚來ES9,廣告法今晚都對(duì)李斌失效了

42萬(wàn)開賣蔚來ES9,廣告法今晚都對(duì)李斌失效了

智能車參考
2026-04-10 11:49:19
收下中國(guó)26萬(wàn)桶柴油后,馬科斯給南沙131處島礁改名!菲律賓變臉

收下中國(guó)26萬(wàn)桶柴油后,馬科斯給南沙131處島礁改名!菲律賓變臉

趣文說娛
2026-04-09 20:17:07
實(shí)錘!伊朗系發(fā)射C-802反艦導(dǎo)彈,或真打中了英國(guó)海軍龍?zhí)栻?qū)逐艦

實(shí)錘!伊朗系發(fā)射C-802反艦導(dǎo)彈,或真打中了英國(guó)海軍龍?zhí)栻?qū)逐艦

軍機(jī)Talk
2026-04-10 13:06:47
門店腰斬2萬(wàn)家!一線撤離、雜牌泛濫,國(guó)民快餐巨頭徹底扛不住了

門店腰斬2萬(wàn)家!一線撤離、雜牌泛濫,國(guó)民快餐巨頭徹底扛不住了

毒sir財(cái)經(jīng)
2026-04-09 16:14:36
全紅嬋后續(xù):三代體育世家,抵不過廣東窮孩子,更多內(nèi)幕被曝光!

全紅嬋后續(xù):三代體育世家,抵不過廣東窮孩子,更多內(nèi)幕被曝光!

眼光很亮
2026-04-10 14:38:37
王楚然折成這樣了肚子沒擠出一絲肉

王楚然折成這樣了肚子沒擠出一絲肉

可樂談情感
2026-04-10 15:56:11
追覓俞浩工作群發(fā)飆:把宇樹所有客戶搶過來,2億招首席科學(xué)家

追覓俞浩工作群發(fā)飆:把宇樹所有客戶搶過來,2億招首席科學(xué)家

三言科技
2026-04-10 14:05:08
國(guó)家其實(shí)已經(jīng)暗示得很明白了,只是很多人一直沒真正聽明白!

國(guó)家其實(shí)已經(jīng)暗示得很明白了,只是很多人一直沒真正聽明白!

安安說
2026-04-10 12:12:10
2026-04-10 17:36:49
RoboX
RoboX
關(guān)注智能汽車、機(jī)器人在內(nèi)的具身智能前沿科技
237文章數(shù) 2關(guān)注度
往期回顧 全部

科技要聞

馬斯克狂發(fā)大火箭也養(yǎng)不起AI 年虧50億美元

頭條要聞

外媒:美伊戰(zhàn)爭(zhēng)很可能再次爆發(fā) 且規(guī)??赡鼙却饲案?/h3>

頭條要聞

外媒:美伊戰(zhàn)爭(zhēng)很可能再次爆發(fā) 且規(guī)模可能比此前更大

體育要聞

17歲賺了一百萬(wàn)美元,25歲被CBA裁員

娛樂要聞

夏克立婚內(nèi)出軌 曾參加《爸爸去哪兒》

財(cái)經(jīng)要聞

愛爾眼科一院長(zhǎng)被指猥褻 總部:已被停職

汽車要聞

搭載第二代刀片電池及閃充技術(shù) 騰勢(shì)N8L閃充版預(yù)售35萬(wàn)起

態(tài)度原創(chuàng)

家居
時(shí)尚
藝術(shù)
游戲
軍事航空

家居要聞

復(fù)古風(fēng)格 自然簡(jiǎn)約

浪姐7亂成一鍋粥,誰(shuí)都沒想到翻紅擔(dān)當(dāng)竟然是她

藝術(shù)要聞

于小冬2026年4月油畫新作《花季》

GTA"點(diǎn)子王"銳評(píng)GTA6:延期可以接受100美元絕對(duì)不行

軍事要聞

特朗普:對(duì)美國(guó)與伊朗達(dá)成和平協(xié)議“非常樂觀”

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版