国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

手殘黨跪了,Pi 0.6機器人15分鐘學會擰螺絲,能進廠邊干邊學了

0
分享至



編輯|張倩

都說機器人學習速度慢,精細動作做不好,影響了進廠打螺絲的進度。以后,這可能不成問題了。

剛剛,具身智能領(lǐng)域扛把子 Physical Intelligence 公布了一項新進展:他們借助一種名為「RL token」的方法,僅需十幾分鐘或幾小時的真實世界經(jīng)驗,就能讓機器人掌握插網(wǎng)線、擰微型螺絲、插充電線等極其精細的操作。





過去一年,我們看到,機器人已經(jīng)能干不少粗略的活兒了,比如疊衣服、端盤子。但是,它們非常不擅長高精度的工作。比如「拿起螺絲刀」很容易,但「把螺絲刀嚴絲合縫地對準一顆極小的螺絲」卻極難。而在真實的工廠環(huán)境中,這種對于精準、靈巧和速度的追求恰恰是最不能妥協(xié)的,也是體力勞動中最難的部分。



以前,如果想讓機器人學會這種精細活,工程師得把機器人龐大的「主腦」(也就是處理所有信息的大模型)重新訓練一遍,這不僅計算量巨大,而且慢得讓人抓狂。

Physical Intelligence 想出了一個非常聰明的偷懶辦法:不重新訓練整個主腦,而是加一個專門負責精細動作的「外掛」——RL token。

靠著這個方法,機器人的進化速度極其驚人:每項任務(wù)中最精細的步驟速度提高到原來的 3 倍,這比人類遠程操縱機器人干活兒還要快。

「從經(jīng)驗中不斷進步」將是未來真實世界機器人大模型必備的核心能力。Physical Intelligence 表示,RLT 讓他們的模型離「直接在崗位上邊干邊學」又近了一步。

怎么做到的?

Physical Intelligence 之前已經(jīng)證明,通過一種名為 Recap 的方法,VLA 模型能夠借助強化學習從經(jīng)驗中學習。不過,Recap 主要是為了解決長周期任務(wù)的大規(guī)模強化學習問題;而在實際應(yīng)用中,我們往往更希望機器人能夠利用幾小時甚至幾分鐘的數(shù)據(jù),快速攻克某項技能里特別困難的個別環(huán)節(jié)。

打個比方,如果一個機器人需要極其精準地用螺絲刀進行組裝,我們完全可以只去微調(diào)「把螺絲刀對準螺絲」這一個具體動作。這可比把整個 VLA 大模型從頭到尾微調(diào)一遍要快得多。這種精準針對性的自適應(yīng)訓練,甚至可以直接在機器人正式部署上崗時邊干邊學。

理想情況下,這種能力的進化應(yīng)該直接在機器人的「大腦」里進行,并且能從每一次嘗試中榨取最多的學習經(jīng)驗。但要在短短幾小時內(nèi)把整個龐大復(fù)雜的 VLA 模型端到端地訓練一遍,不管是從算力還是從實操角度來看,都面臨著巨大的挑戰(zhàn)。

Physical Intelligence 的核心靈感是: 與其死磕大模型,不如讓 VLA 變通一下,使其能配合一個極其小巧、可以實時更新的模型來進行強化學習微調(diào)。他們訓練 VLA(Pi 0.6)輸出一個「RL token」,它就像是 VLA 內(nèi)部復(fù)雜思考過程的一份「極簡摘要」。然后,他們把這個 RL token 當作輸入,喂給那個能夠進行實時強化學習訓練的小模型。

這個 RL token 會被交給 Actor(負責輸出動作)和 Critic(負責評估打分)網(wǎng)絡(luò)使用。這兩個網(wǎng)絡(luò)采用了一種非常節(jié)省數(shù)據(jù)的 off-policy 強化學習方法進行訓練。正因為 Actor 和 Critic 處理的是這種高度壓縮的摘要信息,它們可以被設(shè)計成非常輕量級的神經(jīng)網(wǎng)絡(luò),直接在機器人本體上進行訓練,每秒能更新幾百次。這種極高的響應(yīng)速度,讓強化學習能夠在機器人每一次試錯之后,立刻去調(diào)整和改進它的行為。



RLT 技術(shù)首先會對 VLA 進行改造:加入一個由編碼器和解碼器組成的 Transformer 結(jié)構(gòu)。這個結(jié)構(gòu)被訓練去通過一個「信息瓶頸」來預(yù)測大模型的內(nèi)部特征(embeddings),從而壓縮出一個極簡的表達方式,這就是他們所說的 RL token。這個 token 濃縮了當前的觀察畫面中,強化學習的 Actor 和 Critic 所需要的所有關(guān)鍵信息。這樣一來,即便是極小的 Actor 和 Critic 網(wǎng)絡(luò),也能站在大模型豐富的內(nèi)部理解之上,學會如何改進動作。



拿到了 RL token 后,研究者只需讓機器人在現(xiàn)實中積攢幾小時甚至幾分鐘的數(shù)據(jù),就能通過在線強化學習來訓練小型的 Actor 和 Critic 網(wǎng)絡(luò)。為了讓這個過程效率拉滿,他們做了一些精心的設(shè)計:在線強化學習的 Actor 網(wǎng)絡(luò)必須和 VLA 在相同的動作空間里工作,與 VLA 的先驗行為保持一致,并且必須能從有限的真實世界數(shù)據(jù)里高效學習。

具體做法如下:

1. 預(yù)測「動作塊」: 強化學習策略預(yù)測的是一連串的「動作塊(action chunks)」,這與 VLA 習慣的動作結(jié)構(gòu)保持一致,而不是去控制那些極其底層的單個細微操作。這讓在線策略能夠直接調(diào)整那些在任務(wù)中真正具有時間跨度的重要連貫動作。

2. 學會「修改」而非「推翻」:強化學習策略不是從零開始瞎摸索的。Actor 網(wǎng)絡(luò)會先接收 VLA 預(yù)測出的動作作為輸入,所以它學到的是如何「編輯修改」VLA 的動作,而不是全盤替換。研究者會把策略更新的方向限制在這個參考動作附近,這樣當 VLA 原本的動作已經(jīng)算靠譜時,機器人的探索就不會亂來;只有當 Critic 網(wǎng)絡(luò)明確發(fā)現(xiàn)了更好的替代方案時,才會偏離原計劃。

3. 防止「抄作業(yè)」:為了防止小模型在訓練初期學會「偷懶」只知道照抄 VLA 的動作,他們還引入了「參考動作 dropout」機制,逼著 Actor 網(wǎng)絡(luò)保持自己獨立生成動作的能力。

4. 融入人類干預(yù):最后,可以選擇性地讓人類直接介入強化學習的更新過程。當機器人卡殼或犯錯時,人類的糾正動作會被直接折疊并反饋到訓練中。

正是這些選擇,讓在線強化學習變成了一個可復(fù)用的「通用配方」。它不需要針對具體任務(wù)做專門的工程設(shè)計,就能直接掛載到預(yù)訓練好的 VLA 模型上,去應(yīng)對各種不同的任務(wù)。

攻克精細操作的「最后關(guān)鍵一毫米」

研究者在四項需要在關(guān)鍵時刻具備極高精度的挑戰(zhàn)性任務(wù)上對 RLT 進行了測試:用電動螺絲刀將微小的 M3 螺絲擰入機械臂、系緊扎帶、插入網(wǎng)線以及插入電源線。

在這些任務(wù)中,通用的基礎(chǔ)模型通常能很好地完成大部分「粗略」動作,但任務(wù)最終的成功與否和速度快慢,往往取決于一個需要大量物理接觸的關(guān)鍵階段。在這個階段,位置、角度哪怕差之毫厘,或者時機稍微不對,都會導(dǎo)致徹底失敗。





拿擰螺絲來說,機器人必須在位置和旋轉(zhuǎn)角度上都達到亞毫米級的精準度,才能讓螺絲刀尖完美嵌入螺絲槽。要知道,螺絲刀尖距離機器人的「手」(抓取點)足足有 10 厘米遠,哪怕手腕只偏了一丁點兒,誤差到了刀尖上也會被無限放大。而且,從機器人自帶的手腕攝像頭視角看過去,這些細微的接觸過程甚至都很難看清楚。



在這四個任務(wù)中,基礎(chǔ)的 VLA 大模型在初期的表現(xiàn)都很棒(比如穩(wěn)穩(wěn)地拿起螺絲刀或扎帶),但在最需要精度的階段就會掉鏈子。RLT 技術(shù)就是專門為解決這個痛點設(shè)計的:研究者不再讓它從頭到尾重新學一遍整個任務(wù),而是利用在線強化學習專門去攻克這些「硬骨頭」環(huán)節(jié)。 實際測試表明,機器人僅僅利用 15 分鐘的真實世界數(shù)據(jù),就能優(yōu)化每個動作里最難的部分

他們將 RLT 應(yīng)用于這四項任務(wù)的關(guān)鍵階段,評估了它在兩種場景下的效果:一是短暫的關(guān)鍵插入動作(插線和插網(wǎng)線),二是時間跨度更長、變化更多的完整任務(wù)。

結(jié)果顯示,在所有四項任務(wù)中,與基礎(chǔ)模型相比,RLT 在速度和成功率上都迎來了突飛猛進。下面的圖表展示了訓練前后的性能對比,指標是「吞吐量」(即每 10 分鐘內(nèi)成功完成任務(wù)的次數(shù))。



下面的進度曲線圖展示了 RLT 在「插網(wǎng)線」任務(wù)上的吞吐量提升過程。整個訓練總共花了 2 個小時,但真正包含機器人動作的數(shù)據(jù)只有 15 分鐘,剩下的時間主要花在了機器復(fù)位重置和其他計算開銷上。



令人驚嘆的是,RLT 不僅僅比基礎(chǔ)模型強,它在「插網(wǎng)線」任務(wù)上的執(zhí)行速度,甚至超越了人類遠程操作的速度!正如柱狀圖所示,由最終強化學習策略完成的測試中,有一半的速度比數(shù)據(jù)集中任何一次人類的示范操作都要快。



看來,機器人進廠打工的進度,比預(yù)想中要快。

參考鏈接:https://www.pi.website/research/rlt

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
65歲退休阿姨傾訴:和3個大爺同居后,我才知道他們的真正意圖

65歲退休阿姨傾訴:和3個大爺同居后,我才知道他們的真正意圖

熱心柚子姐姐
2026-03-25 09:32:12
不吹不黑!原重慶市委副書記王鴻舉書法,一筆見風骨刷屏網(wǎng)絡(luò)

不吹不黑!原重慶市委副書記王鴻舉書法,一筆見風骨刷屏網(wǎng)絡(luò)

李橑在北漂
2026-03-20 10:31:54
自衛(wèi)隊現(xiàn)役軍官強闖我使館 中國軍號連續(xù)發(fā)聲

自衛(wèi)隊現(xiàn)役軍官強闖我使館 中國軍號連續(xù)發(fā)聲

看看新聞Knews
2026-03-25 17:33:25
副總理田紀云回憶政治生涯:我提拔過很多人,沒聽說誰因貪腐落馬

副總理田紀云回憶政治生涯:我提拔過很多人,沒聽說誰因貪腐落馬

大運河時空
2026-03-25 09:25:03
浙江省人大常委會決定任免部分省政府組成部門主要負責人

浙江省人大常委會決定任免部分省政府組成部門主要負責人

浙江發(fā)布
2026-03-26 10:04:01
美媒:“未來戰(zhàn)爭”輪廓在伊朗清晰浮現(xiàn)

美媒:“未來戰(zhàn)爭”輪廓在伊朗清晰浮現(xiàn)

參考消息
2026-03-25 10:25:08
55年授銜,當主席看到名單中有個熟悉的名字,大筆一揮:他不是少將

55年授銜,當主席看到名單中有個熟悉的名字,大筆一揮:他不是少將

睡前講故事
2025-12-12 13:58:11
真要走了?5首輪豪賭!火箭再梭哈,杜蘭特+字母哥?

真要走了?5首輪豪賭!火箭再梭哈,杜蘭特+字母哥?

籃球盛世
2026-03-25 22:25:51
拒給侄子擔保80萬,大哥罵我無情,我卻查到他早已偷偷轉(zhuǎn)移了財產(chǎn)

拒給侄子擔保80萬,大哥罵我無情,我卻查到他早已偷偷轉(zhuǎn)移了財產(chǎn)

千秋文化
2026-03-24 21:39:05
謝苗新片火出國外了!爛番茄100分封神,已定檔5月上映

謝苗新片火出國外了!爛番茄100分封神,已定檔5月上映

喜歡歷史的阿繁
2026-03-26 01:17:02
打瘋了!76人狂轟157分創(chuàng)紀錄:全場狂歡慶祝,2核心復(fù)出轟63分

打瘋了!76人狂轟157分創(chuàng)紀錄:全場狂歡慶祝,2核心復(fù)出轟63分

體壇小李
2026-03-26 10:14:39
韓媒臆想:中國隊歡呼吧,國際足聯(lián)同意他們替補世界杯

韓媒臆想:中國隊歡呼吧,國際足聯(lián)同意他們替補世界杯

體壇風之子
2026-03-26 07:00:06
公安部172號令落地:70歲駕照不再終身有效,2026年這些事必須辦

公安部172號令落地:70歲駕照不再終身有效,2026年這些事必須辦

小怪吃美食
2026-03-24 17:29:52
陳寶國近況令人揪心!發(fā)福顯老像80歲,獨子43歲不婚成心病

陳寶國近況令人揪心!發(fā)福顯老像80歲,獨子43歲不婚成心病

娛小余
2026-03-24 20:58:07
菲律賓前總統(tǒng)杜特爾特女兒的彈劾聽證會啟動:政治“生死戰(zhàn)”打響

菲律賓前總統(tǒng)杜特爾特女兒的彈劾聽證會啟動:政治“生死戰(zhàn)”打響

銘記人類輝煌
2026-03-26 09:09:05
島國暗黑界新晉女神,超模身材比肩安齋與棲花,堪稱最強接班人!

島國暗黑界新晉女神,超模身材比肩安齋與棲花,堪稱最強接班人!

碧波萬覽
2026-03-26 05:30:03
特斯拉 Model 3 標準版要來了!配置太離譜

特斯拉 Model 3 標準版要來了!配置太離譜

花果科技
2026-03-25 16:23:07
王石不裝了,頭套也不戴了,直接光頭,不敢喝酒,只喝茶

王石不裝了,頭套也不戴了,直接光頭,不敢喝酒,只喝茶

西樓知趣雜談
2026-03-02 09:44:56
一張臉,全球都在“抄作業(yè)”

一張臉,全球都在“抄作業(yè)”

中國新聞周刊
2026-03-25 08:35:50
掛斷王毅電話后,伊朗向全球發(fā)出"照會",把小薩拉曼鼻子都氣歪了

掛斷王毅電話后,伊朗向全球發(fā)出"照會",把小薩拉曼鼻子都氣歪了

聞香閣
2026-03-25 22:48:26
2026-03-26 11:07:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12598文章數(shù) 142593關(guān)注度
往期回顧 全部

科技要聞

硅谷因AI大裁員?一線工程師戳破真相

頭條要聞

上海36歲女子嫁23歲小伙 拿千萬元房產(chǎn)99%份額"閃離"

頭條要聞

上海36歲女子嫁23歲小伙 拿千萬元房產(chǎn)99%份額"閃離"

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財經(jīng)要聞

黃仁勛:芯片公司的時代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
時尚
藝術(shù)
手機
軍事航空

教育要聞

ISAR選修課丨重磅古典占星預(yù)測課程:整合6大預(yù)測技法,從入門到實戰(zhàn)

《非窮盡列舉》,好看又絕望

藝術(shù)要聞

哪一座橋不是風景?

手機要聞

米粉都更新了嗎?小米澎湃OS 3.1 重磅推送,實現(xiàn)安卓蘋果生態(tài)互通

軍事要聞

伊朗重申非交戰(zhàn)國家船只可安全通過霍爾木茲海峽

無障礙瀏覽 進入關(guān)懷版