国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

手殘黨跪了,Pi 0.6機器人15分鐘學會擰螺絲,能進廠邊干邊學了

0
分享至



編輯|張倩

都說機器人學習速度慢,精細動作做不好,影響了進廠打螺絲的進度。以后,這可能不成問題了。

剛剛,具身智能領域扛把子 Physical Intelligence 公布了一項新進展:他們借助一種名為「RL token」的方法,僅需十幾分鐘或幾小時的真實世界經(jīng)驗,就能讓機器人掌握插網(wǎng)線、擰微型螺絲、插充電線等極其精細的操作。





過去一年,我們看到,機器人已經(jīng)能干不少粗略的活兒了,比如疊衣服、端盤子。但是,它們非常不擅長高精度的工作。比如「拿起螺絲刀」很容易,但「把螺絲刀嚴絲合縫地對準一顆極小的螺絲」卻極難。而在真實的工廠環(huán)境中,這種對于精準、靈巧和速度的追求恰恰是最不能妥協(xié)的,也是體力勞動中最難的部分。



以前,如果想讓機器人學會這種精細活,工程師得把機器人龐大的「主腦」(也就是處理所有信息的大模型)重新訓練一遍,這不僅計算量巨大,而且慢得讓人抓狂。

Physical Intelligence 想出了一個非常聰明的偷懶辦法:不重新訓練整個主腦,而是加一個專門負責精細動作的「外掛」——RL token。

靠著這個方法,機器人的進化速度極其驚人:每項任務中最精細的步驟速度提高到原來的 3 倍,這比人類遠程操縱機器人干活兒還要快。

「從經(jīng)驗中不斷進步」將是未來真實世界機器人大模型必備的核心能力。Physical Intelligence 表示,RLT 讓他們的模型離「直接在崗位上邊干邊學」又近了一步。

怎么做到的?

Physical Intelligence 之前已經(jīng)證明,通過一種名為 Recap 的方法,VLA 模型能夠借助強化學習從經(jīng)驗中學習。不過,Recap 主要是為了解決長周期任務的大規(guī)模強化學習問題;而在實際應用中,我們往往更希望機器人能夠利用幾小時甚至幾分鐘的數(shù)據(jù),快速攻克某項技能里特別困難的個別環(huán)節(jié)。

打個比方,如果一個機器人需要極其精準地用螺絲刀進行組裝,我們完全可以只去微調(diào)「把螺絲刀對準螺絲」這一個具體動作。這可比把整個 VLA 大模型從頭到尾微調(diào)一遍要快得多。這種精準針對性的自適應訓練,甚至可以直接在機器人正式部署上崗時邊干邊學。

理想情況下,這種能力的進化應該直接在機器人的「大腦」里進行,并且能從每一次嘗試中榨取最多的學習經(jīng)驗。但要在短短幾小時內(nèi)把整個龐大復雜的 VLA 模型端到端地訓練一遍,不管是從算力還是從實操角度來看,都面臨著巨大的挑戰(zhàn)。

Physical Intelligence 的核心靈感是: 與其死磕大模型,不如讓 VLA 變通一下,使其能配合一個極其小巧、可以實時更新的模型來進行強化學習微調(diào)。他們訓練 VLA(Pi 0.6)輸出一個「RL token」,它就像是 VLA 內(nèi)部復雜思考過程的一份「極簡摘要」。然后,他們把這個 RL token 當作輸入,喂給那個能夠進行實時強化學習訓練的小模型。

這個 RL token 會被交給 Actor(負責輸出動作)和 Critic(負責評估打分)網(wǎng)絡使用。這兩個網(wǎng)絡采用了一種非常節(jié)省數(shù)據(jù)的 off-policy 強化學習方法進行訓練。正因為 Actor 和 Critic 處理的是這種高度壓縮的摘要信息,它們可以被設計成非常輕量級的神經(jīng)網(wǎng)絡,直接在機器人本體上進行訓練,每秒能更新幾百次。這種極高的響應速度,讓強化學習能夠在機器人每一次試錯之后,立刻去調(diào)整和改進它的行為。



RLT 技術首先會對 VLA 進行改造:加入一個由編碼器和解碼器組成的 Transformer 結構。這個結構被訓練去通過一個「信息瓶頸」來預測大模型的內(nèi)部特征(embeddings),從而壓縮出一個極簡的表達方式,這就是他們所說的 RL token。這個 token 濃縮了當前的觀察畫面中,強化學習的 Actor 和 Critic 所需要的所有關鍵信息。這樣一來,即便是極小的 Actor 和 Critic 網(wǎng)絡,也能站在大模型豐富的內(nèi)部理解之上,學會如何改進動作。



拿到了 RL token 后,研究者只需讓機器人在現(xiàn)實中積攢幾小時甚至幾分鐘的數(shù)據(jù),就能通過在線強化學習來訓練小型的 Actor 和 Critic 網(wǎng)絡。為了讓這個過程效率拉滿,他們做了一些精心的設計:在線強化學習的 Actor 網(wǎng)絡必須和 VLA 在相同的動作空間里工作,與 VLA 的先驗行為保持一致,并且必須能從有限的真實世界數(shù)據(jù)里高效學習。

具體做法如下:

1. 預測「動作塊」: 強化學習策略預測的是一連串的「動作塊(action chunks)」,這與 VLA 習慣的動作結構保持一致,而不是去控制那些極其底層的單個細微操作。這讓在線策略能夠直接調(diào)整那些在任務中真正具有時間跨度的重要連貫動作。

2. 學會「修改」而非「推翻」:強化學習策略不是從零開始瞎摸索的。Actor 網(wǎng)絡會先接收 VLA 預測出的動作作為輸入,所以它學到的是如何「編輯修改」VLA 的動作,而不是全盤替換。研究者會把策略更新的方向限制在這個參考動作附近,這樣當 VLA 原本的動作已經(jīng)算靠譜時,機器人的探索就不會亂來;只有當 Critic 網(wǎng)絡明確發(fā)現(xiàn)了更好的替代方案時,才會偏離原計劃。

3. 防止「抄作業(yè)」:為了防止小模型在訓練初期學會「偷懶」只知道照抄 VLA 的動作,他們還引入了「參考動作 dropout」機制,逼著 Actor 網(wǎng)絡保持自己獨立生成動作的能力。

4. 融入人類干預:最后,可以選擇性地讓人類直接介入強化學習的更新過程。當機器人卡殼或犯錯時,人類的糾正動作會被直接折疊并反饋到訓練中。

正是這些選擇,讓在線強化學習變成了一個可復用的「通用配方」。它不需要針對具體任務做專門的工程設計,就能直接掛載到預訓練好的 VLA 模型上,去應對各種不同的任務。

攻克精細操作的「最后關鍵一毫米」

研究者在四項需要在關鍵時刻具備極高精度的挑戰(zhàn)性任務上對 RLT 進行了測試:用電動螺絲刀將微小的 M3 螺絲擰入機械臂、系緊扎帶、插入網(wǎng)線以及插入電源線。

在這些任務中,通用的基礎模型通常能很好地完成大部分「粗略」動作,但任務最終的成功與否和速度快慢,往往取決于一個需要大量物理接觸的關鍵階段。在這個階段,位置、角度哪怕差之毫厘,或者時機稍微不對,都會導致徹底失敗。





拿擰螺絲來說,機器人必須在位置和旋轉角度上都達到亞毫米級的精準度,才能讓螺絲刀尖完美嵌入螺絲槽。要知道,螺絲刀尖距離機器人的「手」(抓取點)足足有 10 厘米遠,哪怕手腕只偏了一丁點兒,誤差到了刀尖上也會被無限放大。而且,從機器人自帶的手腕攝像頭視角看過去,這些細微的接觸過程甚至都很難看清楚。



在這四個任務中,基礎的 VLA 大模型在初期的表現(xiàn)都很棒(比如穩(wěn)穩(wěn)地拿起螺絲刀或扎帶),但在最需要精度的階段就會掉鏈子。RLT 技術就是專門為解決這個痛點設計的:研究者不再讓它從頭到尾重新學一遍整個任務,而是利用在線強化學習專門去攻克這些「硬骨頭」環(huán)節(jié)。 實際測試表明,機器人僅僅利用 15 分鐘的真實世界數(shù)據(jù),就能優(yōu)化每個動作里最難的部分

他們將 RLT 應用于這四項任務的關鍵階段,評估了它在兩種場景下的效果:一是短暫的關鍵插入動作(插線和插網(wǎng)線),二是時間跨度更長、變化更多的完整任務。

結果顯示,在所有四項任務中,與基礎模型相比,RLT 在速度和成功率上都迎來了突飛猛進。下面的圖表展示了訓練前后的性能對比,指標是「吞吐量」(即每 10 分鐘內(nèi)成功完成任務的次數(shù))。



下面的進度曲線圖展示了 RLT 在「插網(wǎng)線」任務上的吞吐量提升過程。整個訓練總共花了 2 個小時,但真正包含機器人動作的數(shù)據(jù)只有 15 分鐘,剩下的時間主要花在了機器復位重置和其他計算開銷上。



令人驚嘆的是,RLT 不僅僅比基礎模型強,它在「插網(wǎng)線」任務上的執(zhí)行速度,甚至超越了人類遠程操作的速度!正如柱狀圖所示,由最終強化學習策略完成的測試中,有一半的速度比數(shù)據(jù)集中任何一次人類的示范操作都要快。



看來,機器人進廠打工的進度,比預想中要快。

參考鏈接:https://www.pi.website/research/rlt

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
別再傻等了!繼承父母房產(chǎn)拖著不過戶,3年和20年結局天差地別

別再傻等了!繼承父母房產(chǎn)拖著不過戶,3年和20年結局天差地別

復轉這些年
2026-03-22 17:27:58
騎士續(xù)約哈登有兩種方式哈登選哪一種? 明夏再離開騎士?

騎士續(xù)約哈登有兩種方式哈登選哪一種? 明夏再離開騎士?

仰臥撐FTUer
2026-03-25 09:29:35
如今的巴基斯坦,對中國軍工態(tài)度已經(jīng)從“信任”升華到了“崇拜”

如今的巴基斯坦,對中國軍工態(tài)度已經(jīng)從“信任”升華到了“崇拜”

安安說
2026-03-25 11:07:03
連續(xù)2年場均三雙,籃板助攻聯(lián)盟第一!約基奇23+17+17,三殺太陽

連續(xù)2年場均三雙,籃板助攻聯(lián)盟第一!約基奇23+17+17,三殺太陽

無術不學
2026-03-25 14:10:14
2026負債逾期全解:銀行+網(wǎng)貸還不起,最壞只有3種結果,一次講清

2026負債逾期全解:銀行+網(wǎng)貸還不起,最壞只有3種結果,一次講清

億通電子游戲
2026-03-14 13:53:16
片酬不少拿,卻演啥毀啥!這3位“戲混子”男星,演戲看著太別扭

片酬不少拿,卻演啥毀啥!這3位“戲混子”男星,演戲看著太別扭

觀察者海風
2026-03-24 23:58:08
爆砍59分!NBA扣籃王麥克朗加冕G聯(lián)賽歷史得分王,球迷跪求轉正

爆砍59分!NBA扣籃王麥克朗加冕G聯(lián)賽歷史得分王,球迷跪求轉正

仰臥撐FTUer
2026-03-25 12:07:06
網(wǎng)友分享細思恐極事件,呼吁大家相信直覺!

網(wǎng)友分享細思恐極事件,呼吁大家相信直覺!

特約前排觀眾
2026-03-23 00:10:06
中國的反擊開始了,接二連三讓 美國 徹底慫了

中國的反擊開始了,接二連三讓 美國 徹底慫了

安安說
2026-03-13 12:10:13
王勵勤動真格了!倫敦世乒賽陣容有變,陳夢調(diào)整,2人被冷落

王勵勤動真格了!倫敦世乒賽陣容有變,陳夢調(diào)整,2人被冷落

大漢體育解說
2026-03-25 11:06:13
霍爾木茲海峽一個有條件的”安全通道",似乎正慢慢打開。中遠海運公告恢復中東多國新訂艙業(yè)務。國際原油市場,能真正松一口氣嗎?

霍爾木茲海峽一個有條件的”安全通道",似乎正慢慢打開。中遠海運公告恢復中東多國新訂艙業(yè)務。國際原油市場,能真正松一口氣嗎?

每日經(jīng)濟新聞
2026-03-25 19:43:35
從歐爾班行為,看北約當年拒絕俄羅斯的遠見

從歐爾班行為,看北約當年拒絕俄羅斯的遠見

民間胡扯老哥
2026-03-23 18:53:38
宋慧喬換回長發(fā)美回顏值巔峰!穿V領襯衫搭闊腿褲,一身白很高級

宋慧喬換回長發(fā)美回顏值巔峰!穿V領襯衫搭闊腿褲,一身白很高級

明星私服穿搭daily
2026-03-25 12:44:24
新華鮮報|向前沖!這個“村”不一般

新華鮮報|向前沖!這個“村”不一般

新華社
2026-03-25 12:42:13
中遠海運集運:恢復至阿聯(lián)酋、沙特、巴林、卡塔爾、科威特、伊拉克的新訂艙業(yè)務

中遠海運集運:恢復至阿聯(lián)酋、沙特、巴林、卡塔爾、科威特、伊拉克的新訂艙業(yè)務

第一財經(jīng)資訊
2026-03-25 15:57:17
親身跑完500公里高速,才懂電車和油車差距有多大,選錯車太糟心

親身跑完500公里高速,才懂電車和油車差距有多大,選錯車太糟心

老特有話說
2026-03-24 15:07:23
茶葉里也有“硼砂”?曝光茶圈5類“黑心貨”,教你4招快速辨?zhèn)?>
    </a>
        <h3>
      <a href=淚滿過眼
2026-03-25 02:46:47
朝鮮國運來了!中東大戰(zhàn),又是朝鮮悶聲發(fā)大財?

朝鮮國運來了!中東大戰(zhàn),又是朝鮮悶聲發(fā)大財?

北向財經(jīng)
2026-03-24 22:17:38
豐田賽那SIENNA終于大降價!最高優(yōu)惠6.6萬,是時候抄底入手了?

豐田賽那SIENNA終于大降價!最高優(yōu)惠6.6萬,是時候抄底入手了?

優(yōu)視汽車
2026-03-25 10:30:36
伊朗向特朗普喊話:美國已“戰(zhàn)略失敗”

伊朗向特朗普喊話:美國已“戰(zhàn)略失敗”

新華社
2026-03-25 12:42:13
2026-03-26 00:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12598文章數(shù) 142593關注度
往期回顧 全部

科技要聞

紅極一時卻草草收場,Sora宣布正式關停

頭條要聞

伊朗放話愿意與"主和派"萬斯談 特朗普表態(tài)

頭條要聞

伊朗放話愿意與"主和派"萬斯談 特朗普表態(tài)

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰經(jīng)搶救無效不幸去世 年僅41歲

財經(jīng)要聞

管濤:中東局勢如何影響人民幣匯率走勢?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實力

態(tài)度原創(chuàng)

教育
房產(chǎn)
家居
藝術
旅游

教育要聞

高考地理中的庫容量與蓄水量

房產(chǎn)要聞

41億!259畝!建學?!齺嗊@個大城更,最新方案曝光!

家居要聞

輕奢堇天府 小資情調(diào)

藝術要聞

《百花譜》,這個春天畫花不用愁!

旅游要聞

探秘云南保山勐赫小鎮(zhèn),感受與怒江貢山相擁的獨特魅力!

無障礙瀏覽 進入關懷版