手殘黨跪了，Pi 0.6機器人15分鐘學會擰螺絲，能進廠邊干邊學了

2026-03-20 16:50:41　來源: 機器之心Pro

北京舉報

分享至

編輯｜張倩

都說機器人學習速度慢，精細動作做不好，影響了進廠打螺絲的進度。以后，這可能不成問題了。

剛剛，具身智能領域扛把子 Physical Intelligence 公布了一項新進展：他們借助一種名為「RL token」的方法，僅需十幾分鐘或幾小時的真實世界經(jīng)驗，就能讓機器人掌握插網(wǎng)線、擰微型螺絲、插充電線等極其精細的操作。

過去一年，我們看到，機器人已經(jīng)能干不少粗略的活兒了，比如疊衣服、端盤子。但是，它們非常不擅長高精度的工作。比如「拿起螺絲刀」很容易，但「把螺絲刀嚴絲合縫地對準一顆極小的螺絲」卻極難。而在真實的工廠環(huán)境中，這種對于精準、靈巧和速度的追求恰恰是最不能妥協(xié)的，也是體力勞動中最難的部分。

以前，如果想讓機器人學會這種精細活，工程師得把機器人龐大的「主腦」（也就是處理所有信息的大模型）重新訓練一遍，這不僅計算量巨大，而且慢得讓人抓狂。

Physical Intelligence 想出了一個非常聰明的偷懶辦法：不重新訓練整個主腦，而是加一個專門負責精細動作的「外掛」——RL token。

靠著這個方法，機器人的進化速度極其驚人：每項任務中最精細的步驟速度提高到原來的 3 倍，這比人類遠程操縱機器人干活兒還要快。

「從經(jīng)驗中不斷進步」將是未來真實世界機器人大模型必備的核心能力。Physical Intelligence 表示，RLT 讓他們的模型離「直接在崗位上邊干邊學」又近了一步。

怎么做到的？

Physical Intelligence 之前已經(jīng)證明，通過一種名為 Recap 的方法，VLA 模型能夠借助強化學習從經(jīng)驗中學習。不過，Recap 主要是為了解決長周期任務的大規(guī)模強化學習問題；而在實際應用中，我們往往更希望機器人能夠利用幾小時甚至幾分鐘的數(shù)據(jù)，快速攻克某項技能里特別困難的個別環(huán)節(jié)。

打個比方，如果一個機器人需要極其精準地用螺絲刀進行組裝，我們完全可以只去微調(diào)「把螺絲刀對準螺絲」這一個具體動作。這可比把整個 VLA 大模型從頭到尾微調(diào)一遍要快得多。這種精準針對性的自適應訓練，甚至可以直接在機器人正式部署上崗時邊干邊學。

理想情況下，這種能力的進化應該直接在機器人的「大腦」里進行，并且能從每一次嘗試中榨取最多的學習經(jīng)驗。但要在短短幾小時內(nèi)把整個龐大復雜的 VLA 模型端到端地訓練一遍，不管是從算力還是從實操角度來看，都面臨著巨大的挑戰(zhàn)。

Physical Intelligence 的核心靈感是：與其死磕大模型，不如讓 VLA 變通一下，使其能配合一個極其小巧、可以實時更新的模型來進行強化學習微調(diào)。他們訓練 VLA（Pi 0.6）輸出一個「RL token」，它就像是 VLA 內(nèi)部復雜思考過程的一份「極簡摘要」。然后，他們把這個 RL token 當作輸入，喂給那個能夠進行實時強化學習訓練的小模型。

這個 RL token 會被交給 Actor（負責輸出動作）和 Critic（負責評估打分）網(wǎng)絡使用。這兩個網(wǎng)絡采用了一種非常節(jié)省數(shù)據(jù)的 off-policy 強化學習方法進行訓練。正因為 Actor 和 Critic 處理的是這種高度壓縮的摘要信息，它們可以被設計成非常輕量級的神經(jīng)網(wǎng)絡，直接在機器人本體上進行訓練，每秒能更新幾百次。這種極高的響應速度，讓強化學習能夠在機器人每一次試錯之后，立刻去調(diào)整和改進它的行為。

RLT 技術首先會對 VLA 進行改造：加入一個由編碼器和解碼器組成的 Transformer 結構。這個結構被訓練去通過一個「信息瓶頸」來預測大模型的內(nèi)部特征（embeddings），從而壓縮出一個極簡的表達方式，這就是他們所說的 RL token。這個 token 濃縮了當前的觀察畫面中，強化學習的 Actor 和 Critic 所需要的所有關鍵信息。這樣一來，即便是極小的 Actor 和 Critic 網(wǎng)絡，也能站在大模型豐富的內(nèi)部理解之上，學會如何改進動作。

拿到了 RL token 后，研究者只需讓機器人在現(xiàn)實中積攢幾小時甚至幾分鐘的數(shù)據(jù)，就能通過在線強化學習來訓練小型的 Actor 和 Critic 網(wǎng)絡。為了讓這個過程效率拉滿，他們做了一些精心的設計：在線強化學習的 Actor 網(wǎng)絡必須和 VLA 在相同的動作空間里工作，與 VLA 的先驗行為保持一致，并且必須能從有限的真實世界數(shù)據(jù)里高效學習。

具體做法如下：

1. 預測「動作塊」：強化學習策略預測的是一連串的「動作塊（action chunks）」，這與 VLA 習慣的動作結構保持一致，而不是去控制那些極其底層的單個細微操作。這讓在線策略能夠直接調(diào)整那些在任務中真正具有時間跨度的重要連貫動作。

2. 學會「修改」而非「推翻」：強化學習策略不是從零開始瞎摸索的。Actor 網(wǎng)絡會先接收 VLA 預測出的動作作為輸入，所以它學到的是如何「編輯修改」VLA 的動作，而不是全盤替換。研究者會把策略更新的方向限制在這個參考動作附近，這樣當 VLA 原本的動作已經(jīng)算靠譜時，機器人的探索就不會亂來；只有當 Critic 網(wǎng)絡明確發(fā)現(xiàn)了更好的替代方案時，才會偏離原計劃。

3. 防止「抄作業(yè)」：為了防止小模型在訓練初期學會「偷懶」只知道照抄 VLA 的動作，他們還引入了「參考動作 dropout」機制，逼著 Actor 網(wǎng)絡保持自己獨立生成動作的能力。

4. 融入人類干預：最后，可以選擇性地讓人類直接介入強化學習的更新過程。當機器人卡殼或犯錯時，人類的糾正動作會被直接折疊并反饋到訓練中。

正是這些選擇，讓在線強化學習變成了一個可復用的「通用配方」。它不需要針對具體任務做專門的工程設計，就能直接掛載到預訓練好的 VLA 模型上，去應對各種不同的任務。

攻克精細操作的「最后關鍵一毫米」

研究者在四項需要在關鍵時刻具備極高精度的挑戰(zhàn)性任務上對 RLT 進行了測試：用電動螺絲刀將微小的 M3 螺絲擰入機械臂、系緊扎帶、插入網(wǎng)線以及插入電源線。

在這些任務中，通用的基礎模型通常能很好地完成大部分「粗略」動作，但任務最終的成功與否和速度快慢，往往取決于一個需要大量物理接觸的關鍵階段。在這個階段，位置、角度哪怕差之毫厘，或者時機稍微不對，都會導致徹底失敗。

拿擰螺絲來說，機器人必須在位置和旋轉角度上都達到亞毫米級的精準度，才能讓螺絲刀尖完美嵌入螺絲槽。要知道，螺絲刀尖距離機器人的「手」（抓取點）足足有 10 厘米遠，哪怕手腕只偏了一丁點兒，誤差到了刀尖上也會被無限放大。而且，從機器人自帶的手腕攝像頭視角看過去，這些細微的接觸過程甚至都很難看清楚。

在這四個任務中，基礎的 VLA 大模型在初期的表現(xiàn)都很棒（比如穩(wěn)穩(wěn)地拿起螺絲刀或扎帶），但在最需要精度的階段就會掉鏈子。RLT 技術就是專門為解決這個痛點設計的：研究者不再讓它從頭到尾重新學一遍整個任務，而是利用在線強化學習專門去攻克這些「硬骨頭」環(huán)節(jié)。實際測試表明，機器人僅僅利用 15 分鐘的真實世界數(shù)據(jù)，就能優(yōu)化每個動作里最難的部分

他們將 RLT 應用于這四項任務的關鍵階段，評估了它在兩種場景下的效果：一是短暫的關鍵插入動作（插線和插網(wǎng)線），二是時間跨度更長、變化更多的完整任務。

結果顯示，在所有四項任務中，與基礎模型相比，RLT 在速度和成功率上都迎來了突飛猛進。下面的圖表展示了訓練前后的性能對比，指標是「吞吐量」（即每 10 分鐘內(nèi)成功完成任務的次數(shù)）。

下面的進度曲線圖展示了 RLT 在「插網(wǎng)線」任務上的吞吐量提升過程。整個訓練總共花了 2 個小時，但真正包含機器人動作的數(shù)據(jù)只有 15 分鐘，剩下的時間主要花在了機器復位重置和其他計算開銷上。

令人驚嘆的是，RLT 不僅僅比基礎模型強，它在「插網(wǎng)線」任務上的執(zhí)行速度，甚至超越了人類遠程操作的速度！正如柱狀圖所示，由最終強化學習策略完成的測試中，有一半的速度比數(shù)據(jù)集中任何一次人類的示范操作都要快。

看來，機器人進廠打工的進度，比預想中要快。

參考鏈接：https://www.pi.website/research/rlt

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.