国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

真機(jī)RL殺瘋了!機(jī)器人自學(xué)20分鐘100分,數(shù)字孿生封神

0
分享至

  

  新智元報(bào)道

  編輯:犀牛

  【新智元導(dǎo)讀】TwinRL用手機(jī)掃一遍場景構(gòu)建數(shù)字孿生,讓機(jī)器人先在數(shù)字孿生里大膽探索、精準(zhǔn)試錯(cuò),再回到真機(jī)20分鐘跑滿全桌面100%成功率——比現(xiàn)有方法快30%,人類干預(yù)減少一半以上。

  機(jī)器人真正「走出演示數(shù)據(jù)」的那一刻,發(fā)生了什么?

  你花了兩周時(shí)間,手把手遙操作教一個(gè)機(jī)械臂抓香蕉放盤子。桌子左半邊,它學(xué)得像模像樣,十拿九穩(wěn)。

  然后你把香蕉往右邊挪了15厘米。

  機(jī)械臂愣住了。

  它不是「沒學(xué)好,而是從來沒見過那個(gè)位置

  對(duì)它來說,桌子右半邊就是另一個(gè)宇宙。

  這不是段子,這是2025年幾乎所有VLA模型在真實(shí)世界里的真實(shí)處境。

  過去兩年,Vision-Language-Action(VLA)模型席卷機(jī)器人領(lǐng)域。

  從「看圖+聽話+動(dòng)手,到多任務(wù)、多場景的泛化執(zhí)行,VLA讓機(jī)器人第一次看起來像「理解世界的智能體。

  論文里成功率動(dòng)輒90%以上,演示視頻拍得漂亮極了。

  但真正做過真機(jī)實(shí)驗(yàn)的人都知道,這里面藏著一個(gè)所有人都心知肚明、卻很少有人正面回答的問題:

  如果沒有人類不斷示范,機(jī)器人還能不能自己學(xué)?

  答案是——幾乎不能。

  現(xiàn)實(shí)的殘酷在于:

  人類示范(Teleoperation)昂貴、低效、覆蓋有限——一個(gè)人手握操控桿操作一天,也就覆蓋桌面的一小片區(qū)域

  在線強(qiáng)化學(xué)習(xí)(RL)在真實(shí)機(jī)器人上慢、危險(xiǎn)、資源消耗大——機(jī)械臂一個(gè)探索失誤,可能直接撞壞傳感器

  但這些都還不是最致命的。

  最致命的是——

  RL的探索空間,被SFT演示數(shù)據(jù)牢牢鎖死。

  哪怕你給機(jī)器人再多獎(jiǎng)勵(lì),它也只會(huì)在「演示數(shù)據(jù)附近打轉(zhuǎn)。

  就像一個(gè)只在家門口遛過彎的人,你跟他說「去探索世界,他轉(zhuǎn)一圈還是回到了自家樓下。

  探索,根本沒有發(fā)生。

  這個(gè)問題被回避得太久了。

  直到TwinRL,第一次把它撕開,攤到臺(tái)面上。

  近日,至簡動(dòng)力、北京大學(xué)計(jì)算機(jī)學(xué)院多媒體信息處理國家重點(diǎn)實(shí)驗(yàn)室、清華大學(xué)、香港科技大學(xué),提出了一種面向真實(shí)世界機(jī)器人操作的數(shù)字孿生協(xié)同強(qiáng)化學(xué)習(xí)框架TwinRL(Digital Twin-DrivenReinforcement Learning),可直接在真實(shí)機(jī)器人上高效執(zhí)行在線強(qiáng)化學(xué)習(xí)并系統(tǒng)性擴(kuò)展探索空間。

  據(jù)行業(yè)知情人士透露,至簡動(dòng)力目前估值已逼近獨(dú)角獸陣營。成立半年即獲得如此密集的頂級(jí)資本加持,在整個(gè)具身智能賽道中也極為罕見。

  TwinRL的核心洞察:RL的問題,不是學(xué)不會(huì),而是探索空間被限制。

  通過系統(tǒng)性的真實(shí)機(jī)器人實(shí)驗(yàn),TwinRL團(tuán)隊(duì)觀察到一個(gè)關(guān)鍵現(xiàn)象:

  真實(shí)世界中,VLA的有效探索空間,幾乎完全由SFT數(shù)據(jù)分布決定。

  這意味著什么?

  RL更像是「重加權(quán),而不是「開新路

  Out-of-Distribution(OOD)區(qū)域,對(duì)SFT模型來說幾乎不可達(dá)

  即便加入Human-in-the-Loop,也只是緩慢地「挪邊界

  問題不在算法,而在探索空間本身。

  于是,一個(gè)大膽的想法出現(xiàn)了:

  如果真實(shí)世界沒法并行探索,那就把「探索這件事,提前搬到一個(gè)「可控、可擴(kuò)展的世界里。

  這個(gè)世界,就是數(shù)字孿生(Digital Twin)

  TwinRL:不是「模擬器」

  而是探索放大器和探索指引器

  和傳統(tǒng)「仿真+real2sim」不同,Digital Twin不是用來替代真實(shí)世界的,而是用來「放大真實(shí)世界探索能力」的。

  TwinRL構(gòu)建了一個(gè)數(shù)字孿生–真實(shí)機(jī)器人協(xié)同強(qiáng)化學(xué)習(xí)框架,核心由三步組成:

  一、探索空間擴(kuò)展(Exploration Space Expansion)

  使用手機(jī)拍攝真實(shí)場景

  基于3D Gaussian Splatting高效重建高保真數(shù)字孿生

  在孿生環(huán)境中生成遠(yuǎn)超人類示范覆蓋范圍的合成軌跡

  在SFT階段就顯式拓寬數(shù)據(jù)分布支持

  不是「學(xué)得更好」,而是一開始就站在更大的世界里。

  二、數(shù)字孿生中的并行在線RL

  真實(shí)機(jī)器人無法并行試錯(cuò),但數(shù)字孿生可以。

  TwinRL在部署前:

  在數(shù)字孿生中高效并行執(zhí)行在線RL

  生成RL風(fēng)格的高質(zhì)量探索軌跡,橋接offline→online

  這一步極大緩解了真實(shí)世界RL的冷啟動(dòng)和不穩(wěn)定問題。

  三、Sim-to-Real引導(dǎo)的人在回路探索

  數(shù)字孿生不僅「多」,而且「準(zhǔn)」。

  TwinRL會(huì):

  在孿生環(huán)境中自動(dòng)識(shí)別失敗高發(fā)但信息密集的配置

  精準(zhǔn)引導(dǎo)人類只在「最有價(jià)值的位置「介入

  大幅減少無效示范和重復(fù)操作

  人類不再是苦力,而是策略級(jí)引導(dǎo)者。

  數(shù)字孿生協(xié)

  同強(qiáng)化學(xué)習(xí)框架TwinRL

  與以往僅在單一初始配置上達(dá)到高成功率不同,TwinRL 實(shí)現(xiàn)的不是「一個(gè)點(diǎn) 100%」,而是在更廣的工作空間范圍內(nèi)(包括分布外 OOD 區(qū)域)實(shí)現(xiàn) 100% 的成功率覆蓋

  在 4 項(xiàng)真實(shí)世界操作任務(wù)中,TwinRL 平均僅需約 20 分鐘即可完成在線強(qiáng)化學(xué)習(xí)收斂,相比現(xiàn)有真實(shí)機(jī)器人 RL 方法實(shí)現(xiàn)至少 30% 的加速,同時(shí)顯著降低了人類干預(yù)需求。

  此外,即使在物體位置擾動(dòng)與環(huán)境變化條件下,TwinRL 依然能夠保持穩(wěn)定表現(xiàn),展現(xiàn)出更強(qiáng)的空間泛化與探索能力。

  真機(jī)測(cè)試視頻

  

  論文鏈接: https://arxiv.org/abs/2602.09023

  項(xiàng)目主頁: https://sites.google.com/view/twinrl/twinrl

  1. 摘要

  盡管視覺–語言–動(dòng)作(Vision-Language-Action, VLA)模型在機(jī)器人操作任務(wù)中展現(xiàn)出良好的泛化能力,其在真實(shí)世界中的應(yīng)用仍受到高成本人類示范數(shù)據(jù)和有限真實(shí)交互的制約。

  在線強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)為提升模型能力提供了基于環(huán)境反饋的有效途徑,但在真實(shí)機(jī)器人場景中,其探索效率與可擴(kuò)展性仍然受到顯著限制。

  通過系統(tǒng)性的真實(shí)機(jī)器人實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn):在線強(qiáng)化學(xué)習(xí)在真實(shí)世界中的有效探索空間,與監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)階段所使用的數(shù)據(jù)分布高度相關(guān)。

  在此背景下,本文提出了一種數(shù)字孿生–真實(shí)機(jī)器人協(xié)同強(qiáng)化學(xué)習(xí)框架TwinRL,旨在對(duì) VLA 模型的探索過程進(jìn)行系統(tǒng)性擴(kuò)展與引導(dǎo)。

  TwinRL 首先利用手機(jī)采集的真實(shí)場景數(shù)據(jù)高效重建高保真數(shù)字孿生環(huán)境,實(shí)現(xiàn)真實(shí)世界與仿真環(huán)境之間的雙向遷移。

  在監(jiān)督微調(diào)階段,框架通過數(shù)字孿生引入探索空間擴(kuò)展策略,以顯式拓寬軌跡數(shù)據(jù)分布的支持范圍。

  在此基礎(chǔ)上,TwinRL 進(jìn)一步提出了一種 sim-to-real 引導(dǎo)的探索機(jī)制,在部署前于數(shù)字孿生環(huán)境中執(zhí)行高效并行的在線強(qiáng)化學(xué)習(xí),從而有效銜接離線訓(xùn)練與真實(shí)世界在線學(xué)習(xí)過程。

  此外,框架還利用數(shù)字孿生中的高效采樣識(shí)別失敗頻發(fā)但信息密集的關(guān)鍵配置,用于引導(dǎo)真實(shí)機(jī)器人上的定向人類在回路探索。

  在多個(gè)真實(shí)世界機(jī)器人操作任務(wù)上的實(shí)驗(yàn)結(jié)果表明,TwinRL 在示范數(shù)據(jù)覆蓋區(qū)域及分布外區(qū)域均取得了穩(wěn)定性能提升,在顯著減少人類干預(yù)的同時(shí),將真實(shí)機(jī)器人在線強(qiáng)化學(xué)習(xí)的收斂時(shí)間縮短至約 20 分鐘,并相比現(xiàn)有方法實(shí)現(xiàn)了至少 30% 的效率提升。

  

  圖 1:整體框架(a)我們提出了TwinRL,一種數(shù)字孿生–真實(shí)機(jī)器人協(xié)同的強(qiáng)化學(xué)習(xí)框架。該框架通過引入數(shù)字孿生環(huán)境,將探索空間從人類示范所覆蓋的分布內(nèi)區(qū)域擴(kuò)展至分布外區(qū)域,并在數(shù)字孿生中執(zhí)行高效、并行的在線強(qiáng)化學(xué)習(xí),從而實(shí)現(xiàn) sim-to-real 引導(dǎo)的探索過程,顯著提升真實(shí)機(jī)器人在線強(qiáng)化學(xué)習(xí)的收斂速度。(b)在四個(gè)機(jī)器人操作任務(wù)上的實(shí)驗(yàn)結(jié)果表明,TwinRL 在在線強(qiáng)化學(xué)習(xí)階段收斂速度更快,并在真實(shí)世界示范覆蓋區(qū)域及分布外區(qū)域均取得了接近 100% 的成功率,平均約 20 分鐘即可達(dá)到該性能水平。由于 HiL-SERL 方法未包含監(jiān)督微調(diào)階段,其性能僅在分布內(nèi)區(qū)域進(jìn)行報(bào)告。

  2. 研究背景

  視覺–語言–動(dòng)作(Vision-Language-Action, VLA)模型近年來在機(jī)器人操作任務(wù)中展現(xiàn)出良好的泛化潛力,能夠?qū)⒆匀徽Z言指令直接映射為連續(xù)控制行為。

  然而,現(xiàn)有 VLA 方法在真實(shí)世界部署中仍高度依賴人工示范數(shù)據(jù)(teleoperation),其獲取成本高、覆蓋范圍有限,且難以支持長期自主學(xué)習(xí)。

  強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)被認(rèn)為是突破示范數(shù)據(jù)瓶頸的重要手段,但在真實(shí)機(jī)器人系統(tǒng)中直接應(yīng)用在線 RL 面臨效率低、風(fēng)險(xiǎn)高、難以并行等現(xiàn)實(shí)約束。

  尤其是在復(fù)雜物理環(huán)境下,機(jī)器人探索空間受到初始監(jiān)督數(shù)據(jù)分布的強(qiáng)烈限制,導(dǎo)致在線學(xué)習(xí)難以有效擴(kuò)展到未覆蓋區(qū)域。

  3. 核心觀察與研究動(dòng)機(jī)

  

  圖 2:探索瓶頸。(a) 我們將工作空間劃分為分布內(nèi)區(qū)域(A)與分布外區(qū)域(B)。每個(gè)區(qū)域由任務(wù)完成時(shí)被操作物體中心的位置進(jìn)行定義。(b) 熱力圖可視化展示了不同策略在各區(qū)域中的性能表現(xiàn)。(c) 學(xué)習(xí)曲線展示了 A-only 策略在兩個(gè)區(qū)域中進(jìn)行在線強(qiáng)化學(xué)習(xí)時(shí)的訓(xùn)練動(dòng)態(tài)變化。

  盡管在線強(qiáng)化學(xué)習(xí)(online RL)為提升任務(wù)魯棒性提供了探索路徑,但其在真實(shí)物理硬件上的樣本效率仍然面臨挑戰(zhàn)。

  受到通用領(lǐng)域研究的啟發(fā),我們觀察到,在真實(shí)世界的 VLA 強(qiáng)化學(xué)習(xí)中,探索過程實(shí)際上受到監(jiān)督微調(diào)(SFT)階段所誘導(dǎo)的軌跡分布空間支持的嚴(yán)格約束。

  這一約束帶來了雙重瓶頸:(1)限制策略能夠可靠探索的狀態(tài)集合;(2)即便引入人類干預(yù),也顯著降低在線 RL 的學(xué)習(xí)效率。

  實(shí)驗(yàn)設(shè)置.

  如圖所示,我們?cè)谝粋€(gè)高精度積木插入任務(wù)上開展實(shí)驗(yàn),該任務(wù)對(duì)空間位置精度要求較高。所有策略均基于 Octo 模型構(gòu)建。我們將工作空間劃分為分布內(nèi)區(qū)域 A(由示范數(shù)據(jù)覆蓋)與分布外區(qū)域 B(在 SFT 階段未被觀察到)。

  瓶頸一.我們通過改變 SFT 示范的空間覆蓋范圍,分析其對(duì)策略泛化能力與自主在線 RL 的影響。具體比較兩種訓(xùn)練數(shù)據(jù)分布:A-only,僅使用區(qū)域 A 的 30 條示范;A+B,在此基礎(chǔ)上加入來自區(qū)域 B 的 30 條數(shù)字孿生示范。為衡量示范覆蓋如何塑造探索空間,我們將策略初始化為 A-only SFT 模型,并在未見過的區(qū)域 B 中執(zhí)行自主在線 RL。

  發(fā)現(xiàn)一.如圖所示,在每個(gè)網(wǎng)格單元內(nèi)執(zhí)行 10 次 rollout。在區(qū)域 B 中,A+B 策略成功率達(dá)到 62.5%,而 A-only 策略完全局限于區(qū)域 A(區(qū)域 B 成功率為 0%)。這表明標(biāo)準(zhǔn) SFT 策略在空間未覆蓋區(qū)域上的外推能力極其有限。更重要的是,從 A-only 模型出發(fā)在區(qū)域 B 中進(jìn)行自主在線 RL 時(shí),會(huì)出現(xiàn)明顯的探索死鎖現(xiàn)象。在 OOD 初始配置下,即使經(jīng)過 40K 訓(xùn)練步(約兩小時(shí)),策略仍無法穩(wěn)定獲得正獎(jiǎng)勵(lì)。這一現(xiàn)象與此前工作的觀察一致:replay buffer 被失敗軌跡主導(dǎo),導(dǎo)致自主適應(yīng)幾乎失效。結(jié)果說明,在線 RL 的有效探索空間與 SFT 數(shù)據(jù)的空間覆蓋范圍高度相關(guān)。

  瓶頸二.為緩解探索死鎖,可以引入人類在回路(HiL)干預(yù),引導(dǎo)機(jī)器人完成任務(wù)。然而,關(guān)鍵問題在于:在人類指導(dǎo)可用的情況下,是否能夠保證在 OOD 場景下實(shí)現(xiàn)高效在線適應(yīng)?為此,我們比較兩種設(shè)置:分布內(nèi)后訓(xùn)練(在區(qū)域 A 中進(jìn)行在線 RL)與分布外后訓(xùn)練(在區(qū)域 B 中進(jìn)行在線 RL)。所有模型均初始化自相同的 A-only SFT 策略。

  發(fā)現(xiàn)二.盡管在人類干預(yù)下,兩種設(shè)置都能獲得成功的糾正示范,但樣本效率差異顯著。如圖所示,分布內(nèi)后訓(xùn)練適應(yīng)迅速,在約 45 分鐘(約 14K 交互步)內(nèi)成功率超過 90%;相比之下,分布外后訓(xùn)練收斂更慢且更不穩(wěn)定,在相同交互預(yù)算下未能達(dá)到可比性能。這些結(jié)果表明,即便引入 HiL 機(jī)制,在未見過的區(qū)域 B 中學(xué)習(xí)仍然困難。這主要源于不利的獎(jiǎng)勵(lì)景觀以及 replay buffer 中數(shù)據(jù)分布失衡,顯著降低了梯度效率。

  結(jié)論。上述觀察表明,要突破兩個(gè)瓶頸,必須在真實(shí)世界交互前擴(kuò)展探索覆蓋范圍,并在在線階段系統(tǒng)性引導(dǎo)人類干預(yù)以提升學(xué)習(xí)效率?;诖耍覀兲岢?strong>TwinRL —— 一個(gè)數(shù)字孿生與真實(shí)機(jī)器人協(xié)同的強(qiáng)化學(xué)習(xí)框架,將數(shù)字孿生作為探索放大器與引導(dǎo)器,貫穿 SFT 與在線 RL 兩個(gè)階段

  4. TwinRL 框架概述

  整個(gè)框架由三個(gè)緊密耦合的階段構(gòu)成:探索空間擴(kuò)展、數(shù)字孿生并行在線強(qiáng)化學(xué)習(xí)以及 sim-to-real 引導(dǎo)的真實(shí)世界探索。

  探索空間擴(kuò)展策略.首先,我們構(gòu)建高保真的數(shù)字孿生環(huán)境。通過手機(jī)采集真實(shí)場景并基于 3D Gaussian Splatting 進(jìn)行重建,實(shí)現(xiàn)真實(shí)環(huán)境與仿真環(huán)境之間的幾何與視覺一致性?;谠搶\生環(huán)境,我們?cè)诒O(jiān)督微調(diào)(SFT)warm-up 階段引入探索空間擴(kuò)展策略,在保持任務(wù)語義一致的前提下生成覆蓋更廣狀態(tài)配置的軌跡數(shù)據(jù),顯式拓寬訓(xùn)練軌跡分布的支持范圍,從而增強(qiáng)策略在分布外區(qū)域的可達(dá)性。

  孿生在線 RL 階段.盡管我們的方法在 SFT 階段擴(kuò)展了 VLA 模型的探索支持范圍,但在真實(shí)機(jī)器人上直接啟動(dòng)在線強(qiáng)化學(xué)習(xí)仍然面臨兩個(gè)關(guān)鍵瓶頸。第一,監(jiān)督示范數(shù)據(jù)與 RL 風(fēng)格專家軌跡之間的分布不匹配,可能在離線到在線過渡過程中引發(fā)嚴(yán)重的性能退化以及 Q 值不穩(wěn)定問題。第二,即便采用人類在回路(HiL)引導(dǎo)的在線 RL,仍然存在較高的樣本復(fù)雜度,并高度依賴操作者經(jīng)驗(yàn)。為了解決這些問題,我們將數(shù)字孿生作為并行計(jì)算引擎,引入“孿生在線 RL 階段”以及一種“失敗感知的探索機(jī)制”,從而將真實(shí)世界中的探索轉(zhuǎn)化為更加有針對(duì)性且樣本效率更高的過程。如方法圖 Stage II 所示,為了彌合示范數(shù)據(jù)與 RL 風(fēng)格交互數(shù)據(jù)之間的分布差距,我們首先在數(shù)字孿生中執(zhí)行并行在線 RL。在該階段,策略從 SFT 模型初始化,并在 N 個(gè)并行孿生環(huán)境中進(jìn)行交互訓(xùn)練。優(yōu)化目標(biāo)為:

  。其中,與 SFT 階段所使用的損失相同;為強(qiáng)化學(xué)習(xí)目標(biāo),鼓勵(lì)策略選擇具有更高 Q 估計(jì)值的動(dòng)作,其形式為對(duì)狀態(tài) s 和策略動(dòng)作 a 的期望負(fù) Q 值。通過這一過程,孿生在線 RL 階段能夠高效收集多樣化軌跡,包括成功執(zhí)行、失敗行為以及恢復(fù)策略,并將其存儲(chǔ)在孿生 replay buffer中。由于并行處理能力,我們可以在約 1 分鐘內(nèi)生成一批 rollout(例如每個(gè) episode 約 30 步)。由于示范數(shù)據(jù)與 RL 風(fēng)格交互數(shù)據(jù)之間存在分布差距,早期在線學(xué)習(xí)往往表現(xiàn)出不穩(wěn)定性。因此,在數(shù)字孿生中完成高效在線學(xué)習(xí)后,我們將孿生 buffer 中的數(shù)據(jù)遷移至真實(shí)世界 replay buffer,用于初始化真實(shí)訓(xùn)練過程。通過提供更加均衡的訓(xùn)練信號(hào),該初始化策略能夠減少離線 SFT 向真實(shí)在線學(xué)習(xí)過渡階段的訓(xùn)練不穩(wěn)定性,并緩解性能退化。此外,在后續(xù)的定向 HiL 引導(dǎo)在線 RL 過程中,該策略也有助于防止在已有良好性能配置上出現(xiàn)災(zāi)難性遺忘。

  真實(shí)世界在線 RL.如方法圖 Stage III 所示,我們利用數(shù)字孿生識(shí)別狀態(tài)空間中容易失敗的區(qū)域,并據(jù)此引導(dǎo)真實(shí)世界在線 RL 的初始狀態(tài)分布。與以往依賴真實(shí) rollouts 的課程學(xué)習(xí)或重置策略不同,數(shù)字孿生可以在不消耗物理交互預(yù)算的前提下,以低成本、系統(tǒng)化方式評(píng)估策略在大范圍初始配置下的表現(xiàn)。具體而言,我們?cè)跀?shù)字孿生中評(píng)估當(dāng)前策略,并構(gòu)建目標(biāo)初始狀態(tài)集合:

  ,其中表示從初始狀態(tài)出發(fā)的經(jīng)驗(yàn)成功率,為熟練度閾值。在真實(shí)世界在線交互過程中,優(yōu)先從中采樣初始狀態(tài)進(jìn)行 episode 重置,使有限的真實(shí)交互預(yù)算集中于更具挑戰(zhàn)性的狀態(tài)區(qū)域。為進(jìn)一步降低在困難區(qū)域探索的成本與風(fēng)險(xiǎn),我們?cè)谡鎸?shí)機(jī)器人訓(xùn)練中引入 HiL 機(jī)制。干預(yù)生成的軌跡被存入 replay buffer,并用于后續(xù)策略更新。不同于現(xiàn)有 HiL 方法,我們提出了一種新的引導(dǎo)機(jī)制:由數(shù)字孿生決定在真實(shí)世界 RL 過程中“何時(shí)”以及“何處”觸發(fā) HiL 干預(yù),從而實(shí)現(xiàn)更加精準(zhǔn)和高效的協(xié)同學(xué)習(xí)。隨后,我們利用數(shù)字孿生中的高效采樣識(shí)別失敗頻發(fā)但信息密集的關(guān)鍵配置,并據(jù)此引導(dǎo)真實(shí)機(jī)器人上的 targeted human-in-the-loop 交互,使有限的人類干預(yù)集中于最具學(xué)習(xí)價(jià)值的區(qū)域。

  我們的貢獻(xiàn)總結(jié)如下:

  我們通過系統(tǒng)性的真實(shí)機(jī)器人實(shí)驗(yàn)揭示了真實(shí)世界 VLA 在線強(qiáng)化學(xué)習(xí)中“有效探索空間受 SFT 數(shù)據(jù)分布顯著約束”的關(guān)鍵現(xiàn)象,并據(jù)此明確了探索結(jié)構(gòu)設(shè)計(jì)在真實(shí)世界 RL 中的重要性。

  我們提出TwinRL數(shù)字孿生–真實(shí)機(jī)器人協(xié)同強(qiáng)化學(xué)習(xí)框架,通過數(shù)字孿生重建與雙向遷移,將數(shù)字孿生從驗(yàn)證工具提升為探索擴(kuò)展與引導(dǎo)的核心組件,實(shí)現(xiàn)從分布內(nèi)示范到分布外區(qū)域的探索空間擴(kuò)展。

  我們提出探索空間擴(kuò)展的 SFT warm-up 策略,并結(jié)合數(shù)字孿生中的并行在線 RL 與 failure-driven 的 sim-to-real 引導(dǎo)人類在回路探索機(jī)制,有效橋接離線與在線階段并顯著加速真實(shí)世界 RL 收斂;在四項(xiàng)任務(wù)中實(shí)現(xiàn)接近 100% 成功率,平均約 20 分鐘收斂,并獲得至少 30% 的訓(xùn)練加速。

  

  圖 3:TwinRL 框架。階段 I:從人類遙操作示范出發(fā),我們引入一種探索空間擴(kuò)展策略,通過合成多樣化的數(shù)字孿生示范數(shù)據(jù)來拓寬 SFT 的覆蓋范圍。階段 II:隨后,基于 SFT 初始化的策略在數(shù)字孿生環(huán)境中進(jìn)行可擴(kuò)展、并行的在線強(qiáng)化學(xué)習(xí),生成具有強(qiáng)化學(xué)習(xí)特征的 rollout 軌跡;這些軌跡被遷移至真實(shí)世界以初始化 replay buffer,從而穩(wěn)定在線學(xué)習(xí)過程。階段 III:在真實(shí)世界在線強(qiáng)化學(xué)習(xí)過程中,數(shù)字孿生高效且持續(xù)地識(shí)別失敗頻發(fā)但信息密集的物體配置,并據(jù)此引導(dǎo)有針對(duì)性的 Human-in-the-Loop(HiL)rollout。

  5. 實(shí)驗(yàn)結(jié)果

  定量與定性分析.我們?cè)?4 個(gè)真實(shí)世界操作任務(wù)上系統(tǒng)評(píng)估 TwinRL,包括 Pick-and-Place、Insert-Hexagon-Block、Insert-Triple-Column-Block 以及 Erase-Whiteboard。

  所有實(shí)驗(yàn)均在 7-DoF Franka Emika FR3 平臺(tái)上進(jìn)行,并采用雙相機(jī)感知系統(tǒng)(固定第三視角 + 腕部相機(jī))進(jìn)行觀測(cè)。

  我們報(bào)告成功率(SR)隨真實(shí)世界訓(xùn)練時(shí)間與交互步數(shù)變化的曲線,用于比較不同方法的收斂速度與最終性能。

  在分布內(nèi)(ID)區(qū)域,TwinRL 在在線強(qiáng)化學(xué)習(xí)初始階段即表現(xiàn)出顯著更高的成功率,這一優(yōu)勢(shì)源于探索空間擴(kuò)展策略在 SFT 階段對(duì)軌跡分布支持的拓寬。

  相比僅使用真實(shí)示范的基線方法,TwinRL 在 0-step(真實(shí)交互開始前)即具備更強(qiáng)的部署先驗(yàn)。

  隨著在線 RL 進(jìn)行,TwinRL 在大多數(shù)任務(wù)中均在約 20 分鐘內(nèi)在分布內(nèi)(ID)與分布外(OOD)區(qū)域完成收斂,達(dá)到 100% 成功率,而對(duì)比方法(ConRFT 與 HiL-SERL)則收斂更慢,或在相同交互預(yù)算下未能達(dá)到相當(dāng)性能。

  在分布外(OOD)區(qū)域,性能差距更加顯著。TwinRL 在 OOD 區(qū)域同樣實(shí)現(xiàn)接近 100% 的成功率,并保持穩(wěn)定的收斂曲線,而僅依賴真實(shí)示范初始化的策略往往在 OOD 區(qū)域出現(xiàn)探索死鎖,難以獲得穩(wěn)定的正獎(jiǎng)勵(lì)信號(hào)。相比現(xiàn)有真實(shí)世界 RL 方法,TwinRL 在整體收斂速度上實(shí)現(xiàn)了至少 30% 的加速,顯著減少了達(dá)到高成功率所需的真實(shí)交互時(shí)間。

  從穩(wěn)定性角度來看,所有方法在從離線 SFT 過渡到在線 RL 階段時(shí)都會(huì)經(jīng)歷性能波動(dòng)。然而,TwinRL 在該過渡階段表現(xiàn)出更小的性能退化,并能夠更快恢復(fù)至高成功率水平。這一現(xiàn)象與我們將數(shù)字孿生中并行在線 RL 軌跡遷移至真實(shí) replay buffer 的設(shè)計(jì)一致,該機(jī)制有效緩解了離線–在線分布切換所帶來的梯度不穩(wěn)定問題。

  真機(jī)online強(qiáng)化學(xué)習(xí)過程

  

  圖 4:真實(shí)世界實(shí)驗(yàn)。我們報(bào)告了四項(xiàng)操作任務(wù)在分布內(nèi)(ID)與分布外(OOD)設(shè)置下進(jìn)行在線強(qiáng)化學(xué)習(xí)的成功率曲線??v軸表示成功率,橫軸同時(shí)給出在線訓(xùn)練時(shí)間以及模型訓(xùn)練步數(shù)。

  

  消融實(shí)驗(yàn).我們選取 Insert-Hexagon-Block 任務(wù)進(jìn)行消融分析。如圖所示,每一行均執(zhí)行 10 次 rollout 試驗(yàn)。

  探索空間擴(kuò)展的影響。我們分析孿生數(shù)據(jù)的規(guī)模與分布如何影響 warm-up 階段的性能。表中報(bào)告了在不同 ID/OOD 合成軌跡增強(qiáng)設(shè)置下的成功率。與基礎(chǔ)模型相比,在 ID 與 OOD 各加入 30 條孿生軌跡的平衡設(shè)置下,成功率達(dá)到 57.0%(提升 30%),表明我們的數(shù)字孿生管線即便在高精度任務(wù)中,也能夠在整個(gè)工作空間生成高質(zhì)量軌跡。進(jìn)一步增加孿生數(shù)據(jù)量可帶來額外性能提升:將 ID 數(shù)據(jù)加倍(60/30)獲得最大收益,在 ID 區(qū)域成功率峰值達(dá)到 80%;增加 OOD 數(shù)據(jù)(30/60)則將成功率提升至 70%??傮w來看,這些結(jié)果驗(yàn)證了探索空間擴(kuò)展策略能夠有效拓寬 SFT 的覆蓋范圍。需要注意的是,雖然更多合成數(shù)據(jù)有助于提升性能,但也會(huì)增加 SFT 時(shí)間成本,形成準(zhǔn)確率與效率之間的權(quán)衡。

  表 I:探索空間擴(kuò)展的消融實(shí)驗(yàn)。我們?cè)?SFT warm-up 階段改變加入的孿生生成軌跡數(shù)量,并測(cè)量相應(yīng)的成功率(SR)。

  

  Sim-to-Real 引導(dǎo) HiL 的效率。我們?cè)u(píng)估數(shù)字孿生引導(dǎo)的 HiL 在真實(shí)世界在線 RL 中的作用。如圖所示,我們對(duì)比了是否啟用孿生引導(dǎo)機(jī)制的 TwinRL。該機(jī)制利用數(shù)字孿生 rollout 識(shí)別信息密集的初始物體配置,并在必要時(shí)觸發(fā) HiL 干預(yù)。結(jié)果表明,啟用孿生引導(dǎo)干預(yù)能夠顯著減少真實(shí)訓(xùn)練步數(shù),在保持更高成功率的同時(shí)實(shí)現(xiàn)更快收斂。相反,在相同的策略初始化與 replay buffer 條件下,移除該機(jī)制會(huì)導(dǎo)致適應(yīng)速度變慢、樣本效率降低。這說明,在 TwinRL 中,數(shù)字孿生不僅在部署前擴(kuò)展探索支持,還在在線階段通過將真實(shí)交互引導(dǎo)至具有挑戰(zhàn)性且信息密集的狀態(tài)區(qū)域中發(fā)揮關(guān)鍵作用。

  

  圖 x:Sim-to-Real 引導(dǎo) HiL 的消融實(shí)驗(yàn)。引導(dǎo)機(jī)制顯著加速了強(qiáng)化學(xué)習(xí)過程,在約 4k 步(約 14 分鐘)時(shí)達(dá)到 100% 成功率;而未使用引導(dǎo)機(jī)制的訓(xùn)練收斂更慢,且最終成功率更低。

  魯棒性分析.我們?cè)诖饲拔匆娺^的環(huán)境擾動(dòng)條件下,對(duì) SFT 策略與 TwinRL 引導(dǎo)的在線 RL 策略進(jìn)行零樣本魯棒性評(píng)估。這些擾動(dòng)包括背景雜物干擾和光照變化。如圖所示,我們?cè)O(shè)計(jì)了三種測(cè)試條件:背景擾動(dòng)(加入與任務(wù)無關(guān)的物體以形成雜亂場景)、變暗光照(整體均勻照明變化)以及動(dòng)態(tài)光照(動(dòng)態(tài)彩色光源與移動(dòng)光影效果)。

  實(shí)驗(yàn)結(jié)果表明,在觀測(cè)分布發(fā)生偏移的情況下,TwinRL 的性能僅出現(xiàn)輕微下降,而僅經(jīng)過 SFT 訓(xùn)練的模型則表現(xiàn)出明顯更大的性能退化。這些結(jié)果說明,通過真實(shí)世界交互進(jìn)行 RL 微調(diào),可以推動(dòng)策略形成更加穩(wěn)定的控制行為和更具抗噪能力的決策邊界。進(jìn)一步地,TwinRL 通過孿生引導(dǎo)的 HiL 機(jī)制,將真實(shí)交互集中于高信息密度的關(guān)鍵配置,從而進(jìn)一步增強(qiáng)了策略的魯棒性。

  

  圖 x:魯棒性分析。我們?cè)诖饲拔匆娺^的環(huán)境擾動(dòng)條件下,對(duì) SFT 策略與 TwinRL 引導(dǎo)的在線 RL 策略進(jìn)行對(duì)比;上排展示了擾動(dòng)場景示例。

  具身智能的技術(shù)閉環(huán)

  至簡動(dòng)力團(tuán)隊(duì)通過一系列環(huán)環(huán)相扣的研究,他們正在構(gòu)建起具身智能的「三部曲」:從強(qiáng)大的基座模型出發(fā),通過創(chuàng)新的推理范式,最終實(shí)現(xiàn) 100 分的在線進(jìn)化與實(shí)際落地。

  第一步:LaST?——構(gòu)建隱式時(shí)空思維基座

  一切進(jìn)化的起點(diǎn)源于基座能力的突破。至簡動(dòng)力近期發(fā)布的LaST?基座模型,首次將世界模型對(duì)物理世界的理解、預(yù)測(cè)及VLA的快慢思維融合。

  技術(shù)核心:精細(xì)操作僅依靠語言是不夠的,更依賴對(duì)物理世界的充分理解和精準(zhǔn)預(yù)測(cè), LaST? 在latent space對(duì)語言邏輯、視覺語義、3D空間結(jié)構(gòu)以及機(jī)器人狀態(tài)聯(lián)合建模及生成預(yù)測(cè),在保證高頻動(dòng)作執(zhí)行流暢的前提下,顯著提升了對(duì)物理世界動(dòng)態(tài)的高效推理能力。

  解決痛點(diǎn):如果說傳統(tǒng)模型容易在復(fù)雜動(dòng)態(tài)環(huán)境下容易失效、“反應(yīng)遲鈍”, LaST? 則解決了機(jī)器人“怎么一邊想一邊快速動(dòng)”的難題。

  第二步:ManualVLA——打通“推理到執(zhí)行”的精細(xì)操作說明書

  有了強(qiáng)大的基座,如何讓機(jī)器人真正理解復(fù)雜的的長程任務(wù)?針對(duì)推理到執(zhí)行的閉環(huán),至簡動(dòng)力提出了 ManualVLA。

  技術(shù)核心:它貫通了生成式推理與低層動(dòng)作執(zhí)行,使模型能夠從目標(biāo)狀態(tài)出發(fā),自動(dòng)生成類似人類使用的多模態(tài)“操作說明書”,基于說明書實(shí)現(xiàn)精細(xì)長程操縱。

  應(yīng)用表現(xiàn):這使得機(jī)器人能完成細(xì)粒度的長程操縱。在樂高組裝等復(fù)雜任務(wù)上,其平均成功率比此前最優(yōu)方法高出 32%。它完美回答了機(jī)器人“怎么想清楚再動(dòng)手”的問題。

  第三步:TwinRL——借助數(shù)字孿生實(shí)現(xiàn)“100分”的在線進(jìn)化

  當(dāng)模型具備了推理與執(zhí)行能力,最后的關(guān)鍵在于如何讓它在真實(shí)世界中持續(xù)進(jìn)化,實(shí)現(xiàn)真正的VLA落地?;谏鲜鼋y(tǒng)一的模型能力,至簡動(dòng)力進(jìn)一步提出 TwinRL。

  技術(shù)核心:TwinRL 借助數(shù)字孿生擴(kuò)展了真機(jī)強(qiáng)化學(xué)習(xí)的探索空間,極大提升了探索效率。

  突破性指標(biāo):實(shí)驗(yàn)驗(yàn)證顯示,在多個(gè)任務(wù)上,機(jī)器人少于 20 分鐘即可在桌面區(qū)域達(dá)到 100% 的成功率,包括真機(jī)數(shù)據(jù)成功覆蓋了訓(xùn)練分布內(nèi)與分布外區(qū)域。

  進(jìn)化價(jià)值:TwinRL 真正解決了“怎么讓機(jī)器人在真實(shí)世界里自己變強(qiáng)”的終極挑戰(zhàn)。

  結(jié)語:一體化 VLA 范式的落地元年

  我們?cè)谶@篇文章中,將至簡動(dòng)力的三項(xiàng)核心技術(shù)——LaST?(基座與推理)、ManualVLA(指令與執(zhí)行)、TwinRL(進(jìn)化與落地)有機(jī)串聯(lián),構(gòu)建起一個(gè)從基礎(chǔ)研究到產(chǎn)業(yè)落地的完整故事閉環(huán)。

  這三者共同構(gòu)成了至簡動(dòng)力「推理—執(zhí)行—進(jìn)化」的 VLA 技術(shù)三角。

  從「紙面論文」到 「 物理閉環(huán) 」 ,見證至簡動(dòng)力如何重塑具身智能 VLA 范式。

  這不僅是學(xué)術(shù)上的領(lǐng)先,更是一場真正一體化 VLA 基礎(chǔ)模型范式從論文走向真實(shí)產(chǎn)線和場景的躍遷。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
俄羅斯首父立遺囑,百億財(cái)富百娃平分,結(jié)果他自律到15年不生病

俄羅斯首父立遺囑,百億財(cái)富百娃平分,結(jié)果他自律到15年不生病

時(shí)光派健康抗衰
2026-02-24 19:35:03
醫(yī)生忠告:肺癌早期不是咳嗽,而是頻繁出現(xiàn)這3癥狀,千萬別忽視

醫(yī)生忠告:肺癌早期不是咳嗽,而是頻繁出現(xiàn)這3癥狀,千萬別忽視

健康之光
2026-02-09 16:40:05
新婚女子手臂成亮點(diǎn),“滿眼都是xxx”,難道新郎一點(diǎn)都不在乎?

新婚女子手臂成亮點(diǎn),“滿眼都是xxx”,難道新郎一點(diǎn)都不在乎?

仙仙先生
2026-01-30 09:35:22
1948年絕密刺殺粟裕,叛徒已帶特務(wù)在路上,竟被4名女打字員截獲

1948年絕密刺殺粟裕,叛徒已帶特務(wù)在路上,竟被4名女打字員截獲

史之銘
2025-12-01 17:57:35
28歲烏克蘭世界踢拳冠軍犧牲前線:從拳臺(tái)王者到衛(wèi)國戰(zhàn)士

28歲烏克蘭世界踢拳冠軍犧牲前線:從拳臺(tái)王者到衛(wèi)國戰(zhàn)士

老馬拉車莫少裝
2026-02-18 00:36:06
1958年,張國燾請(qǐng)求中央給予他補(bǔ)助,毛主席同意,但提出一個(gè)條件

1958年,張國燾請(qǐng)求中央給予他補(bǔ)助,毛主席同意,但提出一個(gè)條件

帝哥說史
2026-01-17 06:40:03
女子坐動(dòng)車因個(gè)人原因誤車,改簽失敗后起訴鐵路部門索賠,法院:未按時(shí)乘車,又未在有效期內(nèi)辦理改簽導(dǎo)致車票失效,后果應(yīng)自行承擔(dān)

女子坐動(dòng)車因個(gè)人原因誤車,改簽失敗后起訴鐵路部門索賠,法院:未按時(shí)乘車,又未在有效期內(nèi)辦理改簽導(dǎo)致車票失效,后果應(yīng)自行承擔(dān)

瀟湘晨報(bào)
2026-02-25 11:35:05
CCTV5直播!中國女足vs魚腩,亞洲杯首輪底線贏5-0,附上比賽時(shí)間

CCTV5直播!中國女足vs魚腩,亞洲杯首輪底線贏5-0,附上比賽時(shí)間

越嶺尋蹤
2026-02-25 16:07:57
中國冬奧獎(jiǎng)勵(lì)曝光!12人獲獎(jiǎng):谷愛凌+寧忠?guī)r最多,還有更大福利

中國冬奧獎(jiǎng)勵(lì)曝光!12人獲獎(jiǎng):谷愛凌+寧忠?guī)r最多,還有更大福利

二瘋說球
2026-02-25 15:24:10
關(guān)于政治最深度最精辟的解釋

關(guān)于政治最深度最精辟的解釋

深度報(bào)
2026-02-22 22:47:30
騎士為什么首勝尼克斯?賽后哈登毫不避諱說出原因,說的非常實(shí)在

騎士為什么首勝尼克斯?賽后哈登毫不避諱說出原因,說的非常實(shí)在

野渡舟山人
2026-02-25 16:03:50
央視重磅官宣:殲16單機(jī)雙鎖兩架F-22,外軍隱身戰(zhàn)機(jī)嚇得再不敢來

央視重磅官宣:殲16單機(jī)雙鎖兩架F-22,外軍隱身戰(zhàn)機(jī)嚇得再不敢來

52赫茲實(shí)驗(yàn)室
2026-02-23 12:43:04
76年尼克松訪華,毛主席臨時(shí)修改接待名單:讓國鋒與江青一同出席

76年尼克松訪華,毛主席臨時(shí)修改接待名單:讓國鋒與江青一同出席

元哥說歷史
2026-02-25 14:55:03
薩林杰離隊(duì)?朱芳雨承認(rèn)引援,劉禮嘉約會(huì)廣東女球員,林志杰退役

薩林杰離隊(duì)?朱芳雨承認(rèn)引援,劉禮嘉約會(huì)廣東女球員,林志杰退役

體壇大事記
2026-02-25 12:10:52
馬斯克發(fā)帖暗示“辛鮑姆與販毒集團(tuán)存在關(guān)聯(lián)”,墨西哥總統(tǒng):正考慮采取法律行動(dòng)

馬斯克發(fā)帖暗示“辛鮑姆與販毒集團(tuán)存在關(guān)聯(lián)”,墨西哥總統(tǒng):正考慮采取法律行動(dòng)

環(huán)球網(wǎng)資訊
2026-02-25 08:58:09
鳳凰男:春節(jié)回我家,給我父母5千過節(jié)費(fèi),你家給兩盒水果就行

鳳凰男:春節(jié)回我家,給我父母5千過節(jié)費(fèi),你家給兩盒水果就行

熱心柚子姐姐
2026-02-24 14:42:55
第5外援來了!朱芳雨親自官宣,杜鋒又撿到寶了,廣東爭冠穩(wěn)了?

第5外援來了!朱芳雨親自官宣,杜鋒又撿到寶了,廣東爭冠穩(wěn)了?

萌蘭聊個(gè)球
2026-02-25 10:49:31
女子故意扮丑去相親,男子一眼看中,女子吃驚:他是不是太餓了

女子故意扮丑去相親,男子一眼看中,女子吃驚:他是不是太餓了

丫頭舫
2026-02-10 22:18:05
博德閃耀CEO:我們必須使用人工草皮,這里根本種不了天然草

博德閃耀CEO:我們必須使用人工草皮,這里根本種不了天然草

懂球帝
2026-02-25 12:18:36
窮人打倒了“地主”,為什么沒有“富”起來?貧窮的本質(zhì)是什么?

窮人打倒了“地主”,為什么沒有“富”起來?貧窮的本質(zhì)是什么?

三農(nóng)雷哥
2025-12-04 18:42:18
2026-02-25 17:07:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14587文章數(shù) 66641關(guān)注度
往期回顧 全部

科技要聞

“機(jī)器人只跳舞,沒什么用”

頭條要聞

中方就涉烏克蘭問題的決議草案投棄權(quán)票 中國代表發(fā)聲

頭條要聞

中方就涉烏克蘭問題的決議草案投棄權(quán)票 中國代表發(fā)聲

體育要聞

曝雄鹿計(jì)劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

撒貝寧到沈陽跑親戚 老婆李白模特身材

財(cái)經(jīng)要聞

GEO亂象:誰為AI營銷的泡沫買單?

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

家居
游戲
旅游
手機(jī)
公開課

家居要聞

藝居辦公 溫度與效率

傳《巫師3》DLC不會(huì)新增區(qū)域 只在原版地圖上擴(kuò)展

旅游要聞

安徽固鎮(zhèn):春節(jié)期間接待游客62.5萬人次 旅游總花費(fèi)3.4億元

手機(jī)要聞

搶先蘋果!華為將首發(fā)闊折疊屏:不用等iPhone Fold了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版