国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

告別專家依賴,讓機(jī)器人學(xué)會(huì)自我參考,僅需200步性能飆升至99.2%

0
分享至



費(fèi)森俞,上海創(chuàng)智學(xué)院 & 同濟(jì)大學(xué)博士一年級(jí)學(xué)生,導(dǎo)師趙憲忠教授,研究方向?yàn)?VLA 強(qiáng)化學(xué)習(xí)后訓(xùn)練。王思尹,上海創(chuàng)智學(xué)院 & 復(fù)旦大學(xué)博士二年級(jí)學(xué)生,導(dǎo)師邱錫鵬教授,研究方向?yàn)槎嗄B(tài)具身智能。為本文共同第一作者。

龔經(jīng)經(jīng),上海創(chuàng)智學(xué)院全時(shí)導(dǎo)師。邱錫鵬,復(fù)旦大學(xué)教授,上海創(chuàng)智學(xué)院全時(shí)導(dǎo)師。為本文共同通訊作者。

你是否想過,機(jī)器人也能像人一樣,從失敗中學(xué)習(xí),不斷自我提升

當(dāng)前,視覺語言動(dòng)作(VLA)模型在機(jī)器人操作任務(wù)中表現(xiàn)出色,但其性能嚴(yán)重依賴專家示范數(shù)據(jù),不僅成本高昂,還存在「示范偏差」,性能難以突破人類上限。而強(qiáng)化學(xué)習(xí)雖好,卻常因「獎(jiǎng)勵(lì)稀疏」問題,讓機(jī)器人無法從失敗中真正受益。





  • 論文鏈接:https://arxiv.org/pdf/2511.15605
  • 代碼倉庫:https://github.com/sii-research/siiRL
  • 技術(shù)文檔:https://siirl.readthedocs.io/en/latest/examples/embodied_srpo_example.html

動(dòng)機(jī)與貢獻(xiàn)

近期研究表明,強(qiáng)化學(xué)習(xí)作為一種有效的后訓(xùn)練策略,能顯著提升 VLA 模型在分布內(nèi)與分布外的性能。在強(qiáng)化學(xué)習(xí)方法中,基于組優(yōu)化的方法(如 GRPO)因其簡潔高效的學(xué)習(xí)范式,已成為 VLA-RL 的重要技術(shù)路徑,但其仍面臨獎(jiǎng)勵(lì)信號(hào)稀疏的挑戰(zhàn)。該問題在 VLA 領(lǐng)域尤為突出:多輪軌跡推理的計(jì)算成本極高,對(duì)失敗軌跡信息的低效利用嚴(yán)重降低了訓(xùn)練效率。雖有研究嘗試通過過程監(jiān)督提供密集反饋,但這些方法通常依賴專家示范或人工任務(wù)分解來定義中間進(jìn)展,其固有的擴(kuò)展性局限與自主學(xué)習(xí)目標(biāo)存在根本矛盾。



圖 1:GRPO 等方法僅依賴稀疏的結(jié)果獎(jiǎng)勵(lì),學(xué)習(xí)信號(hào)有限;手動(dòng)設(shè)計(jì)的過程獎(jiǎng)勵(lì)(PRM)需要成本高昂的外部示范或任務(wù)微調(diào);而 SRPO 框架提出了自參考范式,有效利用失敗軌跡。

為應(yīng)對(duì)獎(jiǎng)勵(lì)稀疏挑戰(zhàn),我們提出自我參考學(xué)習(xí)范式,以模型自身生成的成功軌跡作為參照標(biāo)準(zhǔn),評(píng)估并引導(dǎo)失敗嘗試。與 GRPO 僅利用結(jié)果性獎(jiǎng)勵(lì)進(jìn)行優(yōu)勢(shì)估計(jì)不同,我們的方法能更高效地利用完整軌跡批,這一范式將監(jiān)督問題的核心從「如何獲取專家標(biāo)簽」轉(zhuǎn)變?yōu)椤溉绾螐淖陨沓晒?jīng)驗(yàn)中提取漸進(jìn)式獎(jiǎng)勵(lì)」。

該范式的核心挑戰(zhàn)在于如何量化成功與失敗軌跡之間的行為相似性,以評(píng)估任務(wù)完成進(jìn)度。傳統(tǒng)像素級(jí)世界模型存在跨領(lǐng)域泛化能力不足或需要大量任務(wù)特定微調(diào)的問題,我們發(fā)現(xiàn)潛在世界表征天然捕捉了跨環(huán)境可遷移的行為進(jìn)展模式,使得無需精確環(huán)境重建或領(lǐng)域特定訓(xùn)練即可實(shí)現(xiàn)魯棒的軌跡比較。

基于以上洞察,我們提出自參考策略優(yōu)化(SRPO),貢獻(xiàn)主要包括以下三方面:

1. 提出 SRPO 框架,通過利用模型生成的成功軌跡為失敗嘗試提供漸進(jìn)式獎(jiǎng)勵(lì),緩解獎(jiǎng)勵(lì)稀疏性問題,消除對(duì)專家示范或任務(wù)特定工程的依賴。

2. 提出基于潛在世界表征的漸進(jìn)式獎(jiǎng)勵(lì)方法,克服傳統(tǒng)像素級(jí)世界模型的泛化局限與領(lǐng)域特定訓(xùn)練需求。

3. 實(shí)驗(yàn)結(jié)果表明,我們的方法在 LIBERO 基準(zhǔn)測(cè)試中達(dá)到 SOTA 性能,在 LIBERO-Plus 上展現(xiàn)出強(qiáng)大泛化能力,并驗(yàn)證了獎(jiǎng)勵(lì)建模的真機(jī)可遷移性。

技術(shù)方案

如圖 2 所示,SRPO 通過一種「向成功者學(xué)習(xí)」的直觀方式,幫助機(jī)器人智能體在復(fù)雜任務(wù)中更有效地學(xué)習(xí)。該方案主要包含如下核心環(huán)節(jié):



圖 2: 策略推理過程產(chǎn)生的軌跡被收集到動(dòng)態(tài)參考集中,行為相似性被建模為潛在世界空間中的軌跡距離,以此算出的漸進(jìn)式獎(jiǎng)勵(lì)在 KL 正則化的約束下用于優(yōu)勢(shì)估計(jì)和策略優(yōu)化。

1. 同策略軌跡收集:每次策略更新后,模型將推理時(shí)產(chǎn)生的所有軌跡數(shù)據(jù)存入動(dòng)態(tài)參考集,并根據(jù)任務(wù)完成情況劃分為「成功」與「失敗」兩組。

2. 世界表征提取與聚類:SRPO 將參考集中的每條軌跡都編碼到世界模型的潛在表征空間中,該表征可以理解為對(duì)整個(gè)任務(wù)過程的濃縮概括,包含物理世界的本質(zhì)規(guī)律。值得注意的是,這種表征完全基于對(duì)原始觀測(cè)的直接建模,不依賴于人類發(fā)明的「語言」或「符號(hào)」作為中介。

3. 漸進(jìn)式獎(jiǎng)勵(lì)及策略更新:對(duì)于參考集中的成功軌跡,SRPO 計(jì)算其表征聚類中心作為典型成功范式,通過計(jì)算每條失敗軌跡到最近典型成功表征的距離來作為進(jìn)度度量,距離越大說明與成功越遠(yuǎn),即進(jìn)度越低,通過批次歸一化將距離變?yōu)?0 到 1 之間的連續(xù)漸進(jìn)式獎(jiǎng)勵(lì),進(jìn)而使用 PPO 式的目標(biāo)函數(shù)更新策略。

問題建模





世界進(jìn)展獎(jiǎng)勵(lì)模型







自參考策略優(yōu)化



優(yōu)化目標(biāo):采用 PPO 風(fēng)格的裁剪目標(biāo)函數(shù),并添加 KL 散度正則項(xiàng)以保持策略穩(wěn)定性:





實(shí)驗(yàn)結(jié)果

僅用 200 步強(qiáng)化學(xué)習(xí),成功率從 48.9% 飆升至 99.2%

表 1 表明,SRPO 僅憑第三視角圖像與語言指令,不僅優(yōu)于依賴 0/1 獎(jiǎng)勵(lì)的 SimpleVLA-RL、RLinf 等強(qiáng)化學(xué)習(xí)基線,也超越了需要人工設(shè)計(jì)階段獎(jiǎng)勵(lì)的 TGRPO 等方案,超越多個(gè)依賴腕部視角、本體感知、3D 輸入的復(fù)雜模型,突顯 SRPO 在信息利用上的高效性。



表 1: SRPO 僅通過第三視角觀測(cè),在 LIBERO 上取得了 SOTA 性能。策略輸入符號(hào)說明:T (第三視角),I (語言指令),P (本體數(shù)據(jù)),W (腕部視角),D (深度)。

泛化能力實(shí)測(cè):一舉超越 15w 步監(jiān)督學(xué)習(xí)基線

表 2 表明,在更具挑戰(zhàn)的 LIBERO-Plus 泛化測(cè)試中,SRPO 帶來的性能提升高達(dá) 167%。即便未使用任何泛化場(chǎng)景數(shù)據(jù)進(jìn)行訓(xùn)練,僅通過 SRPO 自身的探索學(xué)習(xí),泛化性能仍然超越 SFT 模型。



表 2: SRPO 在 LIBERO-Plus 泛化性測(cè)試基準(zhǔn)上的表現(xiàn)顯著優(yōu)于其基線。

獎(jiǎng)勵(lì)信號(hào):物理世界的「內(nèi)行視角」

圖 3 中,我們以「將馬克杯放進(jìn)微波爐并關(guān)門」(兩階段時(shí)序任務(wù),仿真環(huán)境)和收拾桌面(五個(gè)重復(fù)性「抓取 - 放置」任務(wù),真實(shí)環(huán)境)兩個(gè)典型任務(wù)為例,展示 SRPO 在獎(jiǎng)勵(lì)構(gòu)建上的優(yōu)勢(shì):相較于易受視覺干擾,無法反映真實(shí)進(jìn)度的像素級(jí)方法,或缺乏物理規(guī)律理解,獎(jiǎng)勵(lì)波動(dòng)劇烈的通用視覺模型,我們的獎(jiǎng)勵(lì)曲線平滑、單調(diào),符合物理世界進(jìn)展規(guī)律



圖 3: 仿真環(huán)境 (a-c) 和真實(shí)環(huán)境 (d-f) 中漸進(jìn)式獎(jiǎng)勵(lì)對(duì)比圖。

效率優(yōu)勢(shì)顯著

效率方面,在圖 4 中,對(duì)于 LIBERO 長時(shí)序任務(wù),初始模型 One-shot SFT 成功率僅 17.3%,SRPO 僅用 219 步即提升至 98.6%,相比同期 GRPO,性能提升 15.3%,相較 150k 步的 full-shot SFT 模型性能提升 12.9%。



圖 4: SRPO 與 GRPO 的訓(xùn)練效率比較。

獎(jiǎng)勵(lì)建模真機(jī)實(shí)測(cè)





圖 5: 相較于 SFT 基線,SRPO 獎(jiǎng)勵(lì)構(gòu)建方法在真實(shí)世界任務(wù)上成功率有顯著提升。

激發(fā)創(chuàng)造性:讓機(jī)器人學(xué)會(huì)「自主尋路」

此外,我們發(fā)現(xiàn) SRPO 訓(xùn)練后,模型能夠自主探索出多種專家軌跡中不存在的新路徑與抓取姿態(tài),如圖 6 所示。說明 SRPO 不僅能提升成功率,更能激發(fā)機(jī)器人超越示范、自主探索新的解決策略。



圖 6: 模型推理過程中末端執(zhí)行器軌跡記錄圖。



我們發(fā)現(xiàn),SRPO 是其零成本的代替方案,是一個(gè)「免費(fèi)的午餐」





結(jié)語

告別昂貴的數(shù)據(jù)標(biāo)注和復(fù)雜的獎(jiǎng)勵(lì)設(shè)計(jì),SRPO 僅憑模型自身的成功經(jīng)驗(yàn)與物理世界常識(shí),即可實(shí)現(xiàn)性能躍遷。無需訓(xùn)練價(jià)值模型,無需人工獎(jiǎng)勵(lì)工程,無需密集專家示范,SRPO 實(shí)現(xiàn)了讓機(jī)器人從「模仿」走向「創(chuàng)造」,從「依賴」走向「自主」,為 VLA 強(qiáng)化學(xué)習(xí)開辟了一條充滿希望的新路徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“恨國女”許可馨:移民美國,已結(jié)婚,丈夫大量照片曝光遭質(zhì)疑

“恨國女”許可馨:移民美國,已結(jié)婚,丈夫大量照片曝光遭質(zhì)疑

小熊侃史
2025-12-20 10:53:55
2億人在喊:自己交100%的錢,只能拿40%?靈活就業(yè)社保該動(dòng)真格了

2億人在喊:自己交100%的錢,只能拿40%?靈活就業(yè)社保該動(dòng)真格了

老特有話說
2025-12-19 21:22:11
外交部長和國防部長如果通報(bào)被免職,意味著什么?

外交部長和國防部長如果通報(bào)被免職,意味著什么?

李昕言溫度空間
2025-12-20 19:00:33
一涉腐干部被查扣各類人民幣479捆,法院掛拍萬余張舊版2元面值人民幣,起拍價(jià)20余萬元

一涉腐干部被查扣各類人民幣479捆,法院掛拍萬余張舊版2元面值人民幣,起拍價(jià)20余萬元

極目新聞
2025-12-19 20:58:00
成都私人影院被曝涉“有償陪侍” 記者探訪:涉事門店已暫停經(jīng)營,警方介入調(diào)查

成都私人影院被曝涉“有償陪侍” 記者探訪:涉事門店已暫停經(jīng)營,警方介入調(diào)查

封面新聞
2025-12-20 19:21:27
南博驚天丑聞被扒!90年代的保管員監(jiān)守自盜19件藏品,被依法處決

南博驚天丑聞被扒!90年代的保管員監(jiān)守自盜19件藏品,被依法處決

火山詩話
2025-12-20 16:02:06
要解開南京博物院捐贈(zèng)之謎,建議先查清這神秘的兩個(gè)人

要解開南京博物院捐贈(zèng)之謎,建議先查清這神秘的兩個(gè)人

李老逵亂擺龍門陣
2025-12-20 10:54:00
必勝客被查!

必勝客被查!

魯中晨報(bào)
2025-12-20 17:49:04
北京阿姨20年守茅臺(tái)股票:90萬本金,分紅326萬,成本歸零!

北京阿姨20年守茅臺(tái)股票:90萬本金,分紅326萬,成本歸零!

趣文說娛
2025-12-20 18:29:20
泰方點(diǎn)名調(diào)查柬“生命研究中心”,湘雅醫(yī)院火速撇清:從未合作

泰方點(diǎn)名調(diào)查柬“生命研究中心”,湘雅醫(yī)院火速撇清:從未合作

胡嚴(yán)亂語
2025-12-20 16:13:32
突發(fā)!左膝半月板撕裂+缺陣4-5周,完?duì)僮恿耍@還咋交易?

突發(fā)!左膝半月板撕裂+缺陣4-5周,完?duì)僮恿?,這還咋交易?

球童無忌
2025-12-20 13:27:27
克林頓罕見強(qiáng)硬發(fā)聲:這不是烏克蘭的戰(zhàn)爭(zhēng),而是美國的戰(zhàn)爭(zhēng)!

克林頓罕見強(qiáng)硬發(fā)聲:這不是烏克蘭的戰(zhàn)爭(zhēng),而是美國的戰(zhàn)爭(zhēng)!

老馬拉車莫少裝
2025-12-20 14:50:21
【獨(dú)家】小米給全國汽車經(jīng)銷商發(fā)超一億元“紅包”

【獨(dú)家】小米給全國汽車經(jīng)銷商發(fā)超一億元“紅包”

界面新聞
2025-12-20 12:27:14
重慶交通大學(xué)原副校長張尚毅被“雙開”:違規(guī)占用學(xué)校公房歸個(gè)人使用

重慶交通大學(xué)原副校長張尚毅被“雙開”:違規(guī)占用學(xué)校公房歸個(gè)人使用

界面新聞
2025-12-20 20:08:38
電信董事長估計(jì)要失眠了,惹誰不好,偏偏惹了最叛逆的羅永浩!

電信董事長估計(jì)要失眠了,惹誰不好,偏偏惹了最叛逆的羅永浩!

荊楚寰宇文樞
2025-12-19 23:04:03
終于官宣!老年證將全面作廢,以后坐公交逛公園就用它

終于官宣!老年證將全面作廢,以后坐公交逛公園就用它

陳博世財(cái)經(jīng)
2025-12-20 14:27:24
抖音每年三千萬中標(biāo),咪咕5年16億報(bào)價(jià)被拒絕,CBA這波操作太魔幻

抖音每年三千萬中標(biāo),咪咕5年16億報(bào)價(jià)被拒絕,CBA這波操作太魔幻

姜大叔侃球
2025-12-20 12:18:17
73歲普京罕見回應(yīng)感情生活,承認(rèn)正在戀愛中!信息量很大......

73歲普京罕見回應(yīng)感情生活,承認(rèn)正在戀愛中!信息量很大......

新民周刊
2025-12-20 17:10:52
濟(jì)南一對(duì)母女黃河岸邊失聯(lián)超40天,搜索范圍擴(kuò)大至黃河入???,丈夫:妻子性格大大咧咧,失聯(lián)前無異常

濟(jì)南一對(duì)母女黃河岸邊失聯(lián)超40天,搜索范圍擴(kuò)大至黃河入???,丈夫:妻子性格大大咧咧,失聯(lián)前無異常

極目新聞
2025-12-20 11:55:28
實(shí)探廣州玩具城:李嘉誠15億投資,如今荒涼像“鬼城”

實(shí)探廣州玩具城:李嘉誠15億投資,如今荒涼像“鬼城”

樓市滅霸
2025-12-19 19:11:22
2025-12-20 20:48:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142514關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

司機(jī)稱轎車剎車失靈狂奔490公里 網(wǎng)友質(zhì)疑"自導(dǎo)自演"

頭條要聞

司機(jī)稱轎車剎車失靈狂奔490公里 網(wǎng)友質(zhì)疑"自導(dǎo)自演"

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會(huì)陣容曝光,豪華陣仗

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測(cè)試 已完成11萬公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

家居
本地
游戲
健康
公開課

家居要聞

高端私宅 理想隱居圣地

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

《三角符文》第五章開發(fā)進(jìn)展良好 本地化工作已經(jīng)啟動(dòng)

這些新療法,讓化療不再那么痛苦

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版