国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

全球強化學(xué)習(xí)+VLA范式,PI*0.6背后都有這家中國公司技術(shù)伏筆

0
分享至



機器之心發(fā)布

機器之心編輯部

在 Physical Intelligence 最新的成果 π0.6 論文里,他們介紹了 π0.6 迭代式強化學(xué)習(xí)的思路來源:



其中有我們熟悉的 Yuke Zhu 的研究,也有他們自己(Chelsea Finn、Sergey Levine)的一些研究,我們之前對這些工作一直有跟蹤和介紹。此外,還有來自國內(nèi)具身智能團(tuán)隊的工作,比如清華大學(xué)、星動紀(jì)元的研究。隨著 π*0.6 的發(fā)布,VLA+online RL 成為了一個行業(yè)共識的非常有前景的研究方向(深扒了Π*0.6的論文,發(fā)現(xiàn)它不止于真實世界強化學(xué)習(xí)、英偉達(dá)也來做VLA在真實世界自我改進(jìn)的方法了)大語言模型從SFT到RL的發(fā)展方向也逐漸在具身研究中清晰明朗。

一、為什么VLA+RL很重要



圖注:VLA模型依賴研讀微調(diào)

在具身智能(Embodied AI)領(lǐng)域,科學(xué)家們正在嘗試將強大的視覺-語言模型(VLM)應(yīng)用到機器人的底層控制中,這就是所謂的VLA模型。通常,這些模型是通過模仿人類專家的示范數(shù)據(jù)(監(jiān)督微調(diào),SFT)來學(xué)習(xí)的。



圖注:模仿學(xué)習(xí)的局限

但是,僅靠模仿是不夠的。如果機器人遇到了從未見過的情況,或者專家數(shù)據(jù)不夠完美,機器人就會不知所措。

而正如我們在深扒了Π*0.6的論文,發(fā)現(xiàn)它不止于真實世界強化學(xué)習(xí)所說的,模仿學(xué)習(xí)能讓機器人成功做出動作,但是讓它每次都成功是非常難的。如果想讓機器人非常魯棒、持久的工作,需要借助強化學(xué)習(xí)的力量。相較于離線強化學(xué)習(xí)通常受限于演示數(shù)據(jù)的質(zhì)量,模型很難超越提供數(shù)據(jù)的專家,在線 RL 允許智能體通過試錯來發(fā)現(xiàn)更優(yōu)解

二、強化學(xué)習(xí)應(yīng)用在VLA的三大難點?



圖注:VLA RL的難點

理論上,強化學(xué)習(xí)(RL)可以讓機器人通過與環(huán)境互動、試錯來持續(xù)進(jìn)步,但是這其實不是一件容易的事情



圖注:LLM和具身在RL上的區(qū)別

將類似 GPT 這樣的大模型與強化學(xué)習(xí)結(jié)合(如 RLHF)在聊天機器人領(lǐng)域非常成功,但在控制物理機器人時卻困難重重:

  • 環(huán)境差異:聊天機器人是在離線數(shù)據(jù)集上訓(xùn)練的,而機器人需要在物理世界中實時探索。物理任務(wù)通常周期長、獎勵稀疏(做完一整套動作才算成功),這使得學(xué)習(xí)非常困難。
  • 模型坍塌與不穩(wěn)定性:研究發(fā)現(xiàn),如果直接對巨大的 VLA 模型(數(shù)十億參數(shù))進(jìn)行在線強化學(xué)習(xí),模型很容易出現(xiàn)“災(zāi)難性遺忘”或訓(xùn)練崩潰,導(dǎo)致性能甚至不如微調(diào)前。
  • 算力負(fù)擔(dān):在本地機器上對幾十億參數(shù)的模型進(jìn)行全量梯度的強化學(xué)習(xí)更新,對硬件要求極高,通常超出了本地機器人控制器的算力極限。

三、星動紀(jì)元 iRe-VLA 最先突破 VLA 強化學(xué)習(xí)困境,也是 π*0.6 的引用來源

對于VLA的強化學(xué)習(xí)困境,行業(yè)內(nèi)其實有三種類型的解決方案:

  • 第一種:外掛式干預(yù):一些嘗試不敢輕易觸碰龐大的 VLA 參數(shù)。比如V-GPS (Value-Guided Policy Steering)訓(xùn)練一個通用的價值函數(shù),在推理時,讓 VLA 生成多個候選動作,用價值函數(shù)對它們進(jìn)行打分和重排序,選擇最好的動作執(zhí)行;DSRL訓(xùn)練一個小型的 RL 策略來優(yōu)化擴散模型的輸入噪聲,通過改變輸入噪聲來“引導(dǎo)”凍結(jié)的 VLA 生成高價值動作。這種方法雖然安全,但 VLA沒有真正發(fā)生質(zhì)變。
  • 第二種:暴力美學(xué):VLAC為代表的工作嘗試直接用 PPO 等算法全量微調(diào) VLA。雖然勇氣可嘉,但大模型在 RL 訓(xùn)練中極易出現(xiàn)災(zāi)難性遺忘和模型坍塌(Model Collapse),且對算力的要求很高。
  • 第三種是從探索到內(nèi)化的循環(huán)。讓我們眼前一亮的是一篇以前沒有跟蹤過的,清華和UC Berkeley的《Improving Vision-Language-Action Model with Online Reinforcement Learning》(通過在線強化學(xué)習(xí)改進(jìn)視覺-語言-動作模型),來自于清華大學(xué)助理教授、星動紀(jì)元創(chuàng)始人陳建宇老師組。星動紀(jì)元這項研究是全球最早將在線RL引入VLA的工作,在ICRA發(fā)表,π*0.6 也引用了該工作,是中美兩方在RL上的頂尖對話。

這兩篇文章代表了第三種路徑。它們不再盲目地套用 RL 算法,而是利用監(jiān)督微調(diào)(SFT)將 RL 探索出的高價值行為(成功軌跡或高優(yōu)勢動作)穩(wěn)定地內(nèi)化為模型的原生能力。

π*0.6 不在此詳細(xì)贅述。我們來看下 iRe-VLA。



  • 論文:Improving Vision-Language-Action Model with Online Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2501.16664

iRe-VLA 的作者設(shè)計了一個兩階段循環(huán)迭代的學(xué)習(xí)流程。這個流程的核心思想是:分而治之,動靜結(jié)合。

星動紀(jì)元:iRe-VLA 模型架構(gòu)設(shè)計

VLA 模型由兩部分組成:

VLM 主干(大腦):使用預(yù)訓(xùn)練的大型視覺-語言模型(如 BLIP-2),負(fù)責(zé)理解圖像和指令,擁有豐富的世界知識。

Action Head(四肢):一個輕量級的動作輸出層(由 Token Learner 和 MLP 構(gòu)成),負(fù)責(zé)將 VLM 的深層特征轉(zhuǎn)化為具體的機器人控制信號(如機械臂的移動、夾爪的開合)。

為了提高效率,作者還使用了LoRA(低秩適應(yīng))技術(shù),避免全量微調(diào)所有參數(shù)。



圖注:模型架構(gòu)

核心流程:兩個階段的交替

iRe-VLA 方法不是一次性訓(xùn)練,而是在以下兩個階段中反復(fù)迭代:

第一階段:在線強化學(xué)習(xí)(探索與發(fā)現(xiàn))



圖注:穩(wěn)定探索

在這個階段,機器人的目標(biāo)是去試錯,探索如何完成新任務(wù)。

  • 凍結(jié)大腦(Freeze VLM):為了防止模型崩潰和減少計算量,作者凍結(jié)了巨大的 VLM 主干參數(shù)。
  • 只練四肢(Train Action Head):僅訓(xùn)練輕量級的 Action Head。同時引入一個Critic Head(評價網(wǎng)絡(luò))來輔助訓(xùn)練。
  • 優(yōu)勢:因為只更新很少的參數(shù),訓(xùn)練非常穩(wěn)定,而且計算量很小,可以在本地機器(如單張 4090 顯卡)上高效運行。機器人通過不斷嘗試,找到了一些能夠成功完成任務(wù)的軌跡(Success Trajectories)。

第二階段:監(jiān)督學(xué)習(xí)(鞏固與內(nèi)化)

在第一階段,機器人可能只是碰巧學(xué)會了操作,為了讓這種能力真正融入模型,需要進(jìn)行第二階段。



圖注:融合與升華

  • 全模型微調(diào):解凍 VLM 主干,對整個模型(包括 LoRA 參數(shù))進(jìn)行訓(xùn)練。
  • 混合數(shù)據(jù):訓(xùn)練數(shù)據(jù)不僅包含第一階段探索到的新成功軌跡,還混合了原始的專家示范數(shù)據(jù)。
  • 優(yōu)勢:這不僅利用了大模型的強大表達(dá)能力來記住新技能,還因為混合了舊數(shù)據(jù),有效防止了災(zāi)難性遺忘(即學(xué)會了新任務(wù),忘了舊任務(wù))。這一步計算量大,通常放在云端服務(wù)器(如 A100 集群)上進(jìn)行。



圖注:兩階段

總結(jié):機器人先在“小參數(shù)模式”下大膽探索(階段1),找到方法后,再在“全參數(shù)模式”下把經(jīng)驗固化到大腦中(階段2),如此循環(huán)往復(fù)。



圖注:循環(huán)往復(fù)

三、 實驗結(jié)果與分析



圖注:三種情況的實驗結(jié)果分析

作者在仿真環(huán)境(MetaWorld, Franka Kitchen)和真實世界(Panda 機械臂)中進(jìn)行了大量實驗,驗證了該方法的有效性。

訓(xùn)練穩(wěn)定性對比

實驗顯示,如果使用標(biāo)準(zhǔn)的 PPO 算法直接微調(diào) VLA 模型,成功率曲線震蕩劇烈,甚至在很多任務(wù)上性能下降(變差了)。而 iRe-VLA 的曲線則穩(wěn)步上升,證明了“分階段凍結(jié)參數(shù)”對于穩(wěn)定訓(xùn)練至關(guān)重要。



圖注:曲線對比

仿真環(huán)境表現(xiàn)



圖注:仿真環(huán)境中具備壓倒性優(yōu)勢

MetaWorld & Franka Kitchen:在這些基準(zhǔn)測試中,iRe-VLA 不僅在原本學(xué)過的任務(wù)上表現(xiàn)更好(例如從 43% 提升到 83%),還能通過在線探索學(xué)會完全沒見過的任務(wù)。

對比 SFT:相比僅進(jìn)行監(jiān)督微調(diào)的模型,經(jīng)過 iRe-VLA 迭代后的模型在所有任務(wù)類別(專家任務(wù)、RL 訓(xùn)練任務(wù)、未見過的測試任務(wù))上的成功率都有顯著提升。



圖注:不同后訓(xùn)練策略的對比

真實世界挑戰(zhàn)(Real-World Panda)

這是最令人印象深刻的部分。作者讓機器人去抓取它從未見過的物體(如形狀不規(guī)則的茄子、胡蘿卜)。



圖注:真實世界的提升

  • 初始狀態(tài):僅靠專家數(shù)據(jù)(SFT),機器人抓取這些新物體的成功率只有 35% 左右。
  • 訓(xùn)練后:經(jīng)過 iRe-VLA 的在線學(xué)習(xí)(利用 SACfD 算法提高樣本效率),抓取成功率飆升到了 80%。
  • 泛化能力:更有趣的是,訓(xùn)練后的模型去抓取完全未參與訓(xùn)練的第三類物體,成功率也從 37% 提升到了 61%。這說明通過強化學(xué)習(xí),模型不僅學(xué)會了抓茄子,還變得更聰明、更通用了。



圖注:實驗和成功率

消融實驗:為什么要解凍 VLM?

作者做了一個對比實驗:如果在第二階段依然凍結(jié) VLM,只訓(xùn)練 Action Head(即 iRe-VLA-freeze),效果如何?

結(jié)果顯示,如果不解凍 VLM,模型的性能提升會遇到瓶頸。這證明了在第二階段解凍大模型參數(shù)是必要的,這樣才能利用大模型深層的特征表示能力來徹底掌握復(fù)雜技能,并提升泛化性。



圖注:消融實驗

四、 結(jié)論與意義

這篇文章提出了一種切實可行的方案,解決了大模型在機器人控制中落地難的問題。

  • 穩(wěn)定性:解決了大模型直接上 RL 容易訓(xùn)崩的問題。
  • 經(jīng)濟(jì)性:巧妙地分配了算力,讓本地機器人負(fù)責(zé)輕量級探索,云端服務(wù)器負(fù)責(zé)重量級消化,符合實際部署場景。
  • 持續(xù)學(xué)習(xí):證明了機器人可以通過自我探索,在不遺忘舊技能的前提下,不斷掌握新物體和新任務(wù)的操作技能。



圖注:該架構(gòu)的優(yōu)點

國內(nèi)的星動紀(jì)元的iRe-VLA 的基礎(chǔ)上,海外的PI π*0.6,都為我們揭示出了VLA在線強化學(xué)習(xí)技術(shù)的發(fā)展前景。這條路還有很多未盡的研究話題,比如如何高效探索與稀疏獎勵下的新技能學(xué)習(xí),如何面向大規(guī)模 VLA 構(gòu)造穩(wěn)定可擴展 RL 算法等。

未來發(fā)展,我們拭目以待。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
正式免職,47歲王勵勤卸任,新崗位曝光,王楚欽祝福

正式免職,47歲王勵勤卸任,新崗位曝光,王楚欽祝福

懂球社
2025-12-18 12:25:29
我娶了被全村嫌棄的石女,新婚夜她突然下跪向我道歉:我不應(yīng)該騙你

我娶了被全村嫌棄的石女,新婚夜她突然下跪向我道歉:我不應(yīng)該騙你

溫情郵局
2025-10-14 10:55:47
勇士98:99輸太陽,庫里狀態(tài)低迷,賽后收1個壞消息和2個好消息

勇士98:99輸太陽,庫里狀態(tài)低迷,賽后收1個壞消息和2個好消息

楊仔述
2025-12-19 12:52:47
被鵜鶘逆轉(zhuǎn)出現(xiàn)3罪人!烏度卡愣頭青,申京+史密斯關(guān)鍵時刻連送!

被鵜鶘逆轉(zhuǎn)出現(xiàn)3罪人!烏度卡愣頭青,申京+史密斯關(guān)鍵時刻連送!

細(xì)話籃球
2025-12-19 13:39:24
河南農(nóng)民花8年種出椅子,出價8萬一把都不賣,專家 我真佩服你

河南農(nóng)民花8年種出椅子,出價8萬一把都不賣,專家 我真佩服你

牛牛叨史
2025-12-18 16:38:07
被兄弟"做局"奪走300億公司,坐牢10年的賭徒CEO出來了

被兄弟"做局"奪走300億公司,坐牢10年的賭徒CEO出來了

帥真商業(yè)
2025-12-16 21:08:37
特步簽約全運會冠軍劉景揚,從耐力賽道到速度賽場的戰(zhàn)略延伸

特步簽約全運會冠軍劉景揚,從耐力賽道到速度賽場的戰(zhàn)略延伸

北青網(wǎng)-北京青年報
2025-12-19 08:06:06
張韶涵造型翻車?網(wǎng)友:這是裁員裁到服裝師了?

張韶涵造型翻車?網(wǎng)友:這是裁員裁到服裝師了?

搞笑娛樂笑話
2025-12-18 10:35:33
穆帥迎750勝!本菲卡炮轟葡體:黑哨,VAR花12分鐘判絕平點球

穆帥迎750勝!本菲卡炮轟葡體:黑哨,VAR花12分鐘判絕平點球

天光破云來
2025-12-19 11:00:51
羅永浩炮轟電信寬帶縮水:再不解決,就要在網(wǎng)上發(fā)瘋了

羅永浩炮轟電信寬帶縮水:再不解決,就要在網(wǎng)上發(fā)瘋了

觀察者網(wǎng)
2025-12-19 10:25:08
凝心聚力開新局 以經(jīng)濟(jì)強基筑牢復(fù)興偉業(yè)

凝心聚力開新局 以經(jīng)濟(jì)強基筑牢復(fù)興偉業(yè)

新華社
2025-12-18 18:25:53
董宇輝上綜藝直言:我的伯樂不是俞敏洪,是進(jìn)入直播間的在線觀眾

董宇輝上綜藝直言:我的伯樂不是俞敏洪,是進(jìn)入直播間的在線觀眾

桑葚愛動畫
2025-12-19 12:51:18
八路軍最刺頭的主力旅:兩團(tuán)長叛變氣吐大將,朱老總罕見拍桌罵人,最后全靠主席點將才鎮(zhèn)住

八路軍最刺頭的主力旅:兩團(tuán)長叛變氣吐大將,朱老總罕見拍桌罵人,最后全靠主席點將才鎮(zhèn)住

歷史回憶室
2025-12-18 21:16:16
1963年元旦,郭沫若發(fā)布新年祝詞,毛主席看到后寫下經(jīng)典名篇

1963年元旦,郭沫若發(fā)布新年祝詞,毛主席看到后寫下經(jīng)典名篇

源溯歷史
2025-12-17 15:57:20
火箭遭倒數(shù)第一25分逆轉(zhuǎn)!杜蘭特的沮喪肉眼可見 兩人成罪魁禍?zhǔn)?>
    </a>
        <h3>
      <a href=鍋子籃球
2025-12-19 12:29:55
何晴主治醫(yī)生曝許亞軍一直出資幫忙 評論區(qū)許亞軍口碑逆轉(zhuǎn)

何晴主治醫(yī)生曝許亞軍一直出資幫忙 評論區(qū)許亞軍口碑逆轉(zhuǎn)

艷兒說電影
2025-12-19 09:13:30
日本專家:不要再被忽悠了,中國殲-36根本沒有實戰(zhàn)的能力

日本專家:不要再被忽悠了,中國殲-36根本沒有實戰(zhàn)的能力

呂醿極限手工
2025-12-19 09:39:35
陶虹帶女兒豪宅參加聚會,17歲小寶打扮中性,染黃發(fā)長得很像徐崢

陶虹帶女兒豪宅參加聚會,17歲小寶打扮中性,染黃發(fā)長得很像徐崢

丁丁鯉史紀(jì)
2025-12-19 13:16:44
事情嚴(yán)重了!中國取消美國的訂單!

事情嚴(yán)重了!中國取消美國的訂單!

扶蘇聊歷史
2025-12-19 09:41:29
周星馳做夢也沒想到,心中這口惡氣竟讓王晶給出了,劉德華沒說謊

周星馳做夢也沒想到,心中這口惡氣竟讓王晶給出了,劉德華沒說謊

林雁飛
2025-12-19 13:15:13
2025-12-19 14:20:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11953文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

團(tuán)播女生私下賣力維護(hù)"大哥":經(jīng)常擦邊 有女生會被約走

頭條要聞

團(tuán)播女生私下賣力維護(hù)"大哥":經(jīng)常擦邊 有女生會被約走

體育要聞

沒有塔圖姆,還有塔禿姆

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬

態(tài)度原創(chuàng)

時尚
本地
家居
游戲
公開課

“煙管褲”今年冬天爆火,怎么搭都時髦!

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

家居要聞

高端私宅 理想隱居圣地

經(jīng)典劇情RPG神作《空之軌跡 the 1st》冬促來襲!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版