国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

直播預(yù)告 | 清華RLinf團(tuán)隊(duì): RL可以為VLA帶來什么?

0
分享至

北京時(shí)間11月26日(周三)晚8點(diǎn),由清華RLinf團(tuán)隊(duì)策劃、將門-TechBeat人工智能社區(qū)組織的分享活動(dòng)“RL可以為VLA帶來什么? ”將在視頻號(hào)準(zhǔn)時(shí)直播。

本次直播我們很開心邀請(qǐng)到——清華大學(xué)交叉信息研究院博士生高楓卡耐基梅隆大學(xué)計(jì)算機(jī)學(xué)院機(jī)器人所研究生張同和和 清華大學(xué)博士后/助理研究員于超。他們將從NeurIPS 2025中稿文章出發(fā),一起 聊聊VLA和RL。

點(diǎn)擊下方“預(yù)約”,鎖定直播

直播介紹

主題:RL可以為VLA帶來什么?

時(shí)間:北京時(shí)間11月26日 (周三) 20:00-21:30

簡(jiǎn)介:

視覺-語言-動(dòng)作模型(Vision-language-action models, VLAs)以圖像和語言指令為輸入,輸出可執(zhí)行的機(jī)器人動(dòng)作,能夠?qū)崿F(xiàn)直觀且靈活的人機(jī)交互,被認(rèn)為是具身智能領(lǐng)域高潛力解決方案。

當(dāng)前,VLA的訓(xùn)練方法遵循標(biāo)準(zhǔn)的“預(yù)訓(xùn)練-監(jiān)督微調(diào)(Supervised Fine-tune, SFT)”范式,即在預(yù)訓(xùn)練VLM的基礎(chǔ)上,VLA模型在大規(guī)模異質(zhì)人類演示數(shù)據(jù)集上進(jìn)行微調(diào),隨后在目標(biāo)任務(wù)上進(jìn)一步SFT,以使其能力與特定的機(jī)器人實(shí)體和環(huán)境對(duì)齊。

然而,對(duì)SFT的依賴帶來了一個(gè)核心挑戰(zhàn):大規(guī)模、高質(zhì)量的專家軌跡既繁瑣又昂貴,且通過SFT得到的模型容易過擬合于專家演示。RLinf團(tuán)隊(duì)致力于探索如何將強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL) 應(yīng)用于VLA模型。

本次直播將分享團(tuán)隊(duì)在 NeurIPS 2025中稿的兩篇文章,分別是 (1) RL4VLA:強(qiáng)化學(xué)習(xí)可以對(duì)VLA模型帶來何種程度的泛化? (2) ReinFlow:在線強(qiáng)化學(xué)習(xí)微調(diào)流匹配策略。

文章提綱:

(1) What Can RL Bring to VLA Generalization? An Empirical Study

本研究系統(tǒng)探討了強(qiáng)化學(xué)習(xí) (RL) 對(duì)視覺-語言-動(dòng)作 (VLA) 模型泛化能力的促進(jìn)作用。針對(duì)現(xiàn)有VLA主要依賴監(jiān)督微調(diào) (SFT) 導(dǎo)致的誤差累積與分布偏移問題,我們構(gòu)建了一個(gè)覆蓋視覺、語義與執(zhí)行三大維度的泛化能力評(píng)測(cè)基準(zhǔn),并系統(tǒng)比較RL微調(diào)與SFT的差異。實(shí)驗(yàn)結(jié)果表明,采用PPO進(jìn)行RL微調(diào)可顯著提升語義理解與執(zhí)行魯棒性,同時(shí)保持與SFT相當(dāng)?shù)囊曈X泛化表現(xiàn)。研究進(jìn)一步發(fā)現(xiàn),PPO在VLA場(chǎng)景中整體優(yōu)于源自LLM范式的DPO與GRPO方法?;谶@些發(fā)現(xiàn),我們提出一套高效可復(fù)用的PPO訓(xùn)練方案,降低在大規(guī)模VLA上應(yīng)用強(qiáng)化學(xué)習(xí)的門檻,并驗(yàn)證其在提升泛化性能方面的實(shí)際價(jià)值。

(2) ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning

本研究針對(duì)流匹配策略提出了一種高效的在線強(qiáng)化學(xué)習(xí) (RL) 框架 — ReinFlow?,F(xiàn)有的流模型(如Rectified Flow與Shortcut Models)基于行為克隆,其探索能力不足,成功率受制于專家數(shù)據(jù)的質(zhì)和量,而且一次訓(xùn)練結(jié)束后,性能很難繼續(xù)提升。ReinFlow可以對(duì)通過行為克隆得到的流策略開展強(qiáng)化學(xué)習(xí),通過模型自主采集數(shù)據(jù)來提高成功率。ReinFlow從RL理論出發(fā),通過引入噪聲估計(jì)網(wǎng)絡(luò),將確定性的流路徑轉(zhuǎn)化為離散時(shí)間馬爾可夫過程,從而實(shí)現(xiàn)精確且直接的似然估計(jì)。在包括足式運(yùn)動(dòng)控制、視覺輸入機(jī)械臂操作的場(chǎng)景中,ReinFlow的微調(diào)顯著提升了性能,相比擴(kuò)散策略,大幅減少了推理的時(shí)鐘時(shí)間。本工作為今天主流的機(jī)器人操作策略的強(qiáng)化學(xué)習(xí)提供了科學(xué)的研究基礎(chǔ)。例如,近期團(tuán)隊(duì)成功將Reinflow集成RLinf系統(tǒng),首次將大規(guī)模并行在線強(qiáng)化學(xué)習(xí)應(yīng)用于接收稀疏獎(jiǎng)勵(lì)的流匹配 VLA 模型,展示了卓越的微調(diào)性能。

參考資料


論文鏈接: https://arxiv.org/ 2510.25889


論文鏈接: https://arxiv.org/abs/ 2505.19789


論文鏈接: https://arxiv.org/abs/2510.06710


論文鏈接: https://arxiv.org/abs/2505.22094



講者介紹


高楓

清華大學(xué)交叉信息院博士生

高楓,清華大學(xué)交叉信息院博士在讀,導(dǎo)師吳翼。主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)與機(jī)器人學(xué)習(xí),曾在CoRL,ICML,NeurIPS,AAMAS,RAL等會(huì)議/期刊發(fā)表多篇論文。


張同和

卡耐基梅隆大學(xué)計(jì)算機(jī)學(xué)院機(jī)器人所研究生

張同和,卡耐基梅隆大學(xué)計(jì)算機(jī)學(xué)院機(jī)器人所研究生,師從Guanya Shi和Max Simchowitz。主要研究方向?yàn)閿U(kuò)散模型、強(qiáng)化學(xué)習(xí)與機(jī)器人學(xué)習(xí),曾在ICML,NeurIPS,ICRA等會(huì)議發(fā)表多篇論文。


于超

清華大學(xué)博士后/助理研究員

于超,博士畢業(yè)于清華大學(xué)電子工程系,師從汪玉和吳翼教授。研究方向?yàn)閺?qiáng)化學(xué)習(xí)驅(qū)動(dòng)的決策智能。迄今以第一/通訊作者在頂級(jí)國際會(huì)議和期刊發(fā)表論文40余篇,谷歌學(xué)術(shù)總引用4600余次。其中,以第一作者發(fā)表于NeurIPS 2022的多智能體強(qiáng)化學(xué)習(xí)算法MAPPO論文引用逾2000次,發(fā)表于IROS 2018的機(jī)器人論文引用超1000次。曾獲清華大學(xué)優(yōu)秀博士畢業(yè)生、優(yōu)秀博士論文、優(yōu)秀碩士論文、2024年度中國智能體與多智能體系統(tǒng)優(yōu)秀博士論文提名獎(jiǎng)、國家獎(jiǎng)學(xué)金等榮譽(yù)。博士后期間入選清華大學(xué)“水木學(xué)者”計(jì)劃;主持國家自然科學(xué)基金青年項(xiàng)目、博士后基金特別資助與面上項(xiàng)目等。


-The End-

掃碼觀看!

本周上新!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
失眠黨注意!美國心臟協(xié)會(huì)警示:長期用褪黑素,心衰風(fēng)險(xiǎn)飆升89%

失眠黨注意!美國心臟協(xié)會(huì)警示:長期用褪黑素,心衰風(fēng)險(xiǎn)飆升89%

思思夜話
2026-03-12 17:04:04
突然全線跳水!霍爾木茲海峽,大消息!

突然全線跳水!霍爾木茲海峽,大消息!

臺(tái)州交通廣播
2026-03-13 11:14:44
專家發(fā)現(xiàn):吃一個(gè)香蕉,就等于喝了一大口可樂,真的還是假的?

專家發(fā)現(xiàn):吃一個(gè)香蕉,就等于喝了一大口可樂,真的還是假的?

岐黃傳人孫大夫
2026-03-12 23:00:03
老燕子又出大事了!

老燕子又出大事了!

八卦瘋叔
2026-03-12 11:01:34
獨(dú)占?xì)v史第一!亞歷山大連續(xù)127場(chǎng)20+超越張伯倫 書寫新傳奇

獨(dú)占?xì)v史第一!亞歷山大連續(xù)127場(chǎng)20+超越張伯倫 書寫新傳奇

醉臥浮生
2026-03-13 11:06:59
這就是梅蘭芳三位夫人真實(shí)樣貌,非演員扮演,貨真價(jià)實(shí)的罕見照片

這就是梅蘭芳三位夫人真實(shí)樣貌,非演員扮演,貨真價(jià)實(shí)的罕見照片

老媹古裝影視解說
2026-03-13 15:23:35
西安一商業(yè)街被指藏“幽靈外賣”,官方通報(bào):基本屬實(shí),已責(zé)令涉事門店停業(yè),約談平臺(tái)負(fù)責(zé)人,下架違規(guī)店鋪

西安一商業(yè)街被指藏“幽靈外賣”,官方通報(bào):基本屬實(shí),已責(zé)令涉事門店停業(yè),約談平臺(tái)負(fù)責(zé)人,下架違規(guī)店鋪

大風(fēng)新聞
2026-03-13 17:53:04
楊瀚森狂轟16+13+2,又創(chuàng)生涯新高!登陸NBA持續(xù)進(jìn)化,開拓者欣慰

楊瀚森狂轟16+13+2,又創(chuàng)生涯新高!登陸NBA持續(xù)進(jìn)化,開拓者欣慰

小火箭愛體育
2026-03-13 13:05:12
他倆官宣結(jié)婚,朋友圈都炸了!

他倆官宣結(jié)婚,朋友圈都炸了!

In風(fēng)尚
2026-03-12 12:05:42
3-1掀翻世界第2!國乒19歲1米86黑馬新星躥升:連贏奧運(yùn)冠亞軍

3-1掀翻世界第2!國乒19歲1米86黑馬新星躥升:連贏奧運(yùn)冠亞軍

李喜林籃球絕殺
2026-03-12 20:49:14
特朗普轉(zhuǎn)身將矛頭對(duì)準(zhǔn)朝鮮?沉默24小時(shí)后,金正恩嚴(yán)正警告

特朗普轉(zhuǎn)身將矛頭對(duì)準(zhǔn)朝鮮?沉默24小時(shí)后,金正恩嚴(yán)正警告

鐵錘簡(jiǎn)科
2026-03-13 13:08:00
太炸裂!曝男籃26歲郭昊文被40歲大姐“包養(yǎng)”,郭士強(qiáng)做的太對(duì)了

太炸裂!曝男籃26歲郭昊文被40歲大姐“包養(yǎng)”,郭士強(qiáng)做的太對(duì)了

往史過眼云煙
2026-03-13 10:39:42
第40波打擊!伊朗強(qiáng)援參戰(zhàn),以色列惱羞成怒,特朗普發(fā)現(xiàn)不對(duì)勁

第40波打擊!伊朗強(qiáng)援參戰(zhàn),以色列惱羞成怒,特朗普發(fā)現(xiàn)不對(duì)勁

井普椿的獨(dú)白
2026-03-12 15:10:09
鄭薇淘汰的人,被宮魯鳴重用當(dāng)隊(duì)長,半場(chǎng)0分,球迷:又菜又裝!

鄭薇淘汰的人,被宮魯鳴重用當(dāng)隊(duì)長,半場(chǎng)0分,球迷:又菜又裝!

我就是一個(gè)說球的
2026-03-12 22:18:36
帶模特老婆養(yǎng)雞18年,滿臉皺紋認(rèn)不出,如今搭檔譚松韻終于火了

帶模特老婆養(yǎng)雞18年,滿臉皺紋認(rèn)不出,如今搭檔譚松韻終于火了

攬星河的筆記
2026-03-12 12:10:40
保姆偷拿了家里2瓶茅臺(tái)去賣,我沒揭穿只辭退了她,臨走時(shí)她指了指舊皮鞋,我一看瞬間癱坐在地

保姆偷拿了家里2瓶茅臺(tái)去賣,我沒揭穿只辭退了她,臨走時(shí)她指了指舊皮鞋,我一看瞬間癱坐在地

今夜有個(gè)好故事
2026-03-11 17:26:56
驟降12℃!中雨、大雨、雨夾雪已經(jīng)在路上,厚衣服先別收

驟降12℃!中雨、大雨、雨夾雪已經(jīng)在路上,厚衣服先別收

極目新聞
2026-03-13 08:08:25
朱溫被殺前夜,叫兒媳王氏前來服侍,兒媳告誡:小心你父親要?dú)⒛?>
    </a>
        <h3>
      <a href=掠影后有感
2026-03-13 10:29:30
17歲“小馬云”現(xiàn)狀!依然很窮,想賺錢娶老婆,表哥靠他蓋別墅

17歲“小馬云”現(xiàn)狀!依然很窮,想賺錢娶老婆,表哥靠他蓋別墅

LULU生活家
2025-10-18 18:00:32
3-0 血洗曼城后!皇馬徹底瘋狂,做夢(mèng)都要搶走這位 2 億巨星

3-0 血洗曼城后!皇馬徹底瘋狂,做夢(mèng)都要搶走這位 2 億巨星

瀾歸序
2026-03-13 03:12:48
2026-03-13 20:23:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動(dòng)型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

龍蝦熱卷到AI硬件 “無腦”硬件或被淘汰

頭條要聞

貴州茅臺(tái)副總經(jīng)理蔣焰被查

頭條要聞

貴州茅臺(tái)副總經(jīng)理蔣焰被查

體育要聞

叕戰(zhàn)奧運(yùn),張雨霏要做回“小將”

娛樂要聞

小S復(fù)工錄制 感謝賈永婕陪大S走到最后

財(cái)經(jīng)要聞

2月M2同增9% 前兩個(gè)月存款增加9.26萬億

汽車要聞

大眾汽車與小鵬首款聯(lián)合開發(fā)車型與眾08正式量產(chǎn)

態(tài)度原創(chuàng)

藝術(shù)
親子
本地
家居
數(shù)碼

藝術(shù)要聞

吳冠中:歷代畫竹大都缺乏厚度與深度

親子要聞

萌娃對(duì)老媽的年齡感到震驚,他的話太逗了

本地新聞

坐標(biāo)北京,過敏季反向遷徒

家居要聞

藝術(shù)之家 法式優(yōu)雅

數(shù)碼要聞

藍(lán)寶石PURE極地X870A WIFI7主板上架,1999元

無障礙瀏覽 進(jìn)入關(guān)懷版