国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

強(qiáng)化學(xué)習(xí)的兩個(gè)「大坑」,終于被兩篇ICLR論文給解決了

0
分享至

機(jī)器之心報(bào)道

編輯:陳陳

實(shí)時(shí)強(qiáng)化學(xué)習(xí)來(lái)了!AI 再也不怕「卡頓」。

設(shè)想這樣一個(gè)未來(lái)場(chǎng)景:多個(gè)廚師機(jī)器人正在協(xié)作制作煎蛋卷。雖然我們希望這些機(jī)器人能使用最強(qiáng)大可靠的智能模型,但更重要的是它們必須跟上瞬息萬(wàn)變的節(jié)奏 —— 食材需要在精準(zhǔn)時(shí)機(jī)添加,煎蛋過(guò)程需要實(shí)時(shí)監(jiān)控以確保受熱均勻。只要機(jī)器人動(dòng)作稍有延遲,蛋卷必定焦糊。它們還必須應(yīng)對(duì)協(xié)作伙伴動(dòng)作的不確定性,并做出即時(shí)適應(yīng)性調(diào)整。



實(shí)時(shí)強(qiáng)化學(xué)習(xí)

然而,現(xiàn)有的強(qiáng)化學(xué)習(xí)算法多基于一種理想化的交互模式:環(huán)境與智能體輪流「暫停」以等待對(duì)方完成計(jì)算或響應(yīng)。具體表現(xiàn)為:

環(huán)境暫停假設(shè):當(dāng)智能體進(jìn)行計(jì)算決策和經(jīng)驗(yàn)學(xué)習(xí)時(shí),環(huán)境狀態(tài)保持靜止;

智能體暫停假設(shè):當(dāng)環(huán)境狀態(tài)發(fā)生轉(zhuǎn)移時(shí),智能體暫停其決策過(guò)程。

這種類似「回合制游戲」的假設(shè),嚴(yán)重脫離現(xiàn)實(shí),難以應(yīng)對(duì)持續(xù)變化、延遲敏感的真實(shí)環(huán)境。



下圖突出顯示了智能體在實(shí)時(shí)環(huán)境中出現(xiàn)的兩個(gè)關(guān)鍵困難,而這些在標(biāo)準(zhǔn)的回合制 RL 研究中是不會(huì)遇到的。

首先,由于動(dòng)作推理時(shí)間較長(zhǎng),智能體可能不會(huì)在環(huán)境的每一步都采取動(dòng)作。這可能導(dǎo)致智能體采用一種新的次優(yōu)性策略,稱之為無(wú)動(dòng)作遺憾(inaction regret)。

第二個(gè)困難是,動(dòng)作是基于過(guò)去的狀態(tài)計(jì)算的,因而動(dòng)作會(huì)在環(huán)境中產(chǎn)生延遲影響。這導(dǎo)致另一個(gè)新的次優(yōu)性來(lái)源,這在隨機(jī)環(huán)境中尤為突出,稱之為延遲遺憾(delay regret)。

在這樣的背景下,Mila 實(shí)驗(yàn)室兩篇 ICLR 2025 論文提出了一種全新的實(shí)時(shí)強(qiáng)化學(xué)習(xí)框架,旨在解決當(dāng)前強(qiáng)化學(xué)習(xí)系統(tǒng)在部署過(guò)程中面臨的推理延遲和動(dòng)作缺失問(wèn)題,使得大模型也能在高頻、連續(xù)的任務(wù)中實(shí)現(xiàn)即時(shí)響應(yīng)。

第一篇論文提出了一種最小化無(wú)動(dòng)作遺憾的解決方案,第二篇提出了一種最小化延遲遺憾的解決方案。



最小化無(wú)動(dòng)作:交錯(cuò)推理

第一篇論文基于這樣一個(gè)事實(shí):在標(biāo)準(zhǔn)的回合制強(qiáng)化學(xué)習(xí)交互范式中,隨著模型參數(shù)數(shù)量的增加,智能體無(wú)動(dòng)作的程度也會(huì)隨之增加。因此,強(qiáng)化學(xué)習(xí)社區(qū)必須考慮一種新的部署框架,以便在現(xiàn)實(shí)世界中實(shí)現(xiàn)基礎(chǔ)模型規(guī)?;膹?qiáng)化學(xué)習(xí)。為此,本文提出了一個(gè)用于異步多過(guò)程推理和學(xué)習(xí)的框架。



  • 論文地址:https://openreview.net/pdf?id=fXb9BbuyAD
  • 代碼地址 https://github.com/CERC-AAI/realtime_rl
  • 論文標(biāo)題: ENABLING REALTIME REINFORCEMENT LEARNING AT SCALE WITH STAGGERED ASYNCHRONOUS INFERENCE



在該框架中,允許智能體充分利用其可用算力進(jìn)行異步推理與學(xué)習(xí)。具體而言,本文提出了兩種交錯(cuò)式推理算法,其核心思想是通過(guò)自適應(yīng)調(diào)整并行推理過(guò)程的時(shí)序偏移,使智能體能夠以更快的固定間隔在環(huán)境中執(zhí)行動(dòng)作。

本文證明:只要計(jì)算資源足夠,無(wú)論模型有多大、推理時(shí)間有多長(zhǎng),使用任意一種算法都可以做到在每一個(gè)環(huán)境步都執(zhí)行動(dòng)作,從而完全消除無(wú)動(dòng)作遺憾。

本文在 Game Boy 和 Atari 實(shí)時(shí)模擬中測(cè)試了提出的新框架,這些模擬的幀率和交互協(xié)議與人類在主機(jī)上實(shí)際玩這些游戲時(shí)所體驗(yàn)到的幀率和交互協(xié)議同步。

論文重點(diǎn)介紹了異步推理和學(xué)習(xí)在《寶可夢(mèng):藍(lán)》游戲中使用一個(gè)擁有 1 億參數(shù)的模型成功捕捉寶可夢(mèng)時(shí)所展現(xiàn)的卓越性能。需要注意的是,智能體不僅必須快速行動(dòng),還必須不斷適應(yīng)新的場(chǎng)景才能取得進(jìn)展。



此外,論文還重點(diǎn)介紹了該框架在像俄羅斯方塊這樣注重反應(yīng)時(shí)間的實(shí)時(shí)游戲中的表現(xiàn)。結(jié)果證明,在使用異步推理和學(xué)習(xí)時(shí),模型規(guī)模越大,性能下降的速度就越慢。然而,大模型性能下降的根本原因是延遲遺憾效應(yīng)尚未得到解決。

用單個(gè)神經(jīng)網(wǎng)絡(luò)最小化無(wú)動(dòng)作和延遲遺憾



  • 論文地址:https://openreview.net/pdf?id=YOc5t8PHf2
  • 項(xiàng)目地址:https://github.com/avecplezir/realtime-agent
  • 論文標(biāo)題: HANDLING DELAY IN REAL-TIME REINFORCEMENT LEARNING

第二篇論文提出了一種架構(gòu)解決方案,用于在實(shí)時(shí)環(huán)境中部署神經(jīng)網(wǎng)絡(luò)時(shí)最大限度地減少無(wú)響應(yīng)和延遲,因?yàn)樵趯?shí)時(shí)環(huán)境中,交錯(cuò)推理并非可行。順序計(jì)算在深度網(wǎng)絡(luò)中效率低下,因?yàn)樯疃染W(wǎng)絡(luò)中每一層的執(zhí)行時(shí)間大致相同。因此,總延遲會(huì)隨著網(wǎng)絡(luò)深度的增加而成比例增加,從而導(dǎo)致響應(yīng)緩慢。

這一局限性與早期 CPU 架構(gòu)的缺陷如出一轍 —— 當(dāng)指令只能串行處理時(shí),會(huì)導(dǎo)致計(jì)算資源利用率低下且執(zhí)行時(shí)間延長(zhǎng)?,F(xiàn)代 CPU 采用 pipelining 技術(shù)成功解決了這一問(wèn)題,該技術(shù)允許多條指令的不同階段并行執(zhí)行。

受此啟發(fā),本文在神經(jīng)網(wǎng)絡(luò)中引入了并行計(jì)算機(jī)制:通過(guò)一次計(jì)算所有網(wǎng)絡(luò)層,有效降低了無(wú)動(dòng)作遺憾。

為了進(jìn)一步減少延遲,本文引入了時(shí)序跳躍連接(temporal skip connections),使得新的觀測(cè)信息可以更快地傳遞到更深的網(wǎng)絡(luò)層,而無(wú)需逐層傳遞。

該研究的核心貢獻(xiàn)在于:將并行計(jì)算與時(shí)序跳躍連接相結(jié)合,從而在實(shí)時(shí)系統(tǒng)中同時(shí)降低無(wú)動(dòng)作遺憾和延遲遺憾。

下圖對(duì)此進(jìn)行了說(shuō)明。圖中縱軸表示網(wǎng)絡(luò)層的深度,從初始觀測(cè)開始,依次經(jīng)過(guò)第一層、第二層的表示,最終到達(dá)動(dòng)作輸出;橫軸表示時(shí)間。因此,每一條箭頭代表一層的計(jì)算過(guò)程,所需時(shí)間為 δ 秒。

在基線方法中(左圖),一個(gè)新的觀測(cè)必須依次穿過(guò)全部 N 層網(wǎng)絡(luò),因此動(dòng)作的輸出需要 N × δ 秒才能獲得。

通過(guò)對(duì)各層進(jìn)行并行計(jì)算(中圖),可以將推理吞吐量從每 Nδ 秒一次提高到每 δ 秒一次,從而減少無(wú)動(dòng)作遺憾。

最終,時(shí)序跳躍連接(如右圖所示)將總延遲從 Nδ 降低至 δ—— 其機(jī)制是讓最新觀測(cè)值僅需單次 δ 延遲即可傳遞至輸出層。從設(shè)計(jì)理念來(lái)看,該方案通過(guò)在網(wǎng)絡(luò)表達(dá)能力與時(shí)效信息整合需求之間進(jìn)行權(quán)衡,從根本上解決了延遲問(wèn)題。



此外,用過(guò)去的動(dòng)作 / 狀態(tài)來(lái)增強(qiáng)輸入可以恢復(fù)馬爾可夫特性,即使在存在延遲的情況下也能提高學(xué)習(xí)穩(wěn)定性。正如結(jié)果所示,這既減少了延遲,也減少了與優(yōu)化相關(guān)的遺憾。



兩者結(jié)合使用

交錯(cuò)式異步推理與時(shí)序跳躍連接是彼此獨(dú)立的技術(shù),但具有互補(bǔ)性。時(shí)序跳躍連接可減少模型內(nèi)部從觀測(cè)到動(dòng)作之間的延遲,而交錯(cuò)推理則確保即使在使用大模型時(shí),也能持續(xù)穩(wěn)定地輸出動(dòng)作。

兩者結(jié)合使用,可以將模型規(guī)模與交互延遲解耦,從而使在實(shí)時(shí)環(huán)境中部署既具有強(qiáng)表達(dá)能力、又響應(yīng)迅速的智能體成為可能。這對(duì)于機(jī)器人、自動(dòng)駕駛、金融交易等高度依賴響應(yīng)速度的關(guān)鍵領(lǐng)域具有重要意義。

通過(guò)使大模型在不犧牲表達(dá)能力的前提下實(shí)現(xiàn)高頻率決策,這些方法為強(qiáng)化學(xué)習(xí)在現(xiàn)實(shí)世界的延遲敏感型應(yīng)用中落地邁出了關(guān)鍵一步。

https://mila.quebec/en/article/real-time-reinforcement-learning

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
名記:戴琳已將欠的錢還給已故球迷的父母 并且多給了5000多元

名記:戴琳已將欠的錢還給已故球迷的父母 并且多給了5000多元

818體育
2025-12-20 22:49:43
從墳?zāi)估锷斐龅闹缚卦俅沃赶虬驳卖斖踝?,夫妻爆出新一波丑聞?>
    </a>
        <h3>
      <a href=新民晚報(bào)
2025-10-26 13:39:36
勞軍是備戰(zhàn)的前兆

勞軍是備戰(zhàn)的前兆

求實(shí)處
2025-12-19 23:13:48
張慶鵬:鄒雨宸吃了止痛藥就繼續(xù)上場(chǎng),我們跟不上山東高強(qiáng)度對(duì)抗

張慶鵬:鄒雨宸吃了止痛藥就繼續(xù)上場(chǎng),我們跟不上山東高強(qiáng)度對(duì)抗

狼叔評(píng)論
2025-12-20 23:06:22
61歲許亞軍近況曝光,缺席何晴葬禮,曝許何與后媽張澍真實(shí)關(guān)系

61歲許亞軍近況曝光,缺席何晴葬禮,曝許何與后媽張澍真實(shí)關(guān)系

大齡女一曉彤
2025-12-20 16:03:05
大量浙江游客涌入沈陽(yáng),打著旅游幌子不去旅游不吃美食,為啥來(lái)

大量浙江游客涌入沈陽(yáng),打著旅游幌子不去旅游不吃美食,為啥來(lái)

另子維愛讀史
2025-11-29 07:53:16
紐卡斯?fàn)柭?lián)2-2切爾西,賽后評(píng)分:切爾西24號(hào)排第一

紐卡斯?fàn)柭?lián)2-2切爾西,賽后評(píng)分:切爾西24號(hào)排第一

側(cè)身凌空斬
2025-12-20 22:29:07
國(guó)乒教練組巨震,林詩(shī)棟新教練讓人意外,王曼昱主管教練情理之中

國(guó)乒教練組巨震,林詩(shī)棟新教練讓人意外,王曼昱主管教練情理之中

月亮的麥片
2025-12-20 21:18:01
中亞人看不起中國(guó)人?中亞地區(qū)民族遺留問(wèn)題嚴(yán)重的超乎你的想象!

中亞人看不起中國(guó)人?中亞地區(qū)民族遺留問(wèn)題嚴(yán)重的超乎你的想象!

阿泠你好
2025-12-09 16:02:58
夫妻性生活:女人最討厭的5種“床上行為”,男人千萬(wàn)別犯!

夫妻性生活:女人最討厭的5種“床上行為”,男人千萬(wàn)別犯!

精彩分享快樂
2025-11-25 00:05:03
越扒越驚人,南京博物院有兩任院長(zhǎng)輕生,其中一位與曾國(guó)藩有淵源

越扒越驚人,南京博物院有兩任院長(zhǎng)輕生,其中一位與曾國(guó)藩有淵源

知法而形
2025-12-20 11:15:29
收官之戰(zhàn)定乾坤,丁浩加冕十二冠,中國(guó)圍棋迎來(lái)“浩”時(shí)代

收官之戰(zhàn)定乾坤,丁浩加冕十二冠,中國(guó)圍棋迎來(lái)“浩”時(shí)代

王老師聊圍棋
2025-12-20 16:11:44
“中國(guó)保險(xiǎn)經(jīng)紀(jì)第一人”、江泰保險(xiǎn)經(jīng)紀(jì)董事長(zhǎng)沈開濤疑似失聯(lián),此前公司有多人被帶走協(xié)查

“中國(guó)保險(xiǎn)經(jīng)紀(jì)第一人”、江泰保險(xiǎn)經(jīng)紀(jì)董事長(zhǎng)沈開濤疑似失聯(lián),此前公司有多人被帶走協(xié)查

紅星新聞
2025-12-19 20:27:12
惡心!北京女子帶狗吃涮肉舔遍盤子,餐廳追責(zé):北京一套房不夠賠

惡心!北京女子帶狗吃涮肉舔遍盤子,餐廳追責(zé):北京一套房不夠賠

派大星紀(jì)錄片
2025-12-19 14:17:34
2-0!日本2連勝領(lǐng)跑,U15東亞杯最新形勢(shì):國(guó)足輸給韓國(guó)=無(wú)緣冠軍

2-0!日本2連勝領(lǐng)跑,U15東亞杯最新形勢(shì):國(guó)足輸給韓國(guó)=無(wú)緣冠軍

侃球熊弟
2025-12-20 12:41:02
中小學(xué)將改“522學(xué)制”?官方最新回應(yīng)來(lái)了,落地時(shí)間表明確

中小學(xué)將改“522學(xué)制”?官方最新回應(yīng)來(lái)了,落地時(shí)間表明確

慧眼看世界哈哈
2025-12-19 11:50:03
盒馬在上海成立盒馬數(shù)科技術(shù)公司

盒馬在上海成立盒馬數(shù)科技術(shù)公司

每日經(jīng)濟(jì)新聞
2025-12-19 10:46:09
看完林徽因的國(guó)徽方案后,網(wǎng)友感嘆:審美一絕,落選也是意料之中

看完林徽因的國(guó)徽方案后,網(wǎng)友感嘆:審美一絕,落選也是意料之中

抽象派大師
2025-11-22 16:24:30
場(chǎng)均21+3!火箭棄將或變?nèi)餍??斯通失算了!休賽期不該放走?>
    </a>
        <h3>
      <a href=熊哥愛籃球
2025-12-20 20:46:39
加倉(cāng)255%!北向資金重倉(cāng)押注人形機(jī)器人獨(dú)角獸,低空經(jīng)濟(jì)隱形王炸

加倉(cāng)255%!北向資金重倉(cāng)押注人形機(jī)器人獨(dú)角獸,低空經(jīng)濟(jì)隱形王炸

財(cái)報(bào)翻譯官
2025-12-20 21:28:31
2025-12-21 00:36:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142515關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來(lái)

頭條要聞

印度官員:若"臺(tái)灣有事" 印度不太可能像西方那樣回應(yīng)

頭條要聞

印度官員:若"臺(tái)灣有事" 印度不太可能像西方那樣回應(yīng)

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會(huì)陣容曝光,豪華陣仗

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測(cè)試 已完成11萬(wàn)公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

房產(chǎn)
本地
親子
時(shí)尚
公開課

房產(chǎn)要聞

廣州有態(tài)度,一座國(guó)際化社區(qū)給出的城市答案

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

親子要聞

邊牧和德牧帶娃在外面挖坑,三個(gè)小朋友加起來(lái)800個(gè)心眼子!

最顯腿細(xì)的騎士靴,誰(shuí)穿誰(shuí)是腿精

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版