国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

上交博士最新思考:僅用兩個問題講清強(qiáng)化學(xué)習(xí)

0
分享至



從「試錯」到「優(yōu)化」,RL 的統(tǒng)一思維框架。

編譯丨鄭佳美

編輯丨馬曉寧

人工智能領(lǐng)域發(fā)展到現(xiàn)在,強(qiáng)化學(xué)習(xí)(RL)已經(jīng)成為人工智能中最令人著迷也最核心的研究方向之一。它試圖解決這樣一個問題:當(dāng)智能體沒有現(xiàn)成答案時,如何通過與環(huán)境的交互,自主學(xué)會最優(yōu)行為?

聽起來簡單,做起來卻異常復(fù)雜。幾十年來,研究者提出了成百上千種算法,從最早的Q-learning到后來基于深度學(xué)習(xí)的DDPG、SAC、PPO、IQL……每種方法都有自己的原理、參數(shù)與假設(shè),看起來彼此獨(dú)立,仿佛一座龐大而混亂的迷宮。

對于剛接觸強(qiáng)化學(xué)習(xí)的人來說,這種復(fù)雜性常常令人挫?。何覀兯坪踉趯W(xué)習(xí)無數(shù)名字,卻始終難以看清它們之間的聯(lián)系。

然而,最近有一篇由上海交通大學(xué)與上海期智研究院的博士生 Kun Lei 發(fā)布的博客提出了一個令人眼前一亮的框架:所有強(qiáng)化學(xué)習(xí)算法,其實都可以通過兩個問題來理解,第一,數(shù)據(jù)從哪里來?第二,策略更新有多頻繁?

就是這兩個看似樸素的問題,像兩根主線一樣,把強(qiáng)化學(xué)習(xí)的世界重新梳理清楚。從它們出發(fā),我們可以發(fā)現(xiàn):復(fù)雜的 RL 算法不過是在這兩根軸上移動的不同點(diǎn)位。

而當(dāng)這一結(jié)構(gòu)被揭示出來,整個算法邏輯突然變得直觀、有序,也更容易被理解。


博客地址:https://lei-kun.github.io/blogs/rl.html

01
數(shù)據(jù)從哪里來

強(qiáng)化學(xué)習(xí)的過程,本質(zhì)上是智能體不斷收集經(jīng)驗、并用這些經(jīng)驗改進(jìn)策略的循環(huán)。不同算法的差異,很大程度上取決于它們依賴什么樣的數(shù)據(jù)。

最直接的方式是“在策略學(xué)習(xí)。在這種模式下,智能體一邊與環(huán)境交互,一邊學(xué)習(xí)。每一個動作都帶來新的數(shù)據(jù),立刻被用于更新模型。這類方法像是不斷在現(xiàn)場實踐的學(xué)生,代表算法包括 PPO、SAC 等。

在線學(xué)習(xí)的優(yōu)點(diǎn)是靈活、適應(yīng)性強(qiáng),但也意味著代價高昂,每次試錯都可能耗費(fèi)時間、能量,甚至造成損失。

相對保守的是“離策略學(xué)習(xí)”。它允許智能體反復(fù)使用過去的經(jīng)驗,而不必每次都重新與環(huán)境交互。算法會把這些經(jīng)驗保存下來,在需要時反復(fù)采樣學(xué)習(xí)。DQN、TD3、DDPG 都屬于這一類。

離策略學(xué)習(xí)提高了樣本利用率,也讓學(xué)習(xí)過程更穩(wěn)定,是許多實際應(yīng)用中的主流方案。

還有一種方式更極端,叫做“離線學(xué)習(xí)”。這里,智能體完全依賴一個固定的數(shù)據(jù)集進(jìn)行訓(xùn)練,不能再與環(huán)境交互。這種方法看似受限,但在高風(fēng)險場景中卻尤為重要,比如醫(yī)療、自動駕駛或機(jī)器人控制。

算法必須在不試錯的情況下,從既有數(shù)據(jù)中學(xué)會盡可能好的決策,CQL、IQL 就是這類方法的代表。

從在線到離線,數(shù)據(jù)的獲取方式逐漸從主動探索轉(zhuǎn)向被動利用。算法的選擇往往反映了任務(wù)的現(xiàn)實約束:能否安全地試錯?能否持續(xù)獲得新數(shù)據(jù)?試錯的代價是否可承受?這便是強(qiáng)化學(xué)習(xí)的第一個維度:數(shù)據(jù)從哪里來。


02
學(xué)習(xí)更新的節(jié)奏

而強(qiáng)化學(xué)習(xí)的第二個維度,是學(xué)習(xí)更新的節(jié)奏。簡單來說,就是智能體多久評估一次策略,又多久調(diào)整一次行為。

最簡單的方式是一種“一步式學(xué)習(xí)”。智能體在一個固定的數(shù)據(jù)集上訓(xùn)練一次,學(xué)到一個策略后就不再改進(jìn)。模仿學(xué)習(xí)就是典型例子。它速度快、風(fēng)險低,適合那些對安全性要求高或數(shù)據(jù)有限的任務(wù)。

另一種方式是“多步式學(xué)習(xí)”。算法在一批數(shù)據(jù)上多次更新,直到性能收斂,再重新收集新的數(shù)據(jù)。這是一種折中策略,既避免了頻繁交互的高成本,又能比一次性訓(xùn)練獲得更好的表現(xiàn)。

最具代表性的是“迭代式學(xué)習(xí)”。這類算法不斷在“收集數(shù)據(jù)—更新模型—再收集數(shù)據(jù)”的循環(huán)中進(jìn)化,每一次交互都推動性能提升。它們像一個永不停歇的學(xué)習(xí)者,不斷探索未知、修正自身。PPO 和 SAC 就是這種方式的代表。

從一步到多步,再到迭代,算法的更新節(jié)奏越來越密集,也意味著從靜態(tài)到動態(tài)的轉(zhuǎn)變。不同節(jié)奏之間,其實反映的是對穩(wěn)定性和適應(yīng)性的權(quán)衡。


03
一個更底層的統(tǒng)一

在講清楚“數(shù)據(jù)從哪來”和“學(xué)習(xí)更新的節(jié)奏”這兩條主線之后,博客提出了一個更底層的統(tǒng)一視角:無論算法形式如何變化,所有強(qiáng)化學(xué)習(xí)方法其實都在做兩件事:評估當(dāng)前策略、然后改進(jìn)它。

簡單來說,強(qiáng)化學(xué)習(xí)就像一個反復(fù)自我練習(xí)的過程:

先評估,看看自己目前的策略表現(xiàn)得怎樣,哪些動作好、哪些不好;

再改進(jìn),根據(jù)評估結(jié)果,調(diào)整策略,讓下一次決策更聰明一點(diǎn)。

Q-learning、PPO、SAC……看起來名字各不相同,其實都在重復(fù)這兩個動作。唯一的區(qū)別,只是它們評估得方式不同、改進(jìn)的速度不同、或者用到的數(shù)據(jù)不同。

在博客中,作者用一組公式,把這兩步統(tǒng)一地寫了出來:

評估階段(Policy Evaluation)就是去衡量“這套策略到底值不值”。算法會讓模型預(yù)測某個狀態(tài)下采取某個動作能得到多大的回報,然后和實際反饋進(jìn)行比較。如果誤差太大,就調(diào)整模型,讓它的預(yù)期更接近現(xiàn)實。在線算法直接用新數(shù)據(jù)計算,離線或離策略算法則要通過重要性采樣、加權(quán)平均等方式修正舊數(shù)據(jù)的偏差。

改進(jìn)階段(Policy Improvement)是在得到新的評估結(jié)果后,優(yōu)化策略本身。模型會傾向于選擇那些帶來更高期望回報的動作。但為了避免一下子“改過頭”,很多算法會加上約束或正則項,比如讓新策略不能偏離舊策略太多(這就是 PPO 的思想),或者在策略里保留一定的探索性(這就是 SAC 中熵正則的作用)。


從這個角度看,所謂不同的強(qiáng)化學(xué)習(xí)算法,其實只是這兩個過程的不同實現(xiàn)。有的算法更注重評估的準(zhǔn)確性,有的更強(qiáng)調(diào)改進(jìn)的穩(wěn)定性,有的頻繁更新、快速迭代,有的則保守謹(jǐn)慎、慢慢優(yōu)化。

當(dāng)我們用“評估 + 改進(jìn)”去看強(qiáng)化學(xué)習(xí)時,整個算法體系就像被抽絲剝繭地展現(xiàn)在眼前,所有方法都不再是孤立的技巧,而是這兩個動作的不同組合。

在講清這兩條主線后,博客還進(jìn)一步將視角延伸到了現(xiàn)實世界的智能系統(tǒng),尤其是當(dāng)下正在快速發(fā)展的機(jī)器人基礎(chǔ)模型。

Kun Lei 指出這種以訓(xùn)練節(jié)奏為核心的思考方式,與現(xiàn)代機(jī)器人基礎(chǔ)模型的訓(xùn)練實踐高度契合。例如 Generalist 團(tuán)隊的 GEN-0 與 Pi 的 pi_0.5,它們的成長過程就像一臺不斷運(yùn)轉(zhuǎn)的數(shù)據(jù)飛輪。系統(tǒng)會持續(xù)吸收新的任務(wù)與場景,將它們整合進(jìn)統(tǒng)一的語料庫,然后周期性地進(jìn)行再訓(xùn)練或微調(diào)。

在這樣的機(jī)制下,多步式更新成為一種自然選擇。每一次訓(xùn)練循環(huán)都帶來小幅、受控的改進(jìn),既保守到能避免分布坍塌的風(fēng)險,又留下足夠的探索空間,使模型能夠在不斷擴(kuò)展的數(shù)據(jù)語料中穩(wěn)步成長。

并且當(dāng)模型逐漸接近能力瓶頸,無論是為了超越人類在特定任務(wù)上的上限,還是為了更精準(zhǔn)地對齊人類表現(xiàn),研究者通常會轉(zhuǎn)向迭代式的在線強(qiáng)化學(xué)習(xí),針對特定目標(biāo)進(jìn)行更高頻、更精細(xì)的評估與改進(jìn)。

這種從多步更新向在線迭代過渡的訓(xùn)練策略,已在實踐中被多次驗證有效,例如在 rl-100 等典型設(shè)定中,多步更新已經(jīng)能夠在有限數(shù)據(jù)下取得穩(wěn)定進(jìn)步,而適量的在線 RL 則能在保持安全與穩(wěn)定的前提下,將模型性能進(jìn)一步推高。

04
走在 RL 前沿的年輕研究者


作者主頁:https://lei-kun.github.io/?utm

這篇博客的作者 Kun Lei 目前是上海交通大學(xué)與上海期智研究院的博士生,師從清華大學(xué)許華哲教授。

Kun Lei 畢業(yè)于西南交通大學(xué),在本科階段就開始從事人工智能與優(yōu)化相關(guān)的研究,并曾與西南交通大學(xué)的郭鵬教授以及美國奧本大學(xué)的王毅教授合作開展科研工作。

在讀博之前,他曾在上海期智研究院擔(dān)任研究助理,與許華哲教授共同進(jìn)行強(qiáng)化學(xué)習(xí)和機(jī)器人智能方向的研究,后來又在西湖大學(xué)進(jìn)行了為期四個月的科研實習(xí),主要探索具身智能與強(qiáng)化學(xué)習(xí)算法在真實環(huán)境中的應(yīng)用。

Kun Lei 的研究方向涵蓋深度強(qiáng)化學(xué)習(xí)、具身智能與機(jī)器人學(xué)習(xí)。相比單純追求算法指標(biāo),他更關(guān)心這些算法如何真正落地,怎樣讓強(qiáng)化學(xué)習(xí)不僅在仿真環(huán)境中有效,也能在真實的機(jī)器人系統(tǒng)中穩(wěn)定工作,怎樣讓智能體在有限的數(shù)據(jù)下快速學(xué)習(xí)、靈活適應(yīng)。

同時從他的博客也能看出,Kun Lei 的研究風(fēng)格兼具工程實踐與直覺思考,他追求的不是更復(fù)雜的模型,而是更清晰的理解。這篇關(guān)于強(qiáng)化學(xué)習(xí)的文章正體現(xiàn)了這種思路,他沒有堆疊晦澀的公式,而是用兩個最本質(zhì)的問題,理出強(qiáng)化學(xué)習(xí)背后的邏輯主線。

而強(qiáng)化學(xué)習(xí)之所以讓人望而卻步,是因為它的理論體系龐大、公式繁復(fù)。初學(xué)者常常被各種貝爾曼方程、策略梯度、折扣回報等概念包圍,每一個術(shù)語都能展開成幾頁推導(dǎo),但卻難以抓住核心。

這篇博客的價值就在于,它把這一切重新拉回了原點(diǎn)。作者沒有從復(fù)雜的數(shù)學(xué)出發(fā),而是提出兩個最簡單的問題:數(shù)據(jù)從哪里來?策略更新有多頻繁?

這看似樸素的提問,其實觸及了強(qiáng)化學(xué)習(xí)的根。它幫助讀者重新看見算法的結(jié)構(gòu),不同方法之間不再是孤立的技巧,而是圍繞這兩個維度的不同取舍。通過這樣的視角,強(qiáng)化學(xué)習(xí)那片看似混亂的森林,突然變得有路可循。

更重要的是,這種思路不僅僅是一種講解方式,更是一種思考問題的習(xí)慣。它提醒我們,復(fù)雜系統(tǒng)的背后往往隱藏著最簡單的規(guī)律,只是被層層公式和術(shù)語掩蓋。當(dāng)我們回到原理本身,用結(jié)構(gòu)化的方式去理解問題,復(fù)雜性就不再是障礙。

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
回天乏術(shù)!衛(wèi)星圖像證實俄潛艇遭重創(chuàng):碼頭現(xiàn)9米混凝土彈坑!

回天乏術(shù)!衛(wèi)星圖像證實俄潛艇遭重創(chuàng):碼頭現(xiàn)9米混凝土彈坑!

軍迷戰(zhàn)情室
2025-12-17 21:26:46
不要做“精神芬蘭人”,哪怕他們坐商務(wù)艙

不要做“精神芬蘭人”,哪怕他們坐商務(wù)艙

觀察者網(wǎng)
2025-12-18 13:55:08
網(wǎng)傳宋丹丹年輕時曾追求過許亞軍,端著飯盒追,卻還是被對方拒絕

網(wǎng)傳宋丹丹年輕時曾追求過許亞軍,端著飯盒追,卻還是被對方拒絕

小徐講八卦
2025-12-19 12:08:43
社會主義中國不能允許如此大規(guī)模當(dāng)?shù)?>
    </a>
        <h3>
      <a href=凱利經(jīng)濟(jì)觀察
2025-12-18 09:35:23
足協(xié)一抓就差!U15東亞杯從4-2到0-3:恒大足校含金量嗖嗖往上升

足協(xié)一抓就差!U15東亞杯從4-2到0-3:恒大足校含金量嗖嗖往上升

足球大腕
2025-12-18 20:30:12
奔馳搭載吉利發(fā)動機(jī) 中國動力首次搭上德系車

奔馳搭載吉利發(fā)動機(jī) 中國動力首次搭上德系車

中車網(wǎng)評
2025-12-18 08:42:48
日本當(dāng)紅女星深田恭子,婚前背叛富豪男友,出軌著名導(dǎo)演共度春宵

日本當(dāng)紅女星深田恭子,婚前背叛富豪男友,出軌著名導(dǎo)演共度春宵

我真的服
2025-12-19 15:16:10
出嫁前3天彩禮漲到28.8萬后續(xù):男方堅持退婚,女子曝光已社死

出嫁前3天彩禮漲到28.8萬后續(xù):男方堅持退婚,女子曝光已社死

千言娛樂記
2025-12-13 18:34:13
雷達(dá)數(shù)據(jù)顯示美軍戰(zhàn)機(jī)在委內(nèi)瑞拉首都附近空域活動

雷達(dá)數(shù)據(jù)顯示美軍戰(zhàn)機(jī)在委內(nèi)瑞拉首都附近空域活動

極目新聞
2025-12-19 12:40:19
照片曝光!尹錫悅曾修建“秘密通道”掩蓋“上班遲到”,此前他多次被批“上班遲到下班卡點(diǎn)”、一個月曾遲到10次

照片曝光!尹錫悅曾修建“秘密通道”掩蓋“上班遲到”,此前他多次被批“上班遲到下班卡點(diǎn)”、一個月曾遲到10次

極目新聞
2025-12-19 10:33:43
印度首富300斤兒子款待梅西,邀球星去動物園,漂亮妻胯是真寬

印度首富300斤兒子款待梅西,邀球星去動物園,漂亮妻胯是真寬

觀察鑒娛
2025-12-18 09:33:39
黃牛加價,排隊5小時!二三十塊一個面包貴不貴?

黃牛加價,排隊5小時!二三十塊一個面包貴不貴?

揚(yáng)子晚報
2025-12-19 15:20:32
2026年慢病新規(guī)!對60/80歲以上老人開藥有精準(zhǔn)傾斜

2026年慢病新規(guī)!對60/80歲以上老人開藥有精準(zhǔn)傾斜

慧眼看世界哈哈
2025-12-17 05:55:37
僅26歲帥哥睡夢中離世,開奔馳家境好,媽媽含淚:8點(diǎn)發(fā)現(xiàn)人沒了

僅26歲帥哥睡夢中離世,開奔馳家境好,媽媽含淚:8點(diǎn)發(fā)現(xiàn)人沒了

鋭娛之樂
2025-12-19 08:16:38
搶手!中國男足4大悍將轉(zhuǎn)會,1人曾打服日本球隊,如今成自由球員

搶手!中國男足4大悍將轉(zhuǎn)會,1人曾打服日本球隊,如今成自由球員

國足風(fēng)云
2025-12-19 16:00:14
全家移民真相大白2年,享正師級待遇的潘長江,已走上另一條大道

全家移民真相大白2年,享正師級待遇的潘長江,已走上另一條大道

以茶帶書
2025-08-07 19:42:40
米體:國米已前往沙特,小因扎吉希望與國米球員及管理層會面

米體:國米已前往沙特,小因扎吉希望與國米球員及管理層會面

懂球帝
2025-12-18 20:11:26
真正厲害的女人,一生“三不管”:不管男人、不管閑事、不管過往

真正厲害的女人,一生“三不管”:不管男人、不管閑事、不管過往

真實人物采訪
2025-12-17 21:00:03
21號就是冬至了!為什么說今年的冬至可不一般,60年一遇?

21號就是冬至了!為什么說今年的冬至可不一般,60年一遇?

阿天愛旅行
2025-12-17 00:16:32
6位鑒定專家均過世,南博事件陷入死結(jié)

6位鑒定專家均過世,南博事件陷入死結(jié)

梳子姐
2025-12-19 13:01:25
2025-12-19 17:28:49
AI科技評論 incentive-icons
AI科技評論
點(diǎn)評學(xué)術(shù),服務(wù)AI
7012文章數(shù) 20715關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

美批準(zhǔn)對臺逾111億美元軍售 國防部回應(yīng)

頭條要聞

美批準(zhǔn)對臺逾111億美元軍售 國防部回應(yīng)

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

旅游
游戲
藝術(shù)
教育
公開課

旅游要聞

新疆庫爾德寧景區(qū):雪覆群山 云杉靜立

花百萬,租千平,他們給億萬玩家的“女兒”辦了個線下展

藝術(shù)要聞

諸樂三的寫意花鳥

教育要聞

中考數(shù)學(xué)壓軸題,不少人交白卷,很難嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版