国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

清華打破強(qiáng)化學(xué)習(xí)安全性悖論,14項(xiàng)測試基準(zhǔn)任務(wù)全SOTA

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】清華大學(xué)李升波教授團(tuán)隊(duì)提出RACS算法,通過引入「探險(xiǎn)者」策略主動(dòng)探索違規(guī)邊界,破解安全強(qiáng)化學(xué)習(xí)的「安全性悖論」。該方法在不增加采樣成本的前提下,顯著提升違規(guī)樣本質(zhì)量與系統(tǒng)安全認(rèn)知,實(shí)現(xiàn)安全與性能的雙贏,刷新多項(xiàng)基準(zhǔn)的SOTA成績。

隨著強(qiáng)化學(xué)習(xí)(RL)在虛擬世界的統(tǒng)治級(jí)表現(xiàn),將其遷移至自動(dòng)駕駛、機(jī)器人控制等真實(shí)物理系統(tǒng)已成為行業(yè)共識(shí)。然而,物理世界的高風(fēng)險(xiǎn)特性畫出了一道不可逾越的紅線——「零約束違反」。

為了守住這道紅線,學(xué)界提出了多種方案:OpenAI結(jié)合拉格朗日乘子法動(dòng)態(tài)權(quán)衡安全與性能,UC Berkeley提出的CPO算法利用信賴域?qū)⒉呗韵拗圃诳尚锌臻g內(nèi)。

然而,現(xiàn)有方法始終面臨一個(gè)核心痛點(diǎn):策略難以做到嚴(yán)格的「零違反」。大多數(shù)算法只能將違規(guī)控制在極低水平,一旦試圖追求絕對的零違規(guī),就會(huì)遭遇巨大阻力。

清華大學(xué)李升波教授課題組于安全強(qiáng)化學(xué)習(xí)領(lǐng)域獲得突破性進(jìn)展,首次在理論層面揭示并證明了安全強(qiáng)化學(xué)習(xí)(Safe RL)中的一個(gè)反直覺現(xiàn)象——「安全性悖論」(Safety Paradox):策略越追求安全,反而可能越不安全。


論文鏈接:https://openreview.net/forum?id=BHSSV1nHvU

代碼倉庫:https://github.com/yangyujie-jack/Feasible-Dual-Policy-Iteration

在安全強(qiáng)化學(xué)習(xí)中,智能體通常依賴交互數(shù)據(jù)學(xué)習(xí)一個(gè)可行性函數(shù)(Feasibility Function),以此判斷當(dāng)前狀態(tài)是否長期安全,從而規(guī)避危險(xiǎn)區(qū)域。

然而,研究通過嚴(yán)格的理論證明揭示了一個(gè)嚴(yán)峻事實(shí):

隨著策略變得越來越安全,其產(chǎn)生的違規(guī)樣本會(huì)變得極度稀疏。這直接導(dǎo)致可行性函數(shù)的估計(jì)誤差急劇增大,進(jìn)而使指導(dǎo)策略優(yōu)化的約束函數(shù)出現(xiàn)偏差,最終導(dǎo)致策略安全性崩塌。

這就像一個(gè)從未見過懸崖的人,在行走時(shí)即便再小心翼翼,也會(huì)因?yàn)槿狈Α笐已逻吘墶沟拇_切認(rèn)知,而無法精準(zhǔn)判斷危險(xiǎn)界限究竟在哪里。越是刻意追求安全,對危險(xiǎn)邊界的認(rèn)知就越模糊,最終反而導(dǎo)致安全防線失效。 這就是所謂的「安全性悖論」——策略陷入了一個(gè)自我挫敗的死循環(huán)。


針對這一困境,團(tuán)隊(duì)提出了Region-wise Actor-Critic-Scenery(RACS)算法,通過引入專門收集違規(guī)樣本的「探險(xiǎn)者」策略,成功打破悖論,在權(quán)威基準(zhǔn)Safety-Gymnasium上刷新了SOTA成績,該工作發(fā)表于人工智能頂會(huì)ICLR 2026。

破局之道RACS算法

既然「不敢越雷池一步」會(huì)導(dǎo)致認(rèn)知盲區(qū),那么破解之道便是主動(dòng)探險(xiǎn)、直面危險(xiǎn)。

研究團(tuán)隊(duì)提出了Region-wise Actor-Critic-Scenery(RACS)算法,創(chuàng)造性地引入了雙策略架構(gòu):

(1)原始策略(Primal Policy):扮演「守規(guī)矩的執(zhí)行者」。它負(fù)責(zé)在滿足安全約束的前提下,盡可能最大化任務(wù)獎(jiǎng)勵(lì)。

(2)對偶策略(Dual Policy):扮演「無畏的探險(xiǎn)者」。它的目標(biāo)與前者相反,旨在策略性地最大化約束違反,主動(dòng)觸探原始策略不敢涉足的危險(xiǎn)邊界。

通過這種「左右互搏」的機(jī)制,RACS在不增加總采樣成本的前提下,顯著提升了關(guān)鍵違規(guī)樣本的比例,從而讓系統(tǒng)對「安全邊界」有了清晰、精準(zhǔn)的認(rèn)知。

為了解決雙策略數(shù)據(jù)混合帶來的分布偏移(Distributional Shift)問題,RACS采用了重要性采樣(Importance Sampling)技術(shù)進(jìn)行數(shù)學(xué)修正,并約束對偶策略與原始策略間的KL散度,確保訓(xùn)練過程的平穩(wěn)收斂。


實(shí)驗(yàn)結(jié)果:刷新SOTA

研究團(tuán)隊(duì)在安全強(qiáng)化學(xué)習(xí)權(quán)威基準(zhǔn)Safety-Gymnasium上進(jìn)行了廣泛驗(yàn)證。結(jié)果表明,RACS在14項(xiàng)任務(wù)中的綜合性能達(dá)到了State-of-the-art(SOTA)水平:



(1)安全性顯著提升RACS實(shí)現(xiàn)了最低的平均約束違反次數(shù)(Cost),顯著優(yōu)于現(xiàn)有的拉格朗日乘子法或信賴域方法。特別是在HalfCheetahVelocity、Walker2dVelocity等任務(wù)中,實(shí)現(xiàn)了嚴(yán)格的零約束違反。

(2)控制性能無退化在保證安全性的同時(shí),RACS的平均累積回報(bào)(Return)依然位居榜首,實(shí)現(xiàn)了安全與性能的雙贏。在高維的HumanoidVelocity、復(fù)雜的PointPush(推箱子導(dǎo)航避障)等多項(xiàng)高難度任務(wù)中,安全指標(biāo)與任務(wù)性能均名列前茅。

為探究性能提升的根本原因,研究團(tuán)隊(duì)統(tǒng)計(jì)了增加對偶策略后的關(guān)鍵指標(biāo)變化:




(1)違規(guī)樣本顯著增加:在所有 14 項(xiàng)任務(wù)中,對偶策略成功采集了大量高價(jià)值的違規(guī)樣本,大部分任務(wù)中的樣本量提升了一個(gè)數(shù)量級(jí)。

(2)估計(jì)誤差大幅降低:統(tǒng)計(jì)顯示,可行性函數(shù)的擬合誤差顯著減小,尤其是「低估風(fēng)險(xiǎn)」(誤差小于零)的頻率大幅降低。這意味著系統(tǒng)不再將危險(xiǎn)狀態(tài)誤判為安全,從而從根本上提升了策略的安全性。

總結(jié)與展望

該研究從理論上揭示了強(qiáng)化學(xué)習(xí)中的「安全性悖論」,闡明了違規(guī)樣本稀疏性與可行性函數(shù)估計(jì)誤差之間的內(nèi)在因果。

RACS算法通過對偶策略的「對抗式」探索打破了「安全性悖論」,證明了一個(gè)深刻的道理:為了真正的安全,必須充分地了解危險(xiǎn)。

該研究為自動(dòng)駕駛、機(jī)器人等高風(fēng)險(xiǎn)場景下的強(qiáng)化學(xué)習(xí)落地提供了堅(jiān)實(shí)的理論基礎(chǔ)與有效的解決方案。

參考資料:

https://openreview.net/forum?id=BHSSV1nHvU

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
42歲王濛再破天花板!退役12年,再次讓李琰和整個(gè)冰壇“沉默”了

42歲王濛再破天花板!退役12年,再次讓李琰和整個(gè)冰壇“沉默”了

翰飛觀事
2026-02-16 11:29:39
人到晚年,這9件糊涂事不要做,最后一個(gè),讓你哭都找不到地方

人到晚年,這9件糊涂事不要做,最后一個(gè),讓你哭都找不到地方

暖風(fēng)吹過竹林
2026-02-08 09:27:33
華南五虎全軍覆沒!從叱咤風(fēng)云到集體沉淪,一場跨越二十年的地產(chǎn)大敗局

華南五虎全軍覆沒!從叱咤風(fēng)云到集體沉淪,一場跨越二十年的地產(chǎn)大敗局

阿離家居
2026-02-24 15:32:27
毛奇、李佩霞2026年近況公布,兩人服刑結(jié)局給所有人提了醒

毛奇、李佩霞2026年近況公布,兩人服刑結(jié)局給所有人提了醒

娛樂督察中
2026-02-21 03:23:47
中美軍機(jī)對峙,美司令向韓方道歉

中美軍機(jī)對峙,美司令向韓方道歉

觀察者網(wǎng)
2026-02-25 12:51:07
一句臟話葬送22年努力!看著滿頭白發(fā)的周煒,郭冬臨效應(yīng)還在繼續(xù)

一句臟話葬送22年努力!看著滿頭白發(fā)的周煒,郭冬臨效應(yīng)還在繼續(xù)

鄉(xiāng)野小珥
2026-02-23 06:23:31
俄羅斯就是打仗的命:這個(gè)烏克蘭沒倒,又一個(gè)烏克蘭上來了!

俄羅斯就是打仗的命:這個(gè)烏克蘭沒倒,又一個(gè)烏克蘭上來了!

健身狂人
2026-02-25 11:38:27
太拼了!伊能靜自曝生酮減肥半年瘦到86斤,分享過程感受

太拼了!伊能靜自曝生酮減肥半年瘦到86斤,分享過程感受

清衣渡a
2026-02-25 13:56:01
2023年,985女碩士王懿在東京活活餓死,父母拒絕為其收尸

2023年,985女碩士王懿在東京活活餓死,父母拒絕為其收尸

談史論天地
2026-02-18 17:45:40
手機(jī)絕不可能取代傳呼機(jī)!30年前的舊報(bào)紙新聞被扒,引發(fā)熱議…

手機(jī)絕不可能取代傳呼機(jī)!30年前的舊報(bào)紙新聞被扒,引發(fā)熱議…

火山詩話
2026-02-24 06:14:44
金價(jià)一夜大反轉(zhuǎn)!2月25日金價(jià)大跌,現(xiàn)在入手劃算嗎?

金價(jià)一夜大反轉(zhuǎn)!2月25日金價(jià)大跌,現(xiàn)在入手劃算嗎?

戶外釣魚哥阿旱
2026-02-25 15:41:28
剛剛 | 黃金大跌!

剛剛 | 黃金大跌!

天津廣播
2026-02-24 22:33:41
德國總理默茨抵達(dá)北京開始訪華,高規(guī)格經(jīng)貿(mào)代表團(tuán)隨行

德國總理默茨抵達(dá)北京開始訪華,高規(guī)格經(jīng)貿(mào)代表團(tuán)隨行

揚(yáng)子晚報(bào)
2026-02-25 11:18:35
剛剛!菲律賓曝出南海重磅消息:中國同意簽署,美國措手不及

剛剛!菲律賓曝出南海重磅消息:中國同意簽署,美國措手不及

樂享人生風(fēng)雨
2026-02-24 17:58:37
戲子誤國!2026年剛開年,就有3位明星相繼塌房,個(gè)個(gè)荒唐

戲子誤國!2026年剛開年,就有3位明星相繼塌房,個(gè)個(gè)荒唐

林輕吟
2026-02-24 07:14:49
雅閣官降10萬仍被吐槽 廣汽本田降價(jià)為何打動(dòng)不了消費(fèi)者?

雅閣官降10萬仍被吐槽 廣汽本田降價(jià)為何打動(dòng)不了消費(fèi)者?

BigCarShow
2026-02-23 23:44:11
張萌比基尼:真大是真的,大方也是真的

張萌比基尼:真大是真的,大方也是真的

飛娛日記
2026-02-25 08:49:06
事實(shí)證明,《鏢人》不是輸給了《飛馳人生3》,而是輸給了自己

事實(shí)證明,《鏢人》不是輸給了《飛馳人生3》,而是輸給了自己

娛樂圈筆娛君
2026-02-24 16:27:26
新型啃老正流行,67歲大媽哭訴:女兒的陪伴式養(yǎng)老是我晚年的噩夢

新型啃老正流行,67歲大媽哭訴:女兒的陪伴式養(yǎng)老是我晚年的噩夢

惟來
2026-02-24 15:02:08
12345不能亂打了!2026年開始整治亂打熱線現(xiàn)象

12345不能亂打了!2026年開始整治亂打熱線現(xiàn)象

醫(yī)脈圈
2026-02-24 12:13:20
2026-02-25 16:59:02
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14587文章數(shù) 66641關(guān)注度
往期回顧 全部

科技要聞

“機(jī)器人只跳舞,沒什么用”

頭條要聞

中方就涉烏克蘭問題的決議草案投棄權(quán)票 中國代表發(fā)聲

頭條要聞

中方就涉烏克蘭問題的決議草案投棄權(quán)票 中國代表發(fā)聲

體育要聞

曝雄鹿計(jì)劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

撒貝寧到沈陽跑親戚 老婆李白模特身材

財(cái)經(jīng)要聞

GEO亂象:誰為AI營銷的泡沫買單?

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

家居
房產(chǎn)
旅游
健康
軍事航空

家居要聞

藝居辦公 溫度與效率

房產(chǎn)要聞

330萬人涌入!春節(jié)全國樓市,第一個(gè)賣爆的區(qū)域出現(xiàn)了!

旅游要聞

安徽固鎮(zhèn):春節(jié)期間接待游客62.5萬人次 旅游總花費(fèi)3.4億元

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

軍事要聞

俄烏沖突四周年:和平談判希望渺茫

無障礙瀏覽 進(jìn)入關(guān)懷版