国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

開(kāi)源RL框架Verlog來(lái)了,專(zhuān)為L(zhǎng)LM智能體打造,400回合不成問(wèn)題

0
分享至

機(jī)器之心報(bào)道

機(jī)器之心編輯部

AI 時(shí)代,智能體對(duì)短期對(duì)話(huà)的處理能力已不再是難題。真正的挑戰(zhàn)是讓智能體在數(shù)百步的探索中依然保持清晰的推理與穩(wěn)健的決策。

傳統(tǒng)的強(qiáng)化學(xué)習(xí)框架在幾十步內(nèi)尚能應(yīng)付,但一旦任務(wù)延展至數(shù)百步,獎(jiǎng)勵(lì)稀疏、歷史冗長(zhǎng)、策略崩塌便接踵而至。

為了應(yīng)對(duì)這些挑戰(zhàn),來(lái)自卡內(nèi)基梅隆大學(xué)、香港大學(xué)等機(jī)構(gòu)的研究者提出了 Verlog ,試圖打破這一困境。

具體而言,Verlog 是一個(gè)多輪強(qiáng)化學(xué)習(xí)框架,專(zhuān)為具有高度可變回合(episode)長(zhǎng)度的長(zhǎng)時(shí)程(long-horizon) LLM-Agent 任務(wù)而設(shè)計(jì)。

它在繼承 VeRL 和 BALROG 的基礎(chǔ)上,并遵循 pytorch-a2c-ppo-acktr-gail 的成熟設(shè)計(jì)原則,引入了一系列專(zhuān)門(mén)優(yōu)化手段,從而在任務(wù)跨度從短暫交互到數(shù)百回合時(shí),依然能夠?qū)崿F(xiàn)穩(wěn)定而高效的訓(xùn)練。

以往的框架(如 VeRL 和 RAGEN)能夠較好地處理約 10 回合的任務(wù),verl-agent 則可擴(kuò)展至 50 回合。而 Verlog 則被設(shè)計(jì)用于超過(guò) 400 回合的環(huán)境,使其在復(fù)雜的長(zhǎng)期決策任務(wù)中具備獨(dú)特優(yōu)勢(shì)。

這一能力已在 BabyAI、BabaIsAI 和 Crafter 等高難度領(lǐng)域得到驗(yàn)證。以 Crafter 為例,其回合長(zhǎng)度范圍在 70 到 400 步之間,平均約為 190 步。在這些充滿(mǎn)挑戰(zhàn)的環(huán)境中,Verlog 都能夠開(kāi)箱即用地展現(xiàn)出強(qiáng)勁的性能。



  • 博客地址:https://blog.ml.cmu.edu/2025/09/15/verlog-a-multi-turn-rl-framework-for-llm-agents/
  • 項(xiàng)目主頁(yè):https://agentic-intelligence-lab.org/2025/08/15/technical-post.html



方法介紹

基礎(chǔ)模型

在模型方面,本文基于 Qwen-2.5 的 Instruct 變體(Qwen-2.5-3B/7B-Instruct)構(gòu)建。

這樣做主要有兩個(gè)原因:

一是,它可以與 BALROG 無(wú)縫集成(BALROG 是一個(gè)旨在評(píng)估 Instruct 模型在一系列基準(zhǔn)測(cè)試中零樣本性能的框架);

其次,它允許研究者可以直接使用基準(zhǔn)測(cè)試提示,而無(wú)需太多修改。



BabyAI 使用的提示模板

記憶機(jī)制

本文不是將整個(gè)軌跡全部放入上下文窗口中,而是僅保留最新的 n + 1 個(gè)回合。

這樣做帶來(lái)的影響是,對(duì)于 3B 參數(shù)的 Qwen 模型,性能在 n = 1 或 2 時(shí)達(dá)到峰值,而當(dāng) n 增加到 4 或 8 時(shí)性能下降。

作者推測(cè),模型性能下降的原因是 3B 模型在處理長(zhǎng)上下文方面的能力有限,例如,當(dāng) n = 8 時(shí),提示詞長(zhǎng)度約為 4600 個(gè) token。

不過(guò),這一趨勢(shì)是否適用于更大規(guī)模的模型,仍待研究。

Dual Discounting GAE 算法





此外,本文 GAE 是遞歸計(jì)算的:



其中,



遞歸從最后一輪的最后一個(gè) token 開(kāi)始,向后進(jìn)行。處理完最后一輪的所有 token 后,移至倒數(shù)第二輪的最后一個(gè) token,并繼續(xù)遞歸執(zhí)行此過(guò)程。在此過(guò)程中,所有狀態(tài) token 都會(huì)被跳過(guò)。

實(shí)驗(yàn)結(jié)果

該研究在三個(gè)頗具挑戰(zhàn)性的基準(zhǔn)上測(cè)試了 Verlog:包括 Crafter、BabyAI 和 BabaIsAI。實(shí)驗(yàn)?zāi)P桶?Qwen2.5-Instruct 。



在 Crafter 環(huán)境中,本文使用 8 張 H100(82GB 顯存)GPU 對(duì) Qwen2.5-7B-Instruct 模型訓(xùn)練了大約 36 小時(shí)。此外,針對(duì) BabyAI 與 BabaIsAI 環(huán)境,本文采用 4 張 A40(48GB 顯存)GPU 對(duì) Qwen2.5-3B-Instruct 模型訓(xùn)練約 24 小時(shí)。

三個(gè)實(shí)驗(yàn)環(huán)境表明,Verlog 展現(xiàn)出穩(wěn)定的訓(xùn)練能力,不管是在長(zhǎng)周期、稀疏獎(jiǎng)勵(lì),還是在可變 episode 長(zhǎng)度條件下。這也證明了該框架能自然適應(yīng)從短周期到超長(zhǎng)周期多回合任務(wù)的規(guī)?;?xùn)練。

總結(jié)

Verlog 針對(duì)在構(gòu)建長(zhǎng)時(shí)程、多回合任務(wù)的 LLM Agent 時(shí)面臨的若干核心工程挑戰(zhàn),提出了系統(tǒng)性的解決方案,包括:

  • 長(zhǎng)交互歷史的處理:通過(guò)記憶機(jī)制和回合級(jí)抽象來(lái)管理歷史信息。
  • 稀疏獎(jiǎng)勵(lì)下的訓(xùn)練穩(wěn)定性:結(jié)合 dual-discounting GAE 和價(jià)值函數(shù)預(yù)訓(xùn)練來(lái)增強(qiáng)穩(wěn)定性。
  • 軌跡長(zhǎng)度可變的管理:通過(guò)固定回合批處理(fixed-turn batching)和自舉式價(jià)值估計(jì)來(lái)處理變長(zhǎng)軌跡。
  • 提升動(dòng)作有效性:利用針對(duì)性的提示工程和默認(rèn)動(dòng)作替換,使訓(xùn)練過(guò)程中 >95% 的動(dòng)作均為有效動(dòng)作。

作者表示,Verlog 的定位是一個(gè)靈活的研究平臺(tái),目的是推動(dòng)長(zhǎng)時(shí)程 LLM-Agent 強(qiáng)化學(xué)習(xí)的發(fā)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
冬至以后,運(yùn)勢(shì)飆升的3生肖,前程似錦,財(cái)運(yùn)四聚

冬至以后,運(yùn)勢(shì)飆升的3生肖,前程似錦,財(cái)運(yùn)四聚

人閒情事
2025-12-20 14:10:17
上海富豪為癡傻兒子娶妻,農(nóng)村女孩主動(dòng)上門(mén),可是新婚當(dāng)晚卻傻眼了

上海富豪為癡傻兒子娶妻,農(nóng)村女孩主動(dòng)上門(mén),可是新婚當(dāng)晚卻傻眼了

五元講堂
2025-03-25 21:28:36
不聽(tīng)父母勸釀慘??!95后女子拒復(fù)合遭汽油焚身!20次手術(shù)難挽人生

不聽(tīng)父母勸釀慘??!95后女子拒復(fù)合遭汽油焚身!20次手術(shù)難挽人生

云中浮生
2025-12-20 20:04:00
我?guī)褪组L(zhǎng)擋下了兩槍后,負(fù)傷退伍,在我交出軍官證時(shí)女文員卻鎖上門(mén)

我?guī)褪组L(zhǎng)擋下了兩槍后,負(fù)傷退伍,在我交出軍官證時(shí)女文員卻鎖上門(mén)

如煙若夢(mèng)
2025-12-16 16:32:17
再這樣下去,很多人的存款都將歸零。

再這樣下去,很多人的存款都將歸零。

詩(shī)詞中國(guó)
2025-12-19 20:12:29
罪惡的柬埔寨,讓中國(guó)人聞風(fēng)喪膽?為什么是東南亞最可怕的國(guó)家?

罪惡的柬埔寨,讓中國(guó)人聞風(fēng)喪膽?為什么是東南亞最可怕的國(guó)家?

歷史人文2
2025-12-14 09:28:10
歌唱家朱逢博:低調(diào)隱居上海,88歲口齒伶俐,和丈夫骨灰相伴17年

歌唱家朱逢博:低調(diào)隱居上海,88歲口齒伶俐,和丈夫骨灰相伴17年

秋姐居
2025-12-20 19:17:51
豆包狂飆,字節(jié)AI再亮劍

豆包狂飆,字節(jié)AI再亮劍

全天候科技
2025-12-20 17:13:13
張慶鵬:鄒雨宸吃了止痛藥就繼續(xù)上場(chǎng),我們跟不上山東高強(qiáng)度對(duì)抗

張慶鵬:鄒雨宸吃了止痛藥就繼續(xù)上場(chǎng),我們跟不上山東高強(qiáng)度對(duì)抗

狼叔評(píng)論
2025-12-20 23:06:22
北斗遭某國(guó)神秘強(qiáng)電磁襲擊,危急時(shí)刻,他挺身而出,70天成功破解

北斗遭某國(guó)神秘強(qiáng)電磁襲擊,危急時(shí)刻,他挺身而出,70天成功破解

百年歷史老號(hào)
2024-04-23 11:26:36
中央明確規(guī)定:從明年起,將對(duì)普通高中進(jìn)行擴(kuò)招。

中央明確規(guī)定:從明年起,將對(duì)普通高中進(jìn)行擴(kuò)招。

百態(tài)人間
2025-12-18 05:00:04
中方禁止入境后,魯比奧通告全球:中國(guó)是一個(gè)富裕而強(qiáng)大的國(guó)家

中方禁止入境后,魯比奧通告全球:中國(guó)是一個(gè)富裕而強(qiáng)大的國(guó)家

藍(lán)色海邊
2025-12-21 05:41:35
謝潑德轟28+6三分立功:75秒連得11分太瘋狂 賽后杜蘭特狂贊他

謝潑德轟28+6三分立功:75秒連得11分太瘋狂 賽后杜蘭特狂贊他

追球者
2025-12-21 08:41:26
新加坡估計(jì)怎么也想不通一覺(jué)醒來(lái),家門(mén)口的海南釜底抽薪

新加坡估計(jì)怎么也想不通一覺(jué)醒來(lái),家門(mén)口的海南釜底抽薪

忠于法紀(jì)
2025-12-12 09:14:49
她是央視認(rèn)證的大歌唱家,嫁大30歲二婚老頭,如今周游世界很幸福

她是央視認(rèn)證的大歌唱家,嫁大30歲二婚老頭,如今周游世界很幸福

林雁飛
2025-12-20 18:27:23
南博事件升級(jí)!關(guān)鍵人物挖出,徐前院長(zhǎng)使出“苦肉計(jì)”確實(shí)尷尬…

南博事件升級(jí)!關(guān)鍵人物挖出,徐前院長(zhǎng)使出“苦肉計(jì)”確實(shí)尷尬…

戶(hù)外小阿隋
2025-12-21 00:55:07
價(jià)格大跳水!直接腰斬!不少人后悔買(mǎi)了...

價(jià)格大跳水!直接腰斬!不少人后悔買(mǎi)了...

wuhu派
2025-12-20 13:03:33
老公駐派中東3年,我深夜給5歲女兒掖被角,她說(shuō):爸爸每天半夜來(lái)

老公駐派中東3年,我深夜給5歲女兒掖被角,她說(shuō):爸爸每天半夜來(lái)

朝暮書(shū)屋
2025-12-17 18:26:03
特朗普舉著孩子照片,對(duì)哭泣的母親承諾:我相信中國(guó)會(huì)執(zhí)行死刑的

特朗普舉著孩子照片,對(duì)哭泣的母親承諾:我相信中國(guó)會(huì)執(zhí)行死刑的

博覽歷史
2025-07-21 17:59:30
賣(mài)了800萬(wàn)!2013年四川男子潛水摸到“金坨坨”,賣(mài)掉被判刑

賣(mài)了800萬(wàn)!2013年四川男子潛水摸到“金坨坨”,賣(mài)掉被判刑

攬星河的筆記
2025-12-20 13:38:59
2025-12-21 09:36:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
11957文章數(shù) 142515關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬(wàn)個(gè)應(yīng)用

頭條要聞

臺(tái)北襲擊案行兇者被造謠是"大陸籍" 蔣萬(wàn)安駁斥

頭條要聞

臺(tái)北襲擊案行兇者被造謠是"大陸籍" 蔣萬(wàn)安駁斥

體育要聞

我開(kāi)了20年大巴,現(xiàn)在是一名西甲主帥

娛樂(lè)要聞

2026央視跨年晚會(huì)陣容曝光,豪華陣仗

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車(chē)要聞

嵐圖推進(jìn)L3量產(chǎn)測(cè)試 已完成11萬(wàn)公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

時(shí)尚
本地
手機(jī)
公開(kāi)課
軍事航空

中年女人,冬天這么穿羽絨服、大衣,優(yōu)雅都藏在這3個(gè)細(xì)節(jié)里

本地新聞

云游安徽|訪(fǎng)黃山云海古村,讀一城山水風(fēng)骨

手機(jī)要聞

iOS 26.1驗(yàn)證已關(guān)閉!蘋(píng)果將暫時(shí)停更iOS 26.3測(cè)試版

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

澤連斯基:前線(xiàn)局勢(shì)愈發(fā)艱難

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版