国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

開源RL框架Verlog來了,專為LLM智能體打造,400回合不成問題

0
分享至

機器之心報道

機器之心編輯部

AI 時代,智能體對短期對話的處理能力已不再是難題。真正的挑戰(zhàn)是讓智能體在數(shù)百步的探索中依然保持清晰的推理與穩(wěn)健的決策。

傳統(tǒng)的強化學習框架在幾十步內尚能應付,但一旦任務延展至數(shù)百步,獎勵稀疏、歷史冗長、策略崩塌便接踵而至。

為了應對這些挑戰(zhàn),來自卡內基梅隆大學、香港大學等機構的研究者提出了 Verlog ,試圖打破這一困境。

具體而言,Verlog 是一個多輪強化學習框架,專為具有高度可變回合(episode)長度的長時程(long-horizon) LLM-Agent 任務而設計。

它在繼承 VeRL 和 BALROG 的基礎上,并遵循 pytorch-a2c-ppo-acktr-gail 的成熟設計原則,引入了一系列專門優(yōu)化手段,從而在任務跨度從短暫交互到數(shù)百回合時,依然能夠實現(xiàn)穩(wěn)定而高效的訓練。

以往的框架(如 VeRL 和 RAGEN)能夠較好地處理約 10 回合的任務,verl-agent 則可擴展至 50 回合。而 Verlog 則被設計用于超過 400 回合的環(huán)境,使其在復雜的長期決策任務中具備獨特優(yōu)勢。

這一能力已在 BabyAI、BabaIsAI 和 Crafter 等高難度領域得到驗證。以 Crafter 為例,其回合長度范圍在 70 到 400 步之間,平均約為 190 步。在這些充滿挑戰(zhàn)的環(huán)境中,Verlog 都能夠開箱即用地展現(xiàn)出強勁的性能。



  • 博客地址:https://blog.ml.cmu.edu/2025/09/15/verlog-a-multi-turn-rl-framework-for-llm-agents/
  • 項目主頁:https://agentic-intelligence-lab.org/2025/08/15/technical-post.html



方法介紹

基礎模型

在模型方面,本文基于 Qwen-2.5 的 Instruct 變體(Qwen-2.5-3B/7B-Instruct)構建。

這樣做主要有兩個原因:

一是,它可以與 BALROG 無縫集成(BALROG 是一個旨在評估 Instruct 模型在一系列基準測試中零樣本性能的框架);

其次,它允許研究者可以直接使用基準測試提示,而無需太多修改。



BabyAI 使用的提示模板

記憶機制

本文不是將整個軌跡全部放入上下文窗口中,而是僅保留最新的 n + 1 個回合。

這樣做帶來的影響是,對于 3B 參數(shù)的 Qwen 模型,性能在 n = 1 或 2 時達到峰值,而當 n 增加到 4 或 8 時性能下降。

作者推測,模型性能下降的原因是 3B 模型在處理長上下文方面的能力有限,例如,當 n = 8 時,提示詞長度約為 4600 個 token。

不過,這一趨勢是否適用于更大規(guī)模的模型,仍待研究。

Dual Discounting GAE 算法





此外,本文 GAE 是遞歸計算的:



其中,



遞歸從最后一輪的最后一個 token 開始,向后進行。處理完最后一輪的所有 token 后,移至倒數(shù)第二輪的最后一個 token,并繼續(xù)遞歸執(zhí)行此過程。在此過程中,所有狀態(tài) token 都會被跳過。

實驗結果

該研究在三個頗具挑戰(zhàn)性的基準上測試了 Verlog:包括 Crafter、BabyAI 和 BabaIsAI。實驗模型包括 Qwen2.5-Instruct 。



在 Crafter 環(huán)境中,本文使用 8 張 H100(82GB 顯存)GPU 對 Qwen2.5-7B-Instruct 模型訓練了大約 36 小時。此外,針對 BabyAI 與 BabaIsAI 環(huán)境,本文采用 4 張 A40(48GB 顯存)GPU 對 Qwen2.5-3B-Instruct 模型訓練約 24 小時。

三個實驗環(huán)境表明,Verlog 展現(xiàn)出穩(wěn)定的訓練能力,不管是在長周期、稀疏獎勵,還是在可變 episode 長度條件下。這也證明了該框架能自然適應從短周期到超長周期多回合任務的規(guī)模化訓練。

總結

Verlog 針對在構建長時程、多回合任務的 LLM Agent 時面臨的若干核心工程挑戰(zhàn),提出了系統(tǒng)性的解決方案,包括:

  • 長交互歷史的處理:通過記憶機制和回合級抽象來管理歷史信息。
  • 稀疏獎勵下的訓練穩(wěn)定性:結合 dual-discounting GAE 和價值函數(shù)預訓練來增強穩(wěn)定性。
  • 軌跡長度可變的管理:通過固定回合批處理(fixed-turn batching)和自舉式價值估計來處理變長軌跡。
  • 提升動作有效性:利用針對性的提示工程和默認動作替換,使訓練過程中 >95% 的動作均為有效動作。

作者表示,Verlog 的定位是一個靈活的研究平臺,目的是推動長時程 LLM-Agent 強化學習的發(fā)展。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
博德閃耀主帥:曼城都沒抱怨人工草坪,老拿這個說事不太聰明

博德閃耀主帥:曼城都沒抱怨人工草坪,老拿這個說事不太聰明

懂球帝
2026-02-24 07:49:06
教科書級別:比亞迪用“遠程鎖車”給全球貿易上了一課

教科書級別:比亞迪用“遠程鎖車”給全球貿易上了一課

音樂時光的娛樂
2026-02-24 10:00:41
后續(xù)!山東男子套圈套中紅旗車,商家反悔不兌現(xiàn),處理結果太憋屈

后續(xù)!山東男子套圈套中紅旗車,商家反悔不兌現(xiàn),處理結果太憋屈

愛下廚的阿釃
2026-02-24 16:00:49
辭去西湖大學教職,他想去中學教書

辭去西湖大學教職,他想去中學教書

返樸
2026-02-24 10:30:19
墨西哥頭號毒梟斃命引發(fā)犯罪集團全國性報復,度假勝地變“人間戰(zhàn)區(qū)”

墨西哥頭號毒梟斃命引發(fā)犯罪集團全國性報復,度假勝地變“人間戰(zhàn)區(qū)”

紅星新聞
2026-02-24 15:39:08
戲子誤國!2026年剛開年,就有3位明星相繼塌房,個個荒唐

戲子誤國!2026年剛開年,就有3位明星相繼塌房,個個荒唐

不似少年游
2026-02-24 19:24:23
國內商品期貨夜盤開盤多數(shù)上漲,滬金跌0.59%,滬銀漲0.83%

國內商品期貨夜盤開盤多數(shù)上漲,滬金跌0.59%,滬銀漲0.83%

每日經濟新聞
2026-02-24 21:13:04
女人默許你“得手”從不主動靠近:這三種默許,已是最明確的信號

女人默許你“得手”從不主動靠近:這三種默許,已是最明確的信號

青蘋果sht
2026-02-22 06:58:10
權志龍再三挑釁中國春節(jié),女星鄧家佳跟風,被網友罵后刪博了事

權志龍再三挑釁中國春節(jié),女星鄧家佳跟風,被網友罵后刪博了事

錢小刀娛樂
2026-02-22 21:54:09
毛奇、李佩霞2026年近況公布,兩人服刑結局給所有人提了醒

毛奇、李佩霞2026年近況公布,兩人服刑結局給所有人提了醒

娛樂督察中
2026-02-21 03:23:47
有追求!浙江打造全新進攻戰(zhàn)術:王鈺棟苦練射門,有望沖金靴!

有追求!浙江打造全新進攻戰(zhàn)術:王鈺棟苦練射門,有望沖金靴!

邱澤云
2026-02-24 19:01:32
西安突然宣布!砸下4500億,一場前所未有的“大動作”正式啟動!

西安突然宣布!砸下4500億,一場前所未有的“大動作”正式啟動!

娛樂督察中
2026-02-24 20:28:45
局地中雪!河北將迎大范圍雨雪!

局地中雪!河北將迎大范圍雨雪!

掌中邯鄲
2026-02-24 11:15:18
身家過億!58歲時尚巨頭創(chuàng)始人在泰國從17樓墜亡

身家過億!58歲時尚巨頭創(chuàng)始人在泰國從17樓墜亡

看看新聞Knews
2026-02-24 18:04:02
劉強東:擁有上千億身家,兒子卻是一生的痛,感謝章澤天視如己出

劉強東:擁有上千億身家,兒子卻是一生的痛,感謝章澤天視如己出

小熊侃史
2026-02-24 18:05:55
吵架將孩子扔河里后續(xù):原因曝光,夫妻身份被扒,娃狀態(tài)讓人擔憂

吵架將孩子扔河里后續(xù):原因曝光,夫妻身份被扒,娃狀態(tài)讓人擔憂

奇思妙想草葉君
2026-02-24 18:39:40
2009年,趙本山用手頭積蓄13個億一舉買下海南島800畝土地。

2009年,趙本山用手頭積蓄13個億一舉買下海南島800畝土地。

荊楚寰宇文樞
2025-12-28 22:48:47
為什么健身的女孩子,都在比誰練的臀部翹得更高?

為什么健身的女孩子,都在比誰練的臀部翹得更高?

馬拉松跑步健身
2026-02-23 20:26:37
央行宣布,6000億元!

央行宣布,6000億元!

中國基金報
2026-02-24 20:19:04
哈薩克斯坦:僅2050萬人口卻有50萬女性單身,擇偶為何如此艱難?

哈薩克斯坦:僅2050萬人口卻有50萬女性單身,擇偶為何如此艱難?

百科密碼
2026-02-24 15:38:28
2026-02-24 22:03:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12344文章數(shù) 142569關注度
往期回顧 全部

科技要聞

宇樹科技發(fā)布四足機器人Unitree As2

頭條要聞

特朗普:是否對伊朗動武 最終決定權在我手中

頭條要聞

特朗普:是否對伊朗動武 最終決定權在我手中

體育要聞

蘇翊鳴總結米蘭征程:我仍是那個熱愛單板滑雪的少年

娛樂要聞

汪小菲官宣三胎出生:承諾會照顧好3個孩子

財經要聞

縣城消費「限時繁榮」了十天

汽車要聞

入門即滿配 威蘭達AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

數(shù)碼
藝術
教育
健康
公開課

數(shù)碼要聞

榮耀Magicbook Pro 14 2026將發(fā)布,能打破續(xù)航焦慮?

藝術要聞

2025年第八屆全國青年美展 | 油畫作品選刊

教育要聞

提前返程背后的真相:父母的“精明賬”,是給孩子最好的守護

轉頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版