国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

騰訊提出RLVMR框架,讓7B模型「思考」比肩GPT-4o

0
分享至



本論文的主要作者來自騰訊混元 AI 數(shù)字人團隊 (Tencent Hunyuan AI Digital Human)。該團隊致力于打造「有智商、有情商、有溫度的數(shù)字人」,旨在為用戶提供高度擬人、可信賴的數(shù)字伙伴,進而實現(xiàn)富有溫度與信任的情感交互。

自主智能體(Agents)正朝著能夠處理復雜長程任務(Long-Horizon Tasks)的通用智能(AGI)邁進,但許多研究者發(fā)現(xiàn)了一個尷尬的現(xiàn)實:很多智能體雖然能完成任務,卻像個「只會蒙答案的學生」,其成功往往依賴于運氣和低效的試錯,而非真正高效、可泛化的推理能力。一旦環(huán)境稍作改變,它們便漏洞百出。

這種「結(jié)果正確,但過程混亂」的現(xiàn)象,是當前長程智能體(Long-Horizon Agents)強化學習(RL)范式的一大瓶頸。智能體在探索中,只因最終能完成任務便獲得獎勵,而其間大量的冗余操作、無效探索,甚至錯誤的推理路徑,都被無意中 「強化」 和固化。這導致了兩個核心難題:

1.低效探索難題:智能體容易陷入「無效內(nèi)卷」,反復嘗試無意義的動作,訓練成本高,推理效率低下。

2.泛化脆弱難題:靠「蒙對」學會的策略缺乏邏輯基礎,在新任務面前不堪一擊,難以實現(xiàn)真正的魯棒性。

如何讓智能體不僅「知其然」,更能「知其所以然」?

面對這些難題,騰訊混元 AI 數(shù)字人團隊提出了RLVMR (Reinforcement Learning with Verifiable Meta-Reasoning Rewards)框架。這項工作開創(chuàng)性地將認知科學中的「元認知」(即 「思考自己的思考」)理論引入 RL,通過獎勵「好的思考過程」而非僅僅獎勵「好的結(jié)果」,首次實現(xiàn)了對智能體推理過程的端到端強化學習,成功解決了長程任務中的低效探索與泛化難題。



  • 論文地址: [2507.22844] RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents
  • 項目代碼: digitalhuman/RLVMR at main?Tencent/digitalhuman?GitHub

RLVMR:如何教會智能體「思考」,而不僅是「做事」?

傳統(tǒng)方法要么依賴僵化的專家數(shù)據(jù)(SFT),要么依賴稀疏的結(jié)果獎勵(RL),都無法有效塑造智能體高質(zhì)量的「思維習慣」。RLVMR 的破局點在于:為智能體的「思考過程」本身,設計一套可驗證、可優(yōu)化的獎勵機制。



1. 智能體學會「三思而后行」:引入元推理狀態(tài)

RLVMR 賦予智能體「自我意識」的能力。在行動前,智能體需要先思考并給自己貼上一個「元推理標簽」,明確自己當前處于哪個認知階段:

  • 規(guī)劃(Planning):我準備做什么?計劃是什么?
  • 探索(Exploring):我正在執(zhí)行計劃,探索方案。
  • 反思(Reflecting):計劃出錯了?我需要糾正什么?

這套機制讓智能體的「內(nèi)心戲」變得明確、可追蹤,為獎勵其「優(yōu)質(zhì)思考」提供了抓手。

2. 獎勵「好思路」,懲罰「壞習慣」:可驗證的過程獎勵

光有標簽還不夠,RLVMR 設計了一套輕量級的驗證規(guī)則,實時評估智能體的思考質(zhì)量,并給予即時獎勵:

  • 獎勵高效思考:當智能體在「反思」后成功糾錯,或制定出有效「規(guī)劃」時,給予正向獎勵。
  • 懲罰低效行為:當智能體陷入無意義的動作循環(huán)或重復犯錯時,給予負向獎勵。

這種「過程獎勵」機制,像一位貼身教練,不斷引導智能體優(yōu)化其思考與決策路徑,從根本上杜絕「瞎蒙」行為。

3. 從「結(jié)果導向」到「過程與結(jié)果并重」

RLVMR 將「過程獎勵」與最終的「任務成功獎勵」相結(jié)合,通過策略梯度方法進行端到端優(yōu)化。這使得智能體在追求最終目標的同時,必須學會如何更聰明、更高效地達成目標。

核心實驗成果:7B 模型比肩「巨頭旗艦」

在極具挑戰(zhàn)性的 ALFWorld 和 ScienceWorld 兩大長程任務基準上,RLVMR 展現(xiàn)了統(tǒng)治級的性能。經(jīng)過 RLVMR 訓練的 7B 模型,在難度最高、從未見過的任務(L2 泛化等級)上,成功率高達 83.6%,不僅遠超此前所有 SOTA 模型,更證明了其強大的泛化能力。



此外,我們的方法訓練出的智能體更「聰明」,解決任務的路徑更直接,在 ALFWorld 和 ScienceWorld 的 L2 復雜環(huán)境中,所需動作數(shù)最高減少 28.1%。此外,訓練過程本身也告別了「反復橫跳」式的低效學習,收斂速度更快、策略更穩(wěn)定,顯著緩解了無效探索問題。





超越分數(shù):RLVMR 實驗中的深度洞察

洞察一:智能體學會「反思」,告別「無效內(nèi)卷」

傳統(tǒng) RL 智能體像一個埋頭刷題但從不復盤的學生,容易在錯誤路徑上反復掙扎。RLVMR 的核心貢獻在于教會了智能體「反思」(Reflecting)。



實驗數(shù)據(jù)顯示,引入「反思」機制后,智能體在遇到困難時,不再是盲目重試,而是能夠主動識別問題、調(diào)整策略。這正是其重復動作率大幅降低、任務成功率飆升的根本原因。它揭示了一個關鍵點:對于復雜任務,教會智能體如何從失敗中學習,比單純「喂」給它成功的經(jīng)驗更重要。

洞察二:好的推理習慣,是泛化能力的基石

為什么 RLVMR 在未見任務上表現(xiàn)如此出色?



我們發(fā)現(xiàn),通過獎勵「好的思考過程」,RLVMR 幫助智能體建立了一套通用的、不依賴于特定任務的「元問題解決框架」(如何規(guī)劃、如何探索、如何反思)。當面對新環(huán)境(L2)時,智能體調(diào)用的不再是某個僵化的「解題模板」,而是這套靈活的「思維方法論」。

這證實了一個重要猜想:真正的泛化能力,源自于對問題解決過程的深刻理解,而非對問題答案的機械記憶。 RLVMR 正是通往這條道路的有效路徑。

洞察三:先 「冷啟動」 再 「強化」—— 智能體的成長階梯設計

RLVMR 采用了「冷啟動 SFT + 強化學習 RL」的兩階段訓練流程。這并非簡單的流程拼接,而是一種符合認知規(guī)律的「成長曲線」設計。

  • 冷啟動階段(SFT):如同基礎教育,讓智能體先通過模仿學習,快速掌握「規(guī)劃」「反思」等元推理概念的基本表達方式。
  • 強化學習階段(RL):如同進入社會實踐,讓智能體在真實環(huán)境中自由探索,通過「過程獎勵」的不斷反饋,將學到的概念內(nèi)化為真正的能力。



這一策略啟示我們:在訓練高級智能體時,「先教會它如何思考,再放手讓它去犯錯成長」,可能是比單一訓練范式更高效的路徑。

總結(jié)與展望

RLVMR 的提出,為智能體訓練帶來了從「結(jié)果導向」到「過程導向」的范式革新。它證明了,通過對智能體「思考過程」的直接建模與獎勵,我們能夠有效破解長程任務中的「低效探索」與「泛化脆弱」兩大難題。

我們對 AGI 的終極期待,是一個能夠獨立思考、理性決策的伙伴,而不是一個只會尋找捷徑的「做題家」。RLVMR 的工作,正是鼓勵大模型從偶然涌現(xiàn)的能力,走向特定思維模式的強化,為構(gòu)建更魯棒、更高效、更可解釋的通用智能體邁出了堅實的一步。

這項研究不僅為長程智能體訓練提供了新思路,也為我們探索能真正理解世界、應對未知的下一代 AI 帶來了新的曙光。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
婚變傳聞后,羅晉攜任素汐與母親去祈福,撕碎了唐嫣最后一絲體面

婚變傳聞后,羅晉攜任素汐與母親去祈福,撕碎了唐嫣最后一絲體面

春曉暖語聲
2025-12-20 00:07:46
又貴又難喝的“液體黃金”,成中產(chǎn)新寵?

又貴又難喝的“液體黃金”,成中產(chǎn)新寵?

中國新聞周刊
2025-12-20 20:47:03
5國反對!日本最終投票,不許中國擁有核武,高市表態(tài)激起千層浪

5國反對!日本最終投票,不許中國擁有核武,高市表態(tài)激起千層浪

興史興談
2025-12-21 01:55:52
聚焦中央經(jīng)濟工作會議|我國將有序擴大服務領域自主開放

聚焦中央經(jīng)濟工作會議|我國將有序擴大服務領域自主開放

新華社
2025-12-19 11:17:04
哇塞!湖人看中防守大閘!3換1交易方案曝光

哇塞!湖人看中防守大閘!3換1交易方案曝光

籃球?qū)崙?zhàn)寶典
2025-12-20 19:37:06
生態(tài)環(huán)境部副部長于會文任內(nèi)蒙古黨委常委、呼和浩特市委書記

生態(tài)環(huán)境部副部長于會文任內(nèi)蒙古黨委常委、呼和浩特市委書記

澎湃新聞
2025-12-20 19:26:26
老公駐派中東3年,我深夜給5歲女兒掖被角,她說:爸爸每天半夜來

老公駐派中東3年,我深夜給5歲女兒掖被角,她說:爸爸每天半夜來

朝暮書屋
2025-12-17 18:26:03
舒淇在節(jié)目里第一次承認,她和馮德倫為了要孩子已經(jīng)折騰了九年。

舒淇在節(jié)目里第一次承認,她和馮德倫為了要孩子已經(jīng)折騰了九年。

歲月有情1314
2025-11-29 15:40:25
警惕!小心這些藥正在“溶解”你的肌肉

警惕!小心這些藥正在“溶解”你的肌肉

PSM藥盾公益
2025-11-21 16:59:45
順義人等來了第二條地鐵!時速120很能打,為啥繞開產(chǎn)業(yè)核心區(qū)

順義人等來了第二條地鐵!時速120很能打,為啥繞開產(chǎn)業(yè)核心區(qū)

晨晨星
2025-12-20 23:04:05
美國底層女性垃圾白人曝光:社工直接給工具,就是讓他們吸死拉倒

美國底層女性垃圾白人曝光:社工直接給工具,就是讓他們吸死拉倒

忠于法紀
2025-12-18 20:14:00
甘肅天水61歲女子痔瘡手術(shù)后9天離世,家屬質(zhì)疑術(shù)后診療不全面,當?shù)匦l(wèi)健委回應:已介入處理

甘肅天水61歲女子痔瘡手術(shù)后9天離世,家屬質(zhì)疑術(shù)后診療不全面,當?shù)匦l(wèi)健委回應:已介入處理

揚子晚報
2025-12-20 18:20:53
申敏兒金宇彬婚紗照首公開,李光洙李先彬主持

申敏兒金宇彬婚紗照首公開,李光洙李先彬主持

星野娛樂天地
2025-12-20 19:33:52
調(diào)查發(fā)現(xiàn):晨起大量飲水者,用不了3個月,身體或迎來這5變化!

調(diào)查發(fā)現(xiàn):晨起大量飲水者,用不了3個月,身體或迎來這5變化!

小胡軍事愛好
2025-11-27 10:46:30
余良勇,被提名為長沙市副市長、市公安局局長人選!劉接林,重返福建任職!

余良勇,被提名為長沙市副市長、市公安局局長人選!劉接林,重返福建任職!

叮當當科技
2025-12-20 12:59:54
冬天這菜使勁吃!一助睡眠,二降肝火,三可排毒,鮮嫩爽口別錯過

冬天這菜使勁吃!一助睡眠,二降肝火,三可排毒,鮮嫩爽口別錯過

秀廚娘
2025-12-17 19:43:07
謝霆鋒東北吃大鵝,滿頭白發(fā)臉不垮,說鍋包肉像肉排、鵝脖子最嫩

謝霆鋒東北吃大鵝,滿頭白發(fā)臉不垮,說鍋包肉像肉排、鵝脖子最嫩

瘋說時尚
2025-12-20 10:09:06
意媒:米蘭正在評估冬窗租借熱蘇斯的可能性

意媒:米蘭正在評估冬窗租借熱蘇斯的可能性

懂球帝
2025-12-21 00:25:18
超級世界波!詹姆斯任意球破門,藍軍首次射正,避免92年之恥

超級世界波!詹姆斯任意球破門,藍軍首次射正,避免92年之恥

奧拜爾
2025-12-20 21:53:05
已經(jīng)12月了,廣東還能入冬嗎?新一股冷空氣發(fā)貨!廣東天氣→

已經(jīng)12月了,廣東還能入冬嗎?新一股冷空氣發(fā)貨!廣東天氣→

廣東衛(wèi)視
2025-12-20 21:07:17
2025-12-21 04:48:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142515關注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

臺北致4人身亡嫌犯被指是"大陸籍" 蔣萬安回應

頭條要聞

臺北致4人身亡嫌犯被指是"大陸籍" 蔣萬安回應

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會陣容曝光,豪華陣仗

財經(jīng)要聞

求解“地方財政困難”

汽車要聞

嵐圖推進L3量產(chǎn)測試 已完成11萬公里實際道路驗證

態(tài)度原創(chuàng)

教育
游戲
本地
親子
公開課

教育要聞

別逼孩子死磕高二數(shù)學了!我用3個“懶方法”,讓倒數(shù)娃沖進前20

逆天!LCK頒獎Faker無緣獎項,LPL解說炮轟開罵直播間差點被封

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風骨

親子要聞

邊牧和德牧帶娃在外面挖坑,三個小朋友加起來800個心眼子!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版