国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

生成式Critic重新定義LLM強化學習信用分配

0
分享至



本文第一作者單子康是北京大學二年級在讀博士生,研究方向為大語言模型與強化學習,曾于 ICML 2025 以共同一作發(fā)表 Spotlight 論文,本工作為微軟亞洲研究院實習期間完成。本文最后一作趙立是微軟亞洲研究院高級研究員,現(xiàn)任微軟亞洲研究院機器學習組負責人。

強化學習(RL)已經(jīng)成為大語言模型(LLM)后訓練階段最重要的技術之一。早期伴隨著 ChatGPT 的出圈,價值對齊 RL 受到廣泛關注;DeepSeek-R1 以大規(guī)模可驗證 RL 激發(fā)了模型的推理能力,引領了推理 RL 的熱潮;如今的智能體(Agent)訓練更是離不開 RL。

可以說,大模型時代的能力演進,很大程度上是 RL 范式不斷深化應用的過程。

然而,RL 有一個經(jīng)典難題始終懸而未決:信用分配(credit assignment)。模型生成了一段長長的回答,最終收到一個獎勵信號。但這段回答里,哪些步驟真正做出了貢獻?哪些是冗余的,甚至引入了錯誤?信用分配不精準,訓練信號就只能保持稀疏,模型的學習效率也就因此受限。



經(jīng)典 RL 算法 PPO(Proximal Policy Optimization)的解法是訓練一個價值模型(Critic),估計序列中每個 token 的價值(Value),借此將信用精確分配到每一步。然而在 LLM 的實踐中,隨著生成序列越來越長、任務越來越復雜,Critic 的訓練逐漸變得不穩(wěn)定,效果也難以保證。

于是,研究者轉(zhuǎn)向更簡單的無 Value 方法例如 GRPO,利用獎勵來構造每個軌跡的優(yōu)勢,廣播到每一步上,相當于將優(yōu)化過程簡化為一個多臂老虎機問題。盡管訓練流程簡潔了許多,這種簡化的代價是徹底放棄了細粒度的信用分配。隨著推理鏈越來越長、Agent 任務越來越復雜,這一代價也變得越來越難以接受。

這不禁讓人重新審視一個根本問題:價值模型真的不堪一用嗎?還是我們一直沒能正確地實現(xiàn)它?

微軟亞洲研究院聯(lián)合北京大學的研究者,給出了答案。



  • 論文標題:Bringing Value Models Back: Generative Critics for Value Modeling in LLM Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2604.10701

判別式 Critic 的根本局限

傳統(tǒng) Critic 是「判別式」的:輸入一個狀態(tài),輸出一個標量作為價值估計。這一設計看似自然,卻暗藏著一個深層的架構矛盾。

研究者將兩個已知的結論結合,得出了一個頗具啟發(fā)性的推論。其一,LLM 生成過程所對應的馬爾可夫鏈的價值函數(shù)的精確建模,在計算復雜度上屬于 P-complete。其二,Transformer 單次前向傳播的表達能力上界已被證明為 TC?,一個遠弱于 P-complete 的復雜度類。

將這兩個結論結合來看,判別式 Critic 在 LLM 任務上的持續(xù)失敗或許并非偶然:價值建模本質(zhì)上依賴大量順序推理,難以通過簡單的并行前向傳播實現(xiàn)。判別式 Critic 是在用一個表達能力受限的架構,去擬合一個理論上更復雜的函數(shù)。更關鍵的是,這一錯配無法通過規(guī)?;瘉韽浹a:更多的參數(shù)、更多的數(shù)據(jù)或更多的計算,對于表達能力層面的鴻溝并無根本幫助。



研究者通過實驗印證了這一推斷。固定一個目標價值函數(shù),讓判別式 Critic 去擬合,其誤差與簡單的平均獎勵基線相比并無顯著優(yōu)勢。更重要的是,將模型規(guī)模從 0.6B 擴展到 14B,擬合誤差幾乎沒有改善。與此同時,判別式 Critic 在不同隨機種子下表現(xiàn)出極大的波動,說明其表現(xiàn)高度依賴初始化,而非穩(wěn)健地收斂。

不可擴展加上不穩(wěn)定,共同指向同一個結論:判別式 Critic 的問題并非調(diào)參不當,而是架構層面的固有不足。

生成式 Critic:讓價值估計變得可推理

既然判別式架構存在本質(zhì)局限,一個自然的問題是:換成生成式會怎樣?

生成式 Critic 的核心思路是:不直接輸出一個標量,而是先使用思維鏈推理,再給出價值的估計。這一思路與生成式獎勵模型有相通之處,后者已在多項工作中被驗證具有更強的魯棒性和泛化能力。從理論上看,顯式的推理鏈可以有效提升模型的表達能力,從而繞過 TC?的表達能力上界約束,為價值建模開辟新的空間。

但價值建模比獎勵建模面臨更深層的挑戰(zhàn):價值是與當前策略深度綁定的。同一個中間狀態(tài),對于能力較弱的策略而言可能價值很高,而對于能力更強的策略則已不值一提。獎勵模型無需感知策略,但價值模型必須「知道自己在評估誰」。這一挑戰(zhàn)在一個具體對比中體現(xiàn)得格外清晰:生成式獎勵模型的訓練通常以蒸餾強大的通用模型為起點,但對于價值建模而言,并不存在天然的「價值先知」可供蒸餾。

研究者發(fā)現(xiàn),即便是能力極強的通用大模型例如 GPT-5,直接被用作價值模型時,其擬合誤差甚至遠不如判別式 Critic。原因正在于它對被評估的策略一無所知,無從判斷同一狀態(tài)對當前策略意味著什么。

為此,研究者引入了上下文條件注入(In-Context Conditioning)機制:在每次 Critic 推理時,將當前策略的模型規(guī)模與實時更新的滑動平均成功率一并注入上下文,使 Critic 能夠感知并基于當前策略的能力水平開展分析。消融實驗表明,這一簡單機制能夠有效降低價值估計誤差。



在訓練流程上,由于缺乏可供直接蒸餾的高質(zhì)量標注,研究者設計了包含 SFT 和 RL 的兩階段價值預訓練方案。SFT 階段作為熱身,幫助模型建立以估計價值為目標的基本推理模式;RL 階段則通過真實獎勵信號對初始偏差進行矯正,將推理能力真正落地到準確的價值估計上。經(jīng)過這兩階段預訓練的生成式 Critic,可以作為可靠組件進入與策略的聯(lián)合 RL 訓練。

實驗與分析

研究者將使用生成式 critic 的 PPO 命名為 GenAC,在數(shù)學推理任務上展開了實驗,并通過 6 個評測標準進行深度評測。為了比較價值函數(shù)的影響,研究者比較了使用判別式 Critic 的 VC-PPO,以及兩種主流的無 Value 方法 GRPO 和 RLOO。



GenAC 以 51.90% 的平均準確率領先所有基準方法。從訓練動態(tài)來看,價值建模本身就能帶來顯著優(yōu)勢:VC-PPO 與 GenAC 在訓練早期均表現(xiàn)出更高的樣本效率,模型能力迅速提升,而無 Value 方法由于細粒度信用分配的缺失,早期學習相對緩慢。然而,VC-PPO 的領先優(yōu)勢隨著訓練推進而逐漸收窄,最終收斂表現(xiàn)與無 Value 方法相差無幾;GenAC 則截然不同,不僅始終保持領先,與其他方法的差距還在訓練后期持續(xù)擴大。

是否進行價值建模影響的是早期的學習速率,而 Critic 的質(zhì)量則決定訓練能走多遠。



那么,生成式與判別式 Critic 之間的差異,究竟通過什么機制傳導到最終的 RL 效果上?研究者從擬合誤差之外的角度進一步展開分析。



首先是相對排名實驗:針對相同狀態(tài)的一組候選片段,Critic 需要識別出哪個候選的價值最高。隨著候選數(shù)量增加,生成式 Critic 的排名準確率輕微下降,而判別式 Critic 則明顯退化。這意味著在區(qū)分相近候選的細微優(yōu)劣時,生成式 Critic 能給出更可靠的相判斷,而優(yōu)勢估計的精度正是依賴于此。

其次是分布外泛化實驗:要求 Critic 對分布外數(shù)據(jù)源的價值函數(shù)進行估計。生成式 Critic 的誤差相比判別式基線大幅下降,且分布偏移越大,兩者的差距越懸殊。這說明生成式 Critic 具有更強的泛化能力,當策略通過探索進入新狀態(tài)時,它依然能夠給出可靠的信用分配,在關鍵的探索數(shù)據(jù)上保持有效的學習。

最后是定性分析:Critic 需要通過價值估計反映思維鏈中出現(xiàn)的錯誤。在這個例子中,判別式 Critic 在錯誤步驟前后的價值估計沒有明顯區(qū)別,而生成式 Critic 明確指出了錯誤,并基于此給出了更低的價值估計。這種細粒度的錯誤定位能力,正是精準信用分配在單步層面的直接體現(xiàn)。



結語

價值模型的失敗,從來不是價值建模這一思路本身有問題,而是判別式架構的先天局限,使一個具有潛力的想法難以落地。生成式 Critic 通過引入顯式推理、策略感知和穩(wěn)健的兩階段訓練,重新展示了細粒度信用分配在 LLM 強化學習中的可行性。隨著推理模型與 Agent 任務的持續(xù)推進,信用分配的質(zhì)量只會變得越來越關鍵。這件事值得被認真對待,而 GenAC 展示了一條可行的路徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
可靠耐用+AI全能,惠普戰(zhàn)66 2025銳龍版深度體驗

可靠耐用+AI全能,惠普戰(zhàn)66 2025銳龍版深度體驗

電腦報
2026-04-27 16:41:46
形勢有多嚴峻?曾經(jīng)的王牌專業(yè)涼了!輔導員和教授感到無力和沉重

形勢有多嚴峻?曾經(jīng)的王牌專業(yè)涼了!輔導員和教授感到無力和沉重

慧翔百科
2026-05-09 11:34:26
以游客身份入境,未經(jīng)許可拍攝!8名中國人在泰國拍短劇被捕

以游客身份入境,未經(jīng)許可拍攝!8名中國人在泰國拍短劇被捕

大象新聞
2026-05-09 13:54:19
華為Pura 90系列:橘色海面下,深邃的影像底蘊

華為Pura 90系列:橘色海面下,深邃的影像底蘊

愛范兒
2026-04-20 18:42:35
外賣小哥冒死沖進火場救火 被物業(yè)收取50元“滅火器使用費”

外賣小哥冒死沖進火場救火 被物業(yè)收取50元“滅火器使用費”

閃電新聞
2026-05-09 09:31:06
昨晚漲到想辭職了

昨晚漲到想辭職了

販財局
2026-05-09 09:21:00
美股要崩了嗎?復盤一下2000年互聯(lián)網(wǎng)泡沫破滅

美股要崩了嗎?復盤一下2000年互聯(lián)網(wǎng)泡沫破滅

公子豹
2026-05-09 11:51:17
世體:巴薩更衣室多數(shù)認為巴爾韋德是主責,因其歷來輸不起

世體:巴薩更衣室多數(shù)認為巴爾韋德是主責,因其歷來輸不起

懂球帝
2026-05-09 14:05:18
臺積電的美國亞利桑那廠已悄然失敗,400億美元燒完,良率不到日本廠一半

臺積電的美國亞利桑那廠已悄然失敗,400億美元燒完,良率不到日本廠一半

風向觀察
2026-05-09 13:29:53
舉報一個查一個!耿同學舉報3位大學院長和教授,同濟院長被免職還差南開和中山

舉報一個查一個!耿同學舉報3位大學院長和教授,同濟院長被免職還差南開和中山

可達鴨面面觀
2026-05-07 13:03:19
急瘋了!國際足聯(lián)三降轉(zhuǎn)播費求央視,6200萬紅線絕不退讓

急瘋了!國際足聯(lián)三降轉(zhuǎn)播費求央視,6200萬紅線絕不退讓

黑鷹觀軍事
2026-05-08 15:32:42
高盛:A股將漲到5300點,高盛重倉26股又漲停。這波被外資賺走了

高盛:A股將漲到5300點,高盛重倉26股又漲停。這波被外資賺走了

風風順
2026-05-09 07:33:45
19歲戀老渣男同居7年,46歲臉腫發(fā)福似蔡明

19歲戀老渣男同居7年,46歲臉腫發(fā)福似蔡明

楓塵余往逝
2026-05-09 13:43:55
許家印認罪10天后,“保護傘”終于被扒出,誰都別想跑!

許家印認罪10天后,“保護傘”終于被扒出,誰都別想跑!

歷史偉人錄
2026-05-08 17:54:57
安徽一女老師點外賣,發(fā)現(xiàn)騎手是曾經(jīng)的學生:兼職賺錢,肯努力的人,永遠都在發(fā)光

安徽一女老師點外賣,發(fā)現(xiàn)騎手是曾經(jīng)的學生:兼職賺錢,肯努力的人,永遠都在發(fā)光

瀟湘晨報
2026-05-09 15:49:26
抓了那么多貪官,錢呢?跟我們有關系嗎?

抓了那么多貪官,錢呢?跟我們有關系嗎?

細說職場
2026-05-08 22:15:45
捷豹路虎:產(chǎn)品定義高度,公益決定溫度

捷豹路虎:產(chǎn)品定義高度,公益決定溫度

Report汽車
2026-04-29 14:16:30
最新戰(zhàn)報!吳宜澤破百沖賽點,3-1領先希金斯,劍指世錦賽后首勝

最新戰(zhàn)報!吳宜澤破百沖賽點,3-1領先希金斯,劍指世錦賽后首勝

劉姚堯的文字城堡
2026-05-09 16:00:48
官僚主義最陰狠的套路:把所有風險,砸向最底層

官僚主義最陰狠的套路:把所有風險,砸向最底層

職場資深秘書
2026-05-08 20:44:41
大快人心!中國民航新規(guī)出爐:日本航空過境中國好日子即將到頭!

大快人心!中國民航新規(guī)出爐:日本航空過境中國好日子即將到頭!

影像溫度
2026-05-09 10:27:26
2026-05-09 18:20:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12956文章數(shù) 142646關注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協(xié)議

頭條要聞

韓巨頭上演史無前例造富狂歡 員工人均將分320萬獎金

頭條要聞

韓巨頭上演史無前例造富狂歡 員工人均將分320萬獎金

體育要聞

成立128年后,這支升班馬首奪頂級聯(lián)賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出!

財經(jīng)要聞

存儲芯片上演造富潮

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態(tài)度原創(chuàng)

數(shù)碼
本地
手機
游戲
公開課

數(shù)碼要聞

當貝2S Ultra:AI智養(yǎng)+干濕分離+全色域燈,養(yǎng)魚一步到位

本地新聞

用蘇繡的方式,打開江西婺源

手機要聞

小米澎湃OS 3上線2026母親節(jié)限定水印

NS2漲價爭議洶洶!老任難堪:會用游戲質(zhì)量證明自己

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版