国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

RL是「點金石」還是「挖掘機」?CMU 用可控實驗給出答案

金石探文明

0
分享至




機器之心報道

機器之心編輯部

近期,強化學習(RL)技術在提升語言模型的推理能力方面取得了顯著成效。

然而,后訓練究竟是真正擴展了模型的推理能力,還是僅僅挖掘了預訓練中已有的潛力?目前尚不明確。

一個核心挑戰(zhàn)在于現(xiàn)代訓練流程缺乏可控性:大規(guī)模預訓練語料庫不夠透明,中期訓練往往缺乏充分研究,且 RL 目標函數(shù)與未知的先驗知識之間存在復雜的交互作用。

為了回答這個問題,來自卡耐基梅隆大學(CMU)的研究者通過構(gòu)建基于 GSM-Infinite 的可控合成數(shù)據(jù)框架,在完全解耦的環(huán)境下,定量分析了預訓練、Mid-training(中期訓練/CPT)和 RL 三者對模型推理泛化能力的因果影響。旨在剝離并獨立分析預訓練、中期訓練以及基于 RL 的后訓練各自的因果貢獻。



https://x.com/xiangyue96/status/1998488030836044112

研究者從兩個維度對模型進行評估:針對更復雜組合的外推泛化能力,以及跨越不同表層語境的情境泛化能力。利用該框架,研究者調(diào)和了關于 RL 有效性的不同觀點。

研究表明:

  • 僅當預訓練留有足夠提升空間,且 RL 數(shù)據(jù)針對模型的能力邊界(即那些雖具難度但尚未超出模型能力范圍的任務)時,RL 才能帶來真正的能力增益(pass@128)。
  • 情境泛化需要極少但充分的預訓練接觸,在此之后 RL 便能實現(xiàn)可靠的遷移。
  • 在固定計算量下,相比于僅使用 RL,中期訓練能顯著提升性能,證明了其在訓練流程中處于核心地位卻未被充分探索。
  • 過程級獎勵能減少獎勵破解(Reward Hacking)現(xiàn)象并提高推理的忠實度。



  • 論文標題:On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
  • 論文地址:https://arxiv.org/abs/2512.07783
  • Github:https://github.com/Interplay-LM-Reasoning/Interplay-LM-Reasoning
  • HuggingFace:https://huggingface.co/Interplay-LM-Reasoning

綜上所述,這些結(jié)果闡明了預訓練、中期訓練和 RL 之間的相互作用,為理解和改進推理語言模型的訓練策略奠定了基礎。

該工作登上了 Alphaxiv 榜一。



同時該工作在 AI 社區(qū)收獲了一大波好評,ViT 作者之一 Lucas Beyer 也現(xiàn)身評論區(qū)。



核心方法:

完全可控的實驗沙盒

為了從因果層面解構(gòu)大模型的推理能力來源,研究團隊并未直接使用現(xiàn)有的黑盒大模型或不可知的互聯(lián)網(wǎng)語料,而是設計了一套嚴密的可控合成數(shù)據(jù)框架。該框架基于 GSM-Infinite 生成技術,旨在從源頭控制數(shù)據(jù)分布、推理深度與語境廣度。



數(shù)據(jù)生成框架與任務設置概覽

基于依賴圖(DAG)的數(shù)據(jù)生成

該框架的核心理念是將「推理結(jié)構(gòu)」與「表面語境」完全解耦。



語境渲染:在確定了推理骨架后,系統(tǒng)通過應用不同的「語境模板」(如動物園、學校等場景),將抽象的數(shù)學圖渲染為自然語言問題。這種分離使得研究者能夠考察模型是真正學會了推理邏輯,還是僅僅記住了特定的文本模式。

三階段訓練流程的嚴格隔離

為了避免數(shù)據(jù)污染導致的評估偏差,研究者定義了三個互不重疊的訓練階段,并在各階段精確調(diào)配數(shù)據(jù)分布:

  • 預訓練:使用 10B token 的數(shù)據(jù),主要包含基礎的推理原語(Primitives)和規(guī)則。重點在于讓模型掌握基礎能力(op=2-10),同時保留更深層任務作為未見過的測試集。
  • 中期訓練:這是一個連接預訓練與 RL 的「橋梁」階段。它使用與 RL 階段相似的數(shù)據(jù)分布(即模型能力邊緣的數(shù)據(jù)),旨在對齊模型的內(nèi)部表征,使其做好「RL 就緒(RL-ready)」的準備。
  • 后訓練(Post-training / RL):采用 GRPO 算法,針對特定的任務難度和語境進行強化學習,以探索模型在特定獎勵信號下的能力邊界。

過程級驗證評估

為了防止模型「猜對答案」或通過錯誤的推理路徑得出正確結(jié)果(即 Reward Hacking),該研究引入了過程級驗證。系統(tǒng)不僅檢查最終答案,還會解析模型生成的思維鏈,將其還原為依賴圖,并與真實的一步步推理過程(Ground Truth DAG)進行比對。只有當推理步驟和最終答案全對時,才被判定為通過。

解構(gòu)能力涌現(xiàn)的四個關鍵發(fā)現(xiàn)

基于上述框架,研究者進行了一系列控制變量實驗,得出了關于 RL、預訓練和中期訓練相互作用的四個關鍵結(jié)論,有力地調(diào)和了學術界關于「RL 是否能創(chuàng)造新能力」的爭議。

RL 的效用取決于「能力邊緣」

RL 并非在任何情況下都能提升推理能力。

對于預訓練中已充分掌握的簡單任務,RL 只能提升 pass@1(即減少失誤),無法提升模型的上限(pass@128)。

真正的能力躍遷發(fā)生在模型「能力邊緣」的任務上(例如預訓練覆蓋了 op=2-10,RL 針對 op=11-14)。在這一區(qū)間,RL 能夠通過探索帶來顯著的外推性泛化增益。如果任務難度過大(op=15-20),超出了模型的探索范圍,RL 的收益也會消失。

因此,RL 的訓練數(shù)據(jù)必須經(jīng)過精心校準,瞄準模型的「能力邊緣」,既不能太簡單也不能太難。



不同難度任務下的 RL 表現(xiàn)

泛化的種子:1% 的預訓練暴露至關重要

在考察模型能否將推理能力遷移到全新語境時,研究發(fā)現(xiàn),如果預訓練中完全沒有接觸過某種長尾語境(0%),即便 RL 階段大量訓練,模型也無法實現(xiàn)有效遷移。



因此,RL 無法無中生有,它需要預訓練提供最基礎的「原語」作為抓手。



預訓練數(shù)據(jù)混合比例對情境泛化的影響

中期訓練是計算效率的關鍵杠桿

在固定的計算預算(Compute Budget)下,如何分配中期訓練和 RL 的比例?

Mid-Training + RL > Pure RL:引入中期訓練階段比單純增加 RL 步數(shù)效果更好。

分配策略:實驗表明,對于極難任務(OOD-Hard),「少量中期訓練(建立先驗)+ 大量 RL(深度探索)」的組合是最佳策略;而對于中等難度任務,增加中期訓練的比重能帶來更穩(wěn)定的 pass@1 表現(xiàn)。

中期訓練起到了「分布橋梁」的作用,極大地提升了 RL 的樣本效率和最終性能上限。



不同算力分配策略下的性能對比

過程獎勵抑制投機取巧

針對 RL 常見的獎勵破解問題——即模型利用捷徑獲取高分但推理邏輯錯誤,研究引入了過程監(jiān)督。

實驗數(shù)據(jù)表明,將稀疏的結(jié)果獎勵與密集的過程獎勵相結(jié)合,能顯著減少結(jié)構(gòu)性錯誤(如遺漏步驟或依賴關系錯誤)。這種混合獎勵機制在長鏈條推理任務($op=15\text{-}20$)中帶來了穩(wěn)定的 pass@1 提升。

過程級信號能夠規(guī)范 RL 的搜索方向,確保能力的提升是建立在忠實推理基礎之上的。



不同獎勵機制的效果對比

結(jié)語

這項工作通過解構(gòu)訓練流程,給出了明確的實踐指導:

RL 數(shù)據(jù)設計:應針對模型的「能力邊緣」構(gòu)建數(shù)據(jù)集,不要浪費算力在過易或過難的任務上。

預訓練策略:必須確保長尾領域的原子能力(Primitives)有至少 1% 的覆蓋率,為 RL 留出接口。

算力分配:根據(jù)目標任務的難度,動態(tài)調(diào)整中期訓練與 RL 的比例。攻克難題需要更多 RL,提升穩(wěn)定性需要更多中期訓練。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
菲律賓和廣東同為1億多人口,菲律賓創(chuàng)造3.3萬億,廣東是多少?

菲律賓和廣東同為1億多人口,菲律賓創(chuàng)造3.3萬億,廣東是多少?

傲傲講歷史
2025-09-27 16:59:25
1976年9月8日深夜,一通電話讓華國鋒臉色鐵青,連國宴都沒顧上就跑了,緊接著拋出的三個難題,差點讓政治局吵翻天

1976年9月8日深夜,一通電話讓華國鋒臉色鐵青,連國宴都沒顧上就跑了,緊接著拋出的三個難題,差點讓政治局吵翻天

寄史言志
2025-12-18 19:09:15
王勵勤向現(xiàn)實妥協(xié)!公布選聘國乒領導崗位條件,排除一類特殊人才

王勵勤向現(xiàn)實妥協(xié)!公布選聘國乒領導崗位條件,排除一類特殊人才

三十年萊斯特城球迷
2025-12-20 20:37:47
確定了!2026春節(jié)放假方案:3個好消息,1個壞消息,早了解早準備

確定了!2026春節(jié)放假方案:3個好消息,1個壞消息,早了解早準備

知法而形
2025-12-20 13:43:50
浙江廣廈VS上海男籃!王博拒絕輸球,洛夫頓確定出戰(zhàn),CCTV5直播

浙江廣廈VS上海男籃!王博拒絕輸球,洛夫頓確定出戰(zhàn),CCTV5直播

體壇瞎白話
2025-12-20 16:06:54
愛德華茲:我曾在比賽中偷拍了幾張庫里的照片,去tm的規(guī)定

愛德華茲:我曾在比賽中偷拍了幾張庫里的照片,去tm的規(guī)定

懂球帝
2025-12-20 09:50:13
腿粗肚子大別亂穿,白色T恤搭配瑜伽褲,輕松穿出婀娜曲線

腿粗肚子大別亂穿,白色T恤搭配瑜伽褲,輕松穿出婀娜曲線

小喬古裝漢服
2025-12-19 19:04:33
中央安全生產(chǎn)考核巡查組在吉林省發(fā)現(xiàn):城鎮(zhèn)燃氣安全基礎弱 自建房改建養(yǎng)老機構(gòu)隱患多

中央安全生產(chǎn)考核巡查組在吉林省發(fā)現(xiàn):城鎮(zhèn)燃氣安全基礎弱 自建房改建養(yǎng)老機構(gòu)隱患多

環(huán)球網(wǎng)資訊
2025-12-20 11:47:11
10分復仇卻難言開心!山東贏得丑陋,邱彪難逃其咎,1人快退貨吧

10分復仇卻難言開心!山東贏得丑陋,邱彪難逃其咎,1人快退貨吧

萌蘭聊個球
2025-12-20 21:49:04
李小璐寫真生圖高清

李小璐寫真生圖高清

翩翩明星
2025-11-14 09:39:36
德媒:樊振東是德甲歷史最偉大超巨,引發(fā)乒乓熱+帶動德國提升

德媒:樊振東是德甲歷史最偉大超巨,引發(fā)乒乓熱+帶動德國提升

大昆說臺球
2025-12-20 21:37:33
鄭曉燕、李舜涉嫌嚴重違紀違法被查

鄭曉燕、李舜涉嫌嚴重違紀違法被查

彩云熱線
2025-12-20 10:42:18
張維為:美國已經(jīng)力不從心、經(jīng)濟在收縮、已經(jīng)面臨崩潰的邊緣!

張維為:美國已經(jīng)力不從心、經(jīng)濟在收縮、已經(jīng)面臨崩潰的邊緣!

翻開歷史和現(xiàn)實
2025-12-19 16:39:41
凌晨時分,一輛黑色轎車在杭州高速上逆行,民警火速攔截!司機回憶:她在途中回了條信息,慌亂之下走錯了方向

凌晨時分,一輛黑色轎車在杭州高速上逆行,民警火速攔截!司機回憶:她在途中回了條信息,慌亂之下走錯了方向

環(huán)球網(wǎng)資訊
2025-12-20 14:38:48
全場靜默,劉圣書/譚寧2局突然斷電,爆冷1-2負韓國組合無緣決賽

全場靜默,劉圣書/譚寧2局突然斷電,爆冷1-2負韓國組合無緣決賽

真理是我親戚
2025-12-20 20:07:48
CBA戰(zhàn)報:遼寧90-88險勝寧波,德茲明-威爾斯26+3+4

CBA戰(zhàn)報:遼寧90-88險勝寧波,德茲明-威爾斯26+3+4

懂球帝
2025-12-20 21:35:08
太絕了!這水果蒸完,喉嚨里的痰“嘩嘩”化,全家人都愛喝!

太絕了!這水果蒸完,喉嚨里的痰“嘩嘩”化,全家人都愛喝!

江江食研社
2025-12-16 08:30:06
普京嚴肅警告歐洲:沒收俄資產(chǎn)后果很嚴重

普京嚴肅警告歐洲:沒收俄資產(chǎn)后果很嚴重

參考消息
2025-12-19 21:29:13
劉青山被槍斃40年后,他親弟弟公開發(fā)言,對毛主席的決定作出評價

劉青山被槍斃40年后,他親弟弟公開發(fā)言,對毛主席的決定作出評價

浩渺青史
2025-11-30 22:29:18
深圳某高校亂象:假身份掌舵 + 千萬資產(chǎn)閑置

深圳某高校亂象:假身份掌舵 + 千萬資產(chǎn)閑置

星座的真相
2025-12-20 14:58:54
2025-12-20 22:27:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142514關注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

網(wǎng)友稱"燒傷超人阿寶"補繳稅款84萬余元 當事人發(fā)聲

頭條要聞

網(wǎng)友稱"燒傷超人阿寶"補繳稅款84萬余元 當事人發(fā)聲

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會陣容曝光,豪華陣仗

財經(jīng)要聞

求解“地方財政困難”

汽車要聞

嵐圖推進L3量產(chǎn)測試 已完成11萬公里實際道路驗證

態(tài)度原創(chuàng)

時尚
教育
藝術
家居
軍事航空

真愛大牌 || 用了5年才敢說,多虧它幫我守住了發(fā)際線

教育要聞

南京一校最新通知:部分學生違規(guī)帶手機入校,并在群內(nèi)傳播不文明不健康內(nèi)容

藝術要聞

新地標!溫州豎起一座“五指山”

家居要聞

高端私宅 理想隱居圣地

軍事要聞

澤連斯基:前線局勢愈發(fā)艱難

無障礙瀏覽 進入關懷版