国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ACL 2026 | 中科大&上海AILab揭示強化學(xué)習(xí)后訓(xùn)練的Scaling Law

0
分享至



從 DeepSeek-R1 到 Kimi K2.5,強化學(xué)習(xí)(RL)后訓(xùn)練已經(jīng)成為提升大模型推理能力的核心手段。

但一個關(guān)鍵問題始終懸而未決:RL 后訓(xùn)練的 Scaling 行為到底遵循什么規(guī)律?能否像預(yù)訓(xùn)練 Scaling Law 那樣,給定模型參數(shù)量、計算預(yù)算和數(shù)據(jù)量,就能定量預(yù)測 RL 后訓(xùn)練所能達到的性能?又能否像預(yù)訓(xùn)練 Scaling Law 那樣,為實踐者指明一條清晰的擴展路徑?

來自中國科學(xué)技術(shù)大學(xué)和上海人工智能實驗室等機構(gòu)的研究團隊給出了系統(tǒng)性的回答。團隊在 Qwen2.5 全系列密集模型(0.5B–72B)上開展了大規(guī)模 RL 訓(xùn)練實證研究,并在 Llama 3 系列(1B–70B)上完成了跨架構(gòu)驗證,首次全面刻畫了大模型強化學(xué)習(xí)后訓(xùn)練在數(shù)學(xué)推理任務(wù)上的 Scaling 行為,提出了一套能夠預(yù)測模型學(xué)習(xí)效率與訓(xùn)練軌跡的冪律公式。

目前該工作已被 ACL 2026 主會議接收。



  • 論文地址:https://arxiv.org/abs/2509.25300
  • 代碼鏈接:https://github.com/tanzelin430/Mathematical-Reasoning-RL-Scaling-Law
  • 數(shù)據(jù)集:https://huggingface.co/datasets/Artemis0430/GURU-MATH-CL

預(yù)訓(xùn)練有 Scaling Law,RL 后訓(xùn)練呢?

Scaling Law 的故事并不陌生。OpenAI 早在 2020 年便揭示了預(yù)訓(xùn)練階段的 Scaling 法則,證明模型性能隨參數(shù)量、數(shù)據(jù)量和計算量的增長呈現(xiàn)可預(yù)測的冪律關(guān)系,奠定了現(xiàn)代大模型「規(guī)模即力量」的范式基礎(chǔ)。

然而,當(dāng)訓(xùn)練范式從預(yù)訓(xùn)練 / 監(jiān)督微調(diào)階段延伸到強化學(xué)習(xí)后訓(xùn)練時,這套 Scaling 規(guī)律便難以直接套用。RL 的核心目標(biāo)是通過策略優(yōu)化來最大化獎勵,而非最小化 next-token prediction 的交叉熵損失,其訓(xùn)練動態(tài)、數(shù)據(jù)利用方式和計算消耗模式都與預(yù)訓(xùn)練有著本質(zhì)區(qū)別。

這意味著,要理解 RL 后訓(xùn)練的 Scaling 行為,需要回到實驗中去,重新建立屬于 RL 自身的經(jīng)驗規(guī)律。

研究團隊選擇數(shù)學(xué)推理作為實驗平臺,原因在于數(shù)學(xué)任務(wù)具有天然的答案可驗證性,能夠為 RL 提供精確的獎勵信號,是當(dāng)前 RL 后訓(xùn)練最成熟的基準(zhǔn)場景。在此基礎(chǔ)上,團隊圍繞計算受限、數(shù)據(jù)受限和數(shù)據(jù)重用三種典型場景展開了大規(guī)模受控實驗。

實驗設(shè)計與評測框架

為確保結(jié)論的魯棒性,研究團隊在實驗設(shè)計上做了充分的控制。

模型方面,主實驗覆蓋了 Qwen2.5 全系列 Dense 模型(0.5B 至 72B),共享相同架構(gòu),確保模型規(guī)模是唯一變量。

同時,為了保證 Scaling Law 的通用性,研究人員還在 Llama 3 系列(1B 至 70B)上進行了跨架構(gòu)驗證。訓(xùn)練統(tǒng)一采用 VeRL 分布式 RL 平臺和 GRPO 算法,每個配置重復(fù) 3 次,覆蓋 Base 和 Instruct 兩種模型變體,以保證統(tǒng)計可靠性。

訓(xùn)練數(shù)據(jù)來自 guru-RL-92k 數(shù)據(jù)集的數(shù)學(xué)子集(約 5.4 萬道題,由 OR1、DeepScaler、DAPO 三個數(shù)據(jù)集組成),按難度排序?qū)崿F(xiàn)課程學(xué)習(xí)。

評測方面,研究團隊定義測試損失 L = 1 - Pass@1 作為核心指標(biāo),以期與預(yù)訓(xùn)練 Scaling Law 文獻中的 test loss 概念對齊。域內(nèi)評測基于 500 道保持原始難度分布的數(shù)學(xué)題用于擬合 Scaling Law,跨領(lǐng)域評測則覆蓋數(shù)學(xué)、代碼、邏輯、科學(xué)等 8 個 benchmark 共約 3000 道題。

基于這套實驗框架,研究團隊得到了三個關(guān)鍵發(fā)現(xiàn)。

核心發(fā)現(xiàn)

發(fā)現(xiàn)一:具有 RL 性能預(yù)測能力 Scaling Law

研究的核心發(fā)現(xiàn)是一個簡潔而強大的 scaling 公式。模型的測試損失 L 與訓(xùn)練資源 X(計算量 C 或數(shù)據(jù)量 D)之間存在對數(shù)線性關(guān)系:



其中,k (N) 是模型在強化學(xué)習(xí)后訓(xùn)練階段的學(xué)習(xí)效率,它隨模型參數(shù)量 N 單調(diào)遞增。

實驗表明,該 Scaling 公式不僅能高精度擬合已有數(shù)據(jù)(R2 > 0.99),并且具備實際的預(yù)測能力,具體體現(xiàn)在兩個方面。

  • 跨模型外推(Inter-model Extrapolation):該 Scaling Law 支持利用小參數(shù)量模型的訓(xùn)練數(shù)據(jù)來預(yù)測更大參數(shù)量模型的訓(xùn)練軌跡。以本文為例,研究人員基于 0.5B 至 32B 模型的實驗數(shù)據(jù)擬合公式參數(shù)后,可直接預(yù)測 72B 模型的完整訓(xùn)練曲線,且預(yù)測所得的學(xué)習(xí)效率等關(guān)鍵指標(biāo)與 72B 模型的實際表現(xiàn)高度吻合。

這意味著,研究人員只需通過小模型實驗,便能預(yù)判大模型的訓(xùn)練走向,從而大幅降低試錯成本。



圖 (1).Scaling Law 的擬合與跨模型外推能力

  • 訓(xùn)練軌跡預(yù)測(Intra-model Prediction):該 Scaling Law 同樣支持對單一模型訓(xùn)練過程的走勢預(yù)測。研究人員僅需使用訓(xùn)練早期約 20%–30% 的數(shù)據(jù)點,便可準(zhǔn)確外推出模型在完整數(shù)據(jù)集上的最終收斂性能。

這意味著,無需等待訓(xùn)練全程結(jié)束,研究人員便能大致預(yù)判模型的收斂走向,從而為訓(xùn)練過程中的資源分配與早停決策提供直接的指導(dǎo)依據(jù),有效降低不必要的算力消耗。





圖 (2).Scaling Law 的擬合與模型內(nèi)軌跡預(yù)測能力

需要特別指出的是,這一公式在 Compute(C)和 Data(D)兩個維度上具有統(tǒng)一的函數(shù)形式,即無論以算力還是數(shù)據(jù)量作為自變量,性能的 scaling 行為都遵循相同的數(shù)學(xué)結(jié)構(gòu)。這種理論一致性為公式的可靠性提供了額外支撐。

發(fā)現(xiàn)二:學(xué)習(xí)效率的飽和趨勢

為了更精確的研究 Scaling Law,研究團隊對強化學(xué)習(xí)效率 k (N) 也進行了大量實證分析。

研究發(fā)現(xiàn),更大的模型的確會學(xué)得更快。從 0.5B 到 72B,學(xué)習(xí)效率系數(shù) k (N) 持續(xù)增長。但關(guān)鍵在于:這種增長并非線性的,而是逐漸趨于飽和。據(jù)此現(xiàn)象,研究團隊將強化學(xué)習(xí)的學(xué)習(xí)效率 k (N) 建模為







圖 (3). 強化學(xué)習(xí)后訓(xùn)練的學(xué)習(xí)效率隨模型參數(shù)量的變化趨勢

這在實驗中表現(xiàn)為一個有趣的「性能交叉」現(xiàn)象,如圖 1.(a) 所示,在等量計算預(yù)算下,32B 模型在訓(xùn)練初期的表現(xiàn)甚至優(yōu)于 72B,因為更小的模型在相同計算量下能完成更多訓(xùn)練步數(shù)。

研究團隊認為該現(xiàn)象揭示了一個關(guān)鍵的隱性權(quán)衡,即在計算受限的場景下,盲目堆大模型未必是最優(yōu)策略。在有限預(yù)算內(nèi),找到模型規(guī)模和訓(xùn)練步數(shù)之間的平衡點,可能比簡單地選擇最大模型更為明智。這一發(fā)現(xiàn)為 RL 后訓(xùn)練的資源分配提供了重要的定量依據(jù)。

發(fā)現(xiàn)三:數(shù)據(jù)重用是有效策略

在探究 Scaling Law 之外,團隊還對在 RL 中一個非常實際的問題進行了探究:反復(fù)使用同一批數(shù)據(jù)訓(xùn)練效果如何?數(shù)據(jù)重用是否會對訓(xùn)練軌跡和最終性能造成顯著影響?





圖 (4). 數(shù)據(jù)重用對強化學(xué)習(xí)訓(xùn)練軌跡的影響



研究團隊證實,在高質(zhì)量推理數(shù)據(jù)有限的場景下,適度的數(shù)據(jù)重用是一種低成本、高回報的訓(xùn)練策略。無需費力搜集更多數(shù)據(jù),反復(fù)利用現(xiàn)有的高質(zhì)量數(shù)據(jù)即可獲得接近等價的訓(xùn)練效果,且不會對訓(xùn)練軌跡造成明顯的偏差。

Scaling Law 的跨架構(gòu)驗證

以上發(fā)現(xiàn)均基于 Qwen2.5 系列。一個自然的問題是:這些 scaling 行為是特定架構(gòu)的產(chǎn)物,還是 RL 后訓(xùn)練的普遍規(guī)律?

為此,研究團隊在Llama 3 模型族(Llama-3.2-1B/3B-Instruct、Llama-3.1-8B/70B-Instruct)上重復(fù)了完整實驗。

結(jié)果表明,同一冪律公式在 Llama 上同樣成立,且擬合后與實際訓(xùn)練數(shù)據(jù)點的 R2 > 0.99。盡管 Llama 在訓(xùn)練后的絕對性能上低于 Qwen,但scaling 關(guān)系的函數(shù)形式完全一致,k (N) 的飽和趨勢也保持不變。



圖 (5).Scaling Law 在 Llama 系列模型上的擬合效果

這一跨架構(gòu)驗證確認了研究團隊所揭示的 Scaling Law 刻畫的是 RL 后訓(xùn)練優(yōu)化過程本身的內(nèi)在規(guī)律,而非特定模型架構(gòu)的特性。無論底層架構(gòu)如何,只要采用相同的 RL 后訓(xùn)練范式,性能的 scaling 行為就遵循統(tǒng)一的數(shù)學(xué)描述。

總結(jié)

這項工作的核心貢獻在于,通過對 Qwen2.5 和 Llama 3 兩個模型家族上的所有參數(shù)量級模型進行實證分析,為 RL 后訓(xùn)練建立了系統(tǒng)性的 scaling 理論框架,并給出了可預(yù)測強化學(xué)習(xí)訓(xùn)練軌跡的數(shù)學(xué)公式(Scaling Law)。

對于正在用 RL 提升大模型推理能力的研究者和工程師來說,這篇論文提供了一套可量化、可預(yù)測、可指導(dǎo)實踐的分析框架。而效率飽和這一發(fā)現(xiàn),也在提醒我們:scale up 是有力的手段,但不是萬能的,理解 scaling 的邊界,才能更聰明地 scale。

作者介紹

本文由中國科學(xué)技術(shù)大學(xué)聯(lián)合上海人工智能實驗室、牛津大學(xué)等多家機構(gòu)研究者合作完成。主要作者為上海人工智能實驗室聯(lián)培博士譚澤霖、牛津大學(xué)研究員耿鶴嘉等。其中論文第一作者譚澤霖是中科大與上海人工智能實驗室聯(lián)合培養(yǎng)博士生,其研究方向主要為智能體強化學(xué)習(xí)和機器學(xué)習(xí)系統(tǒng)。導(dǎo)師為白磊研究員,該篇文章由上海人工智能實驗室青年研究員張晨、牛津大學(xué)博后尹榛菲博士聯(lián)合執(zhí)導(dǎo)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
以色列前總理貝內(nèi)特:伊朗實質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來 | 伊朗的反應(yīng)為何如此激烈

偉偉道來 | 伊朗的反應(yīng)為何如此激烈

經(jīng)濟觀察報
2026-05-06 11:40:46
吳宜澤透露拿到獎金后準(zhǔn)備在英國買房,50萬英鎊獎金需交稅超23萬鎊,實際到手約26.5萬鎊

吳宜澤透露拿到獎金后準(zhǔn)備在英國買房,50萬英鎊獎金需交稅超23萬鎊,實際到手約26.5萬鎊

大風(fēng)新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個隱私,是性感嗎?

女性跑步:暴露這個隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠的大哥

吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠的大哥

懂球帝
2026-05-05 19:39:09
在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個人,沒一個在出現(xiàn)場

在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個人,沒一個在出現(xiàn)場

侃故事的阿慶
2026-05-06 09:21:32
被延長的搶救時間,被卡住的工傷認定

被延長的搶救時間,被卡住的工傷認定

新京報
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動筷子

畫夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說故事的阿襲
2026-05-05 20:20:30
8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價報價就接

伯納烏大地震!皇馬放話出售姆巴佩,天價報價就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當(dāng)?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報
2026-05-06 12:38:05
中美同時向全球下達禁令,各國都傻眼了!美媒:中國此舉史無前例

中美同時向全球下達禁令,各國都傻眼了!美媒:中國此舉史無前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

男子購百萬保險被邀免費游老撾 花數(shù)十萬買"熊膽"心虛

頭條要聞

男子購百萬保險被邀免費游老撾 花數(shù)十萬買"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財經(jīng)要聞

人形機器人七小龍:誰真能賣 誰在講故事?

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

健康
手機
數(shù)碼
游戲
教育

干細胞治燒燙傷面臨這些“瓶頸”

手機要聞

谷歌推送5月Pixel手機更新,修復(fù)無線充電慢、相機卡死等問題

數(shù)碼要聞

七彩虹戰(zhàn)斧B860M超級黑刃主板圖賞:899元的“千元旗艦”

掌控陰陽挑戰(zhàn)圣山!《生肖山Zodiac Mountain》登陸Steam牌組構(gòu)建游戲節(jié)

教育要聞

六條邏輯主線替代四個大概念,反映了怎樣的理念? | 高中課標(biāo)修訂解讀⑥

無障礙瀏覽 進入關(guān)懷版