ACL 2026 | 中科大&上海AILab揭示強化學(xué)習(xí)后訓(xùn)練的Scaling Law

2026-04-27 21:13:39　來源: 機器之心Pro

河北舉報

分享至

從 DeepSeek-R1 到 Kimi K2.5，強化學(xué)習(xí)（RL）后訓(xùn)練已經(jīng)成為提升大模型推理能力的核心手段。

但一個關(guān)鍵問題始終懸而未決：RL 后訓(xùn)練的 Scaling 行為到底遵循什么規(guī)律？能否像預(yù)訓(xùn)練 Scaling Law 那樣，給定模型參數(shù)量、計算預(yù)算和數(shù)據(jù)量，就能定量預(yù)測 RL 后訓(xùn)練所能達到的性能？又能否像預(yù)訓(xùn)練 Scaling Law 那樣，為實踐者指明一條清晰的擴展路徑？

來自中國科學(xué)技術(shù)大學(xué)和上海人工智能實驗室等機構(gòu)的研究團隊給出了系統(tǒng)性的回答。團隊在 Qwen2.5 全系列密集模型（0.5B–72B）上開展了大規(guī)模 RL 訓(xùn)練實證研究，并在 Llama 3 系列（1B–70B）上完成了跨架構(gòu)驗證，首次全面刻畫了大模型強化學(xué)習(xí)后訓(xùn)練在數(shù)學(xué)推理任務(wù)上的 Scaling 行為，提出了一套能夠預(yù)測模型學(xué)習(xí)效率與訓(xùn)練軌跡的冪律公式。

目前該工作已被 ACL 2026 主會議接收。

論文地址：https://arxiv.org/abs/2509.25300
代碼鏈接：https://github.com/tanzelin430/Mathematical-Reasoning-RL-Scaling-Law
數(shù)據(jù)集：https://huggingface.co/datasets/Artemis0430/GURU-MATH-CL

預(yù)訓(xùn)練有 Scaling Law，RL 后訓(xùn)練呢？

Scaling Law 的故事并不陌生。OpenAI 早在 2020 年便揭示了預(yù)訓(xùn)練階段的 Scaling 法則，證明模型性能隨參數(shù)量、數(shù)據(jù)量和計算量的增長呈現(xiàn)可預(yù)測的冪律關(guān)系，奠定了現(xiàn)代大模型「規(guī)模即力量」的范式基礎(chǔ)。

然而，當(dāng)訓(xùn)練范式從預(yù)訓(xùn)練 / 監(jiān)督微調(diào)階段延伸到強化學(xué)習(xí)后訓(xùn)練時，這套 Scaling 規(guī)律便難以直接套用。RL 的核心目標(biāo)是通過策略優(yōu)化來最大化獎勵，而非最小化 next-token prediction 的交叉熵損失，其訓(xùn)練動態(tài)、數(shù)據(jù)利用方式和計算消耗模式都與預(yù)訓(xùn)練有著本質(zhì)區(qū)別。

這意味著，要理解 RL 后訓(xùn)練的 Scaling 行為，需要回到實驗中去，重新建立屬于 RL 自身的經(jīng)驗規(guī)律。

研究團隊選擇數(shù)學(xué)推理作為實驗平臺，原因在于數(shù)學(xué)任務(wù)具有天然的答案可驗證性，能夠為 RL 提供精確的獎勵信號，是當(dāng)前 RL 后訓(xùn)練最成熟的基準(zhǔn)場景。在此基礎(chǔ)上，團隊圍繞計算受限、數(shù)據(jù)受限和數(shù)據(jù)重用三種典型場景展開了大規(guī)模受控實驗。

實驗設(shè)計與評測框架

為確保結(jié)論的魯棒性，研究團隊在實驗設(shè)計上做了充分的控制。

模型方面，主實驗覆蓋了 Qwen2.5 全系列 Dense 模型（0.5B 至 72B），共享相同架構(gòu)，確保模型規(guī)模是唯一變量。

同時，為了保證 Scaling Law 的通用性，研究人員還在 Llama 3 系列（1B 至 70B）上進行了跨架構(gòu)驗證。訓(xùn)練統(tǒng)一采用 VeRL 分布式 RL 平臺和 GRPO 算法，每個配置重復(fù) 3 次，覆蓋 Base 和 Instruct 兩種模型變體，以保證統(tǒng)計可靠性。

訓(xùn)練數(shù)據(jù)來自 guru-RL-92k 數(shù)據(jù)集的數(shù)學(xué)子集（約 5.4 萬道題，由 OR1、DeepScaler、DAPO 三個數(shù)據(jù)集組成），按難度排序?qū)崿F(xiàn)課程學(xué)習(xí)。

評測方面，研究團隊定義測試損失 L = 1 - Pass@1 作為核心指標(biāo)，以期與預(yù)訓(xùn)練 Scaling Law 文獻中的 test loss 概念對齊。域內(nèi)評測基于 500 道保持原始難度分布的數(shù)學(xué)題用于擬合 Scaling Law，跨領(lǐng)域評測則覆蓋數(shù)學(xué)、代碼、邏輯、科學(xué)等 8 個 benchmark 共約 3000 道題。

基于這套實驗框架，研究團隊得到了三個關(guān)鍵發(fā)現(xiàn)。

核心發(fā)現(xiàn)

發(fā)現(xiàn)一：具有 RL 性能預(yù)測能力 Scaling Law

研究的核心發(fā)現(xiàn)是一個簡潔而強大的 scaling 公式。模型的測試損失 L 與訓(xùn)練資源 X（計算量 C 或數(shù)據(jù)量 D）之間存在對數(shù)線性關(guān)系：

其中，k (N) 是模型在強化學(xué)習(xí)后訓(xùn)練階段的學(xué)習(xí)效率，它隨模型參數(shù)量 N 單調(diào)遞增。

實驗表明，該 Scaling 公式不僅能高精度擬合已有數(shù)據(jù)（R2 > 0.99），并且具備實際的預(yù)測能力，具體體現(xiàn)在兩個方面。

跨模型外推（Inter-model Extrapolation）：該 Scaling Law 支持利用小參數(shù)量模型的訓(xùn)練數(shù)據(jù)來預(yù)測更大參數(shù)量模型的訓(xùn)練軌跡。以本文為例，研究人員基于 0.5B 至 32B 模型的實驗數(shù)據(jù)擬合公式參數(shù)后，可直接預(yù)測 72B 模型的完整訓(xùn)練曲線，且預(yù)測所得的學(xué)習(xí)效率等關(guān)鍵指標(biāo)與 72B 模型的實際表現(xiàn)高度吻合。

這意味著，研究人員只需通過小模型實驗，便能預(yù)判大模型的訓(xùn)練走向，從而大幅降低試錯成本。

圖 (1).Scaling Law 的擬合與跨模型外推能力

訓(xùn)練軌跡預(yù)測（Intra-model Prediction）：該 Scaling Law 同樣支持對單一模型訓(xùn)練過程的走勢預(yù)測。研究人員僅需使用訓(xùn)練早期約 20%–30% 的數(shù)據(jù)點，便可準(zhǔn)確外推出模型在完整數(shù)據(jù)集上的最終收斂性能。

這意味著，無需等待訓(xùn)練全程結(jié)束，研究人員便能大致預(yù)判模型的收斂走向，從而為訓(xùn)練過程中的資源分配與早停決策提供直接的指導(dǎo)依據(jù)，有效降低不必要的算力消耗。

圖 (2).Scaling Law 的擬合與模型內(nèi)軌跡預(yù)測能力

需要特別指出的是，這一公式在 Compute（C）和 Data（D）兩個維度上具有統(tǒng)一的函數(shù)形式，即無論以算力還是數(shù)據(jù)量作為自變量，性能的 scaling 行為都遵循相同的數(shù)學(xué)結(jié)構(gòu)。這種理論一致性為公式的可靠性提供了額外支撐。

發(fā)現(xiàn)二：學(xué)習(xí)效率的飽和趨勢

為了更精確的研究 Scaling Law，研究團隊對強化學(xué)習(xí)效率 k (N) 也進行了大量實證分析。

研究發(fā)現(xiàn)，更大的模型的確會學(xué)得更快。從 0.5B 到 72B，學(xué)習(xí)效率系數(shù) k (N) 持續(xù)增長。但關(guān)鍵在于：這種增長并非線性的，而是逐漸趨于飽和。據(jù)此現(xiàn)象，研究團隊將強化學(xué)習(xí)的學(xué)習(xí)效率 k (N) 建模為

圖 (3). 強化學(xué)習(xí)后訓(xùn)練的學(xué)習(xí)效率隨模型參數(shù)量的變化趨勢

這在實驗中表現(xiàn)為一個有趣的「性能交叉」現(xiàn)象，如圖 1.(a) 所示，在等量計算預(yù)算下，32B 模型在訓(xùn)練初期的表現(xiàn)甚至優(yōu)于 72B，因為更小的模型在相同計算量下能完成更多訓(xùn)練步數(shù)。

研究團隊認為該現(xiàn)象揭示了一個關(guān)鍵的隱性權(quán)衡，即在計算受限的場景下，盲目堆大模型未必是最優(yōu)策略。在有限預(yù)算內(nèi)，找到模型規(guī)模和訓(xùn)練步數(shù)之間的平衡點，可能比簡單地選擇最大模型更為明智。這一發(fā)現(xiàn)為 RL 后訓(xùn)練的資源分配提供了重要的定量依據(jù)。

發(fā)現(xiàn)三：數(shù)據(jù)重用是有效策略

在探究 Scaling Law 之外，團隊還對在 RL 中一個非常實際的問題進行了探究：反復(fù)使用同一批數(shù)據(jù)訓(xùn)練效果如何？數(shù)據(jù)重用是否會對訓(xùn)練軌跡和最終性能造成顯著影響？

圖 (4). 數(shù)據(jù)重用對強化學(xué)習(xí)訓(xùn)練軌跡的影響

研究團隊證實，在高質(zhì)量推理數(shù)據(jù)有限的場景下，適度的數(shù)據(jù)重用是一種低成本、高回報的訓(xùn)練策略。無需費力搜集更多數(shù)據(jù)，反復(fù)利用現(xiàn)有的高質(zhì)量數(shù)據(jù)即可獲得接近等價的訓(xùn)練效果，且不會對訓(xùn)練軌跡造成明顯的偏差。

Scaling Law 的跨架構(gòu)驗證

以上發(fā)現(xiàn)均基于 Qwen2.5 系列。一個自然的問題是：這些 scaling 行為是特定架構(gòu)的產(chǎn)物，還是 RL 后訓(xùn)練的普遍規(guī)律？

為此，研究團隊在Llama 3 模型族（Llama-3.2-1B/3B-Instruct、Llama-3.1-8B/70B-Instruct）上重復(fù)了完整實驗。

結(jié)果表明，同一冪律公式在 Llama 上同樣成立，且擬合后與實際訓(xùn)練數(shù)據(jù)點的 R2 > 0.99。盡管 Llama 在訓(xùn)練后的絕對性能上低于 Qwen，但scaling 關(guān)系的函數(shù)形式完全一致，k (N) 的飽和趨勢也保持不變。

圖 (5).Scaling Law 在 Llama 系列模型上的擬合效果

這一跨架構(gòu)驗證確認了研究團隊所揭示的 Scaling Law 刻畫的是 RL 后訓(xùn)練優(yōu)化過程本身的內(nèi)在規(guī)律，而非特定模型架構(gòu)的特性。無論底層架構(gòu)如何，只要采用相同的 RL 后訓(xùn)練范式，性能的 scaling 行為就遵循統(tǒng)一的數(shù)學(xué)描述。

總結(jié)

這項工作的核心貢獻在于，通過對 Qwen2.5 和 Llama 3 兩個模型家族上的所有參數(shù)量級模型進行實證分析，為 RL 后訓(xùn)練建立了系統(tǒng)性的 scaling 理論框架，并給出了可預(yù)測強化學(xué)習(xí)訓(xùn)練軌跡的數(shù)學(xué)公式（Scaling Law）。

對于正在用 RL 提升大模型推理能力的研究者和工程師來說，這篇論文提供了一套可量化、可預(yù)測、可指導(dǎo)實踐的分析框架。而效率飽和這一發(fā)現(xiàn)，也在提醒我們：scale up 是有力的手段，但不是萬能的，理解 scaling 的邊界，才能更聰明地 scale。

作者介紹

本文由中國科學(xué)技術(shù)大學(xué)聯(lián)合上海人工智能實驗室、牛津大學(xué)等多家機構(gòu)研究者合作完成。主要作者為上海人工智能實驗室聯(lián)培博士譚澤霖、牛津大學(xué)研究員耿鶴嘉等。其中論文第一作者譚澤霖是中科大與上海人工智能實驗室聯(lián)合培養(yǎng)博士生，其研究方向主要為智能體強化學(xué)習(xí)和機器學(xué)習(xí)系統(tǒng)。導(dǎo)師為白磊研究員，該篇文章由上海人工智能實驗室青年研究員張晨、牛津大學(xué)博后尹榛菲博士聯(lián)合執(zhí)導(dǎo)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.