国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ACL 2026 | 中科大&上海AILab揭示強(qiáng)化學(xué)習(xí)后訓(xùn)練的Scaling Law

0
分享至



從 DeepSeek-R1 到 Kimi K2.5,強(qiáng)化學(xué)習(xí)(RL)后訓(xùn)練已經(jīng)成為提升大模型推理能力的核心手段。

但一個(gè)關(guān)鍵問(wèn)題始終懸而未決:RL 后訓(xùn)練的 Scaling 行為到底遵循什么規(guī)律?能否像預(yù)訓(xùn)練 Scaling Law 那樣,給定模型參數(shù)量、計(jì)算預(yù)算和數(shù)據(jù)量,就能定量預(yù)測(cè) RL 后訓(xùn)練所能達(dá)到的性能?又能否像預(yù)訓(xùn)練 Scaling Law 那樣,為實(shí)踐者指明一條清晰的擴(kuò)展路徑?

來(lái)自中國(guó)科學(xué)技術(shù)大學(xué)和上海人工智能實(shí)驗(yàn)室等機(jī)構(gòu)的研究團(tuán)隊(duì)給出了系統(tǒng)性的回答。團(tuán)隊(duì)在 Qwen2.5 全系列密集模型(0.5B–72B)上開展了大規(guī)模 RL 訓(xùn)練實(shí)證研究,并在 Llama 3 系列(1B–70B)上完成了跨架構(gòu)驗(yàn)證,首次全面刻畫了大模型強(qiáng)化學(xué)習(xí)后訓(xùn)練在數(shù)學(xué)推理任務(wù)上的 Scaling 行為,提出了一套能夠預(yù)測(cè)模型學(xué)習(xí)效率與訓(xùn)練軌跡的冪律公式。

目前該工作已被 ACL 2026 主會(huì)議接收。



  • 論文地址:https://arxiv.org/abs/2509.25300
  • 代碼鏈接:https://github.com/tanzelin430/Mathematical-Reasoning-RL-Scaling-Law
  • 數(shù)據(jù)集:https://huggingface.co/datasets/Artemis0430/GURU-MATH-CL

預(yù)訓(xùn)練有 Scaling Law,RL 后訓(xùn)練呢?

Scaling Law 的故事并不陌生。OpenAI 早在 2020 年便揭示了預(yù)訓(xùn)練階段的 Scaling 法則,證明模型性能隨參數(shù)量、數(shù)據(jù)量和計(jì)算量的增長(zhǎng)呈現(xiàn)可預(yù)測(cè)的冪律關(guān)系,奠定了現(xiàn)代大模型「規(guī)模即力量」的范式基礎(chǔ)。

然而,當(dāng)訓(xùn)練范式從預(yù)訓(xùn)練 / 監(jiān)督微調(diào)階段延伸到強(qiáng)化學(xué)習(xí)后訓(xùn)練時(shí),這套 Scaling 規(guī)律便難以直接套用。RL 的核心目標(biāo)是通過(guò)策略優(yōu)化來(lái)最大化獎(jiǎng)勵(lì),而非最小化 next-token prediction 的交叉熵?fù)p失,其訓(xùn)練動(dòng)態(tài)、數(shù)據(jù)利用方式和計(jì)算消耗模式都與預(yù)訓(xùn)練有著本質(zhì)區(qū)別。

這意味著,要理解 RL 后訓(xùn)練的 Scaling 行為,需要回到實(shí)驗(yàn)中去,重新建立屬于 RL 自身的經(jīng)驗(yàn)規(guī)律。

研究團(tuán)隊(duì)選擇數(shù)學(xué)推理作為實(shí)驗(yàn)平臺(tái),原因在于數(shù)學(xué)任務(wù)具有天然的答案可驗(yàn)證性,能夠?yàn)?RL 提供精確的獎(jiǎng)勵(lì)信號(hào),是當(dāng)前 RL 后訓(xùn)練最成熟的基準(zhǔn)場(chǎng)景。在此基礎(chǔ)上,團(tuán)隊(duì)圍繞計(jì)算受限、數(shù)據(jù)受限和數(shù)據(jù)重用三種典型場(chǎng)景展開了大規(guī)模受控實(shí)驗(yàn)。

實(shí)驗(yàn)設(shè)計(jì)與評(píng)測(cè)框架

為確保結(jié)論的魯棒性,研究團(tuán)隊(duì)在實(shí)驗(yàn)設(shè)計(jì)上做了充分的控制。

模型方面,主實(shí)驗(yàn)覆蓋了 Qwen2.5 全系列 Dense 模型(0.5B 至 72B),共享相同架構(gòu),確保模型規(guī)模是唯一變量。

同時(shí),為了保證 Scaling Law 的通用性,研究人員還在 Llama 3 系列(1B 至 70B)上進(jìn)行了跨架構(gòu)驗(yàn)證。訓(xùn)練統(tǒng)一采用 VeRL 分布式 RL 平臺(tái)和 GRPO 算法,每個(gè)配置重復(fù) 3 次,覆蓋 Base 和 Instruct 兩種模型變體,以保證統(tǒng)計(jì)可靠性。

訓(xùn)練數(shù)據(jù)來(lái)自 guru-RL-92k 數(shù)據(jù)集的數(shù)學(xué)子集(約 5.4 萬(wàn)道題,由 OR1、DeepScaler、DAPO 三個(gè)數(shù)據(jù)集組成),按難度排序?qū)崿F(xiàn)課程學(xué)習(xí)。

評(píng)測(cè)方面,研究團(tuán)隊(duì)定義測(cè)試損失 L = 1 - Pass@1 作為核心指標(biāo),以期與預(yù)訓(xùn)練 Scaling Law 文獻(xiàn)中的 test loss 概念對(duì)齊。域內(nèi)評(píng)測(cè)基于 500 道保持原始難度分布的數(shù)學(xué)題用于擬合 Scaling Law,跨領(lǐng)域評(píng)測(cè)則覆蓋數(shù)學(xué)、代碼、邏輯、科學(xué)等 8 個(gè) benchmark 共約 3000 道題。

基于這套實(shí)驗(yàn)框架,研究團(tuán)隊(duì)得到了三個(gè)關(guān)鍵發(fā)現(xiàn)。

核心發(fā)現(xiàn)

發(fā)現(xiàn)一:具有 RL 性能預(yù)測(cè)能力 Scaling Law

研究的核心發(fā)現(xiàn)是一個(gè)簡(jiǎn)潔而強(qiáng)大的 scaling 公式。模型的測(cè)試損失 L 與訓(xùn)練資源 X(計(jì)算量 C 或數(shù)據(jù)量 D)之間存在對(duì)數(shù)線性關(guān)系:



其中,k (N) 是模型在強(qiáng)化學(xué)習(xí)后訓(xùn)練階段的學(xué)習(xí)效率,它隨模型參數(shù)量 N 單調(diào)遞增。

實(shí)驗(yàn)表明,該 Scaling 公式不僅能高精度擬合已有數(shù)據(jù)(R2 > 0.99),并且具備實(shí)際的預(yù)測(cè)能力,具體體現(xiàn)在兩個(gè)方面。

  • 跨模型外推(Inter-model Extrapolation):該 Scaling Law 支持利用小參數(shù)量模型的訓(xùn)練數(shù)據(jù)來(lái)預(yù)測(cè)更大參數(shù)量模型的訓(xùn)練軌跡。以本文為例,研究人員基于 0.5B 至 32B 模型的實(shí)驗(yàn)數(shù)據(jù)擬合公式參數(shù)后,可直接預(yù)測(cè) 72B 模型的完整訓(xùn)練曲線,且預(yù)測(cè)所得的學(xué)習(xí)效率等關(guān)鍵指標(biāo)與 72B 模型的實(shí)際表現(xiàn)高度吻合。

這意味著,研究人員只需通過(guò)小模型實(shí)驗(yàn),便能預(yù)判大模型的訓(xùn)練走向,從而大幅降低試錯(cuò)成本。



圖 (1).Scaling Law 的擬合與跨模型外推能力

  • 訓(xùn)練軌跡預(yù)測(cè)(Intra-model Prediction):該 Scaling Law 同樣支持對(duì)單一模型訓(xùn)練過(guò)程的走勢(shì)預(yù)測(cè)。研究人員僅需使用訓(xùn)練早期約 20%–30% 的數(shù)據(jù)點(diǎn),便可準(zhǔn)確外推出模型在完整數(shù)據(jù)集上的最終收斂性能。

這意味著,無(wú)需等待訓(xùn)練全程結(jié)束,研究人員便能大致預(yù)判模型的收斂走向,從而為訓(xùn)練過(guò)程中的資源分配與早停決策提供直接的指導(dǎo)依據(jù),有效降低不必要的算力消耗。





圖 (2).Scaling Law 的擬合與模型內(nèi)軌跡預(yù)測(cè)能力

需要特別指出的是,這一公式在 Compute(C)和 Data(D)兩個(gè)維度上具有統(tǒng)一的函數(shù)形式,即無(wú)論以算力還是數(shù)據(jù)量作為自變量,性能的 scaling 行為都遵循相同的數(shù)學(xué)結(jié)構(gòu)。這種理論一致性為公式的可靠性提供了額外支撐。

發(fā)現(xiàn)二:學(xué)習(xí)效率的飽和趨勢(shì)

為了更精確的研究 Scaling Law,研究團(tuán)隊(duì)對(duì)強(qiáng)化學(xué)習(xí)效率 k (N) 也進(jìn)行了大量實(shí)證分析。

研究發(fā)現(xiàn),更大的模型的確會(huì)學(xué)得更快。從 0.5B 到 72B,學(xué)習(xí)效率系數(shù) k (N) 持續(xù)增長(zhǎng)。但關(guān)鍵在于:這種增長(zhǎng)并非線性的,而是逐漸趨于飽和。據(jù)此現(xiàn)象,研究團(tuán)隊(duì)將強(qiáng)化學(xué)習(xí)的學(xué)習(xí)效率 k (N) 建模為







圖 (3). 強(qiáng)化學(xué)習(xí)后訓(xùn)練的學(xué)習(xí)效率隨模型參數(shù)量的變化趨勢(shì)

這在實(shí)驗(yàn)中表現(xiàn)為一個(gè)有趣的「性能交叉」現(xiàn)象,如圖 1.(a) 所示,在等量計(jì)算預(yù)算下,32B 模型在訓(xùn)練初期的表現(xiàn)甚至優(yōu)于 72B,因?yàn)楦〉哪P驮谙嗤?jì)算量下能完成更多訓(xùn)練步數(shù)。

研究團(tuán)隊(duì)認(rèn)為該現(xiàn)象揭示了一個(gè)關(guān)鍵的隱性權(quán)衡,即在計(jì)算受限的場(chǎng)景下,盲目堆大模型未必是最優(yōu)策略。在有限預(yù)算內(nèi),找到模型規(guī)模和訓(xùn)練步數(shù)之間的平衡點(diǎn),可能比簡(jiǎn)單地選擇最大模型更為明智。這一發(fā)現(xiàn)為 RL 后訓(xùn)練的資源分配提供了重要的定量依據(jù)。

發(fā)現(xiàn)三:數(shù)據(jù)重用是有效策略

在探究 Scaling Law 之外,團(tuán)隊(duì)還對(duì)在 RL 中一個(gè)非常實(shí)際的問(wèn)題進(jìn)行了探究:反復(fù)使用同一批數(shù)據(jù)訓(xùn)練效果如何?數(shù)據(jù)重用是否會(huì)對(duì)訓(xùn)練軌跡和最終性能造成顯著影響?





圖 (4). 數(shù)據(jù)重用對(duì)強(qiáng)化學(xué)習(xí)訓(xùn)練軌跡的影響



研究團(tuán)隊(duì)證實(shí),在高質(zhì)量推理數(shù)據(jù)有限的場(chǎng)景下,適度的數(shù)據(jù)重用是一種低成本、高回報(bào)的訓(xùn)練策略。無(wú)需費(fèi)力搜集更多數(shù)據(jù),反復(fù)利用現(xiàn)有的高質(zhì)量數(shù)據(jù)即可獲得接近等價(jià)的訓(xùn)練效果,且不會(huì)對(duì)訓(xùn)練軌跡造成明顯的偏差。

Scaling Law 的跨架構(gòu)驗(yàn)證

以上發(fā)現(xiàn)均基于 Qwen2.5 系列。一個(gè)自然的問(wèn)題是:這些 scaling 行為是特定架構(gòu)的產(chǎn)物,還是 RL 后訓(xùn)練的普遍規(guī)律?

為此,研究團(tuán)隊(duì)在Llama 3 模型族(Llama-3.2-1B/3B-Instruct、Llama-3.1-8B/70B-Instruct)上重復(fù)了完整實(shí)驗(yàn)。

結(jié)果表明,同一冪律公式在 Llama 上同樣成立,且擬合后與實(shí)際訓(xùn)練數(shù)據(jù)點(diǎn)的 R2 > 0.99。盡管 Llama 在訓(xùn)練后的絕對(duì)性能上低于 Qwen,但scaling 關(guān)系的函數(shù)形式完全一致,k (N) 的飽和趨勢(shì)也保持不變。



圖 (5).Scaling Law 在 Llama 系列模型上的擬合效果

這一跨架構(gòu)驗(yàn)證確認(rèn)了研究團(tuán)隊(duì)所揭示的 Scaling Law 刻畫的是 RL 后訓(xùn)練優(yōu)化過(guò)程本身的內(nèi)在規(guī)律,而非特定模型架構(gòu)的特性。無(wú)論底層架構(gòu)如何,只要采用相同的 RL 后訓(xùn)練范式,性能的 scaling 行為就遵循統(tǒng)一的數(shù)學(xué)描述。

總結(jié)

這項(xiàng)工作的核心貢獻(xiàn)在于,通過(guò)對(duì) Qwen2.5 和 Llama 3 兩個(gè)模型家族上的所有參數(shù)量級(jí)模型進(jìn)行實(shí)證分析,為 RL 后訓(xùn)練建立了系統(tǒng)性的 scaling 理論框架,并給出了可預(yù)測(cè)強(qiáng)化學(xué)習(xí)訓(xùn)練軌跡的數(shù)學(xué)公式(Scaling Law)。

對(duì)于正在用 RL 提升大模型推理能力的研究者和工程師來(lái)說(shuō),這篇論文提供了一套可量化、可預(yù)測(cè)、可指導(dǎo)實(shí)踐的分析框架。而效率飽和這一發(fā)現(xiàn),也在提醒我們:scale up 是有力的手段,但不是萬(wàn)能的,理解 scaling 的邊界,才能更聰明地 scale。

作者介紹

本文由中國(guó)科學(xué)技術(shù)大學(xué)聯(lián)合上海人工智能實(shí)驗(yàn)室、牛津大學(xué)等多家機(jī)構(gòu)研究者合作完成。主要作者為上海人工智能實(shí)驗(yàn)室聯(lián)培博士譚澤霖、牛津大學(xué)研究員耿鶴嘉等。其中論文第一作者譚澤霖是中科大與上海人工智能實(shí)驗(yàn)室聯(lián)合培養(yǎng)博士生,其研究方向主要為智能體強(qiáng)化學(xué)習(xí)和機(jī)器學(xué)習(xí)系統(tǒng)。導(dǎo)師為白磊研究員,該篇文章由上海人工智能實(shí)驗(yàn)室青年研究員張晨、牛津大學(xué)博后尹榛菲博士聯(lián)合執(zhí)導(dǎo)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
如今回歸上海申花的他,已順利入選國(guó)足名單,未婚妻身份不一般

如今回歸上海申花的他,已順利入選國(guó)足名單,未婚妻身份不一般

科學(xué)發(fā)掘
2026-04-27 11:00:37
李嘉欣美貌不再,和許晉亨一同看演唱會(huì),近照疑醫(yī)美過(guò)度缺點(diǎn)盡顯

李嘉欣美貌不再,和許晉亨一同看演唱會(huì),近照疑醫(yī)美過(guò)度缺點(diǎn)盡顯

娛樂團(tuán)長(zhǎng)
2026-04-27 20:27:36
85 歲何守信回港!TVB 頂級(jí)飯局曝光,港圈半壁江山齊聚

85 歲何守信回港!TVB 頂級(jí)飯局曝光,港圈半壁江山齊聚

橙星文娛
2026-04-27 13:23:53
4月27日人民幣對(duì)美元中間價(jià)調(diào)升95個(gè)基點(diǎn)

4月27日人民幣對(duì)美元中間價(jià)調(diào)升95個(gè)基點(diǎn)

證券時(shí)報(bào)
2026-04-27 09:44:06
你的星座咋定的?12個(gè)比內(nèi)娛還狗血的故事

你的星座咋定的?12個(gè)比內(nèi)娛還狗血的故事

混知
2026-04-21 16:17:16
51歲周迅變樣:滿頭白發(fā)臉?biāo)煽澹T嘴像老奶奶,無(wú)兒無(wú)女成遺憾

51歲周迅變樣:滿頭白發(fā)臉?biāo)煽,癟嘴像老奶奶,無(wú)兒無(wú)女成遺憾

悅君兮君不知
2026-03-20 12:19:00
太瘆人!男子曬小區(qū)電梯圖,網(wǎng)友調(diào)侃豪華火化爐,評(píng)論區(qū)毛骨悚然

太瘆人!男子曬小區(qū)電梯圖,網(wǎng)友調(diào)侃豪華火化爐,評(píng)論區(qū)毛骨悚然

譚談社會(huì)
2026-04-23 01:58:02
克魯斯堡不眠夜!世界前二領(lǐng)跑,吳宜澤壓著塞爾比打

克魯斯堡不眠夜!世界前二領(lǐng)跑,吳宜澤壓著塞爾比打

羅納爾說(shuō)個(gè)球
2026-04-27 10:53:31
民進(jìn)黨高層竟敢偷偷離臺(tái),大陸火速行動(dòng)!美國(guó)不仁,鄭麗文就不義

民進(jìn)黨高層竟敢偷偷離臺(tái),大陸火速行動(dòng)!美國(guó)不仁,鄭麗文就不義

潮鹿逐夢(mèng)
2026-04-27 16:00:04
兵敗如山倒!國(guó)產(chǎn)新能源或已經(jīng)證明:中國(guó)壓根不需要二線豪華品牌

兵敗如山倒!國(guó)產(chǎn)新能源或已經(jīng)證明:中國(guó)壓根不需要二線豪華品牌

詩(shī)酒趁的年華
2026-04-24 18:12:26
張雪峰離世一個(gè)月,多位愛將接連離職,真相扎心:情懷不能當(dāng)飯吃

張雪峰離世一個(gè)月,多位愛將接連離職,真相扎心:情懷不能當(dāng)飯吃

天馬幸福的人生
2026-04-27 00:16:15
馬加爵死刑背后:女同學(xué)透露一個(gè)難以啟齒的秘密

馬加爵死刑背后:女同學(xué)透露一個(gè)難以啟齒的秘密

深度報(bào)
2026-04-27 22:10:57
4個(gè)去中國(guó)化最徹底的國(guó)家,一個(gè)已全盤西化,一個(gè)正試圖恢復(fù)漢字

4個(gè)去中國(guó)化最徹底的國(guó)家,一個(gè)已全盤西化,一個(gè)正試圖恢復(fù)漢字

你是我心中最美星空
2026-04-26 07:15:09
國(guó)家電網(wǎng)第二批錄了10500人,清華才7個(gè),一所你沒聽過(guò)的學(xué)校進(jìn)了444人

國(guó)家電網(wǎng)第二批錄了10500人,清華才7個(gè),一所你沒聽過(guò)的學(xué)校進(jìn)了444人

老滿說(shuō)高考
2026-04-24 20:13:49
美光科技、閃迪、西部數(shù)據(jù)、希捷科技等美股存儲(chǔ)股,盤前均漲約2%

美光科技、閃迪、西部數(shù)據(jù)、希捷科技等美股存儲(chǔ)股,盤前均漲約2%

每日經(jīng)濟(jì)新聞
2026-04-27 18:35:09
綠軍128-96狂勝76人,恩比德該被交易!東部懸念不大,騎士很絕望

綠軍128-96狂勝76人,恩比德該被交易!東部懸念不大,騎士很絕望

毒舌NBA
2026-04-27 09:47:46
寶媽花近20萬(wàn),住月子中心,月子餐是油炸食品,嬰兒床很多小蟲子

寶媽花近20萬(wàn),住月子中心,月子餐是油炸食品,嬰兒床很多小蟲子

川渝視覺
2026-04-27 22:30:05
一個(gè)正處級(jí)干部退休后的真實(shí)生活:落差比想象中大

一個(gè)正處級(jí)干部退休后的真實(shí)生活:落差比想象中大

細(xì)說(shuō)職場(chǎng)
2026-04-27 14:11:52
6月新規(guī)來(lái)了!3類常見病三甲不再接診,今后看病別再跑錯(cuò)地方

6月新規(guī)來(lái)了!3類常見病三甲不再接診,今后看病別再跑錯(cuò)地方

復(fù)轉(zhuǎn)這些年
2026-04-26 18:48:03
亞冠冠軍次數(shù)榜:新月4冠歷史第一;韓國(guó)球隊(duì)共12次奪冠最多

亞冠冠軍次數(shù)榜:新月4冠歷史第一;韓國(guó)球隊(duì)共12次奪冠最多

懂球帝
2026-04-27 12:29:18
2026-04-27 23:16:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12874文章數(shù) 142638關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4上線三天,第一批實(shí)測(cè)出來(lái)了

頭條要聞

水庫(kù)放水21人被困下游河灘 有人讓家人踩肩頭爬樹避險(xiǎn)

頭條要聞

水庫(kù)放水21人被困下游河灘 有人讓家人踩肩頭爬樹避險(xiǎn)

體育要聞

最抽象的天才,正在改變瓜迪奧拉

娛樂要聞

黃楊鈿甜為“耳環(huán)風(fēng)波”出鏡道歉:謠言已澄清

財(cái)經(jīng)要聞

Meta 140億收購(gòu)Manus遭中國(guó)發(fā)改委否決

汽車要聞

不那么小眾也可以 smart的路會(huì)越走越寬

態(tài)度原創(chuàng)

時(shí)尚
本地
手機(jī)
藝術(shù)
軍事航空

絲巾的10種系法,愛美的女人必看

本地新聞

云游中國(guó)|逛世界風(fēng)箏都 留學(xué)生探秘中國(guó)傳統(tǒng)文化

手機(jī)要聞

性能最激進(jìn)的安卓旗艦!一加16已在路上:首批搭載滿血版驍龍8E6 Pro

藝術(shù)要聞

你絕對(duì)想不到,攝影能讓她成為女神!

軍事要聞

伊朗外長(zhǎng)折返伊斯蘭堡內(nèi)情披露

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版