網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AReaL:?推理大模型的訓(xùn)練解耦，可中斷的數(shù)據(jù)生成和配套的解耦PPO目標(biāo)函數(shù)

2025-06-10 12:49:55　來(lái)源: 平凡AI

海外舉報(bào)

分享至

距離ChatGPT發(fā)布已經(jīng)過(guò)去兩年多了，現(xiàn)在的主流大模型已經(jīng)很不同了，最大的區(qū)別就是推理Reasoning能力的發(fā)掘和應(yīng)用。

什么是推理？舉一個(gè)很簡(jiǎn)單的例子。比如有一道很簡(jiǎn)單的數(shù)學(xué)題，27+62=？，傳統(tǒng)大模型（LLM，Large Language Model）碰到這種題會(huì)調(diào)用自己的記憶和檢索能力，從海量的數(shù)據(jù)庫(kù)里找到27+62 = 89 或者62+27 = 89這種結(jié)果，然后輸出正確答案。

而推理大模型（LRM，Large Reasoning Model）處理這種問(wèn)題的思路不一樣，它是真正的在模仿人類的思考方式，首先個(gè)位數(shù)相加 7+ 2 = 9，不需要進(jìn)位，然后十位數(shù)相加 2+ 6 = 8，最后組合成89這個(gè)正確答案。

你看出區(qū)別沒(méi)，LRM學(xué)到的是真正的通用知識(shí)，而LLM更多的是靠腦子硬記，而一旦碰到?jīng)]背過(guò)的題，很容易就捉瞎了。

但實(shí)際上對(duì)于大多數(shù)的問(wèn)題，從結(jié)果出發(fā)這兩種大模型可能并沒(méi)有太多的不同。但是一旦涉及到稍微復(fù)雜點(diǎn)的問(wèn)題，比如高等數(shù)學(xué)、復(fù)雜推理等，那LLM幾乎無(wú)從下手。

其實(shí)大家對(duì)于LRM應(yīng)該不陌生，因?yàn)閹缀跞巳硕加眠^(guò)LRM，大名鼎鼎的DeepSeek-R1就是典型的LRM，它就是靠火速追趕上OpenAI發(fā)布的一個(gè)推理模型而聞名于世的。而從LLM->LRM，最重要的一個(gè)步驟就叫強(qiáng)化學(xué)習(xí)RL（Reinforcement Learning），你來(lái)看DeepSeek-R1的論文標(biāo)題，直接就點(diǎn)明了，LLM的推理能力就是靠RL激活的。

RL是一個(gè)好東西，它的訓(xùn)練邏輯很簡(jiǎn)單：先把一堆題目（prompts）一次性“跑完一遍”得到所有的思考鏈和答案，然后把這些完整的數(shù)據(jù)一次性拿去更新模型。等模型更新好了，再用新模型去下一批題目，重復(fù)同樣的流程。

原理很簡(jiǎn)單，但是它麻煩就麻煩在需要大規(guī)模訓(xùn)練的時(shí)候，每一批的思考鏈和答案的長(zhǎng)度可能相差很大，也就是說(shuō)，有的回答早就生成好了，但有些距離結(jié)束還早，這樣結(jié)束了的都在等還在生成的。

這就正好對(duì)應(yīng)了現(xiàn)在LRM的主流訓(xùn)練方式，它叫同步（Synchronous）訓(xùn)練，與之相對(duì)的是異步（Asynchronous），同樣的四個(gè)工作，同步需要的時(shí)間=所有工作的總和，而異步方式就要快很多。

這就是現(xiàn)在LRM訓(xùn)練時(shí)候的尷尬之處，特別是模型越來(lái)越大之后，訓(xùn)練時(shí)間也到了嚴(yán)重拖慢進(jìn)度的程度，更重要的，同步訓(xùn)練方式會(huì)造成大量的資源在等，在AI大模型發(fā)展階段，這種行為無(wú)異于是浪費(fèi)最寶貴的算力資源。

那么總結(jié)一下：同步訓(xùn)練會(huì)主要帶來(lái)了三個(gè)問(wèn)題：

（1）GPU 利用率低
（2）訓(xùn)練周期長(zhǎng)
（3）難以擴(kuò)展到更復(fù)雜的任務(wù)和更長(zhǎng)的思考過(guò)程

而清華和螞蟻近期開(kāi)源的AReaL-boba2就是一項(xiàng)前瞻性的全異步強(qiáng)化學(xué)習(xí)工作，他們的論文《AREAL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning》，簡(jiǎn)稱AReaL（這里其實(shí)指的是AReaLv0.3版，研究小組給它命名為AReaL-boba2，以下同）恰恰就是為了解決LRM同步訓(xùn)練的幾個(gè)痛點(diǎn)的，它的解決方案就是利用異步訓(xùn)練方式，最終實(shí)現(xiàn)大規(guī)模異步強(qiáng)化學(xué)習(xí)系統(tǒng)。

開(kāi)源地址：

https://github.com/inclusionAI/AReaL

論文：

https://arxiv.org/pdf/2505.24298

模型：

https://huggingface.co/collections/inclusionAI/areal-boba-2-683f0e819ccb7bb2e1b2f2d5

論文中圖一??里面提到了，現(xiàn)有的兩種訓(xùn)練方式本質(zhì)上都是同步模式，可以看到每一塊的處理都得等最長(zhǎng)的（用時(shí)最長(zhǎng)）的那個(gè)生成任務(wù)（藍(lán)色條）。

而實(shí)際上第二和第六個(gè)任務(wù)早就完成了，同步的思路會(huì)讓GPU只能處于等待狀態(tài)，而改良后的one-step overlap方式其實(shí)也差不太多，都得等最長(zhǎng)的任務(wù)結(jié)束。

而AReaL-boba2最大的貢獻(xiàn)就是把GPU等算力資源用到了極限了，達(dá)到了下面的這種效果，幾乎所有算力資源都被用的滿滿當(dāng)當(dāng)，這就是LRM訓(xùn)練的理想狀態(tài)。

而實(shí)現(xiàn)AReaL-boba2如此高效的主要原因有兩個(gè)：

架構(gòu)創(chuàng)新
算法創(chuàng)新

架構(gòu)創(chuàng)新的主要點(diǎn)就在于下面這個(gè)圖，它實(shí)現(xiàn)了一個(gè)關(guān)鍵功能，AReaL-boba2徹底解耦了數(shù)據(jù)生成與模型訓(xùn)練過(guò)程。這意味著生成工作節(jié)點(diǎn)（rollout workers）可以持續(xù)不斷地產(chǎn)生新的推理序列，而無(wú)需等待其他節(jié)點(diǎn)或模型更新；同時(shí)，訓(xùn)練工作節(jié)點(diǎn)（trainer workers）一旦收集到足夠的數(shù)據(jù)批次，即可進(jìn)行模型參數(shù)更新。

原來(lái)的訓(xùn)練是需要等同一批次的數(shù)據(jù)生成，然后一次性全部送入下一次訓(xùn)練，這種固定模式的改變主要?dú)w功于AReaL-boba2提出的Interruptible Rollout Worker，其中interruptible是關(guān)鍵，它的意思是可中斷，簡(jiǎn)單來(lái)說(shuō)：可中斷生成就是當(dāng)模型還在“邊想邊寫(xiě)”某個(gè)回答時(shí)，如果訓(xùn)練那邊出了新版本，就會(huì)立刻讓它停下來(lái)，換上新版本后繼續(xù)接著寫(xiě)。

這種方式可以把長(zhǎng)流程拆成幾段，讓生成和訓(xùn)練同時(shí)進(jìn)行，彼此不必等對(duì)方都結(jié)束才開(kāi)始。

這就是「異步」實(shí)現(xiàn)的架構(gòu)基礎(chǔ)，這就是徹底的異步，你生成你的，我訓(xùn)練我的，兩者互不干涉，并且都能以全速開(kāi)動(dòng)。

在論文提供的Github官方代碼庫(kù)中的，realhf/system/rollout_worker.py中可以看到這部分的實(shí)現(xiàn)邏輯，當(dāng)模型需要更新權(quán)重的時(shí)候，rollout會(huì)用新的權(quán)重來(lái)生成數(shù)據(jù)。

你也能從partial_rollout文件中看到部分rollout的實(shí)現(xiàn)邏輯。

同時(shí)還有配套的Trainer Worker、Rollout Controller 和 Reward Service與可中斷Rollout Worker形成了一個(gè)非常靈活的架構(gòu)，大家通過(guò)一個(gè)共享的池子來(lái)實(shí)現(xiàn)信息共享和互換。

你可以看到這種靈活架構(gòu)的優(yōu)勢(shì)，算力資源的利用率達(dá)到了最大，同時(shí)在處理很長(zhǎng)的生成回答（長(zhǎng)序列）文本也有巨大的優(yōu)勢(shì)。

當(dāng)然了這種異步思想并不是第一次出現(xiàn)，在游戲 AI 領(lǐng)域有一些經(jīng)典異步工作，如 A3C, IMPALA, SEED RL等，他們也有類似的數(shù)據(jù)生成和模型訓(xùn)練“隔離”的操作，但是區(qū)別也很大，因?yàn)榇笮驼Z(yǔ)言模型推理面臨著兩個(gè)獨(dú)特的挑戰(zhàn)：

極長(zhǎng)的序列長(zhǎng)度： LLM 推理（思維鏈）可以產(chǎn)生非常長(zhǎng)的 token 序列，這與游戲中通常較短的動(dòng)作序列不同。
巨大的模型參數(shù)： LLM 的參數(shù)量遠(yuǎn)大于傳統(tǒng) RL 任務(wù)中的模型。

前兩個(gè)挑戰(zhàn)相信大家也都有所了解，那就是現(xiàn)在的LRM動(dòng)不動(dòng)就需要消耗1，2萬(wàn)的token，因?yàn)長(zhǎng)RM在推理的時(shí)候需要花費(fèi)大量的資源進(jìn)行思考，特別是在Agent AI的時(shí)代，有一些任務(wù)單步操作就需要用幾十萬(wàn)-上百萬(wàn)的token進(jìn)行閱讀和思考。另外一個(gè)就是模型大小非常大，訓(xùn)練的時(shí)候需要循序漸進(jìn)，步子太大容易扯著，這樣很容易把大模型搞崩。

AReaL-boba2在架構(gòu)層次上的創(chuàng)新也帶來(lái)了算法層面的挑戰(zhàn)，有兩個(gè)主要的問(wèn)題：數(shù)據(jù)陳舊性和解耦PPO算法。

第一個(gè)問(wèn)題很好理解，以前的同步訓(xùn)練，生成一批，訓(xùn)練一批，所有的生成數(shù)據(jù)都是最新的，AReaL-boba2的異步不同，有些數(shù)據(jù)是新的，有些數(shù)據(jù)還是以前的老模型生成的，這就造成了一個(gè)問(wèn)題，那就是如何處理這些老數(shù)據(jù)。

實(shí)際上，模型每一次的更新幅度并不大，特別是對(duì)于LRM來(lái)說(shuō)，動(dòng)不動(dòng)訓(xùn)練幾天，甚至幾個(gè)月，每一次的更新幅度帶來(lái)的生成數(shù)據(jù)差別并不大，舊的生成數(shù)據(jù)價(jià)值并不低。AReaL-boba2引入了最大允許陳舊度參數(shù) η。這意味著，如果當(dāng)前模型版本為 i，則訓(xùn)練時(shí)僅使用由版本i-η 至i-1 的策略生成的數(shù)據(jù)。系統(tǒng)會(huì)優(yōu)先消耗經(jīng)驗(yàn)池中相對(duì)較舊但仍在η 范圍內(nèi)的軌跡，以此確保訓(xùn)練數(shù)據(jù)的整體新鮮度在一個(gè)可控的滯后范圍內(nèi)，避免因數(shù)據(jù)過(guò)度陳舊導(dǎo)致學(xué)習(xí)性能下降，同時(shí)最大化異步生成帶來(lái)的數(shù)據(jù)吞吐量。

第二個(gè)問(wèn)題也是由于異步帶來(lái)的，那就是模型會(huì)中途更新，所以一個(gè)模型的更新可能會(huì)受到很多批數(shù)據(jù)的影響，那到底是新的數(shù)據(jù)帶來(lái)的影響大還是舊的數(shù)據(jù)，傳統(tǒng)的PPO算法需要這個(gè)信息，而AReaL-boba2的創(chuàng)新是承認(rèn)這條數(shù)據(jù)是“集體智慧”的產(chǎn)物，它的好壞（優(yōu)勢(shì)）還是看實(shí)際效果。在進(jìn)行PPO學(xué)習(xí)時(shí)，不直接比較當(dāng)前策略與那條可能由多個(gè)舊策略混合生成的復(fù)雜數(shù)據(jù)，而是將當(dāng)前策略與一個(gè)固定的、較新的舊策略版本進(jìn)行比較和調(diào)整，以此來(lái)穩(wěn)定學(xué)習(xí)過(guò)程。

同樣做了算法消融實(shí)驗(yàn)，標(biāo)準(zhǔn) PPO 對(duì)數(shù)據(jù)陳舊性非常敏感，即使是很小的陳舊度也會(huì)導(dǎo)致性能大幅下降 (下a圖），AReaL 提出的解耦 PPO 目標(biāo)函數(shù)能夠在允許一定程度數(shù)據(jù)陳舊性（η ≤ 4 甚至 η=8）的情況下，依然保持甚至提升最終的模型性能 (下b圖)。

可以看到AReal做的算法創(chuàng)新并不是孤立的，而是與異步系統(tǒng)架構(gòu)是相輔相成的，因?yàn)橐肓诵碌慕Y(jié)構(gòu)必定會(huì)擾動(dòng)原有的穩(wěn)定性，AReal修正了這些變化。

這也是是AReaL-boba2這個(gè)工作的核心價(jià)值，它在效率和性能上的突破很明顯，模型大小不變，在AReaL-boba2訓(xùn)練后，性能得到了明顯的提升，同時(shí)訓(xùn)練時(shí)間只有其他方法的一半左右。

可以說(shuō)，這個(gè)工作在LRM大行其道，并且越來(lái)越被Agent AI需要的時(shí)代，它未來(lái)的工作方向如同論文中所說(shuō)，會(huì)集中在動(dòng)態(tài)資源調(diào)配、多輪交互、智能體等）。特別是它對(duì)于降低頂尖LRM研發(fā)門(mén)檻有非常重要的作用，最終實(shí)現(xiàn)加速AGI實(shí)現(xiàn)的終極愿景。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.