国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AReaL:?推理大模型的訓(xùn)練解耦,可中斷的數(shù)據(jù)生成和配套的解耦PPO目標(biāo)函數(shù)

0
分享至

距離ChatGPT發(fā)布已經(jīng)過(guò)去兩年多了,現(xiàn)在的主流大模型已經(jīng)很不同了,最大的區(qū)別就是推理Reasoning能力的發(fā)掘和應(yīng)用。

什么是推理?舉一個(gè)很簡(jiǎn)單的例子。比如有一道很簡(jiǎn)單的數(shù)學(xué)題,27+62=?,傳統(tǒng)大模型(LLM,Large Language Model)碰到這種題會(huì)調(diào)用自己的記憶和檢索能力,從海量的數(shù)據(jù)庫(kù)里找到27+62 = 89 或者62+27 = 89這種結(jié)果,然后輸出正確答案。

而推理大模型(LRM,Large Reasoning Model)處理這種問(wèn)題的思路不一樣,它是真正的在模仿人類的思考方式,首先個(gè)位數(shù)相加 7+ 2 = 9,不需要進(jìn)位,然后十位數(shù)相加 2+ 6 = 8,最后組合成89這個(gè)正確答案。

你看出區(qū)別沒(méi),LRM學(xué)到的是真正的通用知識(shí),而LLM更多的是靠腦子硬記,而一旦碰到?jīng)]背過(guò)的題,很容易就捉瞎了。

但實(shí)際上對(duì)于大多數(shù)的問(wèn)題,從結(jié)果出發(fā)這兩種大模型可能并沒(méi)有太多的不同。但是一旦涉及到稍微復(fù)雜點(diǎn)的問(wèn)題,比如高等數(shù)學(xué)、復(fù)雜推理等,那LLM幾乎無(wú)從下手。

其實(shí)大家對(duì)于LRM應(yīng)該不陌生,因?yàn)閹缀跞巳硕加眠^(guò)LRM,大名鼎鼎的DeepSeek-R1就是典型的LRM,它就是靠火速追趕上OpenAI發(fā)布的一個(gè)推理模型而聞名于世的。而從LLM->LRM,最重要的一個(gè)步驟就叫強(qiáng)化學(xué)習(xí)RL(Reinforcement Learning),你來(lái)看DeepSeek-R1的論文標(biāo)題,直接就點(diǎn)明了,LLM的推理能力就是靠RL激活的

RL是一個(gè)好東西,它的訓(xùn)練邏輯很簡(jiǎn)單:先把一堆題目(prompts)一次性“跑完一遍”得到所有的思考鏈和答案,然后把這些完整的數(shù)據(jù)一次性拿去更新模型。等模型更新好了,再用新模型去下一批題目,重復(fù)同樣的流程。

原理很簡(jiǎn)單,但是它麻煩就麻煩在需要大規(guī)模訓(xùn)練的時(shí)候,每一批的思考鏈和答案的長(zhǎng)度可能相差很大,也就是說(shuō),有的回答早就生成好了,但有些距離結(jié)束還早,這樣結(jié)束了的都在等還在生成的。

這就正好對(duì)應(yīng)了現(xiàn)在LRM的主流訓(xùn)練方式,它叫同步(Synchronous)訓(xùn)練,與之相對(duì)的是異步(Asynchronous),同樣的四個(gè)工作,同步需要的時(shí)間=所有工作的總和,而異步方式就要快很多。

這就是現(xiàn)在LRM訓(xùn)練時(shí)候的尷尬之處,特別是模型越來(lái)越大之后,訓(xùn)練時(shí)間也到了嚴(yán)重拖慢進(jìn)度的程度,更重要的,同步訓(xùn)練方式會(huì)造成大量的資源在等,在AI大模型發(fā)展階段,這種行為無(wú)異于是浪費(fèi)最寶貴的算力資源。

那么總結(jié)一下:同步訓(xùn)練會(huì)主要帶來(lái)了三個(gè)問(wèn)題:

  • (1)GPU 利用率低

  • (2)訓(xùn)練周期長(zhǎng)

  • (3)難以擴(kuò)展到更復(fù)雜的任務(wù)和更長(zhǎng)的思考過(guò)程

而清華和螞蟻近期開(kāi)源的AReaL-boba2就是一項(xiàng)前瞻性的全異步強(qiáng)化學(xué)習(xí)工作,他們的論文《AREAL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning》,簡(jiǎn)稱AReaL(這里其實(shí)指的是AReaLv0.3版,研究小組給它命名為AReaL-boba2,以下同)恰恰就是為了解決LRM同步訓(xùn)練的幾個(gè)痛點(diǎn)的,它的解決方案就是利用異步訓(xùn)練方式,最終實(shí)現(xiàn)大規(guī)模異步強(qiáng)化學(xué)習(xí)系統(tǒng)。

開(kāi)源地址:

https://github.com/inclusionAI/AReaL

論文:

https://arxiv.org/pdf/2505.24298

模型:

https://huggingface.co/collections/inclusionAI/areal-boba-2-683f0e819ccb7bb2e1b2f2d5

論文中圖一??里面提到了,現(xiàn)有的兩種訓(xùn)練方式本質(zhì)上都是同步模式,可以看到每一塊的處理都得等最長(zhǎng)的(用時(shí)最長(zhǎng))的那個(gè)生成任務(wù)(藍(lán)色條)。

而實(shí)際上第二和第六個(gè)任務(wù)早就完成了,同步的思路會(huì)讓GPU只能處于等待狀態(tài),而改良后的one-step overlap方式其實(shí)也差不太多,都得等最長(zhǎng)的任務(wù)結(jié)束。

而AReaL-boba2最大的貢獻(xiàn)就是把GPU等算力資源用到了極限了,達(dá)到了下面的這種效果,幾乎所有算力資源都被用的滿滿當(dāng)當(dāng),這就是LRM訓(xùn)練的理想狀態(tài)。

而實(shí)現(xiàn)AReaL-boba2如此高效的主要原因有兩個(gè):

  • 架構(gòu)創(chuàng)新

  • 算法創(chuàng)新

架構(gòu)創(chuàng)新的主要點(diǎn)就在于下面這個(gè)圖,它實(shí)現(xiàn)了一個(gè)關(guān)鍵功能,AReaL-boba2徹底解耦了數(shù)據(jù)生成與模型訓(xùn)練過(guò)程。這意味著生成工作節(jié)點(diǎn)(rollout workers)可以持續(xù)不斷地產(chǎn)生新的推理序列,而無(wú)需等待其他節(jié)點(diǎn)或模型更新;同時(shí),訓(xùn)練工作節(jié)點(diǎn)(trainer workers)一旦收集到足夠的數(shù)據(jù)批次,即可進(jìn)行模型參數(shù)更新。

原來(lái)的訓(xùn)練是需要等同一批次的數(shù)據(jù)生成,然后一次性全部送入下一次訓(xùn)練,這種固定模式的改變主要?dú)w功于AReaL-boba2提出的Interruptible Rollout Worker,其中interruptible是關(guān)鍵,它的意思是可中斷,簡(jiǎn)單來(lái)說(shuō):可中斷生成就是當(dāng)模型還在“邊想邊寫(xiě)”某個(gè)回答時(shí),如果訓(xùn)練那邊出了新版本,就會(huì)立刻讓它停下來(lái),換上新版本后繼續(xù)接著寫(xiě)。

這種方式可以把長(zhǎng)流程拆成幾段,讓生成和訓(xùn)練同時(shí)進(jìn)行,彼此不必等對(duì)方都結(jié)束才開(kāi)始。

這就是「異步」實(shí)現(xiàn)的架構(gòu)基礎(chǔ),這就是徹底的異步,你生成你的,我訓(xùn)練我的,兩者互不干涉,并且都能以全速開(kāi)動(dòng)。

在論文提供的Github官方代碼庫(kù)中的,realhf/system/rollout_worker.py中可以看到這部分的實(shí)現(xiàn)邏輯,當(dāng)模型需要更新權(quán)重的時(shí)候,rollout會(huì)用新的權(quán)重來(lái)生成數(shù)據(jù)。

你也能從partial_rollout文件中看到部分rollout的實(shí)現(xiàn)邏輯。

同時(shí)還有配套的Trainer Worker、Rollout Controller 和 Reward Service與可中斷Rollout Worker形成了一個(gè)非常靈活的架構(gòu),大家通過(guò)一個(gè)共享的池子來(lái)實(shí)現(xiàn)信息共享和互換。

你可以看到這種靈活架構(gòu)的優(yōu)勢(shì),算力資源的利用率達(dá)到了最大,同時(shí)在處理很長(zhǎng)的生成回答(長(zhǎng)序列)文本也有巨大的優(yōu)勢(shì)。

當(dāng)然了這種異步思想并不是第一次出現(xiàn),在游戲 AI 領(lǐng)域有一些經(jīng)典異步工作,如 A3C, IMPALA, SEED RL等,他們也有類似的數(shù)據(jù)生成和模型訓(xùn)練“隔離”的操作,但是區(qū)別也很大,因?yàn)榇笮驼Z(yǔ)言模型推理面臨著兩個(gè)獨(dú)特的挑戰(zhàn):

  • 極長(zhǎng)的序列長(zhǎng)度: LLM 推理(思維鏈)可以產(chǎn)生非常長(zhǎng)的 token 序列,這與游戲中通常較短的動(dòng)作序列不同。

  • 巨大的模型參數(shù): LLM 的參數(shù)量遠(yuǎn)大于傳統(tǒng) RL 任務(wù)中的模型。

前兩個(gè)挑戰(zhàn)相信大家也都有所了解,那就是現(xiàn)在的LRM動(dòng)不動(dòng)就需要消耗1,2萬(wàn)的token,因?yàn)長(zhǎng)RM在推理的時(shí)候需要花費(fèi)大量的資源進(jìn)行思考,特別是在Agent AI的時(shí)代,有一些任務(wù)單步操作就需要用幾十萬(wàn)-上百萬(wàn)的token進(jìn)行閱讀和思考。另外一個(gè)就是模型大小非常大,訓(xùn)練的時(shí)候需要循序漸進(jìn),步子太大容易扯著,這樣很容易把大模型搞崩。

AReaL-boba2在架構(gòu)層次上的創(chuàng)新也帶來(lái)了算法層面的挑戰(zhàn),有兩個(gè)主要的問(wèn)題:數(shù)據(jù)陳舊性和解耦PPO算法。

第一個(gè)問(wèn)題很好理解,以前的同步訓(xùn)練,生成一批,訓(xùn)練一批,所有的生成數(shù)據(jù)都是最新的,AReaL-boba2的異步不同,有些數(shù)據(jù)是新的,有些數(shù)據(jù)還是以前的老模型生成的,這就造成了一個(gè)問(wèn)題,那就是如何處理這些老數(shù)據(jù)。

實(shí)際上,模型每一次的更新幅度并不大,特別是對(duì)于LRM來(lái)說(shuō),動(dòng)不動(dòng)訓(xùn)練幾天,甚至幾個(gè)月,每一次的更新幅度帶來(lái)的生成數(shù)據(jù)差別并不大,舊的生成數(shù)據(jù)價(jià)值并不低。AReaL-boba2引入了最大允許陳舊度參數(shù) η。這意味著,如果當(dāng)前模型版本為 i,則訓(xùn)練時(shí)僅使用由版本i-η 至i-1 的策略生成的數(shù)據(jù)。系統(tǒng)會(huì)優(yōu)先消耗經(jīng)驗(yàn)池中相對(duì)較舊但仍在η 范圍內(nèi)的軌跡,以此確保訓(xùn)練數(shù)據(jù)的整體新鮮度在一個(gè)可控的滯后范圍內(nèi),避免因數(shù)據(jù)過(guò)度陳舊導(dǎo)致學(xué)習(xí)性能下降,同時(shí)最大化異步生成帶來(lái)的數(shù)據(jù)吞吐量。

第二個(gè)問(wèn)題也是由于異步帶來(lái)的,那就是模型會(huì)中途更新,所以一個(gè)模型的更新可能會(huì)受到很多批數(shù)據(jù)的影響,那到底是新的數(shù)據(jù)帶來(lái)的影響大還是舊的數(shù)據(jù),傳統(tǒng)的PPO算法需要這個(gè)信息,而AReaL-boba2的創(chuàng)新是承認(rèn)這條數(shù)據(jù)是“集體智慧”的產(chǎn)物,它的好壞(優(yōu)勢(shì))還是看實(shí)際效果。在進(jìn)行PPO學(xué)習(xí)時(shí),不直接比較當(dāng)前策略與那條可能由多個(gè)舊策略混合生成的復(fù)雜數(shù)據(jù),而是將當(dāng)前策略與一個(gè)固定的、較新的舊策略版本進(jìn)行比較和調(diào)整,以此來(lái)穩(wěn)定學(xué)習(xí)過(guò)程。

同樣做了算法消融實(shí)驗(yàn),標(biāo)準(zhǔn) PPO 對(duì)數(shù)據(jù)陳舊性非常敏感,即使是很小的陳舊度也會(huì)導(dǎo)致性能大幅下降 (下a圖),AReaL 提出的解耦 PPO 目標(biāo)函數(shù)能夠在允許一定程度數(shù)據(jù)陳舊性(η ≤ 4 甚至 η=8)的情況下,依然保持甚至提升最終的模型性能 (下b圖)。

可以看到AReal做的算法創(chuàng)新并不是孤立的,而是與異步系統(tǒng)架構(gòu)是相輔相成的,因?yàn)橐肓诵碌慕Y(jié)構(gòu)必定會(huì)擾動(dòng)原有的穩(wěn)定性,AReal修正了這些變化。

這也是是AReaL-boba2這個(gè)工作的核心價(jià)值,它在效率和性能上的突破很明顯,模型大小不變,在AReaL-boba2訓(xùn)練后,性能得到了明顯的提升,同時(shí)訓(xùn)練時(shí)間只有其他方法的一半左右。

可以說(shuō),這個(gè)工作在LRM大行其道,并且越來(lái)越被Agent AI需要的時(shí)代,它未來(lái)的工作方向如同論文中所說(shuō),會(huì)集中在動(dòng)態(tài)資源調(diào)配、多輪交互、智能體等)。特別是它對(duì)于降低頂尖LRM研發(fā)門(mén)檻有非常重要的作用,最終實(shí)現(xiàn)加速AGI實(shí)現(xiàn)的終極愿景。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
釘在恥辱柱上!國(guó)家文物局出手,這三個(gè)跳梁小丑,真的徹底涼涼了

釘在恥辱柱上!國(guó)家文物局出手,這三個(gè)跳梁小丑,真的徹底涼涼了

戶外阿嶄
2025-12-28 17:07:24
女卡車司機(jī)“半掛西施”去世后,網(wǎng)友分析網(wǎng)名,4個(gè)字竟字字應(yīng)驗(yàn)

女卡車司機(jī)“半掛西施”去世后,網(wǎng)友分析網(wǎng)名,4個(gè)字竟字字應(yīng)驗(yàn)

千言?shī)蕵?lè)記
2025-12-28 20:02:42
苦等5年,蒙古熟鴨子還是飛了,中俄誰(shuí)也不讓步,坐視大項(xiàng)目泡湯

苦等5年,蒙古熟鴨子還是飛了,中俄誰(shuí)也不讓步,坐視大項(xiàng)目泡湯

科普100克克
2025-12-07 18:20:34
美國(guó)國(guó)務(wù)院發(fā)火,要求中國(guó)大陸“必須停止”,島內(nèi)一個(gè)時(shí)代或終結(jié)

美國(guó)國(guó)務(wù)院發(fā)火,要求中國(guó)大陸“必須停止”,島內(nèi)一個(gè)時(shí)代或終結(jié)

三石記
2025-12-27 15:03:24
米蘭20天首勝!暫登頂意甲,10戰(zhàn)維羅納全勝,連刷4大紀(jì)錄

米蘭20天首勝!暫登頂意甲,10戰(zhàn)維羅納全勝,連刷4大紀(jì)錄

奧拜爾
2025-12-28 21:33:44
杭州姑娘“兔子警官”主動(dòng)回應(yīng)“哄孩子式執(zhí)法”:“他們需要外力推一下……”

杭州姑娘“兔子警官”主動(dòng)回應(yīng)“哄孩子式執(zhí)法”:“他們需要外力推一下……”

都市快報(bào)橙柿互動(dòng)
2025-12-28 14:07:18
保定大量商戶突然關(guān)閉,整個(gè)街道冷冷清清

保定大量商戶突然關(guān)閉,整個(gè)街道冷冷清清

映射生活的身影
2025-12-27 18:09:05
統(tǒng)治澳洲!韓旭26分鐘12中9高效22+5 加盟6戰(zhàn)全勝狂勝138分

統(tǒng)治澳洲!韓旭26分鐘12中9高效22+5 加盟6戰(zhàn)全勝狂勝138分

醉臥浮生
2025-12-28 18:09:56
瓜子二手車發(fā)布榜單,保值排名出乎意料

瓜子二手車發(fā)布榜單,保值排名出乎意料

ZAKER新聞
2025-12-26 15:23:34
1960年春節(jié),周總理請(qǐng)溥儀吃飯,酒桌上溥儀講了個(gè)慈禧的“笑話”,總理聽(tīng)完,當(dāng)場(chǎng)陷入了沉思

1960年春節(jié),周總理請(qǐng)溥儀吃飯,酒桌上溥儀講了個(gè)慈禧的“笑話”,總理聽(tīng)完,當(dāng)場(chǎng)陷入了沉思

歷史回憶室
2025-12-24 10:29:12
香港男子命喪天水圍橋底,嫌疑人在深圳灣口岸落網(wǎng)!押回現(xiàn)場(chǎng)

香港男子命喪天水圍橋底,嫌疑人在深圳灣口岸落網(wǎng)!押回現(xiàn)場(chǎng)

南方都市報(bào)
2025-12-28 12:18:04
直擊:日本發(fā)生重大交通事故,67輛車連環(huán)撞,幸存者顫抖回憶慘烈現(xiàn)場(chǎng)……

直擊:日本發(fā)生重大交通事故,67輛車連環(huán)撞,幸存者顫抖回憶慘烈現(xiàn)場(chǎng)……

日本物語(yǔ)
2025-12-27 20:32:22
閃評(píng)丨澤連斯基訪美之際 普京再就俄烏沖突局勢(shì)表態(tài)

閃評(píng)丨澤連斯基訪美之際 普京再就俄烏沖突局勢(shì)表態(tài)

國(guó)際在線
2025-12-28 15:07:02
畸形兒風(fēng)波反轉(zhuǎn)!醫(yī)院回應(yīng)透露2個(gè)關(guān)鍵信息 闞清子的沉默早有預(yù)兆

畸形兒風(fēng)波反轉(zhuǎn)!醫(yī)院回應(yīng)透露2個(gè)關(guān)鍵信息 闞清子的沉默早有預(yù)兆

觀察鑒娛
2025-12-28 10:26:06
201米!40億!騰訊西南總部,世界“第一扭”摩天樓

201米!40億!騰訊西南總部,世界“第一扭”摩天樓

GA環(huán)球建筑
2025-12-25 23:00:32
羽球天王杯:銅牌誕生!世界第8復(fù)仇喬納坦,石宇奇首局7-11落后

羽球天王杯:銅牌誕生!世界第8復(fù)仇喬納坦,石宇奇首局7-11落后

劉姚堯的文字城堡
2025-12-28 20:01:00
61歲奧巴馬夫人暴瘦后“逆生長(zhǎng)”,與前總統(tǒng)丈夫合照笑開(kāi)了花

61歲奧巴馬夫人暴瘦后“逆生長(zhǎng)”,與前總統(tǒng)丈夫合照笑開(kāi)了花

艷兒說(shuō)電影
2025-12-27 21:11:14
甚至來(lái)不及準(zhǔn)備,湘超冠軍永州隊(duì)巡游花車為臨時(shí)切割公交車改造而成

甚至來(lái)不及準(zhǔn)備,湘超冠軍永州隊(duì)巡游花車為臨時(shí)切割公交車改造而成

懂球帝
2025-12-28 16:35:07
廣東一小伙,因入住毛坯房而走紅,花費(fèi)僅1萬(wàn),卻無(wú)一絲窮酸氣!

廣東一小伙,因入住毛坯房而走紅,花費(fèi)僅1萬(wàn),卻無(wú)一絲窮酸氣!

阿離家居
2025-12-28 10:19:49
沖上熱搜!黃子韜因腦淤血接受開(kāi)顱手術(shù)縫了43針,本人回應(yīng)

沖上熱搜!黃子韜因腦淤血接受開(kāi)顱手術(shù)縫了43針,本人回應(yīng)

半島晨報(bào)
2025-12-28 18:04:45
2025-12-28 21:52:49
平凡AI incentive-icons
平凡AI
高校AI從業(yè)者
54文章數(shù) 23關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢(shì)

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢(shì)

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂(lè)要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

本地
游戲
時(shí)尚
教育
公開(kāi)課

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬(wàn)年史書(shū)

醉酒兔女郎護(hù)送回家!重磅更新可偷看裙底?

2026年了,最好看還是這件大衣!

教育要聞

從2026年北京選調(diào)擬錄用名單看升學(xué):這些大學(xué)最受青睞

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版