国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek的GRPO會(huì)導(dǎo)致模型崩潰?看下Qwen3新范式GSPO

0
分享至



機(jī)器之心報(bào)道

機(jī)器之心編輯部

眾所周知,大型語(yǔ)言模型的訓(xùn)練通常分為兩個(gè)階段。第一階段是「預(yù)訓(xùn)練」,開(kāi)發(fā)者利用大規(guī)模文本數(shù)據(jù)集訓(xùn)練模型,讓它學(xué)會(huì)預(yù)測(cè)句子中的下一個(gè)詞。第二階段是「后訓(xùn)練」,旨在教會(huì)模型如何更好地理解和執(zhí)行人類(lèi)指令。

在 LLM 后訓(xùn)練階段,似乎是一個(gè)強(qiáng)化學(xué)習(xí)的特殊形式。用于大語(yǔ)言模型(LLMs)微調(diào)的強(qiáng)化學(xué)習(xí)(RL)算法正沿著一條明確的演進(jìn)路徑持續(xù)發(fā)展。

起初,OpenAI 開(kāi)創(chuàng)了一種名為 基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)的技術(shù),用于改進(jìn) ChatGPT。RLHF 的核心是讓人類(lèi)標(biāo)注員對(duì)模型生成的多種響應(yīng)進(jìn)行打分,并選出最優(yōu)答案作為訓(xùn)練參考。這一過(guò)程雖然有效,但也耗時(shí)、昂貴且依賴人力,通常需要一支小型但專(zhuān)業(yè)的數(shù)據(jù)標(biāo)注團(tuán)隊(duì)。

DeepSeek 的重要?jiǎng)?chuàng)新在于用 RL 技術(shù)自動(dòng)化了這一環(huán)節(jié)。算法不再依賴人工逐一評(píng)估,而是讓模型在探索過(guò)程中,通過(guò)獲得「獎(jiǎng)勵(lì)信號(hào)」自主學(xué)習(xí)正確行為,從而顯著降低了成本,提高了效率,最終能以較低的成本實(shí)現(xiàn)高性能。

OpenAI 在 ChatGPT 的訓(xùn)練中采用了近端策略優(yōu)化(Proximal Policy Optimization, PPO)

而 DeepSeek 團(tuán)隊(duì) 則認(rèn)為,在一組樣本中進(jìn)行價(jià)值估計(jì)更加有效,因此提出了組相對(duì)策略優(yōu)化(Group Relative Policy Optimization, GRPO)算法,這也是 DeepSeek-R1 中的核心技術(shù),使 DeepSeek-R1 模型大放異彩。



GPRO 與 PPO 的對(duì)比,摘自 DeepSeekMath 論文。

在幾個(gè)月前 Qwen3 首次亮相的時(shí)候,其旗艦?zāi)P偷男阅芫鸵呀?jīng)與 DeepSeek-R1、o3-mini、Gemini 2.5 Pro 等頂級(jí)模型表現(xiàn)相當(dāng)。除此以外,Qwen3 系列模型覆蓋了 MoE 模型和密集模型,每一款模型又有許多細(xì)分版本。

近些天,Qwen3 系列模型仍然在不停的迭代更新,例如 Qwen3-235B-A22B-Instruct-2507-FP8 在知識(shí)數(shù)學(xué)、編程、人類(lèi)偏好對(duì)齊、Agent 能力等眾多測(cè)評(píng)中表現(xiàn)出色,甚至了超過(guò) Kimi-K2、DeepSeek-V3 等頂級(jí)開(kāi)源模型以及 Claude-Opus4-Non-thinking 等領(lǐng)先閉源模型。

最近,Qwen 團(tuán)隊(duì)發(fā)布了一篇有關(guān)其模型后訓(xùn)練算法的論文,似乎揭示了 Qwen3 模型成功的核心技術(shù)細(xì)節(jié)。



  • 論文標(biāo)題:Group Sequence Policy Optimization
  • 論文鏈接:https://huggingface.co/papers/2507.18071
  • 博客鏈接:https://qwenlm.github.io/blog/gspo/

而在昨天,來(lái)自清華大學(xué)校友創(chuàng)立的創(chuàng)業(yè)公司 NetMind.AI發(fā)表了一篇博客,題為《Qwen Team Proposes GSPO for Qwen3, Claims DeepSeek's GRPO is Ill-Posed》,對(duì) Qwen 團(tuán)隊(duì)為 Qwen3 模型提出的 GSPO 算法進(jìn)行了詳盡的介紹與分析。



  • 博客鏈接:https://blog.netmind.ai/article/Qwen_Team_Proposes_GSPO_for_Qwen3%2C_Claims_DeepSeek's_GRPO_is_Ill-Posed

最近 Qwen 的研究表明,使用 GRPO 訓(xùn)練大語(yǔ)言模型時(shí)存在嚴(yán)重的穩(wěn)定性問(wèn)題,往往會(huì)導(dǎo)致模型不可逆地崩潰。他們認(rèn)為 DeepSeek 的 GPRO 方法存在一些嚴(yán)重問(wèn)題:

  • 在每個(gè) token 級(jí)別應(yīng)用重要性采樣,會(huì)在長(zhǎng)序列中積累高方差,導(dǎo)致訓(xùn)練不穩(wěn)定
  • 這一問(wèn)題在 專(zhuān)家混合模型(Mixture-of-Experts, MoE) 中尤為嚴(yán)重,因?yàn)?strong>token 級(jí)別的路由變化會(huì)加劇不穩(wěn)定性
  • 為緩解這一問(wèn)題,基于 GRPO 的訓(xùn)練流程通常需要依賴一些額外策略,例如 路由重放(Routing Replay)。

因此,Qwen 團(tuán)隊(duì)聲稱(chēng) GRPO 的 token 級(jí)重要性采樣無(wú)法達(dá)到穩(wěn)定訓(xùn)練,其優(yōu)化目標(biāo)是「病態(tài)的(ill-posed)」

為了解決這些問(wèn)題并訓(xùn)練其最新的 Qwen3 系列模型,Qwen 團(tuán)隊(duì)提出了一種新的強(qiáng)化學(xué)習(xí)算法 ——組序列策略優(yōu)化(Group Sequence Policy Optimization, GSPO)

GRPO 的根本問(wèn)題:

「逐 token 重要性采樣」的不穩(wěn)定性

Qwen 團(tuán)隊(duì)指出,GRPO 的不穩(wěn)定性源于其對(duì) token 級(jí)重要性采樣權(quán)重的錯(cuò)誤使用。在強(qiáng)化學(xué)習(xí)中,重要性采樣(Importance Sampling)用于校正行為策略(即用于收集訓(xùn)練數(shù)據(jù)的策略)與目標(biāo)策略(當(dāng)前正在優(yōu)化的策略)之間的差異。

當(dāng)兩者不一致時(shí),重要性采樣通過(guò)為已有數(shù)據(jù)樣本賦予權(quán)重,使其更能代表當(dāng)前希望優(yōu)化的目標(biāo)策略,從而提高訓(xùn)練的穩(wěn)定性與有效性。

在大語(yǔ)言模型(LLMs)的訓(xùn)練中,強(qiáng)化學(xué)習(xí)常常會(huì)復(fù)用舊策略生成的響應(yīng),以節(jié)省計(jì)算資源,這屬于典型的「離策略」(off-policy)訓(xùn)練場(chǎng)景。重要性采樣正是用于緩解這種策略不匹配帶來(lái)的影響,并幫助穩(wěn)定訓(xùn)練過(guò)程。

然而,GRPO 將重要性采樣的權(quán)重應(yīng)用在每一個(gè) token 上,而非整個(gè)生成的序列。這種做法會(huì)帶來(lái)顯著的方差,并在生成較長(zhǎng)序列時(shí)造成「誤差積累」與「訓(xùn)練不穩(wěn)定性」。

從形式上講,GRPO 是在每一個(gè) token 的生成步驟上單獨(dú)計(jì)算重要性權(quán)重的:



Qwen 團(tuán)隊(duì)指出,當(dāng)在訓(xùn)練目標(biāo)中應(yīng)用此類(lèi)重要性權(quán)重時(shí),由于每個(gè) token 的比值是獨(dú)立計(jì)算的,會(huì)導(dǎo)致高方差的累積,從而破壞梯度穩(wěn)定性,最終引發(fā)模型崩潰。

同時(shí),這種做法會(huì)將高方差噪聲引入訓(xùn)練梯度中,尤其在長(zhǎng)序列上呈現(xiàn)累積效應(yīng),并且在存在「裁剪機(jī)制」時(shí),這種不穩(wěn)定性問(wèn)題會(huì)進(jìn)一步加劇。

Qwen 團(tuán)隊(duì)的實(shí)驗(yàn)證據(jù)

Qwen 團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)證據(jù)驗(yàn)證了其理論分析,如圖所示。

在所有展示的實(shí)驗(yàn)場(chǎng)景中,其新提出的算法 GSPO 均表現(xiàn)出比 GRPO 更高的訓(xùn)練效率。在 CodeForces 任務(wù)中,GRPO 的最終得分收斂于 2000 分以下,而 GSPO 隨著訓(xùn)練計(jì)算量的增加持續(xù)提升成績(jī),展現(xiàn)出更強(qiáng)的「可擴(kuò)展性」。



GSPO 與 GRPO 的訓(xùn)練曲線對(duì)比

Qwen 的解決方案:

「序列級(jí)重要性采樣」

那么,GSPO 是如何解決上述問(wèn)題的呢?

正如其名稱(chēng)所暗示的,GSPO 的核心在于將重要性采樣從 token 級(jí)轉(zhuǎn)移至序列級(jí),其重要性比值基于整個(gè)序列的似然度計(jì)算:



這種采樣權(quán)重的設(shè)計(jì)自然地緩解了逐 token 方差的累積問(wèn)題,從而顯著提升了訓(xùn)練過(guò)程的穩(wěn)定性。

需要注意的是,指數(shù)中的因子用于「長(zhǎng)度歸一化」。如果不進(jìn)行長(zhǎng)度歸一化,僅僅幾個(gè) token 的似然變化就可能導(dǎo)致序列級(jí)重要性比值的劇烈波動(dòng),而不同長(zhǎng)度的生成響應(yīng)在目標(biāo)函數(shù)中也將需要不同的裁剪范圍,這會(huì)進(jìn)一步增加訓(xùn)練的不穩(wěn)定性。

實(shí)驗(yàn)驗(yàn)證的優(yōu)勢(shì):

簡(jiǎn)化 MoE 模型訓(xùn)練

針對(duì)專(zhuān)家混合模型(MoE)所進(jìn)行的專(zhuān)項(xiàng)實(shí)驗(yàn)進(jìn)一步強(qiáng)調(diào)了 GSPO 的優(yōu)勢(shì)。

由于 MoE 模型具有稀疏激活特性,這會(huì)在使用 GRPO 時(shí)進(jìn)一步加劇訓(xùn)練過(guò)程中的不穩(wěn)定性。在經(jīng)過(guò)一次或多次梯度更新后,相同響應(yīng)所激活的專(zhuān)家網(wǎng)絡(luò)可能發(fā)生顯著變化。

Qwen 團(tuán)隊(duì)在使用 GRPO 訓(xùn)練 48 層的 Qwen3-30B-A3B-Base 模型時(shí)發(fā)現(xiàn):在每一次強(qiáng)化學(xué)習(xí)的梯度更新后,對(duì)于相同的 rollout 樣本,新策略所激活的專(zhuān)家中約有 10% 與舊策略所激活的專(zhuān)家不同。這實(shí)際上意味著,每次梯度更新后,你都在用不同的數(shù)據(jù)樣本訓(xùn)練不同的模型,毫無(wú)疑問(wèn)這是一種極其低效的訓(xùn)練方式。

在引入 GSPO 之前,為緩解這一問(wèn)題,他們甚至采取了一種名為「Routing Replay」的技巧,即強(qiáng)制目標(biāo)策略激活與舊策略相同的專(zhuān)家網(wǎng)絡(luò)。

相比之下,GSPO 無(wú)需使用 Routing Replay 也能實(shí)現(xiàn)穩(wěn)定收斂,從而消除了不必要的訓(xùn)練復(fù)雜性,并保留了 MoE 架構(gòu)的全部潛力。



Routing Replay 策略在 GRPO 訓(xùn)練 MoE 模型的正常收斂中起到了關(guān)鍵作用

結(jié)論:

GSPO 或?qū)⒊蔀樾碌臉?biāo)準(zhǔn)

總結(jié)一下,GSPO 的方法有兩點(diǎn)創(chuàng)新:

  • 將重要性采樣從 token 級(jí)別提升到序列級(jí)別,并通過(guò)序列長(zhǎng)度進(jìn)行歸一化處理;
  • 顯著降低了方差,同時(shí)消除了對(duì)「路由技巧」(如 Routing Replay)等輔助策略的依賴;

業(yè)界已普遍達(dá)成共識(shí) —— 在大語(yǔ)言模型的后訓(xùn)練階段引入強(qiáng)化學(xué)習(xí),對(duì)于提升其推理能力至關(guān)重要。

而論文中的大量實(shí)驗(yàn)結(jié)果也進(jìn)一步證實(shí),GRPO 所采用的「逐 token 重要性采樣」方法存在不穩(wěn)定性和低效性的問(wèn)題。

因此,GSPO 提出的「序列級(jí)重要性采樣」很可能會(huì)成為未來(lái)后訓(xùn)練強(qiáng)化學(xué)習(xí)的新標(biāo)準(zhǔn)。

https://www.reddit.com/r/MachineLearning/comments/1mj3t3r/d_gspo_qwen3s_sequencelevel_rlhf_method_vs_grpo/

https://blog.netmind.ai/article/Qwen_Team_Proposes_GSPO_for_Qwen3%2C_Claims_DeepSeek's_GRPO_is_Ill-Posed

https://www.ft.com/content/ea803121-196f-4c61-ab70-93b38043836e?utm_source=chatgpt.com

https://zhuanlan.zhihu.com/p/22845155602

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
南博流出畫(huà)卷簽字院長(zhǎng)回應(yīng):非經(jīng)我手鑒定,以調(diào)查為準(zhǔn)

南博流出畫(huà)卷簽字院長(zhǎng)回應(yīng):非經(jīng)我手鑒定,以調(diào)查為準(zhǔn)

正在新聞
2025-12-19 23:41:52
臺(tái)北車(chē)站隨機(jī)砍人嫌犯已死亡!擲煙霧彈+30cm長(zhǎng)刀傷人,此前因妨害兵役遭通緝

臺(tái)北車(chē)站隨機(jī)砍人嫌犯已死亡!擲煙霧彈+30cm長(zhǎng)刀傷人,此前因妨害兵役遭通緝

可達(dá)鴨面面觀
2025-12-19 20:30:10
樊振東帶火歐洲乒乓市場(chǎng)!王勵(lì)勤出手 拆開(kāi)林詩(shī)棟蒯曼 培養(yǎng)2新人

樊振東帶火歐洲乒乓市場(chǎng)!王勵(lì)勤出手 拆開(kāi)林詩(shī)棟蒯曼 培養(yǎng)2新人

侃球熊弟
2025-12-19 08:45:12
中國(guó)又一個(gè)伙伴倒向美國(guó)?撕毀合同,把矛頭對(duì)準(zhǔn)了中方

中國(guó)又一個(gè)伙伴倒向美國(guó)?撕毀合同,把矛頭對(duì)準(zhǔn)了中方

博覽歷史
2025-12-18 18:16:35
大瓜!年輕少婦出軌被當(dāng)場(chǎng)抓奸,丈夫唯唯諾諾,視頻曝光惹怒網(wǎng)友

大瓜!年輕少婦出軌被當(dāng)場(chǎng)抓奸,丈夫唯唯諾諾,視頻曝光惹怒網(wǎng)友

烏娛子醬
2025-12-19 14:26:23
意大利發(fā)現(xiàn)距今3700年的骨骼,是目前已知最古老的父女亂倫證據(jù)

意大利發(fā)現(xiàn)距今3700年的骨骼,是目前已知最古老的父女亂倫證據(jù)

老爸講科學(xué)
2025-12-19 09:22:32
哥哥離世+家人重??!35歲德甲名將崩潰決定退役,曾險(xiǎn)些加盟國(guó)安

哥哥離世+家人重??!35歲德甲名將崩潰決定退役,曾險(xiǎn)些加盟國(guó)安

我愛(ài)英超
2025-12-19 22:08:47
新聞多一度|南京博物院藏品現(xiàn)身拍賣(mài)市場(chǎng)?最新回應(yīng)來(lái)了

新聞多一度|南京博物院藏品現(xiàn)身拍賣(mài)市場(chǎng)?最新回應(yīng)來(lái)了

新京報(bào)
2025-12-19 20:45:08
NBA重磅交易傳聞,勇士拋棄庫(kù)里,與火箭進(jìn)行三方交易

NBA重磅交易傳聞,勇士拋棄庫(kù)里,與火箭進(jìn)行三方交易

藝兔體壇
2025-12-19 21:49:11
孫穎莎再次被點(diǎn)名!人民日?qǐng)?bào)親自下場(chǎng),商業(yè)賽事憑什么拿人不當(dāng)人

孫穎莎再次被點(diǎn)名!人民日?qǐng)?bào)親自下場(chǎng),商業(yè)賽事憑什么拿人不當(dāng)人

君笙的拂兮
2025-12-19 03:15:22
河南“毆打第三者”事件最新進(jìn)展:原配取保候?qū)?年后再被刑拘,近日將開(kāi)庭,多方發(fā)聲

河南“毆打第三者”事件最新進(jìn)展:原配取保候?qū)?年后再被刑拘,近日將開(kāi)庭,多方發(fā)聲

瀟湘晨報(bào)
2025-12-19 18:22:14
山東省紀(jì)委監(jiān)委通報(bào),1人主動(dòng)投案,1人被查

山東省紀(jì)委監(jiān)委通報(bào),1人主動(dòng)投案,1人被查

齊魯壹點(diǎn)
2025-12-19 17:28:52
王楚欽傳來(lái)壞消息:背傷診斷結(jié)果曝光!林詩(shī)棟17天打3站,不休息

王楚欽傳來(lái)壞消息:背傷診斷結(jié)果曝光!林詩(shī)棟17天打3站,不休息

侃球熊弟
2025-12-20 00:15:03
海南封關(guān)次日實(shí)探三亞免稅店:蘭蔻等護(hù)膚品牌有免稅臨期產(chǎn)品5折銷(xiāo)售,此前甚至有口紅打1折

海南封關(guān)次日實(shí)探三亞免稅店:蘭蔻等護(hù)膚品牌有免稅臨期產(chǎn)品5折銷(xiāo)售,此前甚至有口紅打1折

極目新聞
2025-12-19 13:22:22
我外交部突然發(fā)出警告,如果外媒消息屬實(shí),中日事態(tài)將會(huì)相當(dāng)嚴(yán)重

我外交部突然發(fā)出警告,如果外媒消息屬實(shí),中日事態(tài)將會(huì)相當(dāng)嚴(yán)重

影孖看世界
2025-12-19 19:14:04
41歲天龍救援隊(duì)隊(duì)員任志飛突發(fā)疾病離世,隊(duì)友:他熱愛(ài)公益救援,是個(gè)積極樂(lè)觀的人

41歲天龍救援隊(duì)隊(duì)員任志飛突發(fā)疾病離世,隊(duì)友:他熱愛(ài)公益救援,是個(gè)積極樂(lè)觀的人

極目新聞
2025-12-19 16:12:00
韓國(guó)特工與泰軍合作,潛入電詐園抓獲殺害韓國(guó)女人質(zhì)的中國(guó)籍綁匪

韓國(guó)特工與泰軍合作,潛入電詐園抓獲殺害韓國(guó)女人質(zhì)的中國(guó)籍綁匪

環(huán)球熱點(diǎn)快評(píng)
2025-12-18 11:43:15
云南大理發(fā)生的這件事,有些人已經(jīng)徹底沒(méi)有底線了!

云南大理發(fā)生的這件事,有些人已經(jīng)徹底沒(méi)有底線了!

胖胖說(shuō)他不胖
2025-12-19 11:00:11
南京博物館:捐贈(zèng)已歸國(guó)家,無(wú)義務(wù)返還

南京博物館:捐贈(zèng)已歸國(guó)家,無(wú)義務(wù)返還

映射生活的身影
2025-12-19 17:13:17
62票贊成,被彈劾不止賴清德一人,不到24小時(shí),上百萬(wàn)人聯(lián)署力挺

62票贊成,被彈劾不止賴清德一人,不到24小時(shí),上百萬(wàn)人聯(lián)署力挺

離離言幾許
2025-12-19 16:09:43
2025-12-20 05:52:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
11957文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來(lái)

頭條要聞

普京:俄方愿在烏克蘭選舉期間暫時(shí)停止打擊

頭條要聞

普京:俄方愿在烏克蘭選舉期間暫時(shí)停止打擊

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂(lè)要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

日元加息,恐慌來(lái)了?貨幣三國(guó)殺

汽車(chē)要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

手機(jī)
游戲
時(shí)尚
親子
教育

手機(jī)要聞

19999起,三星Galaxy Z TriFold迎來(lái)首銷(xiāo)

網(wǎng)易!你把棋盤(pán)掀了那我玩什么!

痛經(jīng)的女性,正在猛灌中男“保健酒”

親子要聞

寶媽必學(xué),為什么教孩子不舒服的觸摸要拒絕是錯(cuò)誤的?

教育要聞

教育部試卷禁令下的教育反思,老師是該重拾命題能力了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版