国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

拒絕“熵崩塌”和“熵爆炸”!這項研究讓大模型推理成績飆升

0
分享至

大語言模型在RLVR訓(xùn)練中面臨的“熵困境”,有解了!

2024年以來,以O(shè)penAI o1、DeepSeek-R1、Kimi K1、Qwen3等為代表的大模型,在數(shù)學(xué)、代碼和科學(xué)推理任務(wù)上取得了顯著突破。這些進(jìn)展很大程度上得益于一種名為RLVR (基于可驗證獎勵的強(qiáng)化學(xué)習(xí))的方法。

該方法通過數(shù)學(xué)驗證、單元測試等可自動判斷對錯的方式提供訓(xùn)練信號,替代了傳統(tǒng)依賴人類評判的流程,使模型能夠進(jìn)行大規(guī)模、高效率的自我改進(jìn)。

然而,RLVR在實(shí)踐中始終面臨“探索機(jī)制極易失衡”這一關(guān)鍵瓶頸——要么探索受限,陷入熵崩塌;要么探索失控,引發(fā)熵爆炸。

為突破這一瓶頸,來自上海人工智能實(shí)驗室和復(fù)旦大學(xué)等機(jī)構(gòu)的研究團(tuán)隊提出選擇性熵正則化方法(SIREN),通過劃定探索范圍、聚焦關(guān)鍵決策、穩(wěn)定訓(xùn)練過程的三重機(jī)制,實(shí)現(xiàn)了對探索行為的精準(zhǔn)調(diào)控。

實(shí)驗證明,該方法不僅在多項數(shù)學(xué)推理基準(zhǔn)上取得了顯著性能提升,更重要的是,它讓模型的探索過程變得更加高效與可控。



下面詳細(xì)來看——

核心困境:探索的“兩難陷阱”

在RLVR訓(xùn)練中,研究人員期望模型能夠持續(xù)探索多樣化的解題路徑,以避免過早陷入局部最優(yōu)。

一個自然的想法是:引入熵正則化(entropy regularization)。

這是強(qiáng)化學(xué)習(xí)中鼓勵探索的經(jīng)典手段。其核心思想很簡單:在優(yōu)化目標(biāo)中加入一項,鼓勵模型在每一步生成時保持一定的“不確定性”,不要過早把概率全壓在少數(shù)幾個詞上。

具體來說,就是計算每一步輸出分布的熵(衡量“混亂程度”),再把整條推理軌跡的平均熵加到訓(xùn)練目標(biāo)里,用一個系數(shù)控制探索強(qiáng)度。

以下公式分別為:熵的計算公式及熵正則的優(yōu)化目標(biāo)。





然而,這一策略在大型推理模型(LRM)的復(fù)雜場景下卻極易走向兩個極端:

  • 探索受限(熵崩塌)

當(dāng)太小,熵項幾乎不起作用,模型迅速退化為近似確定性策略。平均熵迅速收斂,即發(fā)生熵崩塌。幾輪訓(xùn)練后,所有回答都高度相似,陷入“舒適區(qū)”。這種熵崩塌現(xiàn)象不僅扼殺了模型的多樣性,也使其推理能力在訓(xùn)練早期就觸及天花板,無法充分釋放潛力。

  • 探索失控(熵爆炸)

反之,當(dāng)稍大,模型便極易在龐大的動作空間(數(shù)十萬個token)與超長的推理軌跡(上千步生成)中失控。根據(jù)熵的定義,當(dāng)概率分布越“平”,熵就越高。而在如此龐大的詞表中,哪怕只把一點(diǎn)點(diǎn)概率質(zhì)量從高義詞(如“因此”)挪到無意義詞(如“<”“#@$%”),也能帶來顯著的熵增。

更糟的是,在自回歸生成中,這種不確定性會沿著軌跡逐步累積——早期幾步的微小混亂,會迅速放大為整條推理鏈的失控。最終使得模型為了“拉高熵”,在每個位置、對每個token都分配一點(diǎn)概率,導(dǎo)致生成內(nèi)容充斥無意義符號,邏輯斷裂、語義崩壞——這就是典型的熵爆炸(entropy explosion)。

傳統(tǒng)方法會失效的根本原因在于:熵正則化的激勵是“無差別”的——它假設(shè)所有token、所有位置都同等值得探索。但LRM的生成過程具有鮮明的結(jié)構(gòu)性:

  • 在每個生成步驟上,僅有概率排名靠前的少數(shù)token具備語義合理性,其余絕大多數(shù)token概率趨近于零且無實(shí)際意義;
  • 在整個生成序列中,僅有少數(shù)承擔(dān)邏輯樞紐作用的關(guān)鍵詞(如邏輯連接詞、變量名、結(jié)論引導(dǎo)詞)真正影響推理走向,而大量用于句法填充的常規(guī)詞則應(yīng)保持高確定性,以維持推理連貫性。

正因忽略了這種“探索價值的非均勻分布”,傳統(tǒng)熵正則化不僅難以有效引導(dǎo)探索,反而容易引發(fā)訓(xùn)練不穩(wěn)定,甚至背離提升推理能力的初衷。

下圖表明,訓(xùn)練前模型的概率分布高度集中,且只有少量位置在邏輯上關(guān)鍵,值得探索;過度探索后概率被攤薄,生成內(nèi)容混亂。



破局之道:為探索裝上“精準(zhǔn)導(dǎo)航”

針對傳統(tǒng)方法的不足,研究人員提出選擇性熵正則化方法(SIREN),通過結(jié)構(gòu)化約束實(shí)現(xiàn)探索過程的精細(xì)調(diào)控。SIREN包含三個核心機(jī)制:

1、劃定探索范圍(Top-p掩碼, Top-P Mask)

在每個生成步驟中,將熵的計算范圍嚴(yán)格限定于概率最高的核心token集合,確保探索僅在語義合理的候選詞中進(jìn)行,避免無效探索。

2、識別關(guān)鍵決策點(diǎn)(峰值熵掩碼,Peak-entropy Mask)

自動識別生成序列中熵值顯著高于平均水平的邏輯關(guān)鍵詞(如推理連接詞、假設(shè)引導(dǎo)詞等),并將探索激勵集中作用于這些關(guān)鍵位置。

3、穩(wěn)定訓(xùn)練過程(自錨定正則化, Self-anchored Regularization)

將熵值目標(biāo)從最大化調(diào)整為維持合理區(qū)間,通過動態(tài)錨定機(jī)制使探索強(qiáng)度始終處于可控范圍,避免訓(xùn)練失穩(wěn)。

這一方法首次在RLVR框架中實(shí)現(xiàn)了對探索范圍、位置和強(qiáng)度的三重精準(zhǔn)控制,為大規(guī)模推理模型的穩(wěn)定訓(xùn)練提供了可靠解決方案。

下圖為SIREN的方法流程:



實(shí)驗驗證:有效探索促進(jìn)性能提升

實(shí)驗結(jié)果顯示,SIREN在不同模型和數(shù)據(jù)集上均取得顯著提升。

以下為SIREN在Qwen2.5-Math-7B上的實(shí)驗結(jié)果:



以及SIREN在其他基座模型上的實(shí)驗結(jié)果:



上述結(jié)果表明:

  • 在Qwen2.5-Math-7B上,SIREN平均maj@k達(dá)54.6%,超越最強(qiáng)基線4.8%
  • 在最具挑戰(zhàn)的AIME24/25上,提升均達(dá)6.6%
  • 在1.5B到8B不同規(guī)模、不同基座的模型上均穩(wěn)定有效。

那么,這些性能提升從何而來?

分析表明,這正是有效探索帶來的根本性改變。與傳統(tǒng)的熵正則方法相比,SIREN展現(xiàn)出更合理有效的探索模式。

下圖中,SIREN展現(xiàn)出較高的pass@k,探索邊界顯著擴(kuò)展:



還能避免困惑度坍縮,SIREN將答案多樣性保持良好:



下圖表明,先加大探索再緩慢收斂,訓(xùn)練過程平穩(wěn)可控:



小結(jié)

這項研究致力于解決大語言模型在RLVR訓(xùn)練中面臨的策略探索難題。

通過系統(tǒng)的實(shí)證分析,研究人員發(fā)現(xiàn)傳統(tǒng)的探索機(jī)制在大規(guī)模動作空間和長序列生成中極易失衡,導(dǎo)致模型陷入熵崩塌和熵爆炸的困境。

為突破這一瓶頸,團(tuán)隊提出了選擇性熵正則化方法(SIREN),通過劃定探索范圍、聚焦關(guān)鍵決策、穩(wěn)定訓(xùn)練過程的三重機(jī)制,實(shí)現(xiàn)了對探索行為的精準(zhǔn)調(diào)控。實(shí)驗證明,該方法不僅在多項數(shù)學(xué)推理基準(zhǔn)上取得了顯著性能提升,更重要的是,它讓模型的探索過程變得更加高效與可控。

團(tuán)隊表示,展望未來,隨著強(qiáng)化學(xué)習(xí)成為大模型后訓(xùn)練的主流方法,如何實(shí)現(xiàn)穩(wěn)定、可控、高效的探索,將成為釋放大模型潛力、突破性能瓶頸的核心議題。該研究提出的選擇性探索調(diào)控機(jī)制,為探索的精細(xì)化提供了一種可行的解決方案。

團(tuán)隊期待這項工作能為下一代推理模型的訓(xùn)練范式提供啟發(fā),推動大模型在數(shù)學(xué)、代碼、科學(xué)推理等復(fù)雜任務(wù)以及其他更廣闊的應(yīng)用領(lǐng)域走得更遠(yuǎn)。

論文鏈接:https://arxiv.org/abs/2509.25133
項目主頁:https://github.com/Linn3a/siren

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
放過觀眾吧!這5位春晚“混子”演啥啥不行,難怪會遭到觀眾抵制

放過觀眾吧!這5位春晚“混子”演啥啥不行,難怪會遭到觀眾抵制

銀河史記
2025-12-18 16:22:03
韓國特工聯(lián)手泰軍突襲電詐園區(qū),抓獲殺害韓國女人質(zhì)的中國籍綁匪

韓國特工聯(lián)手泰軍突襲電詐園區(qū),抓獲殺害韓國女人質(zhì)的中國籍綁匪

新銳消息
2025-12-19 08:13:37
17場0球 觀眾狂噓!皇馬巨星心態(tài)炸了:賽后5分鐘耍脾氣

17場0球 觀眾狂噓!皇馬巨星心態(tài)炸了:賽后5分鐘耍脾氣

葉青足球世界
2025-12-21 09:00:01
“有需要可帶走過夜”,多地私人影院強(qiáng)推異性陪侍套餐

“有需要可帶走過夜”,多地私人影院強(qiáng)推異性陪侍套餐

深圳晚報
2025-12-20 23:44:19
南博事件繼續(xù)升級!借走字畫的神秘“老同志”是誰?全網(wǎng)都在找…

南博事件繼續(xù)升級!借走字畫的神秘“老同志”是誰?全網(wǎng)都在找…

火山詩話
2025-12-21 06:56:09
不是迷信!今日冬至,晚上最不能做的5件事,別忘了告訴家人!

不是迷信!今日冬至,晚上最不能做的5件事,別忘了告訴家人!

阿龍美食記
2025-12-21 03:51:06
涉生活作風(fēng)問題被停職專家坐診安排引爭議,銅仁市中醫(yī)醫(yī)院刪除推文“他不來了”

涉生活作風(fēng)問題被停職專家坐診安排引爭議,銅仁市中醫(yī)醫(yī)院刪除推文“他不來了”

紅星新聞
2025-12-20 20:32:12
印度約8000名考生坐機(jī)場跑道上答題考試,競爭僅有的187個政府職位

印度約8000名考生坐機(jī)場跑道上答題考試,競爭僅有的187個政府職位

觀威海
2025-12-20 16:42:05
馬克西38分76人末節(jié)逆轉(zhuǎn)獨(dú)行俠 濃眉24+14埃奇庫姆26分

馬克西38分76人末節(jié)逆轉(zhuǎn)獨(dú)行俠 濃眉24+14埃奇庫姆26分

醉臥浮生
2025-12-21 10:24:14
73歲普京罕見回應(yīng)感情生活,承認(rèn)正在戀愛中!信息量很大......

73歲普京罕見回應(yīng)感情生活,承認(rèn)正在戀愛中!信息量很大......

新民周刊
2025-12-20 17:10:52
心痛!30歲男銷售確認(rèn)死亡,目擊者講述事發(fā)經(jīng)過,車主懵了

心痛!30歲男銷售確認(rèn)死亡,目擊者講述事發(fā)經(jīng)過,車主懵了

魔都姐姐雜談
2025-12-20 09:19:55
日德取消8000萬訂單,只為“拖垮”中國高鐵!不料我方早有應(yīng)對

日德取消8000萬訂單,只為“拖垮”中國高鐵!不料我方早有應(yīng)對

劉曠
2025-12-20 15:00:37
斯諾克新王誕生!常冰玉沖94萬冠軍獎金,中國斯諾克奪冠第10人?

斯諾克新王誕生!常冰玉沖94萬冠軍獎金,中國斯諾克奪冠第10人?

劉姚堯的文字城堡
2025-12-21 06:46:36
突然爆雷,深圳總部幾乎搬空!有人投入700多萬元

突然爆雷,深圳總部幾乎搬空!有人投入700多萬元

晉江電視臺
2025-12-20 13:06:55
兩岸好消息:“承認(rèn)”共屬中國!臺當(dāng)局終于做對1次,熟悉統(tǒng)一

兩岸好消息:“承認(rèn)”共屬中國!臺當(dāng)局終于做對1次,熟悉統(tǒng)一

愛吃醋的貓咪
2025-12-20 21:11:30
“恨國女”許可馨:移民美國,已結(jié)婚,丈夫大量照片曝光遭質(zhì)疑

“恨國女”許可馨:移民美國,已結(jié)婚,丈夫大量照片曝光遭質(zhì)疑

小熊侃史
2025-12-20 10:53:55
多地育兒補(bǔ)貼已到賬 還沒申領(lǐng)的家庭速來了解

多地育兒補(bǔ)貼已到賬 還沒申領(lǐng)的家庭速來了解

環(huán)球網(wǎng)資訊
2025-12-21 07:18:59
黃阿火已任福建福耀科技大學(xué)黨委書記

黃阿火已任福建福耀科技大學(xué)黨委書記

澎湃新聞
2025-12-21 09:48:27
愛潑斯坦惡魔島重磅照片全公開!首曝各國名流權(quán)貴玩樂畫面,受害者多達(dá)1200人?

愛潑斯坦惡魔島重磅照片全公開!首曝各國名流權(quán)貴玩樂畫面,受害者多達(dá)1200人?

英國報姐
2025-12-20 21:08:42
皇馬2-0十人塞維利亞!距巴薩1分 姆巴佩點(diǎn)射+年度59球平C羅紀(jì)錄

皇馬2-0十人塞維利亞!距巴薩1分 姆巴佩點(diǎn)射+年度59球平C羅紀(jì)錄

我愛英超
2025-12-21 06:06:19
2025-12-21 10:56:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11887文章數(shù) 176340關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個應(yīng)用

頭條要聞

愛潑斯坦案最新文件公布 有記錄顯示來電人為特朗普

頭條要聞

愛潑斯坦案最新文件公布 有記錄顯示來電人為特朗普

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

鹿晗關(guān)曉彤戀愛期間毫不避諱?

財經(jīng)要聞

百年老店陷貼牌爭議 同仁堂必須作出取舍

汽車要聞

-30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

手機(jī)
游戲
親子
旅游
公開課

手機(jī)要聞

白色靈動島:消息稱努比亞手機(jī)也將“上島”,可自行選擇開關(guān)

CF世界觀解析(番外篇):救世主的后續(xù)劇情

親子要聞

斷奶后乳房萎縮,怎么辦? 斷奶后乳房萎縮,怎么辦?

旅游要聞

【外眼看云南】緬甸網(wǎng)紅沉浸式體驗傈僳族闊時節(jié),在怒江邂逅“詩與遠(yuǎn)方”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版