国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

華為泰勒實驗室提出SHAPE,給LLM推理裝了個「推理稅」

0
分享至



用強(qiáng)化學(xué)習(xí)訓(xùn)練大模型做數(shù)學(xué)推理,一個經(jīng)典的尷尬局面是:模型要么答對了但廢話連篇,要么寫了一大堆最后答錯了,而你根本不知道它到底在哪一步走偏的。

來自華為泰勒實驗室、北京大學(xué)和上海財經(jīng)大學(xué)的研究團(tuán)隊提出了SHAPE(Stage-aware Hierarchical Advantage via Potential Estimation),給推理鏈裝上了一套「里程碑 + 推理稅」機(jī)制——不僅告訴模型每一步推得對不對,還讓它為啰嗦付出代價。結(jié)果是:準(zhǔn)確率平均提升 3%,token 消耗直降 30%。

該工作已被ACL 2026 主會接收。



  • 論文標(biāo)題:SHAPE: Stage-aware Hierarchical Advantage via Potential Estimation for LLM Reasoning
  • 論文鏈接:https://arxiv.org/abs/2604.06636

1. 痛點(diǎn):模型推理的「稀疏信號」困境

目前強(qiáng)化學(xué)習(xí)的主流做法(GRPO)只在推理鏈的最末尾給一個對/錯的信號。這就好比一個學(xué)生寫了三頁解題過程,老師只在最后批一個「?」——學(xué)生完全不知道自己哪一步出了問題。

過程獎勵模型(PRM)可以給每一步打分,但標(biāo)注成本極高,而且模型容易鉆空子(reward hacking)。近年來 MRT、SPO 等方法另辟蹊徑:通過讓模型在推理中間多次「快速試答」來估計當(dāng)前走到哪了,以此構(gòu)造中間信號。但這些方法各有各的短板。

團(tuán)隊認(rèn)為,一步好的推理應(yīng)該同時滿足三件事:1??得有實質(zhì)進(jìn)展(不能原地踏步)、2??越難的階段突破越值錢(雪中送炭>錦上添花:困惑時的突破更重要)、3??越簡潔越好(同樣的進(jìn)展用更少的字完成應(yīng)該得到獎勵)。



現(xiàn)有方法要么只管進(jìn)展不管效率,要么只加長度懲罰但缺乏語義引導(dǎo)。SHAPE 就是為了把這三件事統(tǒng)一到一個框架里。

2. SHAPE 怎么做的?



整個框架分三步走:(A)切段+估勢能 → (B)段級獎勵計算 → (C)token 級信用再分配。

Step A:切段 + 估「推理勢能」









工程上,團(tuán)隊用vLLM的Prefix Caching避免重復(fù)算共享前綴,rollout限制在max_tokens=16,開銷可控。

Step B:段級獎勵——「推理稅」機(jī)制







代入后,每段的優(yōu)勢函數(shù)為:







第二項就是「推理稅」,它同時干了兩件事:稅基是當(dāng)前勢能——推理早期勢能低,稅幾乎為零,放心探索;后期勢能高,稅就重了,不許靠反復(fù)確認(rèn)來刷分。稅率跟段落長度正相關(guān)——越啰嗦稅越高,逼模型精練表達(dá)。一個動態(tài)折扣因子,同時搞定了階段感知和效率約束。

Step C:token 級信用再分配







3. 實驗結(jié)果

3.1 主實驗

三個基座模型(DeepSeek-R1-Distill-Qwen-1.5B、DeepScaleR-1.5B、Qwen3-4B),五個數(shù)學(xué)推理 benchmark,全面評估。



  • 跨模型一致性:無論 1.5B 還是 4B 規(guī)模,SHAPE 均同時提升準(zhǔn)確率并降低 token 消耗。
  • 準(zhǔn)確率:Overall 平均提升約 3%,其中 DeepScaleR-1.5B 在 AIME 2024 上提升 7.0 個百分點(diǎn)(38.6% → 45.6%),Qwen3-4B 在 MinervaMATH 上提升 6.2 個百分點(diǎn)。
  • Token 效率:Overall 平均減少約 30%,最大降幅達(dá) 38.7%(DeepSeek-1.5B on MinervaMATH)。



訓(xùn)練曲線進(jìn)一步佐證了這一結(jié)論:SHAPE 在訓(xùn)練全程保持準(zhǔn)確率領(lǐng)先,同時驅(qū)動 response 長度持續(xù)下降,兩條曲線的走勢完美體現(xiàn)了又準(zhǔn)又快的雙重優(yōu)化目標(biāo)。

3.2 消融實驗



消融實驗揭示了幾個關(guān)鍵發(fā)現(xiàn):

  • 熵分段(EBS)的移除導(dǎo)致 token 消耗增加約 3%,驗證了語義對齊的分段策略優(yōu)于硬規(guī)則。
  • Token 級信用再分配(TCR)的移除導(dǎo)致準(zhǔn)確率下降達(dá) 2.0 個百分點(diǎn)(AIME 2025),表明細(xì)粒度信號在關(guān)鍵決策點(diǎn)的放大作用不可或缺。



4. 深度分析





進(jìn)一步地,經(jīng)過 SHAPE 訓(xùn)練后,模型在勢能增益來源分布上呈現(xiàn)了顯著變化:來自低勢能狀態(tài)的增益貢獻(xiàn)占比從初始的 40.6% 上升到 44.4%,而來自高勢能狀態(tài)的貢獻(xiàn)從 10.5% 降至 3%。模型學(xué)會了把腦子集中在最需要突破的地方。



自適應(yīng)計算。SHAPE 按題目難度動態(tài)分配 token 預(yù)算,長度-難度縮放斜率比 GRPO 更陡、方差更小,這意味著:SHAPE 不是簡單地「寫得少」,而是精準(zhǔn)地根據(jù)題目難度分配 token 預(yù)算。



消除推理坍縮。GRPO 在難題上存在一個顯著的病理現(xiàn)象:response 長度分布在 32k 上下文上限處出現(xiàn)異常 spike。SHAPE 基本消除了這類現(xiàn)象——分布曲線在遠(yuǎn)低于上限處就平滑衰減至零。這進(jìn)一步印證了推理稅的效力:當(dāng)模型在某條推理路徑上持續(xù)消耗 token 卻無實質(zhì)進(jìn)展時,累積的稅會迫使模型及時止損。



5. 總結(jié)

SHAPE 用一個統(tǒng)一的數(shù)學(xué)框架——動態(tài)折扣的勢函數(shù)塑形——同時解決了過程監(jiān)督中的三個核心問題:勢能增益度量、階段難度感知和 token 效率約束。SHAPE 的核心貢獻(xiàn)不僅在于具體的準(zhǔn)確率和效率數(shù)字,更在于提出了推理稅這一優(yōu)雅的機(jī)制設(shè)計范式,為理解和優(yōu)化 LLM 推理過程提供了新的理論透鏡。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
三年抱兩!香港豪門千金宣布二胎平安產(chǎn)子,億萬豪門血脈穩(wěn)固延續(xù)

三年抱兩!香港豪門千金宣布二胎平安產(chǎn)子,億萬豪門血脈穩(wěn)固延續(xù)

章眽八卦
2026-04-28 09:59:19
曾要求禁賽趙心童 墨菲變臉:冠軍將在我和他中間產(chǎn)生 他太完美了

曾要求禁賽趙心童 墨菲變臉:冠軍將在我和他中間產(chǎn)生 他太完美了

風(fēng)過鄉(xiāng)
2026-04-28 09:16:23
黃圣依和同學(xué)聚會留影,在素色穿搭的同學(xué)中格外突出

黃圣依和同學(xué)聚會留影,在素色穿搭的同學(xué)中格外突出

娛你同歡
2026-04-27 17:26:47
國安部:反華勢力炮制“階層固化=努力無用”敘事

國安部:反華勢力炮制“階層固化=努力無用”敘事

觀察者網(wǎng)
2026-04-28 07:03:05
姚登山當(dāng)4天外交部長蹲10年大獄,晚年坦言:我不是反對周總理

姚登山當(dāng)4天外交部長蹲10年大獄,晚年坦言:我不是反對周總理

明月清風(fēng)閣
2026-04-28 14:25:08
驚天黑幕!死刑犯孫小果從未服刑,真相令人震驚!

驚天黑幕!死刑犯孫小果從未服刑,真相令人震驚!

人生錄
2026-04-27 23:04:15
中國堅守承諾拒購H200芯片,美國態(tài)度急轉(zhuǎn)并尋求對話

中國堅守承諾拒購H200芯片,美國態(tài)度急轉(zhuǎn)并尋求對話

米老鼠的世界
2026-04-28 00:07:20
莫氏雞煲不火了?二公主限時回歸,老莫開始擺爛,博主實探現(xiàn)場

莫氏雞煲不火了?二公主限時回歸,老莫開始擺爛,博主實探現(xiàn)場

小怪吃美食
2026-04-28 00:06:13
追夢:文班掩蓋了卡斯?fàn)柕膬r值,但沒他馬刺完全是另一支球隊

追夢:文班掩蓋了卡斯?fàn)柕膬r值,但沒他馬刺完全是另一支球隊

林子說事
2026-04-28 14:09:56
尤伯杯:國羽3連勝!王祉怡力克世錦賽冠軍,陳雨菲橫掃世界第39

尤伯杯:國羽3連勝!王祉怡力克世錦賽冠軍,陳雨菲橫掃世界第39

釘釘陌上花開
2026-04-28 06:54:31
狗仔曝楊子去年和李雋子已結(jié)婚生子,和黃圣依去年一月才官宣離婚

狗仔曝楊子去年和李雋子已結(jié)婚生子,和黃圣依去年一月才官宣離婚

童叔不飆車
2026-04-28 00:55:07
5月起殯葬新規(guī)正式試行!824號令全面落地,城鄉(xiāng)居民都要早了解

5月起殯葬新規(guī)正式試行!824號令全面落地,城鄉(xiāng)居民都要早了解

復(fù)轉(zhuǎn)這些年
2026-04-28 11:37:16
繼續(xù)破紀(jì)錄,72小時訂單超10萬:比亞迪大唐這次會動M9的蛋糕嗎?

繼續(xù)破紀(jì)錄,72小時訂單超10萬:比亞迪大唐這次會動M9的蛋糕嗎?

藍(lán)色海邊
2026-04-28 14:24:53
娶小37歲嬌妻,住美國超大豪宅,如今他87歲兒女雙全,享天倫之樂

娶小37歲嬌妻,住美國超大豪宅,如今他87歲兒女雙全,享天倫之樂

削桐作琴
2026-04-25 14:28:08
痛心!余承東曝光了中國汽車黑幕,不能讓他們毀了中國汽車

痛心!余承東曝光了中國汽車黑幕,不能讓他們毀了中國汽車

阿芒娛樂說
2026-04-28 12:02:47
馬寧發(fā)文回應(yīng)沙媒:今天是真回國了,不過是帶著獎牌回來的

馬寧發(fā)文回應(yīng)沙媒:今天是真回國了,不過是帶著獎牌回來的

狗哥是一名內(nèi)拉
2026-04-28 08:54:45
煮米飯別只加清水!酒店不外傳秘訣,粒粒蓬松超好吃

煮米飯別只加清水!酒店不外傳秘訣,粒粒蓬松超好吃

開心美食白科
2026-04-09 09:43:04
8600mAh!新機(jī)官宣:4月28日,正式發(fā)布上市!

8600mAh!新機(jī)官宣:4月28日,正式發(fā)布上市!

科技堡壘
2026-04-27 10:56:01
香港明明是中國的領(lǐng)土,為何他們回歸多年,依然還在使用港幣?

香港明明是中國的領(lǐng)土,為何他們回歸多年,依然還在使用港幣?

抽象派大師
2026-04-25 18:47:51
笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發(fā)給老師

笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發(fā)給老師

夜深愛雜談
2026-04-25 07:33:34
2026-04-28 18:51:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12881文章數(shù) 142638關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

《奇葩說》辯手稱淘寶上賣毒品前體 有人留言"能吃嗎"

頭條要聞

《奇葩說》辯手稱淘寶上賣毒品前體 有人留言"能吃嗎"

體育要聞

季后賽最新局勢:雷霆4-0晉級首隊 4隊3-1

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財經(jīng)要聞

政治局會議:加強(qiáng)算力網(wǎng)等規(guī)劃建設(shè)

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點(diǎn)上

態(tài)度原創(chuàng)

教育
手機(jī)
游戲
本地
公開課

教育要聞

湖北城市建設(shè)職業(yè)技術(shù)學(xué)院人工智能學(xué)院“崗課賽證創(chuàng)”打通就業(yè)路

手機(jī)要聞

iPhone Air支持SIM卡了?華強(qiáng)北產(chǎn)業(yè)鏈揭秘:不建議新手嘗試

想在開放都市二游里爭當(dāng)五星好市民,需要一套怎樣的配置?

本地新聞

用青花瓷的方式,打開西溪濕地

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版