国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

華為泰勒實驗室提出SHAPE,給LLM推理裝了個「推理稅」

0
分享至



用強化學(xué)習(xí)訓(xùn)練大模型做數(shù)學(xué)推理,一個經(jīng)典的尷尬局面是:模型要么答對了但廢話連篇,要么寫了一大堆最后答錯了,而你根本不知道它到底在哪一步走偏的。

來自華為泰勒實驗室、北京大學(xué)和上海財經(jīng)大學(xué)的研究團隊提出了SHAPE(Stage-aware Hierarchical Advantage via Potential Estimation),給推理鏈裝上了一套「里程碑 + 推理稅」機制——不僅告訴模型每一步推得對不對,還讓它為啰嗦付出代價。結(jié)果是:準(zhǔn)確率平均提升 3%,token 消耗直降 30%。

該工作已被ACL 2026 主會接收。



  • 論文標(biāo)題:SHAPE: Stage-aware Hierarchical Advantage via Potential Estimation for LLM Reasoning
  • 論文鏈接:https://arxiv.org/abs/2604.06636

1. 痛點:模型推理的「稀疏信號」困境

目前強化學(xué)習(xí)的主流做法(GRPO)只在推理鏈的最末尾給一個對/錯的信號。這就好比一個學(xué)生寫了三頁解題過程,老師只在最后批一個「?」——學(xué)生完全不知道自己哪一步出了問題。

過程獎勵模型(PRM)可以給每一步打分,但標(biāo)注成本極高,而且模型容易鉆空子(reward hacking)。近年來 MRT、SPO 等方法另辟蹊徑:通過讓模型在推理中間多次「快速試答」來估計當(dāng)前走到哪了,以此構(gòu)造中間信號。但這些方法各有各的短板。

團隊認(rèn)為,一步好的推理應(yīng)該同時滿足三件事:1??得有實質(zhì)進(jìn)展(不能原地踏步)、2??越難的階段突破越值錢(雪中送炭>錦上添花:困惑時的突破更重要)、3??越簡潔越好(同樣的進(jìn)展用更少的字完成應(yīng)該得到獎勵)。



現(xiàn)有方法要么只管進(jìn)展不管效率,要么只加長度懲罰但缺乏語義引導(dǎo)。SHAPE 就是為了把這三件事統(tǒng)一到一個框架里。

2. SHAPE 怎么做的?



整個框架分三步走:(A)切段+估勢能 → (B)段級獎勵計算 → (C)token 級信用再分配。

Step A:切段 + 估「推理勢能」









工程上,團隊用vLLM的Prefix Caching避免重復(fù)算共享前綴,rollout限制在max_tokens=16,開銷可控。

Step B:段級獎勵——「推理稅」機制







代入后,每段的優(yōu)勢函數(shù)為:







第二項就是「推理稅」,它同時干了兩件事:稅基是當(dāng)前勢能——推理早期勢能低,稅幾乎為零,放心探索;后期勢能高,稅就重了,不許靠反復(fù)確認(rèn)來刷分。稅率跟段落長度正相關(guān)——越啰嗦稅越高,逼模型精練表達(dá)。一個動態(tài)折扣因子,同時搞定了階段感知和效率約束。

Step C:token 級信用再分配







3. 實驗結(jié)果

3.1 主實驗

三個基座模型(DeepSeek-R1-Distill-Qwen-1.5B、DeepScaleR-1.5B、Qwen3-4B),五個數(shù)學(xué)推理 benchmark,全面評估。



  • 跨模型一致性:無論 1.5B 還是 4B 規(guī)模,SHAPE 均同時提升準(zhǔn)確率并降低 token 消耗。
  • 準(zhǔn)確率:Overall 平均提升約 3%,其中 DeepScaleR-1.5B 在 AIME 2024 上提升 7.0 個百分點(38.6% → 45.6%),Qwen3-4B 在 MinervaMATH 上提升 6.2 個百分點。
  • Token 效率:Overall 平均減少約 30%,最大降幅達(dá) 38.7%(DeepSeek-1.5B on MinervaMATH)。



訓(xùn)練曲線進(jìn)一步佐證了這一結(jié)論:SHAPE 在訓(xùn)練全程保持準(zhǔn)確率領(lǐng)先,同時驅(qū)動 response 長度持續(xù)下降,兩條曲線的走勢完美體現(xiàn)了又準(zhǔn)又快的雙重優(yōu)化目標(biāo)。

3.2 消融實驗



消融實驗揭示了幾個關(guān)鍵發(fā)現(xiàn):

  • 熵分段(EBS)的移除導(dǎo)致 token 消耗增加約 3%,驗證了語義對齊的分段策略優(yōu)于硬規(guī)則。
  • Token 級信用再分配(TCR)的移除導(dǎo)致準(zhǔn)確率下降達(dá) 2.0 個百分點(AIME 2025),表明細(xì)粒度信號在關(guān)鍵決策點的放大作用不可或缺。



4. 深度分析





進(jìn)一步地,經(jīng)過 SHAPE 訓(xùn)練后,模型在勢能增益來源分布上呈現(xiàn)了顯著變化:來自低勢能狀態(tài)的增益貢獻(xiàn)占比從初始的 40.6% 上升到 44.4%,而來自高勢能狀態(tài)的貢獻(xiàn)從 10.5% 降至 3%。模型學(xué)會了把腦子集中在最需要突破的地方。



自適應(yīng)計算。SHAPE 按題目難度動態(tài)分配 token 預(yù)算,長度-難度縮放斜率比 GRPO 更陡、方差更小,這意味著:SHAPE 不是簡單地「寫得少」,而是精準(zhǔn)地根據(jù)題目難度分配 token 預(yù)算。



消除推理坍縮。GRPO 在難題上存在一個顯著的病理現(xiàn)象:response 長度分布在 32k 上下文上限處出現(xiàn)異常 spike。SHAPE 基本消除了這類現(xiàn)象——分布曲線在遠(yuǎn)低于上限處就平滑衰減至零。這進(jìn)一步印證了推理稅的效力:當(dāng)模型在某條推理路徑上持續(xù)消耗 token 卻無實質(zhì)進(jìn)展時,累積的稅會迫使模型及時止損。



5. 總結(jié)

SHAPE 用一個統(tǒng)一的數(shù)學(xué)框架——動態(tài)折扣的勢函數(shù)塑形——同時解決了過程監(jiān)督中的三個核心問題:勢能增益度量、階段難度感知和 token 效率約束。SHAPE 的核心貢獻(xiàn)不僅在于具體的準(zhǔn)確率和效率數(shù)字,更在于提出了推理稅這一優(yōu)雅的機制設(shè)計范式,為理解和優(yōu)化 LLM 推理過程提供了新的理論透鏡。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
以色列前總理貝內(nèi)特:伊朗實質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來 | 伊朗的反應(yīng)為何如此激烈

偉偉道來 | 伊朗的反應(yīng)為何如此激烈

經(jīng)濟觀察報
2026-05-06 11:40:46
吳宜澤透露拿到獎金后準(zhǔn)備在英國買房,50萬英鎊獎金需交稅超23萬鎊,實際到手約26.5萬鎊

吳宜澤透露拿到獎金后準(zhǔn)備在英國買房,50萬英鎊獎金需交稅超23萬鎊,實際到手約26.5萬鎊

大風(fēng)新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個隱私,是性感嗎?

女性跑步:暴露這個隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

懂球帝
2026-05-05 19:39:09
在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個人,沒一個在出現(xiàn)場

在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個人,沒一個在出現(xiàn)場

侃故事的阿慶
2026-05-06 09:21:32
被延長的搶救時間,被卡住的工傷認(rèn)定

被延長的搶救時間,被卡住的工傷認(rèn)定

新京報
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動筷子

畫夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說故事的阿襲
2026-05-05 20:20:30
8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價報價就接

伯納烏大地震!皇馬放話出售姆巴佩,天價報價就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當(dāng)?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報
2026-05-06 12:38:05
中美同時向全球下達(dá)禁令,各國都傻眼了!美媒:中國此舉史無前例

中美同時向全球下達(dá)禁令,各國都傻眼了!美媒:中國此舉史無前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

男子購百萬保險被邀免費游老撾 花數(shù)十萬買"熊膽"心虛

頭條要聞

男子購百萬保險被邀免費游老撾 花數(shù)十萬買"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財經(jīng)要聞

人形機器人七小龍:誰真能賣 誰在講故事?

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

本地
時尚
家居
教育
公開課

本地新聞

用青花瓷的方式,打開西溪濕地

卷首語|這屆年輕人,全員渡劫奧德賽

家居要聞

大膽前衛(wèi) 時尚大宅

教育要聞

六條邏輯主線替代四個大概念,反映了怎樣的理念? | 高中課標(biāo)修訂解讀⑥

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版