国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ACL 2026|答得更準(zhǔn)還寫得更短?華為泰勒實(shí)驗(yàn)室提出SHAPE,給LLM推理裝了個(gè)「推理稅」

0
分享至

來源:市場(chǎng)資訊

(來源:機(jī)器之心)


用強(qiáng)化學(xué)習(xí)訓(xùn)練大模型做數(shù)學(xué)推理,一個(gè)經(jīng)典的尷尬局面是:模型要么答對(duì)了但廢話連篇,要么寫了一大堆最后答錯(cuò)了,而你根本不知道它到底在哪一步走偏的。

來自華為泰勒實(shí)驗(yàn)室、北京大學(xué)和上海財(cái)經(jīng)大學(xué)的研究團(tuán)隊(duì)提出了 SHAPE(Stage-aware Hierarchical Advantage via Potential Estimation),給推理鏈裝上了一套「里程碑 + 推理稅」機(jī)制——不僅告訴模型每一步推得對(duì)不對(duì),還讓它為啰嗦付出代價(jià)。結(jié)果是:準(zhǔn)確率平均提升 3%,token 消耗直降 30%。

該工作已被 ACL 2026 主會(huì)接收。


  • 論文標(biāo)題:SHAPE: Stage-aware Hierarchical Advantage via Potential Estimation for LLM Reasoning

  • 論文鏈接:https://arxiv.org/abs/2604.06636

1. 痛點(diǎn):模型推理的「稀疏信號(hào)」困境

目前強(qiáng)化學(xué)習(xí)的主流做法(GRPO)只在推理鏈的最末尾給一個(gè)對(duì)/錯(cuò)的信號(hào)。這就好比一個(gè)學(xué)生寫了三頁解題過程,老師只在最后批一個(gè)「?」——學(xué)生完全不知道自己哪一步出了問題。

過程獎(jiǎng)勵(lì)模型(PRM)可以給每一步打分,但標(biāo)注成本極高,而且模型容易鉆空子(reward hacking)。近年來 MRT、SPO 等方法另辟蹊徑:通過讓模型在推理中間多次「快速試答」來估計(jì)當(dāng)前走到哪了,以此構(gòu)造中間信號(hào)。但這些方法各有各的短板。

團(tuán)隊(duì)認(rèn)為,一步好的推理應(yīng)該同時(shí)滿足三件事:1?? 得有實(shí)質(zhì)進(jìn)展(不能原地踏步)、2?? 越難的階段突破越值錢(雪中送炭>錦上添花:困惑時(shí)的突破更重要)、3?? 越簡潔越好(同樣的進(jìn)展用更少的字完成應(yīng)該得到獎(jiǎng)勵(lì))。


現(xiàn)有方法要么只管進(jìn)展不管效率,要么只加長度懲罰但缺乏語義引導(dǎo)。SHAPE 就是為了把這三件事統(tǒng)一到一個(gè)框架里。

2. SHAPE 怎么做的?


整個(gè)框架分三步走:(A)切段+估勢(shì)能 → (B)段級(jí)獎(jiǎng)勵(lì)計(jì)算 → (C)token 級(jí)信用再分配。

Step A:切段 + 估「推理勢(shì)能」

先把推理鏈按語義切成

個(gè)段落。切在哪?用每個(gè) token 位置的預(yù)測(cè)熵來決定——熵高的地方說明模型正在猶豫「接下來該走哪條路」,這些位置就是天然的邏輯分叉點(diǎn),比用換行符硬切靠譜得多。

切完之后,在每個(gè)段落邊界

次短 rollout:把已有推理當(dāng) prompt,讓模型快速嘗試給出最終答案,統(tǒng)計(jì)答對(duì)率,就是該位置的

處做

推理勢(shì)能:


打個(gè)比方:8 次試答對(duì)了 6 次,


模型此刻有七成半把握做對(duì);只對(duì) 1 次,


還在迷霧里。相鄰段落的勢(shì)能差


直接反映了這段推理有沒有實(shí)質(zhì)推進(jìn)。

工程上,團(tuán)隊(duì)用vLLM的Prefix Caching避免重復(fù)算共享前綴,rollout限制在max_tokens=16,開銷可控。

工程上,團(tuán)隊(duì)用 vLLM 的 Prefix Caching 避免重復(fù)算共享前綴,rollout 限制在 max_tokens=16,開銷可控。

Step B:段級(jí)獎(jiǎng)勵(lì)——「推理稅」機(jī)制

有了勢(shì)能,怎么變成 RL 能用的獎(jiǎng)勵(lì)?這里借鑒了經(jīng)典的勢(shì)函數(shù)獎(jiǎng)勵(lì)塑形(PBRS):在每一步構(gòu)造一個(gè)額外獎(jiǎng)勵(lì)


是常數(shù)時(shí),理論保證不改變最優(yōu)策略。

,勢(shì)能漲了就給正反饋,跌了就罰。當(dāng)

但 LLM 推理有個(gè)特殊問題:原始策略傾向「寫多保平安」。所以團(tuán)隊(duì)把固定

換成了

跟段落長度掛鉤的動(dòng)態(tài)折扣——段落越長折扣越狠:


代入后,每段的優(yōu)勢(shì)函數(shù)為:


其中


是過程獎(jiǎng)勵(lì)系數(shù)。對(duì)塑形項(xiàng)展開,會(huì)出現(xiàn)一個(gè)很漂亮的結(jié)構(gòu):

是最終答案對(duì)錯(cuò),


第二項(xiàng)就是「推理稅」,它同時(shí)干了兩件事:稅基是當(dāng)前勢(shì)能——推理早期勢(shì)能低,稅幾乎為零,放心探索;后期勢(shì)能高,稅就重了,不許靠反復(fù)確認(rèn)來刷分。稅率跟段落長度正相關(guān)——越啰嗦稅越高,逼模型精練表達(dá)。一個(gè)動(dòng)態(tài)折扣因子,同時(shí)搞定了階段感知和效率約束。

Step C:token 級(jí)信用再分配

段級(jí)

,最終每個(gè) token 的優(yōu)勢(shì)值為:

還是粒度太粗,關(guān)鍵決策 token 和抄題 token 不該拿一樣的信號(hào)。SHAPE 在段內(nèi)用 token 預(yù)測(cè)熵做 Z-score 標(biāo)準(zhǔn)化得到重要性權(quán)重


高熵的關(guān)鍵決策點(diǎn)



,保持不變。這種調(diào)制錨定在段級(jí)優(yōu)勢(shì)這個(gè)局部、密集的信號(hào)上,比直接在全局 outcome reward 上做 token 級(jí)調(diào)制穩(wěn)定得多。

,信號(hào)放大;低熵的常規(guī) token

3. 實(shí)驗(yàn)結(jié)果

3.1 主實(shí)驗(yàn)

三個(gè)基座模型(DeepSeek-R1-Distill-Qwen-1.5B、DeepScaleR-1.5B、Qwen3-4B),五個(gè)數(shù)學(xué)推理 benchmark,全面評(píng)估。


  • 跨模型一致性:無論 1.5B 還是 4B 規(guī)模,SHAPE 均同時(shí)提升準(zhǔn)確率并降低 token 消耗。

  • 準(zhǔn)確率:Overall 平均提升約 3%,其中 DeepScaleR-1.5B 在 AIME 2024 上提升 7.0 個(gè)百分點(diǎn)(38.6% → 45.6%),Qwen3-4B 在 MinervaMATH 上提升 6.2 個(gè)百分點(diǎn)。

  • Token 效率: Overall 平均減少約 30%,最大降幅達(dá) 38.7%(DeepSeek-1.5B on MinervaMATH)。


訓(xùn)練曲線進(jìn)一步佐證了這一結(jié)論:SHAPE 在訓(xùn)練全程保持準(zhǔn)確率領(lǐng)先,同時(shí)驅(qū)動(dòng) response 長度持續(xù)下降,兩條曲線的走勢(shì)完美體現(xiàn)了又準(zhǔn)又快的雙重優(yōu)化目標(biāo)。

3.2 消融實(shí)驗(yàn)


消融實(shí)驗(yàn)揭示了幾個(gè)關(guān)鍵發(fā)現(xiàn):

  • 熵分段(EBS)的移除導(dǎo)致 token 消耗增加約 3%,驗(yàn)證了語義對(duì)齊的分段策略優(yōu)于硬規(guī)則。

  • Token 級(jí)信用再分配(TCR)的移除導(dǎo)致準(zhǔn)確率下降達(dá) 2.0 個(gè)百分點(diǎn)(AIME 2025),表明細(xì)粒度信號(hào)在關(guān)鍵決策點(diǎn)的放大作用不可或缺。

  • 的靈敏度:


    為最佳平衡點(diǎn);過于寬松(0.95)導(dǎo)致 token 膨脹,過于激進(jìn)(0.7)則引發(fā)性能崩潰——模型為了逃避「推理稅」而過早截?cái)嗤评礞?,產(chǎn)出「短但錯(cuò)」的答案。

4. 深度分析

階段感知驗(yàn)證。 團(tuán)隊(duì)對(duì)約 41 萬條 segment 轉(zhuǎn)移數(shù)據(jù)做了回歸分析:低勢(shì)能起點(diǎn)(


)上實(shí)現(xiàn)的勢(shì)能增益,對(duì)最終正確率的邊際貢獻(xiàn)比高勢(shì)能起點(diǎn)(

)高出約 18%。


進(jìn)一步地,經(jīng)過 SHAPE 訓(xùn)練后,模型在勢(shì)能增益來源分布上呈現(xiàn)了顯著變化:來自低勢(shì)能狀態(tài)的增益貢獻(xiàn)占比從初始的 40.6% 上升到 44.4%,而來自高勢(shì)能狀態(tài)的貢獻(xiàn)從 10.5% 降至 3%。模型學(xué)會(huì)了把腦子集中在最需要突破的地方。


自適應(yīng)計(jì)算。 SHAPE 按題目難度動(dòng)態(tài)分配 token 預(yù)算,長度-難度縮放斜率比 GRPO 更陡、方差更小,這意味著:SHAPE 不是簡單地「寫得少」,而是精準(zhǔn)地根據(jù)題目難度分配 token 預(yù)算。


消除推理坍縮。GRPO 在難題上存在一個(gè)顯著的病理現(xiàn)象:response 長度分布在 32k 上下文上限處出現(xiàn)異常 spike。SHAPE 基本消除了這類現(xiàn)象——分布曲線在遠(yuǎn)低于上限處就平滑衰減至零。這進(jìn)一步印證了推理稅的效力:當(dāng)模型在某條推理路徑上持續(xù)消耗 token 卻無實(shí)質(zhì)進(jìn)展時(shí),累積的稅會(huì)迫使模型及時(shí)止損。


5. 總結(jié)

SHAPE 用一個(gè)統(tǒng)一的數(shù)學(xué)框架——?jiǎng)討B(tài)折扣的勢(shì)函數(shù)塑形——同時(shí)解決了過程監(jiān)督中的三個(gè)核心問題:勢(shì)能增益度量、階段難度感知和 token 效率約束。SHAPE 的核心貢獻(xiàn)不僅在于具體的準(zhǔn)確率和效率數(shù)字,更在于提出了推理稅這一優(yōu)雅的機(jī)制設(shè)計(jì)范式,為理解和優(yōu)化 LLM 推理過程提供了新的理論透鏡。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
張凌赫《歸鸞》片場(chǎng)暈倒后傷情升級(jí)!因低血糖失力重摔,兩度起身失敗全靠林允托舉

張凌赫《歸鸞》片場(chǎng)暈倒后傷情升級(jí)!因低血糖失力重摔,兩度起身失敗全靠林允托舉

小椰的奶奶
2026-04-28 15:45:54
伊朗貨幣崩盤!普通人畢生積蓄一夜歸零

伊朗貨幣崩盤!普通人畢生積蓄一夜歸零

霹靂炮
2026-04-27 22:40:05
菲律賓戰(zhàn)隊(duì)選手致歉 做瞇瞇眼動(dòng)作涉嫌種族歧視

菲律賓戰(zhàn)隊(duì)選手致歉 做瞇瞇眼動(dòng)作涉嫌種族歧視

3DM游戲
2026-04-28 07:03:04
無才無德、裝瘋賣傻、一肚子草包,是誰捧紅了這些跳梁小丑?

無才無德、裝瘋賣傻、一肚子草包,是誰捧紅了這些跳梁小丑?

蹲坑看世界
2026-04-22 23:00:21
生活由普京擔(dān)保,來中國療養(yǎng),葉利欽人生中最后那8年過得怎樣?

生活由普京擔(dān)保,來中國療養(yǎng),葉利欽人生中最后那8年過得怎樣?

云霄紀(jì)史觀
2026-04-25 20:20:46
當(dāng)著日本航母的面,055射了一枚導(dǎo)彈,美國反導(dǎo)體系沉默了

當(dāng)著日本航母的面,055射了一枚導(dǎo)彈,美國反導(dǎo)體系沉默了

看過人間的月色
2026-04-27 08:33:11
塞爾比輸給吳宜澤后大怒:球臺(tái)質(zhì)量太差,邊庫彈性不正常導(dǎo)致失誤

塞爾比輸給吳宜澤后大怒:球臺(tái)質(zhì)量太差,邊庫彈性不正常導(dǎo)致失誤

楊華評(píng)論
2026-04-28 01:26:55
A股:今天收在4078點(diǎn),做好準(zhǔn)備了,周三股市行情分析!

A股:今天收在4078點(diǎn),做好準(zhǔn)備了,周三股市行情分析!

明心
2026-04-28 15:19:15
網(wǎng)紅白冰偷稅被查,相關(guān)細(xì)節(jié)被公開,4000萬粉絲賬號(hào)恐遭永久封禁

網(wǎng)紅白冰偷稅被查,相關(guān)細(xì)節(jié)被公開,4000萬粉絲賬號(hào)恐遭永久封禁

娛慧
2026-04-28 11:11:31
英偉達(dá)要慌了?一家中國GPU通過微軟WHQL認(rèn)證,是全球第4家

英偉達(dá)要慌了?一家中國GPU通過微軟WHQL認(rèn)證,是全球第4家

互聯(lián)網(wǎng).亂侃秀
2026-04-28 14:49:09
4秒58!上海小將趙一程創(chuàng)造新的世界紀(jì)錄!

4秒58!上海小將趙一程創(chuàng)造新的世界紀(jì)錄!

澎湃新聞
2026-04-28 15:13:06
12人落馬5輪徹查,張軍失聯(lián)第18天,64歲蔡振華成正面教材

12人落馬5輪徹查,張軍失聯(lián)第18天,64歲蔡振華成正面教材

林子說事
2026-04-28 00:43:18
又要重建?曝火箭已無非賣品,杜蘭特遭哄搶,或聯(lián)手老詹組三巨頭

又要重建?曝火箭已無非賣品,杜蘭特遭哄搶,或聯(lián)手老詹組三巨頭

萌蘭聊個(gè)球
2026-04-28 09:44:46
華晨宇撫仙湖演唱會(huì)取消,舞臺(tái)已開始拆除,撫仙湖居民發(fā)聲

華晨宇撫仙湖演唱會(huì)取消,舞臺(tái)已開始拆除,撫仙湖居民發(fā)聲

洞見小能手
2026-04-26 17:17:22
中共中央政治局召開會(huì)議 分析研究當(dāng)前經(jīng)濟(jì)形勢(shì)和經(jīng)濟(jì)工作

中共中央政治局召開會(huì)議 分析研究當(dāng)前經(jīng)濟(jì)形勢(shì)和經(jīng)濟(jì)工作

第一財(cái)經(jīng)資訊
2026-04-28 13:37:51
我們絕不能中計(jì),特朗普正在賭,賭中國不敢強(qiáng)扣美國運(yùn)臺(tái)軍火船!

我們絕不能中計(jì),特朗普正在賭,賭中國不敢強(qiáng)扣美國運(yùn)臺(tái)軍火船!

南山塔的姑娘
2026-04-28 01:21:28
伊朗石油因封鎖賣不出去了,只能自己焚燒了

伊朗石油因封鎖賣不出去了,只能自己焚燒了

金召點(diǎn)評(píng)
2026-04-28 07:44:37
真蠢!居然相信印度和孟加拉能超越中國

真蠢!居然相信印度和孟加拉能超越中國

觀云者
2026-04-27 09:40:49
西部季后賽大亂!2場(chǎng)3:1,1場(chǎng)3:2,雷霆橫掃太陽 掘金火箭力爭搶7

西部季后賽大亂!2場(chǎng)3:1,1場(chǎng)3:2,雷霆橫掃太陽 掘金火箭力爭搶7

麥子的籃球故事
2026-04-28 16:49:26
濟(jì)南市槐蔭區(qū)人大常委會(huì)城鄉(xiāng)建設(shè)處原處長江光坤主動(dòng)投案,接受審查調(diào)查

濟(jì)南市槐蔭區(qū)人大常委會(huì)城鄉(xiāng)建設(shè)處原處長江光坤主動(dòng)投案,接受審查調(diào)查

魯中晨報(bào)
2026-04-28 16:48:04
2026-04-28 17:55:00
新浪財(cái)經(jīng) incentive-icons
新浪財(cái)經(jīng)
新浪財(cái)經(jīng)是一家創(chuàng)建于1999年8月的財(cái)經(jīng)平臺(tái)
3039633文章數(shù) 6980關(guān)注度
往期回顧 全部

教育要聞

書香漫校園 童書啟新程|4月童書閱讀活動(dòng)集錦

頭條要聞

14歲男生殺害女同學(xué)被判無期 聽到宣判時(shí)幾乎面無表情

頭條要聞

14歲男生殺害女同學(xué)被判無期 聽到宣判時(shí)幾乎面無表情

體育要聞

季后賽最新局勢(shì):雷霆4-0晉級(jí)首隊(duì) 4隊(duì)3-1

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

政治局會(huì)議:加強(qiáng)算力網(wǎng)等規(guī)劃建設(shè)

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點(diǎn)上

態(tài)度原創(chuàng)

時(shí)尚
家居
旅游
公開課
軍事航空

解鎖劉浩存的「紅運(yùn)」密碼 | 高清鏡頭后的底氣

家居要聞

江景風(fēng)格 流動(dòng)的秩序

旅游要聞

共奏“花漾”協(xié)奏曲!浦東多地同繪“花”樣文商旅體展融合圖景

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

德國總理默茨:美國正遭受伊朗領(lǐng)導(dǎo)層的羞辱

無障礙瀏覽 進(jìn)入關(guān)懷版