華為泰勒實驗室提出SHAPE，給LLM推理裝了個「推理稅」

2026-04-28 16:10:00　來源: 機器之心Pro

河北舉報

分享至

用強化學(xué)習(xí)訓(xùn)練大模型做數(shù)學(xué)推理，一個經(jīng)典的尷尬局面是：模型要么答對了但廢話連篇，要么寫了一大堆最后答錯了，而你根本不知道它到底在哪一步走偏的。

來自華為泰勒實驗室、北京大學(xué)和上海財經(jīng)大學(xué)的研究團隊提出了SHAPE（Stage-aware Hierarchical Advantage via Potential Estimation），給推理鏈裝上了一套「里程碑 + 推理稅」機制——不僅告訴模型每一步推得對不對，還讓它為啰嗦付出代價。結(jié)果是：準(zhǔn)確率平均提升 3%，token 消耗直降 30%。

該工作已被ACL 2026 主會接收。

論文標(biāo)題：SHAPE: Stage-aware Hierarchical Advantage via Potential Estimation for LLM Reasoning
論文鏈接：https://arxiv.org/abs/2604.06636

1. 痛點：模型推理的「稀疏信號」困境

目前強化學(xué)習(xí)的主流做法（GRPO）只在推理鏈的最末尾給一個對/錯的信號。這就好比一個學(xué)生寫了三頁解題過程，老師只在最后批一個「?」——學(xué)生完全不知道自己哪一步出了問題。

過程獎勵模型（PRM）可以給每一步打分，但標(biāo)注成本極高，而且模型容易鉆空子（reward hacking）。近年來 MRT、SPO 等方法另辟蹊徑：通過讓模型在推理中間多次「快速試答」來估計當(dāng)前走到哪了，以此構(gòu)造中間信號。但這些方法各有各的短板。

團隊認(rèn)為，一步好的推理應(yīng)該同時滿足三件事：1??得有實質(zhì)進(jìn)展（不能原地踏步）、2??越難的階段突破越值錢（雪中送炭＞錦上添花：困惑時的突破更重要）、3??越簡潔越好（同樣的進(jìn)展用更少的字完成應(yīng)該得到獎勵）。

現(xiàn)有方法要么只管進(jìn)展不管效率，要么只加長度懲罰但缺乏語義引導(dǎo)。SHAPE 就是為了把這三件事統(tǒng)一到一個框架里。

2. SHAPE 怎么做的？

整個框架分三步走：（A）切段+估勢能 → （B）段級獎勵計算 → （C）token 級信用再分配。

Step A：切段 + 估「推理勢能」

工程上，團隊用vLLM的Prefix Caching避免重復(fù)算共享前綴，rollout限制在max_tokens=16，開銷可控。

Step B：段級獎勵——「推理稅」機制

代入后，每段的優(yōu)勢函數(shù)為：

第二項就是「推理稅」，它同時干了兩件事：稅基是當(dāng)前勢能——推理早期勢能低，稅幾乎為零，放心探索；后期勢能高，稅就重了，不許靠反復(fù)確認(rèn)來刷分。稅率跟段落長度正相關(guān)——越啰嗦稅越高，逼模型精練表達(dá)。一個動態(tài)折扣因子，同時搞定了階段感知和效率約束。

Step C：token 級信用再分配

3. 實驗結(jié)果

3.1 主實驗

三個基座模型（DeepSeek-R1-Distill-Qwen-1.5B、DeepScaleR-1.5B、Qwen3-4B），五個數(shù)學(xué)推理 benchmark，全面評估。

跨模型一致性：無論 1.5B 還是 4B 規(guī)模，SHAPE 均同時提升準(zhǔn)確率并降低 token 消耗。
準(zhǔn)確率：Overall 平均提升約 3%，其中 DeepScaleR-1.5B 在 AIME 2024 上提升 7.0 個百分點（38.6% → 45.6%），Qwen3-4B 在 MinervaMATH 上提升 6.2 個百分點。
Token 效率：Overall 平均減少約 30%，最大降幅達(dá) 38.7%（DeepSeek-1.5B on MinervaMATH）。

訓(xùn)練曲線進(jìn)一步佐證了這一結(jié)論：SHAPE 在訓(xùn)練全程保持準(zhǔn)確率領(lǐng)先，同時驅(qū)動 response 長度持續(xù)下降，兩條曲線的走勢完美體現(xiàn)了又準(zhǔn)又快的雙重優(yōu)化目標(biāo)。

3.2 消融實驗

消融實驗揭示了幾個關(guān)鍵發(fā)現(xiàn)：

熵分段（EBS）的移除導(dǎo)致 token 消耗增加約 3%，驗證了語義對齊的分段策略優(yōu)于硬規(guī)則。
Token 級信用再分配（TCR）的移除導(dǎo)致準(zhǔn)確率下降達(dá) 2.0 個百分點（AIME 2025），表明細(xì)粒度信號在關(guān)鍵決策點的放大作用不可或缺。

4. 深度分析

進(jìn)一步地，經(jīng)過 SHAPE 訓(xùn)練后，模型在勢能增益來源分布上呈現(xiàn)了顯著變化：來自低勢能狀態(tài)的增益貢獻(xiàn)占比從初始的 40.6% 上升到 44.4%，而來自高勢能狀態(tài)的貢獻(xiàn)從 10.5% 降至 3%。模型學(xué)會了把腦子集中在最需要突破的地方。

自適應(yīng)計算。SHAPE 按題目難度動態(tài)分配 token 預(yù)算，長度-難度縮放斜率比 GRPO 更陡、方差更小，這意味著：SHAPE 不是簡單地「寫得少」，而是精準(zhǔn)地根據(jù)題目難度分配 token 預(yù)算。

消除推理坍縮。GRPO 在難題上存在一個顯著的病理現(xiàn)象：response 長度分布在 32k 上下文上限處出現(xiàn)異常 spike。SHAPE 基本消除了這類現(xiàn)象——分布曲線在遠(yuǎn)低于上限處就平滑衰減至零。這進(jìn)一步印證了推理稅的效力：當(dāng)模型在某條推理路徑上持續(xù)消耗 token 卻無實質(zhì)進(jìn)展時，累積的稅會迫使模型及時止損。

5. 總結(jié)

SHAPE 用一個統(tǒng)一的數(shù)學(xué)框架——動態(tài)折扣的勢函數(shù)塑形——同時解決了過程監(jiān)督中的三個核心問題：勢能增益度量、階段難度感知和 token 效率約束。SHAPE 的核心貢獻(xiàn)不僅在于具體的準(zhǔn)確率和效率數(shù)字，更在于提出了推理稅這一優(yōu)雅的機制設(shè)計范式，為理解和優(yōu)化 LLM 推理過程提供了新的理論透鏡。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.