国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

投機(jī)解碼被“投機(jī)”了!多猜一次,大模型推理速度再提升5倍

0
分享至

過去兩年多,投機(jī)解碼(Speculative Decoding, SD)幾乎成了業(yè)界加速 LLM 推理的標(biāo)準(zhǔn)手法。它的原理并不復(fù)雜:讓一個(gè)參數(shù)量更小、跑得更快的“草稿模型”(draft model)先猜測(cè)目標(biāo)大模型接下來要生成的若干 token,再由大模型在一次前向傳播中并行驗(yàn)證這批猜測(cè)。

猜對(duì)的直接采納,猜錯(cuò)的丟棄后重新來過。這個(gè)由 Google Research 的 Yaniv Leviathan 等人在 2022 年底提出的方法,已經(jīng)被 vLLM、SGLang、TensorRT-LLM 等主流推理引擎悉數(shù)收編,Google 自己也在今年 2 月的官方博客中專門回顧了這一技術(shù)的發(fā)展脈絡(luò)。

然而投機(jī)解碼有一個(gè)結(jié)構(gòu)性瓶頸始終沒有被真正突破:草稿模型的“猜”和大模型的“驗(yàn)”依然是串行的。每一輪驗(yàn)證結(jié)束之后,草稿模型才能拿到結(jié)果,才能開始下一輪猜測(cè)。驗(yàn)證器等草稿、草稿等驗(yàn)證器,整個(gè)流程里總有一方在閑著。

2026 年 3 月 3 日,來自斯坦福大學(xué)的 Tanishq Kumar、普林斯頓大學(xué) Tri Dao(FlashAttention 核心作者之一),以及 Together AI 的 Avner May,在 arXiv 上貼出了一篇名字很有趣的論文《投機(jī)的投機(jī)解碼》(Speculative Speculative Decoding)。他們的核心問題只有一個(gè):能不能把草稿和驗(yàn)證之間最后這層串行依賴也給干掉?


圖丨相關(guān)論文(來源:arXiv)

答案是可以,而且他們給出了一個(gè)完整的工程化方案,叫做 Saguaro(仙人掌柱,亞利桑那州那種巨型仙人掌的名字)。

在 Llama-3.1-70B 上用四張 H100 做推理,batch size 為 1、貪心解碼的條件下,Saguaro 相比標(biāo)準(zhǔn)自回歸解碼最高加速約 5 倍,相比已經(jīng)優(yōu)化過的投機(jī)解碼還能再快接近 2 倍。且這些數(shù)據(jù)橫跨了 HumanEval(代碼)、GSM8k(數(shù)學(xué))、Alpaca(指令跟隨)和 UltraFeedback(對(duì)話)四個(gè)數(shù)據(jù)集的平均值,而不是只選取某一表現(xiàn)最突出的個(gè)別場(chǎng)景。

在傳統(tǒng)的投機(jī)解碼中,草稿模型必須等驗(yàn)證結(jié)果回來,才知道大模型接受了多少個(gè) token、在哪個(gè)位置拒絕并采樣了所謂的“獎(jiǎng)勵(lì) token”(bonus token)。這個(gè)獎(jiǎng)勵(lì) token 是從殘差分布(residual distribution)中抽取的,它的值直接決定下一輪猜測(cè)的起點(diǎn)。

SSD 的做法是:不等了。在大模型驗(yàn)證當(dāng)前這一輪猜測(cè)的同時(shí),草稿模型就開始預(yù)測(cè)驗(yàn)證結(jié)果可能是什么樣的,有多少 token 會(huì)被接受?獎(jiǎng)勵(lì) token 最可能是哪幾個(gè)?


(來源:arXiv)

然后針對(duì)每一種可能的結(jié)果,預(yù)先準(zhǔn)備好對(duì)應(yīng)的下一輪猜測(cè),存進(jìn)一個(gè)叫“投機(jī)緩存”(speculation cache)的數(shù)據(jù)結(jié)構(gòu)中。等驗(yàn)證結(jié)果真正傳回來時(shí),如果正好命中了緩存中的某個(gè)結(jié)果,草稿模型立刻返回預(yù)備好的 token 序列,完全跳過草稿階段的延遲。

如果沒命中,則退回到一個(gè)后備策略,相當(dāng)于降級(jí)成普通的投機(jī)解碼。關(guān)鍵在于:命中緩存這件事不是偶爾發(fā)生的。論文報(bào)告的緩存命中率在貪心解碼下超過 90%,在溫度為 0.7 的隨機(jī)采樣場(chǎng)景下也能維持在 70% 以上。

這套思路讓人聯(lián)想到 CPU 領(lǐng)域的投機(jī)執(zhí)行(speculative execution)。處理器遇到條件分支時(shí),不等判斷結(jié)果出來,先把兩條路徑都預(yù)執(zhí)行一遍,猜對(duì)了就賺到了,猜錯(cuò)了就回滾。作者在論文中也明確承認(rèn)了這個(gè)類比。

區(qū)別在于,CPU 投機(jī)執(zhí)行面對(duì)的分支通常只有兩三條路徑,而 LLM 驗(yàn)證結(jié)果的空間是天文數(shù)字級(jí)別的(K+1)×V,K 是猜測(cè)長(zhǎng)度,V 是詞表大小,對(duì) Llama 系列而言 V 超過 12 萬。所以不可能為所有結(jié)果都準(zhǔn)備好緩存,必須在有限預(yù)算下選擇最有可能命中的那些。

Saguaro 針對(duì)這個(gè)問題提出了三層優(yōu)化。第一層是緩存構(gòu)建策略。論文證明了一個(gè)數(shù)學(xué)結(jié)論:在給定緩存總預(yù)算 B 的約束下,最優(yōu)的“扇出”分配(即為驗(yàn)證序列中每個(gè)位置準(zhǔn)備多少個(gè)候選獎(jiǎng)勵(lì) token)應(yīng)該服從一個(gè)上封頂?shù)膸缀渭?jí)數(shù)。

越靠后的位置(即更多 token 被接受的情況),被接受的概率本身就越低,分配的猜測(cè)預(yù)算也應(yīng)該越少。這很符合直覺,但給出嚴(yán)格的最優(yōu)解仍然需要一整套拉格朗日乘子法的推導(dǎo)。

實(shí)驗(yàn)表明,相比均勻分配扇出,幾何扇出策略在高溫采樣時(shí)優(yōu)勢(shì)尤其明顯,因?yàn)楦邷叵买?yàn)證結(jié)果的不確定性更大,“把錢花在刀刃上”就更重要。

第二層是一個(gè)全新的采樣方案,作者稱之為 Saguaro 采樣。在標(biāo)準(zhǔn)投機(jī)解碼中,當(dāng)草稿 token 被拒絕時(shí),獎(jiǎng)勵(lì) token 從殘差分布中采樣,而殘差分布的形式是 max(p_target - p_draft, 0) 的歸一化。這意味著殘差分布重度依賴草稿分布的形狀。


圖丨Saguaro 采樣(來源:arXiv)

Saguaro 采樣的策略是故意在草稿采樣階段壓低那些最可能成為緩存候選的 token 的概率(乘以一個(gè)小于 1 的系數(shù) C),這樣做會(huì)讓殘差分布中的概率質(zhì)量向這些候選 token 集中,從而提高獎(jiǎng)勵(lì) token 恰好落在緩存里的概率。代價(jià)是草稿分布偏離了目標(biāo)分布,接受率會(huì)下降。

但論文通過理論構(gòu)造證明,存在一些目標(biāo)/草稿分布的組合,使得這種刻意偏移帶來的緩存命中率提升足以補(bǔ)償接受率的下降,在端到端速度上反而更快。超參數(shù) C 提供了在兩者之間連續(xù)調(diào)節(jié)的旋鈕。

第三層關(guān)于緩存未命中時(shí)的后備策略。這一點(diǎn)隨 batch size 增大變得越來越關(guān)鍵,因?yàn)?batch 中只要有一個(gè)序列沒命中緩存,整個(gè) batch 就得等后備草稿完成。論文給出的策略是:在小 batch size 下,后備模型就用主草稿模型做即時(shí)投機(jī)(just-in-time speculation);當(dāng) batch size 超過某個(gè)臨界值 b* 時(shí),切換到一個(gè)極低延遲的后備方案,比如返回隨機(jī) token 甚至基于 n-gram 的非神經(jīng)網(wǎng)絡(luò)投機(jī)器。

論文推導(dǎo)了 b* 的解析表達(dá)式,并用實(shí)驗(yàn)驗(yàn)證了這個(gè)切換點(diǎn)的位置與理論預(yù)測(cè)一致。


(來源:arXiv)

值得注意的是整個(gè)方法的一個(gè)前提:SSD 要求草稿模型運(yùn)行在獨(dú)立于目標(biāo)模型的硬件上。論文的實(shí)驗(yàn)設(shè)置中,目標(biāo)模型用四張 H100 做張量并行(tensor parallelism),草稿模型單獨(dú)占一張 H100。

兩者之間通過 NCCL 通信,每輪交換的數(shù)據(jù)量很小,目標(biāo)模型只需傳回接受了幾個(gè) token 和獎(jiǎng)勵(lì) token 是什么,草稿模型傳回預(yù)備好的 token 序列和 logits。這意味著 SSD 總共用了 5 張 GPU 而非投機(jī)解碼的 4 張。

但論文中關(guān)于吞吐 - 延遲帕累托前沿(Pareto frontier)的分析顯示,即便把多出來的這張 GPU 算進(jìn)去,SSD 在每張 GPU 的吞吐效率上依然優(yōu)于基線方案,也就是說并不只是靠堆硬件換速度。

整個(gè)推理優(yōu)化領(lǐng)域正處在一個(gè)方法爆發(fā)期,SSD 的出現(xiàn)并不孤立。發(fā)表于 2025 年 3 月的 EAGLE 系列通過讓草稿模型以目標(biāo)模型的內(nèi)部表示為條件來提升接受率;NVIDIA 在 2025 年 10 月的技術(shù)博客中專門介紹了 EAGLE-3 在其 GPU 上的部署實(shí)踐;SGLang 社區(qū)在 2025 年底也開源了 SpecForge 框架來訓(xùn)練 EAGLE-3 草稿頭。

Together AI 自己則在 2025 年 12 月發(fā)布了 ATLAS(AdapTive-LeArning Speculator System),一套能在生產(chǎn)環(huán)境中動(dòng)態(tài)適應(yīng)工作負(fù)載變化的自適應(yīng)投機(jī)系統(tǒng)。Tri Dao 當(dāng)時(shí)在采訪中提到,靜態(tài)投機(jī)器在工作負(fù)載發(fā)生漂移時(shí)效果會(huì)大幅下降,用戶從聊天切換到寫代碼,接受率就可能掉一截。ATLAS 的方向是讓投機(jī)器在運(yùn)行時(shí)自主學(xué)習(xí)。

而 SSD/Saguaro 瞄準(zhǔn)的則是另一個(gè)完全正交的維度:不是讓其猜得更準(zhǔn),而是讓猜測(cè)和驗(yàn)證同時(shí)發(fā)生。論文也明確指出 SSD 可以和 EAGLE-3、token-tree 方法等組合使用,附錄 E 討論了 SSD-EAGLE-3 的組合方案,雖然存在草稿模型缺少目標(biāo)模型激活信息的退化問題,但可以通過訓(xùn)練草稿模型適應(yīng)自我條件來緩解。

不過論文坦承,投機(jī)解碼整體上是一種“以計(jì)算換延遲”的策略,對(duì)于吞吐受限的場(chǎng)景,如大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練中的數(shù)據(jù)生成、離線批量推理等并不適用,因?yàn)轵?yàn)證步驟本身就在消耗寶貴的 GPU 計(jì)算資源。SSD 在這個(gè)基礎(chǔ)上還進(jìn)一步加大了計(jì)算開銷:草稿模型每輪需要為 B×K×(K+1)×F 個(gè) token 做解碼(B 是 batch size,K 是猜測(cè)長(zhǎng)度,F(xiàn) 是扇出),比標(biāo)準(zhǔn)投機(jī)解碼的 B×K 多出了 (K+1)×F 倍。這些額外的 FLOP 投入在低延遲場(chǎng)景下可以被隱藏,在高吞吐場(chǎng)景下則可能成為負(fù)擔(dān)。

另外,自定義注意力掩碼的構(gòu)建和稀疏內(nèi)存訪問模式也制約了草稿端可以做多少步有效推測(cè),論文中大部分端到端加速來自于隱藏草稿延遲,而非增加猜測(cè)長(zhǎng)度。

參考資料:

https://arxiv.org/abs/2603.03251

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
左肘挫傷+左腳關(guān)節(jié)炎!老詹今日缺戰(zhàn)步行者 湖人共計(jì)三人無法出場(chǎng)

左肘挫傷+左腳關(guān)節(jié)炎!老詹今日缺戰(zhàn)步行者 湖人共計(jì)三人無法出場(chǎng)

羅說NBA
2026-03-07 05:16:49
瞞了13年!貝爾承認(rèn)當(dāng)年確實(shí)有腰突,皇馬慘遭遲來的打臉

瞞了13年!貝爾承認(rèn)當(dāng)年確實(shí)有腰突,皇馬慘遭遲來的打臉

仰臥撐FTUer
2026-03-06 12:26:10
別再自欺欺人了,護(hù)工說出實(shí)話:進(jìn)養(yǎng)老院的老人,很少能再回家

別再自欺欺人了,護(hù)工說出實(shí)話:進(jìn)養(yǎng)老院的老人,很少能再回家

文青大叔說
2026-02-23 09:22:42
馬斯克都破防!王堅(jiān)院士笑談美國(guó)電網(wǎng):電的基礎(chǔ)設(shè)施制造業(yè)都在中國(guó)

馬斯克都破防!王堅(jiān)院士笑談美國(guó)電網(wǎng):電的基礎(chǔ)設(shè)施制造業(yè)都在中國(guó)

界面新聞
2026-03-06 14:32:04
胡兵分享3天減掉14斤方法:減肥沒那么難,不要擼鐵,不要健身

胡兵分享3天減掉14斤方法:減肥沒那么難,不要擼鐵,不要健身

悠悠說世界
2026-03-07 00:23:20
網(wǎng)紅“壽司郎”吃出寄生蟲卵:?jiǎn)T工100次洗手擋不住顧客數(shù)百次投訴

網(wǎng)紅“壽司郎”吃出寄生蟲卵:?jiǎn)T工100次洗手擋不住顧客數(shù)百次投訴

財(cái)中社
2026-03-06 16:19:27
買前白月光,買后真垃圾!這6個(gè)家居物品,坑了太多人!

買前白月光,買后真垃圾!這6個(gè)家居物品,坑了太多人!

室內(nèi)設(shè)計(jì)師有料兒
2026-02-24 15:06:49
伊朗放話:新一代導(dǎo)彈即將上場(chǎng)

伊朗放話:新一代導(dǎo)彈即將上場(chǎng)

每日經(jīng)濟(jì)新聞
2026-03-06 19:22:06
打哭了!中國(guó)女足大勝烏茲別克斯坦:對(duì)方美女主帥“食言”!

打哭了!中國(guó)女足大勝烏茲別克斯坦:對(duì)方美女主帥“食言”!

邱澤云
2026-03-06 18:34:07
第一批玩OpenClaw的人,已經(jīng)開始清醒了

第一批玩OpenClaw的人,已經(jīng)開始清醒了

降噪
2026-03-05 18:02:55
時(shí)隔298天!凱爾特人官宣塔圖姆正式復(fù)出 聯(lián)手布朗再?zèng)_總冠軍

時(shí)隔298天!凱爾特人官宣塔圖姆正式復(fù)出 聯(lián)手布朗再?zèng)_總冠軍

羅說NBA
2026-03-07 05:20:58
魯山孫藝菲事件又有新進(jìn)展,舅媽針對(duì)已故母親被登記結(jié)婚做出回應(yīng)

魯山孫藝菲事件又有新進(jìn)展,舅媽針對(duì)已故母親被登記結(jié)婚做出回應(yīng)

靜若梨花
2026-03-06 00:05:09
霍爾木茲海峽遭全面封鎖!有色金屬ETF天弘(159157)盤中凈申購(gòu)2.5億份深市同標(biāo)的第一

霍爾木茲海峽遭全面封鎖!有色金屬ETF天弘(159157)盤中凈申購(gòu)2.5億份深市同標(biāo)的第一

每日經(jīng)濟(jì)新聞
2026-03-06 14:11:05
費(fèi)塞特稱鄭欽文志在實(shí)現(xiàn)大滿貫和世界第一目標(biāo),一姐首秀對(duì)手確定

費(fèi)塞特稱鄭欽文志在實(shí)現(xiàn)大滿貫和世界第一目標(biāo),一姐首秀對(duì)手確定

網(wǎng)球之家
2026-03-07 00:08:01
55歲以后,假如你銀行存到這個(gè)數(shù)的存款,基本上可以“躺平”了

55歲以后,假如你銀行存到這個(gè)數(shù)的存款,基本上可以“躺平”了

平說財(cái)經(jīng)
2026-03-03 15:38:03
10.99萬一口價(jià)+8AT,這臺(tái)全球賣出800萬輛的合資SUV“掀桌子”了

10.99萬一口價(jià)+8AT,這臺(tái)全球賣出800萬輛的合資SUV“掀桌子”了

每日車訊cardaily
2026-03-05 11:41:50
92年,錢學(xué)森向國(guó)家建議:汽車工業(yè)跳過汽油柴油,直接進(jìn)入新能源

92年,錢學(xué)森向國(guó)家建議:汽車工業(yè)跳過汽油柴油,直接進(jìn)入新能源

文史達(dá)觀
2024-07-25 17:55:10
準(zhǔn)備同歸于盡!伊朗或啟用“沉睡小組”,在美國(guó)本土執(zhí)行斬首行動(dòng)

準(zhǔn)備同歸于盡!伊朗或啟用“沉睡小組”,在美國(guó)本土執(zhí)行斬首行動(dòng)

潘殤旅行浪子
2026-03-06 21:40:25
3換1!傷了,又傷了!湖人退貨的大中鋒

3換1!傷了,又傷了!湖人退貨的大中鋒

籃球?qū)崙?zhàn)寶典
2026-03-06 21:08:29
澤連斯基對(duì)歐爾班撂狠話,以色列遭集束彈藥襲擊

澤連斯基對(duì)歐爾班撂狠話,以色列遭集束彈藥襲擊

史政先鋒
2026-03-06 19:25:11
2026-03-07 07:59:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16370文章數(shù) 514719關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

伊朗大規(guī)模發(fā)射新一代導(dǎo)彈 摧毀美軍大量設(shè)施、裝備

頭條要聞

伊朗大規(guī)模發(fā)射新一代導(dǎo)彈 摧毀美軍大量設(shè)施、裝備

體育要聞

跑了24年,他終于成為英超“最長(zhǎng)的河”

娛樂要聞

周杰倫社交媒體曬昆凌,夫妻感情穩(wěn)定

財(cái)經(jīng)要聞

關(guān)于經(jīng)濟(jì)、股市等,五部門都說了啥?

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

健康
數(shù)碼
手機(jī)
藝術(shù)
公開課

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

數(shù)碼要聞

內(nèi)存與存儲(chǔ)芯片短缺打亂節(jié)奏 Valve Steam Machine 或?qū)o緣今年上市

手機(jī)要聞

OPPO回應(yīng)realme真我暫停新機(jī)研發(fā),稱相關(guān)工作均正常進(jìn)行中

藝術(shù)要聞

陳獨(dú)秀寫給青年毛澤東的對(duì)聯(lián),一語(yǔ)雙關(guān),陳氏書法“天花板”!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版