国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ICLR 2026 |?越推越快!?首個(gè)面向「Test-Time Scaling」的投機(jī)解碼基準(zhǔn)

0
分享至


SpecTTS-Bench:首個(gè)面向「Test-Time Scaling」的投機(jī)解碼基準(zhǔn),收割冗余紅利,越推越快!

本文由來(lái)自香港城市大學(xué)、華為的多位研究者共同完成。第一作者為來(lái)自香港城市大學(xué)的博士生孫圣印和來(lái)自華為的研究員李一鳴,通信作者為來(lái)自香港城市大學(xué)的助理教授馬辰。

在推理大模型的應(yīng)用里,一個(gè)樸素但有效的策略正在成為共識(shí):推理階段擴(kuò)展(Test-Time Scaling, TTS)—— 在推理階段額外分配計(jì)算(例如反復(fù)思考,多輪推理),往往能顯著提升推理大模型解決復(fù)雜問(wèn)題的正確率與穩(wěn)健性。但TTS應(yīng)用于推理大模型的代價(jià)也同樣明顯:大量冗余、重復(fù)的推理軌跡被生成出來(lái),吞噬了推理時(shí)延與算力預(yù)算,讓模型的“更聰明”變得“不夠劃算”。

基于此,本文提出了首個(gè)面向TTS的投機(jī)解碼(Speculative Decoding)加速綜合基準(zhǔn)。評(píng)測(cè)結(jié)果顯示,在結(jié)構(gòu)化且重復(fù)密集的 TTS 場(chǎng)景里,樸素的N-gram方法更能精準(zhǔn)“吃到”重復(fù)帶來(lái)的紅利,釋放出不容忽視的加速潛力。

論文標(biāo)題:Scaling Up, Speeding Up: A Benchmark of Speculative Decoding for Efficient LLM Test-Time Scaling


論文地址:
https://arxiv.org/abs/2509.04474

論文代碼:
https://github.com/sunshy-1/SpecTTS-Bench


圖1 TTS的過(guò)程中大量冗余和重復(fù)的推理軌跡示例。

1. 「疊床架屋」為什么 TTS 會(huì)“慢得不劃算”?

隨著大模型能力的持續(xù)提升,業(yè)界逐漸意識(shí)到一個(gè)重要現(xiàn)象——即所謂的 Scaling Law 在推理階段同樣成立。簡(jiǎn)單來(lái)說(shuō),只要在推理階段投入更多的計(jì)算資源,就能夠在一定程度上換取更強(qiáng)的復(fù)雜推理能力。換句話說(shuō),即便模型參數(shù)規(guī)模固定,通過(guò)擴(kuò)大推理時(shí)的“思考深度”或“思考廣度”,同樣可能獲得更高質(zhì)量的輸出。典型方式包括:

? Best-of-N:針對(duì)同一個(gè)問(wèn)題,模型生成多條不同的推理路徑或候選答案,然后再通過(guò)評(píng)分機(jī)制或后驗(yàn)判斷,選出最優(yōu)方案;

? Multi-round Thinking:讓模型以多輪“想—寫(xiě)—再想—再寫(xiě)”的形式進(jìn)行自我復(fù)審和反思,不斷修正先前的推理錯(cuò)誤或補(bǔ)充遺漏的邏輯。

然而,這種范式并非沒(méi)有代價(jià)。它的核心問(wèn)題在于推理效率極低,往往會(huì)出現(xiàn)所謂的“疊床架屋式冗余計(jì)算”。在多輪或多樣采樣的過(guò)程中,模型往往會(huì)反復(fù)生成類(lèi)似的分析開(kāi)頭、重復(fù)的中間結(jié)論、固定化的檢查步驟,甚至對(duì)前文內(nèi)容進(jìn)行機(jī)械式重述。這些內(nèi)容雖然表面上增加了推理“長(zhǎng)度”,但實(shí)際信息增益有限。結(jié)果就是,TTS的推理過(guò)程不可避免地充斥著大量重復(fù)和無(wú)效的計(jì)算軌跡——算力在自說(shuō)自話的過(guò)程里被浪費(fèi)掉了。這也帶來(lái)了一個(gè)頗為尷尬的現(xiàn)實(shí):我們確實(shí)找到了提升大模型上限、激發(fā)其潛在推理能力的有效路徑,但同時(shí)必須付出極高的計(jì)算代價(jià)與延遲成本。換言之,TTS 在質(zhì)量與效率之間形成了難以調(diào)和的矛盾——它能讓模型“更聰明”,卻讓推理過(guò)程“慢得不劃算”。

2. 「以小博大」:投機(jī)解碼如何破解“慢思考”困局?

面對(duì)TTS帶來(lái)的巨大算力消耗,投機(jī)解碼提供了一種高效的計(jì)算范式,旨在緩解大模型推理過(guò)程中的訪存瓶頸。其核心機(jī)制在于解耦了“生成”與“驗(yàn)證”兩個(gè)過(guò)程:系統(tǒng)首先利用一個(gè)參數(shù)量較小、推理速度極快的“草稿模型”(Draft Model)預(yù)先生成一系列候選 Token,隨后由參數(shù)量龐大的“目標(biāo)模型”(Target Model)以并行計(jì)算的方式對(duì)這些候選序列進(jìn)行批量驗(yàn)證。由于大模型在處理單個(gè) Token 和并行處理多個(gè) Token 時(shí)的延遲差異較小,這種“預(yù)測(cè)-驗(yàn)證”機(jī)制能夠顯著減少目標(biāo)模型昂貴的串行前向傳播次數(shù),從而在保證輸出分布與目標(biāo)模型完全一致(即無(wú)損加速)的前提下,大幅提升整體推理吞吐量。

在TTS的具體實(shí)踐中,無(wú)論是通過(guò)Best-of-N尋找最優(yōu)解,還是通過(guò)多輪迭代進(jìn)行自我修正,其計(jì)算過(guò)程本質(zhì)上都伴隨著大量的文本重復(fù)。例如,在生成多個(gè)推理路徑時(shí),不同樣本間往往共享著長(zhǎng)段的公共前綴或標(biāo)準(zhǔn)化的思維模板;而在迭代修正過(guò)程中,模型又不可避免地需要復(fù)述上下文或?qū)扔形谋具M(jìn)行微調(diào)。這種由采樣策略和迭代機(jī)制直接導(dǎo)致的重復(fù)性,恰恰是投機(jī)解碼能夠利用的最大紅利。內(nèi)容的高頻重復(fù)顯著降低了預(yù)測(cè)難度,使得草稿模型能夠以極高的命中率通過(guò)驗(yàn)證。因此,TTS 場(chǎng)景下算力擴(kuò)張所帶來(lái)的文本冗余,反而在投機(jī)解碼的機(jī)制下轉(zhuǎn)化為加速推理的關(guān)鍵杠桿。


圖2 針對(duì)高效TTS的投機(jī)解碼方法框架。

3. 「SpecTTS-Bench」首個(gè)面向 TTS 的投機(jī)解碼評(píng)測(cè)基準(zhǔn)

為了系統(tǒng)性地量化投機(jī)解碼在TTS推理場(chǎng)景下的效能,本文構(gòu)建了首個(gè)面向 TTS 的投機(jī)解碼評(píng)測(cè)基準(zhǔn)。該基準(zhǔn)不僅制定了統(tǒng)一且嚴(yán)格的實(shí)驗(yàn)協(xié)議,更全面覆蓋了當(dāng)前最具代表性的兩大 TTS 范式:旨在通過(guò)廣度搜索尋找最優(yōu)解的 Best-of-N 采樣,以及通過(guò)深度迭代提升推理質(zhì)量的多輪思考。在投機(jī)解碼方法論的維度上,本文涵蓋了多樣化的技術(shù)路徑,包含如下四大類(lèi):

? 基于模型(Model-based)的方法,即經(jīng)典的利用同源小模型生成候選序列、再由目標(biāo)模型驗(yàn)證的范式;

? 基于訓(xùn)練(Training-based)的方法,側(cè)重于通過(guò)特定訓(xùn)練優(yōu)化推測(cè)器或策略,使其更緊密地貼合目標(biāo)模型的分布特征;

? 基于 N-gram(N-gram-based)的方法,直接利用文本統(tǒng)計(jì)規(guī)律中的重復(fù)模式進(jìn)行極低成本的快速預(yù)測(cè)。

4. 「群雄逐鹿」九種投機(jī)解碼方法在兩類(lèi)主流TTS框架中的統(tǒng)一評(píng)測(cè)

本基準(zhǔn)對(duì)九種投機(jī)解碼方法在兩類(lèi)主流 TTS框架中進(jìn)行了統(tǒng)一評(píng)測(cè),涵蓋 Best-of-N(圖3)與多輪思考(圖4)兩大典型場(chǎng)景。實(shí)驗(yàn)選取了DeepSeek-R1-Distill-Llama-8B(DSL-8B)和 Qwen3-8B(QW3-8B)模型,在 AIME24/25、MATH500 及GPQA 等高難度推理基準(zhǔn)上對(duì)比了各方法的平均接受Token數(shù)(MAT)與端到端加速比(Speed)。

評(píng)測(cè)結(jié)果揭示了一個(gè)關(guān)鍵發(fā)現(xiàn):在結(jié)構(gòu)化且重復(fù)密集的 TTS 場(chǎng)景中,能夠利用歷史信息的非訓(xùn)練N-gram方法展現(xiàn)出驚人的適應(yīng)性。如圖3所示,在 DSL-8B (T=0) 的貪婪解碼設(shè)定下,SAM方法表現(xiàn)尤為亮眼,其在 GPQA 任務(wù)上取得了3.57的MAT和3.20×的加速比,整體評(píng)測(cè)中也保持了平均2.66×的穩(wěn)健加速。這表明,TTS 推理過(guò)程中產(chǎn)生的思維鏈包含大量重復(fù)的推理步驟和格式化表達(dá),樸素的N-gram或基于歷史匹配的機(jī)制(如SAM)能夠精準(zhǔn)利用這些重復(fù)模式帶來(lái)的紅利。

基于這一洞察,我們進(jìn)一步驗(yàn)證了將N-gram機(jī)制與基于訓(xùn)練的投機(jī)解碼方法相結(jié)合的混合策略。實(shí)驗(yàn)數(shù)據(jù)顯示,SAM[EAGLE-3]這種混合策略集兩者之長(zhǎng),在各類(lèi)設(shè)定下均實(shí)現(xiàn)了性能突破。特別是在圖3的DSL-8B (T=0) 貪婪解碼場(chǎng)景中,SAM[EAGLE-3]在GPQA任務(wù)上的MAT達(dá)到了驚人的7.00,并在整體評(píng)測(cè)中實(shí)現(xiàn)了最高3.97×的加速比。同樣,在QW3-8B 的多輪思考場(chǎng)景(圖4)中,該混合策略依然保持領(lǐng)先,穩(wěn)定提供約2.7×至3.5×的加速收益。


圖3 不同投機(jī)解碼方法在Best-of-N場(chǎng)景中的性能。


圖4 不同投機(jī)解碼方法在多輪思考場(chǎng)景中的性能。

5. 「以簡(jiǎn)馭繁」:重塑大模型推理的效率邊界


圖5 Scaling Up, Speeding Up!N-gram投機(jī)解碼方法(SAM,PIA,SAM[EAGLE-3])在TTS中越推越快。(a) Best-of-N(T=0)。(b) Best-of-N(T=0.6)。(c) 多輪思考(T=0.6)。

本基準(zhǔn)不僅為T(mén)TS場(chǎng)景中的大模型推理提供了標(biāo)準(zhǔn)化的度量衡,更揭示了“重復(fù)即紅利”這一關(guān)鍵洞察。在追求模型“深思熟慮”的道路上,簡(jiǎn)單的 N-gram 機(jī)制與混合策略展現(xiàn)出了“四兩撥千斤”的潛力,有效緩解了長(zhǎng)思維鏈帶來(lái)的推理時(shí)延。我們期待這一基準(zhǔn)能推動(dòng)社區(qū)進(jìn)一步挖掘推理結(jié)構(gòu)中的加速潛力,讓“越推越快”成為T(mén)TS的新常態(tài)。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗問(wèn)題,注意普京的動(dòng)向

伊朗問(wèn)題,注意普京的動(dòng)向

新民周刊
2026-03-08 09:11:54
恐怖!美軍的陰暗操作令世界不寒而栗

恐怖!美軍的陰暗操作令世界不寒而栗

補(bǔ)壹刀
2026-03-09 15:41:03
大批美國(guó)游客涌入中國(guó),回國(guó)后坦言:客觀對(duì)比,中國(guó)比美國(guó)強(qiáng)多了

大批美國(guó)游客涌入中國(guó),回國(guó)后坦言:客觀對(duì)比,中國(guó)比美國(guó)強(qiáng)多了

燦若銀爛
2026-02-27 20:11:39
新婚女子手臂成亮點(diǎn),“滿眼都是xxx”,難道新郎一點(diǎn)都不在乎?

新婚女子手臂成亮點(diǎn),“滿眼都是xxx”,難道新郎一點(diǎn)都不在乎?

仙仙先生
2026-01-30 09:35:22
人在庫(kù)姆卻被拒之門(mén)外!伊朗選舉鬧劇,選出哈梅內(nèi)伊“太子”

人在庫(kù)姆卻被拒之門(mén)外!伊朗選舉鬧劇,選出哈梅內(nèi)伊“太子”

老馬拉車(chē)莫少裝
2026-03-09 19:03:45
原來(lái)有的人是真的憑實(shí)力單身的!網(wǎng)友:竟然還要錢(qián),竟然還是500

原來(lái)有的人是真的憑實(shí)力單身的!網(wǎng)友:竟然還要錢(qián),竟然還是500

另子維愛(ài)讀史
2026-02-15 20:20:55
歐盟各國(guó)抨擊馮德萊恩逾越職責(zé)。

歐盟各國(guó)抨擊馮德萊恩逾越職責(zé)。

世間閑事
2026-03-10 13:46:31
熱火被聯(lián)盟和黃蜂坑慘!送首輪+6屆全明星換賭徒,才獲1次輪補(bǔ)償

熱火被聯(lián)盟和黃蜂坑慘!送首輪+6屆全明星換賭徒,才獲1次輪補(bǔ)償

你的籃球頻道
2026-03-10 09:50:31
毛岸青晚年待遇公開(kāi),作為領(lǐng)袖唯一在世兒子,拒優(yōu)待一生低調(diào)樸素

毛岸青晚年待遇公開(kāi),作為領(lǐng)袖唯一在世兒子,拒優(yōu)待一生低調(diào)樸素

嘮叨說(shuō)歷史
2026-03-10 10:09:53
中國(guó)不愧是游擊戰(zhàn)的祖宗,只用3年,就消滅了肆虐34年的猛虎組織

中國(guó)不愧是游擊戰(zhàn)的祖宗,只用3年,就消滅了肆虐34年的猛虎組織

芊芊子吟
2025-12-15 21:55:03
從兩件事來(lái)看,國(guó)外頂級(jí)聯(lián)賽不喜歡中國(guó)女排隊(duì)員是有原因的

從兩件事來(lái)看,國(guó)外頂級(jí)聯(lián)賽不喜歡中國(guó)女排隊(duì)員是有原因的

體育快遞小哥哥
2026-03-10 16:01:29
安洗瑩:王祉怡是隨時(shí)可能超越我的選手,就像我當(dāng)年戰(zhàn)勝陳雨菲一樣

安洗瑩:王祉怡是隨時(shí)可能超越我的選手,就像我當(dāng)年戰(zhàn)勝陳雨菲一樣

懂球帝
2026-03-10 14:43:21
性壓抑已經(jīng)變態(tài)至此了?

性壓抑已經(jīng)變態(tài)至此了?

黯泉
2026-03-07 11:28:43
CBA消息:廣廈更名北控,新外援已加盟,首鋼公布合照

CBA消息:廣廈更名北控,新外援已加盟,首鋼公布合照

工從昊懂球阿靖
2026-03-10 11:04:37
2004年,“趙忠祥數(shù)和我保持不正當(dāng)關(guān)系,把我折磨得滿身疾病。”

南權(quán)先生
2026-02-05 15:52:26

很多人還不知道,原來(lái)只要知道對(duì)方手機(jī)號(hào)碼,就可以查到對(duì)方位置了!

很多人還不知道,原來(lái)只要知道對(duì)方手機(jī)號(hào)碼,就可以查到對(duì)方位置了!

CG說(shuō)科技
2026-03-05 16:59:05
中國(guó)共產(chǎn)黨中央軍事委員會(huì)副主席張升民簡(jiǎn)歷

中國(guó)共產(chǎn)黨中央軍事委員會(huì)副主席張升民簡(jiǎn)歷

上觀新聞
2025-10-23 18:17:07
西班牙議員:立刻退出北約,美國(guó)和以色列就是人類(lèi)最大的威脅!

西班牙議員:立刻退出北約,美國(guó)和以色列就是人類(lèi)最大的威脅!

達(dá)文西看世界
2026-03-06 11:39:26
3月10日人民幣對(duì)美元中間價(jià)調(diào)升176個(gè)基點(diǎn)

3月10日人民幣對(duì)美元中間價(jià)調(diào)升176個(gè)基點(diǎn)

證券時(shí)報(bào)
2026-03-10 09:43:08
人老了,不管多關(guān)心子女,也別幫這“3種忙”,否則容易好心辦壞事

人老了,不管多關(guān)心子女,也別幫這“3種忙”,否則容易好心辦壞事

詩(shī)詞天地
2026-03-10 05:59:23
2026-03-11 05:32:49
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場(chǎng)瘋狂賣(mài)Token

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開(kāi)發(fā)表講話 官方回應(yīng)

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開(kāi)發(fā)表講話 官方回應(yīng)

體育要聞

加蘭沒(méi)那么差,但鱸魚(yú)會(huì)用嗎?

娛樂(lè)要聞

《逐玉》注水風(fēng)波升級(jí)!315評(píng)論區(qū)淪陷

財(cái)經(jīng)要聞

“龍蝦補(bǔ)貼”密集出爐 最高1000萬(wàn)!

汽車(chē)要聞

MG4有SUV衍生 上汽乘用車(chē)多款新車(chē)規(guī)劃曝光

態(tài)度原創(chuàng)

教育
游戲
本地
公開(kāi)課
軍事航空

教育要聞

【現(xiàn)貨】英語(yǔ)不會(huì)?背!主題演講不會(huì)?背!筆試不會(huì)?背??!

《德波尼亞》Steam 免費(fèi)領(lǐng) / 《超級(jí)馬力歐銀河大電影》最終預(yù)告曝光

本地新聞

云游中國(guó)|候鳥(niǎo)高顏值亮相!沉浸式打卡青海濕地

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

剛說(shuō)完戰(zhàn)爭(zhēng)很快結(jié)束 特朗普改口

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版