国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

復(fù)旦北大聯(lián)合美團(tuán)提出TDAR:破解Block Diffusion速度精度悖論

0
分享至



如今,Test-Time Scaling(測試時擴展)已成為提升模型推理能力的關(guān)鍵路徑。而在這一浪潮中,塊擴散語言模型(Block Diffusion Language Models, BDLMs)憑借其獨特的并行解碼能力,被視為超越傳統(tǒng)自回歸(AR)模型推理效率的有力競爭者。

然而,現(xiàn)有的 BDLMs 在面對長鏈推理時,陷入了一個兩難的效率 - 效果博弈:大塊(Large Block)解碼速度極快,但在復(fù)雜推理中容易出錯,導(dǎo)致性能大幅下降;而小塊(Small Block)雖然推理準(zhǔn)確,但退化為接近自回歸的速度,失去了擴散模型的并行優(yōu)勢。同時,現(xiàn)有的解碼策略(如固定置信度)無法適應(yīng)長推理鏈中 “難易交替” 的動態(tài)特性。這引出了一個核心問題:如何在保持 Block Diffusion 高效并行優(yōu)勢的同時,解鎖其在復(fù)雜推理任務(wù)上的 Test-Time Scaling 潛力?

近期,復(fù)旦大學(xué) NLP 實驗室(FDU NLP)、北京大學(xué)知識計算實驗室(KCL)聯(lián)合美團(tuán) LongCat Team 提出了一種 Block Diffusion 推理模型 Test-Time Scaling 新框架 TDAR,通過引入“粗思考,細(xì)求證” (Think Coarse Critic Fine, TCCF) 范式與有界自適應(yīng)置信度解碼 (Bounded Adaptive Confidence Decoding, BACD),成功打破了速度與精度的零和博弈。



  • 論文標(biāo)題:Advancing Block Diffusion Language Models for Test-Time Scaling
  • 論文鏈接:https://arxiv.org/abs/2602.09555
  • 代碼鏈接:https://github.com/LuLuLuyi/TDAR
  • 模型鏈接: https://huggingface.co/lulululuyi/TDAR-8B-Thinking



TDAR-8B-Thinking 在 AIME24 上的性能與速度對比圖。TDAR 位于右上角,展示了在保持高推理速度的同時實現(xiàn)了 SOTA 的準(zhǔn)確率。

核心創(chuàng)新:雙重自適應(yīng)機制

為了解決上述痛點,研究團(tuán)隊提出了一套統(tǒng)一的測試時擴展框架 TDAR,如下圖所示,該框架包含兩個核心設(shè)計:有界自適應(yīng)置信度解碼(BACD)與 “粗思考,細(xì)求證” (Think Coarse Critic Fine, TCCF) 范式。



TDAR 方法概覽。展示了 TCCF 流程(Coarse Thinking -> Fine Critic)以及 BACD 的動態(tài)閾值機制。

1. 解碼層:BACD (Bounded Adaptive Confidence Decoding)

傳統(tǒng)的動態(tài)解碼往往依賴固定的置信度閾值,這在長鏈推理中極易導(dǎo)致 “一步錯,步步錯”。研究團(tuán)隊提出了有界自適應(yīng)置信度解碼(BACD)算法,該算法利用已生成 token 的平均置信度作為信號,動態(tài)調(diào)整當(dāng)前的去噪閾值。同時,為了實現(xiàn)效率和效果的兼顧,增加了雙重邊界保護(hù)機制:上限(Upper Bound)負(fù)責(zé)在模型自信時激進(jìn)加速,下限(Lower Bound)負(fù)責(zé)在模型不確定時強制保守,防止錯誤累積。這使得模型能夠像人類一樣,簡單步驟快思考,困難步驟慢推敲。



2. 范式層:TCCF (Think Coarse, Critic Fine)

長鏈推理并非均勻的過程,而是由 “探索” 和 “驗證” 組成的異質(zhì)序列。在探索階段,思維發(fā)散但推理內(nèi)容較為粗糙,而在驗證階段,需要更加精細(xì)的驗證和總結(jié)。研究團(tuán)隊提出了 TCCF 范式,根據(jù)推理階段的功能分配不同的計算粒度:

  • Think Coarse(粗思考):使用 大 Block Size (block_size=16) 進(jìn)行快速的探索性推理,迅速鋪開思維路徑。
  • Critic Fine(細(xì)求證):使用 小 Block Size (block_size=1) 進(jìn)行精細(xì)的驗證、糾錯和總結(jié),確保最終答案的正確性。

此外,為了支持大 Block 的高效訓(xùn)練,研究團(tuán)隊引入了 Progressive Block Size Extension(漸進(jìn)式塊大小擴展) 策略,有效緩解了 Block Size 增大帶來的性能衰退。

實驗結(jié)果:速度與精度的雙重飛躍

研究團(tuán)隊在 Math500、AIME24、AIME25、AMC23、GPQA、LiveCodeBench 共6個主流推理基準(zhǔn)上評估了 TDAR-8B-Thinking。

實驗結(jié)果表明,TDAR-8B-Thinking 在 8B 規(guī)模的 Block Diffusion 模型中取得了最佳性能,平均性能超越前 SOTA 模型 TraDo-8B 3.4 個百分點,解碼速度從 1.27 TPF 飆升至 2.97 TPF。

結(jié)合 BACD 算法后,速度進(jìn)一步提升至 3.37 TPF 且性能再漲 1.6 個百分點;疊加 TCCF 范式后,在 AIME24 復(fù)雜數(shù)學(xué)任務(wù)上準(zhǔn)確率從 36.3% 提升至 42.9%,同時維持 3.04 TPF 的高速度,實現(xiàn)了速度與性能的完美平衡。



實驗結(jié)果表格。TDAR-8B 及其變體在各項指標(biāo)上均優(yōu)于現(xiàn)有的自回歸和擴散模型基線。

深度分析:解構(gòu) TDAR 的性能來源

為了探究 TDAR 高效背后的機制,研究團(tuán)隊對 Block Size、解碼策略及 TCCF 范式進(jìn)行了多維度的量化分析。

1. 突破效率瓶頸:BACD 解鎖高能效區(qū)間

研究團(tuán)隊將 BACD 與 BDLMs 中主流的采樣算法進(jìn)行了對比,包括 Static Confidence Decoding(固定步數(shù),性能上限但效率低)和 Dynamic Confidence Decoding(動態(tài)閾值)。

首先,研究團(tuán)隊比較了在不同閾值下的性能與速度權(quán)衡。如下圖所示,對于 Dynamic Confidence Decoding,隨著置信度閾值(Threshold)的降低,模型的性能會出現(xiàn)肉眼可見的衰退。相比之下,BACD 在獲得持續(xù)效率增益的同時,依然維持了穩(wěn)定的性能表現(xiàn)。



BACD 與 Dynamic Confidence 等方法的效率 - 準(zhǔn)確率在不同 threshold 對比

研究團(tuán)隊對 BACD 在不同閾值下,模型輸出的行為進(jìn)行了分析,相比于標(biāo)準(zhǔn)的動態(tài)置信度解碼,BACD 在不同閾值下表現(xiàn)出極高的穩(wěn)定性。分析顯示,BACD 有效避免了低閾值下的 “模型崩潰” 和 “重復(fù)生成” 問題,證明了 BACD 在動態(tài)調(diào)整去噪步數(shù)時具有顯著的優(yōu)越性。



BACD 在不同閾值下的性能穩(wěn)定性分析。

2. Block Size 的權(quán)衡

Block Size 是影響 BDLMs 性能與效率的關(guān)鍵變量。研究團(tuán)隊深入探究了其非線性影響:

如下圖所示,隨著 Block Size 增大,推理速度呈線性增長,但生成質(zhì)量會出現(xiàn)顯著衰退。通過權(quán)衡分析,研究團(tuán)隊鎖定 B=16 為 8B 模型的最佳平衡點(Sweet Spot)。TDAR 在此設(shè)置下,既保留了并行解碼的速度優(yōu)勢,又通過漸進(jìn)式訓(xùn)練(Progressive Extension)維持了強大的推理能力。



不同 Block Size 下模型性能與效率的 Trade-off 分析。

3. TCCF 的普適性增益

在不同的解碼算法下應(yīng)用 TCCF 機制,比較其在 AIME24 上的表現(xiàn),如下圖所示。結(jié)果表明,無論是在 Dynamic Confidence 還是 BACD 算法下,引入 TCCF(即從 Coarse 到 Fine 的轉(zhuǎn)換)都能帶來一致且顯著的性能提升。

特別是在 BACD 算法中,TCCF 有效提升了不同閾值下的性能下限。這證明了 “粗思考,細(xì)求證” 機制能有效彌補單一解碼策略在細(xì)節(jié)處理上的不足,實現(xiàn)了 1+1>2 的效果。



TCCF 策略在不同解碼算法及閾值下的性能增益分析。

結(jié)論與展望:釋放 BDLMs 的推理潛力

TDAR 的提出,標(biāo)志著 Block Diffusion 語言模型在復(fù)雜推理任務(wù)上邁出了重要一步。從此以后,大 Block Size 不再是禁區(qū),通過漸進(jìn)式訓(xùn)練和 BACD 解碼,大 Block 也可以兼顧質(zhì)量與速度。而 TCCF 范式的提出,證明了針對推理階段動態(tài)分配計算粒度的必要性。

TDAR 不僅為 BDLMs 的 Test-Time Scaling 提供了一套高效的解決方案,也為未來并行推理模型的設(shè)計提供了新的思路。

團(tuán)隊成員均來自美團(tuán)LongCat后訓(xùn)練團(tuán)隊:

陸毅,復(fù)旦大學(xué)自然語言處理實驗室碩士在讀,研究方向為大語言模型,復(fù)雜推理,導(dǎo)師為桂韜老師。

孔德陽,北京大學(xué)軟件工程國家研究中心碩士在讀,研究方向為大語言模型,復(fù)雜推理,導(dǎo)師為葉蔚副研究員。

王嘉寧,獲得華東師范大學(xué)博士學(xué)位,曾前往UCSD訪問學(xué)習(xí),在ACL、EMNLP、AAAI、ICLR等頂會發(fā)表論文數(shù)十篇,目前就職于美團(tuán),LongCat-Flash-Thinking核心作者之一,研究方向為大模型訓(xùn)練與復(fù)雜推理。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
張娜拉去世?她被財閥大佬潛規(guī)則300次?

張娜拉去世?她被財閥大佬潛規(guī)則300次?

八卦瘋叔
2026-03-11 11:36:06
3-0!挪超黑馬歐冠震撼5連勝 首次打進(jìn)8強在望 5.4萬人口小鎮(zhèn)沸騰

3-0!挪超黑馬歐冠震撼5連勝 首次打進(jìn)8強在望 5.4萬人口小鎮(zhèn)沸騰

我愛英超
2026-03-12 07:03:17
首節(jié)21-11!中國女籃對陣比利時,韓旭疑似感冒,宮魯鳴再變陣

首節(jié)21-11!中國女籃對陣比利時,韓旭疑似感冒,宮魯鳴再變陣

曹說體育
2026-03-12 20:01:14
新娘臨時要10萬下車費,新郎去取錢卻未歸,新娘趕到婆家瞬間淚目

新娘臨時要10萬下車費,新郎去取錢卻未歸,新娘趕到婆家瞬間淚目

千秋歷史
2026-02-02 20:23:42
媒體人:前CBA內(nèi)線常林重返職業(yè)聯(lián)賽,加盟NBL球隊焦作文旅

媒體人:前CBA內(nèi)線常林重返職業(yè)聯(lián)賽,加盟NBL球隊焦作文旅

懂球帝
2026-03-12 11:14:07
02-03賽季至今每個賽季的三雙數(shù)第一人!

02-03賽季至今每個賽季的三雙數(shù)第一人!

籃球大圖
2026-03-12 17:09:23
油價剛漲超5.6毛/升后,新周期又漲近0.9元/升,下次3月23日調(diào)整

油價剛漲超5.6毛/升后,新周期又漲近0.9元/升,下次3月23日調(diào)整

豬友巴巴
2026-03-11 14:40:04
漂亮也沒用!重慶20歲女籃鄧圣潔去世,社交平臺多次分享嗜酒如命

漂亮也沒用!重慶20歲女籃鄧圣潔去世,社交平臺多次分享嗜酒如命

籃球看比賽
2026-03-12 10:58:50
東莞中小學(xué)生統(tǒng)一周一返校?官方最新回應(yīng)!

東莞中小學(xué)生統(tǒng)一周一返校?官方最新回應(yīng)!

東莞紀(jì)實
2026-03-12 17:41:21
上最多的隊挨最毒的打,6戰(zhàn)一勝難求,英超怎么了?

上最多的隊挨最毒的打,6戰(zhàn)一勝難求,英超怎么了?

仰臥撐FTUer
2026-03-12 19:50:13
以色列要被打成加沙了,美國智庫分析,戰(zhàn)爭結(jié)果是中美會贏!

以色列要被打成加沙了,美國智庫分析,戰(zhàn)爭結(jié)果是中美會贏!

起喜電影
2026-03-12 01:16:25
癢是大病預(yù)警!醫(yī)生提醒:2處發(fā)癢,或不是過敏,而是這4病

癢是大病預(yù)警!醫(yī)生提醒:2處發(fā)癢,或不是過敏,而是這4病

醫(yī)學(xué)科普匯
2026-03-05 21:20:03
痛失新銳護(hù)衛(wèi)艦:烏克蘭偷襲再次得手,俄4艘軍艦港內(nèi)報銷?

痛失新銳護(hù)衛(wèi)艦:烏克蘭偷襲再次得手,俄4艘軍艦港內(nèi)報銷?

午夜搭車a
2026-03-09 15:16:38
CCTV5直播!亞洲杯1/4決賽:朝鮮決戰(zhàn)澳大利亞,勝者或踢中國女足

CCTV5直播!亞洲杯1/4決賽:朝鮮決戰(zhàn)澳大利亞,勝者或踢中國女足

青梅侃史啊
2026-03-12 17:17:01
美以空襲直搗德黑蘭:伊朗情報副長官斃命,中東暗戰(zhàn)已掀底牌

美以空襲直搗德黑蘭:伊朗情報副長官斃命,中東暗戰(zhàn)已掀底牌

老馬拉車莫少裝
2026-03-12 18:10:50
眉莊居然沖上熱搜,直播狀態(tài)引發(fā)熱議,頭發(fā)白了像變了個人!

眉莊居然沖上熱搜,直播狀態(tài)引發(fā)熱議,頭發(fā)白了像變了個人!

心靈的觸動a
2026-03-12 07:26:32
英格拉姆:錫安是跨時代的奇才 沒人能像他那樣打球

英格拉姆:錫安是跨時代的奇才 沒人能像他那樣打球

北青網(wǎng)-北京青年報
2026-03-12 19:50:14
毛主席聽到周總理訃告后問“逝世是什么意思”,孟錦云說出真相后,他沉默了

毛主席聽到周總理訃告后問“逝世是什么意思”,孟錦云說出真相后,他沉默了

史海孤雁
2026-03-11 23:33:06
一月上漲22%!美國汽油均價6.4元/升 創(chuàng)21個多月來最高水平

一月上漲22%!美國汽油均價6.4元/升 創(chuàng)21個多月來最高水平

快科技
2026-03-12 08:23:05
成本暴漲!OPPO 正式官宣大漲價

成本暴漲!OPPO 正式官宣大漲價

XCiOS俱樂部
2026-03-10 18:09:35
2026-03-12 20:15:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12486文章數(shù) 142584關(guān)注度
往期回顧 全部

科技要聞

當(dāng)養(yǎng)蝦人開始卸載,大廠的戰(zhàn)爭才真正開始

頭條要聞

法院600萬拍掛一輛布加迪跑車:不得上路行駛 曾上京牌

頭條要聞

法院600萬拍掛一輛布加迪跑車:不得上路行駛 曾上京牌

體育要聞

建議將“出球型門將”納入反詐app

娛樂要聞

李湘瘦身驚艷亮相肖邦之夜 攜女兒出席

財經(jīng)要聞

盧鋒:從特朗普團(tuán)隊群演看時代變局

汽車要聞

大眾2025財報:轉(zhuǎn)型雖有陣痛 "大象"已然起跑

態(tài)度原創(chuàng)

房產(chǎn)
手機
親子
數(shù)碼
時尚

房產(chǎn)要聞

唏噓!三亞又一房企巨頭破產(chǎn),狂欠43億甩賣資產(chǎn)!

手機要聞

存儲芯片成本暴漲80%,3月起國產(chǎn)手機或迎來集體漲價潮

親子要聞

今天我們來吃一些開心搞怪的糖果食玩

數(shù)碼要聞

AOC推出便攜顯示器16T20E2,配備收納保護(hù)支架

風(fēng)衣+大包,春季最氣質(zhì)搭配!

無障礙瀏覽 進(jìn)入關(guān)懷版