国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

復(fù)旦北大聯(lián)合美團(tuán)提出TDAR:破解Block Diffusion速度精度悖論

0
分享至



如今,Test-Time Scaling(測試時擴(kuò)展)已成為提升模型推理能力的關(guān)鍵路徑。而在這一浪潮中,塊擴(kuò)散語言模型(Block Diffusion Language Models, BDLMs)憑借其獨特的并行解碼能力,被視為超越傳統(tǒng)自回歸(AR)模型推理效率的有力競爭者。

然而,現(xiàn)有的 BDLMs 在面對長鏈推理時,陷入了一個兩難的效率 - 效果博弈:大塊(Large Block)解碼速度極快,但在復(fù)雜推理中容易出錯,導(dǎo)致性能大幅下降;而小塊(Small Block)雖然推理準(zhǔn)確,但退化為接近自回歸的速度,失去了擴(kuò)散模型的并行優(yōu)勢。同時,現(xiàn)有的解碼策略(如固定置信度)無法適應(yīng)長推理鏈中 “難易交替” 的動態(tài)特性。這引出了一個核心問題:如何在保持 Block Diffusion 高效并行優(yōu)勢的同時,解鎖其在復(fù)雜推理任務(wù)上的 Test-Time Scaling 潛力?

近期,復(fù)旦大學(xué) NLP 實驗室(FDU NLP)、北京大學(xué)知識計算實驗室(KCL)聯(lián)合美團(tuán) LongCat Team 提出了一種 Block Diffusion 推理模型 Test-Time Scaling 新框架 TDAR,通過引入“粗思考,細(xì)求證” (Think Coarse Critic Fine, TCCF) 范式與有界自適應(yīng)置信度解碼 (Bounded Adaptive Confidence Decoding, BACD),成功打破了速度與精度的零和博弈。



  • 論文標(biāo)題:Advancing Block Diffusion Language Models for Test-Time Scaling
  • 論文鏈接:https://arxiv.org/abs/2602.09555
  • 代碼鏈接:https://github.com/LuLuLuyi/TDAR
  • 模型鏈接: https://huggingface.co/lulululuyi/TDAR-8B-Thinking



TDAR-8B-Thinking 在 AIME24 上的性能與速度對比圖。TDAR 位于右上角,展示了在保持高推理速度的同時實現(xiàn)了 SOTA 的準(zhǔn)確率。

核心創(chuàng)新:雙重自適應(yīng)機(jī)制

為了解決上述痛點,研究團(tuán)隊提出了一套統(tǒng)一的測試時擴(kuò)展框架 TDAR,如下圖所示,該框架包含兩個核心設(shè)計:有界自適應(yīng)置信度解碼(BACD)與 “粗思考,細(xì)求證” (Think Coarse Critic Fine, TCCF) 范式。



TDAR 方法概覽。展示了 TCCF 流程(Coarse Thinking -> Fine Critic)以及 BACD 的動態(tài)閾值機(jī)制。

1. 解碼層:BACD (Bounded Adaptive Confidence Decoding)

傳統(tǒng)的動態(tài)解碼往往依賴固定的置信度閾值,這在長鏈推理中極易導(dǎo)致 “一步錯,步步錯”。研究團(tuán)隊提出了有界自適應(yīng)置信度解碼(BACD)算法,該算法利用已生成 token 的平均置信度作為信號,動態(tài)調(diào)整當(dāng)前的去噪閾值。同時,為了實現(xiàn)效率和效果的兼顧,增加了雙重邊界保護(hù)機(jī)制:上限(Upper Bound)負(fù)責(zé)在模型自信時激進(jìn)加速,下限(Lower Bound)負(fù)責(zé)在模型不確定時強(qiáng)制保守,防止錯誤累積。這使得模型能夠像人類一樣,簡單步驟快思考,困難步驟慢推敲。



2. 范式層:TCCF (Think Coarse, Critic Fine)

長鏈推理并非均勻的過程,而是由 “探索” 和 “驗證” 組成的異質(zhì)序列。在探索階段,思維發(fā)散但推理內(nèi)容較為粗糙,而在驗證階段,需要更加精細(xì)的驗證和總結(jié)。研究團(tuán)隊提出了 TCCF 范式,根據(jù)推理階段的功能分配不同的計算粒度:

  • Think Coarse(粗思考):使用 大 Block Size (block_size=16) 進(jìn)行快速的探索性推理,迅速鋪開思維路徑。
  • Critic Fine(細(xì)求證):使用 小 Block Size (block_size=1) 進(jìn)行精細(xì)的驗證、糾錯和總結(jié),確保最終答案的正確性。

此外,為了支持大 Block 的高效訓(xùn)練,研究團(tuán)隊引入了 Progressive Block Size Extension(漸進(jìn)式塊大小擴(kuò)展) 策略,有效緩解了 Block Size 增大帶來的性能衰退。

實驗結(jié)果:速度與精度的雙重飛躍

研究團(tuán)隊在 Math500、AIME24、AIME25、AMC23、GPQA、LiveCodeBench 共6個主流推理基準(zhǔn)上評估了 TDAR-8B-Thinking。

實驗結(jié)果表明,TDAR-8B-Thinking 在 8B 規(guī)模的 Block Diffusion 模型中取得了最佳性能,平均性能超越前 SOTA 模型 TraDo-8B 3.4 個百分點,解碼速度從 1.27 TPF 飆升至 2.97 TPF。

結(jié)合 BACD 算法后,速度進(jìn)一步提升至 3.37 TPF 且性能再漲 1.6 個百分點;疊加 TCCF 范式后,在 AIME24 復(fù)雜數(shù)學(xué)任務(wù)上準(zhǔn)確率從 36.3% 提升至 42.9%,同時維持 3.04 TPF 的高速度,實現(xiàn)了速度與性能的完美平衡。



實驗結(jié)果表格。TDAR-8B 及其變體在各項指標(biāo)上均優(yōu)于現(xiàn)有的自回歸和擴(kuò)散模型基線。

深度分析:解構(gòu) TDAR 的性能來源

為了探究 TDAR 高效背后的機(jī)制,研究團(tuán)隊對 Block Size、解碼策略及 TCCF 范式進(jìn)行了多維度的量化分析。

1. 突破效率瓶頸:BACD 解鎖高能效區(qū)間

研究團(tuán)隊將 BACD 與 BDLMs 中主流的采樣算法進(jìn)行了對比,包括 Static Confidence Decoding(固定步數(shù),性能上限但效率低)和 Dynamic Confidence Decoding(動態(tài)閾值)。

首先,研究團(tuán)隊比較了在不同閾值下的性能與速度權(quán)衡。如下圖所示,對于 Dynamic Confidence Decoding,隨著置信度閾值(Threshold)的降低,模型的性能會出現(xiàn)肉眼可見的衰退。相比之下,BACD 在獲得持續(xù)效率增益的同時,依然維持了穩(wěn)定的性能表現(xiàn)。



BACD 與 Dynamic Confidence 等方法的效率 - 準(zhǔn)確率在不同 threshold 對比

研究團(tuán)隊對 BACD 在不同閾值下,模型輸出的行為進(jìn)行了分析,相比于標(biāo)準(zhǔn)的動態(tài)置信度解碼,BACD 在不同閾值下表現(xiàn)出極高的穩(wěn)定性。分析顯示,BACD 有效避免了低閾值下的 “模型崩潰” 和 “重復(fù)生成” 問題,證明了 BACD 在動態(tài)調(diào)整去噪步數(shù)時具有顯著的優(yōu)越性。



BACD 在不同閾值下的性能穩(wěn)定性分析。

2. Block Size 的權(quán)衡

Block Size 是影響 BDLMs 性能與效率的關(guān)鍵變量。研究團(tuán)隊深入探究了其非線性影響:

如下圖所示,隨著 Block Size 增大,推理速度呈線性增長,但生成質(zhì)量會出現(xiàn)顯著衰退。通過權(quán)衡分析,研究團(tuán)隊鎖定 B=16 為 8B 模型的最佳平衡點(Sweet Spot)。TDAR 在此設(shè)置下,既保留了并行解碼的速度優(yōu)勢,又通過漸進(jìn)式訓(xùn)練(Progressive Extension)維持了強(qiáng)大的推理能力。



不同 Block Size 下模型性能與效率的 Trade-off 分析。

3. TCCF 的普適性增益

在不同的解碼算法下應(yīng)用 TCCF 機(jī)制,比較其在 AIME24 上的表現(xiàn),如下圖所示。結(jié)果表明,無論是在 Dynamic Confidence 還是 BACD 算法下,引入 TCCF(即從 Coarse 到 Fine 的轉(zhuǎn)換)都能帶來一致且顯著的性能提升。

特別是在 BACD 算法中,TCCF 有效提升了不同閾值下的性能下限。這證明了 “粗思考,細(xì)求證” 機(jī)制能有效彌補(bǔ)單一解碼策略在細(xì)節(jié)處理上的不足,實現(xiàn)了 1+1>2 的效果。



TCCF 策略在不同解碼算法及閾值下的性能增益分析。

結(jié)論與展望:釋放 BDLMs 的推理潛力

TDAR 的提出,標(biāo)志著 Block Diffusion 語言模型在復(fù)雜推理任務(wù)上邁出了重要一步。從此以后,大 Block Size 不再是禁區(qū),通過漸進(jìn)式訓(xùn)練和 BACD 解碼,大 Block 也可以兼顧質(zhì)量與速度。而 TCCF 范式的提出,證明了針對推理階段動態(tài)分配計算粒度的必要性。

TDAR 不僅為 BDLMs 的 Test-Time Scaling 提供了一套高效的解決方案,也為未來并行推理模型的設(shè)計提供了新的思路。

團(tuán)隊成員均來自美團(tuán)LongCat后訓(xùn)練團(tuán)隊:

陸毅,復(fù)旦大學(xué)自然語言處理實驗室碩士在讀,研究方向為大語言模型,復(fù)雜推理,導(dǎo)師為桂韜老師。

孔德陽,北京大學(xué)軟件工程國家研究中心碩士在讀,研究方向為大語言模型,復(fù)雜推理,導(dǎo)師為葉蔚副研究員。

王嘉寧,獲得華東師范大學(xué)博士學(xué)位,曾前往UCSD訪問學(xué)習(xí),在ACL、EMNLP、AAAI、ICLR等頂會發(fā)表論文數(shù)十篇,目前就職于美團(tuán),LongCat-Flash-Thinking核心作者之一,研究方向為大模型訓(xùn)練與復(fù)雜推理。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
600358,申請“摘帽”!

600358,申請“摘帽”!

證券時報e公司
2026-03-25 22:59:14
中國為C919適航證一忍再忍,熱臉貼冷屁股后,對歐美開啟硬剛模式

中國為C919適航證一忍再忍,熱臉貼冷屁股后,對歐美開啟硬剛模式

混沌錄
2026-03-25 20:01:51
他是CBA現(xiàn)役最老球員,打了20年拿5冠,身家過億,已為退役鋪路

他是CBA現(xiàn)役最老球員,打了20年拿5冠,身家過億,已為退役鋪路

以茶帶書
2026-03-25 16:35:52
沒有機(jī)會了?范子銘連續(xù)4場遭DNP 頂薪合同成新賽季最大亮點

沒有機(jī)會了?范子銘連續(xù)4場遭DNP 頂薪合同成新賽季最大亮點

狼叔評論
2026-03-25 23:10:04
普京智囊做出預(yù)言:下1個爆發(fā)戰(zhàn)爭的地方不是臺海,也不是南海

普京智囊做出預(yù)言:下1個爆發(fā)戰(zhàn)爭的地方不是臺海,也不是南海

悅心知足
2026-03-12 15:26:09
年度最佳科幻片,有點穩(wěn)了

年度最佳科幻片,有點穩(wěn)了

虹膜
2026-03-24 20:48:38
王楚欽師娘爆料!孫穎莎無論是長相性格還是人品,都是無以倫比的

王楚欽師娘爆料!孫穎莎無論是長相性格還是人品,都是無以倫比的

大中國
2026-03-24 15:25:36
66歲大媽喜歡睡前泡腳,不久腦梗去世,專家怒斥:太無知了

66歲大媽喜歡睡前泡腳,不久腦梗去世,專家怒斥:太無知了

比利
2026-03-21 13:00:22
比熬夜可怕十倍的10個壞習(xí)慣,一定要拋棄!

比熬夜可怕十倍的10個壞習(xí)慣,一定要拋棄!

深度知局
2026-02-26 21:39:44
華望汽車正式更名!

華望汽車正式更名!

電動知家
2026-03-25 10:17:05
人有沒有心梗,散步就知道?得心梗的人,散步常有這2個表現(xiàn)

人有沒有心梗,散步就知道?得心梗的人,散步常有這2個表現(xiàn)

健康科普365
2025-12-18 10:01:25
哈薩克斯坦也沒想到,跟著中國混來混去,結(jié)果自己也混成了個霸主

哈薩克斯坦也沒想到,跟著中國混來混去,結(jié)果自己也混成了個霸主

杜櫚手工制作
2026-03-24 19:40:39
鐘楚曦新戀情實錘:從張云龍到侯雯元,她真的“拍一部戲談一個”?

鐘楚曦新戀情實錘:從張云龍到侯雯元,她真的“拍一部戲談一個”?

阿廢冷眼觀察所
2026-03-23 11:38:49
87年薄一波去杭州探望陳云,期間二人神秘交談,薄提醒:你悠著點

87年薄一波去杭州探望陳云,期間二人神秘交談,薄提醒:你悠著點

談古論今歷史有道
2026-03-25 15:15:03
大反轉(zhuǎn)!杭州多地發(fā)布黃色預(yù)警,明天抵達(dá)杭州,出門提前準(zhǔn)備

大反轉(zhuǎn)!杭州多地發(fā)布黃色預(yù)警,明天抵達(dá)杭州,出門提前準(zhǔn)備

19樓
2026-03-25 15:54:51
趙心童:謝菲爾德已成為我在英國的家,很高興將世錦賽留在這里

趙心童:謝菲爾德已成為我在英國的家,很高興將世錦賽留在這里

懂球帝
2026-03-25 12:33:08
兩名加拿大年輕機(jī)長壯烈犧牲!

兩名加拿大年輕機(jī)長壯烈犧牲!

Nee看
2026-03-25 00:33:21
人到老年才知道,增加骨密度最好的運動,竟然不是跑步和走路

人到老年才知道,增加骨密度最好的運動,竟然不是跑步和走路

墜入二次元的海洋
2026-03-17 10:25:30
薩德失敗,愛國者失敗,宙斯盾沒攔住,印媒:中國已看穿美軍弱點

薩德失敗,愛國者失敗,宙斯盾沒攔住,印媒:中國已看穿美軍弱點

嘴角上翹
2026-03-12 05:38:11
女兒高考當(dāng)天,我撞見婆婆往她湯里下藥,我偷偷換給了高考的侄子

女兒高考當(dāng)天,我撞見婆婆往她湯里下藥,我偷偷換給了高考的侄子

魚語昱雨軒
2026-03-25 14:03:47
2026-03-25 23:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12598文章數(shù) 142593關(guān)注度
往期回顧 全部

科技要聞

紅極一時卻草草收場,Sora宣布正式關(guān)停

頭條要聞

伊朗放話愿意與"主和派"萬斯談 特朗普表態(tài)

頭條要聞

伊朗放話愿意與"主和派"萬斯談 特朗普表態(tài)

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰經(jīng)搶救無效不幸去世 年僅41歲

財經(jīng)要聞

管濤:中東局勢如何影響人民幣匯率走勢?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實力

態(tài)度原創(chuàng)

家居
親子
房產(chǎn)
數(shù)碼
健康

家居要聞

輕奢堇天府 小資情調(diào)

親子要聞

2026年幼兒園定了!3大硬變化關(guān)乎每家娃,帶娃的長輩早知道不虧

房產(chǎn)要聞

41億!259畝!建學(xué)?!齺嗊@個大城更,最新方案曝光!

數(shù)碼要聞

蘋果AirPods Max 2耳機(jī)已接受訂購,4月1日發(fā)貨

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

無障礙瀏覽 進(jìn)入關(guān)懷版