国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

擴(kuò)散LLM推理新范式:打破生成長度限制,實(shí)現(xiàn)動(dòng)態(tài)自適應(yīng)調(diào)節(jié)

0
分享至



隨著 Gemini-Diffusion,Seed-Diffusion 等擴(kuò)散大語言模型(DLLM)的發(fā)布,這一領(lǐng)域成為了工業(yè)界和學(xué)術(shù)界的熱門方向。但是,當(dāng)前 DLLM 存在著在推理時(shí)必須采用預(yù)設(shè)固定長度的限制,對(duì)于不同任務(wù)都需要專門調(diào)整才能達(dá)到最優(yōu)效果。

為了解決這一本質(zhì)的問題,香港中文大學(xué) MMLab,上海 AI 實(shí)驗(yàn)室等提出 DAEDAL,賦予 DLLM 可以根據(jù)問題的具體情況自主調(diào)整回答長度的能力,彌補(bǔ)了 DLLM 與自回歸 LLM 的關(guān)鍵差距,為更靈活、高效、強(qiáng)大的擴(kuò)散大語言模型打下了基石。



  • 論文標(biāo)題:Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models
  • 論文地址:https://arxiv.org/abs/2508.00819
  • 代碼地址:https://github.com/Li-Jinsong/DAEDAL

DAEDAL 作為一種 Training Free 的去噪策略,從一個(gè)統(tǒng)一且很短的初始長度開始,讓模型根據(jù)自己的需求在生成中調(diào)節(jié)長度,動(dòng)態(tài)擴(kuò)展,達(dá)到了和現(xiàn)有去噪策略在每個(gè)評(píng)測基準(zhǔn)上精心調(diào)整生成長度得到的最佳性能相當(dāng)?shù)谋憩F(xiàn),有時(shí)甚至更勝一籌。



圖 1 (a) DAEDAL 使用統(tǒng)一且很短的初始長度,在多個(gè)基準(zhǔn)上取得了與精心調(diào)優(yōu)的固定長度基線相當(dāng)甚至更優(yōu)的性能。(b) DAEDAL 能夠根據(jù)每個(gè)問題,在生成過程中自適應(yīng)地動(dòng)態(tài)調(diào)整長度,相比之下,現(xiàn)有方法則對(duì)所有問題都只能采用單一的固定長度。

DAEDAL 介紹

擴(kuò)散大語言模型(DLLM)潛力巨大,但其現(xiàn)有推理流程存在一個(gè)關(guān)鍵的問題:需要預(yù)定義的,固定的生成長度。與能夠邊思考邊決定 “說” 多少的人類和自回歸模型不同,現(xiàn)有的 DLLM 需要預(yù)先設(shè)定確切的輸出長度。這導(dǎo)致了一個(gè)兩難的困境:設(shè)置太短,模型在復(fù)雜問題上難以發(fā)揮全部實(shí)力,可能導(dǎo)致做錯(cuò);設(shè)置太長,則會(huì)浪費(fèi)大量的計(jì)算資源,同時(shí),實(shí)驗(yàn)中還發(fā)現(xiàn)過長的生成長度可能導(dǎo)致性能下降。

作者在探索中發(fā)現(xiàn),這一問題的解決方案就蘊(yùn)藏在模型自身之中。DLLM 在生成時(shí)會(huì)不斷地全局規(guī)劃其整體輸出,而它的預(yù)測置信度正是其內(nèi)部狀態(tài)的強(qiáng)大信號(hào)。作者發(fā)現(xiàn)了兩種關(guān)鍵信號(hào):

  • DLLM 在序列末端生成序列結(jié)束符 (EOS) 的意愿直接反映了其對(duì)全局預(yù)算的規(guī)劃。當(dāng)預(yù)設(shè)長度充足時(shí),模型會(huì)自信地在末尾規(guī)劃出結(jié)束區(qū)域,從而高置信度地預(yù)測 EOS。反之,當(dāng)長度不足時(shí),模型會(huì)試圖利用所有可用空間來完成核心內(nèi)容,因而抑制了在末尾生成 EOS 的置信度。
  • 在去噪過程中,對(duì)某個(gè)特定詞元的極低預(yù)測置信度,則可作為一種局部信號(hào),這不僅代表了模型對(duì)該詞元的不確定性,更深層次地,它表明當(dāng)前的局部上下文過于受限,不足以支撐一個(gè)復(fù)雜的邏輯步驟或細(xì)節(jié)的展開,或是需要插入空間對(duì)過去生成的內(nèi)容進(jìn)行補(bǔ)充和修正。



圖 2 該熱力圖展示了在對(duì)一個(gè)長度為 128 的全掩碼輸入進(jìn)行首次預(yù)測后,于序列末端測得的平均 EOS 詞元置信度之差。該差值的計(jì)算方式為:用 “長度充足” 問題(在少于 128 長度的 setting 下被正確回答)的平均置信度減去 “長度不足” 問題(僅在長度更長的 setting 才能被正確回答)的平均置信度。圖中大面積的綠色(差值 > 0)表明,對(duì)于長度充足的問題,結(jié)尾 EOS 序列置信度更高,驗(yàn)證了文中的核心發(fā)現(xiàn)。

基于發(fā)現(xiàn),作者提出了 DAEDAL,一種無需訓(xùn)練的兩階段推理策略,利用這些內(nèi)部信號(hào),賦予 DLLM 根據(jù)每個(gè)問題的具體情況,動(dòng)態(tài)自主調(diào)整回答長度的能力。



圖 3 DAEDAL 與現(xiàn)有基線方法流程對(duì)比

1. 初始長度調(diào)整 (Initial Length Adjustment): 在去噪流程開始前,DAEDAL 從一個(gè)統(tǒng)一的很短初始長度出發(fā)。它會(huì)通過檢測序列末端的 EOS 序列平均置信度來衡量:“對(duì)于這個(gè)任務(wù),當(dāng)前分配的長度是否充足?”。如果置信度很低,即模型規(guī)劃充分利用全部長度,就表明模型認(rèn)為長度預(yù)算不足。此時(shí),DAEDAL 會(huì)通過增加 [MASK] 詞元來擴(kuò)展序列長度,并重復(fù)此過程,直到模型確信長度預(yù)算充足。這為任務(wù)設(shè)定了一個(gè)合理的全局規(guī)劃長度。

2. 迭代式掩碼插入 (Iterative Mask Insertion): 在逐步去噪的過程中,DAEDAL 會(huì)持續(xù)監(jiān)控模型的置信度。如果它發(fā)現(xiàn)模型對(duì)某個(gè) [MASK] 位置極不確定,便會(huì)將其標(biāo)記為 “擴(kuò)展點(diǎn)”。DAEDAL 通過將這個(gè)單個(gè) [MASK] 替換為由多個(gè) [MASK],動(dòng)態(tài)且精準(zhǔn)地在模型最需要的地方為序列注入 “思考空間”,以便其在回復(fù)中進(jìn)行補(bǔ)充修補(bǔ),或是有足夠空間去進(jìn)行更復(fù)雜的思考。

通過結(jié)合這兩個(gè)階段,不需要進(jìn)行任何訓(xùn)練,DAEDAL 使得 DLLM 能夠根據(jù)每個(gè)問題的具體情況自主調(diào)整其回答的長度,展現(xiàn)了強(qiáng)大的效果。

實(shí)驗(yàn)結(jié)果





圖 4 DAEDAL 在 4 個(gè)基準(zhǔn)測試上與基線方法性能對(duì)比以及生成長度可視化

DAEDAL 使用統(tǒng)一的短初始長度即可取得強(qiáng)大性能。 實(shí)驗(yàn)結(jié)果清晰地展示了 DAEDAL 的優(yōu)越性能。盡管 DAEDAL 默認(rèn)從一個(gè)較短的初始長度開始,但其兩階段的長度調(diào)整與擴(kuò)展機(jī)制,不僅使其性能顯著優(yōu)于使用相同短初始長度的基線方法,更能達(dá)到與基線方法在所有固定長度中精心調(diào)優(yōu)后的峰值性能相當(dāng)、甚至在某些情況下超越后者的水平。

這一發(fā)現(xiàn)凸顯了 DAEDAL 的有效性,并揭示了固定長度范式的內(nèi)在不便之處,因?yàn)榛€方法的最佳長度因不同基準(zhǔn)而異,這更強(qiáng)調(diào)了動(dòng)態(tài)長度適應(yīng)的必要性。為了直觀展示這種動(dòng)態(tài)適應(yīng)性,圖 3 對(duì)比了 DAEDAL 所用總生成長度(N_token)的分布與基線方法所用的單一最佳長度。

DAEDAL 能自適應(yīng)地找到最佳生成長度。 進(jìn)一步的分析表明,DAEDAL 能智能地預(yù)估并生成恰當(dāng)長度的回答。在多數(shù)情況下,DAEDAL 產(chǎn)生的有效詞元數(shù)(E_token)與基線方法在最佳性能配置下的有效詞元數(shù)相當(dāng)。這表明 DAEDAL 能自適應(yīng)地找到模型內(nèi)在的、針對(duì)特定任務(wù)所需詞元長度的 “舒適點(diǎn)”?;€方法的行為也印證了這一點(diǎn):當(dāng)設(shè)置的長度過長時(shí),即使有效詞元數(shù)可能繼續(xù)增加,性能反而可能會(huì)下降。DAEDAL 的自適應(yīng)特性有效避免了這種因過度擴(kuò)展導(dǎo)致的性能下降。

DAEDAL 能夠提升計(jì)算資源利用率。在取得優(yōu)越準(zhǔn)確率的同時(shí),DAEDAL 生成的總詞元數(shù)(N_token)通常低于基線方法在最佳性能 setting 下的總詞元數(shù)。相近的有效詞元數(shù)和更低的總詞元數(shù)帶來了更高的有效詞元利用率(E_ratio)。這大大地提升了計(jì)算資源的利用率。

總結(jié)

DAEDAL 通過其初始長度調(diào)整(Initial Length Adjustment)和迭代式掩碼插入(Iterative Mask Insertion)機(jī)制,不僅在多個(gè)基準(zhǔn)上取得了與精心調(diào)優(yōu)的固定長度基線相當(dāng)甚至更優(yōu)的性能,還能為每個(gè)任務(wù)自適應(yīng)地分配合適的長度。這使得模型在性能和計(jì)算效率上都取得了實(shí)質(zhì)性的提升。DAEDA 彌補(bǔ)了擴(kuò)散大語言模型與自回歸大語言模型在核心能力上的一個(gè)關(guān)鍵差距,為更靈活、高效、強(qiáng)大的擴(kuò)散大語言模型打下了基石。

作者介紹

本文第一作者是香港中文大學(xué) MMLab 的博士生李勁松,導(dǎo)師林達(dá)華教授,主要研究方向是多模態(tài)大模型和大語言模型。曾在 NeurIPS,ECCV,ACL 等頂級(jí)會(huì)議發(fā)表多篇論文,Google 學(xué)術(shù)引用超 1400 次。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
北京醫(yī)院院長送給老人4句話:很多病都不算病,只是衰老罷了

北京醫(yī)院院長送給老人4句話:很多病都不算病,只是衰老罷了

徐云流浪中國
2025-12-20 16:05:09
吳錫昌接受紀(jì)律審查和監(jiān)察調(diào)查

吳錫昌接受紀(jì)律審查和監(jiān)察調(diào)查

吉刻新聞
2025-12-20 13:14:46
“不要再查了,再查我怕過兩天南京博物院庫房就要著火了!”

“不要再查了,再查我怕過兩天南京博物院庫房就要著火了!”

迷世書童H9527
2025-12-18 10:00:25
刀郎:祝賀徐子堯老師首秀圓滿成功

刀郎:祝賀徐子堯老師首秀圓滿成功

手工制作阿殲
2025-12-20 10:42:58
絲芭傳媒再發(fā)文:要求鞠婧祎方立刻停止侵權(quán)抹黑,將就其和關(guān)聯(lián)人涂某某等涉嫌嚴(yán)重經(jīng)濟(jì)犯罪行為,向相關(guān)監(jiān)管機(jī)構(gòu)實(shí)名舉報(bào)

絲芭傳媒再發(fā)文:要求鞠婧祎方立刻停止侵權(quán)抹黑,將就其和關(guān)聯(lián)人涂某某等涉嫌嚴(yán)重經(jīng)濟(jì)犯罪行為,向相關(guān)監(jiān)管機(jī)構(gòu)實(shí)名舉報(bào)

極目新聞
2025-12-18 11:17:51
CBA官方首周收視戰(zhàn)報(bào):抖音平臺(tái)累計(jì)觀看人次4.36億,累計(jì)觀看人數(shù)8502萬

CBA官方首周收視戰(zhàn)報(bào):抖音平臺(tái)累計(jì)觀看人次4.36億,累計(jì)觀看人數(shù)8502萬

懂球帝
2025-12-20 18:24:15
島內(nèi)掀起“彈劾賴清德”浪潮,臺(tái)媒:背后是臺(tái)灣民眾對(duì)“臺(tái)獨(dú)”亂政徹底失望

島內(nèi)掀起“彈劾賴清德”浪潮,臺(tái)媒:背后是臺(tái)灣民眾對(duì)“臺(tái)獨(dú)”亂政徹底失望

環(huán)球網(wǎng)資訊
2025-12-20 07:09:34
【2025.12.20】扒醬料不停:那些你不知道的八卦一二三

【2025.12.20】扒醬料不停:那些你不知道的八卦一二三

娛樂真爆姐
2025-12-20 23:20:15
向佐秀恩愛翻車,修圖誤傷老婆臉,網(wǎng)友:這比精修照有趣多了

向佐秀恩愛翻車,修圖誤傷老婆臉,網(wǎng)友:這比精修照有趣多了

鋒哥與八卦哥
2025-12-18 14:54:44
范迪塞爾官宣!C羅加盟,巨石強(qiáng)森回歸,《速度與激情11》要爆了

范迪塞爾官宣!C羅加盟,巨石強(qiáng)森回歸,《速度與激情11》要爆了

娛樂圈十三太保
2025-12-19 16:48:24
從屠龍少年到惡龍——洪森的前世今生

從屠龍少年到惡龍——洪森的前世今生

細(xì)雨中的呼喊
2025-12-20 18:37:18
連場轟20+!中國女籃26歲2米王牌閃耀:升聯(lián)盟第2,宮帥招她嗎?

連場轟20+!中國女籃26歲2米王牌閃耀:升聯(lián)盟第2,宮帥招她嗎?

李喜林籃球絕殺
2025-12-20 16:09:28
窩闊臺(tái)家族與拖雷家族的較量:在絕對(duì)的實(shí)力面前,計(jì)謀的作用不大

窩闊臺(tái)家族與拖雷家族的較量:在絕對(duì)的實(shí)力面前,計(jì)謀的作用不大

阿光的技巧課堂
2025-12-17 21:48:01
普京嚴(yán)肅警告歐洲:沒收俄資產(chǎn)后果很嚴(yán)重

普京嚴(yán)肅警告歐洲:沒收俄資產(chǎn)后果很嚴(yán)重

參考消息
2025-12-19 21:29:13
中國特使訪柬推動(dòng)柬泰?;?>
    </a>
        <h3>
      <a href=參考消息
2025-12-20 20:45:43
第二個(gè)李登輝出現(xiàn)?她是民進(jìn)黨臥底,要繼承王金平衣缽害殘國民黨

第二個(gè)李登輝出現(xiàn)?她是民進(jìn)黨臥底,要繼承王金平衣缽害殘國民黨

近史博覽
2025-12-20 07:06:14
終于行動(dòng)!傳遼籃進(jìn)行陣容調(diào)整 楊鳴目標(biāo)明確 鋒線補(bǔ)強(qiáng)勢在必行

終于行動(dòng)!傳遼籃進(jìn)行陣容調(diào)整 楊鳴目標(biāo)明確 鋒線補(bǔ)強(qiáng)勢在必行

胖子噴球
2025-12-20 11:39:12
左右腦互搏,媒體曝新國標(biāo)銷售暴增8倍,多家媒體報(bào)道不一,為啥

左右腦互搏,媒體曝新國標(biāo)銷售暴增8倍,多家媒體報(bào)道不一,為啥

你食不食油餅
2025-12-18 03:12:53
回國后我才敢說:越南是我去過的所有國家中,最被低估的

回國后我才敢說:越南是我去過的所有國家中,最被低估的

李健政觀察
2025-12-18 09:49:21
名記:戴琳已將欠的錢還給已故球迷的父母 并且多給了5000多元

名記:戴琳已將欠的錢還給已故球迷的父母 并且多給了5000多元

818體育
2025-12-20 22:49:43
2025-12-21 00:03:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142515關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

印度官員:若"臺(tái)灣有事" 印度不太可能像西方那樣回應(yīng)

頭條要聞

印度官員:若"臺(tái)灣有事" 印度不太可能像西方那樣回應(yīng)

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會(huì)陣容曝光,豪華陣仗

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測試 已完成11萬公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

房產(chǎn)
游戲
教育
旅游
軍事航空

房產(chǎn)要聞

廣州有態(tài)度,一座國際化社區(qū)給出的城市答案

新勞拉·克勞馥演員回憶《完美黑暗》項(xiàng)目取消經(jīng)歷

教育要聞

調(diào)查發(fā)現(xiàn):影響孩子成績的三大主要因素,居然沒有補(bǔ)習(xí)班

旅游要聞

虹口新春“五必”榜單來啦!一季度“樂購樂游”攻略輕松拿捏!

軍事要聞

澤連斯基:前線局勢愈發(fā)艱難

無障礙瀏覽 進(jìn)入關(guān)懷版