国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

擴散語言模型推理太慢?北大團隊:ODB-dLLM破解計算訪存雙重瓶頸

0
分享至



本研究由北京大學(xué)研究團隊完成。通訊作者為李萌,北京大學(xué)人工智能研究院和集成電路學(xué)院助理教授,博導(dǎo),PKU SEC Lab 負責人,他的研究興趣集中于高效、安全人工智能加速算法和芯片,旨在通過算法到芯片的跨層次協(xié)同設(shè)計和優(yōu)化,為人工智能構(gòu)建高能效、高可靠、高安全的算力基礎(chǔ)。第一作者韋臨燁,北京大學(xué)集成電路學(xué)院博士一年級在讀,主要研究方向為多模態(tài)高效 AI 系統(tǒng)和加速器設(shè)計。

基于擴散的大語言模型 (dLLM) 憑借全局解碼和雙向注意力機制解鎖了原生的并行解碼和受控生成的潛力,最近吸引了廣泛的關(guān)注。例如 Fast-dLLM 的現(xiàn)有推理框架通過分塊半自回歸解碼進一步實現(xiàn)了 dLLM 對 KV cache 的支持,挑戰(zhàn)了傳統(tǒng)自回歸 LLMs 的統(tǒng)治地位。

然而,雙向注意力引入的 cache 刷新機制使這一推理過程成為預(yù)填充 / 解碼交錯的模式,將傳統(tǒng)自回歸模型解碼階段效率的訪存瓶頸限制轉(zhuǎn)化為計算 / 訪存瓶頸交替限制,占據(jù)了推理開銷中不可忽視的一部分。此外,認為整個序列 KV 狀態(tài)在分塊內(nèi)不變的緩存近似方式還一定程度上劣化了模型性能。

針對這一缺陷,來自北大的研究團隊提出一種新的 dLLM 推理加速框架 ODB-dLLM(Orchestrating Dual-Boundaries: An Arithmetic Intensity Inspired Acceleration Framework for Diffusion Language Models)。它通過分析現(xiàn)有 dLLM 推理框架中交錯的計算和訪存瓶頸階段,引入了自適應(yīng)長度預(yù)測策略和跳躍共享推測解碼,以優(yōu)化 dLLM 在硬件平臺上的計算訪存特性,最大限度地提高推理效率。



  • 論文標題:Orchestrating Dual-Boundaries: An Arithmetic Intensity Inspired Acceleration Framework for Diffusion Language Models
  • 論文鏈接:https://arxiv.org/abs/2511.21759
  • Github 鏈接:https://github.com/PKU-SEC-Lab/ODB-dLLM

研究背景和動機


傳統(tǒng) dLLM 模型中任意兩個 token 間的雙向注意力破壞了 KV cache 應(yīng)用的前提,讓整個推理過程陷入每一步都執(zhí)行預(yù)填充的計算瓶頸問題,沒有取得超越自回歸模型的實際推理速度。Fast-dLLM 及類似工作將預(yù)設(shè)定長度的輸出序列劃分為多個分塊,只在每個分塊解碼的第一步執(zhí)行預(yù)填充并存儲全局的的 KV 狀態(tài),隨后計算分塊內(nèi)的 tokens 并基于置信度閾值接收。當一個分塊內(nèi)的所有位置都被解掩碼,轉(zhuǎn)到下一個分塊并刷新 KV cache。然而,這樣的推理框架仍然存在以下挑戰(zhàn):

  • 交錯的計算和訪存瓶頸模式都限制了效率。分塊半自回歸解碼的每個新塊都會觸發(fā)全局預(yù)填充以刷新 KV cache,占總推理延遲的 30-40%。隨著更細粒度的并行解碼設(shè)計來減少解碼步數(shù),計算密集型的預(yù)填充階段將進一步占據(jù)主導(dǎo)地位。亟需一個算術(shù)強度感知的推理框架聯(lián)合緩解計算和訪存瓶頸。

  • 以現(xiàn)有的 dLLM 無法感知實際任務(wù)需求,導(dǎo)致預(yù)設(shè)定輸出長度過長。dLLM 中的每個分塊都采用雙向注意力,以先前和后續(xù)令牌為條件。因此,需要固定的響應(yīng)長度來控制剩余的輸出空間。為了確保足夠的容量,該長度通常設(shè)置為較大的默認值(例如 1024),這會在計算密集型的預(yù)填充階段引入大量開銷并導(dǎo)致冗余推理。

  • 硬閾值延遲了對潛在正確 token 的接受,導(dǎo)致更長的解碼軌跡和更多的步數(shù)。在訪存密集型的解碼階段,模型并行計算分塊內(nèi)的所有掩碼 token,但僅接受置信度超過閾值的部分,而其他 token 則被重新掩碼。大量正確 token 由于在當前步的置信度分數(shù)低于閾值而被推遲接收,從而導(dǎo)致額外的解碼步驟并增加不必要延遲。與此同時,直接降低閾值又會損害模型性能。




ODB-dLLM 框架


ODB-dLLM 推理框架的目標在于協(xié)調(diào)交錯的計算和訪存瓶頸限制。為了減輕預(yù)設(shè)定響應(yīng)長度帶來的大量預(yù)填充開銷,本文提出了一種自適應(yīng)長度預(yù)測策略來減少冗余計算。此外,本文引入了為 dLLM 特別定制的跳躍共享推測解碼方法,可在有限的算術(shù)強度下減少訪存受限階段的解碼步驟。

自適應(yīng)長度預(yù)測

該策略在每一輪預(yù)填充后考察整個響應(yīng)序列,檢測是否存在 [EOS] token。一旦識別出存在這一終止標記,就會提取其置信度分數(shù)并將其與預(yù)定義的截斷閾值進行比較。如果置信度超過閾值,則響應(yīng)將在該位置被截斷。如果未檢測到 [EOS] token,或者對應(yīng)的置信度均低于閾值,則響應(yīng)長度保持不變。這種漸進式策略最大限度地減少了預(yù)填充階段的算術(shù)強度和冗余計算,隨著模型的不確定性和多樣性逐漸收斂還帶來了性能增益。



跳躍共享推測解碼

推測解碼通過增加計算強度鼓勵多樣化預(yù)測,為訪存受限場景下進一步提高解碼的并行度提供了解決方案。然而,dLLM 推理的雙向注意力將 token 間的因果依賴轉(zhuǎn)化為全局依賴,在傳統(tǒng)推測解碼中構(gòu)造的遵循嚴格順序的 token tree 被全連通 token graph 所取代。因此,一方面候選 token graph 中任何獨立驗證的節(jié)點對都會解鎖其連接邊緣,從而實現(xiàn)更靈活的推測解碼探索;另一方面任意一個 token 的改變都需要計算一個完整的新塊,計算強度隨候選預(yù)測的增加而迅速增大并演化為訪存瓶頸,限制了推測的多樣性?;诖?,本文提出了兩點關(guān)鍵設(shè)計:

1. 跳躍接收推測策略。推測解碼的草稿塊也同時作為中間驗證塊,實現(xiàn)草稿 token 跨塊的跳躍驗證和接收,從而在單次解碼迭代中解掩碼更多 token,在有限的推測塊預(yù)算下顯著提高解碼效率。



2. 解碼共享推測策略。考慮各推測塊間的高度相似性,塊內(nèi)已解碼 token 的 KV 狀態(tài)也可以只在當前塊內(nèi)計算更新,并在多個推測塊之間共享。隨著解碼的進展,推測塊的計算成本逐漸降低,為更多推測快的拓展提供了機會。



實驗結(jié)果:更快、更準

研究團隊在兩種代表性的開源擴散語言模型LLaDA-Instruct和 LLaDA-1.5 上評估了 ODB-dLLM。在多個數(shù)據(jù)集上對比 Vanilla model 和 Fast-dLLM 推理框架結(jié)果如下:





  • 團隊測量了預(yù)填充長度和延遲的減少,確認了計算密集階段有意義的算術(shù)強度節(jié)省。此外,每次預(yù)填充迭代期間響應(yīng)長度的逐步收縮隱式地將模型限制在更準確的答案空間,從而比生成到 [EOS] token 后簡單地截斷產(chǎn)生更高的精度。



  • 針對訪存密集階段的推測解碼,實驗發(fā)現(xiàn)跳躍接收策略增加了每步接受的 token 數(shù)量,并通過一次解碼中的多段接收減少了并行解掩碼 token 間的潛在沖突。解碼共享策略的引入進一步減少了解碼輪次,同時優(yōu)先解掩碼之前未能接受但置信度較高的 token。跳躍共享推測解碼因而在速度和精度上都取得了顯著增益。



總結(jié)


受預(yù)填充和解碼階段異構(gòu)算術(shù)強度的啟發(fā),本研究提出了 ODB-dLLM,這是一個協(xié)調(diào)計算 / 訪存雙邊界以加速 dLLM 推理的框架。在預(yù)填充階段,團隊發(fā)現(xiàn)預(yù)定義的固定響應(yīng)長度引入了繁重且冗余的計算開銷,ODB-dLLM 采用了自適應(yīng)長度預(yù)測機制,可逐步減少預(yù)填充開銷和不必要的計算。在解碼階段,團隊分析了擴散語言模型的計算特性,并提出了一種特別定制的跳躍共享推測解碼方法,通過減少解碼迭代次數(shù)來提高效率。

論文與代碼均已公開,歡迎感興趣的同學(xué)閱讀、復(fù)現(xiàn)以及深入討論。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
名記:戴琳已將欠的錢還給已故球迷的父母 并且多給了5000多元

名記:戴琳已將欠的錢還給已故球迷的父母 并且多給了5000多元

818體育
2025-12-20 22:49:43
騎車下班路被堵 成都“較真哥”9天舉報92次違停

騎車下班路被堵 成都“較真哥”9天舉報92次違停

封面新聞
2025-12-19 16:09:10
第二個李登輝出現(xiàn)?她是民進黨臥底,要繼承王金平衣缽害殘國民黨

第二個李登輝出現(xiàn)?她是民進黨臥底,要繼承王金平衣缽害殘國民黨

近史博覽
2025-12-20 07:06:14
荷蘭不給晶圓,聞泰有新招

荷蘭不給晶圓,聞泰有新招

觀察者網(wǎng)
2025-12-20 08:36:14
俄羅斯“地球最美”女模離奇失蹤兩周,被找到時重傷失憶,富商男友被捕疑點重重

俄羅斯“地球最美”女模離奇失蹤兩周,被找到時重傷失憶,富商男友被捕疑點重重

新歐洲
2025-12-19 21:21:17
曼聯(lián)計劃引進沙特聯(lián)賽中的葡萄牙中場球星

曼聯(lián)計劃引進沙特聯(lián)賽中的葡萄牙中場球星

星耀國際足壇
2025-12-20 23:48:39
國運來了誰也擋不住!100年前北洋政府隨手簽的條約,如今贏麻了

國運來了誰也擋不?。?00年前北洋政府隨手簽的條約,如今贏麻了

史之銘
2025-12-11 20:01:11
遼沈戰(zhàn)役中的塔山,為啥那么重要?繞過去直接救援不行嗎?

遼沈戰(zhàn)役中的塔山,為啥那么重要?繞過去直接救援不行嗎?

浩渺青史
2025-12-20 17:37:01
換教練立竿見影,梁偉鏗/王昶2-1驚喜闖進決賽,總決賽一路逆襲

換教練立竿見影,梁偉鏗/王昶2-1驚喜闖進決賽,總決賽一路逆襲

真理是我親戚
2025-12-20 23:08:44
花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生,不過半年或有6好處

花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生,不過半年或有6好處

蜉蝣說
2025-11-20 14:40:39
攜程與柬埔寨合作惹眾怒,利潤率高得嚇人

攜程與柬埔寨合作惹眾怒,利潤率高得嚇人

上峰視點
2025-12-18 11:41:46
左右腦互搏,媒體曝新國標銷售暴增8倍,多家媒體報道不一,為啥

左右腦互搏,媒體曝新國標銷售暴增8倍,多家媒體報道不一,為啥

你食不食油餅
2025-12-18 03:12:53
1984 年,南京博物院院長姚遷,手握一本《文物保護法》在辦公室自縊

1984 年,南京博物院院長姚遷,手握一本《文物保護法》在辦公室自縊

法律學(xué)堂
2025-12-20 00:08:21
范迪塞爾官宣!C羅加盟,巨石強森回歸,《速度與激情11》要爆了

范迪塞爾官宣!C羅加盟,巨石強森回歸,《速度與激情11》要爆了

娛樂圈十三太保
2025-12-19 16:48:24
同一天!WTT修改規(guī)則、中國乒協(xié)官宣,王楚欽孫穎莎成最大受益人

同一天!WTT修改規(guī)則、中國乒協(xié)官宣,王楚欽孫穎莎成最大受益人

十點街球體育
2025-12-20 23:07:27
環(huán)球小姐被要求穿一套自己國家特色的衣服!然后韓國亮了

環(huán)球小姐被要求穿一套自己國家特色的衣服!然后韓國亮了

譚老師地理大課堂
2025-12-18 17:24:52
蕭敬騰和老婆一起練琴,像媽媽陪孩子,52歲林有慧年齡感很重。

蕭敬騰和老婆一起練琴,像媽媽陪孩子,52歲林有慧年齡感很重。

TVB的四小花
2025-12-06 14:01:02
島內(nèi)掀起“彈劾賴清德”浪潮,臺媒:背后是臺灣民眾對“臺獨”亂政徹底失望

島內(nèi)掀起“彈劾賴清德”浪潮,臺媒:背后是臺灣民眾對“臺獨”亂政徹底失望

環(huán)球網(wǎng)資訊
2025-12-20 07:09:34
1976年尼克松重返北京,執(zhí)意要去周總理墓前磕頭,秘書一句話讓他瞬間淚崩

1976年尼克松重返北京,執(zhí)意要去周總理墓前磕頭,秘書一句話讓他瞬間淚崩

史海殘云
2025-12-19 14:26:17
生涯最后一搏!網(wǎng)壇傳奇球星宣布將退役,曾三奪大滿貫冠軍

生涯最后一搏!網(wǎng)壇傳奇球星宣布將退役,曾三奪大滿貫冠軍

全景體育V
2025-12-20 07:13:27
2025-12-21 00:04:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142515關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

印度官員:若"臺灣有事" 印度不太可能像西方那樣回應(yīng)

頭條要聞

印度官員:若"臺灣有事" 印度不太可能像西方那樣回應(yīng)

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會陣容曝光,豪華陣仗

財經(jīng)要聞

求解“地方財政困難”

汽車要聞

嵐圖推進L3量產(chǎn)測試 已完成11萬公里實際道路驗證

態(tài)度原創(chuàng)

游戲
時尚
親子
家居
藝術(shù)

新勞拉·克勞馥演員回憶《完美黑暗》項目取消經(jīng)歷

最顯腿細的騎士靴,誰穿誰是腿精

親子要聞

邊牧和德牧帶娃在外面挖坑,三個小朋友加起來800個心眼子!

家居要聞

高端私宅 理想隱居圣地

藝術(shù)要聞

驚!肢體語言竟如此迷人,讓人無法抗拒!

無障礙瀏覽 進入關(guān)懷版