網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

華為發(fā)布業(yè)界首個(gè)擴(kuò)散語(yǔ)言模型Agent，部分場(chǎng)景提速8倍！

2026-02-10 15:20:40　來(lái)源: 量子位

湖南舉報(bào)

分享至

允中發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

大模型通往現(xiàn)實(shí)世界的“最后三公里”，Agent已然成為最具代表性的入場(chǎng)券。

但當(dāng)下的共識(shí)發(fā)生了微妙的變化：

衡量一個(gè)Agent夠不夠強(qiáng)，早已不再看它能不能“答對(duì)問(wèn)題”，而是看它在面對(duì)多輪推理、工具調(diào)用及復(fù)雜協(xié)作時(shí)，能否用最短的路徑、最少的交互預(yù)算，穩(wěn)定地搞定任務(wù)

在這一背景下，一個(gè)長(zhǎng)期被行業(yè)忽視的底層命題浮出水面：

當(dāng)Agent的框架、工具、數(shù)據(jù)和訓(xùn)練方式都保持一致時(shí)，僅僅改變語(yǔ)言模型的生成范式（Autoregressive vs Diffusion），是否會(huì)系統(tǒng)性地改變Agent的規(guī)劃與行為模式？

近日，來(lái)自華為諾亞方舟實(shí)驗(yàn)室、華為先進(jìn)計(jì)算與存儲(chǔ)實(shí)驗(yàn)室、UCL、南洋理工大學(xué)、清華大學(xué)和北京大學(xué)的研究團(tuán)隊(duì)，在最新工作《DLLM Agent: See Farther, Run Faster》中，對(duì)這一問(wèn)題給出了迄今為止最“對(duì)照實(shí)驗(yàn)式”的回答。

他們發(fā)現(xiàn)，僅僅是把“底座”換成了擴(kuò)散式大模型（DLLM），Agent就像突然開(kāi)了“上帝視角”，執(zhí)行速度不僅提升了30%以上，甚至在部分復(fù)雜任務(wù)中跑出了8倍于傳統(tǒng)AR模型的效率。

文章鏈接：
https://arxiv.org/pdf/2602.07451

官方網(wǎng)頁(yè)：
https://noah-dllm.github.io/

核心結(jié)論一覽

在完全相同的Agent工作流、訓(xùn)練數(shù)據(jù)和交互預(yù)算下，研究發(fā)現(xiàn)：

在準(zhǔn)確率基本持平的前提下，DLLM Agent端到端執(zhí)行速度平均提升30%以上
在成功解題的條件下，DLLM Agent使用更少的交互輪次和工具調(diào)用
DLLM展現(xiàn)出更強(qiáng)的planner能力：更早收斂到正確軌跡、回溯和冗余更少；
這種優(yōu)勢(shì)并非僅來(lái)自并行解碼速度，而是體現(xiàn)在Agent級(jí)別的規(guī)劃與決策行為上。

一個(gè)“極端公平”的對(duì)照實(shí)驗(yàn)設(shè)計(jì)

為了避免“框架差異”、“提示工程”、“數(shù)據(jù)不一致”等干擾因素，作者采用了非常嚴(yán)格的對(duì)照實(shí)驗(yàn)設(shè)置：

使用同一個(gè)Agent框架：DeepDiver（多智能架構(gòu)，層級(jí)式規(guī)劃，https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver）；
使用同一套工具接口與解析規(guī)則
使用完全相同的Agent任務(wù)進(jìn)行繼續(xù)訓(xùn)練；
統(tǒng)一context長(zhǎng)度上限（32K）、最大交互輪數(shù)、tool call上限
唯一變化因素：Agent背后的生成范式

Autoregressive LLM（AR）：openpangu 7b-v1

Diffusion Large Language Model（DLLM）：openpangu diffusion 7b，這個(gè)模型是從openpangu 7b-v1續(xù)訓(xùn)得到的，模型的基礎(chǔ)推理能力相似。

這意味著，實(shí)驗(yàn)中觀察到的行為差異，不能歸因于數(shù)據(jù)/模型的基礎(chǔ)能力或workflow，而只能來(lái)自生成范式本身。

不過(guò)，考慮到生成范式的不同，針對(duì)多輪長(zhǎng)鏈交互的DLLM訓(xùn)練，作者使用了針對(duì)性調(diào)整的Mask策略和Attention裁剪策略，提升了DLLM Agent訓(xùn)練和推理的一致性。

同樣的終點(diǎn)，更短的路徑

在構(gòu)建了對(duì)照平臺(tái)后，研究團(tuán)隊(duì)將關(guān)注點(diǎn)轉(zhuǎn)向了核心指標(biāo)：即DLLM這種生成范式的改變，究竟能在多大程度上提升Agent的實(shí)戰(zhàn)表現(xiàn)？

實(shí)驗(yàn)結(jié)果證明，DLLM Agent的優(yōu)勢(shì)并非僅僅來(lái)自“算得快”，更在于它在復(fù)雜規(guī)劃中“走得直”

1、BrowseComp-zh基準(zhǔn)測(cè)試：效率的全面跨越

研究團(tuán)隊(duì)在包含110條任務(wù)的BrowseComp-zh（中文多輪Web瀏覽）子集上，完成了性能測(cè)試。

通過(guò)對(duì)海量測(cè)試結(jié)果的深度復(fù)盤(pán)，研究人員觀察到了幾個(gè)關(guān)鍵規(guī)律：

DLLM Agent在準(zhǔn)確率持平的情況下，

平均工具調(diào)用次數(shù)顯著減少；
Agent軌跡平均更短；
端到端延遲下降約30%。

但同時(shí)也暴露出一個(gè)現(xiàn)實(shí)問(wèn)題：原生DLLM更容易產(chǎn)生結(jié)構(gòu)化tool-call錯(cuò)誤。

此外，作者還展示了DLLM Agent和AR Agent在Information Seeker完成問(wèn)題上的分布，可以清晰地看到DLLM Agent在處理問(wèn)題時(shí)，往往能以更少的交互次數(shù)完成同樣的任務(wù)。

2、案例實(shí)錄：8.18倍速度落差的背后

為了更直觀地展現(xiàn)這種“走直路”的能力，可以看一個(gè)典型的多約束檢索案例（涉及動(dòng)物命名+中國(guó)互聯(lián)網(wǎng)公司+團(tuán)隊(duì)合并+軟硬件等多個(gè)維度），query如下：

結(jié)果發(fā)現(xiàn)，盡管AR Agent和DLLM Agent最終都給出了正確答案，但其執(zhí)行邏輯卻展現(xiàn)出巨大的差異，不僅表現(xiàn)在端到端有8.18×的速度差異上（如下表）：

也表現(xiàn)在具體的planner執(zhí)行過(guò)程上——

DLLM Agent的planner質(zhì)量更高，從而在部分case上表現(xiàn)出來(lái)遠(yuǎn)超過(guò)基礎(chǔ)模型的效率差異的端到端性能收益。

DLLM為何是天生的“強(qiáng)Planner”？

論文并未停留在表面的數(shù)據(jù)對(duì)比，而是深入分析了entropy和confidence與擴(kuò)散過(guò)程中的內(nèi)部動(dòng)態(tài)，試圖從生成范式的底層原理，來(lái)解釋DLLM為何在規(guī)劃上更具優(yōu)勢(shì)。

一、Planner Agent：先全局、后細(xì)節(jié)

在任務(wù)拆解階段，DLLM Planner表現(xiàn)出獨(dú)特的兩階段特征，這與人類(lèi)先構(gòu)思大綱再填補(bǔ)內(nèi)容的思維方式不謀而合：

階段一：并行提取關(guān)鍵信息

用戶問(wèn)題中的4個(gè)核心約束，往往在1–2個(gè)diffusion step內(nèi)就能被同時(shí)識(shí)別。

階段二：逐步細(xì)化任務(wù)結(jié)構(gòu)

在已有全局框架下，再逐步補(bǔ)充具體的邏輯細(xì)節(jié)。

這與AR的差異，主要體現(xiàn)在：

AR必須按token順序“邊想邊寫(xiě)”；
一旦早期判斷偏差，往往只能通過(guò)多輪todo/re-plan/verification來(lái)修正。

這也直接解釋了，為什么AR Agent在實(shí)驗(yàn)中更容易產(chǎn)生多個(gè)todo_v1/todo_v2冗余規(guī)劃文檔的原因。下圖詳細(xì)解釋了planner在這個(gè)過(guò)程中的變化：

二、Information Seeker：先定方向，再填參數(shù)

在具體的工具調(diào)用階段，DLLM的生成模式呈現(xiàn)出一種極其穩(wěn)定的結(jié)構(gòu)化傾向：

它會(huì)首先確定調(diào)用哪個(gè)工具；
隨后，并行生成參數(shù)與細(xì)節(jié)；
整個(gè)tool-call被視為一個(gè)整體“動(dòng)作塊”，并在生成過(guò)程中被反復(fù)refinement。

相比之下，AR Agent的生成過(guò)程更像是一條不可回頭的流水線：函數(shù)名→參數(shù)1→參數(shù)2→ …

一旦前面的token出現(xiàn)語(yǔ)法或邏輯錯(cuò)誤，AR無(wú)法原地修正，只能寄希望于下一輪tool call來(lái)補(bǔ)救

三、注意力演化：確定性的迅速鎖定

研究團(tuán)隊(duì)通過(guò)對(duì)擴(kuò)散過(guò)程中Mask Token的熵（Entropy）演化，以及不同階段Attention的集中與分散的分析，得出了更深層的結(jié)論：

在DLLM的生成過(guò)程中，高不確定性集中在決策的早期階段
一旦高層決策形成，后續(xù)細(xì)節(jié)的生成會(huì)表現(xiàn)出極高的收斂速度
attention機(jī)制呈現(xiàn)出更明顯的“全局 → 局部”協(xié)調(diào)模式，這與AR僅僅追求token-level的局部最優(yōu)決策，形成了鮮明對(duì)比。

不過(guò)，作者并沒(méi)有回避DLLM的不足之處——

Diffusion模型在處理Agent場(chǎng)景時(shí)，對(duì)結(jié)構(gòu)化輸出更敏感

通過(guò)設(shè)計(jì)訓(xùn)推一致的Mask策略與Attention策略（如context-clean corruption和span-aware attention mask），可以提升DLLM Agent的推理性能。

這意味著，要充分發(fā)揮DLLM的潛力，并不能將其作為AR的簡(jiǎn)單替代品，而需要針對(duì)Agent的交互場(chǎng)景，重新對(duì)齊接口與訓(xùn)練目標(biāo)

生成范式重塑Agent設(shè)計(jì)維度

這項(xiàng)工作為Agent研究提供了一個(gè)全新的視角——

生成范式本身，會(huì)深刻塑造Agent的行為方式。

在完全相同的數(shù)據(jù)基底與技術(shù)框架下，DLLM Agent展現(xiàn)出了超越傳統(tǒng)自回歸模型的執(zhí)行效率：

更早形成全局計(jì)劃
更少走彎路
更快速度結(jié)束任務(wù)

這使得Diffusion不再只是“另一種生成模型”，而成為構(gòu)建高效Agent的一個(gè)全新設(shè)計(jì)維度。

下方Demo直觀展示了DLLM Agent在效率上的顯著優(yōu)勢(shì)（同類(lèi)對(duì)比示例可參考原論文中的Case1）：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.