国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

華為發(fā)布業(yè)界首個(gè)擴(kuò)散語(yǔ)言模型Agent,部分場(chǎng)景提速8倍!

0
分享至

允中 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

大模型通往現(xiàn)實(shí)世界的“最后三公里”,Agent已然成為最具代表性的入場(chǎng)券。

但當(dāng)下的共識(shí)發(fā)生了微妙的變化:

衡量一個(gè)Agent夠不夠強(qiáng),早已不再看它能不能“答對(duì)問(wèn)題”,而是看它在面對(duì)多輪推理、工具調(diào)用及復(fù)雜協(xié)作時(shí),能否用最短的路徑、最少的交互預(yù)算,穩(wěn)定地搞定任務(wù)

在這一背景下,一個(gè)長(zhǎng)期被行業(yè)忽視的底層命題浮出水面:

  • 當(dāng)Agent的框架、工具、數(shù)據(jù)和訓(xùn)練方式都保持一致時(shí),僅僅改變語(yǔ)言模型的生成范式(Autoregressive vs Diffusion),是否會(huì)系統(tǒng)性地改變Agent的規(guī)劃與行為模式?

近日,來(lái)自華為諾亞方舟實(shí)驗(yàn)室、華為先進(jìn)計(jì)算與存儲(chǔ)實(shí)驗(yàn)室、UCL、南洋理工大學(xué)、清華大學(xué)和北京大學(xué)的研究團(tuán)隊(duì),在最新工作《DLLM Agent: See Farther, Run Faster》中,對(duì)這一問(wèn)題給出了迄今為止最“對(duì)照實(shí)驗(yàn)式”的回答。

他們發(fā)現(xiàn),僅僅是把“底座”換成了擴(kuò)散式大模型(DLLM),Agent就像突然開(kāi)了“上帝視角”,執(zhí)行速度不僅提升了30%以上,甚至在部分復(fù)雜任務(wù)中跑出了8倍于傳統(tǒng)AR模型的效率。

文章鏈接:
https://arxiv.org/pdf/2602.07451

官方網(wǎng)頁(yè):
https://noah-dllm.github.io/

核心結(jié)論一覽

在完全相同的Agent工作流、訓(xùn)練數(shù)據(jù)和交互預(yù)算下,研究發(fā)現(xiàn):

  • 在準(zhǔn)確率基本持平的前提下,DLLM Agent端到端執(zhí)行速度平均提升30%以上
  • 在成功解題的條件下,DLLM Agent使用更少的交互輪次和工具調(diào)用
  • DLLM展現(xiàn)出更強(qiáng)的planner能力:更早收斂到正確軌跡、回溯和冗余更少;
  • 這種優(yōu)勢(shì)并非僅來(lái)自并行解碼速度,而是體現(xiàn)在Agent級(jí)別的規(guī)劃與決策行為上。
一個(gè)“極端公平”的對(duì)照實(shí)驗(yàn)設(shè)計(jì)

為了避免“框架差異”、“提示工程”、“數(shù)據(jù)不一致”等干擾因素,作者采用了非常嚴(yán)格的對(duì)照實(shí)驗(yàn)設(shè)置:

  • 使用同一個(gè)Agent框架:DeepDiver(多智能架構(gòu),層級(jí)式規(guī)劃,https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver);
  • 使用同一套工具接口與解析規(guī)則
  • 使用完全相同的Agent任務(wù)進(jìn)行繼續(xù)訓(xùn)練;
  • 統(tǒng)一context長(zhǎng)度上限(32K)、最大交互輪數(shù)、tool call上限
  • 唯一變化因素:Agent背后的生成范式

Autoregressive LLM(AR):openpangu 7b-v1

Diffusion Large Language Model(DLLM):openpangu diffusion 7b,這個(gè)模型是從openpangu 7b-v1續(xù)訓(xùn)得到的,模型的基礎(chǔ)推理能力相似。

這意味著,實(shí)驗(yàn)中觀察到的行為差異,不能歸因于數(shù)據(jù)/模型的基礎(chǔ)能力或workflow,而只能來(lái)自生成范式本身。

不過(guò),考慮到生成范式的不同,針對(duì)多輪長(zhǎng)鏈交互的DLLM訓(xùn)練,作者使用了針對(duì)性調(diào)整的Mask策略和Attention裁剪策略,提升了DLLM Agent訓(xùn)練和推理的一致性。

同樣的終點(diǎn),更短的路徑

在構(gòu)建了對(duì)照平臺(tái)后,研究團(tuán)隊(duì)將關(guān)注點(diǎn)轉(zhuǎn)向了核心指標(biāo):即DLLM這種生成范式的改變,究竟能在多大程度上提升Agent的實(shí)戰(zhàn)表現(xiàn)?

實(shí)驗(yàn)結(jié)果證明,DLLM Agent的優(yōu)勢(shì)并非僅僅來(lái)自“算得快”,更在于它在復(fù)雜規(guī)劃中“走得直”

1、BrowseComp-zh基準(zhǔn)測(cè)試:效率的全面跨越

研究團(tuán)隊(duì)在包含110條任務(wù)的BrowseComp-zh(中文多輪Web瀏覽)子集上,完成了性能測(cè)試。



通過(guò)對(duì)海量測(cè)試結(jié)果的深度復(fù)盤(pán),研究人員觀察到了幾個(gè)關(guān)鍵規(guī)律:

DLLM Agent在準(zhǔn)確率持平的情況下,

  • 平均工具調(diào)用次數(shù)顯著減少;
  • Agent軌跡平均更短;
  • 端到端延遲下降約30%。

但同時(shí)也暴露出一個(gè)現(xiàn)實(shí)問(wèn)題:原生DLLM更容易產(chǎn)生結(jié)構(gòu)化tool-call錯(cuò)誤。

此外,作者還展示了DLLM Agent和AR Agent在Information Seeker完成問(wèn)題上的分布,可以清晰地看到DLLM Agent在處理問(wèn)題時(shí),往往能以更少的交互次數(shù)完成同樣的任務(wù)。



2、案例實(shí)錄:8.18倍速度落差的背后

為了更直觀地展現(xiàn)這種“走直路”的能力,可以看一個(gè)典型的多約束檢索案例(涉及動(dòng)物命名+中國(guó)互聯(lián)網(wǎng)公司+團(tuán)隊(duì)合并+軟硬件等多個(gè)維度),query如下:



結(jié)果發(fā)現(xiàn),盡管AR Agent和DLLM Agent最終都給出了正確答案,但其執(zhí)行邏輯卻展現(xiàn)出巨大的差異,不僅表現(xiàn)在端到端有8.18×的速度差異上(如下表):



也表現(xiàn)在具體的planner執(zhí)行過(guò)程上——

DLLM Agent的planner質(zhì)量更高,從而在部分case上表現(xiàn)出來(lái)遠(yuǎn)超過(guò)基礎(chǔ)模型的效率差異的端到端性能收益。



DLLM為何是天生的“強(qiáng)Planner”?

論文并未停留在表面的數(shù)據(jù)對(duì)比,而是深入分析了entropy和confidence與擴(kuò)散過(guò)程中的內(nèi)部動(dòng)態(tài),試圖從生成范式的底層原理,來(lái)解釋DLLM為何在規(guī)劃上更具優(yōu)勢(shì)。

一、Planner Agent:先全局、后細(xì)節(jié)

在任務(wù)拆解階段,DLLM Planner表現(xiàn)出獨(dú)特的兩階段特征,這與人類(lèi)先構(gòu)思大綱再填補(bǔ)內(nèi)容的思維方式不謀而合:

階段一:并行提取關(guān)鍵信息

用戶問(wèn)題中的4個(gè)核心約束,往往在1–2個(gè)diffusion step內(nèi)就能被同時(shí)識(shí)別。

階段二:逐步細(xì)化任務(wù)結(jié)構(gòu)

在已有全局框架下,再逐步補(bǔ)充具體的邏輯細(xì)節(jié)。

這與AR的差異,主要體現(xiàn)在:

  • AR必須按token順序“邊想邊寫(xiě)”;
  • 一旦早期判斷偏差,往往只能通過(guò)多輪todo/re-plan/verification來(lái)修正。

這也直接解釋了,為什么AR Agent在實(shí)驗(yàn)中更容易產(chǎn)生多個(gè)todo_v1/todo_v2冗余規(guī)劃文檔的原因。下圖詳細(xì)解釋了planner在這個(gè)過(guò)程中的變化:



二、Information Seeker:先定方向,再填參數(shù)

在具體的工具調(diào)用階段,DLLM的生成模式呈現(xiàn)出一種極其穩(wěn)定的結(jié)構(gòu)化傾向:

  • 它會(huì)首先確定調(diào)用哪個(gè)工具;
  • 隨后,并行生成參數(shù)與細(xì)節(jié);
  • 整個(gè)tool-call被視為一個(gè)整體“動(dòng)作塊”,并在生成過(guò)程中被反復(fù)refinement。

相比之下,AR Agent的生成過(guò)程更像是一條不可回頭的流水線:函數(shù)名→參數(shù)1→參數(shù)2→ …

一旦前面的token出現(xiàn)語(yǔ)法或邏輯錯(cuò)誤,AR無(wú)法原地修正,只能寄希望于下一輪tool call來(lái)補(bǔ)救



三、注意力演化:確定性的迅速鎖定

研究團(tuán)隊(duì)通過(guò)對(duì)擴(kuò)散過(guò)程中Mask Token的熵(Entropy)演化,以及不同階段Attention的集中與分散的分析,得出了更深層的結(jié)論:

  • 在DLLM的生成過(guò)程中,高不確定性集中在決策的早期階段
  • 一旦高層決策形成,后續(xù)細(xì)節(jié)的生成會(huì)表現(xiàn)出極高的收斂速度
  • attention機(jī)制呈現(xiàn)出更明顯的“全局 → 局部”協(xié)調(diào)模式,這與AR僅僅追求token-level的局部最優(yōu)決策,形成了鮮明對(duì)比。

不過(guò),作者并沒(méi)有回避DLLM的不足之處——

Diffusion模型在處理Agent場(chǎng)景時(shí),對(duì)結(jié)構(gòu)化輸出更敏感

通過(guò)設(shè)計(jì)訓(xùn)推一致的Mask策略與Attention策略(如context-clean corruption和span-aware attention mask),可以提升DLLM Agent的推理性能。

這意味著,要充分發(fā)揮DLLM的潛力,并不能將其作為AR的簡(jiǎn)單替代品,而需要針對(duì)Agent的交互場(chǎng)景,重新對(duì)齊接口與訓(xùn)練目標(biāo)

生成范式重塑Agent設(shè)計(jì)維度

這項(xiàng)工作為Agent研究提供了一個(gè)全新的視角——

生成范式本身,會(huì)深刻塑造Agent的行為方式。

在完全相同的數(shù)據(jù)基底與技術(shù)框架下,DLLM Agent展現(xiàn)出了超越傳統(tǒng)自回歸模型的執(zhí)行效率:

  • 更早形成全局計(jì)劃
  • 更少走彎路
  • 更快速度結(jié)束任務(wù)

這使得Diffusion不再只是“另一種生成模型”,而成為構(gòu)建高效Agent的一個(gè)全新設(shè)計(jì)維度。

下方Demo直觀展示了DLLM Agent在效率上的顯著優(yōu)勢(shì)(同類(lèi)對(duì)比示例可參考原論文中的Case1):



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
春節(jié)高速免費(fèi)最后1分鐘:有人壓哨通過(guò)省下1000多元,也有車(chē)主從蕭山上高速后“卡點(diǎn)”失敗交了幾百元通行費(fèi)

春節(jié)高速免費(fèi)最后1分鐘:有人壓哨通過(guò)省下1000多元,也有車(chē)主從蕭山上高速后“卡點(diǎn)”失敗交了幾百元通行費(fèi)

都市快報(bào)橙柿互動(dòng)
2026-02-24 09:16:26
隱瞞了我們62年!摘假發(fā)卸掉濃妝,李谷一的真實(shí)容貌其實(shí)長(zhǎng)這樣

隱瞞了我們62年!摘假發(fā)卸掉濃妝,李谷一的真實(shí)容貌其實(shí)長(zhǎng)這樣

相思賦予誰(shuí)a
2026-02-23 12:08:28
特朗普非常迫切,中國(guó)非常淡定從容!

特朗普非常迫切,中國(guó)非常淡定從容!

占豪
2026-02-25 01:18:03
春節(jié)期間樓市成交量突現(xiàn)翻倍式增長(zhǎng),房?jī)r(jià)的玩笑這次開(kāi)大了

春節(jié)期間樓市成交量突現(xiàn)翻倍式增長(zhǎng),房?jī)r(jià)的玩笑這次開(kāi)大了

重遠(yuǎn)投資觀
2026-02-24 15:23:23
西紅柿立大功!醫(yī)生研究發(fā)現(xiàn):老人吃西紅柿,或能緩解4種癥狀

西紅柿立大功!醫(yī)生研究發(fā)現(xiàn):老人吃西紅柿,或能緩解4種癥狀

醫(yī)學(xué)原創(chuàng)故事會(huì)
2026-01-21 21:50:30
《好好的時(shí)光》央視首播收視第1,觀眾評(píng)價(jià)一針見(jiàn)血,扮嫩又鬧騰

《好好的時(shí)光》央視首播收視第1,觀眾評(píng)價(jià)一針見(jiàn)血,扮嫩又鬧騰

娛君墜星河
2026-02-24 11:54:23
徹底撕破臉!谷愛(ài)凌坦言:代表中國(guó)參賽后,在美遭毆打、宿舍被闖

徹底撕破臉!谷愛(ài)凌坦言:代表中國(guó)參賽后,在美遭毆打、宿舍被闖

科學(xué)發(fā)掘
2026-02-25 02:38:37
7場(chǎng)5球1助!皇馬新大羅卻遭狠批,19歲就散步,難接班姆巴佩

7場(chǎng)5球1助!皇馬新大羅卻遭狠批,19歲就散步,難接班姆巴佩

阿泰希特
2026-02-24 14:15:02
鄧家佳翻車(chē)!2026年唯一公開(kāi)發(fā)“LNY”的中國(guó)明星,評(píng)論區(qū)淪陷

鄧家佳翻車(chē)!2026年唯一公開(kāi)發(fā)“LNY”的中國(guó)明星,評(píng)論區(qū)淪陷

萌神木木
2026-02-22 15:20:15
軍購(gòu)特別條例下月6日付委,韓國(guó)瑜提醒國(guó)民黨團(tuán)趨吉避兇

軍購(gòu)特別條例下月6日付委,韓國(guó)瑜提醒國(guó)民黨團(tuán)趨吉避兇

新時(shí)光點(diǎn)滴
2026-02-25 01:55:06
你最爽的一次經(jīng)歷是啥樣?網(wǎng)友:還清了所有外債

你最爽的一次經(jīng)歷是啥樣?網(wǎng)友:還清了所有外債

另子維愛(ài)讀史
2026-02-22 22:58:56
新加坡大滿貫:2月25日賽程公布,孫穎莎戰(zhàn)老將,向鵬黃友政對(duì)決

新加坡大滿貫:2月25日賽程公布,孫穎莎戰(zhàn)老將,向鵬黃友政對(duì)決

乒談
2026-02-24 23:12:17
12345不能亂打了!2026年開(kāi)始整治亂打熱線現(xiàn)象

12345不能亂打了!2026年開(kāi)始整治亂打熱線現(xiàn)象

醫(yī)脈圈
2026-02-24 12:13:20
黎智英女兒:懇請(qǐng)谷愛(ài)凌為父發(fā)聲后,不到24小時(shí),港府回應(yīng)了

黎智英女兒:懇請(qǐng)谷愛(ài)凌為父發(fā)聲后,不到24小時(shí),港府回應(yīng)了

百態(tài)人間
2026-02-24 15:45:57
2026年2月,建筑集團(tuán)公司已經(jīng)全面停工停產(chǎn)!

2026年2月,建筑集團(tuán)公司已經(jīng)全面停工停產(chǎn)!

巢客HOME
2026-02-23 20:26:27
貝加爾湖墜車(chē)事件:活下來(lái)的江蘇爸爸,往后的每一天都是煎熬

貝加爾湖墜車(chē)事件:活下來(lái)的江蘇爸爸,往后的每一天都是煎熬

社會(huì)日日鮮
2026-02-23 14:05:41
徐璐打羽毛球 注意力都被她的身材給吸引了 誰(shuí)還看打羽毛球的過(guò)程啊

徐璐打羽毛球 注意力都被她的身材給吸引了 誰(shuí)還看打羽毛球的過(guò)程啊

林子說(shuō)事
2026-02-24 11:51:44
恭喜汪小菲又當(dāng)爸爸!產(chǎn)房照曝光兒子好帥氣,馬筱梅抱孩子很溫柔

恭喜汪小菲又當(dāng)爸爸!產(chǎn)房照曝光兒子好帥氣,馬筱梅抱孩子很溫柔

娛樂(lè)圈圈圓
2026-02-24 15:30:08
鞏俐21歲時(shí)寫(xiě)的字,顛覆了我的想象!

鞏俐21歲時(shí)寫(xiě)的字,顛覆了我的想象!

石場(chǎng)阿鑫
2026-01-16 13:41:02
炸鍋!國(guó)美才女淪陷海外,私密視頻被掛成人網(wǎng),留學(xué)生集體背鍋?

炸鍋!國(guó)美才女淪陷海外,私密視頻被掛成人網(wǎng),留學(xué)生集體背鍋?

戧詞奪理
2026-02-23 15:32:24
2026-02-25 05:23:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12196文章數(shù) 176392關(guān)注度
往期回顧 全部

科技要聞

宇樹(shù)科技發(fā)布四足機(jī)器人Unitree As2

頭條要聞

男子摟住繼女強(qiáng)吻動(dòng)作親密 當(dāng)?shù)貗D聯(lián)介入

頭條要聞

男子摟住繼女強(qiáng)吻動(dòng)作親密 當(dāng)?shù)貗D聯(lián)介入

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個(gè)熱愛(ài)單板滑雪的少年

娛樂(lè)要聞

汪小菲官宣三胎出生:承諾會(huì)照顧好3個(gè)孩子

財(cái)經(jīng)要聞

縣城消費(fèi)「限時(shí)繁榮」了十天

汽車(chē)要聞

入門(mén)即滿配 威蘭達(dá)AIR版上市 13.78萬(wàn)元起

態(tài)度原創(chuàng)

本地
數(shù)碼
房產(chǎn)
公開(kāi)課
軍事航空

本地新聞

春花齊放2026:《駿馬奔騰迎新歲》

數(shù)碼要聞

《死亡擱淺2》PC版推薦配置RTX 3060可FHD 60幀,Steam國(guó)區(qū)298元

房產(chǎn)要聞

330萬(wàn)人涌入!春節(jié)全國(guó)樓市,第一個(gè)賣(mài)爆的區(qū)域出現(xiàn)了!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍參聯(lián)會(huì)主席警告:對(duì)伊朗動(dòng)武可能帶來(lái)重大風(fēng)險(xiǎn)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版