国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

告別Demo、真正跑進(jìn)生產(chǎn),華為新框架把Agent端到端效率拉升2.5倍

0
分享至



大模型 Agent 正在從 Demo 走向生產(chǎn):多輪推理、工具調(diào)用、長(zhǎng)上下文記憶、并發(fā)會(huì)話同時(shí)運(yùn)行…… 但也正是在這些「真實(shí)工作流」里,很多看似先進(jìn)的推理加速在落地時(shí)會(huì)失效:?jiǎn)尾酵评砜炝?,端到端卻更慢;吞吐更高了,高并發(fā)下卻開始抖動(dòng);壓縮了上下文,Agent 反而更容易迷路、回合數(shù)暴漲。

華為諾亞方舟實(shí)驗(yàn)室、先進(jìn)計(jì)算與存儲(chǔ)實(shí)驗(yàn)室聯(lián)合在最新工作中提出了AgentInfer:一個(gè)面向工業(yè) Agent 的端到端加速框架,把「推理架構(gòu)設(shè)計(jì)」和「推理服務(wù)系統(tǒng)」放在一起協(xié)同優(yōu)化。

它不是某個(gè)單點(diǎn)技巧,而是一套可拆可合的系統(tǒng)化方案:每個(gè)模塊單獨(dú)啟用都有收益,組合在一起仍能疊加,并且在高并發(fā)、多會(huì)話、長(zhǎng)上下文的真實(shí)負(fù)載下依然 work。



  • 論文標(biāo)題:Towards Efficient Agents: A Co-Design of Inference Architecture and System
  • arXiv 鏈接:https://arxiv.org/pdf/2512.18337

為什么 Agent 的「加速」必須從端到端出發(fā)?

在傳統(tǒng) LLM 服務(wù)里,我們習(xí)慣用 tokens/s、單次延遲來衡量?jī)?yōu)化。但 Agent 的本質(zhì)是一個(gè)持續(xù)運(yùn)行的Think–Act–Observe循環(huán):

  • 每次 Think 都要帶著越來越長(zhǎng)的上下文;
  • Act/Observe 會(huì)引入異構(gòu)工具延遲與并行請(qǐng)求;
  • 一旦某一步質(zhì)量下降,就會(huì)觸發(fā)糾錯(cuò)、重試、冗余搜索,導(dǎo)致回合數(shù)上升、總體更慢。

團(tuán)隊(duì)在分析中總結(jié)了 Agent 場(chǎng)景的三個(gè)典型「工業(yè)坑」:

1. 量化陷阱:?jiǎn)尾礁斓雀睿|發(fā)大量自我修復(fù)回路,端到端時(shí)間反而上升。



2. 文本總結(jié)不靠譜:大量的研究工作展示可以通過對(duì)過程信息總結(jié)來進(jìn)行 token 壓縮,但是本文的實(shí)測(cè)發(fā)現(xiàn),很多場(chǎng)景中引入總結(jié)后單輪變短了,但是整體輪次變多了,甚至降低了精度。



3. 記憶持久性瓶頸(KV-cache):高并發(fā)下,常見的短作業(yè)優(yōu)先(SJF)會(huì)頻繁淘汰長(zhǎng)上下文會(huì)話的 KV-cache,導(dǎo)致下一輪被迫重算大段 prefill,延遲尖刺明顯,系統(tǒng)吞吐和穩(wěn)定性一起掉。



結(jié)論很直接:Agent 的效率不是「每步快一點(diǎn)」,而是「更少的無效回合、更少的重算、更高的跨輪次復(fù)用」。

AgentInfer:四個(gè)可獨(dú)立部署、可疊加增益的模塊

AgentInfer 把 Agent 的端到端瓶頸拆成四類問題,并給出四個(gè)互補(bǔ)模塊。它們分別作用在不同層次:有的減少「用大模型的次數(shù)」,有的控制「上下文變長(zhǎng)」,有的提升「并發(fā)下的緩存命中」,有的加速「token 級(jí)生成」。



1)AgentCollab:難度感知的大小模型協(xié)作(少用大模型,但不掉質(zhì)量)

核心思路是把常規(guī)工作交給小模型,把關(guān)鍵規(guī)劃與卡住的推理交給大模型。關(guān)鍵不在「靜態(tài)分工」,而在一個(gè)結(jié)構(gòu)化的Progress Check 自評(píng)機(jī)制:每一步判斷「是否取得實(shí)質(zhì)進(jìn)展」,若停滯則升級(jí)到大模型救場(chǎng);恢復(fù)進(jìn)展后再降級(jí)回小模型繼續(xù)跑。

這讓系統(tǒng)在工業(yè)場(chǎng)景里更「像人」:多數(shù)時(shí)間用便宜模型推進(jìn)流程,只有在真的困難段落才調(diào)用昂貴模型,從而在質(zhì)量與成本之間更接近 Pareto 最優(yōu)。

2)AgentCompress:語義壓縮與異步蒸餾(壓縮不等于刪記憶)



真實(shí)的深度研究 / 搜索型 Agent,上下文很快被搜索結(jié)果、網(wǎng)頁內(nèi)容、工具輸出撐爆,序列長(zhǎng)度飆升帶來注意力成本激增。AgentCompress 做兩件事:

  • 搜索結(jié)果過濾排序:先用輕量模型把 URL / 摘要排序剪枝,減少無關(guān)內(nèi)容進(jìn)入后續(xù)爬蟲與文檔問答,降低并行工具調(diào)用壓力。
  • 異步上下文蒸餾:壓縮工具輸出等「環(huán)境交互記憶」,但關(guān)鍵是保留推理軌跡(reasoning memory)。團(tuán)隊(duì)觀察到:只保留壓縮后的環(huán)境信息會(huì)讓 Agent 「失憶」,無法判斷是否完成任務(wù),導(dǎo)致回合數(shù)暴漲;保留推理軌跡才能維持認(rèn)知連續(xù)性,壓縮才真正帶來端到端收益。

這也是工業(yè)落地里非常實(shí)用的一點(diǎn):壓縮必須服務(wù)于「少走彎路」,而不是只追求「prompt 變短」。

3)AgentSched:KV-cache 感知的混合調(diào)度(高并發(fā)下依然穩(wěn)定)



在多會(huì)話并發(fā)中,短請(qǐng)求和超長(zhǎng)上下文請(qǐng)求會(huì)同時(shí)出現(xiàn)。純 FCFS 會(huì)被長(zhǎng)請(qǐng)求阻塞,純 SJF 又會(huì)犧牲長(zhǎng)會(huì)話的 KV-cache 持久性,導(dǎo)致反復(fù)重算前綴、延遲尖刺。

AgentSched 引入一個(gè)可解釋的控制信號(hào)(shadow-price),在「優(yōu)先短請(qǐng)求低延遲」和「優(yōu)先高 KV 復(fù)用」之間自適應(yīng)切換:

  • 緩存寬松時(shí)更像 SJF,快速響應(yīng)短請(qǐng)求;
  • 緩存緊張時(shí)更偏 KV-aware,保護(hù)長(zhǎng)會(huì)話上下文,減少昂貴 prefill 重算。

這解決的是「工業(yè)高并發(fā)下仍然 work」的關(guān)鍵:不是某一次跑得快,而是在壓力上來時(shí)系統(tǒng)不抖、不崩、吞吐還能上去。

4)AgentSAM:跨會(huì)話投機(jī)解碼(把「重復(fù)模式」變成真加速)

Agent 推理中常出現(xiàn)高重復(fù):同一任務(wù)多輪反復(fù)提問、相似用戶請(qǐng)求復(fù)用模板、檢索證據(jù)被多次引用。AgentSAM 用后綴自動(dòng)機(jī)(SAM)把當(dāng)前會(huì)話與語義相似的歷史會(huì)話組合起來,為投機(jī)解碼提供更高命中率的草稿;同時(shí)用異步構(gòu)建避免長(zhǎng)上下文下 SAM 構(gòu)建阻塞首 token 延遲,并帶有自適應(yīng)開關(guān):當(dāng) batch 太大、投機(jī)收益變差時(shí)自動(dòng)回退,避免「為了投機(jī)而投機(jī)」。

工業(yè)可用性的證據(jù):高并發(fā)下 QPS 仍能持續(xù)提升

在 BrowseComp-zh / DeepDiver 深度研究型 Agent 基準(zhǔn)上,我們把四個(gè)模塊集成到同一套服務(wù)棧中進(jìn)行端到端評(píng)估。



結(jié)果顯示兩點(diǎn):

1)它不是實(shí)驗(yàn)室「單請(qǐng)求優(yōu)化」,而是高并發(fā)下依然能跑的系統(tǒng)

在并發(fā)會(huì)話數(shù)提升時(shí)(例如從 4 提升到 16),系統(tǒng)仍然能穩(wěn)定獲得收益,QPS 提升可達(dá) 2.52×。這意味著優(yōu)化不僅對(duì)單次推理有效,更能在資源爭(zhēng)用、緩存壓力、長(zhǎng)短請(qǐng)求混合的真實(shí)負(fù)載里保持穩(wěn)定。

2)它不是「只能全套上」,而是模塊化、可組合、增益可疊加

團(tuán)隊(duì)做了逐步疊加實(shí)驗(yàn):

  • 只上 AgentCollab 就有提升;
  • 再加 AgentCompress、AgentSched,收益繼續(xù)增長(zhǎng);
  • 最后加 AgentSAM,整體進(jìn)一步提升(并且在高并發(fā)下會(huì)根據(jù)收益自動(dòng)啟停投機(jī),避免副作用)。

這正是 AgentInfer 的設(shè)計(jì)目標(biāo):每個(gè)組件解決一類確定的工業(yè)瓶頸;組合起來仍能協(xié)同增益,而不是相互抵消。

寫在最后:Agent 的效率問題,本質(zhì)是「系統(tǒng)問題」

AgentInfer 想強(qiáng)調(diào)的并不是「把某個(gè)指標(biāo)卷到極致」,而是一個(gè)更現(xiàn)實(shí)的工程結(jié)論:

真正能落地的 Agent 加速,必須同時(shí)優(yōu)化推理架構(gòu)與推理系統(tǒng),并且以端到端任務(wù)完成為目標(biāo)。

團(tuán)隊(duì)在實(shí)驗(yàn)中觀察到:AgentInfer 能將無效 token 消耗降低50%+,實(shí)現(xiàn)1.8×–2.5×的端到端加速,同時(shí)保持任務(wù)準(zhǔn)確率穩(wěn)定。

當(dāng) Agent 進(jìn)入生產(chǎn)環(huán)境,決定體驗(yàn)的往往不是單步 tokens/s,而是「少走彎路、少重算、抗并發(fā)」。這也是我們把 AgentInfer 定位為一套Self-Evolution Engine(自演進(jìn)引擎)的原因:它讓 Agent 在長(zhǎng)周期任務(wù)與高并發(fā)環(huán)境中,依然保持效率與認(rèn)知穩(wěn)定。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
特朗普3大愿望全部落空,轉(zhuǎn)頭收到2個(gè)危險(xiǎn),親兒子恐怕保不住了

特朗普3大愿望全部落空,轉(zhuǎn)頭收到2個(gè)危險(xiǎn),親兒子恐怕保不住了

賤議你讀史
2026-03-14 02:15:04
俄羅斯向聯(lián)合國控訴烏克蘭用導(dǎo)彈襲擊俄軍工廠是“恐怖襲擊”

俄羅斯向聯(lián)合國控訴烏克蘭用導(dǎo)彈襲擊俄軍工廠是“恐怖襲擊”

山河路口
2026-03-11 21:16:21
現(xiàn)今人倫之亂,令人揪心!多少家庭,毀在沒有邊界感

現(xiàn)今人倫之亂,令人揪心!多少家庭,毀在沒有邊界感

風(fēng)起見你
2026-03-04 13:50:50
開戰(zhàn)來首次!美國損失慘重

開戰(zhàn)來首次!美國損失慘重

亞太觀瀾
2026-03-12 20:50:06
兩會(huì)結(jié)束后,不出意外的話,未來兩年房地產(chǎn)市場(chǎng)或?qū)⒂瓉?個(gè)變化

兩會(huì)結(jié)束后,不出意外的話,未來兩年房地產(chǎn)市場(chǎng)或?qū)⒂瓉?個(gè)變化

你是我心里的陰影
2026-03-14 02:07:56
這就是杜月笙老婆真實(shí)的樣貌,并非演員扮演,貨真價(jià)實(shí)的罕見照片

這就是杜月笙老婆真實(shí)的樣貌,并非演員扮演,貨真價(jià)實(shí)的罕見照片

史之銘
2026-03-11 18:41:11
“不如花5分鐘洗個(gè)頭”,清華碩士媽媽用2個(gè)小時(shí)做輔食,被群嘲

“不如花5分鐘洗個(gè)頭”,清華碩士媽媽用2個(gè)小時(shí)做輔食,被群嘲

妍妍教育日記
2026-03-11 17:55:25
伊朗?;鹗锕獬醅F(xiàn),特朗普轉(zhuǎn)頭將矛頭對(duì)準(zhǔn)朝鮮,下個(gè)目標(biāo)已明確?

伊朗?;鹗锕獬醅F(xiàn),特朗普轉(zhuǎn)頭將矛頭對(duì)準(zhǔn)朝鮮,下個(gè)目標(biāo)已明確?

舊窗老街
2026-03-12 17:41:59
逆天改命是要祭品的!產(chǎn)婦家人嚇得不敢提前生了,網(wǎng)友熱帖引深思

逆天改命是要祭品的!產(chǎn)婦家人嚇得不敢提前生了,網(wǎng)友熱帖引深思

火山詩話
2026-03-13 09:07:00
91-48!女籃世資賽:韓國爆大冷,美國狂贏43分,日本潰敗告急

91-48!女籃世資賽:韓國爆大冷,美國狂贏43分,日本潰敗告急

大魚簡(jiǎn)科
2026-03-13 22:07:12
大爺農(nóng)村10萬買老宅,井中竟發(fā)現(xiàn)綠石頭,兒子帶朋友回家一看傻眼

大爺農(nóng)村10萬買老宅,井中竟發(fā)現(xiàn)綠石頭,兒子帶朋友回家一看傻眼

白云故事
2026-03-13 18:30:10
開國大將要被執(zhí)行槍決,偉人得知后大怒,直言:動(dòng)他就是動(dòng)我

開國大將要被執(zhí)行槍決,偉人得知后大怒,直言:動(dòng)他就是動(dòng)我

大運(yùn)河時(shí)空
2026-02-19 07:50:03
洗草莓時(shí),有人放食鹽,有人放面粉,果農(nóng):都不對(duì),教你正確做法

洗草莓時(shí),有人放食鹽,有人放面粉,果農(nóng):都不對(duì),教你正確做法

阿龍美食記
2026-02-28 10:49:43
官方:廣州蒲公英正式簽下熱合米圖拉、張冉,租借盧競(jìng)森

官方:廣州蒲公英正式簽下熱合米圖拉、張冉,租借盧競(jìng)森

懂球帝
2026-03-14 00:33:08
租售比悄悄回到2%!現(xiàn)在買房,比存銀行劃算了嗎?算完賬發(fā)現(xiàn)…

租售比悄悄回到2%!現(xiàn)在買房,比存銀行劃算了嗎?算完賬發(fā)現(xiàn)…

小白鴿財(cái)經(jīng)
2026-03-13 07:05:04
2月MPV銷量有黑馬,擠下賽那的國民神車

2月MPV銷量有黑馬,擠下賽那的國民神車

我是老黃
2026-03-12 23:45:43
武漢男子做核磁被“綁”機(jī)器一整晚 涉事醫(yī)生:交接失誤,已被停職

武漢男子做核磁被“綁”機(jī)器一整晚 涉事醫(yī)生:交接失誤,已被停職

封面新聞
2026-03-12 18:29:04
1換2,2換5,2筆交易賺瘋了!本該擺爛如今卻要沖冠,西部變天了

1換2,2換5,2筆交易賺瘋了!本該擺爛如今卻要沖冠,西部變天了

毒舌NBA
2026-03-13 09:27:54
香蜜湖豪宅法拍驚現(xiàn)7.5萬/㎡,業(yè)主懵了:比我買入價(jià)還低!

香蜜湖豪宅法拍驚現(xiàn)7.5萬/㎡,業(yè)主懵了:比我買入價(jià)還低!

樂居好房
2026-03-13 14:19:22
上海男子愛上江西51歲老太,相差18歲戀愛九年不結(jié)婚

上海男子愛上江西51歲老太,相差18歲戀愛九年不結(jié)婚

浩舞纆畫
2026-03-05 18:41:23
2026-03-14 03:32:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12497文章數(shù) 142583關(guān)注度
往期回顧 全部

科技要聞

龍蝦熱卷到AI硬件 “無腦”硬件或被淘汰

頭條要聞

穆杰塔巴"亮相"沒講話 伊朗學(xué)者:其處境可能非常危險(xiǎn)

頭條要聞

穆杰塔巴"亮相"沒講話 伊朗學(xué)者:其處境可能非常危險(xiǎn)

體育要聞

叕戰(zhàn)奧運(yùn),張雨霏要做回“小將”

娛樂要聞

廣電總局公布演員將用姓氏筆畫定番位

財(cái)經(jīng)要聞

“十五五”規(guī)劃綱要,全文來了!

汽車要聞

置換補(bǔ)貼價(jià)8.68萬 五菱繽果S 525km旗艦款上市

態(tài)度原創(chuàng)

家居
數(shù)碼
健康
房產(chǎn)
公開課

家居要聞

藝術(shù)之家 法式優(yōu)雅

數(shù)碼要聞

蘋果下調(diào)中國應(yīng)用商店傭金率

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

房產(chǎn)要聞

不容易??!海口終于又要賣地了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版