国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

告別Demo、真正跑進生產,華為新框架把Agent端到端效率拉升2.5倍

0
分享至



大模型 Agent 正在從 Demo 走向生產:多輪推理、工具調用、長上下文記憶、并發(fā)會話同時運行…… 但也正是在這些「真實工作流」里,很多看似先進的推理加速在落地時會失效:單步推理快了,端到端卻更慢;吞吐更高了,高并發(fā)下卻開始抖動;壓縮了上下文,Agent 反而更容易迷路、回合數(shù)暴漲。

華為諾亞方舟實驗室、先進計算與存儲實驗室聯(lián)合在最新工作中提出了AgentInfer:一個面向工業(yè) Agent 的端到端加速框架,把「推理架構設計」和「推理服務系統(tǒng)」放在一起協(xié)同優(yōu)化。

它不是某個單點技巧,而是一套可拆可合的系統(tǒng)化方案:每個模塊單獨啟用都有收益,組合在一起仍能疊加,并且在高并發(fā)、多會話、長上下文的真實負載下依然 work。



  • 論文標題:Towards Efficient Agents: A Co-Design of Inference Architecture and System
  • arXiv 鏈接:https://arxiv.org/pdf/2512.18337

為什么 Agent 的「加速」必須從端到端出發(fā)?

在傳統(tǒng) LLM 服務里,我們習慣用 tokens/s、單次延遲來衡量優(yōu)化。但 Agent 的本質是一個持續(xù)運行的Think–Act–Observe循環(huán):

  • 每次 Think 都要帶著越來越長的上下文;
  • Act/Observe 會引入異構工具延遲與并行請求;
  • 一旦某一步質量下降,就會觸發(fā)糾錯、重試、冗余搜索,導致回合數(shù)上升、總體更慢。

團隊在分析中總結了 Agent 場景的三個典型「工業(yè)坑」:

1. 量化陷阱:單步更快但精度更差,觸發(fā)大量自我修復回路,端到端時間反而上升。



2. 文本總結不靠譜:大量的研究工作展示可以通過對過程信息總結來進行 token 壓縮,但是本文的實測發(fā)現(xiàn),很多場景中引入總結后單輪變短了,但是整體輪次變多了,甚至降低了精度。



3. 記憶持久性瓶頸(KV-cache):高并發(fā)下,常見的短作業(yè)優(yōu)先(SJF)會頻繁淘汰長上下文會話的 KV-cache,導致下一輪被迫重算大段 prefill,延遲尖刺明顯,系統(tǒng)吞吐和穩(wěn)定性一起掉。



結論很直接:Agent 的效率不是「每步快一點」,而是「更少的無效回合、更少的重算、更高的跨輪次復用」。

AgentInfer:四個可獨立部署、可疊加增益的模塊

AgentInfer 把 Agent 的端到端瓶頸拆成四類問題,并給出四個互補模塊。它們分別作用在不同層次:有的減少「用大模型的次數(shù)」,有的控制「上下文變長」,有的提升「并發(fā)下的緩存命中」,有的加速「token 級生成」。



1)AgentCollab:難度感知的大小模型協(xié)作(少用大模型,但不掉質量)

核心思路是把常規(guī)工作交給小模型,把關鍵規(guī)劃與卡住的推理交給大模型。關鍵不在「靜態(tài)分工」,而在一個結構化的Progress Check 自評機制:每一步判斷「是否取得實質進展」,若停滯則升級到大模型救場;恢復進展后再降級回小模型繼續(xù)跑。

這讓系統(tǒng)在工業(yè)場景里更「像人」:多數(shù)時間用便宜模型推進流程,只有在真的困難段落才調用昂貴模型,從而在質量與成本之間更接近 Pareto 最優(yōu)。

2)AgentCompress:語義壓縮與異步蒸餾(壓縮不等于刪記憶)



真實的深度研究 / 搜索型 Agent,上下文很快被搜索結果、網頁內容、工具輸出撐爆,序列長度飆升帶來注意力成本激增。AgentCompress 做兩件事:

  • 搜索結果過濾排序:先用輕量模型把 URL / 摘要排序剪枝,減少無關內容進入后續(xù)爬蟲與文檔問答,降低并行工具調用壓力。
  • 異步上下文蒸餾:壓縮工具輸出等「環(huán)境交互記憶」,但關鍵是保留推理軌跡(reasoning memory)。團隊觀察到:只保留壓縮后的環(huán)境信息會讓 Agent 「失憶」,無法判斷是否完成任務,導致回合數(shù)暴漲;保留推理軌跡才能維持認知連續(xù)性,壓縮才真正帶來端到端收益。

這也是工業(yè)落地里非常實用的一點:壓縮必須服務于「少走彎路」,而不是只追求「prompt 變短」。

3)AgentSched:KV-cache 感知的混合調度(高并發(fā)下依然穩(wěn)定)



在多會話并發(fā)中,短請求和超長上下文請求會同時出現(xiàn)。純 FCFS 會被長請求阻塞,純 SJF 又會犧牲長會話的 KV-cache 持久性,導致反復重算前綴、延遲尖刺。

AgentSched 引入一個可解釋的控制信號(shadow-price),在「優(yōu)先短請求低延遲」和「優(yōu)先高 KV 復用」之間自適應切換:

  • 緩存寬松時更像 SJF,快速響應短請求;
  • 緩存緊張時更偏 KV-aware,保護長會話上下文,減少昂貴 prefill 重算。

這解決的是「工業(yè)高并發(fā)下仍然 work」的關鍵:不是某一次跑得快,而是在壓力上來時系統(tǒng)不抖、不崩、吞吐還能上去。

4)AgentSAM:跨會話投機解碼(把「重復模式」變成真加速)

Agent 推理中常出現(xiàn)高重復:同一任務多輪反復提問、相似用戶請求復用模板、檢索證據(jù)被多次引用。AgentSAM 用后綴自動機(SAM)把當前會話與語義相似的歷史會話組合起來,為投機解碼提供更高命中率的草稿;同時用異步構建避免長上下文下 SAM 構建阻塞首 token 延遲,并帶有自適應開關:當 batch 太大、投機收益變差時自動回退,避免「為了投機而投機」。

工業(yè)可用性的證據(jù):高并發(fā)下 QPS 仍能持續(xù)提升

在 BrowseComp-zh / DeepDiver 深度研究型 Agent 基準上,我們把四個模塊集成到同一套服務棧中進行端到端評估。



結果顯示兩點:

1)它不是實驗室「單請求優(yōu)化」,而是高并發(fā)下依然能跑的系統(tǒng)

在并發(fā)會話數(shù)提升時(例如從 4 提升到 16),系統(tǒng)仍然能穩(wěn)定獲得收益,QPS 提升可達 2.52×。這意味著優(yōu)化不僅對單次推理有效,更能在資源爭用、緩存壓力、長短請求混合的真實負載里保持穩(wěn)定。

2)它不是「只能全套上」,而是模塊化、可組合、增益可疊加

團隊做了逐步疊加實驗:

  • 只上 AgentCollab 就有提升;
  • 再加 AgentCompress、AgentSched,收益繼續(xù)增長;
  • 最后加 AgentSAM,整體進一步提升(并且在高并發(fā)下會根據(jù)收益自動啟停投機,避免副作用)。

這正是 AgentInfer 的設計目標:每個組件解決一類確定的工業(yè)瓶頸;組合起來仍能協(xié)同增益,而不是相互抵消。

寫在最后:Agent 的效率問題,本質是「系統(tǒng)問題」

AgentInfer 想強調的并不是「把某個指標卷到極致」,而是一個更現(xiàn)實的工程結論:

真正能落地的 Agent 加速,必須同時優(yōu)化推理架構與推理系統(tǒng),并且以端到端任務完成為目標。

團隊在實驗中觀察到:AgentInfer 能將無效 token 消耗降低50%+,實現(xiàn)1.8×–2.5×的端到端加速,同時保持任務準確率穩(wěn)定。

當 Agent 進入生產環(huán)境,決定體驗的往往不是單步 tokens/s,而是「少走彎路、少重算、抗并發(fā)」。這也是我們把 AgentInfer 定位為一套Self-Evolution Engine(自演進引擎)的原因:它讓 Agent 在長周期任務與高并發(fā)環(huán)境中,依然保持效率與認知穩(wěn)定。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
油價微漲1.8元/升

油價微漲1.8元/升

傳播真能量
2026-03-23 07:12:56
杜鋒深夜發(fā)聲!多角度強硬辯解,恩師親自站臺力挺,帥位穩(wěn)如泰山

杜鋒深夜發(fā)聲!多角度強硬辯解,恩師親自站臺力挺,帥位穩(wěn)如泰山

郝小小看體育
2026-03-23 14:27:13
伊朗攻勢如潮,以色列傷亡慘重,首次公開承認:無法攔截伊朗導彈

伊朗攻勢如潮,以色列傷亡慘重,首次公開承認:無法攔截伊朗導彈

阿芒娛樂說
2026-03-23 14:11:45
霍爾木茲斷航!第一個亞洲國家已斷糧倒下,下一個受害者浮出水面

霍爾木茲斷航!第一個亞洲國家已斷糧倒下,下一個受害者浮出水面

興史興談
2026-03-22 23:50:28
近7戰(zhàn)三分僅18中6?。】吹娇霞{德投進絕殺,才懂克內克特缺了什么

近7戰(zhàn)三分僅18中6?。】吹娇霞{德投進絕殺,才懂克內克特缺了什么

小路看球
2026-03-23 14:35:46
衣服也要漲價了!油價帶動服裝原料暴漲:一夜?jié)q幅超20%

衣服也要漲價了!油價帶動服裝原料暴漲:一夜?jié)q幅超20%

快科技
2026-03-22 19:10:26
一票否決!歐盟內部集體暴怒,德國總理當場發(fā)話:這事沒完!

一票否決!歐盟內部集體暴怒,德國總理當場發(fā)話:這事沒完!

輝輝歷史記
2026-03-23 13:00:35
晚飯七分飽被推翻了?醫(yī)生調查:過了56歲,吃飯盡量要做到這5點

晚飯七分飽被推翻了?醫(yī)生調查:過了56歲,吃飯盡量要做到這5點

蜉蝣說
2026-02-03 15:00:19
瘋了!曼城雙巨星換巴薩神童,哈蘭德逼宮引爆重磅交易

瘋了!曼城雙巨星換巴薩神童,哈蘭德逼宮引爆重磅交易

奶蓋熊本熊
2026-03-23 06:59:39
女子打幼童骨折后續(xù): 身份被扒,1000元私了遭拒,家屬硬剛不和解

女子打幼童骨折后續(xù): 身份被扒,1000元私了遭拒,家屬硬剛不和解

潮鹿逐夢
2026-03-23 11:47:27
默克爾警告成真!俄烏沖突最大輸家已出現(xiàn):不是俄羅斯不是美國

默克爾警告成真!俄烏沖突最大輸家已出現(xiàn):不是俄羅斯不是美國

觸摸史跡
2026-03-23 14:33:00
美以伊開打20天,下一步最大威脅,是糧食和淡水危機

美以伊開打20天,下一步最大威脅,是糧食和淡水危機

紅星新聞
2026-03-19 18:45:22
中國不記隔夜仇!才23天巴拿馬港口就癱了,總統(tǒng)直呼請中方放過

中國不記隔夜仇!才23天巴拿馬港口就癱了,總統(tǒng)直呼請中方放過

丁丁鯉史紀
2026-03-23 11:07:18
雷克薩斯全新一代ES,預售30.88萬起

雷克薩斯全新一代ES,預售30.88萬起

懂車之道
2026-03-23 09:31:53
美國被嚴重“誤判”!全世界都在對我們撒謊,真相很殘酷

美國被嚴重“誤判”!全世界都在對我們撒謊,真相很殘酷

毛豆論道
2026-03-21 19:54:29
臺軍方放話,只要解放軍集結兵力準備登陸,將遠程打擊港口等目標

臺軍方放話,只要解放軍集結兵力準備登陸,將遠程打擊港口等目標

史料布籍
2026-03-23 14:09:58
我娶了單位32歲前臺,結婚半個月后董事長:你知道你老婆是啥人不

我娶了單位32歲前臺,結婚半個月后董事長:你知道你老婆是啥人不

千秋歷史
2026-03-12 19:18:12
今晚7點半!客戰(zhàn)上海,廣東兩大主力不給打!杜鋒最后救贖!輸球恐走人

今晚7點半!客戰(zhàn)上海,廣東兩大主力不給打!杜鋒最后救贖!輸球恐走人

King迪哥侃球
2026-03-23 14:27:09
A股大跌,等錨定新的估值,市場就會見底!

A股大跌,等錨定新的估值,市場就會見底!

童童讀財
2026-03-23 14:57:34
官宣確認!克洛普重返安菲爾德已定,妻子態(tài)度決定他是否二度執(zhí)教

官宣確認!克洛普重返安菲爾德已定,妻子態(tài)度決定他是否二度執(zhí)教

夜白侃球
2026-03-22 23:18:51
2026-03-23 15:27:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12573文章數(shù) 142591關注度
往期回顧 全部

科技要聞

雷軍、蔡崇信最新發(fā)聲,提到同一件事

頭條要聞

以色列大規(guī)模轟炸伊首都基礎設施 德黑蘭彌漫刺鼻氣味

頭條要聞

以色列大規(guī)模轟炸伊首都基礎設施 德黑蘭彌漫刺鼻氣味

體育要聞

不敢放手一搏,你拿什么去爭冠?

娛樂要聞

劉燁47歲生日,安娜曬全家福為其慶生

財經要聞

滬指跌逾3% 下跌個股近5100只

汽車要聞

嵐圖汽車香江鳴鑼 一場關于"國家隊"的突圍實驗

態(tài)度原創(chuàng)

時尚
手機
教育
游戲
家居

“這條裙子”才是今年春天的頂流,怎么搭都好看

手機要聞

IDC:2025年中國無線耳機出貨12137萬臺同比增長6.9%

教育要聞

青春期孩子,總是憤怒,無原由的憤怒

經典街機回憶!《戰(zhàn)斧兄弟會:輪回戰(zhàn)紀》商店頁首曝!

家居要聞

智慧生活 奢享家居

無障礙瀏覽 進入關懷版