国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

UIUC清華微軟聯(lián)合提出PlugMem:當Agent記憶告別經(jīng)歷,存儲經(jīng)驗

0
分享至



隨著大語言模型 Agent 開始在對話、問答與復(fù)雜交互環(huán)境中長期運行,“記憶該如何設(shè)計” 正在成為一個繞不開的核心問題。



  • 論文標題:PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents
  • 論文鏈接:https://arxiv.org/abs/2603.0329
  • 微軟研究院官方博客:https://msft.it/6017Qc9vv
  • 作者單位:UIUC、清華大學、微軟研究院
  • 研究方向:LLM Agent?長期記憶?知識抽象?任務(wù)泛化

UIUC、清華、微軟研究院聯(lián)合提出:

一種 “可插拔” 的通用 Agent 記憶模塊 PlugMem

來自UIUC、清華大學與微軟研究院的研究團隊,近日提出了一種面向LLM Agent 的任務(wù)無關(guān)記憶模塊 PlugMem。該工作試圖回答一個在 Agent 研究中反復(fù)出現(xiàn)、卻始終沒有統(tǒng)一答案的問題:

Agent 的長期記憶,究竟該 “存什么”,才能真正幫助它在不同任務(wù)中做出更好的決策?

在當前主流設(shè)計中,大多數(shù) Agent 的記憶仍停留在 “存經(jīng)歷、再檢索” 的范式:

要么把對話、軌跡、網(wǎng)頁觀察等原始內(nèi)容直接存下來,要么在此基礎(chǔ)上做簡單壓縮或檢索增強(如 RAG、GraphRAG)。

問題在于,這類方法在任務(wù)切換時往往失效:

一個在長對話中表現(xiàn)良好的記憶機制,放到 Web Agent 或多跳問答中,幾乎無法直接復(fù)用。

一個典型的失敗場景:

Agent 記住了 “經(jīng)歷”,卻忘了 “經(jīng)驗”

作者在論文中給出了一個極具代表性的隱含例子:

  • 在長期對話中,Agent 多次與用戶討論飲食偏好
  • 在網(wǎng)頁任務(wù)中,Agent 多次成功完成 “搜索 — 篩選 — 下單” 的流程

但當 Agent 面臨一個新任務(wù)時(比如推薦菜譜,或在陌生電商頁面購物):

  • 原始對話記錄太長、太雜,直接檢索會引入大量無關(guān)上下文
  • 完整網(wǎng)頁軌跡高度依賴具體頁面結(jié)構(gòu),幾乎無法遷移

真正對決策有幫助的,其實只是兩類高度抽象的信息:

  • 「用戶是素食者、對乳制品過敏」(事實性知識)
  • 「在電商頁面中尋找最低價的一般流程」(可復(fù)用的行動策略)

但這些信息,往往并不存在于任何一條原始記憶中,而是分散在大量經(jīng)歷里。

PlugMem 的核心判斷:

決策相關(guān)信息,應(yīng)該以 “知識” 為單位被存儲

基于這一觀察,PlugMem 提出了一種與主流 Agent 記憶設(shè)計明顯不同的思路:

記憶的基本單位,不應(yīng)是 “文本” 或 “軌跡”,而應(yīng)是 “可決策的知識”。

具體來說,系統(tǒng)將 Agent 的長期記憶明確拆分為三類:

  • 情景記憶(Episodic):原始交互與行為軌跡,作為可追溯證據(jù)
  • 語義記憶(Semantic):從經(jīng)歷中抽象出的事實性命題(knowing that)
  • 程序記憶(Procedural):可跨任務(wù)復(fù)用的行動處方(knowing how)



與 GraphRAG 等方法不同,PlugMem 構(gòu)建的并不是 “實體圖” 或 “文本圖”, 而是一個以命題(proposition)和處方(prescription)為節(jié)點的知識中心記憶圖。

換句話說,Agent 檢索的不是 “我曾經(jīng)做過什么”,而是 “我已經(jīng)學會了什么”。

一個關(guān)鍵技術(shù)細節(jié):

同一套記憶結(jié)構(gòu),如何同時支持三類任務(wù)?

論文中一個很有說服力的點在于:

PlugMem 在不做任何任務(wù)特化修改的情況下,被直接用于三類差異極大的任務(wù):

  1. 長時對話記憶(LongMemEval)
  2. 多跳知識問答(HotpotQA)
  3. Web Agent 決策(WebArena)

在每種任務(wù)中,系統(tǒng)會動態(tài)判斷當前更需要哪一類記憶:

  • 回憶具體經(jīng)歷 → 使用情景記憶
  • 推理事實關(guān)系 → 使用語義記憶
  • 執(zhí)行復(fù)雜操作 → 使用程序記憶

而檢索與推理始終圍繞知識級節(jié)點展開,而不是原始文本。

評估與分析:

實驗在回答哪些問題?

PlugMem 的實驗設(shè)計,圍繞三個明確的問題展開。這三個問題,分別對應(yīng) Agent 記憶系統(tǒng)中最關(guān)鍵、也最容易被混用的三個層面:通用性、因果結(jié)構(gòu),以及可遷移性。

RQ1:同一套記憶機制,

能否同時適用于不同類型的 Agent 任務(wù)?

第一個問題關(guān)注的是 PlugMem 的適用范圍。

作者將同一個 PlugMem 實現(xiàn),直接用于三類結(jié)構(gòu)差異極大的任務(wù):

  • LongMemEval:強調(diào)跨輪次對話中的事實一致性
  • HotpotQA:強調(diào)多跳知識檢索與組合推理
  • WebArena:強調(diào)交互式環(huán)境中的程序性操作

這些任務(wù)對記憶的需求并不相同:

有的依賴對過往事實的回憶,有的依賴知識之間的關(guān)聯(lián),有的則依賴對行動策略的復(fù)用。

實驗結(jié)果顯示,在三類任務(wù)中,PlugMem 都能夠在提升任務(wù)表現(xiàn)的同時,顯著降低 Agent 側(cè)所消耗的記憶 token 數(shù)量。這表明,將記憶表示為知識級單元,有助于在不同任務(wù)中穩(wěn)定提升單位記憶的決策價值。



這一結(jié)果為后續(xù)分析提供了基礎(chǔ)前提:記憶的組織方式,會系統(tǒng)性地影響其在不同任務(wù)中的有效性。

一個中間視角:

如何比較不同任務(wù)中的 “記憶效率”?

在進一步分析之前,作者引入了一個統(tǒng)一的評估視角,用于衡量記憶系統(tǒng)在不同任務(wù)中的性價比。

具體而言,論文將記憶的作用表述為:在給定狀態(tài)下,記憶對 Agent 正確決策概率所帶來的信息增益,并將這一增益歸一化到所使用的記憶 token 數(shù)量上。由此得到的 “信息密度” 指標,使得不同任務(wù)、不同記憶設(shè)計可以在同一尺度下進行比較。

這一評估框架,為后續(xù)的消融分析和跨任務(wù)比較提供了統(tǒng)一坐標系。

RQ2:結(jié)構(gòu)化、檢索與推理,

各自在記憶系統(tǒng)中起什么作用?

第二個問題關(guān)注的是 PlugMem 內(nèi)部各組件的作用分工。



作者通過系統(tǒng)性的消融實驗,分別移除結(jié)構(gòu)化模塊、檢索模塊和推理模塊,觀察性能與記憶消耗的變化。實驗結(jié)果呈現(xiàn)出清晰的分工關(guān)系:

  • 檢索模塊決定記憶是否能夠被有效利用

當檢索被移除后,記憶幾乎無法在決策中發(fā)揮作用。

  • 結(jié)構(gòu)化模塊決定檢索到的內(nèi)容質(zhì)量

在缺少結(jié)構(gòu)化的情況下,系統(tǒng)更容易檢索到冗余、粒度不合適的原始信息,從而限制性能提升空間。

  • 推理模塊主要影響記憶使用效率

移除推理模塊后,性能變化相對有限,但記憶 token 消耗顯著增加,表明其主要作用在于壓縮與整合。

這組實驗明確區(qū)分了三個常被混為一談的概念:

檢索讓記憶 “可達”,結(jié)構(gòu)化讓記憶 “可用”,推理讓記憶 “省著用”。

RQ3:Agent 記憶能否作為可繼承的經(jīng)驗,

在新任務(wù)中繼續(xù)發(fā)揮作用?

第三個問題關(guān)注的是記憶的可遷移性。

在 WebArena 中,作者將任務(wù)劃分為 online 與 offline 兩個階段:

Agent 只允許在 online 階段寫入記憶,而 offline 階段則在基本凍結(jié)記憶的情況下進行評估。

這一設(shè)置刻意避免了通過重復(fù)試錯積累熟練度的可能性,重點考察已有記憶是否能夠支持新任務(wù)中的決策。

實驗結(jié)果表明,即使在 offline 階段,PlugMem 仍能顯著提升任務(wù)成功率,尤其是在涉及多站點組合操作的任務(wù)中。這表明系統(tǒng)中存儲的程序性與語義知識,能夠被新的 Agent 實例直接復(fù)用,而不依賴于具體的交互軌跡。

小結(jié)

通過這三組問題,實驗逐步澄清了 PlugMem 所刻畫的 Agent 記憶形態(tài):

  • 記憶以知識為基本單位
  • 決策相關(guān)信息可以在不同任務(wù)間復(fù)用
  • 結(jié)構(gòu)化與檢索決定 “能否用”,推理決定 “如何高效地用”

在這一意義上,PlugMem 的實驗不僅驗證了方法本身,也為理解 Agent 長期記憶的設(shè)計與評估提供了一組清晰的分析視角。

總體來看,PlugMem 從記憶的基本單位、組織方式與評估視角三個層面,系統(tǒng)性地重審了 Agent 長期記憶這一問題。通過將經(jīng)歷抽象為可復(fù)用的語義與程序性知識,并在多類任務(wù)中進行統(tǒng)一評估,作者展示了一種更接近 “經(jīng)驗繼承” 而非 “歷史回放” 的 Agent 記憶形態(tài)。這一思路,也為后續(xù)構(gòu)建可遷移、可積累經(jīng)驗的通用 Agent 提供了新的設(shè)計基線。

作者簡介:

楊可,清華大學本科、UIUC計算機三年級博士生,主要研究AI agents、語言模型、信息檢索與算法審計。本項目由其承擔領(lǐng)導(dǎo)與主要寫作工作,為排序第一作者,并與陳子曦、何宣、蔣積澤共同作為共同第一作者。該成果由UIUC、清華大學與微軟研究院合作完成,并接受Michel Galley、汪成龍博士建議,得到高劍峰、韓家煒、翟成祥教授指導(dǎo)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
陳熠3-2力克張本美和后迎新考驗國乒新殺器能否在重慶再建奇功?

陳熠3-2力克張本美和后迎新考驗國乒新殺器能否在重慶再建奇功?

阿晞體育
2026-03-11 13:50:08
中國月薪過萬到底有多少人? Deepseek的回答直接讓人破防

中國月薪過萬到底有多少人? Deepseek的回答直接讓人破防

蜉蝣說
2026-03-08 16:49:27
黃仁勛罕見發(fā)長文:未來幾年傳統(tǒng)軟件和APP形態(tài)或?qū)⑾,AI智能體極可能成主流

黃仁勛罕見發(fā)長文:未來幾年傳統(tǒng)軟件和APP形態(tài)或?qū)⑾,AI智能體極可能成主流

每日經(jīng)濟新聞
2026-03-11 14:14:15
蔣介石曾孫蔣友青:出生在加拿大,如今卻重回大陸,扎根母親故鄉(xiāng)

蔣介石曾孫蔣友青:出生在加拿大,如今卻重回大陸,扎根母親故鄉(xiāng)

阿訊說天下
2026-02-25 15:20:08
最大內(nèi)鬼被挖出!俄媒:卡尼確認完哈梅內(nèi)伊位置,會沒開完就溜了

最大內(nèi)鬼被挖出!俄媒:卡尼確認完哈梅內(nèi)伊位置,會沒開完就溜了

浪子阿邴聊體育
2026-03-09 17:10:36
狂轟23+4+2!又一個杜蘭特,兌現(xiàn)準狀元天賦,火箭低價續(xù)約賺麻了

狂轟23+4+2!又一個杜蘭特,兌現(xiàn)準狀元天賦,火箭低價續(xù)約賺麻了

籃球看比賽
2026-03-11 11:43:32
3月10日俄烏最新:川普和普京交換利益?

3月10日俄烏最新:川普和普京交換利益?

西樓飲月
2026-03-11 10:03:46
唏噓!馬蓉澳洲超市打零工,時薪22澳元,王寶強豪擲2.5億拍新片

唏噓!馬蓉澳洲超市打零工,時薪22澳元,王寶強豪擲2.5億拍新片

今朝牛馬
2026-03-02 21:46:30
景甜穿透視裙,深V抹胸高定,自帶光暈!

景甜穿透視裙,深V抹胸高定,自帶光暈!

吃瓜黨二號頭目
2026-03-06 10:08:25
怪不得印度不鬧騰!雅魯藏布江水電工程,讓水資源威脅論失效

怪不得印度不鬧騰!雅魯藏布江水電工程,讓水資源威脅論失效

謝葥郵輪攝影
2026-03-11 14:21:57
83分+53分!阿德巴約刷新歷史后,與妻子共享一項驚人榮譽

83分+53分!阿德巴約刷新歷史后,與妻子共享一項驚人榮譽

大眼瞄世界
2026-03-11 12:57:36
巴拿馬估計做夢都沒想到,中國的反擊會以這種方式打響

巴拿馬估計做夢都沒想到,中國的反擊會以這種方式打響

苗苗情感說
2026-03-11 09:00:11
重磅:烏克蘭7枚風暴陰影導(dǎo)彈全部命中布良斯克導(dǎo)彈工廠!

重磅:烏克蘭7枚風暴陰影導(dǎo)彈全部命中布良斯克導(dǎo)彈工廠!

項鵬飛
2026-03-11 17:13:08
智商這么低,這家伙是怎么當上BOSS

智商這么低,這家伙是怎么當上BOSS

街機時代
2026-03-10 18:00:05
震驚!網(wǎng)傳50%已婚男人活成老婆的供養(yǎng)血包者,網(wǎng)友:至少90%吧

震驚!網(wǎng)傳50%已婚男人活成老婆的供養(yǎng)血包者,網(wǎng)友:至少90%吧

火山詩話
2026-03-10 15:39:53
U17國足亞洲杯28人名單:鄺兆鐳領(lǐng)銜!留洋5將入選,泰山足校6人

U17國足亞洲杯28人名單:鄺兆鐳領(lǐng)銜!留洋5將入選,泰山足校6人

我愛英超
2026-03-11 17:24:44
20歲劉美賢奧運奪金三周:LV時裝秀、紐交所敲鐘,科技與奢侈品巨頭爭相押注

20歲劉美賢奧運奪金三周:LV時裝秀、紐交所敲鐘,科技與奢侈品巨頭爭相押注

新浪財經(jīng)
2026-03-11 06:51:53
中俄聯(lián)手都鎮(zhèn)不住高市早苗,知名學者判斷:中日一個月內(nèi)或有空戰(zhàn)

中俄聯(lián)手都鎮(zhèn)不住高市早苗,知名學者判斷:中日一個月內(nèi)或有空戰(zhàn)

安安說
2026-03-02 13:42:53
從切爾西到紐卡,弗里克悟了,巴薩打英超先保證跑步能力

從切爾西到紐卡,弗里克悟了,巴薩打英超先保證跑步能力

米奇兔
2026-03-11 17:54:08
伊朗第34波反擊!動用重武器,以色列首都全境停電,特朗普想收手

伊朗第34波反擊!動用重武器,以色列首都全境停電,特朗普想收手

趣文說娛
2026-03-11 18:35:04
2026-03-11 19:23:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12476文章數(shù) 142582關(guān)注度
往期回顧 全部

科技要聞

騰訊急了急了,微信絕密AI智能體首度曝光

頭條要聞

重慶13歲少年"街舞世界杯"奪冠 最初目標僅是進下一輪

頭條要聞

重慶13歲少年"街舞世界杯"奪冠 最初目標僅是進下一輪

體育要聞

郭艾倫重傷,CBA下半賽季還能期待些什么

娛樂要聞

楊冪連續(xù)五年為劉詩詩慶生,劉詩詩回應(yīng)

財經(jīng)要聞

喚醒10萬億存量資金 公積金改革大潮來了

汽車要聞

蓮花糾偏, 馮擎峰的“收”與“守”

態(tài)度原創(chuàng)

健康
手機
數(shù)碼
房產(chǎn)
軍事航空

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

手機要聞

「全球最平整折疊屏」來了!OPPO Find N6開箱上手體驗

數(shù)碼要聞

存儲與CPU雙漲施壓PC市場,主流電腦型號售價或上漲40%

房產(chǎn)要聞

最低殺到7800元/㎡!?2026第一波房價大調(diào)整來了!

軍事要聞

朝鮮"崔賢"號驅(qū)逐艦進行戰(zhàn)略巡航導(dǎo)彈試射

無障礙瀏覽 進入關(guān)懷版