国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

最火、最全的Agent記憶綜述,NUS、人大、復(fù)旦、北大等聯(lián)合出品

0
分享至



在過(guò)去兩年里,記憶(Memory)幾乎從 “可選模塊” 迅速變成了 Agent 系統(tǒng)的 “基礎(chǔ)設(shè)施”:對(duì)話型助手需要記住用戶習(xí)慣與歷史偏好;代碼 / 軟件工程 Agent 需要記住倉(cāng)庫(kù)結(jié)構(gòu)、約束與修復(fù)策略;深度研究型 Agent 需要記住已閱讀的證據(jù)鏈、關(guān)鍵假設(shè)與失敗路徑,沒(méi)有 memory 的智能體難以跨任務(wù)保留有效經(jīng)驗(yàn),難以穩(wěn)定維護(hù)用戶偏好與身份設(shè)定,也難以在長(zhǎng)周期協(xié)作中保持行為一致、避免反復(fù)犯同樣的錯(cuò)誤。與此同時(shí) Memory 概念在迅速膨脹、也在迅速碎片化:很多論文都聲稱自己在做 “agent memory”,但實(shí)現(xiàn)方式、目標(biāo)假設(shè)、評(píng)價(jià)協(xié)議差別巨大,多術(shù)語(yǔ)并行又進(jìn)一步模糊了邊界。

在這樣的背景下,來(lái)自新加坡國(guó)立大學(xué)、中國(guó)人民大學(xué)、復(fù)旦大學(xué)、北京大學(xué)等頂級(jí)學(xué)術(shù)機(jī)構(gòu)共同撰寫并發(fā)布了百頁(yè)綜述《Memory in the Age of AI Agents: A Survey》,嘗試用統(tǒng)一視角為快速擴(kuò)張、卻日益碎片化的 “Agent Memory” 重新梳理技術(shù)路徑。



  • 論文鏈接: https://arxiv.org/abs/2512.13564
  • Github 鏈接: https://github.com/Shichun-Liu/Agent-Memory-Paper-List

綜述首先指出傳統(tǒng)的 “長(zhǎng) / 短期記憶” 二分法,已經(jīng)不足以描述當(dāng)代系統(tǒng)里更復(fù)雜的結(jié)構(gòu)形態(tài)與動(dòng)態(tài)機(jī)制:有的記憶是顯式 token 存儲(chǔ),有的寫進(jìn)參數(shù),有的駐留在潛在狀態(tài);有的服務(wù)于事實(shí)一致性,有的服務(wù)于經(jīng)驗(yàn)遷移,有的服務(wù)于單次任務(wù)的工作臺(tái)管理 —— 如果繼續(xù)用簡(jiǎn)單時(shí)間尺度切分,就很難真正解釋這些差異。

基于此,該綜述提出一個(gè)統(tǒng)一的分析框架:Forms–Functions–Dynamics(三角框架)。它試圖分別回答三類核心問(wèn)題:



記憶以什么形式存在(Forms)——What Carries Memory? 是外部 token、參數(shù),還是潛在狀態(tài)?

記憶解決什么問(wèn)題(Functions)——Why Agents Need Memory? 它服務(wù)于事實(shí)一致、經(jīng)驗(yàn)成長(zhǎng),還是任務(wù)內(nèi)工作記憶?

記憶如何運(yùn)轉(zhuǎn)與演化(Dynamics)——How Memory Evolves? 它如何形成、如何被維護(hù)與更新、又如何在決策時(shí)被檢索與利用?

概念辨析:Agent Memory 到底

和 LLM Memory、RAG、Context Engineering 有何不同?

在大量工程實(shí)踐中,“Memory” 這個(gè)詞往往被迅速簡(jiǎn)化為幾個(gè)具體實(shí)現(xiàn):一個(gè)向量數(shù)據(jù)庫(kù)加上相似度檢索,或者干脆等同為更長(zhǎng)的上下文窗口、更大的 KV cache。在這種理解下,只要模型 “還能看到過(guò)去的信息”,系統(tǒng)似乎就已經(jīng)具備了記憶能力。然而,綜述明確指出:這些技術(shù)與 Agent Memory 確實(shí)存在交集,但在研究對(duì)象和問(wèn)題層級(jí)上并不等價(jià)



Agent Memory:持久的、可自我演化的 “認(rèn)知狀態(tài)”

Agent Memory 關(guān)注的是智能體持續(xù)維持的認(rèn)知狀態(tài),它不僅 “存”,還要能在交互中不斷更新、整合、糾錯(cuò)、抽象,并跨任務(wù)保持一致性。獨(dú)特性在于維護(hù)一個(gè)persistent and self-evolving cognitive state,并把事實(shí)與經(jīng)驗(yàn)整合在一起。Agent Memory 關(guān)心的是 “智能體知道什么、經(jīng)歷過(guò)什么,以及這些東西如何隨時(shí)間變化”,包括把反復(fù)交互沉淀成知識(shí)、從成功 / 失敗中抽象程序性知識(shí)、跨任務(wù)保持身份一致性等。

LLM Memory:“模型內(nèi)部機(jī)制 / 長(zhǎng)序列處理”

確實(shí)存在一條與 Agent Memory 不同、但同樣重要的研究路線 —— 真正意義上的 LLM-internal memory。這類工作關(guān)注的不是智能體如何在長(zhǎng)期交互中積累經(jīng)驗(yàn),而是模型在內(nèi)部計(jì)算過(guò)程中如何更有效地保留和利用序列信息。這些方法的核心問(wèn)題是:在一次或有限次推理過(guò)程中,如何避免早期 token 的信息衰減,如何在計(jì)算與顯存受限的前提下保持對(duì)長(zhǎng)距離依賴的建模能力。其研究對(duì)象,本質(zhì)上是模型內(nèi)部的狀態(tài)與動(dòng)態(tài)。它們并不假設(shè)模型是一個(gè)長(zhǎng)期存在、需要跨任務(wù)保持身份與目標(biāo)的自主體,也不要求模型與環(huán)境進(jìn)行持續(xù)交互或做出一系列有后果的行動(dòng)決策。換言之,這些方法即便不引入 agentic 行為,也完全成立:模型依然可以在單次問(wèn)答、長(zhǎng)文檔理解或摘要等任務(wù)中受益。

RAG:“靜態(tài)知識(shí)訪問(wèn)”

RAG 通常強(qiáng)調(diào)從外部知識(shí)庫(kù)檢索靜態(tài)信息以提升回答事實(shí)性;它可以是 Agent Memory 的一部分實(shí)現(xiàn),但如果系統(tǒng)沒(méi)有長(zhǎng)期一致性、沒(méi)有演化機(jī)制、沒(méi)有跨任務(wù)的 “自我”,那么它更像 “知識(shí)訪問(wèn)模塊”,而非完整記憶系統(tǒng)。這個(gè)差別在綜述的概念對(duì)照?qǐng)D說(shuō)明里也被點(diǎn)明:RAG 更接近 “static knowledge access”。

Context Engineering:“當(dāng)下推理的外部腳手架”

Context Engineering 的目標(biāo)常常是:在上下文窗口受限時(shí),如何組織提示、壓縮信息、構(gòu)建工具輸出格式等 —— 它優(yōu)化的是 “此刻模型看到什么”。而論文強(qiáng)調(diào):Context Engineering 是外部腳手架;Agent Memory 是支持學(xué)習(xí)與自主性的內(nèi)部基底。前者優(yōu)化當(dāng)下接口,后者維持跨窗口、跨任務(wù)的持續(xù)認(rèn)知狀態(tài)。

Forms:記憶的載體是什么?

綜述把 agent memory 的形式歸納為三大類:token-level /parametric/latent

這三類的差別聚焦于:信息以什么表示、在哪里存、如何讀寫、以及可解釋性與可塑性的取舍

Token-level Memory:最 “顯式” 的記憶層

token-level memory 的定義非常直觀:它把信息存成持久、離散、可外部訪問(wèn)與檢查的單元;這里的 token 不僅是文字 token,也可以是視覺(jué) token、音頻幀等,只要是可寫、可檢索、可重排、可修改的離散元素即可。

為什么它在工程里最常見(jiàn)?因?yàn)樗烊痪邆淙N優(yōu)勢(shì):

1.透明:你能看到存了什么;

2.可編輯:能刪改、能糾錯(cuò);

3.易組合:適合作為檢索、路由、沖突處理的 “中間層”,并與 parametric/latent memory 協(xié)同。

但 token-level 并不是 “一個(gè)向量庫(kù)” 那么簡(jiǎn)單。進(jìn)一步按 “拓?fù)浣Y(jié)構(gòu)復(fù)雜度” 可以把它分成三種組織方式:



  • Flat Memory(1D):沒(méi)有顯式拓?fù)潢P(guān)系,記憶像序列 / 離散單元一樣累積(例如片段、軌跡)。它的優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單、寫入快;缺點(diǎn)是檢索與更新容易退化成 “相似度匹配 + 越存越亂”。
  • Planar Memory(2D):?jiǎn)螌咏Y(jié)構(gòu)化組織,記憶單元之間通過(guò)圖、樹(shù)、表等關(guān)系連接,但不分層。它更適合多跳推理、關(guān)系約束與一致性維護(hù);代價(jià)是構(gòu)建與維護(hù)結(jié)構(gòu)更復(fù)雜。
  • Hierarchical Memory(3D):多層結(jié)構(gòu)并帶跨層鏈接,形成 “分層 / 立體化” 的記憶體系。它的動(dòng)機(jī)往往是:既要保留細(xì)節(jié),又要形成抽象總結(jié),并讓檢索可以在不同粒度之間切換。

這反應(yīng)了當(dāng)記憶規(guī)模增大,單純堆歷史就會(huì)暴露弊端,必須引入結(jié)構(gòu)(2D)與分層抽象(3D),才能讓長(zhǎng)期存在的外部記憶真正可用。

Parametric Memory:把記憶 “寫進(jìn)權(quán)重”

Parametric memory 的定義是:信息存儲(chǔ)在模型參數(shù)中,通過(guò)參數(shù)空間的統(tǒng)計(jì)模式編碼,并在前向計(jì)算中被隱式訪問(wèn)。它更像人類 “內(nèi)化后的直覺(jué)”:不用每次檢索外部庫(kù),模型直接學(xué)會(huì)并記住這些內(nèi)容。但代價(jià)同樣明顯:

  • 需要訓(xùn)練 / 更新權(quán)重(成本高)
  • 難以精確編輯與審計(jì)
  • 容易和遺忘、分布漂移、災(zāi)難性遺忘問(wèn)題糾纏在一起



Latent Memory:藏在隱狀態(tài) / 連續(xù)表示里的 “動(dòng)態(tài)記憶”

Latent memory 的定義是:記憶以模型內(nèi)部隱狀態(tài)、連續(xù)表示或演化的潛在結(jié)構(gòu)存在,可在推理時(shí)或交互周期中持續(xù)更新,用于捕捉上下文相關(guān)的內(nèi)部狀態(tài)。



它介于 “外部顯式存儲(chǔ)” 和 “權(quán)重內(nèi)化” 之間:比 token-level 更緊湊、更接近模型計(jì)算過(guò)程;比 parametric 更容易在推理期更新,但也往往更難解釋、更難審計(jì)。



Functions:記憶的功能是什么?

這一分類角度是這篇綜述的核心觀點(diǎn)之一,它不再用 “長(zhǎng) / 短期” 這種時(shí)間尺度粗分,而是用功能角色把 agent memory 分成三類:

  • Factual memory(事實(shí)記憶):記錄來(lái)自用戶與環(huán)境交互的知識(shí)
  • Experiential memory(經(jīng)驗(yàn)記憶):從任務(wù)執(zhí)行中增量提升解決問(wèn)題的能力
  • Working memory(工作記憶):管理單個(gè)任務(wù)實(shí)例中的工作區(qū)信息

這三個(gè)概念的價(jià)值在于:它們對(duì)應(yīng)的是三種完全不同的 “記憶失敗模式”,也對(duì)應(yīng)三類不同的系統(tǒng)設(shè)計(jì)。



Factual Memory:讓智能體 “記住世界”,并且可核查

事實(shí)記憶的一個(gè)關(guān)鍵目標(biāo),是提供一個(gè)可更新、可檢索、可治理(governable)的外部事實(shí)層,讓系統(tǒng)在跨 session / 跨階段時(shí)有穩(wěn)定參考。 這類記憶不只面向 “用戶偏好”,也面向 “環(huán)境事實(shí)”:長(zhǎng)文檔、代碼庫(kù)、工具狀態(tài)、交互軌跡等。

環(huán)境事實(shí)記憶能成為持續(xù)可更新、可審計(jì)、可復(fù)用的外部事實(shí)層;在協(xié)作維度還能維持跨 agent、跨階段一致性,從而支撐多來(lái)源信息與長(zhǎng)周期任務(wù)下的穩(wěn)健執(zhí)行。

如果你做過(guò) “多輪對(duì)話 + 多工具 + 多資料” 的系統(tǒng),你會(huì)非常熟悉這種痛點(diǎn):事實(shí)一旦散落在歷史對(duì)話里,就會(huì)反復(fù)被遺忘、被誤引、被編造。事實(shí)記憶的意義,就是把 “可核查的世界狀態(tài)” 從臨時(shí)上下文里抽出來(lái),變成可維護(hù)的對(duì)象。

Experiential Memory:讓智能體 “吃一塹長(zhǎng)一智”

經(jīng)驗(yàn)記憶的定義更像能力的積累:它把歷史軌跡、提煉后的策略、交互結(jié)果編碼為可持久檢索的表示。它與工作記憶不同:工作記憶管 “眼前這一題”,經(jīng)驗(yàn)記憶關(guān)心 “跨 episode 的長(zhǎng)期積累與遷移”。

綜述把經(jīng)驗(yàn)記憶與認(rèn)知科學(xué)里的非陳述性記憶(程序性 / 習(xí)慣系統(tǒng))類比,同時(shí)指出 agent 的獨(dú)特優(yōu)勢(shì):它往往用顯式數(shù)據(jù)結(jié)構(gòu)存儲(chǔ),因此反而具備生物體沒(méi)有的能力 ——可以內(nèi)省、編輯、并對(duì)自己的程序性知識(shí)做推理。經(jīng)驗(yàn)記憶給了智能體一種避免頻繁參數(shù)更新的持續(xù)學(xué)習(xí)路徑,把交互反饋轉(zhuǎn)化為可復(fù)用知識(shí),幫助系統(tǒng)糾錯(cuò)、抽象啟發(fā)式、編譯常規(guī)行為,從而減少重復(fù)計(jì)算并提升決策質(zhì)量。

經(jīng)驗(yàn)記憶按抽象層級(jí)分成三類:

  • Case-based:幾乎不加工的歷史記錄,強(qiáng)調(diào)保真度,用作 in-context exemplars;
  • Strategy-based:從軌跡中蒸餾可遷移的推理模式 / 工作流,作為規(guī)劃腳手架;
  • Skill-based:把策略進(jìn)一步落到可執(zhí)行技能(代碼片段、API 協(xié)議等),成為可組合的執(zhí)行底座。



Working Memory:讓智能體在 “單次任務(wù)里” 不被信息淹沒(méi)

工作記憶聽(tīng)起來(lái)像短期記憶,但在 agent 場(chǎng)景里,它最典型的問(wèn)題不是時(shí)間短,而是:即時(shí)輸入太大、太雜、模態(tài)太高維(長(zhǎng)文檔、網(wǎng)頁(yè) DOM、視頻流……),在固定 attention / 上下文預(yù)算下必須建立一個(gè) “可寫工作區(qū)”。

  • 一類是 single-turn working memory:目的就是單次調(diào)用之內(nèi) “減 token”,包括 hard/soft/hybrid 壓縮,以及輸入內(nèi)容結(jié)構(gòu)化、抽象化;
  • 另一類為 multi-turn working memory:關(guān)注多輪之間的狀態(tài)維持與壓縮、針對(duì)子任務(wù)的折疊剪切、使用 planning 管理記憶等等。



Dynamics:記憶是如何運(yùn)轉(zhuǎn)的?

如果說(shuō) Forms 解決 “記憶放哪兒”、Functions 解決 “記憶干嘛用”,那 Dynamics 解決的就是:記憶系統(tǒng)如何運(yùn)轉(zhuǎn)。

記憶的生命周期可以概括為三段:Memory Formation(形成)—Memory Evolution(演化)—Memory Retrieval(檢索),并強(qiáng)調(diào)三者構(gòu)成一個(gè)相互反饋的循環(huán):形成階段抽取新信息;演化階段做整合、沖突消解與剪枝;檢索階段提供面向當(dāng)前任務(wù)的訪問(wèn);推理結(jié)果與環(huán)境反饋又反過(guò)來(lái)影響下一輪形成與演化。



Formation:從 “原始上下文” 到 “可存可取的知識(shí)”

Formation 階段把原始上下文(對(duì)話、圖像等)編碼成更緊湊的知識(shí)。動(dòng)機(jī)非常直接:full-context prompting 會(huì)帶來(lái)計(jì)算開(kāi)銷、內(nèi)存壓力、以及在超長(zhǎng)輸入上的推理退化,因此需要把關(guān)鍵信息蒸餾成更高效的表示。

formation 操作進(jìn)一步分成五類:語(yǔ)義總結(jié)、知識(shí)蒸餾、結(jié)構(gòu)化構(gòu)建、潛在表示、以及參數(shù)內(nèi)化。這五類幾乎對(duì)應(yīng)了 Forms 的三種載體:總結(jié) / 結(jié)構(gòu)化更偏 token-level;潛在表示偏 latent;參數(shù)內(nèi)化對(duì)應(yīng) parametric。

Retrieval:決定 “記憶是否真的能幫你做決策”

retrieval 形式化為一個(gè)操作:在每個(gè)時(shí)間步,根據(jù)當(dāng)前觀察與任務(wù)構(gòu)造查詢,并返回相關(guān)記憶內(nèi)容;返回的記憶信號(hào)會(huì)被格式化成 LLM 策略可直接消費(fèi)的文本片段或結(jié)構(gòu)化摘要。

檢索不必每步發(fā)生,可能只在任務(wù)初始化發(fā)生,也可能間歇觸發(fā)或持續(xù)觸發(fā);而 “短期 / 長(zhǎng)期” 效果往往不是因?yàn)榇钶d了兩個(gè)模塊,而是由 formation/evolution/retrieval 的觸發(fā)節(jié)奏決定的。這點(diǎn)對(duì)工程實(shí)踐有指導(dǎo)意義:很多系統(tǒng)并非缺一個(gè)長(zhǎng)期庫(kù),而是觸發(fā)策略不對(duì)、導(dǎo)致記憶無(wú)法進(jìn)入決策回路。



Evolution:記憶庫(kù)也需要 “維護(hù)與新陳代謝”

Evolution 階段的任務(wù)是把新增記憶與已有記憶整合,通過(guò)合并相關(guān)條目、沖突消解、剪枝等機(jī)制,讓記憶保持可泛化、連貫且高效。

這也是為什么 “記憶系統(tǒng)” 遲早會(huì)走向更復(fù)雜的治理問(wèn)題:刪什么、留什么、如何避免自相矛盾、如何避免隱私泄漏、如何給多智能體共享時(shí)加規(guī)則…… 這些都屬于 evolution 的范疇。



資源整理:Benchmark 與開(kāi)源框架

綜述專門用 Section 6 匯總 benchmarks 與開(kāi)源框架資源,這是支持實(shí)證研究與落地開(kāi)發(fā)的關(guān)鍵基礎(chǔ)設(shè)施,方便相關(guān)科研工作者查閱。





前沿展望:下一代記憶系統(tǒng)走向何方?

與其把記憶當(dāng)作一個(gè)檢索插件,不如把它當(dāng)作智能體長(zhǎng)期能力的 first-class primitive,作為 agent 的核心功能之一:

  • Memory RetrievalMemory Generation(記憶從 “找出來(lái)” 變成 “生成出來(lái)”);
  • Hand-craftedAutomated Memory Management(記憶系統(tǒng)從 “人工寫規(guī)則” 變成 “自動(dòng)管理”);
  • Heuristic PipelinesRL-driven Control(從啟發(fā)式流程走向強(qiáng)化學(xué)習(xí)端到端優(yōu)化);

并進(jìn)一步討論這些變化如何與多模態(tài)、多智能體協(xié)作、可信安全等主題交織。

記憶檢索 vs 記憶生成:從 “取片段” 到 “做抽象”

傳統(tǒng)檢索范式把記憶看成一個(gè)已經(jīng) “寫好” 的倉(cāng)庫(kù):當(dāng)前任務(wù)需要什么,就從向量庫(kù) / 圖結(jié)構(gòu) / 重排器里把最相關(guān)的片段找出來(lái)拼進(jìn)上下文,核心指標(biāo)是檢索的 precision/recall。大量工作圍繞索引、相似度、重排、結(jié)構(gòu)化來(lái)提升 “找得準(zhǔn)不準(zhǔn)”。 但 Agent 真正的長(zhǎng)期能力不只依賴 “取回舊文本”,而更依賴一種面向未來(lái)的抽象

  • 記憶不必是原始碎片,它可以被壓縮、重組、重寫成更適合后續(xù)推理的表示;
  • 尤其當(dāng)原始記錄冗余、噪聲大、與任務(wù)不對(duì)齊時(shí),“拼接式檢索” 往往把上下文塞滿,卻不一定讓模型更會(huì)做事。

這有兩條主線:

1)Retrieve-then-Generate:先檢索,再把檢索到的材料重寫成更緊湊、更一致、更任務(wù)相關(guān)的 “可用記憶”,如 ComoRAG、G-Memory、CoMEM 這類思路,保留可追溯的歷史 grounding,同時(shí)提升可用性;

2)Direct Generation:不顯式檢索,直接從當(dāng)前上下文 / 交互軌跡 / 潛在狀態(tài)中生成記憶表示,比如用 “潛在記憶 token” 的方式繞開(kāi)傳統(tǒng)查庫(kù)。

而未來(lái)則更關(guān)注三個(gè)方面:

  • Context-adaptive(上下文自適應(yīng)):不是一刀切總結(jié),而要能隨任務(wù)階段與目標(biāo)動(dòng)態(tài)調(diào)整粒度與抽象層次;
  • Integrate heterogeneous signals(融合異質(zhì)信號(hào)):把文本、代碼、工具輸出、環(huán)境反饋等碎片 “熔成” 統(tǒng)一表示;
  • Learned & self-optimizing(可學(xué)習(xí)且自優(yōu)化):什么時(shí)候生成、生成成什么樣,不再靠人工規(guī)則,而由優(yōu)化信號(hào)(例如 RL 或長(zhǎng)期任務(wù)表現(xiàn))驅(qū)動(dòng),與推理 / 決策共同進(jìn)化。

自動(dòng)化記憶管理:從 “寫規(guī)則” 到 “讓 Agent 自己管記憶”

如今很多搭載 memory 的 Agent 其記憶行為本質(zhì)仍是工程規(guī)則—— 寫什么、什么時(shí)候?qū)?、怎么更?/ 怎么取,都靠提示詞、閾值、人工策略。這樣做的好處是成本低、可解釋、可復(fù)現(xiàn),適合快速原型;但缺點(diǎn)也同樣致命:僵硬、難泛化,在長(zhǎng)程或開(kāi)放式交互里容易失效。因此近期開(kāi)始出現(xiàn)讓 Agent自主參與記憶管理的方向

  • 讓模型把細(xì)粒度條目自動(dòng)聚類成更高層抽象單元;
  • 引入專門的 “memory manager” 代理來(lái)處理更新。



但很多方法仍被手工規(guī)則牽引,或只在狹窄目標(biāo)上優(yōu)化,因此離通用自動(dòng)記憶還有距離。而未來(lái)可能的路線有兩條:

第一條是把記憶操作顯式接入決策

不再把記憶當(dāng)外部模塊,而是讓 Agent 在每一步都能通過(guò)工具調(diào)用式接口執(zhí)行 add/update/delete/retrieve,并且 “知道自己做了什么記憶動(dòng)作”。這會(huì)讓記憶行為更連貫、更透明、更能與當(dāng)前推理狀態(tài)對(duì)齊。

第二條是走向自優(yōu)化的記憶結(jié)構(gòu)

不僅僅 “分層存儲(chǔ)”,更要讓記憶庫(kù)能動(dòng)態(tài)鏈接、索引、重構(gòu),使存儲(chǔ)結(jié)構(gòu)本身隨時(shí)間自組織,從而減少對(duì)手工規(guī)則的依賴,最終支持更魯棒、可擴(kuò)展的自主記憶。

強(qiáng)化學(xué)習(xí) × 記憶:記憶控制正在被 RL “內(nèi)化” 進(jìn)策略

在 Memory 中引入 RL 是一種從 pipeline 到 model-native 的轉(zhuǎn)向:早期大量系統(tǒng)要么是閾值 / 語(yǔ)義檢索 / 拼接等啟發(fā)式;要么看起來(lái)很 “agentic”,但其實(shí)只是 prompt 驅(qū)動(dòng),模型并沒(méi)受過(guò)任何有效記憶控制的訓(xùn)練。

隨后出現(xiàn)RL-assisted memory:只對(duì)記憶生命周期的某一環(huán)節(jié)上 RL,比如:

  • 用輕量 policy gradient 給檢索到的 chunk 排序(后重排);
  • 訓(xùn)練記憶寫入 / 壓縮 / 折疊工作記憶的策略(Context Folding、Memory-as-Action、MemSearcher、IterResearch 等)。這一類已經(jīng)展示出很強(qiáng)的潛力,RL 很可能會(huì)在未來(lái)記憶系統(tǒng)里扮演更中心角色。

下一階段則更可能是Fully RL-driven memory。它需要滿足兩個(gè)理想特點(diǎn):

1)盡量減少人類先驗(yàn)

目前很多記憶系統(tǒng)借鑒人類認(rèn)知(海馬體 / 皮層類比)、預(yù)設(shè)層級(jí)(episodic/semantic/core),這些抽象對(duì)早期探索很有價(jià)值,但未必是人工智能體在復(fù)雜環(huán)境中的最優(yōu)結(jié)構(gòu)。若進(jìn)入 fully RL-driven,Agent 有機(jī)會(huì)在優(yōu)化驅(qū)動(dòng)下 “發(fā)明” 新的記憶組織形式、存儲(chǔ) schema、更新規(guī)則。

2)讓 Agent 對(duì)全生命周期擁有完整控制

許多 RL 方法只覆蓋 “寫入” 或 “短期折疊”,卻沒(méi)把長(zhǎng)期整合、演化、檢索策略真正統(tǒng)一起來(lái)。論文認(rèn)為,要讓形成 - 演化 - 檢索多粒度協(xié)同運(yùn)轉(zhuǎn),幾乎必然需要端到端 RL,因?yàn)閮H靠啟發(fā)式或提示詞無(wú)法在長(zhǎng)時(shí)域里協(xié)調(diào)這些復(fù)雜交互。

當(dāng)記憶成為可學(xué)習(xí)、可自組織、與 Agent 共進(jìn)化的子系統(tǒng)時(shí),它就不再是外掛,而會(huì)成為長(zhǎng)期能力與持續(xù)學(xué)習(xí)的基礎(chǔ)設(shè)施。

多模態(tài)記憶:缺的不是 “能存圖”,而是 “跨模態(tài)統(tǒng)一語(yǔ)義與時(shí)間”

隨著 Agent 走向具身、交互式環(huán)境,信息來(lái)源天然是多模態(tài)的:視覺(jué)、動(dòng)作、環(huán)境反饋等都會(huì)進(jìn)入記憶系統(tǒng)。未來(lái)真正的難點(diǎn)不是把圖片 / 視頻 “塞進(jìn)庫(kù)”,而是讓記憶支持異質(zhì)信號(hào)的統(tǒng)一存取與推理。當(dāng)前的兩個(gè)關(guān)鍵缺口在于:

  • 目前沒(méi)有真正 “omnimodal” 的記憶系統(tǒng),大多仍是單模態(tài)特化或松耦合;
  • 多模態(tài)記憶需要從被動(dòng)存儲(chǔ)走向支持抽象、跨模態(tài)推理與長(zhǎng)期適應(yīng)。

多智能體共享記憶:從 “各聊各的” 到 “共享認(rèn)知底座”

MAS 的早期范式:每個(gè) agent 有自己的局部記憶,通過(guò)消息傳遞來(lái)協(xié)作。這避免直接干擾,但會(huì)帶來(lái)冗余、上下文割裂、溝通開(kāi)銷爆炸,團(tuán)隊(duì)規(guī)模和任務(wù)時(shí)長(zhǎng)一上來(lái)就撐不住。因此出現(xiàn)中心化共享記憶,其作為團(tuán)隊(duì)共同 ground truth:支持聯(lián)合注意、減少重復(fù)、利于長(zhǎng)程協(xié)作;但也引入新問(wèn)題:記憶污染、寫沖突、缺少基于角色 / 權(quán)限的訪問(wèn)控制。

共享記憶會(huì)從倉(cāng)庫(kù)進(jìn)化為主動(dòng)管理的集體表示,有三條可能的方向:

  • agent-aware shared memory:讀寫與角色、專長(zhǎng)、信任綁定,使聚合更結(jié)構(gòu)化、更可靠;
  • learning-driven management:不靠手工同步 / 總結(jié) / 沖突解決策略,而訓(xùn)練 agent 在長(zhǎng)期團(tuán)隊(duì)收益下決定何時(shí)寫、寫什么、怎么寫;
  • 面向開(kāi)放與多模態(tài)場(chǎng)景,共享記憶需要保持時(shí)間與語(yǔ)義一致性,作者認(rèn)為 latent memory 可能是一條有前景的路徑。

可信記憶:隱私、可解釋與抗幻覺(jué),必須成為 “第一原則”

當(dāng)記憶進(jìn)入長(zhǎng)期、個(gè)性化、跨會(huì)話存儲(chǔ)后,問(wèn)題已經(jīng)不再是傳統(tǒng) RAG 的 “是否會(huì)胡說(shuō)”,而是一個(gè)更大的可信系統(tǒng)工程:因?yàn)?Agent 記憶會(huì)保存用戶偏好、歷史交互、行為痕跡等潛在敏感信息,風(fēng)險(xiǎn)維度從 factuality 擴(kuò)展到隱私、安全、可控與可審計(jì)。

隱私保護(hù):需要更細(xì)粒度的權(quán)限記憶、由用戶主導(dǎo)的保留策略、加密或端側(cè)存儲(chǔ)、必要時(shí)的聯(lián)邦訪問(wèn);并可結(jié)合差分隱私、記憶脫敏 / 刪改、以及可驗(yàn)證的 “遺忘” 機(jī)制(例如衰減式遺忘或用戶擦除接口)來(lái)降低泄露風(fēng)險(xiǎn)。

可解釋性:不僅要看到 “記憶內(nèi)容”,還要能追蹤 “訪問(wèn)路徑”:哪些條目被取了、如何影響生成、是否被誤用;甚至支持反事實(shí)分析(“如果不取這條記憶,會(huì)怎樣”)。論文提出未來(lái)可能需要可視化記憶注意、因果圖、面向用戶的調(diào)試工具等成為標(biāo)配。

抗幻覺(jué)與沖突魯棒性:在沖突檢測(cè)、多文檔推理、不確定性建模上繼續(xù)推進(jìn);包括低置信檢索時(shí)的拒答 / 保守策略、回退到模型先驗(yàn)、或用多智能體交叉核驗(yàn)等。論文還特別提到,機(jī)制可解釋性方法(例如在表示層面定位幻覺(jué)來(lái)源)可能會(huì)成為 “診斷 + 干預(yù)” 的新工具箱。

結(jié)語(yǔ):把 “記憶” 當(dāng)作

智能體的 first-class primitive

通過(guò) Forms/Functions/Dynamics 的統(tǒng)一視角,記憶不再是附屬插件,而是智能體實(shí)現(xiàn)時(shí)間一致性、持續(xù)適應(yīng)與長(zhǎng)程能力的關(guān)鍵基底;未來(lái)隨著 RL 融合、多模態(tài)與多智能體場(chǎng)景興起,以及從檢索中心走向生成式記憶的趨勢(shì),記憶系統(tǒng)將變得更可學(xué)習(xí)、更自組織、更具適應(yīng)性。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
塞爾維亞“倒戈”?從挺俄到援烏,為何轉(zhuǎn)變這么大?

塞爾維亞“倒戈”?從挺俄到援烏,為何轉(zhuǎn)變這么大?

熱點(diǎn)菌本君
2025-11-04 14:19:42
遼寧98-86送北控3連敗,威爾斯31+7,廖三寧9中9空砍22+7

遼寧98-86送北控3連敗,威爾斯31+7,廖三寧9中9空砍22+7

懂球帝
2025-12-22 21:43:19
續(xù)航最高92公里 一周充次電!九號(hào)發(fā)布Fz系列新國(guó)標(biāo)電動(dòng)車發(fā)布:2999元起

續(xù)航最高92公里 一周充次電!九號(hào)發(fā)布Fz系列新國(guó)標(biāo)電動(dòng)車發(fā)布:2999元起

快科技
2025-12-22 20:08:09
中央戲劇學(xué)院郝戎值得關(guān)注,“以首代查”原因曝光,他貪財(cái)又貪色

中央戲劇學(xué)院郝戎值得關(guān)注,“以首代查”原因曝光,他貪財(cái)又貪色

平老師666
2025-12-21 23:37:06
征信系統(tǒng),正在把全社會(huì)逼成"老賴溫床"。

征信系統(tǒng),正在把全社會(huì)逼成"老賴溫床"。

大嘴説
2025-07-23 17:34:48
武則天找人算自己的來(lái)世:投胎轉(zhuǎn)世輪回三次,最后一次她愣住了

武則天找人算自己的來(lái)世:投胎轉(zhuǎn)世輪回三次,最后一次她愣住了

銘記歷史呀
2025-12-21 02:34:49
有人疑發(fā)布涉密場(chǎng)所監(jiān)控視頻,畫面顯示一男子戴著腳鐐,太原警方回應(yīng)

有人疑發(fā)布涉密場(chǎng)所監(jiān)控視頻,畫面顯示一男子戴著腳鐐,太原警方回應(yīng)

揚(yáng)子晚報(bào)
2025-12-22 21:30:42
不丹最美二公主索南:執(zhí)意嫁給平民又離婚,12歲大兒子是轉(zhuǎn)世靈童

不丹最美二公主索南:執(zhí)意嫁給平民又離婚,12歲大兒子是轉(zhuǎn)世靈童

照見(jiàn)古今
2025-12-22 18:28:01
王思聰成功和懶懶分手,回國(guó)的懶懶被曝變賣奢侈品,網(wǎng)友吐槽太貴

王思聰成功和懶懶分手,回國(guó)的懶懶被曝變賣奢侈品,網(wǎng)友吐槽太貴

娛樂(lè)團(tuán)長(zhǎng)
2025-11-16 15:45:42
湘超永州干翻長(zhǎng)沙!美女老板壓力來(lái)了,此前許諾奪冠一人獎(jiǎng)一臺(tái)車

湘超永州干翻長(zhǎng)沙!美女老板壓力來(lái)了,此前許諾奪冠一人獎(jiǎng)一臺(tái)車

火山詩(shī)話
2025-12-22 04:21:52
西部最新排名:馬刺高歌猛進(jìn),森林狼反超火箭,航天城掉至第6

西部最新排名:馬刺高歌猛進(jìn),森林狼反超火箭,航天城掉至第6

熊哥愛(ài)籃球
2025-12-22 22:12:45
李湘前夫李厚霖被刑拘,被抓原因曝光,私生活精彩都是圈內(nèi)女星

李湘前夫李厚霖被刑拘,被抓原因曝光,私生活精彩都是圈內(nèi)女星

攬星河的筆記
2025-12-19 18:24:53
善惡終有報(bào)!張本智和傳出新消息,原來(lái)樊振東早就猜中了他的結(jié)局

善惡終有報(bào)!張本智和傳出新消息,原來(lái)樊振東早就猜中了他的結(jié)局

千言?shī)蕵?lè)記
2025-12-21 22:13:03
官方發(fā)文,高調(diào)官宣56歲王菲喜訊,讓謝霆鋒和整個(gè)娛樂(lè)圈沉默了

官方發(fā)文,高調(diào)官宣56歲王菲喜訊,讓謝霆鋒和整個(gè)娛樂(lè)圈沉默了

古木之草記
2025-12-22 21:45:36
空降的市長(zhǎng)是我爸老部下的兒子,我只是副處長(zhǎng),聚餐時(shí)我主動(dòng)喊大哥

空降的市長(zhǎng)是我爸老部下的兒子,我只是副處長(zhǎng),聚餐時(shí)我主動(dòng)喊大哥

張道陵秘話
2025-12-13 22:30:14
第一部票房居全球影史榜首《阿凡達(dá):火與燼》首周全球票房109億

第一部票房居全球影史榜首《阿凡達(dá):火與燼》首周全球票房109億

開(kāi)心垂釣大熊
2025-12-22 11:46:22
張學(xué)良三個(gè)兒子瘋的瘋,死的死,都以為張家就要絕后,結(jié)局如何?

張學(xué)良三個(gè)兒子瘋的瘋,死的死,都以為張家就要絕后,結(jié)局如何?

古書記史
2025-12-12 11:32:56
投射能力遠(yuǎn)超預(yù)期!后場(chǎng)新秀是籃網(wǎng)幾名首輪秀中表現(xiàn)最好的一位了

投射能力遠(yuǎn)超預(yù)期!后場(chǎng)新秀是籃網(wǎng)幾名首輪秀中表現(xiàn)最好的一位了

稻谷與小麥
2025-12-22 22:48:33
美女這雙筷子腿又高又瘦,白色背心搭灰色瑜伽褲,也太養(yǎng)眼了

美女這雙筷子腿又高又瘦,白色背心搭灰色瑜伽褲,也太養(yǎng)眼了

小喬古裝漢服
2025-12-21 18:12:46
深圳將集中釋放超500個(gè)百萬(wàn)年薪崗位

深圳將集中釋放超500個(gè)百萬(wàn)年薪崗位

第一財(cái)經(jīng)資訊
2025-12-22 15:49:48
2025-12-22 23:15:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11971文章數(shù) 142516關(guān)注度
往期回顧 全部

科技要聞

商湯聯(lián)創(chuàng)親自下場(chǎng) 痛批主流機(jī)器人技術(shù)大錯(cuò)

頭條要聞

韓媒:韓國(guó)四大集團(tuán)掌門人擬明年1月隨團(tuán)訪華

頭條要聞

韓媒:韓國(guó)四大集團(tuán)掌門人擬明年1月隨團(tuán)訪華

體育要聞

戴琳,中國(guó)足球的反向代言人

娛樂(lè)要聞

張柏芝不再隱瞞,三胎生父早有答案?

財(cái)經(jīng)要聞

央行信用新政:為失信者提供"糾錯(cuò)"通道

汽車要聞

可享88元抵2000元等多重權(quán)益 昊鉑A800開(kāi)啟盲訂

態(tài)度原創(chuàng)

房產(chǎn)
本地
藝術(shù)
教育
公開(kāi)課

房產(chǎn)要聞

重磅!海南發(fā)布島內(nèi)居民免稅商品經(jīng)營(yíng)主體及免稅店管理辦法征求意見(jiàn)稿!

本地新聞

云游安徽|走進(jìn)銅陵,照見(jiàn)三千年不滅的爐火

藝術(shù)要聞

萬(wàn)年松樹(shù)開(kāi)花,震驚你的雙眼!

教育要聞

英國(guó)畢業(yè)生收入最低的大學(xué)top3!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版