從上下文到長期記憶：大模型記憶工程的架構(gòu)設(shè)計與實(shí)踐

2026-02-25 15:52:50　來源: InfoQ

北京舉報

分享至

作者｜李志宇博士

編輯｜Kitty

策劃｜QCon 全球軟件開發(fā)大會

隨著大模型在企業(yè)和行業(yè)場景中持續(xù)落地，“記憶”正在成為繼參數(shù)調(diào)優(yōu)和上下文工程之后的下一個工程化核心。短時遺忘、知識碎片化、跨任務(wù)信息無法留存等問題，正在限制大模型的個性化、推理鏈延展與持續(xù)演化能力。

本文整理自記憶張量 CTO 李志宇博士在 2025 年 QCon 全球軟件開發(fā)大會（上海站）的演講分享。志宇博士結(jié)合他多年的研發(fā)與落地實(shí)踐，系統(tǒng)剖析大模型記憶工程的核心技術(shù)：記憶分層管理、多粒度調(diào)度、可信更新與安全治理，并展示這些技術(shù)在金融、工業(yè)、知識管理等業(yè)務(wù)中的應(yīng)用效果。通過對架構(gòu)設(shè)計、實(shí)現(xiàn)細(xì)節(jié)和案例經(jīng)驗(yàn)的講解，幫助開發(fā)者與架構(gòu)師全面理解如何構(gòu)建具備長期留存與動態(tài)調(diào)度能力的“有記憶的 AI”，以及它在未來產(chǎn)業(yè)智能化演進(jìn)中的角色與挑戰(zhàn)。

預(yù)告：將于 4 月 16 - 18 召開的 QCon 北京站設(shè)計了「記憶覺醒：智能體記憶系統(tǒng)的范式重塑與產(chǎn)業(yè)落地」專題，旨在重新定義企業(yè)級記憶系統(tǒng)的未來——聚焦非顯式偏好捕捉、記憶自主演化與生命周期管理等前沿方向，探索其在高端客服、個性化助理、企業(yè)決策等場景的深層價值。如果你也有相關(guān)方向案例想要分享，歡迎提交至

https://jinshuju.com/f/Cu32l5

以下是演講實(shí)錄（經(jīng) InfoQ 進(jìn)行不改變原意的編輯整理）。

大模型性能縮放曲線的演進(jìn)歷史

我們公司名為“記憶張量”，單從名字便可看出，我們聚焦的是“記憶增強(qiáng)”——或者說“記憶優(yōu)化”這一方向。去年十一月剛剛成立，不久前剛完成近億元人民幣的天使輪融資。

之所以選擇“記憶”作為主攻點(diǎn)，根本原因在于我們判斷：在大模型的演進(jìn)史中，記憶將成為與 MCP 工具并列的下一個關(guān)鍵增強(qiáng)維度。2023 年以前，業(yè)界普遍通過擴(kuò)大數(shù)據(jù)規(guī)模、參數(shù)量和訓(xùn)練量來換取性能提升，由此催生了千問、ChatGPT 等代表性范式。進(jìn)入 2024–2025 年，人們逐漸發(fā)現(xiàn)，單純堆參數(shù)與規(guī)模帶來的收益開始遞減，于是轉(zhuǎn)向“后訓(xùn)練”與“推理增強(qiáng)”，DeepSeek-R1 便是這一階段的典型產(chǎn)物。當(dāng)后訓(xùn)練也逼近瓶頸時，Sam Altman 等人開始追問：下一步的突破口究竟在哪里？在 GPT-4 的更新日志里，OpenAI 把“全局記憶”列為令團(tuán)隊“興奮到失眠”的新功能；而在 GPT-5、GPT-6 的路線圖中，“記憶”與“個性化”被反復(fù)提及，被視為大模型面向應(yīng)用場景的核心變量。

從實(shí)踐層面看記憶增強(qiáng)的必要性

若把大模型業(yè)務(wù)服務(wù)做一次抽象，可自下而上劃分為：底層的數(shù)據(jù)庫存儲與基礎(chǔ) AI 引擎；中間的 MCP 增強(qiáng)、知識庫增強(qiáng)；最上層的業(yè)務(wù)邏輯。再將視角切換到單個用戶與大模型的交互流程，就會發(fā)現(xiàn)其中同時存在動態(tài)與靜態(tài)兩類信息。所謂動態(tài)信息，指隨每次查詢而變化的個性化內(nèi)容：用戶臨時貼入的參考材料、在 prompt 里約定的偏好等。查詢一旦發(fā)出，模型先進(jìn)行意圖理解與任務(wù)規(guī)劃，再進(jìn)入信息增強(qiáng)鏈路——MCP 調(diào)用各類動態(tài)工具，并返回執(zhí)行結(jié)果、校驗(yàn)信息、匯總結(jié)果；與此同時，知識庫從預(yù)先處理好的企業(yè)靜態(tài)知識中抽取內(nèi)容，為模型提供補(bǔ)充。最終，響應(yīng)結(jié)果既包含推理過程（think 部分），也包含知識性內(nèi)容，以及用戶對本次回答的點(diǎn)贊或點(diǎn)踩。

若沿著時間軸把記憶類型進(jìn)一步展開，其復(fù)雜度遠(yuǎn)超直覺。假設(shè)我們在第 6 輪對話里需要引用一個月前第 2 輪的內(nèi)容，又在第 5 輪里引用第 1 輪的細(xì)節(jié)，就必須保證用戶在不同場景下都能準(zhǔn)確召回、并同步更新已發(fā)生變化的記憶。再把視角拉遠(yuǎn)：大模型可能在多輪會話、多用戶、多 Agent、多 App 之間穿梭，動態(tài)信息的量級與管理難度呈指數(shù)級上升。因此，我們希望在開發(fā)層面屏蔽這些復(fù)雜性，讓應(yīng)用開發(fā)者無需深陷動態(tài)信息的泥沼，從而顯著降低落地成本。

大模型記憶增強(qiáng)層的實(shí)現(xiàn)路徑

順著這一思路，我們把大語言模型、Agent、業(yè)務(wù)流程與用戶之間抽象出一個“記憶操作層”。要實(shí)現(xiàn)記憶增強(qiáng)，業(yè)界目前大致有兩條路徑。

第一條是模型增強(qiáng)范式：從模型架構(gòu)與訓(xùn)練范式本身入手，讓訓(xùn)練后的模型對記憶具備更強(qiáng)的理解與編排能力。我們團(tuán)隊早期便嘗試以記憶分層的方式建模，以提升記憶管理與喚起的效率；近期，字節(jié)跳動等機(jī)構(gòu)也嘗試?yán)脧?qiáng)化學(xué)習(xí)來優(yōu)化記憶使用范式，重點(diǎn)解決短期記憶與長期記憶的協(xié)同問題。這一路線可稱為“基模驅(qū)動”的記憶優(yōu)化。

第二條則是面向應(yīng)用層的工程實(shí)踐：在不動基座模型的前提下，通過通用大模型、提示工程（prompt engineering）與 Agent 工作流來模擬人類對記憶的管理過程。早期項(xiàng)目如 MemGPT、Mem0、Zep 等開源框架均循此思路；近期 Memories.AI 更進(jìn)一步，從多模態(tài)記憶角度拓展了記憶管理框架。除這些偏開源或商業(yè)化的團(tuán)隊外，也有不少學(xué)術(shù)團(tuán)隊圍繞記憶工程中的單點(diǎn)創(chuàng)新提出獨(dú)立方案。

若將兩條路線并置比較，二者幾乎處于對立的兩極。以基模為核心的方案，研發(fā)周期長、投入高；然而一旦在模型層面把記憶問題真正吃透，其性能天花板也最高，后續(xù)擴(kuò)展幾乎沒有硬約束。反之，純應(yīng)用層的做法可在極短時間內(nèi)搭出第一版記憶系統(tǒng)，且橫向擴(kuò)展靈活；但依賴通用基座模型與提示工程，往往很快觸到性能瓶頸——從 85% 再往上走到 90%、95%，每一步都異常艱難。

在我們看來，真正可行的路線是把“基模驅(qū)動”與“應(yīng)用驅(qū)動”融合為一。具體做法是：在系統(tǒng)關(guān)鍵節(jié)點(diǎn)訓(xùn)練一系列面向記憶操作與記憶理解的小型專用模型，同時保留一套能力更強(qiáng)的主模型來執(zhí)行整體記憶編排。這樣，開發(fā)者無需深陷復(fù)雜的編排與理解細(xì)節(jié)，成本被大幅壓縮。一句話概括：模型決定上限，應(yīng)用夯實(shí)下限。我們堅持由模型驅(qū)動去攻克原創(chuàng)理論與核心算法，確保開源框架隨版本迭代持續(xù)抬升性能天花板；同時，團(tuán)隊里既有來自高校的理論研究者，也有曾任職阿里巴巴、美團(tuán)的應(yīng)用算法工程師，因此在設(shè)計整套系統(tǒng)時，我們同樣關(guān)注業(yè)務(wù)適配性與通用性，力求讓前沿成果能夠平滑落地到真實(shí)場景。

記憶增強(qiáng)層落地需要做什么？

若要把記憶管理系統(tǒng)真正搭建并持續(xù)優(yōu)化，從系統(tǒng)到算法層面，需要攻克的環(huán)節(jié)遠(yuǎn)比表面看起來繁復(fù)。首先，記憶一旦進(jìn)入系統(tǒng)，就要完成抽取、組織與檢索三步閉環(huán)：抽取必須精準(zhǔn)，組織必須高效，檢索則要在極低冗余與極高精準(zhǔn)之間取得平衡。緊接著，當(dāng)信息動態(tài)更新時，必須確保用戶曾提及的實(shí)體與細(xì)節(jié)被準(zhǔn)確刷新，版本歷史被完整保留，而檢索時又能即時返回最新狀態(tài)。最后，記憶還要在多方之間順暢共享——不僅跨會話、跨 Agent，也跨企業(yè)組織內(nèi)的不同用戶。

這些環(huán)節(jié)里，有些難題僅靠通用模型幾乎無解。以記憶抽取為例，通用模型常出現(xiàn)幻覺，既可能捏造事實(shí)，也可能把 A 用戶的記憶錯放到 B 用戶名下；而在記憶更新階段，幻覺同樣高發(fā)，稍不留神就會讓舊版本與新版本混為一談。因此，我們必須引入更精細(xì)的機(jī)制，才能在這些關(guān)鍵節(jié)點(diǎn)上守住準(zhǔn)確性與一致性。

MemOS 的核心設(shè)計思路

既然我們給自己定的目標(biāo)是打造一套“記憶操作系統(tǒng)”，至少也得是 Tiny-OS 級別，那就必須像傳統(tǒng)操作系統(tǒng)那樣，把整體框架拆成清晰的分層。從硬件到內(nèi)核再到應(yīng)用，每一層都對應(yīng)記憶場景里的關(guān)鍵問題：

最底層相當(dāng)于“存儲硬件”，要解決的是記憶如何被高效共享與持久化；
中間的內(nèi)核層，必須保證全局記憶的讀寫效率足夠高；
最上面的應(yīng)用層，則要把復(fù)雜的記憶操作流程對開發(fā)者完全屏蔽，讓他們用起來足夠順滑。

順著這個思路，我們設(shè)計了五層記憶管理框架：存儲、治理、調(diào)度、應(yīng)用、解碼。其中，治理層與調(diào)度層是市面上現(xiàn)有框架極少單獨(dú)拆出的兩層。很多人會把記憶直接塞進(jìn)向量庫或圖數(shù)據(jù)庫，我們卻堅持為記憶量身定制存儲層——因?yàn)槲覀兿嘈?，?dāng)大模型能力繼續(xù)躍升、終端入口趨于統(tǒng)一后，傳統(tǒng)帶 GUI 的 App 形態(tài)會逐步消失。

不妨以“時間管理”為例：今天我們要先下載一個時間管理 App，再手動錄入日程；稍智能的軟件能幫我們排期并提醒。但在不遠(yuǎn)的將來，人們可能不再下載 App，而是直接獲取一個“時間管理記憶體”。這個記憶體已經(jīng)把時間管理所需的推理邏輯與細(xì)節(jié)知識打包完畢，安裝到本地通用模型后，兩者聯(lián)合推理即可從對話里自動抽取時間要素、生成排程，效率遠(yuǎn)高于通用模型本身。

因此，我們把“記憶體”定義為可獨(dú)立打包、下載、安裝的最小單元，既可以是個人經(jīng)驗(yàn)資產(chǎn)，也可以是企業(yè)知識沉淀的載體。明年年中，我們將上線“記憶交易市場”，思路類似今天的 App Store：開發(fā)者用我們提供的 SDK 把企業(yè)知識封裝成記憶體并上架；終端用戶按需下載安裝，即可在“最后一公里”顯著提升業(yè)務(wù)效能。

MemOS 的系統(tǒng)框架

既然記憶已被視作個人最核心的經(jīng)驗(yàn)資產(chǎn)，治理就必須在一開始就被提到最高優(yōu)先級。在即將發(fā)布的 1.0 版本中，我們把記憶全生命周期管理、幻覺評估框架、水印、權(quán)限與隱私控制全部內(nèi)建，力求讓每一份記憶資產(chǎn)從誕生起就保持穩(wěn)健與可信。

再往上是調(diào)度層。之所以單獨(dú)設(shè)立“記憶調(diào)度”，是因?yàn)槲覀儓猿钟洃洷仨毞謱庸芾怼@直接源于 2023 年 11 月啟動的記憶分層基座模型研究。從建模角度看，明文記憶、激活記憶與參數(shù)化記憶在讀寫效率上差異顯著：明文記憶只需改寫文本即可瞬間入庫；參數(shù)化記憶則依賴?yán)^續(xù)訓(xùn)練或后訓(xùn)練，寫入成本極高，但讀取極快；激活記憶介于兩者之間，讀寫相對均衡?；谶@一分層，我們按使用場景與訪問頻率動態(tài)建模，確保全局讀寫效率、時效性與首 token 時延同時最優(yōu)。

為支撐這套調(diào)度框架，我們配套實(shí)現(xiàn)了消息隊列、動態(tài)埋點(diǎn)與主動預(yù)測算法，使系統(tǒng)始終面向 memory-ready 狀態(tài)：用戶隨時提問，背后的 Memory Cube 都已處于最佳形態(tài)，時延被壓到最低。

最上層是 MemOS 開源框架與服務(wù)平臺。對外我們提供兩類標(biāo)準(zhǔn)服務(wù)：

記憶即服務(wù)（Memory-as-a-Service）：接收 Query 后，返回回答該 Query 最相關(guān)的記憶片段；
記憶 + 推理即服務(wù)（Memory+Inference-as-a-Service）：在底層完成推理，用戶只需指定模型，系統(tǒng)即返回融合記憶后的完整答案。

以上便是 MemOS 1.0 的整體設(shè)計現(xiàn)狀。

Memos 的核心機(jī)制一：記憶分層建模

圍繞當(dāng)前框架，我想分享三點(diǎn)在實(shí)踐中被反復(fù)驗(yàn)證、值得特別注意的經(jīng)驗(yàn)：記憶分層、記憶調(diào)度，以及記憶腦圖的信息組織方式。它們共同構(gòu)成了我們整套系統(tǒng)的核心設(shè)計思想。

首先是記憶分層。自 2023 年 11 月我們啟動記憶分層大模型研究以來，業(yè)界雖頻繁提及“分層”，但多數(shù)仍停留在“長期 / 短期”或“明文工作記憶”這類粗粒度劃分。我們認(rèn)為，從基礎(chǔ)模型理論出發(fā)，記憶應(yīng)被系統(tǒng)性地劃分為參數(shù)化記憶、激活記憶與明文記憶，而明文記憶內(nèi)部還可進(jìn)一步細(xì)分。之所以必須如此，根源在于人腦的記憶形成機(jī)制。

人腦首先接受感官刺激——聽覺、視覺、觸覺等。只有“重復(fù)且有效”的刺激才會留下痕跡。所謂“有效”，是指該刺激與當(dāng)前任務(wù)或興趣高度相關(guān)。例如，普通人對路邊落葉視而不見，環(huán)衛(wèi)工人卻會敏銳捕捉。若所有信息無差別入庫，大腦將因容量有限而崩潰。

被篩選出的信息先進(jìn)入短期記憶。短期記憶自帶遺忘機(jī)制；若再經(jīng)重復(fù)刺激，便沉淀為長期記憶。長期記憶又分兩類：外顯記憶——可被語言提取，如“昨晚看過的電影情節(jié)”；內(nèi)隱記憶——通過行為表現(xiàn)，如程序員盲打鍵盤的指法。長期記憶若長期不被調(diào)用，也會被主動遺忘，以維持系統(tǒng)效率。

人腦這套“刺激—篩選—鞏固—遺忘—再學(xué)習(xí)”的閉環(huán)，為我們設(shè)計記憶系統(tǒng)提供了完整范式：刺激階段對應(yīng)“選擇性寫入”，降低冗余；短期記憶對應(yīng)“激活記憶”，追求讀寫速度；長期外顯記憶對應(yīng)“明文記憶”，便于檢索與共享；長期內(nèi)隱記憶對應(yīng)“參數(shù)化記憶”，通過繼續(xù)訓(xùn)練微調(diào)，讀取快、寫入慢；遺忘與再學(xué)習(xí)機(jī)制則對應(yīng)“動態(tài)調(diào)度與回收”，確保全局性能最優(yōu)。

圍繞當(dāng)前記憶系統(tǒng)設(shè)計的實(shí)踐，我想分享三點(diǎn)體會，它們共同構(gòu)成了我們框架設(shè)計的核心考量：記憶分層的必要性、記憶調(diào)度的技術(shù)原理，以及“記憶腦圖”這一組織方式的獨(dú)特價值。

記憶分層絕非簡單地把信息劃分為“長期”與“短期”，或套用認(rèn)知心理學(xué)中 working memory 的概念。從大語言模型的理論視角出發(fā)，記憶應(yīng)當(dāng)被系統(tǒng)地拆分為三層：參數(shù)化記憶（模型權(quán)重）、激活記憶（推理過程中的中間狀態(tài)）與明文記憶（可顯式讀取的外部存儲）。其中明文記憶又可進(jìn)一步細(xì)分為外顯與內(nèi)隱兩類，這一劃分直接對應(yīng)人腦的記憶形成機(jī)制。

人腦的記憶始于感官刺激。視覺、聽覺、觸覺等信號若要在神經(jīng)層面留下痕跡，必須滿足“重復(fù)且有效”的條件：重復(fù)保證突觸可塑性的持續(xù)強(qiáng)化，有效則意味著刺激需與個體目標(biāo)或情感顯著相關(guān)。以日常場景為例，路人往往忽略腳邊落葉，而環(huán)衛(wèi)工人因職責(zé)所在，會反復(fù)接收并處理同一類視覺信號，落葉遂成為其短期記憶的一部分。若此類信息未經(jīng)篩選地全部入庫，有限的腦容量將迅速耗盡；因此人腦在編碼階段即執(zhí)行嚴(yán)格的過濾。

短期記憶并非終點(diǎn)。它自帶遺忘曲線，只有通過再次復(fù)述或情境復(fù)現(xiàn)，才能被鞏固為長期記憶。長期記憶又可區(qū)分為外顯與內(nèi)隱：前者可被語言化，如“昨日觀影內(nèi)容”；后者則表現(xiàn)為程序性技能，如程序員對鍵盤鍵位的肌肉記憶。值得注意的是，長期記憶亦遵循“用進(jìn)廢退”原則——久未調(diào)用的記憶會被主動遺忘，以維持檢索效率。

借鑒人腦的這一套機(jī)制，我們便會發(fā)現(xiàn)其中有許多值得汲取的要點(diǎn)：長期記憶中的遺忘機(jī)制、學(xué)習(xí)與進(jìn)化機(jī)制，短期記憶在效率上的優(yōu)勢，以及刺激階段選擇性過濾所帶來的功耗優(yōu)勢，皆可為我們構(gòu)建記憶分層與記憶管理系統(tǒng)提供直接啟示。

基于上述啟發(fā)，我們在 2024 年 7 月發(fā)布了首個分層架構(gòu)的大模型。其核心理念是把 Transformer 中的參數(shù)化記憶拆分為抽象知識與具體知識，并進(jìn)一步把其中可分離的部分抽離出來，使模型主干盡可能輕量化。主干只需保留最關(guān)鍵的推理能力，其余具體知識則交由外部存儲管理。據(jù)此，我們將記憶劃分為隱性記憶、顯性記憶與外部記憶三類，通過分層降低推理與記憶負(fù)載。

若將三類記憶映射到人類行為，隱性記憶如同騎自行車——一旦學(xué)會便不再需要刻意思考；顯性記憶則像昨日讀過的書或課堂筆記，經(jīng)大腦加工后隨時調(diào)用；外部記憶則類似開卷考試，學(xué)生可現(xiàn)場翻閱教材，按需檢索。

寫入方式亦各有特征：隱性記憶通過訓(xùn)練固化于模型參數(shù)；顯性記憶以 KV Cache 形式緩存；外部記憶即明文知識庫，按常規(guī)檢索邏輯維護(hù)。讀取時，隱性記憶支持即時推理；顯性記憶依賴 Self-Attention 交叉計算；外部記憶則需重新編碼。綜合來看，隱性記憶更新慢、讀取快；外部記憶容量大、存儲效率高，但聯(lián)合解碼耗時；顯性記憶更新靈活，既可隨時丟棄，也可常駐顯存，讀寫速度居中。

記憶調(diào)度的本質(zhì)，是把上述三種記憶各自的優(yōu)勢真正用起來。在 MemOS 的設(shè)計里，我首先把參數(shù)化記憶拆成兩塊：一塊是“內(nèi)置參數(shù)記憶”，即模型出廠時便固化的權(quán)重；另一塊是“外置參數(shù)記憶”，它隨著用戶或 Agent 與大模型的持續(xù)交互而動態(tài)生長——系統(tǒng)會挑選那些反復(fù)出現(xiàn)、對任務(wù)至關(guān)重要的偏好、事實(shí)與推理模式，以低秩更新或增量訓(xùn)練的方式寫進(jìn)這一區(qū)域。場景一變，外置參數(shù)記憶也隨之調(diào)整，始終保持與當(dāng)前任務(wù)高度相關(guān)。

顯性記憶則體現(xiàn)為推理過程中產(chǎn)生的高速 KV Cache。我會把它暫存在顯存或高速緩存區(qū)，并在下一次同類任務(wù)到來前，預(yù)判是否需要提前加載到 GPU，避免冷啟動帶來的延遲。至于外部記憶，我進(jìn)一步把它細(xì)分為短期明文記憶與長期明文記憶：前者存放最近幾輪對話或臨時參考文檔，后者則像一座可隨時間沉淀的知識庫，按需召回。

整個記憶管理機(jī)制就落在對這五類記憶——內(nèi)置參數(shù)、外置參數(shù)、顯性 KV Cache、短期明文、長期明文——的靈活調(diào)度上。若把記憶系統(tǒng)的全生命周期比作八顆星的工作量，傳統(tǒng) RAG 往往把六顆星都花在“使用”環(huán)節(jié)：幻覺校驗(yàn)、主體一致性檢查、權(quán)限驗(yàn)證……而構(gòu)建與調(diào)度環(huán)節(jié)卻相對單薄，無非是切片、 Embedding，再復(fù)雜一點(diǎn)便是 GraphRAG?？梢坏┌?GraphRAG 真正部署到生產(chǎn)環(huán)境，就會發(fā)現(xiàn)它的成本與延遲都高得難以接受。

我們的思路恰恰相反：把盡可能多的工作量前置到構(gòu)建與調(diào)度階段。構(gòu)建時，針對不同記憶類型做類腦式的組織與抽取，采用“圖 + 向量”的多路混合存儲，既保留語義關(guān)系，又兼顧檢索效率；調(diào)度時，則引入主動預(yù)測模型，讓所需記憶在任務(wù)到達(dá)前就已處于“就緒”狀態(tài)。如此，開發(fā)者在真正使用這套系統(tǒng)時，只需關(guān)心業(yè)務(wù)邏輯，無需再為記憶管理付出額外成本。

MemOS 的核心機(jī)制二：記憶調(diào)度管理

我們整套機(jī)制的核心，是把“調(diào)度”做到極致。調(diào)度究竟意味著什么？一句話概括：在最恰當(dāng)?shù)臅r刻，把最匹配的記憶放到最恰當(dāng)?shù)奈恢谩＿@三個“最恰當(dāng)”聽起來簡單，實(shí)則每一步都隱藏著大量算法與工程細(xì)節(jié)。

當(dāng)前主流 RAG 的增強(qiáng)范式，在我看來屬于“被動式檢索”。它的典型流程是：用戶輸入查詢 → 系統(tǒng)重寫查詢 → 生成嵌入 → 向量庫召回 → 粗排 → 精排 → 構(gòu)造提示 → 交由大模型作答。整個鏈路呈“阻斷式”。后續(xù)上下文構(gòu)造與模型回答必須等待檢索全部完成后才能繼續(xù)。為了提升精度，我們常常把檢索方案從 Pro 升級到 Ultra，每次升級又額外增加兩秒延遲。若業(yè)務(wù)硬性要求兩秒內(nèi)返回結(jié)果，這套阻斷式流程便幾乎無法兼顧精度與速度。更棘手的是，隨著對話窗口拉長，上下文 Token 不斷累積，成本呈指數(shù)級上升；跨會話、跨天的推理結(jié)果也難以復(fù)用，導(dǎo)致碎片化與浪費(fèi)。

若把 Agent 或用戶在真實(shí)場景中的時間線拆開，可發(fā)現(xiàn)大量“空檔”：用戶敲鍵盤輸入、模型推理、用戶閱讀答案、再次輸入……這些碎片時間加起來往往遠(yuǎn)超兩秒。與其讓它們白白流逝，不如化整為零，把記憶管理、調(diào)度與預(yù)熱工作嵌入每一個空隙。屆時，當(dāng)真正需要構(gòu)造上下文時，所需數(shù)據(jù)已提前就位，只需極短時間即可完成拼接。無論對系統(tǒng)延遲還是用戶體驗(yàn)，提升都立竿見影。

我們把最小記憶單元稱為 Memory Cube。借助它，可在用戶輸入、模型推理、答案閱讀乃至下一輪輸入等任意階段與記憶系統(tǒng)交互，持續(xù)把后續(xù)可能用到的內(nèi)容提前準(zhǔn)備到“就緒”狀態(tài)。如此，當(dāng)查詢真正到來時，上下文已靜靜等候，只需一次輕量調(diào)用即可交付。

若把記憶調(diào)度抽象來看，它由三類核心容器構(gòu)成：觸發(fā)器、調(diào)度器與快速檢索器。觸發(fā)器允許開發(fā)者依據(jù)自身業(yè)務(wù)靈活配置觸發(fā)點(diǎn)——當(dāng)用戶鍵入查詢、點(diǎn)擊設(shè)置列表，或任何其他關(guān)鍵動作發(fā)生時，皆可即時喚起記憶調(diào)度。調(diào)度器則接收觸發(fā)器傳來的信號與模板化配置，對隱性、顯性與外部記憶分別執(zhí)行差異化處置，確保在真正需要時，所需記憶已處于最佳狀態(tài)。

快速檢索器并非必需，可視場景取舍。由于記憶準(zhǔn)備已轉(zhuǎn)為全時、異步、并行流程，檢索耗時可從原來的數(shù)秒壓縮至百毫秒級，僅需在最后一刻快速補(bǔ)入最新片段即可。由此，我們將傳統(tǒng)單輪、阻斷式的 RAG 記憶準(zhǔn)備，拆分為跨多輪、可并行異步執(zhí)行的細(xì)粒度過程。

欲將記憶調(diào)度系統(tǒng)打磨成熟，至少需在以下層面著力：觸發(fā)觸點(diǎn)建模、負(fù)載均衡、明文與激活記憶的分級調(diào)度。觸點(diǎn)建模尤其依賴對用戶與系統(tǒng)行為的主動預(yù)測——通過一系列輕量級預(yù)測模型，實(shí)時捕捉行為變化，并據(jù)此將調(diào)度模板路由至恰當(dāng)節(jié)點(diǎn)。

MemOS 的核心機(jī)制三：記憶腦圖組織與檢索

當(dāng)記憶分層與調(diào)度都已就緒，我仍需回到起點(diǎn)，重新審視“記憶被抽取之后，究竟應(yīng)以何種形態(tài)組織”。組織方式直接決定后續(xù)檢索成本、準(zhǔn)確率與效率。業(yè)界目前可見兩條路徑：一是直接分塊，簡單高效，卻易割裂文本間的語義關(guān)聯(lián)；二是 GraphRAG，試圖以知識圖譜保留關(guān)系，但構(gòu)建高精度圖譜對實(shí)體一致性要求極高，成本令人望而卻步。我曾在阿里巴巴業(yè)務(wù)中臺負(fù)責(zé)商品知識圖譜，六十余人歷時三四年持續(xù)打磨，仍深感其復(fù)雜與脆弱。即便引入大模型輔助，圖譜的可靠性與可用性依舊難以令人滿意。

反觀人類自身，我們并不會在聽完一場講座或讀完一本書后，立刻鋪開一張大紙繪制知識圖譜；更自然的做法是勾勒一張腦圖——提取事件與邏輯的脈絡(luò)，形成樹狀框架。腦圖恰好介于“分塊”與“圖譜”之間：既利用大模型的推理與理解能力，又將構(gòu)建成本控制在可接受范圍。

然而，僅有腦圖還不夠。我更想強(qiáng)調(diào)的是“主動記憶”——與被動分塊或靜態(tài)圖譜不同，它要求系統(tǒng)像領(lǐng)域?qū)＜乙粯?，只抽取對?dāng)前場景真正有價值的信息。以金融行業(yè)為例，金融專家閱讀同一份研報時，會自覺過濾通識內(nèi)容，僅保留差異化、可復(fù)用的要點(diǎn)。為此，我們引入記憶的 CoT（Chain of Memory）過程：先分析對話或文檔的主題與特征，再據(jù)此決定抽取策略，使轉(zhuǎn)換效率最大化。

獲得初版記憶腦圖后，還需二次關(guān)聯(lián)與校驗(yàn)：跨會話補(bǔ)全上下文、跨文檔建立路由節(jié)點(diǎn)，最終形成由根節(jié)點(diǎn)（Root Node）與主題節(jié)點(diǎn)（Topic Node）構(gòu)成的網(wǎng)絡(luò)。在此網(wǎng)絡(luò)中，我們?yōu)殛P(guān)鍵路徑與節(jié)點(diǎn)預(yù)計算嵌入向量，實(shí)現(xiàn)“圖 + 向量”的混合檢索——既保留靈活性，又確保召回的準(zhǔn)確與全面。

MemOS 的整體性能表現(xiàn)

我們也把整套框架與主流開源方案在 LoCoMo 和 LongMemEval 兩個數(shù)據(jù)集上做了橫向性能比較。然而我更想指出的是，現(xiàn)有評估體系尚難真實(shí)還原記憶框架在業(yè)務(wù)場景中的價值。多數(shù)評測把一百輪對話一次性塞進(jìn)模型，僅測試基座對長上下文的處理能力，卻忽略了記憶是在逐輪交互中緩慢生長的現(xiàn)實(shí)；用戶鍵入查詢、模型推理、閱讀答案均耗時，若不在評估中模擬這些空隙，便無法體現(xiàn)記憶管理系統(tǒng)在真實(shí)環(huán)境中的優(yōu)勢。

MemOS 的開源框架與
OpenMem 社區(qū)

今年 7 月底，我們開源了 MemOS Preview，并發(fā)起國內(nèi)首個聚焦記憶管理的開源社區(qū) OpenMem，邀請高校研究團(tuán)隊與工業(yè)界伙伴共同探討記憶技術(shù)的演進(jìn)方向，沉淀通用標(biāo)準(zhǔn)與協(xié)議。開發(fā)者社區(qū)保持完全開放，API 服務(wù)框架已發(fā)布第一版，第二版將于 10 月 31 日上線，未來一年對所有調(diào)用量級與性能需求均免費(fèi)，涵蓋“記憶即服務(wù)”與“推理即服務(wù)”。同時提供可私有化部署的版本，滿足高安全場景需求。

MemOS 的典型應(yīng)用場景

之所以打造 MemOS，源于團(tuán)隊自 2023 年成立至今在 ToB 項(xiàng)目中的切身體會。無論是智能投顧還是工業(yè)運(yùn)維，客戶對個性化記憶的訴求高度一致：希望把員工與 AI 中樞交互產(chǎn)生的公共經(jīng)驗(yàn)固化下來。在工業(yè)現(xiàn)場，若資深技師退休且未帶徒，其調(diào)試經(jīng)驗(yàn)往往隨人散失；企業(yè)期待記憶平臺能留存“為何把參數(shù)設(shè)為 5%”這類過程信息，而非僅記錄結(jié)果。開源后，已有開發(fā)者將 MemOS 應(yīng)用于酒店商戶服務(wù)、科研助手等場景，顯著提升了人工反饋準(zhǔn)確率與個性化服務(wù)水平。

One More Thing

既然我們自視為“記憶操作系統(tǒng)”，就不能只停留在基座訓(xùn)練與中間件層面；操作系統(tǒng)必須擁有自己的語言。換句話說，當(dāng)用戶以自然語言與系統(tǒng)交互時，如何以最高效率完成編排，是成敗關(guān)鍵。

設(shè)想一句看似簡單的請求：“請幫我記錄昨天與某人的會議內(nèi)容，并在后天提醒我撰寫技術(shù)報告?！逼浔澈箅[含多個基礎(chǔ)算子：先檢索日程，抑或先更新用戶畫像？是否需要重寫、摘要，還是直接擴(kuò)展？過去，這些邏輯由算法工程師硬編碼，導(dǎo)致大量邊界情況難以覆蓋。因此，我們正在構(gòu)建一套自動化編排語言框架，讓任意自然語言輸入都能被實(shí)時解析為系統(tǒng)可執(zhí)行的操作序列，顯著降低開發(fā)者接入成本。

最后，以公司 Slogan 作結(jié)：智能始于記憶，張量鏈接未來。謝謝大家。

演講嘉賓介紹

李志宇，博士，記憶張量（上海）科技有限公司聯(lián)合創(chuàng)始人兼 CTO、上海算法創(chuàng)新研究院大模型中心技術(shù)負(fù)責(zé)人、研究員。長期從事預(yù)訓(xùn)練和大模型應(yīng)用方向的研發(fā)技術(shù)攻關(guān)，主要研究方向包括大模型記憶增強(qiáng)、高效評估與應(yīng)用算法。曾在阿里巴巴、小紅書等頭部科技企業(yè)帶隊承擔(dān)多個核心算法方向，技術(shù)成果服務(wù)于商品評價、雙十一大促、營銷廣告等超大規(guī)模業(yè)務(wù)場景，累計帶來數(shù)十億營收，影響用戶近億人次，并獲得雙十一技術(shù)突破獎。近年來，先后和團(tuán)隊提出了首個記憶分層的創(chuàng)新架構(gòu)大模型，以及業(yè)內(nèi)業(yè)內(nèi)首個大模型記憶操作系統(tǒng)（MemOS），MemOS 開源 6 個月累計獲得 Star 數(shù)超 5800+，開發(fā)者數(shù)超 11000+，為大模型的記憶增強(qiáng)落地提供了可行的探索路徑。相關(guān)大模型技術(shù)成果已在中國銀行、招商證券、中國電信、新華社等多家國央企落地應(yīng)用。當(dāng)前已在 Patterns（Cell Press）、NeurIPS、ICLR、ACL 和 TKDE 等國際會議期刊發(fā)表論文 70 余篇、授權(quán)專利 10 余項(xiàng)?，F(xiàn)任中國中文信息學(xué)會信息檢索專委會委員、大模型與生成專委會委員，相關(guān)研究工作入選《麻省理工科技評論》封面報道、《機(jī)器之心》、《量子位》和《PaperWeekly》的頭條報道，并多次登頂 Huggingface 熱點(diǎn)論文 Top1。

會議推薦

2026，AI 正在以更工程化的方式深度融入軟件生產(chǎn)，Agentic AI 的探索也將從局部試點(diǎn)邁向體系化工程建設(shè)！

QCon 北京 2026 已正式啟動，本屆大會以“Agentic AI 時代的軟件工程重塑”為核心主線，推動技術(shù)探索從「AI For What」真正落地到可持續(xù)的「Value From AI」。從前沿技術(shù)雷達(dá)、架構(gòu)設(shè)計與數(shù)據(jù)底座、效能與成本、產(chǎn)品與交互、可信落地、研發(fā)組織進(jìn)化六大維度，系統(tǒng)性展開深度探索。開往 2026 的 Agentic AI 專列即將啟程！匯聚頂尖專家實(shí)戰(zhàn)分享，把 AI 能力一次夯到位！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.