国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從上下文到長期記憶:大模型記憶工程的架構(gòu)設(shè)計與實(shí)踐

0
分享至


作者|李志宇 博士

編輯|Kitty

策劃|QCon 全球軟件開發(fā)大會

隨著大模型在企業(yè)和行業(yè)場景中持續(xù)落地,“記憶”正在成為繼參數(shù)調(diào)優(yōu)和上下文工程之后的下一個工程化核心。短時遺忘、知識碎片化、跨任務(wù)信息無法留存等問題,正在限制大模型的個性化、推理鏈延展與持續(xù)演化能力。

本文整理自記憶張量 CTO 李志宇博士在 2025 年 QCon 全球軟件開發(fā)大會(上海站)的演講分享。志宇博士結(jié)合他多年的研發(fā)與落地實(shí)踐,系統(tǒng)剖析大模型記憶工程的核心技術(shù):記憶分層管理、多粒度調(diào)度、可信更新與安全治理,并展示這些技術(shù)在金融、工業(yè)、知識管理等業(yè)務(wù)中的應(yīng)用效果。通過對架構(gòu)設(shè)計、實(shí)現(xiàn)細(xì)節(jié)和案例經(jīng)驗(yàn)的講解,幫助開發(fā)者與架構(gòu)師全面理解如何構(gòu)建具備長期留存與動態(tài)調(diào)度能力的“有記憶的 AI”,以及它在未來產(chǎn)業(yè)智能化演進(jìn)中的角色與挑戰(zhàn)。

預(yù)告:將于 4 月 16 - 18 召開的 QCon 北京站設(shè)計了「記憶覺醒:智能體記憶系統(tǒng)的范式重塑與產(chǎn)業(yè)落地」專題,旨在重新定義企業(yè)級記憶系統(tǒng)的未來——聚焦非顯式偏好捕捉、記憶自主演化與生命周期管理等前沿方向,探索其在高端客服、個性化助理、企業(yè)決策等場景的深層價值。如果你也有相關(guān)方向案例想要分享,歡迎提交至

https://jinshuju.com/f/Cu32l5

以下是演講實(shí)錄(經(jīng) InfoQ 進(jìn)行不改變原意的編輯整理)。

大模型性能縮放曲線的演進(jìn)歷史

我們公司名為“記憶張量”,單從名字便可看出,我們聚焦的是“記憶增強(qiáng)”——或者說“記憶優(yōu)化”這一方向。去年十一月剛剛成立,不久前剛完成近億元人民幣的天使輪融資。


之所以選擇“記憶”作為主攻點(diǎn),根本原因在于我們判斷:在大模型的演進(jìn)史中,記憶將成為與 MCP 工具并列的下一個關(guān)鍵增強(qiáng)維度。2023 年以前,業(yè)界普遍通過擴(kuò)大數(shù)據(jù)規(guī)模、參數(shù)量和訓(xùn)練量來換取性能提升,由此催生了千問、ChatGPT 等代表性范式。進(jìn)入 2024–2025 年,人們逐漸發(fā)現(xiàn),單純堆參數(shù)與規(guī)模帶來的收益開始遞減,于是轉(zhuǎn)向“后訓(xùn)練”與“推理增強(qiáng)”,DeepSeek-R1 便是這一階段的典型產(chǎn)物。當(dāng)后訓(xùn)練也逼近瓶頸時,Sam Altman 等人開始追問:下一步的突破口究竟在哪里?在 GPT-4 的更新日志里,OpenAI 把“全局記憶”列為令團(tuán)隊“興奮到失眠”的新功能;而在 GPT-5、GPT-6 的路線圖中,“記憶”與“個性化”被反復(fù)提及,被視為大模型面向應(yīng)用場景的核心變量。

從實(shí)踐層面看記憶增強(qiáng)的必要性

若把大模型業(yè)務(wù)服務(wù)做一次抽象,可自下而上劃分為:底層的數(shù)據(jù)庫存儲與基礎(chǔ) AI 引擎;中間的 MCP 增強(qiáng)、知識庫增強(qiáng);最上層的業(yè)務(wù)邏輯。再將視角切換到單個用戶與大模型的交互流程,就會發(fā)現(xiàn)其中同時存在動態(tài)與靜態(tài)兩類信息。所謂動態(tài)信息,指隨每次查詢而變化的個性化內(nèi)容:用戶臨時貼入的參考材料、在 prompt 里約定的偏好等。查詢一旦發(fā)出,模型先進(jìn)行意圖理解與任務(wù)規(guī)劃,再進(jìn)入信息增強(qiáng)鏈路——MCP 調(diào)用各類動態(tài)工具,并返回執(zhí)行結(jié)果、校驗(yàn)信息、匯總結(jié)果;與此同時,知識庫從預(yù)先處理好的企業(yè)靜態(tài)知識中抽取內(nèi)容,為模型提供補(bǔ)充。最終,響應(yīng)結(jié)果既包含推理過程(think 部分),也包含知識性內(nèi)容,以及用戶對本次回答的點(diǎn)贊或點(diǎn)踩。


若沿著時間軸把記憶類型進(jìn)一步展開,其復(fù)雜度遠(yuǎn)超直覺。假設(shè)我們在第 6 輪對話里需要引用一個月前第 2 輪的內(nèi)容,又在第 5 輪里引用第 1 輪的細(xì)節(jié),就必須保證用戶在不同場景下都能準(zhǔn)確召回、并同步更新已發(fā)生變化的記憶。再把視角拉遠(yuǎn):大模型可能在多輪會話、多用戶、多 Agent、多 App 之間穿梭,動態(tài)信息的量級與管理難度呈指數(shù)級上升。因此,我們希望在開發(fā)層面屏蔽這些復(fù)雜性,讓應(yīng)用開發(fā)者無需深陷動態(tài)信息的泥沼,從而顯著降低落地成本。


大模型記憶增強(qiáng)層的實(shí)現(xiàn)路徑

順著這一思路,我們把大語言模型、Agent、業(yè)務(wù)流程與用戶之間抽象出一個“記憶操作層”。要實(shí)現(xiàn)記憶增強(qiáng),業(yè)界目前大致有兩條路徑。

第一條是模型增強(qiáng)范式:從模型架構(gòu)與訓(xùn)練范式本身入手,讓訓(xùn)練后的模型對記憶具備更強(qiáng)的理解與編排能力。我們團(tuán)隊早期便嘗試以記憶分層的方式建模,以提升記憶管理與喚起的效率;近期,字節(jié)跳動等機(jī)構(gòu)也嘗試?yán)脧?qiáng)化學(xué)習(xí)來優(yōu)化記憶使用范式,重點(diǎn)解決短期記憶與長期記憶的協(xié)同問題。這一路線可稱為“基模驅(qū)動”的記憶優(yōu)化。


第二條則是面向應(yīng)用層的工程實(shí)踐:在不動基座模型的前提下,通過通用大模型、提示工程(prompt engineering)與 Agent 工作流來模擬人類對記憶的管理過程。早期項(xiàng)目如 MemGPT、Mem0、Zep 等開源框架均循此思路;近期 Memories.AI 更進(jìn)一步,從多模態(tài)記憶角度拓展了記憶管理框架。除這些偏開源或商業(yè)化的團(tuán)隊外,也有不少學(xué)術(shù)團(tuán)隊圍繞記憶工程中的單點(diǎn)創(chuàng)新提出獨(dú)立方案。


若將兩條路線并置比較,二者幾乎處于對立的兩極。以基模為核心的方案,研發(fā)周期長、投入高;然而一旦在模型層面把記憶問題真正吃透,其性能天花板也最高,后續(xù)擴(kuò)展幾乎沒有硬約束。反之,純應(yīng)用層的做法可在極短時間內(nèi)搭出第一版記憶系統(tǒng),且橫向擴(kuò)展靈活;但依賴通用基座模型與提示工程,往往很快觸到性能瓶頸——從 85% 再往上走到 90%、95%,每一步都異常艱難。


在我們看來,真正可行的路線是把“基模驅(qū)動”與“應(yīng)用驅(qū)動”融合為一。具體做法是:在系統(tǒng)關(guān)鍵節(jié)點(diǎn)訓(xùn)練一系列面向記憶操作與記憶理解的小型專用模型,同時保留一套能力更強(qiáng)的主模型來執(zhí)行整體記憶編排。這樣,開發(fā)者無需深陷復(fù)雜的編排與理解細(xì)節(jié),成本被大幅壓縮。一句話概括:模型決定上限,應(yīng)用夯實(shí)下限。我們堅持由模型驅(qū)動去攻克原創(chuàng)理論與核心算法,確保開源框架隨版本迭代持續(xù)抬升性能天花板;同時,團(tuán)隊里既有來自高校的理論研究者,也有曾任職阿里巴巴、美團(tuán)的應(yīng)用算法工程師,因此在設(shè)計整套系統(tǒng)時,我們同樣關(guān)注業(yè)務(wù)適配性與通用性,力求讓前沿成果能夠平滑落地到真實(shí)場景。

記憶增強(qiáng)層落地需要做什么?

若要把記憶管理系統(tǒng)真正搭建并持續(xù)優(yōu)化,從系統(tǒng)到算法層面,需要攻克的環(huán)節(jié)遠(yuǎn)比表面看起來繁復(fù)。首先,記憶一旦進(jìn)入系統(tǒng),就要完成抽取、組織與檢索三步閉環(huán):抽取必須精準(zhǔn),組織必須高效,檢索則要在極低冗余與極高精準(zhǔn)之間取得平衡。緊接著,當(dāng)信息動態(tài)更新時,必須確保用戶曾提及的實(shí)體與細(xì)節(jié)被準(zhǔn)確刷新,版本歷史被完整保留,而檢索時又能即時返回最新狀態(tài)。最后,記憶還要在多方之間順暢共享——不僅跨會話、跨 Agent,也跨企業(yè)組織內(nèi)的不同用戶。


這些環(huán)節(jié)里,有些難題僅靠通用模型幾乎無解。以記憶抽取為例,通用模型常出現(xiàn)幻覺,既可能捏造事實(shí),也可能把 A 用戶的記憶錯放到 B 用戶名下;而在記憶更新階段,幻覺同樣高發(fā),稍不留神就會讓舊版本與新版本混為一談。因此,我們必須引入更精細(xì)的機(jī)制,才能在這些關(guān)鍵節(jié)點(diǎn)上守住準(zhǔn)確性與一致性。

MemOS 的核心設(shè)計思路

既然我們給自己定的目標(biāo)是打造一套“記憶操作系統(tǒng)”,至少也得是 Tiny-OS 級別,那就必須像傳統(tǒng)操作系統(tǒng)那樣,把整體框架拆成清晰的分層。從硬件到內(nèi)核再到應(yīng)用,每一層都對應(yīng)記憶場景里的關(guān)鍵問題:

  • 最底層相當(dāng)于“存儲硬件”,要解決的是記憶如何被高效共享與持久化;

  • 中間的內(nèi)核層,必須保證全局記憶的讀寫效率足夠高;

  • 最上面的應(yīng)用層,則要把復(fù)雜的記憶操作流程對開發(fā)者完全屏蔽,讓他們用起來足夠順滑。


順著這個思路,我們設(shè)計了五層記憶管理框架:存儲、治理、調(diào)度、應(yīng)用、解碼。其中,治理層與調(diào)度層是市面上現(xiàn)有框架極少單獨(dú)拆出的兩層。很多人會把記憶直接塞進(jìn)向量庫或圖數(shù)據(jù)庫,我們卻堅持為記憶量身定制存儲層——因?yàn)槲覀兿嘈?,?dāng)大模型能力繼續(xù)躍升、終端入口趨于統(tǒng)一后,傳統(tǒng)帶 GUI 的 App 形態(tài)會逐步消失。


不妨以“時間管理”為例:今天我們要先下載一個時間管理 App,再手動錄入日程;稍智能的軟件能幫我們排期并提醒。但在不遠(yuǎn)的將來,人們可能不再下載 App,而是直接獲取一個“時間管理記憶體”。這個記憶體已經(jīng)把時間管理所需的推理邏輯與細(xì)節(jié)知識打包完畢,安裝到本地通用模型后,兩者聯(lián)合推理即可從對話里自動抽取時間要素、生成排程,效率遠(yuǎn)高于通用模型本身。

因此,我們把“記憶體”定義為可獨(dú)立打包、下載、安裝的最小單元,既可以是個人經(jīng)驗(yàn)資產(chǎn),也可以是企業(yè)知識沉淀的載體。明年年中,我們將上線“記憶交易市場”,思路類似今天的 App Store:開發(fā)者用我們提供的 SDK 把企業(yè)知識封裝成記憶體并上架;終端用戶按需下載安裝,即可在“最后一公里”顯著提升業(yè)務(wù)效能。

MemOS 的系統(tǒng)框架

既然記憶已被視作個人最核心的經(jīng)驗(yàn)資產(chǎn),治理就必須在一開始就被提到最高優(yōu)先級。在即將發(fā)布的 1.0 版本中,我們把記憶全生命周期管理、幻覺評估框架、水印、權(quán)限與隱私控制全部內(nèi)建,力求讓每一份記憶資產(chǎn)從誕生起就保持穩(wěn)健與可信。

再往上是調(diào)度層。之所以單獨(dú)設(shè)立“記憶調(diào)度”,是因?yàn)槲覀儓猿钟洃洷仨毞謱庸芾怼@直接源于 2023 年 11 月啟動的記憶分層基座模型研究。從建模角度看,明文記憶、激活記憶與參數(shù)化記憶在讀寫效率上差異顯著:明文記憶只需改寫文本即可瞬間入庫;參數(shù)化記憶則依賴?yán)^續(xù)訓(xùn)練或后訓(xùn)練,寫入成本極高,但讀取極快;激活記憶介于兩者之間,讀寫相對均衡?;谶@一分層,我們按使用場景與訪問頻率動態(tài)建模,確保全局讀寫效率、時效性與首 token 時延同時最優(yōu)。


為支撐這套調(diào)度框架,我們配套實(shí)現(xiàn)了消息隊列、動態(tài)埋點(diǎn)與主動預(yù)測算法,使系統(tǒng)始終面向 memory-ready 狀態(tài):用戶隨時提問,背后的 Memory Cube 都已處于最佳形態(tài),時延被壓到最低。

最上層是 MemOS 開源框架與服務(wù)平臺。對外我們提供兩類標(biāo)準(zhǔn)服務(wù):

  • 記憶即服務(wù)(Memory-as-a-Service):接收 Query 后,返回回答該 Query 最相關(guān)的記憶片段;

  • 記憶 + 推理即服務(wù)(Memory+Inference-as-a-Service):在底層完成推理,用戶只需指定模型,系統(tǒng)即返回融合記憶后的完整答案。


以上便是 MemOS 1.0 的整體設(shè)計現(xiàn)狀。

Memos 的核心機(jī)制一:記憶分層建模

圍繞當(dāng)前框架,我想分享三點(diǎn)在實(shí)踐中被反復(fù)驗(yàn)證、值得特別注意的經(jīng)驗(yàn):記憶分層、記憶調(diào)度,以及記憶腦圖的信息組織方式。它們共同構(gòu)成了我們整套系統(tǒng)的核心設(shè)計思想。

首先是記憶分層。自 2023 年 11 月我們啟動記憶分層大模型研究以來,業(yè)界雖頻繁提及“分層”,但多數(shù)仍停留在“長期 / 短期”或“明文工作記憶”這類粗粒度劃分。我們認(rèn)為,從基礎(chǔ)模型理論出發(fā),記憶應(yīng)被系統(tǒng)性地劃分為參數(shù)化記憶、激活記憶與明文記憶,而明文記憶內(nèi)部還可進(jìn)一步細(xì)分。之所以必須如此,根源在于人腦的記憶形成機(jī)制。

人腦首先接受感官刺激——聽覺、視覺、觸覺等。只有“重復(fù)且有效”的刺激才會留下痕跡。所謂“有效”,是指該刺激與當(dāng)前任務(wù)或興趣高度相關(guān)。例如,普通人對路邊落葉視而不見,環(huán)衛(wèi)工人卻會敏銳捕捉。若所有信息無差別入庫,大腦將因容量有限而崩潰。

被篩選出的信息先進(jìn)入短期記憶。短期記憶自帶遺忘機(jī)制;若再經(jīng)重復(fù)刺激,便沉淀為長期記憶。長期記憶又分兩類:外顯記憶——可被語言提取,如“昨晚看過的電影情節(jié)”;內(nèi)隱記憶——通過行為表現(xiàn),如程序員盲打鍵盤的指法。長期記憶若長期不被調(diào)用,也會被主動遺忘,以維持系統(tǒng)效率。

人腦這套“刺激—篩選—鞏固—遺忘—再學(xué)習(xí)”的閉環(huán),為我們設(shè)計記憶系統(tǒng)提供了完整范式:刺激階段對應(yīng)“選擇性寫入”,降低冗余;短期記憶對應(yīng)“激活記憶”,追求讀寫速度;長期外顯記憶對應(yīng)“明文記憶”,便于檢索與共享;長期內(nèi)隱記憶對應(yīng)“參數(shù)化記憶”,通過繼續(xù)訓(xùn)練微調(diào),讀取快、寫入慢;遺忘與再學(xué)習(xí)機(jī)制則對應(yīng)“動態(tài)調(diào)度與回收”,確保全局性能最優(yōu)。

圍繞當(dāng)前記憶系統(tǒng)設(shè)計的實(shí)踐,我想分享三點(diǎn)體會,它們共同構(gòu)成了我們框架設(shè)計的核心考量:記憶分層的必要性、記憶調(diào)度的技術(shù)原理,以及“記憶腦圖”這一組織方式的獨(dú)特價值。

記憶分層絕非簡單地把信息劃分為“長期”與“短期”,或套用認(rèn)知心理學(xué)中 working memory 的概念。從大語言模型的理論視角出發(fā),記憶應(yīng)當(dāng)被系統(tǒng)地拆分為三層:參數(shù)化記憶(模型權(quán)重)、激活記憶(推理過程中的中間狀態(tài))與明文記憶(可顯式讀取的外部存儲)。其中明文記憶又可進(jìn)一步細(xì)分為外顯與內(nèi)隱兩類,這一劃分直接對應(yīng)人腦的記憶形成機(jī)制。

人腦的記憶始于感官刺激。視覺、聽覺、觸覺等信號若要在神經(jīng)層面留下痕跡,必須滿足“重復(fù)且有效”的條件:重復(fù)保證突觸可塑性的持續(xù)強(qiáng)化,有效則意味著刺激需與個體目標(biāo)或情感顯著相關(guān)。以日常場景為例,路人往往忽略腳邊落葉,而環(huán)衛(wèi)工人因職責(zé)所在,會反復(fù)接收并處理同一類視覺信號,落葉遂成為其短期記憶的一部分。若此類信息未經(jīng)篩選地全部入庫,有限的腦容量將迅速耗盡;因此人腦在編碼階段即執(zhí)行嚴(yán)格的過濾。

短期記憶并非終點(diǎn)。它自帶遺忘曲線,只有通過再次復(fù)述或情境復(fù)現(xiàn),才能被鞏固為長期記憶。長期記憶又可區(qū)分為外顯與內(nèi)隱:前者可被語言化,如“昨日觀影內(nèi)容”;后者則表現(xiàn)為程序性技能,如程序員對鍵盤鍵位的肌肉記憶。值得注意的是,長期記憶亦遵循“用進(jìn)廢退”原則——久未調(diào)用的記憶會被主動遺忘,以維持檢索效率。


借鑒人腦的這一套機(jī)制,我們便會發(fā)現(xiàn)其中有許多值得汲取的要點(diǎn):長期記憶中的遺忘機(jī)制、學(xué)習(xí)與進(jìn)化機(jī)制,短期記憶在效率上的優(yōu)勢,以及刺激階段選擇性過濾所帶來的功耗優(yōu)勢,皆可為我們構(gòu)建記憶分層與記憶管理系統(tǒng)提供直接啟示。

基于上述啟發(fā),我們在 2024 年 7 月發(fā)布了首個分層架構(gòu)的大模型。其核心理念是把 Transformer 中的參數(shù)化記憶拆分為抽象知識與具體知識,并進(jìn)一步把其中可分離的部分抽離出來,使模型主干盡可能輕量化。主干只需保留最關(guān)鍵的推理能力,其余具體知識則交由外部存儲管理。據(jù)此,我們將記憶劃分為隱性記憶、顯性記憶與外部記憶三類,通過分層降低推理與記憶負(fù)載。


若將三類記憶映射到人類行為,隱性記憶如同騎自行車——一旦學(xué)會便不再需要刻意思考;顯性記憶則像昨日讀過的書或課堂筆記,經(jīng)大腦加工后隨時調(diào)用;外部記憶則類似開卷考試,學(xué)生可現(xiàn)場翻閱教材,按需檢索。

寫入方式亦各有特征:隱性記憶通過訓(xùn)練固化于模型參數(shù);顯性記憶以 KV Cache 形式緩存;外部記憶即明文知識庫,按常規(guī)檢索邏輯維護(hù)。讀取時,隱性記憶支持即時推理;顯性記憶依賴 Self-Attention 交叉計算;外部記憶則需重新編碼。綜合來看,隱性記憶更新慢、讀取快;外部記憶容量大、存儲效率高,但聯(lián)合解碼耗時;顯性記憶更新靈活,既可隨時丟棄,也可常駐顯存,讀寫速度居中。

記憶調(diào)度的本質(zhì),是把上述三種記憶各自的優(yōu)勢真正用起來。在 MemOS 的設(shè)計里,我首先把參數(shù)化記憶拆成兩塊:一塊是“內(nèi)置參數(shù)記憶”,即模型出廠時便固化的權(quán)重;另一塊是“外置參數(shù)記憶”,它隨著用戶或 Agent 與大模型的持續(xù)交互而動態(tài)生長——系統(tǒng)會挑選那些反復(fù)出現(xiàn)、對任務(wù)至關(guān)重要的偏好、事實(shí)與推理模式,以低秩更新或增量訓(xùn)練的方式寫進(jìn)這一區(qū)域。場景一變,外置參數(shù)記憶也隨之調(diào)整,始終保持與當(dāng)前任務(wù)高度相關(guān)。

顯性記憶則體現(xiàn)為推理過程中產(chǎn)生的高速 KV Cache。我會把它暫存在顯存或高速緩存區(qū),并在下一次同類任務(wù)到來前,預(yù)判是否需要提前加載到 GPU,避免冷啟動帶來的延遲。至于外部記憶,我進(jìn)一步把它細(xì)分為短期明文記憶與長期明文記憶:前者存放最近幾輪對話或臨時參考文檔,后者則像一座可隨時間沉淀的知識庫,按需召回。


整個記憶管理機(jī)制就落在對這五類記憶——內(nèi)置參數(shù)、外置參數(shù)、顯性 KV Cache、短期明文、長期明文——的靈活調(diào)度上。若把記憶系統(tǒng)的全生命周期比作八顆星的工作量,傳統(tǒng) RAG 往往把六顆星都花在“使用”環(huán)節(jié):幻覺校驗(yàn)、主體一致性檢查、權(quán)限驗(yàn)證……而構(gòu)建與調(diào)度環(huán)節(jié)卻相對單薄,無非是切片、 Embedding,再復(fù)雜一點(diǎn)便是 GraphRAG??梢坏┌?GraphRAG 真正部署到生產(chǎn)環(huán)境,就會發(fā)現(xiàn)它的成本與延遲都高得難以接受。

我們的思路恰恰相反:把盡可能多的工作量前置到構(gòu)建與調(diào)度階段。構(gòu)建時,針對不同記憶類型做類腦式的組織與抽取,采用“圖 + 向量”的多路混合存儲,既保留語義關(guān)系,又兼顧檢索效率;調(diào)度時,則引入主動預(yù)測模型,讓所需記憶在任務(wù)到達(dá)前就已處于“就緒”狀態(tài)。如此,開發(fā)者在真正使用這套系統(tǒng)時,只需關(guān)心業(yè)務(wù)邏輯,無需再為記憶管理付出額外成本。

MemOS 的核心機(jī)制二:記憶調(diào)度管理

我們整套機(jī)制的核心,是把“調(diào)度”做到極致。調(diào)度究竟意味著什么?一句話概括:在最恰當(dāng)?shù)臅r刻,把最匹配的記憶放到最恰當(dāng)?shù)奈恢谩_@三個“最恰當(dāng)”聽起來簡單,實(shí)則每一步都隱藏著大量算法與工程細(xì)節(jié)。


當(dāng)前主流 RAG 的增強(qiáng)范式,在我看來屬于“被動式檢索”。它的典型流程是:用戶輸入查詢 → 系統(tǒng)重寫查詢 → 生成嵌入 → 向量庫召回 → 粗排 → 精排 → 構(gòu)造提示 → 交由大模型作答。整個鏈路呈“阻斷式”。后續(xù)上下文構(gòu)造與模型回答必須等待檢索全部完成后才能繼續(xù)。為了提升精度,我們常常把檢索方案從 Pro 升級到 Ultra,每次升級又額外增加兩秒延遲。若業(yè)務(wù)硬性要求兩秒內(nèi)返回結(jié)果,這套阻斷式流程便幾乎無法兼顧精度與速度。更棘手的是,隨著對話窗口拉長,上下文 Token 不斷累積,成本呈指數(shù)級上升;跨會話、跨天的推理結(jié)果也難以復(fù)用,導(dǎo)致碎片化與浪費(fèi)。

若把 Agent 或用戶在真實(shí)場景中的時間線拆開,可發(fā)現(xiàn)大量“空檔”:用戶敲鍵盤輸入、模型推理、用戶閱讀答案、再次輸入……這些碎片時間加起來往往遠(yuǎn)超兩秒。與其讓它們白白流逝,不如化整為零,把記憶管理、調(diào)度與預(yù)熱工作嵌入每一個空隙。屆時,當(dāng)真正需要構(gòu)造上下文時,所需數(shù)據(jù)已提前就位,只需極短時間即可完成拼接。無論對系統(tǒng)延遲還是用戶體驗(yàn),提升都立竿見影。

我們把最小記憶單元稱為 Memory Cube。借助它,可在用戶輸入、模型推理、答案閱讀乃至下一輪輸入等任意階段與記憶系統(tǒng)交互,持續(xù)把后續(xù)可能用到的內(nèi)容提前準(zhǔn)備到“就緒”狀態(tài)。如此,當(dāng)查詢真正到來時,上下文已靜靜等候,只需一次輕量調(diào)用即可交付。


若把記憶調(diào)度抽象來看,它由三類核心容器構(gòu)成:觸發(fā)器、調(diào)度器與快速檢索器。觸發(fā)器允許開發(fā)者依據(jù)自身業(yè)務(wù)靈活配置觸發(fā)點(diǎn)——當(dāng)用戶鍵入查詢、點(diǎn)擊設(shè)置列表,或任何其他關(guān)鍵動作發(fā)生時,皆可即時喚起記憶調(diào)度。調(diào)度器則接收觸發(fā)器傳來的信號與模板化配置,對隱性、顯性與外部記憶分別執(zhí)行差異化處置,確保在真正需要時,所需記憶已處于最佳狀態(tài)。

快速檢索器并非必需,可視場景取舍。由于記憶準(zhǔn)備已轉(zhuǎn)為全時、異步、并行流程,檢索耗時可從原來的數(shù)秒壓縮至百毫秒級,僅需在最后一刻快速補(bǔ)入最新片段即可。由此,我們將傳統(tǒng)單輪、阻斷式的 RAG 記憶準(zhǔn)備,拆分為跨多輪、可并行異步執(zhí)行的細(xì)粒度過程。

欲將記憶調(diào)度系統(tǒng)打磨成熟,至少需在以下層面著力:觸發(fā)觸點(diǎn)建模、負(fù)載均衡、明文與激活記憶的分級調(diào)度。觸點(diǎn)建模尤其依賴對用戶與系統(tǒng)行為的主動預(yù)測——通過一系列輕量級預(yù)測模型,實(shí)時捕捉行為變化,并據(jù)此將調(diào)度模板路由至恰當(dāng)節(jié)點(diǎn)。


MemOS 的核心機(jī)制三:記憶腦圖組織與檢索

當(dāng)記憶分層與調(diào)度都已就緒,我仍需回到起點(diǎn),重新審視“記憶被抽取之后,究竟應(yīng)以何種形態(tài)組織”。組織方式直接決定后續(xù)檢索成本、準(zhǔn)確率與效率。業(yè)界目前可見兩條路徑:一是直接分塊,簡單高效,卻易割裂文本間的語義關(guān)聯(lián);二是 GraphRAG,試圖以知識圖譜保留關(guān)系,但構(gòu)建高精度圖譜對實(shí)體一致性要求極高,成本令人望而卻步。我曾在阿里巴巴業(yè)務(wù)中臺負(fù)責(zé)商品知識圖譜,六十余人歷時三四年持續(xù)打磨,仍深感其復(fù)雜與脆弱。即便引入大模型輔助,圖譜的可靠性與可用性依舊難以令人滿意。

反觀人類自身,我們并不會在聽完一場講座或讀完一本書后,立刻鋪開一張大紙繪制知識圖譜;更自然的做法是勾勒一張腦圖——提取事件與邏輯的脈絡(luò),形成樹狀框架。腦圖恰好介于“分塊”與“圖譜”之間:既利用大模型的推理與理解能力,又將構(gòu)建成本控制在可接受范圍。

然而,僅有腦圖還不夠。我更想強(qiáng)調(diào)的是“主動記憶”——與被動分塊或靜態(tài)圖譜不同,它要求系統(tǒng)像領(lǐng)域?qū)<乙粯?,只抽取對?dāng)前場景真正有價值的信息。以金融行業(yè)為例,金融專家閱讀同一份研報時,會自覺過濾通識內(nèi)容,僅保留差異化、可復(fù)用的要點(diǎn)。為此,我們引入記憶的 CoT(Chain of Memory)過程:先分析對話或文檔的主題與特征,再據(jù)此決定抽取策略,使轉(zhuǎn)換效率最大化。


獲得初版記憶腦圖后,還需二次關(guān)聯(lián)與校驗(yàn):跨會話補(bǔ)全上下文、跨文檔建立路由節(jié)點(diǎn),最終形成由根節(jié)點(diǎn)(Root Node)與主題節(jié)點(diǎn)(Topic Node)構(gòu)成的網(wǎng)絡(luò)。在此網(wǎng)絡(luò)中,我們?yōu)殛P(guān)鍵路徑與節(jié)點(diǎn)預(yù)計算嵌入向量,實(shí)現(xiàn)“圖 + 向量”的混合檢索——既保留靈活性,又確保召回的準(zhǔn)確與全面。

MemOS 的整體性能表現(xiàn)

我們也把整套框架與主流開源方案在 LoCoMo 和 LongMemEval 兩個數(shù)據(jù)集上做了橫向性能比較。然而我更想指出的是,現(xiàn)有評估體系尚難真實(shí)還原記憶框架在業(yè)務(wù)場景中的價值。多數(shù)評測把一百輪對話一次性塞進(jìn)模型,僅測試基座對長上下文的處理能力,卻忽略了記憶是在逐輪交互中緩慢生長的現(xiàn)實(shí);用戶鍵入查詢、模型推理、閱讀答案均耗時,若不在評估中模擬這些空隙,便無法體現(xiàn)記憶管理系統(tǒng)在真實(shí)環(huán)境中的優(yōu)勢。


MemOS 的開源框架與
OpenMem 社區(qū)

今年 7 月底,我們開源了 MemOS Preview,并發(fā)起國內(nèi)首個聚焦記憶管理的開源社區(qū) OpenMem,邀請高校研究團(tuán)隊與工業(yè)界伙伴共同探討記憶技術(shù)的演進(jìn)方向,沉淀通用標(biāo)準(zhǔn)與協(xié)議。開發(fā)者社區(qū)保持完全開放,API 服務(wù)框架已發(fā)布第一版,第二版將于 10 月 31 日上線,未來一年對所有調(diào)用量級與性能需求均免費(fèi),涵蓋“記憶即服務(wù)”與“推理即服務(wù)”。同時提供可私有化部署的版本,滿足高安全場景需求。

MemOS 的典型應(yīng)用場景

之所以打造 MemOS,源于團(tuán)隊自 2023 年成立至今在 ToB 項(xiàng)目中的切身體會。無論是智能投顧還是工業(yè)運(yùn)維,客戶對個性化記憶的訴求高度一致:希望把員工與 AI 中樞交互產(chǎn)生的公共經(jīng)驗(yàn)固化下來。在工業(yè)現(xiàn)場,若資深技師退休且未帶徒,其調(diào)試經(jīng)驗(yàn)往往隨人散失;企業(yè)期待記憶平臺能留存“為何把參數(shù)設(shè)為 5%”這類過程信息,而非僅記錄結(jié)果。開源后,已有開發(fā)者將 MemOS 應(yīng)用于酒店商戶服務(wù)、科研助手等場景,顯著提升了人工反饋準(zhǔn)確率與個性化服務(wù)水平。


One More Thing

既然我們自視為“記憶操作系統(tǒng)”,就不能只停留在基座訓(xùn)練與中間件層面;操作系統(tǒng)必須擁有自己的語言。換句話說,當(dāng)用戶以自然語言與系統(tǒng)交互時,如何以最高效率完成編排,是成敗關(guān)鍵。

設(shè)想一句看似簡單的請求:“請幫我記錄昨天與某人的會議內(nèi)容,并在后天提醒我撰寫技術(shù)報告?!逼浔澈箅[含多個基礎(chǔ)算子:先檢索日程,抑或先更新用戶畫像?是否需要重寫、摘要,還是直接擴(kuò)展?過去,這些邏輯由算法工程師硬編碼,導(dǎo)致大量邊界情況難以覆蓋。因此,我們正在構(gòu)建一套自動化編排語言框架,讓任意自然語言輸入都能被實(shí)時解析為系統(tǒng)可執(zhí)行的操作序列,顯著降低開發(fā)者接入成本。


最后,以公司 Slogan 作結(jié):智能始于記憶,張量鏈接未來。謝謝大家。

演講嘉賓介紹

李志宇,博士,記憶張量(上海)科技有限公司聯(lián)合創(chuàng)始人兼 CTO、上海算法創(chuàng)新研究院大模型中心技術(shù)負(fù)責(zé)人、研究員。長期從事預(yù)訓(xùn)練和大模型應(yīng)用方向的研發(fā)技術(shù)攻關(guān),主要研究方向包括大模型記憶增強(qiáng)、高效評估與應(yīng)用算法。曾在阿里巴巴、小紅書等頭部科技企業(yè)帶隊承擔(dān)多個核心算法方向,技術(shù)成果服務(wù)于商品評價、雙十一大促、營銷廣告等超大規(guī)模業(yè)務(wù)場景,累計帶來數(shù)十億營收,影響用戶近億人次,并獲得雙十一技術(shù)突破獎。近年來,先后和團(tuán)隊提出了首個記憶分層的創(chuàng)新架構(gòu)大模型,以及業(yè)內(nèi)業(yè)內(nèi)首個大模型記憶操作系統(tǒng)(MemOS),MemOS 開源 6 個月累計獲得 Star 數(shù)超 5800+,開發(fā)者數(shù)超 11000+,為大模型的記憶增強(qiáng)落地提供了可行的探索路徑。相關(guān)大模型技術(shù)成果已在中國銀行、招商證券、中國電信、新華社等多家國央企落地應(yīng)用。當(dāng)前已在 Patterns(Cell Press)、NeurIPS、ICLR、ACL 和 TKDE 等國際會議期刊發(fā)表論文 70 余篇、授權(quán)專利 10 余項(xiàng)?,F(xiàn)任中國中文信息學(xué)會信息檢索專委會委員、大模型與生成專委會委員,相關(guān)研究工作入選《麻省理工科技評論》封面報道、《機(jī)器之心》、《量子位》和《PaperWeekly》的頭條報道,并多次登頂 Huggingface 熱點(diǎn)論文 Top1。

會議推薦

2026,AI 正在以更工程化的方式深度融入軟件生產(chǎn),Agentic AI 的探索也將從局部試點(diǎn)邁向體系化工程建設(shè)!

QCon 北京 2026 已正式啟動,本屆大會以“Agentic AI 時代的軟件工程重塑”為核心主線,推動技術(shù)探索從「AI For What」真正落地到可持續(xù)的「Value From AI」。從前沿技術(shù)雷達(dá)、架構(gòu)設(shè)計與數(shù)據(jù)底座、效能與成本、產(chǎn)品與交互、可信落地、研發(fā)組織進(jìn)化六大維度,系統(tǒng)性展開深度探索。開往 2026 的 Agentic AI 專列即將啟程!匯聚頂尖專家實(shí)戰(zhàn)分享,把 AI 能力一次夯到位!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
從康波周期來看,2026年處于什么階段?

從康波周期來看,2026年處于什么階段?

楓冷慕詩
2026-02-05 13:35:30
上海著名主持人直播中淚目!中東戰(zhàn)火下,有人平安返航、有人新婚分離、有人只想回家

上海著名主持人直播中淚目!中東戰(zhàn)火下,有人平安返航、有人新婚分離、有人只想回家

新民晚報
2026-03-02 14:52:26
剛剛發(fā)布的iPhone 17e,價格太良心了!

剛剛發(fā)布的iPhone 17e,價格太良心了!

機(jī)智貓
2026-03-02 23:46:07
印度公司欺騙中國,轉(zhuǎn)賣稀土給美國雷神造導(dǎo)彈,阿三既蠢又邪惡

印度公司欺騙中國,轉(zhuǎn)賣稀土給美國雷神造導(dǎo)彈,阿三既蠢又邪惡

我心縱橫天地間
2026-01-29 21:09:12
突發(fā)!李雨桐實(shí)名開撕薛之謙,劇情反轉(zhuǎn)比翻書還快,結(jié)局全網(wǎng)傻眼

突發(fā)!李雨桐實(shí)名開撕薛之謙,劇情反轉(zhuǎn)比翻書還快,結(jié)局全網(wǎng)傻眼

阿廢冷眼觀察所
2026-03-03 07:19:00
誰能想到她已經(jīng)62了,說18都有人信,怎么做到這么好的狀態(tài)的

誰能想到她已經(jīng)62了,說18都有人信,怎么做到這么好的狀態(tài)的

白宸侃片
2026-02-11 11:56:19
汪小菲沒想到,小兒子才生7天,S家汪家“兩重天”,王思聰沒說錯

汪小菲沒想到,小兒子才生7天,S家汪家“兩重天”,王思聰沒說錯

千言娛樂記
2026-03-02 21:47:06
鴻蒙智行處罰違規(guī)營銷門店

鴻蒙智行處罰違規(guī)營銷門店

每日經(jīng)濟(jì)新聞
2026-03-02 17:08:50
27天入賬330萬,趙心童和女友林薇的“頂配愛情”沖上熱搜

27天入賬330萬,趙心童和女友林薇的“頂配愛情”沖上熱搜

科學(xué)發(fā)掘
2026-03-02 16:46:08
13勝2平!亞足聯(lián)確認(rèn) 中國女足創(chuàng)36年神跡 今日亞洲杯首秀保底5-0

13勝2平!亞足聯(lián)確認(rèn) 中國女足創(chuàng)36年神跡 今日亞洲杯首秀保底5-0

侃球熊弟
2026-03-03 00:10:03
2歲的兒媳婦自己找上門!驚呆了!生活里那些驚人的巧合

2歲的兒媳婦自己找上門!驚呆了!生活里那些驚人的巧合

另子維愛讀史
2026-02-05 23:23:06
不拼GDP、不炫富,浙江第二有錢的城市,吊打眾多省會

不拼GDP、不炫富,浙江第二有錢的城市,吊打眾多省會

毒sir財經(jīng)
2026-03-02 21:00:47
1991 年,鄧小平特派代表赴美團(tuán)聚張學(xué)良,邀他重返故土,張學(xué)良回應(yīng):“回大陸可以,但我有三個要求”

1991 年,鄧小平特派代表赴美團(tuán)聚張學(xué)良,邀他重返故土,張學(xué)良回應(yīng):“回大陸可以,但我有三個要求”

文史明鑒
2025-12-21 17:07:19
凌晨!河北突發(fā)地震!

凌晨!河北突發(fā)地震!

新牛城
2026-03-03 09:29:46
三十年后小孩終于認(rèn)慫:行行行,《拳皇97》我打不過你們

三十年后小孩終于認(rèn)慫:行行行,《拳皇97》我打不過你們

街機(jī)時代
2026-03-02 18:00:03
離譜!一男子存500萬一年定期,利息151000。到期取錢,工作人員卻說,存單是假的!男子怒了直接告上法院!

離譜!一男子存500萬一年定期,利息151000。到期取錢,工作人員卻說,存單是假的!男子怒了直接告上法院!

上海約飯局
2025-12-02 18:47:01
伊朗吃肉的時候,對中國防得嚴(yán)嚴(yán)實(shí)實(shí),生怕中國占一點(diǎn)便宜

伊朗吃肉的時候,對中國防得嚴(yán)嚴(yán)實(shí)實(shí),生怕中國占一點(diǎn)便宜

百態(tài)人間
2026-02-24 15:37:37
鄒市明一家國外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

鄒市明一家國外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

小徐講八卦
2026-03-01 05:51:11
特朗普列四大目標(biāo):戰(zhàn)爭恐拖更久,不排除派地面部隊

特朗普列四大目標(biāo):戰(zhàn)爭恐拖更久,不排除派地面部隊

觀察者網(wǎng)
2026-03-03 08:22:01
香港中聯(lián)辦原副主任祁斌,新職明確

香港中聯(lián)辦原副主任祁斌,新職明確

觀察者網(wǎng)
2026-03-02 21:29:04
2026-03-03 10:24:49
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
12096文章數(shù) 51783關(guān)注度
往期回顧 全部

科技要聞

蘋果iPhone17e發(fā)布:4499元起 升級A19芯片

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實(shí)是條漢子

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實(shí)是條漢子

體育要聞

伯納烏8萬人暴怒!高呼78歲老佛爺下課

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

霍爾木茲海峽近乎停擺 布油直逼80美元

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

親子
教育
數(shù)碼
本地
房產(chǎn)

親子要聞

孕吐是胎兒的自我保護(hù)?孕吐越嚴(yán)重,孩子越聰明?聽專家怎么說

教育要聞

內(nèi)蒙古教育反腐風(fēng)暴!千余人被處分后如何重建公平?

數(shù)碼要聞

小米靠規(guī)模和高端應(yīng)對!盧偉冰:內(nèi)存漲價將影響消費(fèi)電子所有玩家 持續(xù)到2027年

本地新聞

津南好·四時總相宜

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫#钟袝蟊P殺出!

無障礙瀏覽 進(jìn)入關(guān)懷版