国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

你的「龍蝦」真記得你嗎?劍橋發(fā)布長(zhǎng)期個(gè)性化記憶基準(zhǔn)ATM-Bench

0
分享至



ATM-Bench 將「?jìng)€(gè)人 AI 助手是否真的記得你」這件事,變成了一個(gè)研究的測(cè)試基準(zhǔn)。結(jié)果并不樂(lè)觀(guān):專(zhuān)用記憶智能體系統(tǒng)普遍低于 20%,而 OpenClaw、Codex、Claude Code 等通用智能體普遍表現(xiàn)不佳,最高準(zhǔn)確率不到 40%。

想象一個(gè)場(chǎng)景:媽媽問(wèn)我:「你上次去日本旅行幫我買(mǎi)的相機(jī),現(xiàn)在還在保修期內(nèi)嗎?」

對(duì)人類(lèi)來(lái)說(shuō),這不算難。就算一時(shí)記不起來(lái),也可以翻翻收據(jù)、照片,或者查一下當(dāng)時(shí)的郵件。大腦會(huì)將線(xiàn)索串起來(lái),逐漸定位或是搜索到相關(guān)記憶。但對(duì)今天的 AI 來(lái)說(shuō),這類(lèi)問(wèn)題遠(yuǎn)沒(méi)有看上去那么簡(jiǎn)單。

最近,來(lái)自劍橋大學(xué)的團(tuán)隊(duì)開(kāi)源了面向 AI 個(gè)人助理的長(zhǎng)期記憶基準(zhǔn)測(cè)試 ATM-Bench。他們?cè)u(píng)測(cè)一個(gè)直接的問(wèn)題:當(dāng) AI 真正面對(duì)一個(gè)人多年真實(shí)生活數(shù)據(jù)時(shí),它到底能不能「記住你」?

實(shí)驗(yàn)結(jié)果并不樂(lè)觀(guān)。在該 ATM-Bench-Hard 基準(zhǔn)上,當(dāng)前非常熱門(mén)的開(kāi)源智能體「小龍蝦」OpenClaw 僅達(dá)到 25.4% 的準(zhǔn)確率;而被許多人視為編程智能體標(biāo)桿、搭載 Claude Opus 4.6 的 Claude Code 也只有 33.8%。至于多數(shù)開(kāi)源專(zhuān)用記憶系統(tǒng),準(zhǔn)確率甚至低于 20%。



  • 論文地址: https://arxiv.org/abs/2603.01990
  • 項(xiàng)目主頁(yè): https://atmbench.github.io



視頻鏈接:https://mp.weixin.qq.com/s/__7ldldfZfyXsNVGHq6AnQ?click_id=136

ATM-Bench:系統(tǒng)評(píng)估 AI 長(zhǎng)期個(gè)性化記憶能力的基準(zhǔn)

過(guò)去已經(jīng)有不少工作在評(píng)估 AI 的「記憶能力」,例如 LoCoMo、LongMemEval 等,它們大多聚焦于對(duì)話(huà)歷史,但真實(shí)世界中的個(gè)人記憶,遠(yuǎn)不止聊天記錄。一個(gè)人的生活記憶通常分散在:

  • 照片:旅行、聚會(huì)、用餐、日常片段
  • 視頻:重要時(shí)刻、活動(dòng)過(guò)程、環(huán)境變化
  • 郵件:機(jī)票、酒店、餐廳預(yù)訂、票據(jù)、確認(rèn)函

而且這些記憶往往橫跨幾年,互相之間并不對(duì)其。為此,ATM-Bench 提出了首個(gè)面向長(zhǎng)期、多模態(tài)、多來(lái)源、個(gè)性化指代記憶問(wèn)答的基準(zhǔn)。它的幾個(gè)關(guān)鍵特征是:

  • 時(shí)間跨度約 4 年;
  • 覆蓋圖像、視頻、郵件三類(lèi)模態(tài),超一萬(wàn)條記憶數(shù)據(jù);
  • 記憶數(shù)據(jù)來(lái)自真實(shí)個(gè)人生活,而非合成對(duì)話(huà);
  • 圖像、視頻數(shù)據(jù)包含地點(diǎn)、時(shí)間等元數(shù)據(jù),地點(diǎn)包含 4 大洲;
  • 包含 1000 + 條完全人工標(biāo)注的問(wèn)題、答案與證據(jù)。

ATM-Bench 考驗(yàn)了智能體能不能像一個(gè)真正的個(gè)人助理那樣,找到隱藏在記憶庫(kù)深處的正確記憶,并給出可靠答案。

挑戰(zhàn) AI 的記憶盲區(qū)

ATM-Bench 的核心難點(diǎn)包含:

  • 個(gè)性化指代:我的寵物貓「Grace」「我們上次那趟葡萄牙旅行」;
  • 多來(lái)源拼接:照片時(shí)間戳要和郵件確認(rèn)函對(duì)齊;
  • 記憶沖突:預(yù)訂金額和最終發(fā)票金額不一致;
  • 元數(shù)據(jù)噪音:GPS 由于定位準(zhǔn)確度本身就可能出錯(cuò)。

這里展示了三種難題的案例。

個(gè)性化引用解析 ——Grace 到底是誰(shuí)?

示例:「我想剪一個(gè)視頻發(fā)小紅書(shū),幫我把 Grace 偷偷摸摸的照片視頻找出來(lái)?!?/p>

  • 判斷 Grace 是朋友、家人,還是寵物;
  • 在圖片或視頻里識(shí)別這個(gè)對(duì)象;
  • 再理解「偷偷摸摸」這種帶主觀(guān)色彩的描述。



證據(jù)沖突怎么選?

示例:「我最近去葡萄牙旅行住酒店花了多少錢(qián)?」

這類(lèi)問(wèn)題常常對(duì)應(yīng)多份證據(jù):過(guò)時(shí)的預(yù)訂確認(rèn)郵件,最終結(jié)算發(fā)票等。

AI 需要理解不同來(lái)源之間可能存在沖突,也需要判斷哪條信息更新得更晚、可信度更高。即使是 GPT-5.2 或者是 Opus-4.6,也拿著過(guò)時(shí)的預(yù)訂郵件而不是最終的發(fā)票當(dāng)作答案。



看不見(jiàn)的線(xiàn)索,才最考驗(yàn) AI 的長(zhǎng)期記憶

示例:「我在 Fancett 餐廳點(diǎn)了什么?」

陷阱在于:「Fancett」這個(gè)名字只出現(xiàn)在郵件確認(rèn)單里,而照片本身并沒(méi)有 GPS 標(biāo)簽。

要回答這個(gè)問(wèn)題,AI 必須先:

  1. 從郵件中找到與 Fancett 相關(guān)的預(yù)訂信息;
  2. 提取對(duì)應(yīng)時(shí)間并鎖定時(shí)間窗口;
  3. 再跨模態(tài)到相冊(cè)中找到同一時(shí)段的照片;
  4. 最后從視覺(jué)內(nèi)容中判斷點(diǎn)了什么菜。

這類(lèi)問(wèn)題僅靠單一模態(tài)無(wú)法解決,需在郵件中挖掘文本線(xiàn)索,將時(shí)間范圍縮小,找到照片并回答問(wèn)題。少了任何一環(huán),問(wèn)題都無(wú)法被正確回答。



實(shí)驗(yàn)結(jié)果

團(tuán)隊(duì)在 ATM-Bench-Hard 上測(cè)試了多種專(zhuān)用記憶系統(tǒng),包括 A-Mem、HippoRAG2、mem0、MemoryOS。

結(jié)果并不理想:最好的系統(tǒng)準(zhǔn)確率不到 20%。這些系統(tǒng)本來(lái)就是為記憶而設(shè)計(jì)的,但當(dāng)任務(wù)超過(guò)了僅僅是對(duì)話(huà)歷史,記憶變得真實(shí)、長(zhǎng)期、個(gè)性化、跨模態(tài)的生活場(chǎng)景時(shí),它們依然顯得力不從心。

除開(kāi)源專(zhuān)用記憶系統(tǒng)之外,團(tuán)隊(duì)還測(cè)試了當(dāng)前最強(qiáng)的通用智能體系統(tǒng)。這類(lèi)智能體具備完整的代碼執(zhí)行能力、文件系統(tǒng)訪(fǎng)問(wèn)權(quán)限和工具調(diào)用能力,具有比專(zhuān)用記憶系統(tǒng)擁有更強(qiáng)的工程能力與搜索能力。



核心發(fā)現(xiàn):

  1. 表現(xiàn)最好的 Codex 也只有 39.7% 的準(zhǔn)確率,連及格線(xiàn)都?jí)虿恢?/li>
  2. Claude Code + Opus 4.6 作為編程智能體的標(biāo)桿,也只有 33.8%,盡管明顯優(yōu)于多數(shù)專(zhuān)用記憶系統(tǒng),但仍難以勝任真實(shí)長(zhǎng)期記憶 QA;
  3. OpenCode(Kimi K2.5)達(dá)到 30.3%,而 OpenClaw(Kimi K2.5)為 25.4%;
  4. Token 開(kāi)銷(xiāo)非常高:Codex 消耗了 15.46M tokens,OpenClaw 也達(dá)到 9.63M,即便投入大量工具調(diào)用與上下文預(yù)算,效果仍然有限。

這說(shuō)明,即便給 AI 配齊代碼執(zhí)行、文件搜索、索引構(gòu)建等整套工具鏈,長(zhǎng)期個(gè)性化記憶問(wèn)答仍然是一個(gè)根本性難題。

ATM-Bench 的實(shí)驗(yàn)結(jié)果雖然「慘淡」,但作者團(tuán)隊(duì)相信這為未來(lái)的長(zhǎng)期記憶機(jī)制與個(gè)性化 AI 助手的研究開(kāi)辟了新的方向。

OpenClaw、Codex、Claude Code 的集體表現(xiàn)不佳告訴我們:工具鏈再完善、模型再?gòu)?qiáng)大,也彌補(bǔ)不了記憶架構(gòu)上的根本缺陷。

當(dāng) AI 真正能夠像人類(lèi)一樣,在數(shù)年的記憶長(zhǎng)河中準(zhǔn)確檢索、關(guān)聯(lián)、推理,我們離真正的「?jìng)€(gè)性化 AI」才會(huì)更近一步。

在那之前,也許我們不該對(duì)智能體的記憶能力期待太高,畢竟,它們連「去年給媽媽買(mǎi)的相機(jī)」都記不住,OpenClaw、Codex、Claude Code 都不行。

數(shù)據(jù)集已開(kāi)源

ATM-Bench 數(shù)據(jù)集現(xiàn)已在 HuggingFace 上線(xiàn):

  • https://huggingface.co/datasets/Jingbiao/ATM-Bench

包含:

  • 完全人工標(biāo)注的 1069 個(gè) QA 對(duì)
  • 多模態(tài)證據(jù)標(biāo)注
  • NIAH 大海撈針評(píng)估支持
  • 開(kāi)箱即用的基準(zhǔn)測(cè)試代碼

作者介紹

梅敬標(biāo),劍橋大學(xué)機(jī)器智能實(shí)驗(yàn)室博士四年級(jí)在讀,師從 Bill Byrne 教授,獲劍橋信托基金獎(jiǎng)學(xué)金資助。本科及碩士均畢業(yè)于劍橋大學(xué)工程系,主修信息與計(jì)算機(jī)工程與電子工程。

其主要研究方向?yàn)槎嗄B(tài)大語(yǔ)言模型的應(yīng)用,涵蓋多模態(tài)檢索、模型安全、強(qiáng)化學(xué)習(xí)及智能體系統(tǒng)等領(lǐng)域。相關(guān)成果已發(fā)表于 ACL、NeurIPS、ICLR、NAACL、EMNLP 等國(guó)際頂級(jí)會(huì)議,累計(jì)發(fā)表論文十余篇。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
出生39天,生母陳寶蓮就自殺,如今戴耳釘、紋紋身走上“不歸路”

出生39天,生母陳寶蓮就自殺,如今戴耳釘、紋紋身走上“不歸路”

林輕吟
2026-04-13 19:48:49
1.7萬(wàn)兵力集結(jié),距臺(tái)灣僅96公里!專(zhuān)家擔(dān)心:日本可能要軍事暴走

1.7萬(wàn)兵力集結(jié),距臺(tái)灣僅96公里!專(zhuān)家擔(dān)心:日本可能要軍事暴走

消失的電波
2026-04-20 10:21:40
MSC神女號(hào)已安全通過(guò)霍爾木茲海峽!此前被困迪拜一個(gè)半月,郵輪上載有5000名乘客,其中含約200名中國(guó)游客

MSC神女號(hào)已安全通過(guò)霍爾木茲海峽!此前被困迪拜一個(gè)半月,郵輪上載有5000名乘客,其中含約200名中國(guó)游客

三湘都市報(bào)
2026-04-20 15:25:11
震驚!蘇州一公司全員放假61天,聲稱(chēng)業(yè)務(wù)停滯停工,鼓勵(lì)員工離職

震驚!蘇州一公司全員放假61天,聲稱(chēng)業(yè)務(wù)停滯停工,鼓勵(lì)員工離職

火山詩(shī)話(huà)
2026-04-19 15:02:27
A股,尾盤(pán)傳來(lái)一個(gè)“重磅信號(hào)”,明天,或?qū)⒂瓉?lái)大變盤(pán)!

A股,尾盤(pán)傳來(lái)一個(gè)“重磅信號(hào)”,明天,或?qū)⒂瓉?lái)大變盤(pán)!

夜深?lèi)?ài)雜談
2026-04-20 19:06:54
中介曬出通話(huà)記錄,4年前業(yè)主沒(méi)110萬(wàn)不賣(mài),如今房子只值56萬(wàn)

中介曬出通話(huà)記錄,4年前業(yè)主沒(méi)110萬(wàn)不賣(mài),如今房子只值56萬(wàn)

映射生活的身影
2026-04-19 23:05:55
英超-水晶宮0-1西漢姆聯(lián):鐵錘幫把白百合逼降級(jí)|前瞻

英超-水晶宮0-1西漢姆聯(lián):鐵錘幫把白百合逼降級(jí)|前瞻

體育世界
2026-04-20 11:28:31
正式退出,伊藤美誠(chéng)退出日乒?落選日本女隊(duì),誰(shuí)注意世乒賽名單

正式退出,伊藤美誠(chéng)退出日乒?落選日本女隊(duì),誰(shuí)注意世乒賽名單

懂球社
2026-04-19 19:23:27
女人一旦開(kāi)口要這個(gè),就是生理性喜歡,裝不出來(lái)!男人千萬(wàn)別不懂

女人一旦開(kāi)口要這個(gè),就是生理性喜歡,裝不出來(lái)!男人千萬(wàn)別不懂

小影的娛樂(lè)
2026-04-20 18:24:19
這個(gè)國(guó)家快被中國(guó)“買(mǎi)”下!美女遍地,10個(gè)移民中就有9個(gè)中國(guó)人

這個(gè)國(guó)家快被中國(guó)“買(mǎi)”下!美女遍地,10個(gè)移民中就有9個(gè)中國(guó)人

凡知
2026-04-20 15:39:02
黃曉明沒(méi)用!葉珂直播帶娃,女兒哭到暈無(wú)人管,黃媽眼里只有小海綿

黃曉明沒(méi)用!葉珂直播帶娃,女兒哭到暈無(wú)人管,黃媽眼里只有小海綿

八星人
2026-03-21 23:39:17
隨著廣東落敗,CBA又亂了!廣東確定無(wú)緣四強(qiáng),廣州季后賽還有戲

隨著廣東落敗,CBA又亂了!廣東確定無(wú)緣四強(qiáng),廣州季后賽還有戲

多特體育說(shuō)
2026-04-20 22:33:44
善惡有報(bào)!許家印剛認(rèn)罪1天,子女近況曝光,大兒子的安排全白費(fèi)

善惡有報(bào)!許家印剛認(rèn)罪1天,子女近況曝光,大兒子的安排全白費(fèi)

來(lái)科點(diǎn)譜
2026-04-20 07:14:44
萬(wàn)字長(zhǎng)文!黃仁勛:DeepSeek深度耦合華為,對(duì)美國(guó)來(lái)說(shuō)將是災(zāi)難

萬(wàn)字長(zhǎng)文!黃仁勛:DeepSeek深度耦合華為,對(duì)美國(guó)來(lái)說(shuō)將是災(zāi)難

財(cái)通社
2026-04-19 17:42:25
很多微信群都變成了死群,因?yàn)槿撕茈y對(duì)沒(méi)有利益的事保持長(zhǎng)久熱情

很多微信群都變成了死群,因?yàn)槿撕茈y對(duì)沒(méi)有利益的事保持長(zhǎng)久熱情

大張的自留地
2026-04-20 13:10:12
黑尾醬,徹底消失了?

黑尾醬,徹底消失了?

生如稗草
2026-03-15 08:48:11
半場(chǎng)21分!真不像斷過(guò)跟腱的樣子啊...

半場(chǎng)21分!真不像斷過(guò)跟腱的樣子啊...

左右為籃
2026-04-20 11:57:07
民進(jìn)黨,極有可能在下一屆臺(tái)灣地區(qū)選舉后,成為長(zhǎng)期一家獨(dú)大政黨

民進(jìn)黨,極有可能在下一屆臺(tái)灣地區(qū)選舉后,成為長(zhǎng)期一家獨(dú)大政黨

李橑在北漂
2026-04-02 10:22:26
局勢(shì)生變,伊朗對(duì)印度油輪開(kāi)火,莫迪惱羞成怒,特朗普或登機(jī)離國(guó)

局勢(shì)生變,伊朗對(duì)印度油輪開(kāi)火,莫迪惱羞成怒,特朗普或登機(jī)離國(guó)

小蘭聊歷史
2026-04-20 22:54:41
文章面館開(kāi)業(yè)4天后,終于有藝人到場(chǎng)!網(wǎng)友:這對(duì)比太心酸了

文章面館開(kāi)業(yè)4天后,終于有藝人到場(chǎng)!網(wǎng)友:這對(duì)比太心酸了

娛小余
2026-04-19 23:21:33
2026-04-21 01:04:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12813文章數(shù) 142633關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價(jià)10999元起

頭條要聞

19歲女孩挪用自家1700萬(wàn)當(dāng)"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬(wàn)當(dāng)"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂(lè)要聞

《八千里路云和月》田家泰暗殺

財(cái)經(jīng)要聞

利潤(rùn)暴跌7成,字節(jié)到底在做什么

汽車(chē)要聞

把天門(mén)山搬進(jìn)廠(chǎng)?開(kāi)仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

家居
房產(chǎn)
手機(jī)
親子
公開(kāi)課

家居要聞

自然慢調(diào) 慢享時(shí)光

房產(chǎn)要聞

大規(guī)模商改?。『?谖骱0叮@波項(xiàng)目要贏麻了!

手機(jī)要聞

Find X9 Ultra打造專(zhuān)業(yè)生態(tài) 口袋中的電影創(chuàng)作神器

親子要聞

【孤獨(dú)癥科普】啥是孤獨(dú)癥,哪些孩子易發(fā)生,如何應(yīng)對(duì)?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版