国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

新一代框架MIA:讓智能體告別「失憶式工作」,在持續(xù)進(jìn)化中變強(qiáng)

0
分享至



本文共同一作是上海創(chuàng)智學(xué)院博士生喬靜陽(yáng)、孟煒程,通訊作者是華東師范大學(xué)張志忠副教授,項(xiàng)目主導(dǎo)人是國(guó)家優(yōu)青謝源教授。

Never memorize something that you can look up.
  • — Albert Einstein

如今的大多數(shù)智能體,仍然活在一種「失憶式工作」模式中:每一次檢索都是從零開(kāi)始,每一條推理路徑都無(wú)法沉淀,每一次失敗也不會(huì)轉(zhuǎn)化為經(jīng)驗(yàn)。它們雖能多輪交互,但很難在深度研究中持續(xù)變強(qiáng)。

為了解決這個(gè)問(wèn)題,已有工作嘗試基于歷史方案生成執(zhí)行規(guī)劃,但受限于預(yù)訓(xùn)練范式,許多智能體仍陷入新的困境:一個(gè)不擅長(zhǎng)規(guī)劃的「決策器」,從臃腫的記憶中檢索出零散片段,再去驅(qū)動(dòng)一個(gè)缺乏規(guī)劃執(zhí)行能力的「執(zhí)行器」。結(jié)果是:記憶在增長(zhǎng),智能卻沒(méi)有。

于是,浮現(xiàn)出一個(gè)關(guān)鍵問(wèn)題:是否存在將經(jīng)驗(yàn)轉(zhuǎn)化為能力的智能體記憶機(jī)制?

上海創(chuàng)智學(xué)院和華東師范大學(xué)聯(lián)合團(tuán)隊(duì)最近提出的 Memory Intelligence Agent (MIA),一個(gè)面向深度研究場(chǎng)景的新一代記憶智能體框架,給這一問(wèn)題帶來(lái)了新的答案。



  • 論文地址:https://arxiv.org/abs/2604.04503
  • 代碼倉(cāng)庫(kù):https://github.com/ECNU-SII/MIA
  • 龍蝦技能:
  • 純凈版:https://clawhub.ai/jingyangqiao/mia
  • 可信版:https://clawhub.ai/sii-yucheng2002/mia-trust

(高效版和可訓(xùn)練版即將發(fā)布)

為了解決這一問(wèn)題,MIA 構(gòu)建了一套基于「Planner–Executor–Manager」架構(gòu)的記憶系統(tǒng)。其中,Planner 是戰(zhàn)術(shù)大腦,不僅能夠針對(duì)當(dāng)前問(wèn)題制定研究計(jì)劃,還能通過(guò)測(cè)試時(shí)的持續(xù)學(xué)習(xí)實(shí)時(shí)調(diào)整其策略。Executor 是經(jīng)過(guò)訓(xùn)練的執(zhí)行專家,能夠毫無(wú)阻礙地解讀并遵循復(fù)雜的研究藍(lán)圖。Manager 是終極管理員,優(yōu)化記憶存儲(chǔ)以消除冗余。

與現(xiàn)有方法相比,MIA 的核心亮點(diǎn)在于:

  1. 構(gòu)建雙記憶機(jī)制,非參數(shù)記憶負(fù)責(zé)沉淀經(jīng)驗(yàn),參數(shù)記憶負(fù)責(zé)吸收能力,二者相互轉(zhuǎn)化,形成持續(xù)進(jìn)化的閉環(huán);
  2. 提出 Manager–Planner–Executor 多智能體結(jié)構(gòu),將記憶管理、策略規(guī)劃與任務(wù)執(zhí)行解耦,并通過(guò)交替強(qiáng)化學(xué)習(xí)驅(qū)動(dòng) Planner 與 Executor 的協(xié)同進(jìn)化,將「會(huì)規(guī)劃」和「會(huì)執(zhí)行」對(duì)齊;
  3. 引入面向開(kāi)放世界的自進(jìn)化機(jī)制,結(jié)合反思與無(wú)監(jiān)督學(xué)習(xí),讓智能體在開(kāi)放世界的推理過(guò)程中持續(xù)修正策略、動(dòng)態(tài)更新記憶,實(shí)現(xiàn)邊做邊學(xué)的在線進(jìn)化。

在 X 平臺(tái)上,該論文已被 DAIR.AI 的創(chuàng)始人,擁有 30 萬(wàn)粉絲的 AI 論文分享博主 Elvis Saravia 所轉(zhuǎn)發(fā),并收獲了高度評(píng)價(jià)與大量關(guān)注。與此同時(shí),該論文也入選了 Hugging Face Daily Papers 榜單。





從「逐次推理」到「可積累的研究閉環(huán)」



作為一個(gè)持續(xù)運(yùn)行的 Planning–Execution–Memory 閉環(huán)系統(tǒng),MIA 在每一次研究任務(wù)中,都會(huì)經(jīng)歷:經(jīng)驗(yàn)調(diào)用 → 協(xié)同推理 → 經(jīng)驗(yàn)沉淀,并不斷反哺后續(xù)決策。

在經(jīng)驗(yàn)調(diào)用中,MIA 通過(guò)三維檢索機(jī)制調(diào)用歷史經(jīng)驗(yàn),分別是保證相關(guān)性的語(yǔ)義相似度,高質(zhì)量經(jīng)驗(yàn)偏好的價(jià)值獎(jiǎng)勵(lì)和激活長(zhǎng)尾知識(shí)的頻率獎(jiǎng)勵(lì)。

此外,作者還引入失敗軌跡作為約束,使記憶既能提供參考,又能避免重復(fù)錯(cuò)誤。在協(xié)同推理中,MIA 將推理解耦為兩個(gè)智能體的協(xié)作過(guò)程,Planner 負(fù)責(zé)拆解任務(wù)、生成步驟,而 Executor 負(fù)責(zé)按照步驟執(zhí)行。二者通過(guò) Reflect–Replan 形成反饋閉環(huán),當(dāng)執(zhí)行受阻時(shí)自動(dòng)重規(guī)劃,讓智能體具備持續(xù)試錯(cuò)與調(diào)整能力。

在經(jīng)驗(yàn)沉淀中,MIA 將對(duì)兩種記憶同時(shí)更新。首先對(duì)軌跡進(jìn)行壓縮與提取,形成結(jié)構(gòu)化非參數(shù)記憶。其次在線更新 Planner 參數(shù),將經(jīng)驗(yàn)轉(zhuǎn)化為參數(shù)記憶。最后實(shí)現(xiàn)從經(jīng)驗(yàn)存儲(chǔ)到能力內(nèi)化的躍遷。



讓「會(huì)規(guī)劃」和「會(huì)執(zhí)行」學(xué)會(huì)配合

在傳統(tǒng)記憶系統(tǒng)中,Planner 和 Executor 往往只是拼在一起,并沒(méi)有真正學(xué)會(huì)協(xié)作。為此,MIA 提出了一套兩階段交替強(qiáng)化學(xué)習(xí)和測(cè)試時(shí)持續(xù)學(xué)習(xí)的進(jìn)化機(jī)制,讓兩個(gè)模塊逐步對(duì)齊,并在真實(shí)任務(wù)中不斷變強(qiáng)。首先在兩階段交替強(qiáng)化學(xué)習(xí)中,MIA 將訓(xùn)練過(guò)程拆分為:

  • 階段一:固定 Planner,讓 Executor 學(xué)會(huì)理解并嚴(yán)格執(zhí)行規(guī)劃;
  • 階段二:固定 Executor,讓 Planner 學(xué)習(xí)如何利用記憶生成更優(yōu)計(jì)劃與計(jì)劃執(zhí)行失敗時(shí)的反思與重規(guī)劃能力。

這種「先對(duì)齊執(zhí)行,再優(yōu)化決策」的方式,解決了「規(guī)劃很好,但執(zhí)行跟不上」的問(wèn)題。

其次不同于傳統(tǒng)方法「訓(xùn)練完即凍結(jié)」,MIA 在推理階段引入測(cè)試時(shí)學(xué)習(xí),賦能智能體持續(xù)進(jìn)化。其過(guò)程包括:執(zhí)行推理任務(wù)同時(shí)生成多條候選路徑。從成功與失敗路徑中提取非參數(shù)化記憶,基于成功路徑在線更新參數(shù)化記憶。推理與訓(xùn)練幾乎同步完成,形成真正的在線學(xué)習(xí)閉環(huán)。



讓智能體在開(kāi)放世界中穩(wěn)定進(jìn)化

為了將 MIA 能夠真正用在開(kāi)放環(huán)境的深度研究中,作者提出了一套無(wú)監(jiān)督的自進(jìn)化評(píng)估機(jī)制,讓智能體在沒(méi)有外部反饋的條件下,也能持續(xù)優(yōu)化自身能力。

其核心思路是:用「過(guò)程質(zhì)量」替代「結(jié)果標(biāo)簽」,只要推理嚴(yán)謹(jǐn)、證據(jù)可靠、結(jié)論合理,即使沒(méi)有標(biāo)準(zhǔn)答案,也可以作為有效學(xué)習(xí)信號(hào)。

因此,受學(xué)術(shù)評(píng)審的啟發(fā),作者將對(duì)結(jié)果的判斷拆成多個(gè)「專家視角」,包括:

  • 邏輯評(píng)審員:檢查推理鏈條是否自洽
  • 事實(shí)評(píng)審員:驗(yàn)證信息來(lái)源以及是否存在幻覺(jué)
  • 結(jié)果評(píng)審員:評(píng)估任務(wù)是否真正完成

最終由一個(gè)「領(lǐng)域主席」進(jìn)行綜合決策并給出整體判斷,為 MIA 提供穩(wěn)定的優(yōu)化信號(hào),進(jìn)而助力實(shí)時(shí)進(jìn)化。

實(shí)驗(yàn)結(jié)論

在多項(xiàng)文本與多模態(tài)深度研究任務(wù)中,MIA 顯著提升了智能體的穩(wěn)定性與效率:





  • SOTA 性能再突破 (a & b):在 LiveVQA (多模態(tài)在線搜索) 與 HotpotQA (純文本沙盒搜索) 的對(duì)比實(shí)驗(yàn)中,MIA 顯著提升了現(xiàn)有最先進(jìn) LLMs(GPT-5.4, Gemini-3-Flash, claude-sonnet-4.6)在調(diào)用搜索工具下的表現(xiàn);
  • 實(shí)現(xiàn)小尺寸模型的跨級(jí)超越 (c):基于 Qwen-2.5-VL-7B 執(zhí)行器的 MIA 模型在 7 個(gè)核心數(shù)據(jù)集上表現(xiàn)卓越,超越了在不調(diào)用工具下的 GPT-5.4,GPT-4o 和 Gemini-2.5-Pro,逼近了 Gemini-3-Flash;
  • 記憶方法的新標(biāo)桿 (d):在與當(dāng)前先進(jìn)智能體記憶方法的橫向評(píng)測(cè)中,MIA 在 7 個(gè)數(shù)據(jù)集上均取得最佳性能表現(xiàn)。

總結(jié)

智能體記憶不應(yīng)該只是讓智能體記住了「結(jié)果是什么」,而是應(yīng)該讓它學(xué)會(huì)「該怎么做」。MIA 的出現(xiàn),傳遞了一個(gè)清晰的信號(hào):決定一個(gè)智能體上限的,不再僅僅是它接入了多少外部工具,而是它能否在每一次與世界的交互中,將繁雜的「過(guò)程信息」壓縮為精煉的「執(zhí)行本能」。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
印尼豪賭大潰敗,再次證明了:中國(guó)行,但你真不行

印尼豪賭大潰敗,再次證明了:中國(guó)行,但你真不行

閱微札記
2026-04-21 11:52:23
廣西投資集團(tuán)有限公司原副總經(jīng)理黎敦滿被公訴

廣西投資集團(tuán)有限公司原副總經(jīng)理黎敦滿被公訴

界面新聞
2026-04-22 16:10:10
就在剛剛!廣東官宣2米11中鋒加盟!離隊(duì)第1人出爐,不是奎因

就在剛剛!廣東官宣2米11中鋒加盟!離隊(duì)第1人出爐,不是奎因

老吳說(shuō)體育
2026-04-22 11:59:40
《穿普拉達(dá)的女王2》全網(wǎng)捂嘴!炸詞條刪話題,還幫著韓國(guó)偷文化

《穿普拉達(dá)的女王2》全網(wǎng)捂嘴!炸詞條刪話題,還幫著韓國(guó)偷文化

萌神木木
2026-04-22 19:23:48
5月1日起!巨額財(cái)產(chǎn)來(lái)源不明罪,立案標(biāo)準(zhǔn)從30萬(wàn)大幅提高到300萬(wàn)

5月1日起!巨額財(cái)產(chǎn)來(lái)源不明罪,立案標(biāo)準(zhǔn)從30萬(wàn)大幅提高到300萬(wàn)

今朝牛馬
2026-04-22 21:09:48
一把輸?shù)羰畮變|,欠200億跑路,今在印尼發(fā)財(cái),手下人個(gè)個(gè)不一般

一把輸?shù)羰畮變|,欠200億跑路,今在印尼發(fā)財(cái),手下人個(gè)個(gè)不一般

瀲滟晴方DAY
2026-04-17 22:01:07
俄軍打到了頓巴斯最后一道防線

俄軍打到了頓巴斯最后一道防線

星火聊天下
2026-04-22 13:24:51
以前的舊衣服,如今成了“救命稻草”?提醒大家:別再斷舍離了!

以前的舊衣服,如今成了“救命稻草”?提醒大家:別再斷舍離了!

小談食刻美食
2026-04-21 07:45:24
馬克西29+4+9探花郎狂砍30分,喬治全能鎖住塔圖姆,76人掀翻綠軍

馬克西29+4+9探花郎狂砍30分,喬治全能鎖住塔圖姆,76人掀翻綠軍

釘釘陌上花開(kāi)
2026-04-22 09:30:14
保姆偷拿了家里2瓶茅臺(tái)去賣,我沒(méi)揭穿只辭退了她,臨走時(shí)她指了指舊皮鞋,我一看瞬間癱坐在地

保姆偷拿了家里2瓶茅臺(tái)去賣,我沒(méi)揭穿只辭退了她,臨走時(shí)她指了指舊皮鞋,我一看瞬間癱坐在地

今夜有個(gè)好故事
2026-03-11 17:26:56
記者:阿利松已同意加盟尤文,尤文將在近期與利物浦展開(kāi)談判

記者:阿利松已同意加盟尤文,尤文將在近期與利物浦展開(kāi)談判

懂球帝
2026-04-22 21:16:25
工業(yè)和信息化部:將以更大力度超前布局未來(lái)產(chǎn)業(yè)

工業(yè)和信息化部:將以更大力度超前布局未來(lái)產(chǎn)業(yè)

新華社
2026-04-21 20:43:03
烏度卡:杜蘭特被包夾帶來(lái)了機(jī)會(huì),但申京連續(xù)兩場(chǎng)打得太猶豫

烏度卡:杜蘭特被包夾帶來(lái)了機(jī)會(huì),但申京連續(xù)兩場(chǎng)打得太猶豫

懂球帝
2026-04-22 15:35:10
法媒:大巴黎6300萬(wàn)買入扎巴爾尼,就是被伯恩茅斯“詐騙”了

法媒:大巴黎6300萬(wàn)買入扎巴爾尼,就是被伯恩茅斯“詐騙”了

懂球帝
2026-04-22 16:50:16
快訊!荷蘭新消息!

快訊!荷蘭新消息!

有態(tài)度的何總
2026-04-22 13:21:58
掛羊頭賣狗肉!《八千里路云和月》越看越離譜,于和偉也救不了

掛羊頭賣狗肉!《八千里路云和月》越看越離譜,于和偉也救不了

悅君兮君不知
2026-04-21 23:09:42
隊(duì)記:開(kāi)拓者曾有意面試名帥邁克-馬龍,但只愿給400萬(wàn)美元年薪

隊(duì)記:開(kāi)拓者曾有意面試名帥邁克-馬龍,但只愿給400萬(wàn)美元年薪

懂球帝
2026-04-22 22:21:01
笑不活了!女孩把雞畫得圓肥被判不合格,家長(zhǎng)把雞的照片發(fā)給老師

笑不活了!女孩把雞畫得圓肥被判不合格,家長(zhǎng)把雞的照片發(fā)給老師

火山詩(shī)話
2026-04-21 09:46:21
酒店里,擠滿了偷偷開(kāi)房的已婚女性

酒店里,擠滿了偷偷開(kāi)房的已婚女性

LULU生活家
2026-04-22 19:03:27
伊朗軍艦軍演返航時(shí)遭美軍擊沉致87死,幸存船員講述細(xì)節(jié):那里并非戰(zhàn)區(qū),事先沒(méi)有收到任何警告,他們的目標(biāo)是殺人

伊朗軍艦軍演返航時(shí)遭美軍擊沉致87死,幸存船員講述細(xì)節(jié):那里并非戰(zhàn)區(qū),事先沒(méi)有收到任何警告,他們的目標(biāo)是殺人

每日經(jīng)濟(jì)新聞
2026-04-22 00:08:27
2026-04-23 00:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12831文章數(shù) 142633關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒(méi)有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

醫(yī)院主任"巨額財(cái)產(chǎn)來(lái)源不明" 被指向女兒轉(zhuǎn)賬超800萬(wàn)

頭條要聞

醫(yī)院主任"巨額財(cái)產(chǎn)來(lái)源不明" 被指向女兒轉(zhuǎn)賬超800萬(wàn)

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂(lè)要聞

蜜雪冰城泰國(guó)代言人 被扒出辱華黑歷史

財(cái)經(jīng)要聞

醫(yī)院專家號(hào)"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

態(tài)度原創(chuàng)

手機(jī)
教育
藝術(shù)
數(shù)碼
公開(kāi)課

手機(jī)要聞

vivo Y600 Pro官宣,10200mAh耐低溫藍(lán)海電池

教育要聞

3分鐘學(xué)會(huì)一個(gè)雅思7分句/段(第340期)

藝術(shù)要聞

看!這些美女的眼神能讓你心醉神迷!

數(shù)碼要聞

英特爾酷睿Ultra公布“智能體PC”新概念:端云結(jié)合混合架構(gòu)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版