国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

中科大少年班校友搞出“會(huì)進(jìn)化”的AI記憶,解題步驟直接砍半

0
分享至

今年 26 歲的魏天心,是中國科學(xué)技術(shù)大學(xué)少年班畢業(yè)生,目前在美國伊利諾伊大學(xué)香檳分校讀博,同時(shí)也是谷歌 DeepMind 的實(shí)習(xí)生。實(shí)習(xí)期間,他與所在團(tuán)隊(duì)圍繞大模型智能體在長期使用過程中如何積累和利用經(jīng)驗(yàn)這一問題,構(gòu)建了名為 Evo-Memory 的評測框架,用于系統(tǒng)性刻畫智能體在測試階段的記憶進(jìn)化行為,即如何在持續(xù)使用過程中,像人腦一樣不斷積累經(jīng)驗(yàn),并逐步提升解決問題的能力。


圖 | 魏天心(來源:魏天心)

魏天心讓 Evo-Memory 去挑戰(zhàn)數(shù)學(xué)競賽題目、研究生級(jí)別的科學(xué)問題、甚至讓其在虛擬實(shí)驗(yàn)室里完成復(fù)雜的多步驟人物。結(jié)果發(fā)現(xiàn)在某個(gè)虛擬任務(wù)中,新型 AI 的步驟從平均 22.6 步減少到了 11.5 步,這說明其學(xué)會(huì)了更優(yōu)的路徑和方法。

即使任務(wù)的難度突然變化,或者記憶里混入了一些失敗經(jīng)驗(yàn),記憶進(jìn)化之后的 AI 也能保持穩(wěn)定的表現(xiàn),因?yàn)樗鼤?huì)主動(dòng)整理和優(yōu)化記憶,而不是被雜亂的信息干擾。


(來源:https://arxiv.org/abs/2511.20857)

有了 Evo-Memory:AI 變得會(huì)更會(huì)搜索,面對新問題的時(shí)候 AI 會(huì)迅速在記憶里找到類似的情況;AI 也會(huì)變得更會(huì)思考,不僅會(huì)查看舊有答案,還會(huì)分析此前在給出舊有答案時(shí)是怎么想的以及使用了什么方法;AI 還會(huì)變得更會(huì)自我優(yōu)化,每當(dāng)解決一個(gè)新的問題,AI 就會(huì)把這次的經(jīng)驗(yàn)比如怎么想的、怎么做的、結(jié)果如何等內(nèi)容整理好,整理好之后還會(huì)扔掉沒用的、突出有用的。

這個(gè)過程叫做測試時(shí)進(jìn)化,即每次在被使用以及每次在解決問題的時(shí)候,AI 都在實(shí)時(shí)地自我學(xué)習(xí)和自我進(jìn)化。為了測試這種能力,魏天心設(shè)計(jì)了一個(gè)名為 Evo-Memory 的基準(zhǔn)測試,把數(shù)學(xué)題、科學(xué)實(shí)驗(yàn)和虛擬世界任務(wù)等十多種不同類型的挑戰(zhàn),編成連續(xù)的任務(wù)流,讓 AI 一個(gè)一個(gè)去完成,結(jié)果發(fā)現(xiàn)它果然可以借助以往經(jīng)驗(yàn)解決新問題。

魏天心告訴 DeepTech:“我們此次成果的核心貢獻(xiàn)是系統(tǒng)性地定義、設(shè)計(jì)并評估了大模型智能體的測試時(shí)學(xué)習(xí)能力。也就是在不改變模型訓(xùn)練參數(shù)的前提下,讓智能體通過自我演化,實(shí)現(xiàn)跨任務(wù)、跨時(shí)間的持續(xù)改進(jìn)?!?/p>


(來源:https://arxiv.org/abs/2511.20857)

過去兩年,大模型和 AI 智能體的能力提升很快,但在實(shí)際部署后魏天心發(fā)現(xiàn)它們幾乎不會(huì)從經(jīng)驗(yàn)中學(xué)習(xí)。大多數(shù)評測默認(rèn)它們是一次性系統(tǒng),而在現(xiàn)實(shí)中,智能體是長期運(yùn)行的。

它會(huì)不斷遇到新情況、會(huì)犯錯(cuò)、會(huì)修正,這才符合真實(shí)世界的背景。因此,本次研究不僅關(guān)注它當(dāng)下的能力,更關(guān)注它能否持續(xù)進(jìn)化、持續(xù)從經(jīng)驗(yàn)中學(xué)習(xí),并把這種進(jìn)化變成可控、可衡量的一個(gè)系統(tǒng)性過程。

為了讓 AI 學(xué)會(huì)進(jìn)化記憶,魏天心構(gòu)建了一個(gè)基準(zhǔn)測試框架,對相關(guān)方法進(jìn)行了全面評估,并在其中提出并實(shí)現(xiàn)了兩種關(guān)鍵測試方法,用于刻畫智能體在持續(xù)學(xué)習(xí)過程中的記憶進(jìn)化行為:

第一個(gè)方法叫做 ExpRAG,負(fù)責(zé)經(jīng)驗(yàn)檢索與聚合。其實(shí)它是一個(gè)錯(cuò)題本,每當(dāng) AI 遇到新題目的時(shí)候,它就會(huì)立馬去錯(cuò)題本里搜搜看,看看是否有類似的舊題目和舊答案。然后,它會(huì)把找到的舊有例子和當(dāng)前題目放在一起思考并給出新答案,最后再把這次的新經(jīng)歷記錄到錯(cuò)題本里。

第二個(gè)方法叫做 ReMem,它能讓 AI 進(jìn)行協(xié)同的推理、行動(dòng)和記憶,并能給 AI 裝上“三核處理器”。首先是思考核,專門負(fù)責(zé)分析問題和制定計(jì)劃;其次是行動(dòng)核,專門負(fù)責(zé)執(zhí)行具體的操作或者給出答案;再次是記憶整理核,這是一個(gè)全新的部分,它專門負(fù)責(zé)管理經(jīng)驗(yàn)寶箱,實(shí)時(shí)地判斷哪些記憶有用、哪些應(yīng)該合并或刪除,讓記憶庫始終保持在最佳狀態(tài)。

這三個(gè)核心協(xié)同工作,讓 AI 在解決問題的同時(shí),不僅可以思考怎么做,還能同步思考自己之前學(xué)的哪些經(jīng)驗(yàn)?zāi)軌蛴蒙稀⑦@次的新經(jīng)驗(yàn)應(yīng)該怎么存,真正實(shí)現(xiàn)了邊學(xué)邊用和越用越聰明。


(來源:https://arxiv.org/abs/2511.20857)

魏天心補(bǔ)充稱:“研究過程總體順利,但有幾個(gè)發(fā)現(xiàn)很有意思。一是如果記憶模塊設(shè)計(jì)不當(dāng),無法正確從經(jīng)驗(yàn)中學(xué)習(xí),錯(cuò)誤可能會(huì)隨時(shí)間積累,導(dǎo)致效果反而變差。二是目前很多方法難以在不同數(shù)據(jù)集上取得穩(wěn)定的提升。

這說明提升空間還很大,而且目前的方法大多只是提出了新的測試流程,尚未觸及更本質(zhì)的層面。未來,我認(rèn)為會(huì)有更多工作出現(xiàn),進(jìn)行更深入的分析和分離實(shí)驗(yàn),以獲得更本質(zhì)的結(jié)論。”

談及在 DeepMind 的實(shí)習(xí)體會(huì),他表示:“首先,DeepMind 最直觀的感受是研究氛圍十分濃厚,同時(shí)內(nèi)部交流非常開放。你可以很容易地在內(nèi)部找到在相關(guān)方向有深入研究的研究人員進(jìn)行討論,無論資歷或崗位背景,都可以圍繞具體研究問題直接溝通,使想法能夠被快速反饋和打磨。

此外,公司的整體工作環(huán)境和支持條件包括食堂健身房等都非常好。在實(shí)習(xí)過程中,我還進(jìn)一步了解了公司重點(diǎn)關(guān)注的前沿研究方向和核心業(yè)務(wù),這對我后續(xù)的研究方向和發(fā)展規(guī)劃產(chǎn)生了積極影響?!?/p>

一步步走到今天,他也感恩于父母的幫助和支持。他回憶稱:“一方面,父母沒有給我很大壓力,不會(huì)因?yàn)槲夷炒慰荚嚮驙顟B(tài)的起伏而施加額外壓力。另一方面,對于一些關(guān)鍵機(jī)會(huì),比如報(bào)考中科大少年班或者參加競賽學(xué)習(xí),都是父母建議和鼓勵(lì)我去嘗試的。

如果沒有他們的信息搜集和建議,我可能在高二時(shí)就不知道還有這樣的渠道,從而錯(cuò)過機(jī)會(huì)。所以,父母在信息搜集和長遠(yuǎn)規(guī)劃上的作用非常大。作為學(xué)生,準(zhǔn)備高考和競賽壓力大,很容易忽略這些信息,而父母從旁觀者的角度能更好地幫助梳理?!?/p>

目前,魏天心在美國伊利諾伊大學(xué)香檳分校讀博士五年級(jí),主要研究方向是大模型與智能體的高效化研究,包括長期推理、自我進(jìn)化以及在推薦系統(tǒng)等領(lǐng)域的應(yīng)用。

參考資料:

相關(guān)論文 https://arxiv.org/abs/2511.20857

運(yùn)營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
英媒:當(dāng)初德日不該逼迫中國自研機(jī)床技術(shù),如今他們壟斷全球市場

英媒:當(dāng)初德日不該逼迫中國自研機(jī)床技術(shù),如今他們壟斷全球市場

科普100克克
2026-01-02 17:00:09
黑社會(huì)去哪了?原來都藏在這4個(gè)場所,老百姓千萬別惹

黑社會(huì)去哪了?原來都藏在這4個(gè)場所,老百姓千萬別惹

小鹿姐姐情感說
2026-01-18 11:59:56
盤點(diǎn)史上最震撼的十大對聯(lián),皆是精妙絕倫的千古絕對,哪個(gè)最妙?

盤點(diǎn)史上最震撼的十大對聯(lián),皆是精妙絕倫的千古絕對,哪個(gè)最妙?

長風(fēng)文史
2026-01-14 11:36:27
還原花榮射殺晁蓋的全過程:唯一重要目擊者,為何不向林沖報(bào)告?

還原花榮射殺晁蓋的全過程:唯一重要目擊者,為何不向林沖報(bào)告?

何咯說
2026-01-19 13:23:30
爭議 19歲溫瑞博丟冠后沮喪領(lǐng)獎(jiǎng):未與周啟豪合影 沒打招呼便離開

爭議 19歲溫瑞博丟冠后沮喪領(lǐng)獎(jiǎng):未與周啟豪合影 沒打招呼便離開

風(fēng)過鄉(xiāng)
2026-01-19 07:47:24
王鶴棣演唱會(huì)意外揭露與虞書欣CP解體,趙露思出現(xiàn)就是最好證明?

王鶴棣演唱會(huì)意外揭露與虞書欣CP解體,趙露思出現(xiàn)就是最好證明?

東方不敗然多多
2026-01-19 09:42:17
美國大型科技股在法蘭克福交易所下跌,英偉達(dá)跌2%,微軟與谷歌跌2.3%

美國大型科技股在法蘭克福交易所下跌,英偉達(dá)跌2%,微軟與谷歌跌2.3%

每日經(jīng)濟(jì)新聞
2026-01-19 15:22:04
問政江蘇|采光、綠化難兼顧?蘇州一小區(qū)樹木被疑“過度修剪”

問政江蘇|采光、綠化難兼顧?蘇州一小區(qū)樹木被疑“過度修剪”

揚(yáng)子晚報(bào)
2026-01-19 10:16:04
18日深夜WTT球星賽大結(jié)局:中國3冠日韓各1冠獎(jiǎng)金出爐

18日深夜WTT球星賽大結(jié)局:中國3冠日韓各1冠獎(jiǎng)金出爐

風(fēng)風(fēng)拒絕焦慮
2026-01-19 11:06:11
不是迷信!明日大寒,記得:1不扔,2不洗,吃3樣,過吉祥順心年

不是迷信!明日大寒,記得:1不扔,2不洗,吃3樣,過吉祥順心年

神牛
2026-01-19 07:31:43
江西殺豬宴跟風(fēng)翻車,百桌宴席涌來五萬人,鎮(zhèn)政府回應(yīng)沒人掀桌子

江西殺豬宴跟風(fēng)翻車,百桌宴席涌來五萬人,鎮(zhèn)政府回應(yīng)沒人掀桌子

攬星河的筆記
2026-01-18 22:21:51
深度思考!有色金屬價(jià)上漲,市場崩盤預(yù)兆?還是逆襲上位的表現(xiàn)?

深度思考!有色金屬價(jià)上漲,市場崩盤預(yù)兆?還是逆襲上位的表現(xiàn)?

娛樂八卦木木子
2026-01-19 14:41:51
日本俳句,變成了中國網(wǎng)友的“鬼子砍刀”

日本俳句,變成了中國網(wǎng)友的“鬼子砍刀”

虎嗅APP
2025-12-28 14:54:28
王艷曬倆兒子合照!繼子罕出鏡和球球關(guān)系親密,王艷和他像同齡人

王艷曬倆兒子合照!繼子罕出鏡和球球關(guān)系親密,王艷和他像同齡人

琴聲飛揚(yáng)
2026-01-19 14:18:46
中央定調(diào),延遲退休實(shí)施后,晚退休1個(gè)月,養(yǎng)老金待遇能多1%嗎?

中央定調(diào),延遲退休實(shí)施后,晚退休1個(gè)月,養(yǎng)老金待遇能多1%嗎?

另子維愛讀史
2026-01-17 20:18:37
高齡補(bǔ)貼漲錢了,2025年,滿70歲的退休人員符合要求嗎?

高齡補(bǔ)貼漲錢了,2025年,滿70歲的退休人員符合要求嗎?

貓叔東山再起
2026-01-13 10:05:03
精致的職場小姐姐

精致的職場小姐姐

牛彈琴123456
2026-01-14 10:31:51
涉嫌嚴(yán)重違紀(jì)違法,正廳級(jí)干部周雄被查

涉嫌嚴(yán)重違紀(jì)違法,正廳級(jí)干部周雄被查

吉刻新聞
2026-01-18 19:30:13
別再可憐李詠了!離世7年后醫(yī)生揭秘離世真相,難怪選擇葬身美國

別再可憐李詠了!離世7年后醫(yī)生揭秘離世真相,難怪選擇葬身美國

LULU生活家
2025-12-29 18:30:47
1979年,粟裕與葉劍英反對對越南動(dòng)武,陳云說了什么,讓鄧小平最終下定決心?

1979年,粟裕與葉劍英反對對越南動(dòng)武,陳云說了什么,讓鄧小平最終下定決心?

文史明鑒
2026-01-18 21:56:13
2026-01-19 15:56:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
16147文章數(shù) 450817關(guān)注度
往期回顧 全部

科技要聞

這一仗必須贏!馬斯克死磕芯片"9個(gè)月一更"

頭條要聞

特朗普:解決俄對格陵蘭島威脅時(shí)機(jī)已到 是時(shí)候行動(dòng)了

頭條要聞

特朗普:解決俄對格陵蘭島威脅時(shí)機(jī)已到 是時(shí)候行動(dòng)了

體育要聞

21年后,中國男足重返亞洲四強(qiáng)

娛樂要聞

離婚三年,孫怡董子健首次公開互動(dòng)

財(cái)經(jīng)要聞

公章爭奪 家族反目 雙星為何從頂端跌落?

汽車要聞

徐軍:沖擊百萬銷量,零跑一直很清醒

態(tài)度原創(chuàng)

數(shù)碼
本地
藝術(shù)
公開課
軍事航空

數(shù)碼要聞

zalman思民推出ZM-VS3 DS顯卡支架,配備溫度、時(shí)間數(shù)顯屏

本地新聞

云游內(nèi)蒙|黃沙與碧波撞色,烏海天生會(huì)“混搭”

藝術(shù)要聞

有一種美,叫做中國園林!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

古美關(guān)系高度緊張 古巴啟動(dòng)"戰(zhàn)爭狀態(tài)"

無障礙瀏覽 進(jìn)入關(guān)懷版