国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

61.3%!「人類最后一場考試」AI終于及格了,揭秘Agent自我進化新路徑

0
分享至

拒絕微調,告別死記硬背:MemRL如何讓大模型擁有“會思考的長期記憶”?

01

導語:跨越及格線

“人類最后一場考試”(Humanity's Last Exam, HLE)一直被視為AI推理能力的“終極考驗”。面對這場匯聚了多學科專家級難題的極限測試,此前的大模型往往折戟沉沙。即便是強大的 Gemini-3-Pro,在沒有任何輔助的情況下,準確率也僅為35.7%;在允許AI訪問google search的情況下,準確率也僅為45.8% 。

然而,一項最新的研究打破了這一僵局。上海交通大學、西安電子科技大學、上海創(chuàng)智學院與記憶張量(MemTensor)的聯(lián)合團隊提出了一種名為MemRL的新框架,在不微調模型參數(shù)的前提下,讓 AI 的成績一舉躍升至61.3%。AI 終于及格了,但它做對的不僅僅是“刷題”,而是學會了像人類一樣從過往經驗中“提煉智慧”。


HLE 之所以被稱為“人類最后一場考試”,是因為它考驗的不再是單純的知識儲備,而是對人類資深專家級問題的深入理解和復雜推理能力。而這,恰恰擊中了當前大模型技術棧的軟肋。

02
痛點:為什么傳統(tǒng)的“外掛大腦”不管用?

在通往通用人工智能(AGI)的路上,我們一直希望 Agent 能像人類一樣持續(xù)學習。作者們嘗試過兩條路,但都很難走:

1.微調(Fine-tuning):就像通過“做手術”來增加腦容量。成本高昂不說,還容易引發(fā)“災難性遺忘”,學了新知識,忘了舊本領 。

2.RAG(檢索增強):就像給 AI 一本“參考書”。但傳統(tǒng)的 RAG 是盲目檢索,它只看關鍵詞匹不匹配(語義相似度),卻不管檢索回來的內容對解決問題有沒有真正的幫助。

結果就是,Agent 往往檢索回來一堆看似相關實則無用的“噪聲”,導致推理失敗。

既然“改造大腦”(微調)太危險,“盲目翻書”(RAG)又不靠譜,有沒有一種方法,既能保持大腦的穩(wěn)定性,又能像人類一樣靈活地積累經驗?

03
破局:MemRL 的“認知覺醒”

答案就藏在我們的生物本能中,MemRL的核心理念受到了人類認知科學中構建性情景模擬的深刻啟發(fā):將“穩(wěn)定的推理能力”與“動態(tài)的情景記憶”解耦


這就好比一個聰明人(凍結的 LLM),他的智商是固定的,但他可以通過不斷優(yōu)化自己的“方法筆記”(進化的記憶)來解決新問題。MemRL 不再執(zhí)著于“我記得什么”,而是開始思考“過往的經歷中哪些經驗教訓是值得借鑒的,如果參考過往的某種做法接下來會發(fā)生什么”,進而得到改進后的策略,并在新策略付諸實施后根據(jù)結果再更新對過往經驗的評價 。

1.核心機制——記憶的三元組

傳統(tǒng)的 RAG(檢索增強生成)只看“長得像不像”(語義相似度),而 MemRL 引入了一個更像人類的機制:“Intent-Experience-Utility”(意圖-經驗-效用)三元組。

簡單來說,每一次Memory不僅存儲了“我想做什么”(Intent)和“我做了什么”(Experience),更關鍵的是貼上了一個“這一招好不好用”的標簽(Utility/Q值)。這就像我們在腦海里給過去的經驗打分,下次遇到類似問題,不僅看誰相關,更看誰的參考價值更大。

2.它是如何“思考”的?——引入“價值評估”過程

MemRL 拋棄了傳統(tǒng)的簡單存儲,它為每一條記憶打上了一個Q值(效用分數(shù))

· 在檢索時,它不僅看“這條經驗和當前問題像不像”(階段A:語義召回);

· 更會像一個嚴厲的批評家一樣審視:“歷史數(shù)據(jù)告訴我,用這條經驗解決這類問題,預期的結果好嗎?”(階段B:價值感知選擇)。

通過加權語義相似度以及效用分數(shù),MemRL 能夠精準地從海量記憶中撈出那些真正能通向成功的“金鑰匙” 。

3.它是如何“進化”的?——無參數(shù)的自我修正

MemRL 的核心在于讓 Agent 在運行時“記住什么是有效的”。這一過程完全在記憶空間 (Memory Space) 內完成,不需要任何梯度傳播。

具體的進化包含兩個并行過程:

1.Q 值更新 (Refining Utilities): 當 Agent 完成任務并獲得環(huán)境反饋(Reward, 如成功/失敗或分數(shù))后,我們會對剛才使用過的記憶進行“蒙特卡洛式更新”(Monte Carlo style update)。

· 我們使用One-step MDP 形式,將當前狀態(tài)視為終局,對記憶的Q值進行更新。

· 通過這一規(guī)則,記憶的 Q 值會被推向“經驗期望回報” (Empirical Expected Return)。

· 簡單來說:如果某條記憶剛才幫了大忙,它的 Q 值會上升,預示著它在相似的場景下具備更高的“參考價值”;反之則會降低。

2.經驗回寫 (Experience Expansion): 除了更新舊記憶,MemRL 還會將當前的完整軌跡(Trajectory)通過 LLM 總結為新的經驗,并且結合意圖(intent)以及初始化的效用(Q-init)成一個新的三元組 (Intent,Experience,Q-init),寫入記憶庫。這意味著記憶庫不僅在“修正”舊知,還在不斷“擴充”新知。


04
實驗核心:Runtime 進化與記憶的真正價值

1. Main Results: 驚人的 Runtime Learning 能力


作者們在四大 Benchmark 上進行了測試:BigCodeBench(代碼生成)、ALFWorld(具身決策)、Lifelong Agent Bench(操作系統(tǒng)/數(shù)據(jù)庫交互) 和HLE(復雜推理)。 對比基線包括Standard RAG、Self-RAG以及最先進的 Agent Memory 方法 (Mem0, MemP)。結論非常硬核(Table 1)MemRL 不需要任何參數(shù)更新 (Training-free),僅靠運行時積累經驗,就能實現(xiàn)持續(xù)的性能攀升。

· 在ALFWorld中,MemRL 的最終準確率達到69.7%,相比 MemP (45.6%) 提升了53%!

· 在HLE這種高難度基準上,MemRL 同樣刷新了記錄:首次突破60%。 這證明了“非參數(shù)化強化學習”能讓 Agent 像人類一樣,通過 Trial-and-Error(試錯)在運行時持續(xù)學習,越來越強。

2. Transfer Learning: 舉一反三的泛化能力


不僅是“熟能生巧”,MemRL 還學會了“觸類旁通”。 作者們測試了遷移學習場景 (Table 2):讓 Agent 先訓練,然后凍結記憶庫,直接在30% 的未見任務 (Held-out sets)上測試。 結果顯示: MemRL 在所有任務上都超越了 RAG 和 MemP。 這意味著 MemRL 存儲的不僅僅是具體的“答案”,更是抽象的“高價值策略”。它成功過濾掉了那些只能解決特定訓練題的“過擬合記憶”,留下了真正能應對未知環(huán)境的通用經驗

05
深入分析:不止羅列成果,

文章還提出了非常深入的分析與思考

1. 軌跡驗證器:長程任務更有提升空間 (Trajectory Verifier)


實驗數(shù)據(jù)(Table 3)揭示了一個關鍵現(xiàn)象:任務鏈路越長,MemRL 優(yōu)勢越大。

· 在單步任務 (BigCodeBench) 上提升較小 (+2.5 pp);

· 但在多步順序任務 (ALFWorld)上,提升高達+24.1 pp原因揭秘:傳統(tǒng) RAG 容易檢索到“開頭很像但結局跑偏”的錯誤經驗。而 MemRL 因為記錄了整條軌跡的 Q 值 (Utility),它實際上充當了一個“軌跡驗證器” (Trajectory Verifier)。它能預判這條路走下去會不會“翻車”,從而在一開始就避開那些表面看似相關、實則會導致失敗的路徑。

2. 意外發(fā)現(xiàn):從“差一點”中學習 (Near-misses)


這是一個反直覺但極具深意的發(fā)現(xiàn) (Figure 8b)。 作者們在高 Q 值 (High-Utility) 的記憶庫中,發(fā)現(xiàn)了約12% 的失敗案例。 深入分析發(fā)現(xiàn),其中存在一些“Near-misses” (差一點就成功)的案例。它們雖然最終報錯(例如輸出格式微小錯誤),但整體推理邏輯是正確的。MemRL 敏銳地識別出了這些案例的“戰(zhàn)略價值”,將它們作為“糾錯指南”保留下來。這證明系統(tǒng)具備了從部分失敗中提取正確邏輯的高級能力,也符合人類從失敗中學習的認知原理。

3. 理論保證的穩(wěn)定性:告別災難性遺忘 (Stability Guarantee)


持續(xù)學習最怕“撿了芝麻丟西瓜”。 在長期訓練動態(tài) (Figure 9) 中,作者們揭示了一個殘酷的現(xiàn)象:啟發(fā)式方法(如 MemP)往往出現(xiàn)CSR(歷史最佳)與當前準確率的脫節(jié)。這意味著新的探索無意中“覆蓋”了舊的成功策略,導致了災難性遺忘。

相比之下,MemRL 展現(xiàn)了更加一致的Synchronized Growth (同步增長)。這源于 MemRL 背后收斂穩(wěn)定性的理論保障,這也是MemRL與大多自進化智能體的核心區(qū)別

· 蒙特卡洛式建模的收斂性 (Monte Carlo Style Modeling):基于原文 Eq. 8 的建模,作者們在原文Section 4.5中給出了相應的理論分析,確保了算法的收斂穩(wěn)定性。

· 變分下界約束 (Variational Lower Bound):不同于啟發(fā)式排序可能出現(xiàn)的隨機漂移,MemRL會推動策略去攀登“期望獎勵的變分下界”。

結論:這從理論層面鎖定了性能的單調不減 (Non-decreasing),確保每一次更新都是在夯實地基,而非拆東墻補西墻。從這個實驗中我們也能得到一個有價值的啟發(fā):在這個Agent爆發(fā)的時代,很多時候并不需要理論保障,僅通過直覺搭個“Agentic Pipeline”也能觀察到顯著的性能提升(如圖中藍色線條),那我們?yōu)槭裁匆パ芯坷碚撃?,通過這張圖,或許能窺見一部份答案。

4. 數(shù)據(jù)洞察:從數(shù)據(jù)集的語義空間到記憶泛化


在實驗的最后,作者們通過Figure 11探討了一個根本性問題:“長得像”是否意味著“更有用”?作者們的核心發(fā)現(xiàn)是:數(shù)據(jù)集內的相似度(Intra-dataset Similarity)與 Memory Gain(記憶帶來的性能提升)呈現(xiàn)出顯著的正相關性。

基于這一發(fā)現(xiàn),作者們進一步解析了 MemRL 的收益來源,將其歸納為兩種截然不同的模式:

1.Positive Transfer (正向遷移):ALFWorld這類具有高相似度的任務中,MemRL 充分利用相似性快速復用歷史上的不同問題的最優(yōu)策略,從而獲得了最大的收益。

2.Runtime Memorization (運行時記憶):HLE這類低相似度/跨學科的任務中,雖然題目之間互不相同,但 MemRL 依然獲得了+21.6%的顯著提升。這得益于其強大的“單題突破”能力——即通過“記住”特定難題的解法來應對復雜場景。

結論:這解釋了 MemRL 為什么既能做“舉一反三”的通用推手(依靠 Transfer),也能做“博聞強記”的特定領域專家(依靠 Memorization)。

06
結語:邁向終身學習的 Agent

上海交大、西電、上海創(chuàng)智學院與記憶張量團隊的這項工作,為 AI 社區(qū)提供了一個優(yōu)雅的范式:我們不需要總是通過昂貴的訓練來讓模型變強,也不需要針對問題場景去精雕細琢所謂的“agentic pipeline”。

MemRL 證明了,一個凍結的大腦,配合一個不斷自我進化的記憶系統(tǒng),就能實現(xiàn)持續(xù)的終身學習(Lifelong Learning)。這或許才是通往 AGI 更經濟、更高效的未來之路。

論文信息

· 論文標題:MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory

· 聯(lián)合團隊:上海交通大學、西安電子科技大學、上海創(chuàng)智學院、記憶張量(MemTensor)等

· arXiv 鏈接:https://arxiv.org/abs/2601.03192

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區(qū)進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中醫(yī)怒斥:軟化血管騙了國人幾十年,洋蔥、黑木耳、魚油全都胡扯

中醫(yī)怒斥:軟化血管騙了國人幾十年,洋蔥、黑木耳、魚油全都胡扯

岐黃傳人孫大夫
2026-03-07 21:55:03
女生主動起來有多黏人?網友:這些女的太開放了

女生主動起來有多黏人?網友:這些女的太開放了

帶你感受人間冷暖
2026-01-27 00:20:06
1955年副軍職只授大校 他看了三遍名單:我二十年老紅軍不夠將軍

1955年副軍職只授大校 他看了三遍名單:我二十年老紅軍不夠將軍

鍋鍋愛歷史
2026-03-10 23:41:40
蘇聯(lián)式解體將重演?俄羅斯專家大膽預測:美國或將分裂成3個國家

蘇聯(lián)式解體將重演?俄羅斯專家大膽預測:美國或將分裂成3個國家

文史旺旺旺
2026-01-16 20:50:38
讀秒破門!歐冠神奇1戰(zhàn):紐卡一聲長嘆,亞馬爾助巴薩驚險身退

讀秒破門!歐冠神奇1戰(zhàn):紐卡一聲長嘆,亞馬爾助巴薩驚險身退

話體壇
2026-03-11 06:38:10
伊朗方面回應了,戰(zhàn)爭即將結束!

伊朗方面回應了,戰(zhàn)爭即將結束!

新浪財經
2026-03-11 02:56:10
中方最擔心的事情發(fā)生了,伊朗越過紅線,秘密武器直逼以方心臟?

中方最擔心的事情發(fā)生了,伊朗越過紅線,秘密武器直逼以方心臟?

小蘭聊歷史
2026-03-10 17:09:37
55歲主持人李靜自曝絕經過程,很快失去性魅力,連男人也沒興趣了

55歲主持人李靜自曝絕經過程,很快失去性魅力,連男人也沒興趣了

林輕吟
2026-02-23 07:16:08
奉勸男性:若不想被前列腺炎折磨下半生,盡早改掉這4大習慣!

奉勸男性:若不想被前列腺炎折磨下半生,盡早改掉這4大習慣!

全球軍事記
2026-03-02 10:13:18
在真正的代表呼吁提高養(yǎng)老金時,某些人連別“落石”,都那么難?

在真正的代表呼吁提高養(yǎng)老金時,某些人連別“落石”,都那么難?

走讀新生
2026-03-10 21:07:29
西方觀察家認為:這次的美伊以沖突會導致永久改寫臺海戰(zhàn)爭的規(guī)則

西方觀察家認為:這次的美伊以沖突會導致永久改寫臺海戰(zhàn)爭的規(guī)則

安安說
2026-03-06 11:28:08
別再裝修這些“家務刺客”!只是好看,難伺候卻是一輩子

別再裝修這些“家務刺客”!只是好看,難伺候卻是一輩子

裝修秀
2026-03-08 11:35:03
爸媽!真的不要再往馬桶里倒水了!

爸媽!真的不要再往馬桶里倒水了!

家居設計師宅哥
2026-03-08 18:21:44
消金圈大地震:M1、M2全面禁止委外催收

消金圈大地震:M1、M2全面禁止委外催收

新浪財經
2026-03-10 18:26:59
比賽還沒開打 山東泰山先迎來一個利好喜訊 取勝北京國安概率大增

比賽還沒開打 山東泰山先迎來一個利好喜訊 取勝北京國安概率大增

零度眼看球
2026-03-11 06:45:58
老板跑路澳洲,讓26名員工背債坐牢,上?!案黄艜辈刂裁??

老板跑路澳洲,讓26名員工背債坐牢,上?!案黄艜辈刂裁??

帥真商業(yè)
2026-03-09 18:50:01
賽季報銷被裁!被伊森毀掉職業(yè)生涯,剛展現(xiàn)天賦,才25歲無球可打

賽季報銷被裁!被伊森毀掉職業(yè)生涯,剛展現(xiàn)天賦,才25歲無球可打

你的籃球頻道
2026-03-10 08:09:57
恐怖!美軍的陰暗操作令世界不寒而栗

恐怖!美軍的陰暗操作令世界不寒而栗

補壹刀
2026-03-09 15:41:03
“地球上最危險的工作”:伊朗彈道導彈發(fā)射機組人員的生活

“地球上最危險的工作”:伊朗彈道導彈發(fā)射機組人員的生活

鐵錘妹妹是只貓
2026-03-09 02:15:52
再次提醒!中國公民暫勿前往;人臉驗證時千萬記得穿衣服;女子起訴離婚遭威脅,丈夫獲刑|早安,你好

再次提醒!中國公民暫勿前往;人臉驗證時千萬記得穿衣服;女子起訴離婚遭威脅,丈夫獲刑|早安,你好

全國婦聯(lián)女性之聲
2026-03-11 07:24:12
2026-03-11 08:04:49
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7111文章數(shù) 20739關注度
往期回顧 全部

科技要聞

蔚來今年要少虧150億,沖擊年度盈利

頭條要聞

"一對老夫妻雙雙129歲相戀100年"視頻引熱議 當?shù)鼗貞?/h3>

頭條要聞

"一對老夫妻雙雙129歲相戀100年"視頻引熱議 當?shù)鼗貞?/h3>

體育要聞

加蘭沒那么差,但鱸魚會用嗎?

娛樂要聞

《逐玉》注水風波升級!315評論區(qū)淪陷

財經要聞

“龍蝦補貼”密集出爐 最高1000萬!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

旅游
健康
親子
時尚
軍事航空

旅游要聞

獨好風景 向新而行從場景再造到品牌躍升的江西文旅實踐

轉頭就暈的耳石癥,能開車上班嗎?

親子要聞

老婆懷的是女孩嗎?

看來看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質

軍事要聞

剛說完戰(zhàn)爭很快結束 特朗普改口

無障礙瀏覽 進入關懷版