網易首頁 > 網易號 > 正文申請入駐

61.3%！「人類最后一場考試」AI終于及格了，揭秘Agent自我進化新路徑

2026-01-08 17:31:27　來源: AI科技評論

廣東舉報

分享至

拒絕微調，告別死記硬背：MemRL如何讓大模型擁有“會思考的長期記憶”？

導語：跨越及格線

“人類最后一場考試”（Humanity's Last Exam, HLE）一直被視為AI推理能力的“終極考驗”。面對這場匯聚了多學科專家級難題的極限測試，此前的大模型往往折戟沉沙。即便是強大的 Gemini-3-Pro，在沒有任何輔助的情況下，準確率也僅為35.7%；在允許AI訪問google search的情況下，準確率也僅為45.8% 。

然而，一項最新的研究打破了這一僵局。上海交通大學、西安電子科技大學、上海創(chuàng)智學院與記憶張量（MemTensor）的聯(lián)合團隊提出了一種名為MemRL的新框架，在不微調模型參數(shù)的前提下，讓 AI 的成績一舉躍升至61.3%。AI 終于及格了，但它做對的不僅僅是“刷題”，而是學會了像人類一樣從過往經驗中“提煉智慧”。

HLE 之所以被稱為“人類最后一場考試”，是因為它考驗的不再是單純的知識儲備，而是對人類資深專家級問題的深入理解和復雜推理能力。而這，恰恰擊中了當前大模型技術棧的軟肋。

02
痛點：為什么傳統(tǒng)的“外掛大腦”不管用？

在通往通用人工智能（AGI）的路上，我們一直希望 Agent 能像人類一樣持續(xù)學習。作者們嘗試過兩條路，但都很難走：

1.微調（Fine-tuning）：就像通過“做手術”來增加腦容量。成本高昂不說，還容易引發(fā)“災難性遺忘”，學了新知識，忘了舊本領。

2.RAG（檢索增強）：就像給 AI 一本“參考書”。但傳統(tǒng)的 RAG 是盲目檢索，它只看關鍵詞匹不匹配（語義相似度），卻不管檢索回來的內容對解決問題有沒有真正的幫助。

結果就是，Agent 往往檢索回來一堆看似相關實則無用的“噪聲”，導致推理失敗。

既然“改造大腦”（微調）太危險，“盲目翻書”（RAG）又不靠譜，有沒有一種方法，既能保持大腦的穩(wěn)定性，又能像人類一樣靈活地積累經驗？

03
破局：MemRL 的“認知覺醒”

答案就藏在我們的生物本能中，MemRL的核心理念受到了人類認知科學中構建性情景模擬的深刻啟發(fā)：將“穩(wěn)定的推理能力”與“動態(tài)的情景記憶”解耦。

這就好比一個聰明人（凍結的 LLM），他的智商是固定的，但他可以通過不斷優(yōu)化自己的“方法筆記”（進化的記憶）來解決新問題。MemRL 不再執(zhí)著于“我記得什么”，而是開始思考“過往的經歷中哪些經驗教訓是值得借鑒的，如果參考過往的某種做法接下來會發(fā)生什么”，進而得到改進后的策略，并在新策略付諸實施后根據(jù)結果再更新對過往經驗的評價。

1.核心機制——記憶的三元組

傳統(tǒng)的 RAG（檢索增強生成）只看“長得像不像”（語義相似度），而 MemRL 引入了一個更像人類的機制：“Intent-Experience-Utility”（意圖-經驗-效用）三元組。

簡單來說，每一次Memory不僅存儲了“我想做什么”（Intent）和“我做了什么”（Experience），更關鍵的是貼上了一個“這一招好不好用”的標簽（Utility/Q值）。這就像我們在腦海里給過去的經驗打分，下次遇到類似問題，不僅看誰相關，更看誰的參考價值更大。

2.它是如何“思考”的？——引入“價值評估”過程

MemRL 拋棄了傳統(tǒng)的簡單存儲，它為每一條記憶打上了一個Q值（效用分數(shù)）。

· 在檢索時，它不僅看“這條經驗和當前問題像不像”（階段A：語義召回）；

· 更會像一個嚴厲的批評家一樣審視：“歷史數(shù)據(jù)告訴我，用這條經驗解決這類問題，預期的結果好嗎？”（階段B：價值感知選擇）。

通過加權語義相似度以及效用分數(shù)，MemRL 能夠精準地從海量記憶中撈出那些真正能通向成功的“金鑰匙” 。

3.它是如何“進化”的？——無參數(shù)的自我修正

MemRL 的核心在于讓 Agent 在運行時“記住什么是有效的”。這一過程完全在記憶空間 (Memory Space) 內完成，不需要任何梯度傳播。

具體的進化包含兩個并行過程：

1.Q 值更新 (Refining Utilities)：當 Agent 完成任務并獲得環(huán)境反饋（Reward, 如成功/失敗或分數(shù)）后，我們會對剛才使用過的記憶進行“蒙特卡洛式更新”(Monte Carlo style update)。

· 我們使用One-step MDP 形式，將當前狀態(tài)視為終局，對記憶的Q值進行更新。

· 通過這一規(guī)則，記憶的 Q 值會被推向“經驗期望回報” (Empirical Expected Return)。

· 簡單來說：如果某條記憶剛才幫了大忙，它的 Q 值會上升，預示著它在相似的場景下具備更高的“參考價值”；反之則會降低。

2.經驗回寫 (Experience Expansion)：除了更新舊記憶，MemRL 還會將當前的完整軌跡（Trajectory）通過 LLM 總結為新的經驗，并且結合意圖（intent）以及初始化的效用（Q-init）成一個新的三元組 (Intent,Experience,Q-init)，寫入記憶庫。這意味著記憶庫不僅在“修正”舊知，還在不斷“擴充”新知。

04
實驗核心：Runtime 進化與記憶的真正價值

1. Main Results: 驚人的 Runtime Learning 能力

作者們在四大 Benchmark 上進行了測試：BigCodeBench(代碼生成)、ALFWorld(具身決策)、Lifelong Agent Bench(操作系統(tǒng)/數(shù)據(jù)庫交互) 和HLE(復雜推理)。對比基線包括Standard RAG、Self-RAG以及最先進的 Agent Memory 方法 (Mem0, MemP)。結論非常硬核（Table 1）：MemRL 不需要任何參數(shù)更新 (Training-free)，僅靠運行時積累經驗，就能實現(xiàn)持續(xù)的性能攀升。

· 在ALFWorld中，MemRL 的最終準確率達到69.7%，相比 MemP (45.6%) 提升了53%！

· 在HLE這種高難度基準上，MemRL 同樣刷新了記錄：首次突破60%。這證明了“非參數(shù)化強化學習”能讓 Agent 像人類一樣，通過 Trial-and-Error（試錯）在運行時持續(xù)學習，越來越強。

2. Transfer Learning: 舉一反三的泛化能力

不僅是“熟能生巧”，MemRL 還學會了“觸類旁通”。作者們測試了遷移學習場景 (Table 2)：讓 Agent 先訓練，然后凍結記憶庫，直接在30% 的未見任務 (Held-out sets)上測試。結果顯示： MemRL 在所有任務上都超越了 RAG 和 MemP。這意味著 MemRL 存儲的不僅僅是具體的“答案”，更是抽象的“高價值策略”。它成功過濾掉了那些只能解決特定訓練題的“過擬合記憶”，留下了真正能應對未知環(huán)境的通用經驗。

05
深入分析：不止羅列成果，

文章還提出了非常深入的分析與思考

1. 軌跡驗證器：長程任務更有提升空間 (Trajectory Verifier)

實驗數(shù)據(jù)（Table 3）揭示了一個關鍵現(xiàn)象：任務鏈路越長，MemRL 優(yōu)勢越大。

· 在單步任務 (BigCodeBench) 上提升較小 (+2.5 pp)；

· 但在多步順序任務 (ALFWorld)上，提升高達+24.1 pp！原因揭秘：傳統(tǒng) RAG 容易檢索到“開頭很像但結局跑偏”的錯誤經驗。而 MemRL 因為記錄了整條軌跡的 Q 值 (Utility)，它實際上充當了一個“軌跡驗證器” (Trajectory Verifier)。它能預判這條路走下去會不會“翻車”，從而在一開始就避開那些表面看似相關、實則會導致失敗的路徑。

2. 意外發(fā)現(xiàn)：從“差一點”中學習 (Near-misses)

這是一個反直覺但極具深意的發(fā)現(xiàn) (Figure 8b)。作者們在高 Q 值 (High-Utility) 的記憶庫中，發(fā)現(xiàn)了約12% 的失敗案例。深入分析發(fā)現(xiàn)，其中存在一些“Near-misses” (差一點就成功)的案例。它們雖然最終報錯（例如輸出格式微小錯誤），但整體推理邏輯是正確的。MemRL 敏銳地識別出了這些案例的“戰(zhàn)略價值”，將它們作為“糾錯指南”保留下來。這證明系統(tǒng)具備了從部分失敗中提取正確邏輯的高級能力，也符合人類從失敗中學習的認知原理。

3. 理論保證的穩(wěn)定性：告別災難性遺忘 (Stability Guarantee)

持續(xù)學習最怕“撿了芝麻丟西瓜”。在長期訓練動態(tài) (Figure 9) 中，作者們揭示了一個殘酷的現(xiàn)象：啟發(fā)式方法（如 MemP）往往出現(xiàn)CSR（歷史最佳）與當前準確率的脫節(jié)。這意味著新的探索無意中“覆蓋”了舊的成功策略，導致了災難性遺忘。

相比之下，MemRL 展現(xiàn)了更加一致的Synchronized Growth (同步增長)。這源于 MemRL 背后收斂穩(wěn)定性的理論保障，這也是MemRL與大多自進化智能體的核心區(qū)別：

· 蒙特卡洛式建模的收斂性 (Monte Carlo Style Modeling)：基于原文 Eq. 8 的建模，作者們在原文Section 4.5中給出了相應的理論分析，確保了算法的收斂穩(wěn)定性。

· 變分下界約束 (Variational Lower Bound)：不同于啟發(fā)式排序可能出現(xiàn)的隨機漂移，MemRL會推動策略去攀登“期望獎勵的變分下界”。

結論：這從理論層面鎖定了性能的單調不減 (Non-decreasing)，確保每一次更新都是在夯實地基，而非拆東墻補西墻。從這個實驗中我們也能得到一個有價值的啟發(fā)：在這個Agent爆發(fā)的時代，很多時候并不需要理論保障，僅通過直覺搭個“Agentic Pipeline”也能觀察到顯著的性能提升（如圖中藍色線條），那我們?yōu)槭裁匆パ芯坷碚撃?，通過這張圖，或許能窺見一部份答案。

4. 數(shù)據(jù)洞察：從數(shù)據(jù)集的語義空間到記憶泛化

在實驗的最后，作者們通過Figure 11探討了一個根本性問題：“長得像”是否意味著“更有用”？作者們的核心發(fā)現(xiàn)是：數(shù)據(jù)集內的相似度（Intra-dataset Similarity）與 Memory Gain（記憶帶來的性能提升）呈現(xiàn)出顯著的正相關性。

基于這一發(fā)現(xiàn)，作者們進一步解析了 MemRL 的收益來源，將其歸納為兩種截然不同的模式：

1.Positive Transfer (正向遷移)：在ALFWorld這類具有高相似度的任務中，MemRL 充分利用相似性快速復用歷史上的不同問題的最優(yōu)策略，從而獲得了最大的收益。

2.Runtime Memorization (運行時記憶)：在HLE這類低相似度/跨學科的任務中，雖然題目之間互不相同，但 MemRL 依然獲得了+21.6%的顯著提升。這得益于其強大的“單題突破”能力——即通過“記住”特定難題的解法來應對復雜場景。

結論：這解釋了 MemRL 為什么既能做“舉一反三”的通用推手（依靠 Transfer），也能做“博聞強記”的特定領域專家（依靠 Memorization）。

06
結語：邁向終身學習的 Agent

上海交大、西電、上海創(chuàng)智學院與記憶張量團隊的這項工作，為 AI 社區(qū)提供了一個優(yōu)雅的范式：我們不需要總是通過昂貴的訓練來讓模型變強，也不需要針對問題場景去精雕細琢所謂的“agentic pipeline”。

MemRL 證明了，一個凍結的大腦，配合一個不斷自我進化的記憶系統(tǒng)，就能實現(xiàn)持續(xù)的終身學習（Lifelong Learning）。這或許才是通往 AGI 更經濟、更高效的未來之路。

論文信息

· 論文標題：MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory

· 聯(lián)合團隊：上海交通大學、西安電子科技大學、上海創(chuàng)智學院、記憶張量（MemTensor）等

· arXiv 鏈接：https://arxiv.org/abs/2601.03192

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區(qū)進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.