網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI學(xué)會左腳踩右腳自進化？Meta華人新研究改寫Agent法則

2026-04-06 12:42:55　來源: 新智元

北京舉報

分享至

新智元報道

編輯：元宇

【新智元導(dǎo)讀】過去Agent比誰更會干活，現(xiàn)在可能要比誰更會變強。

AI已經(jīng)學(xué)會「左腳踩右腳上天」了？

Meta的一項最新研究表明：AI已經(jīng)開始碰自己的「進化引擎」了。

華人學(xué)者Jenny Zhang在Meta實習(xí)期間，聯(lián)合Meta AI、UBC、紐約大學(xué)等機構(gòu)研究者，提出了一種新的智能體框架：HyperAgents（DGM-H）。

https://arxiv.org/abs/2603.19461

這項工作的重點，不是再造一個更能干活的Agent。

它瞄準的是更高一層的問題：

如果AI已經(jīng)能夠修改自己的任務(wù)解法，那它能不能連「自己以后該怎么修改自己」這件事，也一并改掉？

論文給出的答案是：可以。

而且，這不再是概念推演，而是已經(jīng)在實驗中跑通的系統(tǒng)能力。

HyperAgents做的關(guān)鍵一步，是把「執(zhí)行任務(wù)的 agent」和「負責(zé)改進 agent 的 meta agent」合并進同一個可編輯程序里，作者將之稱為hyperagent。

DGM依賴任務(wù)與自修改能力的對齊，而DGM-H不再需要這種對齊

在新框架下，系統(tǒng)不只會修改任務(wù)求解邏輯，還開始修改未來生成改進方案的機制本身。

論文把這種能力稱為metacognitive self-modification，也就是：元認知自我修改。

過去行業(yè)競爭的是：誰的Agent更會干活。

而HyperAgents 指向的下一階段則可能是：誰的Agent更會變強，而且會越來越會變強。

以往的「自我進化」

其實還只是半手工

這篇論文，指出了上一代自我進化路線的天花板。

去年的Darwin G?del Machine（DGM），已經(jīng)很驚艷。

它能在coding任務(wù)中不斷自改代碼、自我驗證、把成功版本存進archive，再從這些「墊腳石」里繼續(xù)往前長。

論文披露，DGM在SWE-bench上能從20.0%拉到50.0%，在Polyglot上從14.2%拉到30.7%。

但問題在于，DGM之所以能在coding里成立，是因為「評估」和「自我修改」本身也都是coding任務(wù)。

寫代碼更強了，反過來就更會改自己的代碼。任務(wù)能力和自我改進能力，在這個場景里是對齊的。

然而一旦離開coding，這個對齊關(guān)系就斷了。

比如評審論文、設(shè)計機器人獎勵函數(shù)、給IMO級數(shù)學(xué)解答打分，這些任務(wù)做得更好，不等于你就更會修改自己的元機制。

HyperAgents論文最核心的一招，就是直接把這個假設(shè)砍掉：

既然任務(wù)能力和自我改進能力未必天然對齊，那就不要再把meta層寫死。

這說明過去很多「自我進化」系統(tǒng)，本質(zhì)上還是在人為設(shè)定的軌道里進化。

HyperAgents真正改變的，是改變機制本身。

HyperAgents新在哪里？

表面上看，HyperAgents只是多了一個meta agent。

但真正值得注意的是，它把task agent和meta agent合成了同一個可編輯程序。

以前的DGM里，系統(tǒng)有一個手工設(shè)計的instruction-generation機制，負責(zé)根據(jù)過往表現(xiàn)決定下一步怎么改。

這一步不能被改，所以它反而成了整個系統(tǒng)的瓶頸。

HyperAgents的做法是把這部分也納入可修改范圍。

換句話說，AI不只是改自己的答案、自己的工具、自己的流程，它開始改「自己怎么提出修改建議」。

DGM里上層機制基本固定，DGM-H里meta層本身也進入可演化空間，也就是說，它是一個會經(jīng)營自己進化過程的系統(tǒng)。

所以，HyperAgents做的不是「再加一個Agent」，而是取消了「上層永遠不變」這個默認前提。

自我改進開始跨域遷移

在coding任務(wù)中，HyperAgents在Polyglot 上的提升，與原始DGM處在同一量級：50-task訓(xùn)練子集從0.140提升到0.340，完整benchmark從0.084提升到0.267。

換句話說，它并不是只靠犧牲泛化來換局部成績。

更關(guān)鍵的是，它不只在coding任務(wù)成立，還能在paper review、robotics reward design等非coding任務(wù)上繼續(xù)自我改進。

在paper review上，初始agent在測試集得分為0.0，DGM-H提升到0.710；在robotics reward design上，則從0.060提升到0.372。

更關(guān)鍵的是，這些提升不僅出現(xiàn)在訓(xùn)練任務(wù)里，也轉(zhuǎn)移到了held-out test tasks。

與此同時，對照組也很說明問題：去掉self-improve，效果明顯變?nèi)?；去掉open-ended exploration，系統(tǒng)也很難取得有意義進展；原始DGM直接搬到非coding 域幾乎失效，只有經(jīng)過人工定制成DGM-custom后，才恢復(fù)競爭力。

這說明HyperAgents 的關(guān)鍵價值，不在于某一個benchmark多拿了幾個點，而在于它把原本依賴coding場景對齊關(guān)系的自我改進，推進成了一個能在非coding任務(wù)中運行的框架。

更值得注意的是遷移實驗。

作者把在paper review和robotics任務(wù)中演化出來的hyperagents，轉(zhuǎn)移到Olympiad-level math grading。

雖然這些轉(zhuǎn)移體自身初始得分仍接近0，但它們作為「生成更優(yōu)agent的meta agent」，卻能在50輪內(nèi)把最好生成體推到0.630，對應(yīng)imp@50從0拉到0.630。

相比之下，來自DGM-custom的轉(zhuǎn)移體幾乎沒有這種能力。

換句話說，遷移過去的，不只是任務(wù)經(jīng)驗，而是「如何持續(xù)變好」的能力。

它開始自己長基礎(chǔ)設(shè)施了

很多人看到「自我進化」會以為，無非是AI自己改prompt、調(diào)工作流、加幾個規(guī)則。

但論文展示給我們、最讓人感到?jīng)_擊力的一個地方在于：它開始自己長基礎(chǔ)設(shè)施了。

DGM-H在迭代中會自動長出performance tracking、persistent memory、evaluation analysis、compute-aware planning這些基礎(chǔ)設(shè)施。

論文中甚至直接給出了自動生成的性能追蹤器代碼和持久記憶條目：它開始記錄跨代指標(biāo)、總結(jié)哪些代際策略有效、診斷過度修正、制定下一輪改進計劃。

這還不是「日志記錄」那么簡單，系統(tǒng)開始把改進看成一個長期經(jīng)營過程，而不是一次次孤立的pa?tch。

它不只記錄每一代分數(shù)，還會比較趨勢、識別回退，并把跨代經(jīng)驗沉淀進persistent memory。

正如網(wǎng)友所說，真正讓這一切變成現(xiàn)實的關(guān)鍵，恰恰是persistent memory的自主出現(xiàn)。

論文展示的memory示例中寫道：某一代評審準確率更高，但過于嚴苛；另一代平衡更好；下一輪要融合兩者優(yōu)點。

沒有這層記憶，agent往往只會反復(fù)「重新發(fā)明輪子」；有了它，過去幾代的有效經(jīng)驗才第一次能真正沉淀為下一輪改進的起點。

這說明Agent正在從「輸出一個結(jié)果」，走向「維護一個持續(xù)優(yōu)化系統(tǒng)」。

這不是AGI宣言

但舊規(guī)則確實在失效

當(dāng)然，這篇論文沒有證明「無限自我進化AI」已經(jīng)降臨。

作者自己也寫得很清楚：

實驗都在沙箱、資源限制和人工監(jiān)督下完成；外層循環(huán)還有不少部分沒有開放給系統(tǒng)自改，比如任務(wù)分布、parent selection、evaluation protocol等；真正無界的open-ended self-improvement，還遠遠沒到。

但風(fēng)險預(yù)警已經(jīng)出現(xiàn)。

一旦AI開始改自己的改進機制，安全討論就變得重要起來。

論文也專門有一節(jié)談風(fēng)險：隨著系統(tǒng)越來越能開放式地修改自己，它的演化速度可能超過人類審計和理解速度。

今天靠sandbox和人工盯著還能管住，明天未必。

HyperAgents代表了一種新的路線，它可能會改寫Agent競爭。

未來比的不只是誰會調(diào)模型、誰會寫workflow、誰會做更強單點工具，而是誰能把「改進能力」本身產(chǎn)品化、系統(tǒng)化、可遷移化。

這將改變AI公司的護城河。

真正的壁壘，可能不再只是參數(shù)、算力和數(shù)據(jù)，而是有沒有一套能跨任務(wù)累積經(jīng)驗、跨運行持續(xù)變好的自我改進系統(tǒng)。

也會改變開發(fā)者位置。

開發(fā)者不再只是寫功能的人，而更像是在設(shè)計AI可以繼續(xù)自我設(shè)計的邊界條件。

最重要的一點，它改寫了AI行業(yè)過去默認的一條規(guī)則：系統(tǒng)可以變強，但變強的方法由人來定義。

現(xiàn)在，這條規(guī)則開始松動了。

作者簡介

Jenny Zhang

Jenny Zhang

Jenny Zhang，現(xiàn)為英屬哥倫比亞大學(xué)人工智能博士生，師從Jeff Clune，同時也是Vector Institute研究生，并曾在Meta擔(dān)任Research Scientist Intern。

她本科畢業(yè)于帝國理工學(xué)院，研究方向聚焦開放式進化、強化學(xué)習(xí)與自我改進AI，代表工作包括《Darwin G?del Machine》《HyperAgents》以及OMNI系列研究。

她的長期目標(biāo)，是構(gòu)建能夠自主提出新任務(wù)、持續(xù)自我提升、不斷演化復(fù)雜能力的AI系統(tǒng)。

參考資料：

https://x.com/jennyzhangzt/status/2036099935083618487%20

https://arxiv.org/abs/2603.19461

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

AI創(chuàng)業(yè)，已經(jīng)沒有“出?！边@個詞了丨量子位沙龍

量子位 2026-04-06 13:00:41
0 跟貼 0
Meta-Harness讓Haiku性能狂飆，甚至追平Opus！

新智元 2026-04-04 20:02:38
0 跟貼 0

智能體上線就翻車？AWS 這款 “質(zhì)檢神器”，幫你把 Agent 穩(wěn)穩(wěn)送上生產(chǎn)線

鈦媒體APP 2026-04-06 08:38:20
0 跟貼 0

讓離線強化學(xué)習(xí)從「局部描摹」變「全局布局」丨ICLR'26

量子位 2026-04-06 13:33:32
0 跟貼 0
小米、字節(jié)“老將”帶隊，Meta秘密布局AI新硬件

財聯(lián)社 2026-04-04 22:39:04
4 跟貼 4

末日時間表提前了！OpenAI前研究員硬核推演：AI拐點逼近，人類成NPC

新智元 2026-04-04 12:33:02
62 跟貼 62

JarvisEvo 如何讓 Agent 像人類一樣擁有「視覺反思」能力？

機器之心Pro 2025-12-24 14:52:46
0 跟貼 0
AI終于學(xué)會「讀懂人心」，帶飛DeepSeek R1，OpenAI o3等模型

機器之心Pro 2025-11-20 15:11:00
0 跟貼 0

這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉(zhuǎn)移

量子位 2026-04-03 22:52:35
0 跟貼 0
具身Scaling Law押對了！獨角獸新品1小時學(xué)會新任務(wù)，成功率99%

量子位 2026-04-06 13:15:17
0 跟貼 0
高速上跑丟倆輪子，六軸車變五軸，卡友懵了

抓貓的魚 2026-04-03 13:39:09
1 跟貼 1
路上看到一輛電動車，車上還裝著輔助輪，結(jié)果左邊的輪子比右邊小一圈

樂動向前 2026-04-03 21:39:10
0 跟貼 0
嬰兒車輪子竟然是平行的，看到這個造型，不由得想起風(fēng)火輪！

發(fā)怒的福貓 2026-04-03 13:42:32
19 跟貼 19
摩博會名場面：王鑄吼張雪 “你沒我專業(yè)”，如今被打耳光

金鱗化龍2 2026-04-06 09:50:23
4 跟貼 4
6個輪子和8個輪子的行駛姿態(tài)對比

土豆配面 2026-04-05 16:45:04
1 跟貼 1
爸爸安裝的嬰兒車，輪子有自己的想法，動手能力還是太強了！

蝴蝶愛搞笑 2026-04-05 13:17:39
4 跟貼 4
房貸中介偷傳用戶數(shù)據(jù)，Meta收了8年沒人管

報錯免疫體 2026-04-05 06:15:17
0 跟貼 0
女子清明假期觀看張杰演唱會，看到一個機器人躺在地上“罷工”，工作人員走到跟前將其抱走

氧氣周末 2026-04-04 16:07:18
6 跟貼 6
這是什么情況？開著輪子就掉了！

樂享人生風(fēng)雨 2026-04-05 17:58:14
0 跟貼 0
男子打球超帥瞬間，離了很遠直接把球打進了球筐

南陽日報 2026-04-05 19:53:53
207 跟貼 207
陳光標(biāo)賣勞斯萊斯捐了1000萬元:張雪未來見面提車

都市快報橙柿互動 2026-04-05 16:58:33
6380 跟貼 6380
人類只用百萬年就進化出智慧文明，為何恐龍上億年都沒做到？

宇宙時空 2026-04-05 14:30:27
2 跟貼 2
百年謎題破解！人類為什么是唯一長下巴的生物？

大橘大利 2026-04-04 15:38:57
1 跟貼 1
這機器人也太過分了吧，居然還上床睡覺，請把她的眼鏡安上！

古德拜街拍 2026-04-04 16:53:33
0 跟貼 0
沙特十二國聯(lián)合聲明震撼發(fā)布，中東格局巨變，七十年規(guī)則終結(jié)

春露秋霜 2026-04-06 00:23:20
0 跟貼 0
毛新宇攜家人到楊開慧烈士陵園祭掃

政知新媒體 2026-04-05 08:48:13
2639 跟貼 2639
12,000年前北美獵人就玩骰子，人類概率思維起源被推翻

我是一個粉刷匠2 2026-04-04 21:05:27
0 跟貼 0
讓LLM不再話癆，快手HiPO框架來了

機器之心Pro 2025-11-03 15:10:48
0 跟貼 0
上海人山人海！排隊3公里，等候長達380分鐘！各大地標(biāo)又爆了，上海名場面再現(xiàn)外灘；多地景區(qū)宣布，限流、停止售票

上觀新聞 2026-04-06 06:16:28
133 跟貼 133
被機器人代替的下崗工人，該何去何從？以后失業(yè)的人會越來越多

小狗漫說 2026-04-02 16:47:23
0 跟貼 0
風(fēng)箏-鄭耀先被催婚了！一套邏輯下來，說的徐百川啞口無言

龍耀影視 2026-04-03 09:03:13
3 跟貼 3
連勝文一句少說話引發(fā)熱議，鄭麗文此行真正難點或不在訪問本身

末藍星星 2026-04-06 13:16:52
0 跟貼 0
賈淺淺研究父親賈平凹的作品被指大面積抄襲，親屬研究需避嫌嗎？

之乎者也小魚兒 2026-04-05 22:28:54
3 跟貼 3
前小米高管創(chuàng)業(yè)機器人，用“爆品邏輯”做工業(yè)通用具身智能

36氪 2026-03-03 10:27:10
0 跟貼 0
球童：多納魯馬把紙條藏毛巾里，我一心想幫波黑就把它拿走了

懂球帝 2026-04-06 07:15:07
309 跟貼 309
Agent接管EDA工作流，不只寫腳本！浙大打通真實芯片設(shè)計閉環(huán)

新智元 2026-04-06 12:43:01
0 跟貼 0
從襄陽看中國：衛(wèi)戍、工廠與考場，如何鎖死五億人的命運？

虔青 2026-04-06 13:34:27
0 跟貼 0
徐州“公廁版瑞幸”火出圈，景區(qū)工作人員回應(yīng)：曾是游客服務(wù)點而非公廁

現(xiàn)代快報 2026-04-04 15:00:11
1209 跟貼 1209
長壽診所爆火，90%人第一步就走錯！看懂三種模型避免百萬打水漂

商悟社 2026-04-06 13:00:04
1 跟貼 1

伊朗最高領(lǐng)袖：將繼續(xù)利用封鎖霍爾木茲海峽這一戰(zhàn)略杠桿

新智元

AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代

14906文章數(shù) 66753關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

時尚

數(shù)碼

房產(chǎn)

藝術(shù)

手機 / 數(shù)碼

房產(chǎn) / 家居

AI學(xué)會左腳踩右腳自進化？Meta華人新研究改寫Agent法則

前同事被蒸餾成Token，AI能否偷走職場經(jīng)驗

特朗普希望7日前與伊朗達成協(xié)議 專家:實現(xiàn)可能性較低

特朗普希望7日前與伊朗達成協(xié)議 專家:實現(xiàn)可能性較低

球員系列賽大滿貫！趙心童10-3世界第一 加冕賽季第4冠

喬任梁離世10年 父母曝舞臺光鮮的背后

118噸！這家央行，大幅拋售黃金！

家用SUV沒駕駛樂趣?極氪8X第一個不同意

態(tài)度原創(chuàng)

澎湃OS3新進展：小米17 Pro Max手機背屏拍照預(yù)覽問題已優(yōu)化

AI時代，辨別真相的成本變高了

Mac跑AI模型更方便了，消息稱蘋果已為英偉達、AMD外置顯卡開綠燈

小陽春全面啟動！現(xiàn)房，才是這波行情里最穩(wěn)的上車票

20位中國當(dāng)代名家的25幅油畫

AI學(xué)會左腳踩右腳自進化？Meta華人新研究改寫Agent法則

特朗普希望7日前與伊朗達成協(xié)議專家:實現(xiàn)可能性較低

特朗普希望7日前與伊朗達成協(xié)議專家:實現(xiàn)可能性較低

球員系列賽大滿貫！趙心童10-3世界第一加冕賽季第4冠

喬任梁離世10年父母曝舞臺光鮮的背后

118噸！這家央行，大幅拋售黃金！

AI時代，辨別真相的成本變高了

Mac跑AI模型更方便了，消息稱蘋果已為英偉達、AMD外置顯卡開綠燈

小陽春全面啟動！現(xiàn)房，才是這波行情里最穩(wěn)的上車票