国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepMind新論文炸鍋:AI全自動進化算法,寫出專家都想不到的解,網(wǎng)友:這可能就是“王牌”

0
分享至

  

  作者 | 木子

  說起 AI Coding,之前很多人好歹還有個“心理安慰”:AI 也就寫寫“腳手架代碼”、補補前端頁面,真到核心算法、業(yè)務(wù)邏輯,還是得人來。

  但這道“最后防線”,也正在松動。

  谷歌 DeepMind最近做了一件更狠的事:他們讓LLM 驅(qū)動的智能體,直接去改寫、進化算法代碼本身——不是調(diào)參數(shù),而是改算法邏輯。

  改完就丟進真實博弈環(huán)境里反復(fù)跑,自動評測、優(yōu)勝劣汰,一輪輪進化。

  結(jié)果呢?它真的做出了全新的多智能體學習算法,在多項測試中超過了人類專家手工打磨的版本。

  重要的是,這些機制并不直觀,屬于人類很難靠經(jīng)驗窮舉出來的解。

  更關(guān)鍵的是:人只用定義好了算法骨架,之后的搜索、修改、篩選,全程自動完成,不用手調(diào)參數(shù),不用反復(fù)試錯,也不靠研究者的直覺微調(diào)。

  

  這個智能體叫AlphaEvolve,延續(xù)了 DeepMind 一貫的“Alpha”命名傳統(tǒng)(AlphaGo、AlphaZero、AlphaFold)。其中 “Evolve” 意為“進化”,點明它的核心機制:通過類似生物進化的方式不斷改寫和篩選算法。

  這個 AlphaEvolve 本身去年就有,但這是它第一次被用來學習算法。

  它把 Gemini 系列大模型,和進化搜索結(jié)合起來,把代碼不斷生成、測試、篩選、再進化。

  

  DeepMind 把把研究過程和成果寫成了一篇 37 頁的論文,題為《基于大語言模型的多智能體學習算法自動發(fā)現(xiàn)》(Discovering Multiagent Learning Algorithms with Large Language Models),一發(fā)出來就炸了技術(shù)圈。

  

  有網(wǎng)友看完直呼,這玩意真挺“可怕”的:

“這看起來像是 DeepMind 手中的一張王牌,我認為它可能導(dǎo)致谷歌贏得比賽?!?/blockquote>

  

  有人銳評:

“這就像教一個孩子讀書,然后看著它自己編寫教科書?!?/blockquote>

  

  還有人已經(jīng)開始往更遠處想:既然 AI 已經(jīng)能設(shè)計更好的學習算法,那或許它也該先給自己設(shè)計一套更完善的“倫理引擎”,在 ASI 真正爆發(fā)之前,先把對齊這件事想清楚。

  

  人只選定算法框架,

  AI 全自動閉環(huán)進化

  來展開看看實驗設(shè)計和操作過程。

  需要說明的是,研究團隊沒有讓模型“從零寫算法”,而是選定兩個成熟框架:

  CFR(后悔最小化):CFR 算法族,依賴遞歸定義來累積后悔值并構(gòu)建平均策略。

  PSRO(策略種群訓(xùn)練):通過迭代計算最優(yōu)響應(yīng)并求解元策略,不斷擴展策略種群。

  過去,在不完全信息博弈求解(比如撲克)中,像 CFR、PSRO 這些經(jīng)典算法雖然理論扎實,但真正好用的“升級版”,還是要靠人類專家一點點憑經(jīng)驗調(diào)參、改規(guī)則、試出來。

  然后,研究人員把算法核心邏輯,拆成幾個可被改寫的 Python 函數(shù),例如:regret 累積規(guī)則、當前策略生成方式、平均策略更新規(guī)則、PSRO 的 meta-solver 邏輯。

  也就是說,他們只開放了“關(guān)鍵決策邏輯”給 LLM 改,其余框架固定。這一步很關(guān)鍵,相當于給進化定義“基因范圍”。

  接下來就進入真正的“進化環(huán)節(jié)”。

  AlphaEvolve 把當前算法代碼當作“個體”,由 LLM 生成若干語義上有意義的改寫版本:不是隨便亂改,而是改具體邏輯、控制流或更新規(guī)則。

  每一個改寫后的版本,都會被自動編譯、運行,然后丟進一組博弈環(huán)境里真實對戰(zhàn),用 exploitability 這樣的指標打分。表現(xiàn)更好的版本被保留下來,作為下一輪搜索的基礎(chǔ);表現(xiàn)差的直接淘汰。

  整個過程是閉環(huán)的:生成 → 運行 → 評估 → 篩選 → 再生成,循環(huán)推進。人類不參與中間調(diào)參,也不手動篩選,只負責設(shè)定規(guī)則和評價標準。

  

  圖注:這張示意圖也是 AI 做的

  結(jié)果,AI 進化出了兩個全新算法。

  先看 CFR 這一派。AlphaEvolve 進化出了 VAD-CFR。

  AI 沒有去調(diào)那點小參數(shù),而是直接改了“后悔值怎么累計、怎么打折、什么時候開始平均策略”這些核心邏輯。

  比如引入了 volatility-sensitive discounting(根據(jù)波動動態(tài)折扣)、hard warm-start schedule(前期蓄力、后期發(fā)力)這樣的機制。

  聽起來挺抽象的,但效果明顯:在多個博弈里,它超過了目前人類手工打磨出來的最強版本。

  

  這張圖很直觀,展示了多種 CFR 變體在不同博弈環(huán)境中的收斂表現(xiàn)。上半部分是用于搜索階段的訓(xùn)練游戲,下半部分是規(guī)模更大、更復(fù)雜的測試游戲。

  橫軸是迭代次數(shù)(最多 1000 次),縱軸是 exploitability(越低越接近均衡)。曲線降得越快、越低,說明算法越強。

  灰色那條線就是 VAD-CFR??梢钥吹?,在多數(shù)游戲里,它下滑得更快、落得更低,明顯壓過 CFR+、DCFR、PCFR+ 這些人類優(yōu)化過多輪的版本。

  在一些游戲中,大約 500 次迭代之后,曲線像突然“踩了油門”,下降速度明顯加快——這正是它預(yù)熱階段結(jié)束、正式發(fā)力的時刻。

  前半段像是在默默蓄力,后半段才真正沖刺。

  更關(guān)鍵的是,在規(guī)模更大、難度更高的測試游戲中,VAD-CFR 依然比傳統(tǒng)的 CFR、CFR+、DCFR 等人工設(shè)計的算法收斂更快、結(jié)果更優(yōu),沒有出現(xiàn)“只會做模擬題”的情況。

  這說明,它不是針對訓(xùn)練游戲做了小技巧,而是在算法結(jié)構(gòu)層面找到了一種更高效的更新方式。

  再看PSRO這一派:AI 進化出了SHOR-PSRO算法。

  它做的事情很簡單也很大膽:重新設(shè)計“元求解器”。

  傳統(tǒng)方法要么偏探索,要么偏逼近均衡,權(quán)衡是固定的。而 SHOR 直接把多種更新機制混合在一起,設(shè)計了一種混合型 meta-solver,而且隨著訓(xùn)練進程動態(tài)調(diào)整,讓訓(xùn)練過程自動從“多樣性探索”過渡到“逼近均衡”。

  

  這張圖,展示的就是它和 Uniform、Nash、AlphaRank、PRD、RM 等經(jīng)典方法的對比。

  圖中不同顏色代表不同元求解器:Uniform、Nash、AlphaRank、PRD、Regret Matching(RM),以及進化得到的 SHOR(棕色線)。

  整張圖分為上下兩部分。上半部分是訓(xùn)練游戲,下半部分是規(guī)模更大、更復(fù)雜的測試游戲,用來檢驗算法是否具有泛化能力。

  橫軸是 PSRO 迭代次數(shù)(最多 100 輪),縱軸是 exploitability(可被利用度,對數(shù)坐標);數(shù)值越低,說明算法越接近博弈均衡、表現(xiàn)越好。

  可以看到,在多數(shù)游戲中,SHOR 曲線下降更快,而且在第 100 次迭代時的 exploitability 更低,說明它在同樣迭代次數(shù)下更有效地逼近均衡。

  尤其是在更復(fù)雜的測試游戲中(如 4-player Kuhn、6-sided Liar’s Dice),SHOR 依然保持優(yōu)勢,沒有明顯退化。

  簡單說,SHOR-PSRO 在“什么時候多探索、什么時候?qū)W⒈平狻边@件事上,比傳統(tǒng)方法更靈活、更聰明。

  它不是靠調(diào)參數(shù)贏的,而是把調(diào)度邏輯本身改了。

  論文地址:

https://arxiv.org/abs/2602.16928

  https://x.com/hasantoxr/status/2026371848217456738

  https://deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/?utm_source=chatgpt.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
鐵血硬漢也繃不住了!巴拉克首談18歲愛子離世:痛到無法呼吸

鐵血硬漢也繃不住了!巴拉克首談18歲愛子離世:痛到無法呼吸

仰臥撐FTUer
2026-03-08 13:28:16
昨天預(yù)斷正在被證實,美軍應(yīng)確要10日左右進入伊朗領(lǐng)空大規(guī)模轟炸

昨天預(yù)斷正在被證實,美軍應(yīng)確要10日左右進入伊朗領(lǐng)空大規(guī)模轟炸

邵旭峰域
2026-03-08 11:32:48
5中門框、3球被吹!中超爆大冷:海港意外輸球,裁判成另類焦點!

5中門框、3球被吹!中超爆大冷:海港意外輸球,裁判成另類焦點!

話體壇
2026-03-07 22:11:59
朝鮮公開軍隊冬訓(xùn)畫面,網(wǎng)友:現(xiàn)代化軍事戰(zhàn)爭搞這有啥用?

朝鮮公開軍隊冬訓(xùn)畫面,網(wǎng)友:現(xiàn)代化軍事戰(zhàn)爭搞這有啥用?

映射生活的身影
2026-03-07 02:12:00
拿老U充當新U!國產(chǎn)筆記本CPU欺詐被揭穿:官方回應(yīng)含糊其辭

拿老U充當新U!國產(chǎn)筆記本CPU欺詐被揭穿:官方回應(yīng)含糊其辭

快科技
2026-03-06 12:05:08
全文來了!王毅答中外記者21個提問,涉及中美關(guān)系、中日關(guān)系、構(gòu)建人類命運共同體等

全文來了!王毅答中外記者21個提問,涉及中美關(guān)系、中日關(guān)系、構(gòu)建人類命運共同體等

環(huán)球網(wǎng)資訊
2026-03-08 11:50:44
美國和伊朗激戰(zhàn),日本警告特朗普:不能讓中國成為“最大贏家”

美國和伊朗激戰(zhàn),日本警告特朗普:不能讓中國成為“最大贏家”

空天力量
2026-03-08 10:06:54
電力設(shè)備再迎大利好!社?;鸩季值募毞铸堫^,只有這8家?

電力設(shè)備再迎大利好!社保基金布局的細分龍頭,只有這8家?

億通電子游戲
2026-03-08 12:23:49
美軍B2轟炸機來了,伊朗外長致電王毅,提一個請求,中方斬釘截鐵

美軍B2轟炸機來了,伊朗外長致電王毅,提一個請求,中方斬釘截鐵

面包夾知識
2026-03-06 14:15:50
迪拜"神話"一夜歸零,1枚導(dǎo)彈震碎50年繁華,零稅收也留不住人?

迪拜"神話"一夜歸零,1枚導(dǎo)彈震碎50年繁華,零稅收也留不住人?

云舟史策
2026-03-08 07:07:06
外資撤離印度越南,美媒大膽預(yù)言,中國西部將成新世界的工廠。

外資撤離印度越南,美媒大膽預(yù)言,中國西部將成新世界的工廠。

次元君情感
2026-03-08 15:39:49
人老了,想多活幾年,先管住自己十點:1、不摔倒,2、不勞累……

人老了,想多活幾年,先管住自己十點:1、不摔倒,2、不勞累……

小影的娛樂
2026-03-08 16:11:06
倪萍趕赴北京探望蔡磊,兩人擁抱畫面太催淚!蔡磊母親罕見露面!

倪萍趕赴北京探望蔡磊,兩人擁抱畫面太催淚!蔡磊母親罕見露面!

娛樂團長
2026-03-08 15:39:07
美以聯(lián)軍這波操作太狠了

美以聯(lián)軍這波操作太狠了

難得君
2026-03-05 00:05:25
黃仁勛:智能體AI成行業(yè)拐點,OpenClaw三周超越Linux

黃仁勛:智能體AI成行業(yè)拐點,OpenClaw三周超越Linux

環(huán)球網(wǎng)資訊
2026-03-07 11:23:08
中國駐伊朗女記者:爆炸中躲進衛(wèi)生間趕稿,不是最窘的事

中國駐伊朗女記者:爆炸中躲進衛(wèi)生間趕稿,不是最窘的事

上觀新聞
2026-03-07 15:07:07
劉詩詩直播美的好權(quán)威,金絲眼鏡+大波浪造型,讓她美的發(fā)光了

劉詩詩直播美的好權(quán)威,金絲眼鏡+大波浪造型,讓她美的發(fā)光了

明星私服穿搭daily
2026-03-05 07:24:32
人大代表畢利霞哽咽發(fā)言:老一輩的農(nóng)民為農(nóng)村改革發(fā)展奉獻了一輩子,懇請將農(nóng)村70歲以上老人養(yǎng)老金每月提高到400元,免除居民醫(yī)保費

人大代表畢利霞哽咽發(fā)言:老一輩的農(nóng)民為農(nóng)村改革發(fā)展奉獻了一輩子,懇請將農(nóng)村70歲以上老人養(yǎng)老金每月提高到400元,免除居民醫(yī)保費

大風新聞
2026-03-07 17:46:10
維斯塔潘談F1新規(guī):對任何事情的忍耐都是有限度的

維斯塔潘談F1新規(guī):對任何事情的忍耐都是有限度的

懂球帝
2026-03-08 17:33:16
為何要增加高中學位?因為不改現(xiàn)狀,五五分流根本撐不住

為何要增加高中學位?因為不改現(xiàn)狀,五五分流根本撐不住

老特有話說
2026-03-07 16:16:46
2026-03-08 19:04:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學家,提供AI領(lǐng)域技術(shù)資訊。
1347文章數(shù) 133關(guān)注度
往期回顧 全部

科技要聞

OpenClaw最大的推手是閑魚和小紅書

頭條要聞

美軍精銳空降師4000余人進入待命 被指或要推地面戰(zhàn)

頭條要聞

美軍精銳空降師4000余人進入待命 被指或要推地面戰(zhàn)

體育要聞

大傷后被交易,他說:22歲的我已經(jīng)死了

娛樂要聞

周迅新戀情曝光,李亞鵬等人已成過去

財經(jīng)要聞

油價要失控?

汽車要聞

9分鐘充飽 全新騰勢Z9GT首搭閃充技術(shù)26.98萬起

態(tài)度原創(chuàng)

本地
時尚
健康
教育
公開課

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

2026春夏一定要擁有的6只包,好看又百搭

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

教育要聞

全國政協(xié)委員孔維克:建議學制縮短至10年,逐步取消中考。(新黃河)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版