国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AlphaEvolve再進(jìn)化!DeepMind用AI「養(yǎng)殖」算法,碾壓所有人類設(shè)計

0
分享至


新智元報道

編輯:定慧

【新智元導(dǎo)讀】DeepMind最新論文:用AlphaEvolve把算法源代碼當(dāng)基因組,讓Gemini充當(dāng)遺傳算子,對博弈論算法進(jìn)行「自然選擇」。進(jìn)化出的全新算法,采用了人類研究者從未想過的反直覺機(jī)制,在幾乎所有測試博弈中碾壓人類花了幾十年設(shè)計的最優(yōu)方案。AI不再只是執(zhí)行算法——它開始自己發(fā)明算法了。

谷歌DeepMind剛剛放了一個大衛(wèi)星。

他們用AlphaEvolve硬生生「繁殖」出了一批全新的博弈論算法。

這些算法不僅在性能上全面碾壓人類花了幾十年精心設(shè)計的經(jīng)典方案,更令人頭皮發(fā)麻的是:

它們使用的底層機(jī)制,反直覺到?jīng)]有任何一個人類研究者會想到去嘗試。


論文地址:https://arxiv.org/pdf/2602.16928

代碼即基因組。LLM即造物主。

這一次,AI不是在幫人類寫代碼——它在自己發(fā)明數(shù)學(xué)。


這不是「讓ChatGPT寫個算法

首先,框架設(shè)定至關(guān)重要。

你可能以為這就是對著大模型說「幫我優(yōu)化一下這個函數(shù)」,然后它吐出一段差不多的代碼。

不是的。


把Gemini當(dāng)基因工程師使的進(jìn)化式編碼智能體

這是AlphaEvolve,谷歌DeepMind構(gòu)建的進(jìn)化式編碼智能體。

它的工作方式,更接近于達(dá)爾文而不是程序員。

它把算法的源代碼當(dāng)作基因組(genome)。

LLM充當(dāng)遺傳算子(genetic operator),對代碼進(jìn)行變異——重寫邏輯、注入新的控制流、對符號操作進(jìn)行變異。

然后,它在一組博弈論基準(zhǔn)游戲上評估每個「后代算法」的適應(yīng)度——誰的可利用度(exploitability)降得最低,誰就活下來。

活下來的算法進(jìn)入下一代,繼續(xù)被變異、評估、篩選。

這不是提示工程。這是代碼的自然選擇。

目標(biāo):博弈論的兩大基石算法家族

AlphaEvolve瞄準(zhǔn)的目標(biāo),是多智能體強(qiáng)化學(xué)習(xí)(MARL)中兩個最核心的算法家族:

反事實(shí)遺憾最小化(Counterfactual Regret Minimization, CFR)策略空間響應(yīng)預(yù)言(Policy Space Response Oracles, PSRO)。


如果你玩過德?lián)銩I、或者聽說過Libratus和Pluribus那些碾壓人類撲克高手的AI——沒錯,它們的核心就是這兩樣?xùn)|西。

它們的任務(wù)是在不完全信息博弈中找到納什均衡——也就是讓每個玩家都無法通過單方面改變策略來獲得更好結(jié)果的那個「完美平衡點(diǎn)」。


過去幾十年,研究者們一直在手動調(diào)參、憑直覺設(shè)計這些算法的變體:CFR+、DCFR、PCFR+、LCFR……每一個變體都是某個聰明絕頂?shù)牟┺恼撗芯空哽`光一閃的產(chǎn)物。

但AlphaEvolve說:讓我來。


為什么博弈論算法的設(shè)計這么難?

要理解這篇論文的分量,先得明白一個背景:不完全信息博弈是AI領(lǐng)域最硬的骨頭之一。

什么叫不完全信息博弈?簡單說——你不知道對手手里有什么牌。

德州撲克、騙子骰、甚至國際談判,本質(zhì)上都是這類問題。在這些場景中,你看到的只是「信息集」(information set)——一組你無法區(qū)分的博弈狀態(tài)。你的策略必須對同一信息集下的所有可能情況都做出合理回應(yīng)。

衡量一個算法好不好,博弈論有個硬核指標(biāo)叫可利用度(Exploitability)。

直覺上說,它度量的是:如果對手知道你的策略并針對性地反擊,你會虧多少。可利用度為零,意味著你的策略是納什均衡——任何對手都無法通過單方面改變策略來占你便宜,這是博弈論中的「終極境界」。

幾十年來,研究者們?yōu)榱俗屗惴ǜ斓乇平{什均衡,一直在手動迭代設(shè)計。這個過程是這樣的:

某位頂級研究者憑數(shù)學(xué)直覺觀察到一種規(guī)律 → 將其形式化為一個新的折現(xiàn)方案/權(quán)重函數(shù)/遺憾處理規(guī)則 → 在數(shù)學(xué)上證明收斂性 → 在幾個標(biāo)準(zhǔn)博弈上做實(shí)驗(yàn) → 發(fā)表論文

每一步都需要人類直覺。

問題是,這些算法的設(shè)計空間是組合爆炸級別的——你怎么折現(xiàn)歷史遺憾?

正遺憾和負(fù)遺憾要不要區(qū)別對待?策略平均什么時候開始?用什么權(quán)重?這些選擇的排列組合,遠(yuǎn)超任何研究者能逐一驗(yàn)證的范圍。

論文的核心洞察在于:算法設(shè)計本質(zhì)上是一個搜索問題。


人類研究者受限于數(shù)學(xué)可推導(dǎo)性,大多只能在「優(yōu)雅但有限」的設(shè)計空間里搜索——比如線性平均、固定折現(xiàn)、對稱處理。但如果把搜索空間擴(kuò)展到任意可執(zhí)行代碼呢?

AlphaEvolve做的正是這件事。

它不是在調(diào)超參數(shù),而是在進(jìn)化符號代碼(symbolic code)。

LLM理解代碼的語義,能做出「有意義的變異」——不是隨機(jī)翻轉(zhuǎn)一個比特,而是「把這個線性調(diào)度改成指數(shù)調(diào)度」「給正遺憾加一個增強(qiáng)系數(shù)」「在前500次迭代跳過策略累積」。

這讓搜索空間從人類直覺所及的幾百種可能,暴漲到LLM能觸及的幾乎無限種合理變體。

傳統(tǒng)方法:人類設(shè)計算法,機(jī)器執(zhí)行算法。

AlphaEvolve:機(jī)器設(shè)計算法,機(jī)器執(zhí)行算法,人類在旁邊看著驚掉下巴。


一句話說清楚這篇論文到底干了啥

這篇論文的故事其實(shí)特別簡單:

想象你是一個撲克高手教練。你手下有一套打牌的策略手冊,幾十年來,全靠你和其他聰明人一條條手寫規(guī)則、反復(fù)試錯,才慢慢改進(jìn)到今天的水平。

現(xiàn)在,DeepMind做了一件事——他們把這本策略手冊的每一頁、每一條規(guī)則,都變成了一段可以被改寫的代碼。

然后他們放出了一個AI(AlphaEvolve),讓它像大自然培育物種一樣,不停地改寫這些規(guī)則、測試效果、淘汰差的、留下好的。

跑了無數(shù)代之后,這個AI進(jìn)化出了兩套全新的策略手冊。

第一套叫VAD-CFR,它學(xué)會了三件人類教練從來沒想過的事:局勢混亂時果斷忘掉舊經(jīng)驗(yàn),發(fā)現(xiàn)好招時立刻加倍下注,前500輪純學(xué)習(xí)不做總結(jié)。聽起來很奇怪對吧?但它就是比所有人類設(shè)計的方法都好用。


第二套叫SHOR-PSRO,它學(xué)會了前期大膽試探,后期精準(zhǔn)收網(wǎng)——而且訓(xùn)練和考試用不同的策略,訓(xùn)練時求穩(wěn),考試時求準(zhǔn)。


最關(guān)鍵的一點(diǎn)是:這些新規(guī)則不是AI從某本教科書里抄來的,而是它自己「進(jìn)化」出來的。

人類博弈論專家看到這些規(guī)則后的第一反應(yīng)是——「這也行?」

但數(shù)據(jù)不會騙人。在幾乎所有測試的博弈場景中,AI進(jìn)化出來的算法都打敗了人類花了幾十年心血設(shè)計的最好方案。

所以這篇論文真正在說的是:AI已經(jīng)不只是在執(zhí)行人類寫的算法了,它開始自己發(fā)明算法——而且發(fā)明得比人類還好。

這意味著什么?

讓我們退一步,看看這件事的全貌。

過去,博弈論算法的進(jìn)步長這樣:

某個頂級研究者花幾個月甚至幾年時間,憑直覺和數(shù)學(xué)推導(dǎo),提出一個新的折現(xiàn)方案或權(quán)重函數(shù) → 在幾個博弈上驗(yàn)證 → 發(fā)論文 → 社區(qū)驚呼「天才」

現(xiàn)在呢?

AlphaEvolve啟動 → Gemini對代碼進(jìn)行變異 → 自動評估適應(yīng)度 → 進(jìn)化選擇 → 輸出一個人類研究者根本不會想到的算法 → 在11個博弈中碾壓所有前輩

這不只是效率的提升。

這是范式的轉(zhuǎn)換。


論文的結(jié)論部分這樣說:

「我們的結(jié)果表明,自動發(fā)現(xiàn)的算法不對稱性——特別是那些管理遺憾縮放和動態(tài)混合調(diào)度的機(jī)制——能夠產(chǎn)生對人類直覺而言難以捉摸、但在實(shí)踐中極其有效的求解器。」

翻譯成人話就是:AI發(fā)現(xiàn)了人類想不到的數(shù)學(xué)。

而且這些「想不到的數(shù)學(xué)」不是什么花哨的噱頭,而是實(shí)打?qū)嵉卦谛阅苌辖y(tǒng)治了整個基線方陣。

DeepMind在論文最后也給了未來方向的暗示——

他們計劃將這個進(jìn)化框架應(yīng)用到深度強(qiáng)化學(xué)習(xí)智能體的完整設(shè)計中去,以及探索合作博弈中的機(jī)制發(fā)現(xiàn)。

想象一下:不只是博弈論算法,而是讓AI進(jìn)化出整個學(xué)習(xí)范式。

代碼的「自然選擇」,這才剛剛開始。

參考資料:

https://x.com/rryssf_/status/2027062703144284521

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“兒子下肢已壞了,你還讓他跳繩!”低認(rèn)知的殘忍,只有自我感動

“兒子下肢已壞了,你還讓他跳繩!”低認(rèn)知的殘忍,只有自我感動

蝴蝶花雨話教育
2026-02-24 15:29:04
林詩棟再次輸給小勒布倫,國乒“二哥”也極有可能被“圖圖”奪了

林詩棟再次輸給小勒布倫,國乒“二哥”也極有可能被“圖圖”奪了

鴻印百合
2026-02-28 23:15:19
輪胎成為壓垮電車車主的稻草,加上超高的保險費(fèi),省錢已成為笑話

輪胎成為壓垮電車車主的稻草,加上超高的保險費(fèi),省錢已成為笑話

柏銘銳談
2026-01-26 23:50:34
聯(lián)合國爆發(fā)爭端,凌晨中美大吵一架,美國犯下大錯,局勢已惡化

聯(lián)合國爆發(fā)爭端,凌晨中美大吵一架,美國犯下大錯,局勢已惡化

芊芊子吟
2026-02-26 11:26:11
美以發(fā)動襲擊,伊朗亮劍,中國面臨的“?!芭c”機(jī)”!

美以發(fā)動襲擊,伊朗亮劍,中國面臨的“危“與”機(jī)”!

華山穹劍
2026-02-28 20:27:31
為5胞胎接生的專家肉眼可見地老了,孩子媽發(fā)聲,獲人民日報轉(zhuǎn)發(fā)

為5胞胎接生的專家肉眼可見地老了,孩子媽發(fā)聲,獲人民日報轉(zhuǎn)發(fā)

哄動一時啊
2026-02-28 20:05:43
張愛萍兒子攜父親書信,登門求助溫玉成,溫冷漠拒絕還說他鬧事

張愛萍兒子攜父親書信,登門求助溫玉成,溫冷漠拒絕還說他鬧事

談古論今歷史有道
2026-02-28 10:45:03
78歲港星晚年生活:窮到1000塊都沒,曾拿400萬幫女兒還債不領(lǐng)情

78歲港星晚年生活:窮到1000塊都沒,曾拿400萬幫女兒還債不領(lǐng)情

攬星河的筆記
2026-02-26 14:12:59
女主播深入報道黑道交易過程!

女主播深入報道黑道交易過程!

貴圈真亂
2026-02-28 11:10:58
俄軍已經(jīng)動了,中國幫不幫伊朗?中方三句話,沒一句是美國想聽的

俄軍已經(jīng)動了,中國幫不幫伊朗?中方三句話,沒一句是美國想聽的

孤單是寂寞的毒
2026-02-28 01:24:38
要么投降,要么死在洞里——內(nèi)塔尼亞胡拒絕放走被困地道的哈馬斯

要么投降,要么死在洞里——內(nèi)塔尼亞胡拒絕放走被困地道的哈馬斯

桂系007
2025-11-05 23:52:21
比亞迪DM-i 6.0一旦普及,中國燃油車市場會被“清場”

比亞迪DM-i 6.0一旦普及,中國燃油車市場會被“清場”

藍(lán)色海邊
2026-02-20 21:47:26
古巴已進(jìn)入倒計時。

古巴已進(jìn)入倒計時。

素顏為誰傾城人
2026-02-15 05:04:46
踏俄之土,充俄之軍?俄羅斯要求18至65歲外國男性服兵役,到底意味著什么?

踏俄之土,充俄之軍?俄羅斯要求18至65歲外國男性服兵役,到底意味著什么?

靜夜史君
2026-02-27 23:56:22
一個很奇怪的現(xiàn)象:凡是和睦的家庭,夫妻倆至少有一個是“傻子”

一個很奇怪的現(xiàn)象:凡是和睦的家庭,夫妻倆至少有一個是“傻子”

千秋文化
2026-02-28 19:15:41
卡塔爾擊退了伊朗的“第三波襲擊”

卡塔爾擊退了伊朗的“第三波襲擊”

一種觀點(diǎn)
2026-02-28 21:57:20
小米新超跑官宣了?外觀曝光有點(diǎn)帥,雷軍宣布:明天見!

小米新超跑官宣了?外觀曝光有點(diǎn)帥,雷軍宣布:明天見!

i王石頭
2026-02-28 14:02:24
百萬粉博主自曝在江西被宰,順風(fēng)車坐地加價150,還被仨大漢圍攻

百萬粉博主自曝在江西被宰,順風(fēng)車坐地加價150,還被仨大漢圍攻

離離言幾許
2026-02-28 15:25:54
易夢玲一雙金燦燦的大燈,明艷晃眼

易夢玲一雙金燦燦的大燈,明艷晃眼

吃瓜黨二號頭目
2026-02-13 08:13:30
差點(diǎn)上演“麥迪時刻”,穆雷26中12砍39分&最后時刻連飆三分

差點(diǎn)上演“麥迪時刻”,穆雷26中12砍39分&最后時刻連飆三分

懂球帝
2026-02-28 13:58:08
2026-03-01 00:32:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14612文章數(shù) 66648關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

媒體:美以的真實(shí)目標(biāo)已經(jīng)擺上臺面 不達(dá)目的不罷休

頭條要聞

媒體:美以的真實(shí)目標(biāo)已經(jīng)擺上臺面 不達(dá)目的不罷休

體育要聞

球隊主力全報銷?頂風(fēng)擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財經(jīng)要聞

沖突爆發(fā) 市場變天?

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

本地
手機(jī)
家居
游戲
軍事航空

本地新聞

津南好·四時總相宜

手機(jī)要聞

華為Pura 90系列:2億長焦+1英寸主攝+增距鏡,芯片也沒有拖后腿

家居要聞

素色肌理 品意式格調(diào)

所有人保持嘴角不變!生化危機(jī):安魂曲里昂騷話大盤點(diǎn)

軍事要聞

美國以色列聯(lián)合襲擊伊朗 實(shí)時戰(zhàn)況

無障礙瀏覽 進(jìn)入關(guān)懷版