AlphaEvolve再進(jìn)化！DeepMind用AI「養(yǎng)殖」算法，碾壓所有人類設(shè)計

2026-02-27 17:10:23　來源: 新智元

北京舉報

分享至

新智元報道

編輯：定慧

【新智元導(dǎo)讀】DeepMind最新論文：用AlphaEvolve把算法源代碼當(dāng)基因組，讓Gemini充當(dāng)遺傳算子，對博弈論算法進(jìn)行「自然選擇」。進(jìn)化出的全新算法，采用了人類研究者從未想過的反直覺機(jī)制，在幾乎所有測試博弈中碾壓人類花了幾十年設(shè)計的最優(yōu)方案。AI不再只是執(zhí)行算法——它開始自己發(fā)明算法了。

谷歌DeepMind剛剛放了一個大衛(wèi)星。

他們用AlphaEvolve硬生生「繁殖」出了一批全新的博弈論算法。

這些算法不僅在性能上全面碾壓人類花了幾十年精心設(shè)計的經(jīng)典方案，更令人頭皮發(fā)麻的是：

它們使用的底層機(jī)制，反直覺到?jīng)]有任何一個人類研究者會想到去嘗試。

論文地址：https://arxiv.org/pdf/2602.16928

代碼即基因組。LLM即造物主。

這一次，AI不是在幫人類寫代碼——它在自己發(fā)明數(shù)學(xué)。

這不是「讓ChatGPT寫個算法」

首先，框架設(shè)定至關(guān)重要。

你可能以為這就是對著大模型說「幫我優(yōu)化一下這個函數(shù)」，然后它吐出一段差不多的代碼。

不是的。

把Gemini當(dāng)基因工程師使的進(jìn)化式編碼智能體

這是AlphaEvolve，谷歌DeepMind構(gòu)建的進(jìn)化式編碼智能體。

它的工作方式，更接近于達(dá)爾文而不是程序員。

它把算法的源代碼當(dāng)作基因組（genome）。

LLM充當(dāng)遺傳算子（genetic operator），對代碼進(jìn)行變異——重寫邏輯、注入新的控制流、對符號操作進(jìn)行變異。

然后，它在一組博弈論基準(zhǔn)游戲上評估每個「后代算法」的適應(yīng)度——誰的可利用度（exploitability）降得最低，誰就活下來。

活下來的算法進(jìn)入下一代，繼續(xù)被變異、評估、篩選。

這不是提示工程。這是代碼的自然選擇。

目標(biāo)：博弈論的兩大基石算法家族

AlphaEvolve瞄準(zhǔn)的目標(biāo)，是多智能體強(qiáng)化學(xué)習(xí)（MARL）中兩個最核心的算法家族：

反事實(shí)遺憾最小化（Counterfactual Regret Minimization, CFR）和策略空間響應(yīng)預(yù)言（Policy Space Response Oracles, PSRO）。

如果你玩過德?lián)銩I、或者聽說過Libratus和Pluribus那些碾壓人類撲克高手的AI——沒錯，它們的核心就是這兩樣?xùn)|西。

它們的任務(wù)是在不完全信息博弈中找到納什均衡——也就是讓每個玩家都無法通過單方面改變策略來獲得更好結(jié)果的那個「完美平衡點(diǎn)」。

過去幾十年，研究者們一直在手動調(diào)參、憑直覺設(shè)計這些算法的變體：CFR+、DCFR、PCFR+、LCFR……每一個變體都是某個聰明絕頂?shù)牟┺恼撗芯空哽`光一閃的產(chǎn)物。

但AlphaEvolve說：讓我來。

為什么博弈論算法的設(shè)計這么難？

要理解這篇論文的分量，先得明白一個背景：不完全信息博弈是AI領(lǐng)域最硬的骨頭之一。

什么叫不完全信息博弈？簡單說——你不知道對手手里有什么牌。

德州撲克、騙子骰、甚至國際談判，本質(zhì)上都是這類問題。在這些場景中，你看到的只是「信息集」（information set）——一組你無法區(qū)分的博弈狀態(tài)。你的策略必須對同一信息集下的所有可能情況都做出合理回應(yīng)。

衡量一個算法好不好，博弈論有個硬核指標(biāo)叫可利用度（Exploitability）。

直覺上說，它度量的是：如果對手知道你的策略并針對性地反擊，你會虧多少。可利用度為零，意味著你的策略是納什均衡——任何對手都無法通過單方面改變策略來占你便宜，這是博弈論中的「終極境界」。

幾十年來，研究者們?yōu)榱俗屗惴ǜ斓乇平{什均衡，一直在手動迭代設(shè)計。這個過程是這樣的：

某位頂級研究者憑數(shù)學(xué)直覺觀察到一種規(guī)律 → 將其形式化為一個新的折現(xiàn)方案/權(quán)重函數(shù)/遺憾處理規(guī)則 → 在數(shù)學(xué)上證明收斂性 → 在幾個標(biāo)準(zhǔn)博弈上做實(shí)驗(yàn) → 發(fā)表論文

每一步都需要人類直覺。

問題是，這些算法的設(shè)計空間是組合爆炸級別的——你怎么折現(xiàn)歷史遺憾？

正遺憾和負(fù)遺憾要不要區(qū)別對待？策略平均什么時候開始？用什么權(quán)重？這些選擇的排列組合，遠(yuǎn)超任何研究者能逐一驗(yàn)證的范圍。

論文的核心洞察在于：算法設(shè)計本質(zhì)上是一個搜索問題。

人類研究者受限于數(shù)學(xué)可推導(dǎo)性，大多只能在「優(yōu)雅但有限」的設(shè)計空間里搜索——比如線性平均、固定折現(xiàn)、對稱處理。但如果把搜索空間擴(kuò)展到任意可執(zhí)行代碼呢？

AlphaEvolve做的正是這件事。

它不是在調(diào)超參數(shù)，而是在進(jìn)化符號代碼（symbolic code）。

LLM理解代碼的語義，能做出「有意義的變異」——不是隨機(jī)翻轉(zhuǎn)一個比特，而是「把這個線性調(diào)度改成指數(shù)調(diào)度」「給正遺憾加一個增強(qiáng)系數(shù)」「在前500次迭代跳過策略累積」。

這讓搜索空間從人類直覺所及的幾百種可能，暴漲到LLM能觸及的幾乎無限種合理變體。

傳統(tǒng)方法：人類設(shè)計算法，機(jī)器執(zhí)行算法。

AlphaEvolve：機(jī)器設(shè)計算法，機(jī)器執(zhí)行算法，人類在旁邊看著驚掉下巴。

一句話說清楚這篇論文到底干了啥

這篇論文的故事其實(shí)特別簡單：

想象你是一個撲克高手教練。你手下有一套打牌的策略手冊，幾十年來，全靠你和其他聰明人一條條手寫規(guī)則、反復(fù)試錯，才慢慢改進(jìn)到今天的水平。

現(xiàn)在，DeepMind做了一件事——他們把這本策略手冊的每一頁、每一條規(guī)則，都變成了一段可以被改寫的代碼。

然后他們放出了一個AI（AlphaEvolve），讓它像大自然培育物種一樣，不停地改寫這些規(guī)則、測試效果、淘汰差的、留下好的。

跑了無數(shù)代之后，這個AI進(jìn)化出了兩套全新的策略手冊。

第一套叫VAD-CFR，它學(xué)會了三件人類教練從來沒想過的事：局勢混亂時果斷忘掉舊經(jīng)驗(yàn)，發(fā)現(xiàn)好招時立刻加倍下注，前500輪純學(xué)習(xí)不做總結(jié)。聽起來很奇怪對吧？但它就是比所有人類設(shè)計的方法都好用。

第二套叫SHOR-PSRO，它學(xué)會了前期大膽試探，后期精準(zhǔn)收網(wǎng)——而且訓(xùn)練和考試用不同的策略，訓(xùn)練時求穩(wěn)，考試時求準(zhǔn)。

最關(guān)鍵的一點(diǎn)是：這些新規(guī)則不是AI從某本教科書里抄來的，而是它自己「進(jìn)化」出來的。

人類博弈論專家看到這些規(guī)則后的第一反應(yīng)是——「這也行？」

但數(shù)據(jù)不會騙人。在幾乎所有測試的博弈場景中，AI進(jìn)化出來的算法都打敗了人類花了幾十年心血設(shè)計的最好方案。

所以這篇論文真正在說的是：AI已經(jīng)不只是在執(zhí)行人類寫的算法了，它開始自己發(fā)明算法——而且發(fā)明得比人類還好。

這意味著什么？

讓我們退一步，看看這件事的全貌。

過去，博弈論算法的進(jìn)步長這樣：

某個頂級研究者花幾個月甚至幾年時間，憑直覺和數(shù)學(xué)推導(dǎo)，提出一個新的折現(xiàn)方案或權(quán)重函數(shù) → 在幾個博弈上驗(yàn)證 → 發(fā)論文 → 社區(qū)驚呼「天才」

現(xiàn)在呢？

AlphaEvolve啟動 → Gemini對代碼進(jìn)行變異 → 自動評估適應(yīng)度 → 進(jìn)化選擇 → 輸出一個人類研究者根本不會想到的算法 → 在11個博弈中碾壓所有前輩

這不只是效率的提升。

這是范式的轉(zhuǎn)換。

論文的結(jié)論部分這樣說：

「我們的結(jié)果表明，自動發(fā)現(xiàn)的算法不對稱性——特別是那些管理遺憾縮放和動態(tài)混合調(diào)度的機(jī)制——能夠產(chǎn)生對人類直覺而言難以捉摸、但在實(shí)踐中極其有效的求解器。」

翻譯成人話就是：AI發(fā)現(xiàn)了人類想不到的數(shù)學(xué)。

而且這些「想不到的數(shù)學(xué)」不是什么花哨的噱頭，而是實(shí)打?qū)嵉卦谛阅苌辖y(tǒng)治了整個基線方陣。

DeepMind在論文最后也給了未來方向的暗示——

他們計劃將這個進(jìn)化框架應(yīng)用到深度強(qiáng)化學(xué)習(xí)智能體的完整設(shè)計中去，以及探索合作博弈中的機(jī)制發(fā)現(xiàn)。

想象一下：不只是博弈論算法，而是讓AI進(jìn)化出整個學(xué)習(xí)范式。

代碼的「自然選擇」，這才剛剛開始。

參考資料：

https://x.com/rryssf_/status/2027062703144284521

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.