国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

首次!AI智能體破解「納什均衡」,大模型學(xué)會(huì)博弈論|Cell子刊

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】在經(jīng)濟(jì)學(xué)和博弈論的世界里,找到「納什均衡」往往意味著找到了復(fù)雜局勢下的最優(yōu)解。多所頂尖高校的研究人員開發(fā)出了一位名為PrimeNash的「AI數(shù)學(xué)家」,不僅能像人類專家一樣推導(dǎo)公式,還能解決許多連傳統(tǒng)算法都束手無策的復(fù)雜博弈難題,成果已發(fā)表在Cell Press旗下的交叉學(xué)科期刊Nexus上。

納什均衡作為博弈論中最核心的解概念,廣泛應(yīng)用于經(jīng)濟(jì)學(xué)、社會(huì)科學(xué)及工程領(lǐng)域,用于預(yù)測多方策略互動(dòng)下的穩(wěn)定結(jié)果。然而,在現(xiàn)實(shí)世界中,許多博弈場景具有高維度策略空間、跨期依賴關(guān)系以及不連續(xù)、非凸的收益函數(shù)。在這種復(fù)雜的現(xiàn)實(shí)博弈中推導(dǎo)解析形式的納什均衡,面臨著巨大的計(jì)算挑戰(zhàn)。

現(xiàn)有的求解方法各有局限性:解析法依賴于不動(dòng)點(diǎn)定理,雖然精確但難以擴(kuò)展至高維或復(fù)雜動(dòng)態(tài)場景;數(shù)值方法(如蒙特卡洛模擬)雖然靈活,但往往缺乏嚴(yán)謹(jǐn)?shù)氖諗勘WC,且其結(jié)果如同「黑盒」般難以解釋;而基于機(jī)器學(xué)習(xí)的方法(如強(qiáng)化學(xué)習(xí))雖擅長處理高維問題,卻常受困于參數(shù)敏感性與泛化能力的不足。因此,學(xué)術(shù)界與工業(yè)界亟需一種兼具可擴(kuò)展性、透明度與數(shù)學(xué)嚴(yán)謹(jǐn)性的全新計(jì)算范式。隨著大語言模型的崛起,其強(qiáng)大的邏輯推理與代碼生成能力為自動(dòng)化博弈分析開啟了新紀(jì)元。

近日,香港中文大學(xué)(深圳)趙俊華教授、黃建偉教授與葉立新教授團(tuán)隊(duì),聯(lián)合南洋理工大學(xué)、耶魯大學(xué)、美國西北大學(xué)等多所頂尖高校的研究人員,在Cell Press旗下的交叉學(xué)科期刊《Nexus》上發(fā)表了一項(xiàng)重要研究成果。


論文鏈接:doi:10.1016/j.ynexs.2025.100107

該團(tuán)隊(duì)開發(fā)了一個(gè)名為PrimeNash的大語言模型智能體框架,這是首個(gè)能夠自動(dòng)推導(dǎo)納什均衡閉式解析解并生成機(jī)器可驗(yàn)證證明的系統(tǒng)。

該研究展示了AI智能體不僅能夠模擬人類專家的邏輯推理,還能有效解決傳統(tǒng)算法難以處理的高維、非凸及動(dòng)態(tài)博弈難題。

三階段閉環(huán)框架

整體架構(gòu)與模塊交互

如圖1所示,PrimeNash框架模擬了人類數(shù)學(xué)家的科研路徑,將求解過程解構(gòu)為三個(gè)由LLM驅(qū)動(dòng)的核心模塊:策略生成模塊(SGM)、策略評估模塊(SEM)和均衡證明模塊(EPM)。


圖1 PrimeNash模塊交互概述框圖

工作流始于結(jié)構(gòu)化的提示詞,用于定義博弈的玩家、策略空間與規(guī)則。

SGM負(fù)責(zé)生成多樣化的候選策略,SEM基于博弈論原理對策略進(jìn)行多維度打分與篩選,EPM則執(zhí)行嚴(yán)格的符號推導(dǎo)與驗(yàn)證。若驗(yàn)證未通過,系統(tǒng)會(huì)觸發(fā)反饋機(jī)制,指導(dǎo)前序模塊進(jìn)行自我修正,直至找到通過嚴(yán)格數(shù)學(xué)檢驗(yàn)的閉式解。

策略生成:多智能體并行與提示增強(qiáng)推理

為了克服單一視角的局限,SGM采用了多智能體并行的策略。如圖2所示,多個(gè)策略生成智能體同時(shí)工作,以探索廣闊的策略空間。

為了提升生成質(zhì)量,PrimeNash引入了提示增強(qiáng)推理技術(shù)。系統(tǒng)會(huì)自動(dòng)從預(yù)設(shè)數(shù)據(jù)庫中檢索相似博弈的解題模版(如博弈論中的相關(guān)定理、最佳響應(yīng)函數(shù)等),輔助智能體更好地理解博弈結(jié)構(gòu)。

此外,智能體并非僅依靠內(nèi)部推演,它們被授權(quán)調(diào)用Python等外部工具執(zhí)行復(fù)雜計(jì)算,并結(jié)合反思機(jī)制對生成結(jié)果進(jìn)行自我審查與修正。這一過程確保了輸出的策略在邏輯與數(shù)值上具備初步的合理性,為后續(xù)評估奠定了基礎(chǔ)。


圖2 策略生成模塊(SGM)智能體設(shè)計(jì)、工作流以及提示增強(qiáng)架構(gòu)

策略評估與均衡證明:從候選到嚴(yán)謹(jǐn)驗(yàn)證

如圖3所示,SEM模塊充當(dāng)了嚴(yán)格篩選器的角色。該模塊包含評分智能體和評估智能體。評分智能體基于預(yù)定義的博弈論指標(biāo)(如策略一致性、穩(wěn)定性等)對候選策略進(jìn)行打分,評估智能體則綜合得分最高的策略,將其精煉為均衡候選者。

隨后,EPM模塊接手進(jìn)行最終的數(shù)學(xué)驗(yàn)證。EPM不依賴模糊估算,而是執(zhí)行嚴(yán)格的符號推導(dǎo),應(yīng)用最佳響應(yīng)定理或卡羅什-庫恩-塔克(KKT)條件來驗(yàn)證納什均衡條件。對于動(dòng)態(tài)博弈,EPM還會(huì)驗(yàn)證子博弈完美均衡等更高級的概念。一旦證明失敗,具體的失敗原因(如未滿足一階條件)將被精準(zhǔn)反饋給上游模塊,驅(qū)動(dòng)系統(tǒng)在下一輪迭代中逼近最終結(jié)果。這種設(shè)計(jì)保證了結(jié)果的可解釋性與可審計(jì)性。


圖3 策略評估(SEM)和均衡證明(EPM)模塊架構(gòu)

詳細(xì)結(jié)果

經(jīng)典博弈驗(yàn)證

為了驗(yàn)證系統(tǒng)的魯棒性,研究團(tuán)隊(duì)選取了7個(gè)涵蓋不同動(dòng)態(tài)特征、信息結(jié)構(gòu)與均衡類型的經(jīng)典博弈問題作為「試金石」。

如表1所示,實(shí)驗(yàn)結(jié)果令人振奮:PrimeNash 成功求解了所有的靜態(tài)博弈;在動(dòng)態(tài)博弈方面,在設(shè)定極高標(biāo)準(zhǔn)(即必須獲得符號閉式解且通過自動(dòng)均衡校驗(yàn))的前提下,成功率依然達(dá)到了70%。這證明了 PrimeNash 并非只能處理特定問題,而是具備了通用的博弈求解能力。


表1 典型博弈問題求解匯總

此外,如圖4所示,論文以雙寡頭Stackelberg博弈為例,展示框架如何通過標(biāo)準(zhǔn)化提示詞把玩家、行動(dòng)、收益與規(guī)則轉(zhuǎn)化為機(jī)器可處理的格式,并生成均衡表達(dá)式、求解步驟與對應(yīng)Python代碼。


圖4 雙寡頭Stackelberg博弈求解架構(gòu)

碳市場動(dòng)態(tài)博弈

PrimeNash的真正威力在于解決現(xiàn)實(shí)世界的復(fù)雜難題。論文以碳排放權(quán)交易市場為例,展示了其在復(fù)雜動(dòng)態(tài)博弈中的應(yīng)用潛力。研究構(gòu)建了一個(gè)包含四個(gè)季度交易期的動(dòng)態(tài)博弈模型,利用逆向歸納法(Backward Induction) 求解。在此案例中,PrimeNash產(chǎn)出了該領(lǐng)域首個(gè)被嚴(yán)格證明的碳市場閉式解析解。如圖5所示,模型不僅推導(dǎo)出了公式,更復(fù)現(xiàn)了真實(shí)的某些市場現(xiàn)象:

  • 期末價(jià)格波動(dòng): 模擬顯示,碳價(jià)在第1-3期維持低位(約18.65 CNY/t),卻在第4期履約截止前急劇飆升至74.71 CNY/t。這種「翹尾效應(yīng)」與現(xiàn)實(shí)市場中企業(yè)的履約焦慮高度一致。

  • 大型國企的市場影響力: 分析揭示了大型國有企業(yè)如何利用其市場地位調(diào)節(jié)供需,從而影響價(jià)格走勢。

  • 政策杠桿R-value: 論文深入探討了政策參數(shù) R-value(跨期持有激勵(lì))的作用。當(dāng) R-value 較高時(shí),企業(yè)傾向于囤積配額以期未來升值,導(dǎo)致當(dāng)期供給收縮、價(jià)格上漲;反之則會(huì)釋放流動(dòng)性。

以上量化洞見為政策制定者提供了有力的工具,通過調(diào)整參數(shù)或監(jiān)管臨近截止期的交易,可以有效平抑市場投機(jī),維持價(jià)格穩(wěn)定。


圖5 碳市場博弈問題的動(dòng)態(tài)均衡特征

論文總結(jié)

PrimeNash作為首個(gè)基于LLM智能體的納什均衡解析求解框架,成功建立了「策略生成—收益評估—均衡證明」的模塊化閉環(huán),將閉式Nash均衡推導(dǎo)從依賴專家的手工工作轉(zhuǎn)化為可復(fù)現(xiàn)、可審計(jì)的計(jì)算流程。

該框架通過多智能體推理、符號代碼執(zhí)行與形式化驗(yàn)證,能夠有效處理高維策略、跨期遞歸以及不連續(xù)、非凸收益等難題。在七類經(jīng)典模型的測試中,PrimeNash實(shí)現(xiàn)了對靜態(tài)博弈的全面求解與對動(dòng)態(tài)博弈的高比例成功求解。

特別是在碳市場競價(jià)博弈案例中,PrimeNash不僅給出了可證明的閉式均衡解,還能復(fù)現(xiàn)履約期末波動(dòng)等關(guān)鍵現(xiàn)象,并將R value等機(jī)制參數(shù)與市場穩(wěn)定性建立了可解釋的聯(lián)系,為市場設(shè)計(jì)與氣候政策分析提供了一種透明、可檢驗(yàn)的量化工具,標(biāo)志著AI驅(qū)動(dòng)的科學(xué)發(fā)現(xiàn)在博弈論與經(jīng)濟(jì)學(xué)領(lǐng)域邁出了重要一步。

研究團(tuán)隊(duì)介紹

論文第一作者為南洋理工大學(xué)柳文軒博士,香港中文大學(xué)(深圳)趙俊華教授為本文的通訊作者,南洋理工大學(xué)周茜緣、悉尼大學(xué)王馨蕾和香港中文大學(xué)(深圳)程裕恒是本文共同第一作者,香港中文大學(xué)(深圳)黃建偉教授是本文共同通訊作者。本文其它合作者包括香港中文大學(xué)(深圳)葉立新教授、美國西北大學(xué)Randall Berry教授及耶魯大學(xué)Leandros Tassiulas教授。

趙俊華教授領(lǐng)銜的人工智能-能源-經(jīng)濟(jì)交叉學(xué)科創(chuàng)新團(tuán)隊(duì)致力于解決大模型智能體算法、能源系統(tǒng)、電力市場、碳市場領(lǐng)域的前沿基礎(chǔ)性科學(xué)問題和關(guān)鍵技術(shù),旨在通過學(xué)科交叉實(shí)現(xiàn)從主體到系統(tǒng)層面的整體解決方案,推動(dòng)相關(guān)領(lǐng)域取得突破性進(jìn)展。近年來在Joule、Nature Communications、Scientific Data、Nexus等國際期刊上發(fā)表系列多學(xué)科交叉論文。

參考資料:

doi:10.1016/j.ynexs.2025.100107


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
14年兒子坐馬航失聯(lián),多年后父親收到回信,堅(jiān)信兒子去了平行世界

14年兒子坐馬航失聯(lián),多年后父親收到回信,堅(jiān)信兒子去了平行世界

史行途
2026-01-29 12:13:30
三孩政策刺激無果后,中央下狠手了!新政策讓3代人拍手叫好

三孩政策刺激無果后,中央下狠手了!新政策讓3代人拍手叫好

米果說識(shí)
2026-02-24 16:54:34
默多克離婚時(shí)贈(zèng)鄧文迪5億股權(quán),如今附加條款生效,子女們都懵了

默多克離婚時(shí)贈(zèng)鄧文迪5億股權(quán),如今附加條款生效,子女們都懵了

她時(shí)尚丫
2026-02-24 20:50:07
好消息:2026年起70歲以上老人可享優(yōu)待,農(nóng)民也不例外

好消息:2026年起70歲以上老人可享優(yōu)待,農(nóng)民也不例外

風(fēng)雨與陽光
2026-02-25 22:03:05
當(dāng)時(shí)很多蒙古考察日記中,都提到蒙古人性交隨意,得病者極多!

當(dāng)時(shí)很多蒙古考察日記中,都提到蒙古人性交隨意,得病者極多!

老范談史
2026-02-24 14:51:55
綠化帶5米變1.5米,騰出一條車道!成都科華南路治堵見成效 返程高峰通行順暢

綠化帶5米變1.5米,騰出一條車道!成都科華南路治堵見成效 返程高峰通行順暢

紅星新聞
2026-02-25 13:56:21
廣東1歲男童家門口走失,當(dāng)?shù)鼗貞?yīng):在家附近的魚塘中發(fā)現(xiàn)該兒童,已無生命體征

廣東1歲男童家門口走失,當(dāng)?shù)鼗貞?yīng):在家附近的魚塘中發(fā)現(xiàn)該兒童,已無生命體征

瀟湘晨報(bào)
2026-02-25 22:07:19
A股:剛剛,大資金明牌了,釋放一信號,明日周四將迎來新的變化

A股:剛剛,大資金明牌了,釋放一信號,明日周四將迎來新的變化

云鵬敘事
2026-02-26 00:00:06
倆月了,一個(gè)也沒賣到中國去

倆月了,一個(gè)也沒賣到中國去

觀察者網(wǎng)
2026-02-25 08:55:04
騰訊元寶回應(yīng)生成拜年海報(bào)出現(xiàn)臟話:模型處理多輪對話時(shí)輸出異常結(jié)果 已緊急校正

騰訊元寶回應(yīng)生成拜年海報(bào)出現(xiàn)臟話:模型處理多輪對話時(shí)輸出異常結(jié)果 已緊急校正

紅星新聞
2026-02-25 14:04:28
女生會(huì)考驗(yàn)?zāi)愕恼\意嗎?

女生會(huì)考驗(yàn)?zāi)愕恼\意嗎?

賴煥慶
2026-02-24 13:58:44
戲子誤國!春節(jié)剛過就有4位明星相繼塌房,走到這一步不值得同情

戲子誤國!春節(jié)剛過就有4位明星相繼塌房,走到這一步不值得同情

墨印齋
2026-02-26 06:21:37
三只羊上市成功,驚天反轉(zhuǎn)震驚全球!

三只羊上市成功,驚天反轉(zhuǎn)震驚全球!

品牌頭版
2026-02-25 16:52:08
太離譜!陜西女子花250元在飯店訂年夜飯,對方歇業(yè)初一把錢退了

太離譜!陜西女子花250元在飯店訂年夜飯,對方歇業(yè)初一把錢退了

火山詩話
2026-02-25 14:16:59
默茨專機(jī)抵京,第一道難關(guān)出現(xiàn)!寶馬公開喊話政府,中方亮明底線

默茨專機(jī)抵京,第一道難關(guān)出現(xiàn)!寶馬公開喊話政府,中方亮明底線

黑鷹觀軍事
2026-02-25 17:47:53
慘遭下克上,歐冠淘汰賽附加賽只有國米和尤文被非種子隊(duì)淘汰

慘遭下克上,歐冠淘汰賽附加賽只有國米和尤文被非種子隊(duì)淘汰

懂球帝
2026-02-26 07:15:07
一個(gè)瘋子,造出便宜100倍的AI芯片

一個(gè)瘋子,造出便宜100倍的AI芯片

傅盛
2026-02-23 15:18:48
英媒曝卡塞米羅大幅降薪加盟AC米蘭,再度攜手魔笛,無緣沙特高薪

英媒曝卡塞米羅大幅降薪加盟AC米蘭,再度攜手魔笛,無緣沙特高薪

夏侯看英超
2026-02-26 01:33:34
“仨兒子打光棍”視頻走紅,網(wǎng)友調(diào)侃:長成這樣,擼網(wǎng)貸都費(fèi)勁!

“仨兒子打光棍”視頻走紅,網(wǎng)友調(diào)侃:長成這樣,擼網(wǎng)貸都費(fèi)勁!

妍妍教育日記
2026-02-04 19:09:07
何超瓊春節(jié)到四太女兒家做客,跟何超盈女兒穿親子裝,姐妹倆很親

何超瓊春節(jié)到四太女兒家做客,跟何超盈女兒穿親子裝,姐妹倆很親

觀察者海風(fēng)
2026-02-25 12:09:32
2026-02-26 08:11:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14590文章數(shù) 66643關(guān)注度
往期回顧 全部

科技要聞

“機(jī)器人只跳舞,沒什么用”

頭條要聞

日本計(jì)劃部署導(dǎo)彈部隊(duì)距臺(tái)灣僅110公里 中方強(qiáng)硬表態(tài)

頭條要聞

日本計(jì)劃部署導(dǎo)彈部隊(duì)距臺(tái)灣僅110公里 中方強(qiáng)硬表態(tài)

體育要聞

勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

娛樂要聞

黃曉明新戀情!與小22歲美女同游新加坡

財(cái)經(jīng)要聞

上海樓市放大招,地產(chǎn)預(yù)期別太大

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

游戲
房產(chǎn)
本地
手機(jī)
公開課

《33號遠(yuǎn)征隊(duì)》發(fā)行商:游戲定價(jià)低是重要成功因素

房產(chǎn)要聞

海南樓市春節(jié)熱銷地圖曝光!三亞、陵水又殺瘋了!

本地新聞

津南好·四時(shí)總相宜

手機(jī)要聞

小米還是第一,vivo已不是第二,OPPO、榮耀順延

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版