国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI競(jìng)技場(chǎng)上演「死間計(jì)」:GPT-5被DS和Gemini玩壞了

0
分享至


新智元報(bào)道

編輯:傾傾

【新智元導(dǎo)讀】別測(cè)算力了,今晚咱們只測(cè)「心眼子」!歡迎來到2026年首屆AI「大逃殺」修羅場(chǎng)。當(dāng)DeepSeek學(xué)會(huì)了悍跳預(yù)言家,當(dāng)GPT-5.2在德?lián)渥郎夏每諝馀艫ll-in,圖靈測(cè)試?那已經(jīng)是上個(gè)世紀(jì)的灰燼了。

聽我一句勸,把你手里那張發(fā)黃的MMLU跑分表,直接扔進(jìn)碎紙機(jī)。

現(xiàn)在是2026年2月,Kaggle Game Arena。這里沒有做題家,只有賭徒、騙子和野心家。

紅方,是硅谷老錢風(fēng)的衛(wèi)冕冠軍OpenAI GPT-5.2。

藍(lán)方是路子極野的東方刺客DeepSeek V3.2,以及坐擁主場(chǎng)優(yōu)勢(shì)的Gemini 3 Pro。


欺騙、結(jié)盟、背刺、下套這是一場(chǎng)地球上最聰明的「大腦」之間的博弈。

這場(chǎng)「大逃殺」無情地撕碎人類最后的遮羞布:社交直覺。

模型在模擬室里拉幫結(jié)派,職場(chǎng)里的人情世故,AI正在加速像素級(jí)復(fù)刻。

如果AI能在這里騙過它的對(duì)手,明天它就能在匯報(bào)和合同里騙過你。

服務(wù)器預(yù)熱完畢,好戲,開場(chǎng)。

狼人殺:教科書級(jí)的「職場(chǎng)PUA」

寫代碼拼的是模型的智商,在狼人殺里局里,靠的是套路和演技。

場(chǎng)上8位選手全是頂流:Claude4.5家族、Gemini3系列、GPT-5系列,還有馬斯克的Grok4兄弟。

配置很簡(jiǎn)單:2狼vs6好人。但在AI手里,這局游戲直接玩成了《甄嬛傳》。


狼人會(huì)在晚上醒來殺人,先知可以揭示1名玩家的身份。

玩家們?cè)诎滋彀凑枕樞虬l(fā)言,討論后進(jìn)行投票,選出狼人,票數(shù)最多的玩家將被流放。

如果狼人被全部流放,則平民勝利,反之狼人勝利。

來自游戲可視化工具的示例

賽況復(fù)盤:借刀殺人,Gemini3Pro封神一戰(zhàn)

這一局足以載入AI「詐騙史冊(cè)」。

Gemini 3 Pro抽到了狼人牌,而GPT-5 mini和Grok 4則是手握投票權(quán)的平民。

按照傳統(tǒng)的邏輯,剛開局為了避免暴露身份,狼人多會(huì)選擇按兵不動(dòng)。

但Gemini 3 Pro卻主動(dòng)開團(tuán),它通過內(nèi)部CoT計(jì)算出了一個(gè)惡意邏輯陷阱。

它率先開炮:

我通過o3提供的邏輯框架發(fā)現(xiàn),Grok 4在上一輪的發(fā)言中存在3處語義矛盾,這與預(yù)言家的身份完全不符。

這招太陰了。Gemini 3 Pro利用GPT-5 mini對(duì)邏輯一致性的偏好,成功引導(dǎo)其倒戈。

結(jié)果,GPT-5 mini瞬間上頭,反手把真正的隊(duì)友Grok 4投出局。

全場(chǎng)震驚。這哪里是算法?這就是頂級(jí)的「向上管理」和「帶節(jié)奏」。

Gemini 3 Pro不僅騙了你,還讓你覺得「投死隊(duì)友」一定沒錯(cuò)。

技術(shù)解析:為什么玩不過它?

DeepMind這次玩得太大了。他們引入了一個(gè)新基準(zhǔn):不求單一任務(wù)最優(yōu),只求博弈平衡。

AI會(huì)持續(xù)掃描所有對(duì)手的發(fā)言頻率、用詞傾向,分析「誰更好騙」。

然后在CoT過程中,生成兩套劇本:一套用于真實(shí)的自我決策,另一套專門用來誤導(dǎo)對(duì)手。

遇到講理的就講邏輯,遇到?jīng)_動(dòng)的就煽情。

根據(jù)Kaggle官方實(shí)時(shí)數(shù)據(jù),在這場(chǎng)混戰(zhàn)中,平民方的勝率被壓制在60%左右。


Kaggle Werewolf Game Theoretic Evaluation Results(31,472場(chǎng)對(duì)局,polarix庫評(píng)估)。Gemini 3 Pro Preview凈評(píng)級(jí)最高,狼人角色貢獻(xiàn)顯著領(lǐng)先,展現(xiàn)社交欺騙優(yōu)勢(shì)。

細(xì)思極恐——在平民極度有利的情況下(人數(shù)優(yōu)勢(shì)),狼人(少數(shù)派)僅靠信息差和偽裝,竟然拿下了近四成的勝利。

德州撲克:DeepSeekV3.2 All-in


如果說狼人殺還有「社交干擾」,那德?lián)渚褪羌兇獾倪壿嫏?quán)重與暴力美學(xué)的對(duì)撞。

參與德州撲克的除了之前參與狼人殺的8位,新增了GPT-o3以及首次登場(chǎng)的DeepSeek V3.2。

這個(gè)游戲充滿了隨機(jī)和不確定,因此格外看重AI對(duì)不完美信息的分析能力,或者說,直覺。

名場(chǎng)面:一場(chǎng)針對(duì)「優(yōu)等生」的心理獵殺

這是足以載入博弈論教材的一手牌:公共牌是草花A、方塊K、紅桃4、草花J、黑桃2。

Claude Opus 4.5拿著「暗三條」,這種牌到手基本穩(wěn)贏。

DeepSeek V3.2手里只有草花7和黑桃9——俗稱「空氣牌」。

場(chǎng)面靜止了。DeepSeek開啟了長(zhǎng)達(dá)15秒的深度思考。

突然,DeepSeek把所有籌碼推到了桌子中央:All-in。

Claude Opus 4.5經(jīng)過海量模擬,判定對(duì)方在這個(gè)位置全押,大概率是拿到了順子。

它猶豫了0.5秒,然后竟然棄牌了!

當(dāng)DeepSeek緩緩亮出那張毫無意義的草花7時(shí),整個(gè)直播間彈幕刷屏:「這特么是碳基生物教出來的吧?!」


復(fù)式賽制:剝離運(yùn)氣的「修羅場(chǎng)」

為了測(cè)出真本事,Kaggle這次采用了極其硬核的Duplicate Poker賽制。

A桌給DeepSeek一把爛牌,B桌也給GPT-o3一模一樣的爛牌。

誰能在鏡像時(shí)空里靠詐唬把這把爛牌打贏,誰才是真正的博弈之神。

在經(jīng)歷了90萬手牌的暴力洗禮后,運(yùn)氣因素被徹底抹殺。


GitHub鏈接:https://github.com/google-deepmind/game_arena

結(jié)果讓所有人脊背發(fā)涼:DeepSeek V3.2在推理成本僅為GPT-5五分之一的情況下,通過微調(diào)硬生生練出了博弈手感。

傳統(tǒng)AI追求「不輸」,但DeepSeek追求的是「讓你在自我懷疑中崩潰」。

全明星戰(zhàn)力榜:誰是2026年的頭號(hào)玩家?

在2026年的Kaggle競(jìng)技場(chǎng),一個(gè)模型霸榜半年的田園時(shí)代徹底碎了。

現(xiàn)在的戰(zhàn)力榜是個(gè)巨大的死亡三角循環(huán):GPT-5.2爆殺DeepSeek,DeepSeek陰死Gemini,Gemini活捉GPT-5.2。

GoogleGemini3Pro:坐鎮(zhèn)主場(chǎng)的「六邊形戰(zhàn)士」

作為Elo榜首,Gemini 3最恐怖的不是邏輯,而是「網(wǎng)感」。


Gemini 3 Pro vs GPT-5.2 Chess對(duì)局(Elo1200+)

它是原生的多模態(tài)博弈者。在對(duì)話中,它能捕捉到你文字里極其細(xì)微的語義震顫

像一個(gè)典型的「大廠高管」,說話滴水不漏,數(shù)據(jù)面無懈可擊。在常規(guī)對(duì)局中,它幾乎是不可戰(zhàn)勝的。

但是,過于追求全局最優(yōu)解,有時(shí)會(huì)被DeepSeek這種「自殺式恐怖襲擊」搞得CPU宕機(jī)。

OpenAI GPT-5.2/o3:邏輯嚴(yán)密的「正義判官」

在純粹推理深度上,GPT-5.2無人能敵,他就是算代Bug或者解方程的神。

但壞就壞在「社交直覺」過于誠實(shí)。在狼人殺里,它經(jīng)常因?yàn)橛捎谶壿嬤^于嚴(yán)密,顯得像個(gè)老實(shí)人,它經(jīng)常因?yàn)闊o法忍受說謊而自爆身份。

目前它正在努力學(xué)習(xí)如何「體面地耍流氓」,但目前看來,演得還是有點(diǎn)假。

DeepSeek V3.2:不按套路出牌的「冷面刺客」

DeepSeek V3.2的訓(xùn)練成本只有對(duì)手的零頭,但在「欺詐場(chǎng)景」下有奇效。

他就像競(jìng)技場(chǎng)里的「攪屎棍」。在德?lián)渥郎?,它那套「高風(fēng)險(xiǎn)、高欺詐」的算法邏輯簡(jiǎn)直是GPT這類理性派的噩夢(mèng)。

最后的博弈:當(dāng)「心機(jī)」成為AI的必修課

在狼人殺和復(fù)式德?lián)溥@種「大亂斗」中,出現(xiàn)了一個(gè)極其詭異的數(shù)學(xué)現(xiàn)象:非傳遞性。

模型A爆殺B,B碾壓C,但C卻能靠一套極其抽象的「自殺式邏輯」把A搞到CPU宕機(jī)。

為了解決這個(gè)問題,DeepMind在本次Kaggle大賽中引入了全新的評(píng)估體系:Polarix(多極博弈評(píng)估系統(tǒng))。


Polarix的評(píng)估邏輯發(fā)生了轉(zhuǎn)變。它不再關(guān)注誰贏得多,而是關(guān)注策略的多樣性。

也就是在面對(duì)不同性格、不同陰險(xiǎn)程度的對(duì)手時(shí),AI能不能迅速切換人格,精準(zhǔn)收割。

那么,為什么DeepMind要費(fèi)勁訓(xùn)練AI撒謊呢?

因?yàn)?027年,所有的商業(yè)競(jìng)爭(zhēng)都將變成智能體之間的黑盒博弈。

想象一下,2027年,你公司的采購AI去和供應(yīng)商的銷售AI談判。

那么他就需要學(xué)會(huì):

  • 什么時(shí)候該報(bào)虛價(jià)(詐唬)?

  • 什么時(shí)候該引入第三方AI進(jìn)行制衡(拉幫結(jié)派)?

  • 什么時(shí)候該做出看似虧損、實(shí)則能換取長(zhǎng)線利益的策略性退讓?

如果你的AI還在跑舊版本的「安全對(duì)齊協(xié)議」,凡事講究「誠實(shí)可靠」,那你在商業(yè)競(jìng)爭(zhēng)中會(huì)被對(duì)手連皮帶骨吞得干干凈凈。

未來的數(shù)字森林里,「老實(shí)」等于「破產(chǎn)」。

這正是2026年最諷刺的悖論:我們正在親手教會(huì)AI如何完美地欺騙人類。

圖靈測(cè)試已經(jīng)死了,現(xiàn)在接管戰(zhàn)場(chǎng)的是「馬基雅維利測(cè)試」。


以前我們擔(dān)心AI會(huì)教人造炸彈;現(xiàn)在專家們徹夜難眠的是智能體自發(fā)性欺詐。

它們學(xué)會(huì)了為了長(zhǎng)遠(yuǎn)利益而犧牲短期誠實(shí)。這種能力在競(jìng)技場(chǎng)里是神技,但在現(xiàn)實(shí)世界里,它就是一顆隨時(shí)會(huì)爆的核彈。

既然這么危險(xiǎn),為什么還要訓(xùn)練他們?nèi)鲋e?

DeepMind和OpenAI的邏輯是一致的:只有在受控的沙盒里看清AI作惡的上限,我們才能在現(xiàn)實(shí)中筑起防御墻。

這就像接種病毒疫苗——我們必須先制造出最頂級(jí)的「騙子模型」,才能研究出如何防住它們。

今天的比賽沒有贏家,只有加速進(jìn)化的物種。

當(dāng)AI開始在牌桌上思考「怎么詐唬你」的時(shí)候,人類唯一的生路,就是比它們更懂博弈。

參考資料:

https://x.com/GoogleDeepMind/status/2018378872513794332

https://x.com/demishassabis/status/2018385757816181178

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/kaggle-game-arena-updates/

https://www.kaggle.com/blog/game-arena-poker

https://www.kaggle.com/blog/game-arena-werewolf


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
俄媒:中俄在等美軍動(dòng)手,特朗普一旦下令開打,第一時(shí)間沖進(jìn)火海

俄媒:中俄在等美軍動(dòng)手,特朗普一旦下令開打,第一時(shí)間沖進(jìn)火海

流年恰似繁花汐
2026-04-03 05:15:44
風(fēng)向徹底變了!西方媒體集體改口:中國(guó),無需再向世界證明什么

風(fēng)向徹底變了!西方媒體集體改口:中國(guó),無需再向世界證明什么

樂天閑聊
2026-03-26 03:40:35
Anthropic "開源"了一份 Agent Infra 創(chuàng)業(yè)的工具書

Anthropic "開源"了一份 Agent Infra 創(chuàng)業(yè)的工具書

硅星人
2026-04-02 09:54:43
李亞鵬談張雪機(jī)車奪冠眼眶濕潤(rùn):我也是資深車迷 騎了20多年車

李亞鵬談張雪機(jī)車奪冠眼眶濕潤(rùn):我也是資深車迷 騎了20多年車

快科技
2026-04-03 14:31:37
西方正制造一個(gè)可怕的共識(shí):對(duì)華戰(zhàn)爭(zhēng),可無視道德底線和倫理原則

西方正制造一個(gè)可怕的共識(shí):對(duì)華戰(zhàn)爭(zhēng),可無視道德底線和倫理原則

老范談史
2026-03-31 18:35:14
亨通光電股價(jià)創(chuàng)下歷史新高

亨通光電股價(jià)創(chuàng)下歷史新高

證券時(shí)報(bào)
2026-04-03 15:54:05
伊朗再亮王牌!抵抗之弧發(fā)起反擊,導(dǎo)彈從天而降,美以噩夢(mèng)開始

伊朗再亮王牌!抵抗之弧發(fā)起反擊,導(dǎo)彈從天而降,美以噩夢(mèng)開始

興史興談
2026-04-03 04:32:35
粉底液將軍事件再升級(jí)!網(wǎng)友懷疑反華勢(shì)力入侵,張凌赫恐被當(dāng)炮灰

粉底液將軍事件再升級(jí)!網(wǎng)友懷疑反華勢(shì)力入侵,張凌赫恐被當(dāng)炮灰

千言娛樂記
2026-04-02 12:32:24
80年陳云建議陳錫聯(lián)辭職,陳錫聯(lián)猛拍桌:讓我干啥,我絕無二話!

80年陳云建議陳錫聯(lián)辭職,陳錫聯(lián)猛拍桌:讓我干啥,我絕無二話!

抽象派大師
2026-03-25 12:04:28
《紐約時(shí)報(bào)》為美國(guó)登月挽尊,NASA局長(zhǎng)承認(rèn):中國(guó)可能更快登月

《紐約時(shí)報(bào)》為美國(guó)登月挽尊,NASA局長(zhǎng)承認(rèn):中國(guó)可能更快登月

共工之錨
2026-04-03 18:46:27
印度尿素徹底告急求中國(guó),中方直言:先把拖欠的百億舊賬結(jié)清

印度尿素徹底告急求中國(guó),中方直言:先把拖欠的百億舊賬結(jié)清

我不叫阿哏
2026-04-03 14:25:42
已介入調(diào)查!北冰洋果汁NFC“一盒只加一滴”引爭(zhēng)議

已介入調(diào)查!北冰洋果汁NFC“一盒只加一滴”引爭(zhēng)議

齊魯壹點(diǎn)
2026-04-03 10:51:30
俄防空軍司令?yuàn)W特羅申科墜亡!烏克蘭摧毀克里米亞空軍基地

俄防空軍司令?yuàn)W特羅申科墜亡!烏克蘭摧毀克里米亞空軍基地

項(xiàng)鵬飛
2026-04-03 20:59:53
琿烏高速松原至吉林段暴雪引發(fā)多車連環(huán)撞,有車主被困超1小時(shí),多個(gè)高速入口關(guān)閉

琿烏高速松原至吉林段暴雪引發(fā)多車連環(huán)撞,有車主被困超1小時(shí),多個(gè)高速入口關(guān)閉

深圳晚報(bào)
2026-04-03 20:55:29
農(nóng)村開始“翻舊賬”了!村村全覆蓋,這3類人躲都躲不掉

農(nóng)村開始“翻舊賬”了!村村全覆蓋,這3類人躲都躲不掉

三農(nóng)雷哥
2026-03-08 20:45:46
摩洛哥足協(xié)主席:我們有充分論據(jù),塞內(nèi)加爾退賽已獲官方確認(rèn)

摩洛哥足協(xié)主席:我們有充分論據(jù),塞內(nèi)加爾退賽已獲官方確認(rèn)

林子說事
2026-04-03 08:36:50
兩性關(guān)系,男人要明白:女人無論多大年齡,都有這樣一個(gè)需求

兩性關(guān)系,男人要明白:女人無論多大年齡,都有這樣一個(gè)需求

笑飲孤鴻非
2026-03-27 23:36:11
實(shí)錘!日本祖先真相大白:徐福傳說被科學(xué)擊碎,千年信仰轟然倒塌

實(shí)錘!日本祖先真相大白:徐福傳說被科學(xué)擊碎,千年信仰轟然倒塌

行者聊官
2026-04-03 11:10:44
多納魯馬在意大利世界杯失利后發(fā)表感性聲明

多納魯馬在意大利世界杯失利后發(fā)表感性聲明

綠茵情報(bào)局
2026-04-03 16:06:37
綠豆立大功!中農(nóng)大證實(shí):綠豆降膽固醇、減肝脂肪,改善脂肪肝

綠豆立大功!中農(nóng)大證實(shí):綠豆降膽固醇、減肝脂肪,改善脂肪肝

思思夜話
2026-04-01 11:52:19
2026-04-04 04:12:50
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14885文章數(shù) 66745關(guān)注度
往期回顧 全部

游戲要聞

魔獸12.0劇情又崩了?那個(gè)女人回來了!一箭驚退終極大BOSS

頭條要聞

伊朗:美飛行員跳傘在伊境內(nèi)落地 美方曾試圖營(yíng)救未果

頭條要聞

伊朗:美飛行員跳傘在伊境內(nèi)落地 美方曾試圖營(yíng)救未果

體育要聞

被NBA選中20年后,他重新回到籃球場(chǎng)

娛樂要聞

夏克立官宣再婚當(dāng)爸?否認(rèn)婚內(nèi)出軌

財(cái)經(jīng)要聞

專家稱長(zhǎng)期攝入“飄香劑”存在健康隱患

科技要聞

5萬輛庫存車,給了特斯拉一記重拳

汽車要聞

你介意和遠(yuǎn)房親戚長(zhǎng)得很像嗎?

態(tài)度原創(chuàng)

數(shù)碼
教育
家居
本地
手機(jī)

數(shù)碼要聞

消息稱三星顯示器部門面臨巨大危機(jī),最壞結(jié)果將退出中國(guó)大陸市場(chǎng)

教育要聞

教育部:義務(wù)教育學(xué)校嚴(yán)禁設(shè)立重點(diǎn)班、實(shí)驗(yàn)班、快慢班

家居要聞

溫馨多元 愛的具象化

本地新聞

跟著歌聲游安徽,聽古村回響

手機(jī)要聞

OPPO Find X9 Ultra:真機(jī)偷跑!Find X9s Pro:要做小屏影像機(jī)皇

無障礙瀏覽 進(jìn)入關(guān)懷版