国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

自寫驅(qū)動越獄!Gemini 3 Pro零敗績通關寶可夢:效率碾壓前代8倍「Agent進化太快了」

0
分享至


↑閱讀之前記得關注+星標??,,每天才能第一時間接收到更新

Gemini 3 Pro贏麻了

在ARISE基金會Joel Zhang主持的一場全自動《寶可夢 水晶版》對決中,Gemini 3 Pro以絕對優(yōu)勢擊敗了Gemini 2.5 Pro

戰(zhàn)績對比非常慘烈:當2.5版本只拿到4枚徽章時,Gemini 3 Pro已經(jīng)耗費約一半的Token和回合數(shù),拿下了全部16枚徽章,擊敗了四天王和冠軍,甚至打敗了隱藏BOSS赤紅(Red)

根據(jù)谷歌DeepMind披露的細節(jié),Gemini 3 Pro通關全過程至少比2.5版本快2倍;如果進行推算,前代模型的速度實際上要慢上8倍左右


這場對決最精彩的一幕發(fā)生在最終戰(zhàn)。面對等級壓制的赤紅,Gemini 3.0制定了一個名為“僵尸鳳凰行動”(Operation Zombie Phoenix)的復雜策略。它結合了被動恢復、能力值削減、消耗戰(zhàn)術以及復活循環(huán),在長達7小時的馬拉松式戰(zhàn)斗中鎖定了勝局


以下是這場“AI玩寶可夢”實驗中的核心發(fā)現(xiàn)

丟掉輔助輪:像科學家一樣思考

為了公平,兩個Agent使用了完全相同的測試環(huán)境

值得注意的是,Prompt并沒有要求它們盡快通關,而是要求它們應用科學方法,不要假設關于游戲的先驗知識是正確的。Agent可以使用非結構化的記事本功能來記錄假設、測試想法并跟蹤游戲進度。

這種靈活的設置允許Agent在環(huán)境中設計自己的代碼工具和子Agent。這不僅是玩游戲,更是測試Agent適應環(huán)境并構建工作流的能力。

自寫驅(qū)動,繞過限制

Gemini 3 Pro展現(xiàn)出了對工具極高的信任度。當行動失敗時,它會重新評估環(huán)境,而不是死磕代碼庫。這種意識引發(fā)了一個非常驚人的行為。

測試環(huán)境為了保持2.5版本的穩(wěn)定性及防止模擬器不同步,實施了嚴格的輸入限制,禁止混合按鍵輸入(例如連續(xù)按下A和Up)。

當Gemini 3 Pro需要給寶可夢起昵稱時,發(fā)現(xiàn)單次按鍵限制效率太低。它沒有全盤接受這個約束,而是利用define_tool功能,編寫了一個名為press_sequence的自定義工具

因為它發(fā)現(xiàn),自定義工具不受混合輸入的限制。

這個腳本允許它在本地批量處理輸入序列,實際上等于它自己編寫了一個驅(qū)動程序來繞過測試環(huán)境的限制,利用這個預期的漏洞提高了效率。對于3.0 Agent來說,環(huán)境約束只是一個需要解決的工程問題,而不是不可改變的鐵律

多模態(tài)優(yōu)勢:看懂RAM里沒有的數(shù)據(jù)

在第8個道館(冰系道館)中,解謎需要從樓上推下巨石,在巖漿地面上鋪路。

僅靠RAM數(shù)據(jù)很難追蹤底層狀態(tài)變化,因為內(nèi)存數(shù)據(jù)中沒有提及掉落的巨石。Gemini 3 Pro一度陷入死循環(huán),誤以為謎題未解(二樓殘留的誘餌巨石加劇了誤判)。

關鍵時刻,Gemini 3 Pro利用了視覺輸入。它忽略了可能令人困惑的狀態(tài)數(shù)據(jù),直接通過屏幕截圖識別出掉落巨石的位置,并根據(jù)視覺證據(jù)修正了策略,成功脫困。這種從RAM檢查切換到原始視覺的能力,是它走出死循環(huán)的關鍵。

此外,3.0 Agent還能“讀懂”對手的血條。

RAM狀態(tài)并不提供對手的生命值信息,必須通過屏幕畫面推斷。Gemini 3 Pro在與赤紅的戰(zhàn)斗中,能夠相當準確地估算對手剩余血量的比例,這對于理解戰(zhàn)斗中的最佳行動至關重要

戰(zhàn)斗效率與零敗績

戰(zhàn)斗推理能力的差距是決定勝負的關鍵。

Gemini 2.5 Pro:因策略較差,兩次輸給第3道館館主,導致花費大量時間進行不必要的練級

Gemini 3 Pro: 零敗績通關整個游戲(包括最終隱藏BOSS赤紅)。

3.0展示了卓越的戰(zhàn)術推理能力,能進行實時傷害計算以優(yōu)化招式選擇。例如:

它發(fā)現(xiàn)對手的卡比獸提升了特防,且雨天天氣會降低火系傷害,因此正確地放棄了噴射火焰,轉(zhuǎn)而選擇高速星星

在四天王連戰(zhàn)中,它會主動管理HP,在回合之間使用道具回血,而2.5版本歷來難以將此類操作的優(yōu)先級置于即時戰(zhàn)斗之上

現(xiàn)存的局限性

盡管性能飛躍,Gemini 3 Pro并非完美:

不經(jīng)驗證的假設:最大的失敗模式是形成假設后拒絕測試。例如,它曾假設收音機界面像標準菜單一樣(左右操作),而忽略了視覺上的撥盤提示(上下操作),導致浪費數(shù)小時。另一次,它在鎖門謎題上花費大量時間測試復雜理論,卻沒去和旁邊的提示NPC對話

前瞻性規(guī)劃不足:雖然反應戰(zhàn)術很強,但主動目標管理仍不穩(wěn)定。它經(jīng)常意識到戰(zhàn)略需求(如調(diào)整寶可夢順序),但直到戰(zhàn)斗開始后才去執(zhí)行

空跑:經(jīng)常在調(diào)用工具時參數(shù)出錯,導致空跑。不過它通常能在下一回合自我修正,這一點優(yōu)于2.5

并行規(guī)劃困難:難以并行規(guī)劃多個大目標以提高效率,傾向于逐個解決任務。

在這場競賽中,Gemini 3 Pro超越了簡單的指令遵循,展示了真正的空間推理、即興工具創(chuàng)建和假設測試的科學方法

這種推理能力直接轉(zhuǎn)化為效率:

Gemini 3 Pro:耗時17天,消耗18.8億Token

Gemini 2.5 Pro:基于礦山徽章進度的推算,預計需要69天,消耗超過150億Token才能達到相同結果

參考:

https://x.com/GoogleAIStudio/status/2000649586847985985

--end--

最后記得??我,每天都在更新:歡迎點贊轉(zhuǎn)發(fā)推薦評論,別忘了關注我

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
超20000名旅客滯留!“迪拜機場已經(jīng)沒有航班了”,阿聯(lián)酋宣布:承擔所有旅客滯留費用

超20000名旅客滯留!“迪拜機場已經(jīng)沒有航班了”,阿聯(lián)酋宣布:承擔所有旅客滯留費用

江西工人報
2026-03-01 22:27:25
快訊!伊朗大捷!

快訊!伊朗大捷!

達文西看世界
2026-03-01 16:46:09
美以空襲伊朗,阿拉伯國家聯(lián)盟發(fā)聲:“阿拉伯-以色列沖突升級為全面地區(qū)戰(zhàn)爭的時刻”

美以空襲伊朗,阿拉伯國家聯(lián)盟發(fā)聲:“阿拉伯-以色列沖突升級為全面地區(qū)戰(zhàn)爭的時刻”

環(huán)球網(wǎng)資訊
2026-03-01 11:00:18
哈梅內(nèi)伊死后,有伊朗人分析:現(xiàn)在還沒到慶祝的時候

哈梅內(nèi)伊死后,有伊朗人分析:現(xiàn)在還沒到慶祝的時候

小蘿卜絲
2026-03-01 09:56:11
3月3日元宵節(jié),牢記:1不留,2不洗,3不穿,4不空!馬年大吉

3月3日元宵節(jié),牢記:1不留,2不洗,3不穿,4不空!馬年大吉

阿龍美食記
2026-03-01 16:17:49
“大力神”軍機墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

“大力神”軍機墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

每日經(jīng)濟新聞
2026-02-28 14:37:58
美軍公布傷亡情況

美軍公布傷亡情況

環(huán)球時報國際
2026-03-02 00:10:13
伊朗稱襲擊致美軍傷亡560人

伊朗稱襲擊致美軍傷亡560人

財聯(lián)社
2026-03-02 00:54:12
今年,北京已無離職潮

今年,北京已無離職潮

微微熱評
2026-03-01 18:45:40
伊朗外長:新任最高領袖將在“一或兩天”內(nèi)被選出

伊朗外長:新任最高領袖將在“一或兩天”內(nèi)被選出

財聯(lián)社
2026-03-01 23:33:52
回顧:浙江幼師幼兒園潛伏22年,警察曝光真實身份,家長后怕不已

回顧:浙江幼師幼兒園潛伏22年,警察曝光真實身份,家長后怕不已

談史論天地
2026-03-01 09:49:38
重大進展!伊朗作出“前所未有”承諾:同意永遠不擁有可制造核武器的核材料,將實現(xiàn)“零積累、零庫存”,并接受全面核查!特朗普最新表態(tài)

重大進展!伊朗作出“前所未有”承諾:同意永遠不擁有可制造核武器的核材料,將實現(xiàn)“零積累、零庫存”,并接受全面核查!特朗普最新表態(tài)

每日經(jīng)濟新聞
2026-02-28 10:40:45
美以刺殺伊朗最高領袖和總統(tǒng)失敗

美以刺殺伊朗最高領袖和總統(tǒng)失敗

財聯(lián)社
2026-02-28 18:48:32
真的天塌!拔乳牙竟把孩子2顆恒牙拔掉,鹽城一口腔醫(yī)生整出事故

真的天塌!拔乳牙竟把孩子2顆恒牙拔掉,鹽城一口腔醫(yī)生整出事故

火山詩話
2026-03-01 18:08:52
又一個國家采取軍事行動! 瑞典在厄勒海峽上空攔截了俄羅斯無人機

又一個國家采取軍事行動! 瑞典在厄勒海峽上空攔截了俄羅斯無人機

一種觀點
2026-02-28 08:44:21
伊朗“斬首”疑云:美以為何總能做到“百萬軍中取上將首級”?

伊朗“斬首”疑云:美以為何總能做到“百萬軍中取上將首級”?

國是直通車
2026-03-01 17:53:07
特朗普稱美方“基本摧毀”伊朗海軍總部

特朗普稱美方“基本摧毀”伊朗海軍總部

財聯(lián)社
2026-03-02 01:29:13
云淡風輕!網(wǎng)傳特朗普指揮襲擊伊朗前幾分鐘,還在家中參加派對

云淡風輕!網(wǎng)傳特朗普指揮襲擊伊朗前幾分鐘,還在家中參加派對

小蘿卜絲
2026-03-01 13:10:35
網(wǎng)友預測明天早上10點半 deepseek 發(fā)布V4 模型,首次沒給英偉達權限,選擇與華為合作

網(wǎng)友預測明天早上10點半 deepseek 發(fā)布V4 模型,首次沒給英偉達權限,選擇與華為合作

風向觀察
2026-03-01 17:11:32
兩個人的律所干翻千人大所!靠Claude在兩小時拆穿對方三處漏洞

兩個人的律所干翻千人大所!靠Claude在兩小時拆穿對方三處漏洞

三言四拍
2026-03-01 20:58:56
2026-03-02 03:40:49
AI寒武紀 incentive-icons
AI寒武紀
專注于人工智能,科技領域
1034文章數(shù) 396關注度
往期回顧 全部

數(shù)碼要聞

巨屏折疊屏 iPad 項目曝光:體型巨大、折疊便攜 但未必能面世

頭條要聞

特朗普警告伊朗“不要報復” 伊朗外長回應

頭條要聞

特朗普警告伊朗“不要報復” 伊朗外長回應

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

教育
藝術
時尚
公開課
軍事航空

教育要聞

初中階段的分化,從習慣悄悄開始

藝術要聞

看!這位伊朗超模如何顛覆你的美麗認知!

今年春天最流行的4件衛(wèi)衣,照著穿就很好看

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗前總統(tǒng)內(nèi)賈德遇襲身亡

無障礙瀏覽 進入關懷版