国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Gemini最強版本上線:推理斷層領(lǐng)先,姚順宇預(yù)告更強版本還在路上

0
分享至

就在上周谷歌發(fā)布 Gemini Deep Think 重大更新后,谷歌于今日正式推出新一代基礎(chǔ)大模型 Gemini 3.1 Pro。

谷歌 CEO 桑達爾·皮查伊(Sundar Pichai)在社交平臺上確認(rèn)了這一消息。他表示,Gemini 3.1 Pro 相較前代 Gemini 3 Pro 的 31.1% 提升顯著。新模型在處理復(fù)雜概念可視化、多源數(shù)據(jù)整合、創(chuàng)意項目落地等任務(wù)時表現(xiàn)更為出色,目前已逐步接入消費者與開發(fā)者產(chǎn)品。

去年9月加入谷歌 DeepMind 的清華大學(xué)校友、AI 研究員姚順宇也在社交平臺分享了相關(guān)進展,并暗示后續(xù)還有更強模型正在籌備中。


(來源:X)

從“.5”到“.1”的版本策略調(diào)整

按照谷歌以往的發(fā)布節(jié)奏,重大更新多集中在年中(如 Google I/O 大會),且常以“.5”后綴標(biāo)識中期升級。但此次距離 Gemini 3 Pro 發(fā)布僅三個月,便推出了帶“.1”后綴的 3.1 Pro,可見谷歌底層技術(shù)迭代加速,以及推動最新研究成果落地的節(jié)奏調(diào)整。

支撐這一節(jié)奏的,是新模型在核心推理能力上的提升。關(guān)鍵在于 ARC-AGI(抽象與推理語料庫)基準(zhǔn)測試。該測試不依賴知識記憶,而是考察模型面對陌生視覺與邏輯謎題時的多步推演能力,被視作衡量 AI 泛化與流體智力的重要參考。

在官方驗證的 ARC-AGI-2 測試中,Gemini 3.1 Pro 得分為 77.1%,而數(shù)月前的 3 Pro 為 31.1%。橫向?qū)Ρ?,Anthropic 的 Claude Opus 4.6 得分為 68.8%,OpenAI 的 GPT-5.2 為 52.9%。這一差距說明,大模型在處理非結(jié)構(gòu)化、未見過的推理任務(wù)時,正逐步從模式匹配向邏輯推演演進。


(來源:Google)

多項測試占優(yōu),細分場景仍存差距

除抽象推理外,谷歌公布的技術(shù)文檔顯示,Gemini 3.1 Pro 在 16 項主流基準(zhǔn)測試中,有 12 項位列第一(含并列),覆蓋學(xué)術(shù)知識、科學(xué)問答、代碼生成、智能體協(xié)作及長上下文理解等方向。

在學(xué)術(shù)與科學(xué)能力方面,它在無外部工具輔助的 Humanity's Last Exam(人類終極考試)測試中準(zhǔn)確率達 44.4%,在高難度科學(xué)知識測試 GPQA Diamond 中得分 94.3%。這兩項成績均以較高幅度優(yōu)于當(dāng)前主流競品,體現(xiàn)出模型在知識儲備與邏輯推導(dǎo)上的優(yōu)勢。


(來源:Google)

在開發(fā)者關(guān)注的代碼與工程能力上,Terminal-Bench 2.0(終端操作代理測試)成功率達 68.5%,SWE-Bench Verified(真實 GitHub 問題求解)單次嘗試得分 80.6%,與 Claude Opus 4.6 處于同一梯隊;LiveCodeBench Pro 的 Elo 評分更是達到 2,887 分,顯著領(lǐng)先于 GPT-5.2 的 2,393 分。

在多模態(tài)與長上下文理解方面,MCP Atlas(多步驟工作流)得分 69.2%,BrowseComp(代理搜索)85.9%,MMMLU(多語種問答)92.6%;在 128k 上下文的 MRCR v2 檢索測試中,與 Claude Sonnet 4.6 并列第一(84.9%)。整體來看,新模型在多個維度展現(xiàn)出較為均衡的能力儲備,而非單一維度的"偏科"優(yōu)勢。

盡管綜合表現(xiàn)突出,當(dāng)前大模型賽道已進入差異化競爭階段,各模型在特定場景下仍各有側(cè)重。

例如在面向?qū)嶋H工程場景的 SWE-Bench Pro 測試中,OpenAI 專為代碼優(yōu)化的 GPT-5.3-Codex 以 56.8% 領(lǐng)先,Gemini 3.1 Pro 為 54.2%;在評估商業(yè)流程操作的 GDPval-AA 測試中,Claude Sonnet 4.6 以 1633 分顯著高于 Gemini 3.1 Pro 的 1317 分。

此外,在允許調(diào)用搜索與代碼工具的 HLE 測試中,Claude Opus 4.6 略優(yōu)于 Gemini 3.1 Pro;而在多模態(tài)理解測試 MMMU Pro 中,3.1 Pro 甚至微幅落后于前代 3 Pro。谷歌也未披露該模型的具體參數(shù)規(guī)模與訓(xùn)練數(shù)據(jù)細節(jié)。

從深度推理到日常應(yīng)用

此次 Gemini 3.1 Pro 的性能飛躍,源于此前推出的 Gemini 3 Deep Think 模型。后者專攻科學(xué)計算與復(fù)雜工程,其卓越的推理能力已在國際奧賽等場景中得到實證。Gemini 3.1 Pro 則進一步將這種‘專家級’的核心能力拓展至通用領(lǐng)域,從而能夠服務(wù)于更廣泛的開發(fā)與用戶需求。

谷歌官方博客列舉了若干應(yīng)用場景:

首先在基于代碼的動畫生成方面,3.1 Pro 能夠直接根據(jù)文本提示生成適用于網(wǎng)站的 SVG 動畫。由于此類動畫由純代碼而非像素位圖構(gòu)成,因此具備無損縮放特性,在任何分辨率下均能保持清晰,且文件體積遠小于先前形式。

其次是數(shù)據(jù)處理場景。 Gemini 3.1 Pro 展現(xiàn)了卓越的“工具使用(Tool Use)”能力。以國際空間站(ISS)軌道追蹤為例,模型不僅能自主研讀 NASA 復(fù)雜的 API 文檔、編寫數(shù)據(jù)抓取腳本,還能實時處理回傳的流式遙測數(shù)據(jù)。令人吃驚的是,它能同步調(diào)用 D3.js 等可視化庫,快速搭建出包含實時經(jīng)緯度、軌道投影及速度指標(biāo)的交互式儀表盤。

還有創(chuàng)意編程能力。模型能夠深入理解文學(xué)名著(如海明威作品),提煉文字背后隱含的風(fēng)格特征,轉(zhuǎn)換成具體的交互界面細節(jié)。例如將簡潔有力的短句轉(zhuǎn)化為“極簡主義”排版,將硬朗的情感基調(diào)映射為“高對比度”配色。最終,這些抽象的美學(xué)特征被精準(zhǔn)轉(zhuǎn)譯為 CSS/HTML 代碼。這種跨模態(tài)轉(zhuǎn)換能力,使得文字創(chuàng)作者能以極低的成本,將抽象的文學(xué)內(nèi)核注入數(shù)字產(chǎn)品的交互界面之中。

最后是深度交互設(shè)計。3.1 Pro 能夠構(gòu)建復(fù)雜的三維“椋鳥低語”模擬場景。這不僅僅是視覺代碼的生成,更是沉浸式體驗的營造:用戶可通過手勢追蹤操控鳥群,并聆聽隨鳥類動作實時變化的生成式樂譜。對于研究人員和設(shè)計師而言,這為原型化多感官豐富的界面提供了強有力的工具。

此外,為加速能力落地,谷歌此次采取了分層部署策略。

普通用戶可通過更新后的 Gemini 應(yīng)用體驗基礎(chǔ)功能;高階訂閱用戶在 NotebookLM 平臺可獨家接入 3.1 Pro 并享受更高調(diào)用額度。開發(fā)者可通過 Google AI Studio 申請 API 預(yù)覽權(quán)限,Gemini CLI 與 Android Studio 已完成首批適配;企業(yè)客戶則支持通過 Vertex AI 與 Gemini Enterprise 集成至私有業(yè)務(wù)流。這種"由淺入深"的推進方式,有助于不同層級的用戶按需接入。

目前,3.1 Pro 已以預(yù)覽版形式上線谷歌代理式開發(fā)平臺 Antigravity。谷歌表示,此舉旨在復(fù)雜多步任務(wù)場景中進一步驗證與優(yōu)化模型表現(xiàn),為后續(xù)全面推廣積累經(jīng)驗。

總體來看,Gemini 3.1 Pro 在推理能力與多維度任務(wù)表現(xiàn)上確有提升,尤其在抽象邏輯與代碼工程方向優(yōu)勢明顯。但大模型競爭已進入"場景適配"階段,技術(shù)選型需結(jié)合具體需求理性評估。對于關(guān)注成本、穩(wěn)定性與落地效率的用戶而言,持續(xù)觀察其在真實業(yè)務(wù)中的表現(xiàn),或許比基準(zhǔn)測試分?jǐn)?shù)更具參考價值。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
真的離譜,特斯拉即將迎來兩項重大升級!

真的離譜,特斯拉即將迎來兩項重大升級!

XCiOS俱樂部
2026-02-28 15:20:09
巴拿馬總統(tǒng)已經(jīng)傻眼!發(fā)現(xiàn)強吞中國18億資產(chǎn),竟是“自掘墳?zāi)埂?>
    </a>
        <h3>
      <a href=小陸搞笑日常
2026-03-01 01:51:05
美元拋售潮來了!2 萬億海外美元正瘋狂回流,人民幣殺瘋了

美元拋售潮來了!2 萬億海外美元正瘋狂回流,人民幣殺瘋了

白淺娛樂聊
2026-03-01 01:47:54
長沙四方坪一家厲害的粉面館,兩個人吃了200塊,看看值不值

長沙四方坪一家厲害的粉面館,兩個人吃了200塊,看看值不值

阿天愛旅行
2026-03-01 00:35:43
億萬國人破防!90歲院士平靜宣布,中國導(dǎo)彈從此沒有任何死角!

億萬國人破防!90歲院士平靜宣布,中國導(dǎo)彈從此沒有任何死角!

墨印齋
2026-02-28 16:54:29
巴拿馬終于發(fā)現(xiàn),強吞中國18億資產(chǎn),竟是在自掘墳?zāi)?>
    </a>
        <h3>
      <a href=聚焦真實瞬間
2026-03-01 02:52:14
華為重返歐洲高端市場!Mate 80 Pro海外發(fā)布:系統(tǒng)不是鴻蒙

華為重返歐洲高端市場!Mate 80 Pro海外發(fā)布:系統(tǒng)不是鴻蒙

快科技
2026-02-27 00:27:08
50℃高溫鎖住國運!電不夠水沒有,印度的未來,徹底沒希望了?

50℃高溫鎖住國運!電不夠水沒有,印度的未來,徹底沒希望了?

呼呼歷史論
2026-02-28 00:46:49
特朗普:由于軍事打擊伊朗,“美國可能會有人員傷亡”

特朗普:由于軍事打擊伊朗,“美國可能會有人員傷亡”

參考消息
2026-02-28 17:39:04
震撼!曾精確預(yù)言911的盲眼神婆預(yù)測今年8大事件,有一條暗指中國

震撼!曾精確預(yù)言911的盲眼神婆預(yù)測今年8大事件,有一條暗指中國

刀刃故事
2024-11-22 01:55:03
外媒:伊朗革命衛(wèi)隊在波斯灣沿岸舉行軍事演習(xí)

外媒:伊朗革命衛(wèi)隊在波斯灣沿岸舉行軍事演習(xí)

參考消息
2026-02-25 16:13:04
中國如今的遭遇,絕對世所罕見

中國如今的遭遇,絕對世所罕見

百態(tài)人間
2026-02-28 15:30:34
中東炸了! 伊朗陸軍總司令身亡 美以聯(lián)手突襲伊朗 真正目的是什么?

中東炸了! 伊朗陸軍總司令身亡 美以聯(lián)手突襲伊朗 真正目的是什么?

每日經(jīng)濟新聞
2026-02-28 18:15:26
唐嫣彭冠英官宣后,惡心的一幕出現(xiàn)了,婚變傳聞終于真相大白

唐嫣彭冠英官宣后,惡心的一幕出現(xiàn)了,婚變傳聞終于真相大白

艷姐的搞笑視頻
2026-01-16 13:24:42
這3個生肖2026注定發(fā)光!不是運氣,是實力贏來的幸福!

這3個生肖2026注定發(fā)光!不是運氣,是實力贏來的幸福!

毅談生肖
2026-02-26 11:27:27
贏球也沒用!利物浦 5-2 大勝,球迷卻集體喊賣他:全隊最大漏洞

贏球也沒用!利物浦 5-2 大勝,球迷卻集體喊賣他:全隊最大漏洞

瀾歸序
2026-03-01 02:33:07
國家下狠手了!體制內(nèi)大地震,少爺、公主們的“天”,要塌了

國家下狠手了!體制內(nèi)大地震,少爺、公主們的“天”,要塌了

霹靂炮
2026-01-19 22:24:13
金價,飆漲!

金價,飆漲!

中吳網(wǎng)
2026-02-28 15:36:08
0-5!周躍龍完敗希金斯,斯諾克3席4強誕生,小司機搶139萬紅包?

0-5!周躍龍完敗希金斯,斯諾克3席4強誕生,小司機搶139萬紅包?

劉姚堯的文字城堡
2026-02-28 06:14:45
去政府部門借廁所,被懟“我還把你當(dāng)神敬嘞”

去政府部門借廁所,被懟“我還把你當(dāng)神敬嘞”

中國新聞周刊
2026-02-27 21:04:19
2026-03-01 04:07:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16340文章數(shù) 514675關(guān)注度
往期回顧 全部

數(shù)碼要聞

小米Watch 5智能手表海外發(fā)布,搭載谷歌Wear OS系統(tǒng)

頭條要聞

伊朗媒體公布反擊美軍軍事行動結(jié)果

頭條要聞

伊朗媒體公布反擊美軍軍事行動結(jié)果

體育要聞

球隊主力全報銷?頂風(fēng)擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財經(jīng)要聞

沖突爆發(fā) 市場變天?

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

游戲
教育
時尚
公開課
軍事航空

所有人保持嘴角不變!生化危機:安魂曲里昂騷話大盤點

教育要聞

初三不安排春假,最多可連休10天!一地率先公布!

這6款發(fā)色居然這么火?50張圖可以直接給tony

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國以色列聯(lián)合襲擊伊朗 實時戰(zhàn)況

無障礙瀏覽 進入關(guān)懷版