国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

編碼新王登基!Gemini 3.1 Pro 血洗 Claude 與 GPT,12 項基準(zhǔn)測試第一!

0
分享至

  作者|冬梅

  1 核心能力全面下放,多端同步上線

  在上周發(fā)布Gemini 3 Deep Think重大更新、面向科學(xué)研究與工程領(lǐng)域復(fù)雜問題之后,谷歌今日正式推出支撐這些突破的“核心智能”升級版本——Gemini 3.1 Pro。

  Gemini 3.1 Pro 是一款采用混合專家架構(gòu)的 Transformer 模型,這意味著它在生成提示響應(yīng)時僅激活部分參數(shù)。用戶可輸入包含高達(dá) 100 萬 token 數(shù)據(jù)量的提示詞,內(nèi)容不僅涵蓋文本,還包括視頻等多模態(tài)文件。Gemini 3.1 Pro 的響應(yīng)輸出最多包含 6.4 萬 token。

  這意味著,Gemini 3 系列的最新能力不再只停留在研究層面,而是開始全面進(jìn)入開發(fā)者工具、企業(yè)服務(wù)以及普通用戶的日常應(yīng)用場景。

  

  根據(jù)官方披露,Gemini 3.1 Pro 已于今日開始分批上線,覆蓋對象包括開發(fā)者、企業(yè)客戶以及普通消費(fèi)者:

  開發(fā)者:可通過 Gemini API(Google AI Studio)、Gemini CLI、智能體開發(fā)平臺Google Antigravity以及 Android Studio 預(yù)覽使用;

  企業(yè)用戶:通過Vertex AI和 Gemini Enterprise 接入;

  消費(fèi)者:可在 Gemini App 及NotebookLM中直接體驗。

  谷歌方面表示,此次“全線鋪開”的策略,旨在將最新一代推理能力快速融入實際工作流與個人使用場景,而不僅僅停留在實驗室或演示階段。

  2 推理表現(xiàn)翻倍、12 項基測排名第一

  從技術(shù)定位來看,Gemini 3.1 Pro 并非簡單的性能微調(diào),而是一次核心推理能力(core reasoning)的系統(tǒng)性升級。官方將其描述為“更聰明、更具能力的基礎(chǔ)模型”,尤其適用于復(fù)雜問題求解、跨領(lǐng)域分析以及需要抽象邏輯的任務(wù)。

  這一進(jìn)步也體現(xiàn)在權(quán)威評測成績上。在 ARC-AGI-2 基準(zhǔn)測試中,Gemini 3.1 Pro 獲得了 77.1% 的經(jīng)驗證成績。該測試專門用于評估模型在從未見過的新邏輯模式下的泛化與推理能力。它包含多個視覺謎題,每個謎題均由一系列圖形組成。構(gòu)成謎題的圖形在設(shè)計上各不相同,但都遵循特定規(guī)律。大語言模型必須推斷出該規(guī)律,并利用其生成新的圖形。

  

  這一分?jǐn)?shù)是 Gemini 3 Pro 推理表現(xiàn)的兩倍以上。在當(dāng)前大模型競爭格局中,ARC-AGI 系列被視為衡量“類通用智能推理能力”的重要指標(biāo)之一,這一成績也意味著 Gemini 3.1 Pro 在抽象推理與新問題適應(yīng)能力上邁出了關(guān)鍵一步。

  值得注意的是,人類參與者在該測試中的平均正確率約為 60%。前陣子發(fā)布的 Gemini Deep Think 以 84.6% 的準(zhǔn)確率遙遙領(lǐng)先其他模型。

  

  雖然 Gemini 3.1 Pro 在得分上低于 Gemini Deep Think,但這是一款基礎(chǔ)模型,并且它向所有用戶免費(fèi)開放。而具備“深度思考”能力的 Deep Think 模式屬于更高維度的技術(shù)突破,目前僅限 Google AI Ultra 訂閱用戶使用,且每日限用 10 次。

  能讓開發(fā)者免費(fèi)體驗?zāi)芰θ绱藦?qiáng)的 Gemini 3.1 Pro,谷歌已經(jīng)很大方了。

  再來橫向比較下 Gemini 3.1 Pro 與其他模型:Claude Opus 4.6 達(dá)到 68.8%,Claude Sonnet 4.6 為 58.3%,GPT-5.2 獲得 52.9%,而上一代產(chǎn)品 Gemini 3 Pro 僅得到 31.1%。短短三個月時間,同一系列模型的閉卷推理能力就從 31.1% 躍升至 77.1%,實現(xiàn)了翻倍以上的跨越式提升。

  谷歌官方公布了 16 項基準(zhǔn)測試數(shù)據(jù),Gemini 3 Pro 在其中12 項基測中均位列第一。

  在評估 AI 模型使用第三方服務(wù)執(zhí)行任務(wù)能力的 MCP Atlas 測試中,Gemini 3 Pro 以 69.2% 的成績領(lǐng)先于最近剛發(fā)布的 Claude Sonnet 4.6,在編程測試 Terminal-Bench 2.0 中,Gemini 3 Pro 編碼能力高于 Opus 4.6、GPT-5.2。在另一項包含科學(xué)編程任務(wù)的代碼基準(zhǔn)測試 SciCode 上,該模型的表現(xiàn)比 Claude Opus 4.6 高出 7%。

  

  從發(fā)布節(jié)奏來看,谷歌正在嘗試將前沿研究成果更快轉(zhuǎn)化為“默認(rèn)可用”的基礎(chǔ)能力。先通過 Deep Think 展示在科學(xué)與工程問題上的上限,再通過 3.1 Pro 將這些能力沉淀為更穩(wěn)定、更通用的底座模型,并迅速推向 API、企業(yè)平臺和消費(fèi)級應(yīng)用。

  3 智能的實際應(yīng)用

  Gemini 3.1 Pro 面向那些“給出一個簡單答案遠(yuǎn)遠(yuǎn)不夠”的任務(wù)而設(shè)計,它將高級推理能力轉(zhuǎn)化為可用于解決最棘手問題的實用智能。升級后的智能水平能夠在多種現(xiàn)實場景中發(fā)揮作用——無論是將復(fù)雜主題以清晰、直觀的方式呈現(xiàn)出來,還是把分散的數(shù)據(jù)綜合成一個統(tǒng)一視圖,亦或是推動一個富有創(chuàng)造力的項目從構(gòu)想走向落地。

  為了說明其潛在用途,Gemini 團(tuán)隊指出,該模型可以創(chuàng)建可用于網(wǎng)站的 SVG 動畫,還可以將小說的文學(xué)風(fēng)格轉(zhuǎn)化為個人作品集網(wǎng)站的設(shè)計。

  基于代碼的動畫生成:Gemini 3.1 Pro 可以直接根據(jù)文本提示生成可直接用于網(wǎng)站的動態(tài) SVG 動畫。由于這些動畫完全由代碼構(gòu)建,而非像素渲染,因此在任何縮放比例下都能保持清晰銳利,同時相比傳統(tǒng)視頻格式,文件體積小得多,極大降低了加載和分發(fā)成本。

  復(fù)雜系統(tǒng)綜合: 利用先進(jìn)的推理能力,彌合了復(fù)雜 API 與用戶友好型設(shè)計之間的鴻溝。在這一示例中,模型構(gòu)建了一個實時航天儀表盤,成功配置并接入了一條公共遙測數(shù)據(jù)流,用于可視化International Space Station的軌道運(yùn)行情況。

  交互式設(shè)計:Gemini 3.1 Pro 能夠編寫復(fù)雜的3D 椋鳥群舞(murmuration)模擬代碼。它不僅生成視覺層面的代碼,還構(gòu)建了一個沉浸式體驗:用戶可以通過手部追蹤來操控鳥群,同時聆聽一段會隨著鳥群運(yùn)動而動態(tài)變化的生成式配樂。對于研究人員和設(shè)計師而言,這為原型化多感官、強(qiáng)交互的界面提供了一種極具潛力的方式。

  創(chuàng)意編程:3.1 Pro 能夠?qū)⑽膶W(xué)主題轉(zhuǎn)化為功能性代碼。當(dāng)被要求為艾米莉·勃朗特的《呼嘯山莊》構(gòu)建一個現(xiàn)代個人作品集網(wǎng)站時,該模型不僅概括了文本內(nèi)容,更通過推理小說中的陰郁基調(diào),設(shè)計出時尚的當(dāng)代界面,最終創(chuàng)建出能捕捉主角神韻的網(wǎng)站。

  自去年 11 月推出 Gemini 3 Pro 以來,用戶反饋和技術(shù)進(jìn)步共同推動了這一系列快速迭代。今天發(fā)布的 3.1 Pro 預(yù)覽版旨在驗證這些更新成果,并將在全面上線前繼續(xù)在智能體工作流等前沿領(lǐng)域進(jìn)行深度優(yōu)化。

  即日起,Gemini 應(yīng)用中的 3.1 Pro 版本將向 Google AI Pro 和 Ultra 套餐用戶逐步開放,提供更優(yōu)使用權(quán)限。3.1 Pro 現(xiàn)已獨(dú)家登陸 NotebookLM 平臺,面向 Pro 及 Ultra 用戶開放。開發(fā)者和企業(yè)用戶可通過 AI Studio、Antigravity、Vertex AI、Gemini Enterprise、Gemini CLI 及 Android Studio 等渠道,在 Gemini API 中搶先體驗 3.1 Pro 預(yù)覽版。

  去年 9 月加盟谷歌 DeepMind 的清華物理系知名研究者姚順宇(Shunyu Yao)在 x 上發(fā)帖稱,更強(qiáng)的模型也將很快亮相。

  

  在公司 2025 年第四季度收益報告中,首席執(zhí)行官 Sundar Pichai 表示:“我們的第一方模型,如 Gemini,現(xiàn)在通過客戶直接使用 API,每分鐘處理超過 100 億個 token,Gemini App 的月活躍用戶已增長到超過 7.5 億?!?/p>

  4 網(wǎng)友:谷歌重回巔峰

  隨著 Gemini 3.1 Pro 正式上線,圍繞這次更新的討論迅速在技術(shù)社區(qū)中展開。與以往大模型發(fā)布時對“參數(shù)規(guī)模”“模型體量”的高度關(guān)注不同,不少網(wǎng)友認(rèn)為,這一版本釋放出的關(guān)鍵信號,并不在于“更大”,而在于整體推理能力和復(fù)雜問題求解能力的持續(xù)上推。

  有開發(fā)者指出,Gemini 3.1 Pro 的定位非常明確:不再單純追求模型規(guī)模的擴(kuò)張,而是更強(qiáng)調(diào)在真實任務(wù)中的完成度和穩(wěn)定性。這也被視為當(dāng)前頭部大模型競爭的一個重要轉(zhuǎn)折點(diǎn)——競爭焦點(diǎn)正在從“誰的參數(shù)更多”,轉(zhuǎn)向“誰能把問題真正做完、做好”。

  在 x 上,該開發(fā)者表示:

“Gemini 3.1 Pro 上線了,重點(diǎn)不是更大,而是把整體推理和復(fù)雜問題求解能力繼續(xù)往上推。這波信號很明確:頭部模型競爭正在從參數(shù)規(guī)模,轉(zhuǎn)向真實任務(wù)完成率。”

  

  與此同時,還有網(wǎng)友系統(tǒng)梳理了谷歌近年來模型更新的時間線,直言人工智能的發(fā)展節(jié)奏已經(jīng)進(jìn)入“以月甚至以周計”的階段。在這樣的背景下,谷歌已難以承受過長的更新間隔。

  Gemini 3.1 專業(yè)版在較短時間內(nèi)推出,被解讀為谷歌對這一現(xiàn)實壓力的直接回應(yīng):必須持續(xù)、快速地將核心能力推向市場。

  

  成本與落地能力同樣成為討論的焦點(diǎn)。有網(wǎng)友特別提到,Gemini 3.1 Pro 在降低使用成本的同時提升智能水平,這種優(yōu)化路徑對于推動 AI 在生產(chǎn)環(huán)境中的應(yīng)用尤為關(guān)鍵。在他們看來,人工智能的前沿價值并不僅體現(xiàn)在基準(zhǔn)測試成績上,更體現(xiàn)在這些能力能否被開發(fā)者社區(qū)輕松獲取、快速部署,并穩(wěn)定運(yùn)行于真實業(yè)務(wù)中。

  綜合這些反饋可以看出,Gemini 3.1 Pro 的發(fā)布,已經(jīng)不只是一次常規(guī)的模型升級,而更像是一次方向性的表態(tài):在大模型逐漸走向成熟的階段,真正決定勝負(fù)的,將是推理能力、工程可用性以及規(guī)?;涞氐木C合表現(xiàn)。

  

  https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

  https://www.ai.jp.net/article/google-s-gemini-3-1-pro-a-new-reasoning-champion-c710f5

  https://x.com/ShunyuYao14

  https://deepmind.google/models/gemini/pro/

  聲明:本文為 InfoQ 整理,不代表平臺觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗強(qiáng)援已到!以色列集結(jié)十萬大軍,關(guān)鍵時刻,普京對中國做承諾

伊朗強(qiáng)援已到!以色列集結(jié)十萬大軍,關(guān)鍵時刻,普京對中國做承諾

凡知
2026-03-02 15:18:28
一家4口爬山祈福,33歲妻子墜亡,死者父親稱已完成尸檢,丈夫最新回應(yīng)質(zhì)疑:帶兒女山頂屋內(nèi)休息,20分鐘后人就不見了

一家4口爬山祈福,33歲妻子墜亡,死者父親稱已完成尸檢,丈夫最新回應(yīng)質(zhì)疑:帶兒女山頂屋內(nèi)休息,20分鐘后人就不見了

都市快報橙柿互動
2026-03-02 11:43:55
父親之謎!谷愛凌出生證明生父一欄空白 最新傳聞曝光:長得真像

父親之謎!谷愛凌出生證明生父一欄空白 最新傳聞曝光:長得真像

念洲
2026-03-01 21:29:29
CCTV5播中國女籃VS巴西,比賽時間確定,韓旭回歸,宮魯鳴做減法

CCTV5播中國女籃VS巴西,比賽時間確定,韓旭回歸,宮魯鳴做減法

體育大學(xué)僧
2026-03-03 10:03:09
張家界“愛國賊事件”:傻X式愛國,是個巨大禍害

張家界“愛國賊事件”:傻X式愛國,是個巨大禍害

麥大人
2025-10-13 15:29:56
電影院抓小三后續(xù)!為求刺激上演燈下黑?孩子也不是丈夫親生的

電影院抓小三后續(xù)!為求刺激上演燈下黑?孩子也不是丈夫親生的

社會醬
2026-03-01 20:43:29
若中美開戰(zhàn),美摧毀北斗衛(wèi)星,中國將如何應(yīng)對?4大殺手锏已就位

若中美開戰(zhàn),美摧毀北斗衛(wèi)星,中國將如何應(yīng)對?4大殺手锏已就位

春風(fēng)秋雨
2025-10-29 19:55:04
48小時送走哈梅內(nèi)伊:令人恐怖的技術(shù)代差,現(xiàn)代戰(zhàn)爭的形態(tài)變了

48小時送走哈梅內(nèi)伊:令人恐怖的技術(shù)代差,現(xiàn)代戰(zhàn)爭的形態(tài)變了

黑企鵝觀察
2026-03-01 14:40:34
伊朗4枚彈道導(dǎo)彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

伊朗4枚彈道導(dǎo)彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

矚望云霄
2026-03-02 10:49:12
歸化誰最適合男籃?布朗要價高+時間緊 郭士強(qiáng)召回此人才有大用

歸化誰最適合男籃?布朗要價高+時間緊 郭士強(qiáng)召回此人才有大用

大嘴爵爺侃球
2026-03-03 09:46:52
華國鋒擔(dān)任中央主席時,中央先后任命了15位開國將帥輔佐他

華國鋒擔(dān)任中央主席時,中央先后任命了15位開國將帥輔佐他

雍親王府
2026-03-02 15:55:03
美官員:對伊朗的最新打擊規(guī)模將遠(yuǎn)超去年6月

美官員:對伊朗的最新打擊規(guī)模將遠(yuǎn)超去年6月

參考消息
2026-02-28 17:39:04
不可錯過!3月3日中午12:00比賽!中央5套CCTV5、CCTV5+直播表

不可錯過!3月3日中午12:00比賽!中央5套CCTV5、CCTV5+直播表

皮皮觀天下
2026-03-03 10:48:02
美官員稱未來24小時內(nèi)對伊打擊將“顯著升級”,特朗普:大的行動很快就會到來,目前進(jìn)度比計劃提前

美官員稱未來24小時內(nèi)對伊打擊將“顯著升級”,特朗普:大的行動很快就會到來,目前進(jìn)度比計劃提前

臺州交通廣播
2026-03-03 10:42:40
伊朗拒絕全部條件

伊朗拒絕全部條件

鋒火故事會
2026-02-27 18:25:26
打人夫妻“社會性死亡”!村民曝更多黑幕,不止群毆女孩這么簡單

打人夫妻“社會性死亡”!村民曝更多黑幕,不止群毆女孩這么簡單

夢錄的西方史話
2026-03-02 16:27:56
美軍再度動用B-2轟炸伊朗,加固導(dǎo)彈基地是首批目標(biāo)

美軍再度動用B-2轟炸伊朗,加固導(dǎo)彈基地是首批目標(biāo)

中國青年報
2026-03-02 11:33:08
沙特王儲突然站隊,中國三年前留下的后手,關(guān)鍵時刻拉了伊朗一把

沙特王儲突然站隊,中國三年前留下的后手,關(guān)鍵時刻拉了伊朗一把

肖茲探秘說
2026-01-28 18:29:02
豆瓣9.4分!三月這部直擊女性痛點(diǎn)的佳作最不該錯過

豆瓣9.4分!三月這部直擊女性痛點(diǎn)的佳作最不該錯過

桃桃淘電影
2026-03-02 10:00:15
在小縣城名聲很臭是啥體驗?網(wǎng)友:臉皮夠厚,一切不成問題

在小縣城名聲很臭是啥體驗?網(wǎng)友:臉皮夠厚,一切不成問題

解讀熱點(diǎn)事件
2026-02-04 00:05:07
2026-03-03 11:55:00
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
12096文章數(shù) 51783關(guān)注度
往期回顧 全部

數(shù)碼要聞

蘋果iPhone17e發(fā)布:4499元起 升級A19芯片+起步存儲256GB

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

體育要聞

35輪后積分-7,他們遭遇史上最早的降級

娛樂要聞

謝娜霸氣護(hù)夫:喊話薛之謙給張杰道歉

財經(jīng)要聞

霍爾木茲海峽近乎停擺 布油直逼80美元

科技要聞

手機(jī)AI在MWC上卷出了新高度

汽車要聞

長安汽車2月銷量151922輛 環(huán)比逆勢增長12.8%

態(tài)度原創(chuàng)

房產(chǎn)
本地
家居
游戲
軍事航空

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫#钟袝蟊P殺出!

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

家居要聞

萬物互聯(lián) 享科技福祉

任天堂壓抑了!官號盛贊《生化危機(jī)9》里昂:好性感

軍事要聞

美國中央司令部透露對伊朗動武全部武器裝備清單

無障礙瀏覽 進(jìn)入關(guān)懷版