国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

編碼新王登基!Gemini 3.1 Pro 血洗 Claude 與 GPT,12 項基準測試第一!

0
分享至


作者|冬梅

核心能力全面下放,

多端同步上線

在上周發(fā)布Gemini 3 Deep Think重大更新、面向科學研究與工程領域復雜問題之后,谷歌今日正式推出支撐這些突破的“核心智能”升級版本——Gemini 3.1 Pro。

Gemini 3.1 Pro 是一款采用混合專家架構的 Transformer 模型,這意味著它在生成提示響應時僅激活部分參數(shù)。用戶可輸入包含高達 100 萬 token 數(shù)據(jù)量的提示詞,內容不僅涵蓋文本,還包括視頻等多模態(tài)文件。Gemini 3.1 Pro 的響應輸出最多包含 6.4 萬 token。

這意味著,Gemini 3 系列的最新能力不再只停留在研究層面,而是開始全面進入開發(fā)者工具、企業(yè)服務以及普通用戶的日常應用場景。


根據(jù)官方披露,Gemini 3.1 Pro 已于今日開始分批上線,覆蓋對象包括開發(fā)者、企業(yè)客戶以及普通消費者:


  • 開發(fā)者:可通過 Gemini API(Google AI Studio)、Gemini CLI、智能體開發(fā)平臺Google Antigravity以及 Android Studio 預覽使用;

  • 企業(yè)用戶:通過Vertex AI和 Gemini Enterprise 接入;

  • 消費者:可在 Gemini App 及NotebookLM中直接體驗。


谷歌方面表示,此次“全線鋪開”的策略,旨在將最新一代推理能力快速融入實際工作流與個人使用場景,而不僅僅停留在實驗室或演示階段。

推理表現(xiàn)翻倍、

12 項基測排名第一

從技術定位來看,Gemini 3.1 Pro 并非簡單的性能微調,而是一次核心推理能力(core reasoning)的系統(tǒng)性升級。官方將其描述為“更聰明、更具能力的基礎模型”,尤其適用于復雜問題求解、跨領域分析以及需要抽象邏輯的任務。

這一進步也體現(xiàn)在權威評測成績上。在 ARC-AGI-2 基準測試中,Gemini 3.1 Pro 獲得了 77.1% 的經(jīng)驗證成績。該測試專門用于評估模型在從未見過的新邏輯模式下的泛化與推理能力。它包含多個視覺謎題,每個謎題均由一系列圖形組成。構成謎題的圖形在設計上各不相同,但都遵循特定規(guī)律。大語言模型必須推斷出該規(guī)律,并利用其生成新的圖形。


這一分數(shù)是 Gemini 3 Pro 推理表現(xiàn)的兩倍以上。在當前大模型競爭格局中,ARC-AGI 系列被視為衡量“類通用智能推理能力”的重要指標之一,這一成績也意味著 Gemini 3.1 Pro 在抽象推理與新問題適應能力上邁出了關鍵一步。

值得注意的是,人類參與者在該測試中的平均正確率約為 60%。前陣子發(fā)布的 Gemini Deep Think 以 84.6% 的準確率遙遙領先其他模型。


雖然 Gemini 3.1 Pro 在得分上低于 Gemini Deep Think,但這是一款基礎模型,并且它向所有用戶免費開放。而具備“深度思考”能力的 Deep Think 模式屬于更高維度的技術突破,目前僅限 Google AI Ultra 訂閱用戶使用,且每日限用 10 次。

能讓開發(fā)者免費體驗能力如此強的 Gemini 3.1 Pro,谷歌已經(jīng)很大方了。

再來橫向比較下 Gemini 3.1 Pro 與其他模型:Claude Opus 4.6 達到 68.8%,Claude Sonnet 4.6 為 58.3%,GPT-5.2 獲得 52.9%,而上一代產(chǎn)品 Gemini 3 Pro 僅得到 31.1%。短短三個月時間,同一系列模型的閉卷推理能力就從 31.1% 躍升至 77.1%,實現(xiàn)了翻倍以上的跨越式提升。

谷歌官方公布了 16 項基準測試數(shù)據(jù),Gemini 3 Pro 在其中12 項基測中均位列第一。

在評估 AI 模型使用第三方服務執(zhí)行任務能力的 MCP Atlas 測試中,Gemini 3 Pro 以 69.2% 的成績領先于最近剛發(fā)布的 Claude Sonnet 4.6,在編程測試 Terminal-Bench 2.0 中,Gemini 3 Pro 編碼能力高于 Opus 4.6、GPT-5.2。在另一項包含科學編程任務的代碼基準測試 SciCode 上,該模型的表現(xiàn)比 Claude Opus 4.6 高出 7%。


從發(fā)布節(jié)奏來看,谷歌正在嘗試將前沿研究成果更快轉化為“默認可用”的基礎能力。先通過 Deep Think 展示在科學與工程問題上的上限,再通過 3.1 Pro 將這些能力沉淀為更穩(wěn)定、更通用的底座模型,并迅速推向 API、企業(yè)平臺和消費級應用。

智能的實際應用

Gemini 3.1 Pro 面向那些“給出一個簡單答案遠遠不夠”的任務而設計,它將高級推理能力轉化為可用于解決最棘手問題的實用智能。升級后的智能水平能夠在多種現(xiàn)實場景中發(fā)揮作用——無論是將復雜主題以清晰、直觀的方式呈現(xiàn)出來,還是把分散的數(shù)據(jù)綜合成一個統(tǒng)一視圖,亦或是推動一個富有創(chuàng)造力的項目從構想走向落地。

為了說明其潛在用途,Gemini 團隊指出,該模型可以創(chuàng)建可用于網(wǎng)站的 SVG 動畫,還可以將小說的文學風格轉化為個人作品集網(wǎng)站的設計。

基于代碼的動畫生成:Gemini 3.1 Pro 可以直接根據(jù)文本提示生成可直接用于網(wǎng)站的動態(tài) SVG 動畫。由于這些動畫完全由代碼構建,而非像素渲染,因此在任何縮放比例下都能保持清晰銳利,同時相比傳統(tǒng)視頻格式,文件體積小得多,極大降低了加載和分發(fā)成本。

復雜系統(tǒng)綜合: 利用先進的推理能力,彌合了復雜 API 與用戶友好型設計之間的鴻溝。在這一示例中,模型構建了一個實時航天儀表盤,成功配置并接入了一條公共遙測數(shù)據(jù)流,用于可視化International Space Station的軌道運行情況。

交互式設計:Gemini 3.1 Pro 能夠編寫復雜的3D 椋鳥群舞(murmuration)模擬代碼。它不僅生成視覺層面的代碼,還構建了一個沉浸式體驗:用戶可以通過手部追蹤來操控鳥群,同時聆聽一段會隨著鳥群運動而動態(tài)變化的生成式配樂。對于研究人員和設計師而言,這為原型化多感官、強交互的界面提供了一種極具潛力的方式。

創(chuàng)意編程:3.1 Pro 能夠將文學主題轉化為功能性代碼。當被要求為艾米莉·勃朗特的《呼嘯山莊》構建一個現(xiàn)代個人作品集網(wǎng)站時,該模型不僅概括了文本內容,更通過推理小說中的陰郁基調,設計出時尚的當代界面,最終創(chuàng)建出能捕捉主角神韻的網(wǎng)站。

自去年 11 月推出 Gemini 3 Pro 以來,用戶反饋和技術進步共同推動了這一系列快速迭代。今天發(fā)布的 3.1 Pro 預覽版旨在驗證這些更新成果,并將在全面上線前繼續(xù)在智能體工作流等前沿領域進行深度優(yōu)化。

即日起,Gemini 應用中的 3.1 Pro 版本將向 Google AI Pro 和 Ultra 套餐用戶逐步開放,提供更優(yōu)使用權限。3.1 Pro 現(xiàn)已獨家登陸 NotebookLM 平臺,面向 Pro 及 Ultra 用戶開放。開發(fā)者和企業(yè)用戶可通過 AI Studio、Antigravity、Vertex AI、Gemini Enterprise、Gemini CLI 及 Android Studio 等渠道,在 Gemini API 中搶先體驗 3.1 Pro 預覽版。

去年 9 月加盟谷歌 DeepMind 的清華物理系知名研究者姚順宇(Shunyu Yao)在 x 上發(fā)帖稱,更強的模型也將很快亮相。


在公司 2025 年第四季度收益報告中,首席執(zhí)行官 Sundar Pichai 表示:“我們的第一方模型,如 Gemini,現(xiàn)在通過客戶直接使用 API,每分鐘處理超過 100 億個 token,Gemini App 的月活躍用戶已增長到超過 7.5 億?!?/p>

網(wǎng)友:谷歌重回巔峰

隨著 Gemini 3.1 Pro 正式上線,圍繞這次更新的討論迅速在技術社區(qū)中展開。與以往大模型發(fā)布時對“參數(shù)規(guī)?!薄澳P腕w量”的高度關注不同,不少網(wǎng)友認為,這一版本釋放出的關鍵信號,并不在于“更大”,而在于整體推理能力和復雜問題求解能力的持續(xù)上推。

有開發(fā)者指出,Gemini 3.1 Pro 的定位非常明確:不再單純追求模型規(guī)模的擴張,而是更強調在真實任務中的完成度和穩(wěn)定性。這也被視為當前頭部大模型競爭的一個重要轉折點——競爭焦點正在從“誰的參數(shù)更多”,轉向“誰能把問題真正做完、做好”。

在 x 上,該開發(fā)者表示:

“Gemini 3.1 Pro 上線了,重點不是更大,而是把整體推理和復雜問題求解能力繼續(xù)往上推。這波信號很明確:頭部模型競爭正在從參數(shù)規(guī)模,轉向真實任務完成率。”


與此同時,還有網(wǎng)友系統(tǒng)梳理了谷歌近年來模型更新的時間線,直言人工智能的發(fā)展節(jié)奏已經(jīng)進入“以月甚至以周計”的階段。在這樣的背景下,谷歌已難以承受過長的更新間隔。

Gemini 3.1 專業(yè)版在較短時間內推出,被解讀為谷歌對這一現(xiàn)實壓力的直接回應:必須持續(xù)、快速地將核心能力推向市場。


成本與落地能力同樣成為討論的焦點。有網(wǎng)友特別提到,Gemini 3.1 Pro 在降低使用成本的同時提升智能水平,這種優(yōu)化路徑對于推動 AI 在生產(chǎn)環(huán)境中的應用尤為關鍵。在他們看來,人工智能的前沿價值并不僅體現(xiàn)在基準測試成績上,更體現(xiàn)在這些能力能否被開發(fā)者社區(qū)輕松獲取、快速部署,并穩(wěn)定運行于真實業(yè)務中。

綜合這些反饋可以看出,Gemini 3.1 Pro 的發(fā)布,已經(jīng)不只是一次常規(guī)的模型升級,而更像是一次方向性的表態(tài):在大模型逐漸走向成熟的階段,真正決定勝負的,將是推理能力、工程可用性以及規(guī)?;涞氐木C合表現(xiàn)。


https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

https://www.ai.jp.net/article/google-s-gemini-3-1-pro-a-new-reasoning-champion-c710f5

https://x.com/ShunyuYao14

https://deepmind.google/models/gemini/pro/

聲明:本文為 AI 前線整理,不代表平臺觀點,未經(jīng)許可禁止轉載。

會議推薦

InfoQ 2026 全年會議規(guī)劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產(chǎn)業(yè)落地,從技術前沿到行業(yè)應用,全面覆蓋 AI 與軟件開發(fā)核心賽道!集結全球技術先鋒,拆解真實生產(chǎn)案例、深挖技術與產(chǎn)業(yè)落地痛點,探索前沿領域、聚焦產(chǎn)業(yè)賦能,獲取實戰(zhàn)落地方案與前瞻產(chǎn)業(yè)洞察,高效實現(xiàn)技術價值轉化。把握行業(yè)變革關鍵節(jié)點,搶占 2026 智能升級發(fā)展先機!

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
17投砍26分6板!廣東20歲鋒線新星閃耀星銳賽,值得杜鋒更多信任

17投砍26分6板!廣東20歲鋒線新星閃耀星銳賽,值得杜鋒更多信任

老葉評球
2026-03-08 15:39:05
繞開日本永久舉辦權!國際排聯(lián)官宣,中國女排錯失,40年等待落空

繞開日本永久舉辦權!國際排聯(lián)官宣,中國女排錯失,40年等待落空

體育見習官
2026-03-08 08:59:24
伊朗就新的最高領袖人選作出最終決定

伊朗就新的最高領袖人選作出最終決定

極目新聞
2026-03-08 14:05:15
文旅部部長:7名外國游客到上海旅游,買了40箱中國貨;“成為中國人”成了網(wǎng)絡熱詞,老外愛上喝開水吃火鍋等中式生活

文旅部部長:7名外國游客到上海旅游,買了40箱中國貨;“成為中國人”成了網(wǎng)絡熱詞,老外愛上喝開水吃火鍋等中式生活

新民晚報
2026-03-07 15:00:52
準備同歸于盡!伊朗或啟用“沉睡小組”,在美國本土執(zhí)行斬首行動

準備同歸于盡!伊朗或啟用“沉睡小組”,在美國本土執(zhí)行斬首行動

東極妙嚴
2026-03-06 13:43:35
OpenClaw,又失業(yè)一批中產(chǎn)階級

OpenClaw,又失業(yè)一批中產(chǎn)階級

動察Beating
2026-03-05 11:55:52
第25波打擊,伊朗通報全球,以色列后院起火,特朗普開始急了!

第25波打擊,伊朗通報全球,以色列后院起火,特朗普開始急了!

阿萔影視評論
2026-03-08 01:17:09
李連杰首次正面回應換心謠言,說我換人類心臟還是想象力太小,為什么不換一個華為心臟小米肝特斯拉腎

李連杰首次正面回應換心謠言,說我換人類心臟還是想象力太小,為什么不換一個華為心臟小米肝特斯拉腎

觀威海
2026-03-05 16:31:07
國乒最狠一刀:3000分,斬斷王曼昱三年奔赴,也撕開奧運選拔的猙獰

國乒最狠一刀:3000分,斬斷王曼昱三年奔赴,也撕開奧運選拔的猙獰

最愛乒乓球
2026-03-08 06:06:12
美國將軍反思:毛澤東不首先使用核武,反而成了最強的威懾!

美國將軍反思:毛澤東不首先使用核武,反而成了最強的威懾!

鶴羽說個事
2026-03-06 18:25:20
回顧:2005年梁海玲器官被切后慘死豪宅,有人透露:她知道的太多

回顧:2005年梁海玲器官被切后慘死豪宅,有人透露:她知道的太多

歷來都很現(xiàn)實
2024-09-24 23:58:16
火箭五子球隊地位或發(fā)生變化 烏度卡的調整 意識到問題的嚴重性

火箭五子球隊地位或發(fā)生變化 烏度卡的調整 意識到問題的嚴重性

大話火箭隊
2026-03-07 15:51:24
奉勸男性:若不想被前列腺炎折磨下半生,盡早改掉這4大習慣!

奉勸男性:若不想被前列腺炎折磨下半生,盡早改掉這4大習慣!

全球軍事記
2026-03-02 10:13:18
梅西怒了?贏球后徑直離場!1分鐘2送妙傳遭吐餅 900球里程碑延后

梅西怒了?贏球后徑直離場!1分鐘2送妙傳遭吐餅 900球里程碑延后

我愛英超
2026-03-08 07:56:18
真敢提建議!全國人大代表卓長立呼吁:鼓勵大學生加入家政行業(yè)

真敢提建議!全國人大代表卓長立呼吁:鼓勵大學生加入家政行業(yè)

我心縱橫天地間
2026-03-05 16:39:56
香港網(wǎng)約車價格火了!1公里20港元,司機:太羨慕了。

香港網(wǎng)約車價格火了!1公里20港元,司機:太羨慕了。

我不叫阿哏
2026-03-08 13:14:22
軍統(tǒng)女少尉王慶蓮晚年稱:共產(chǎn)黨養(yǎng)我31年,我從內心里感激共產(chǎn)黨

軍統(tǒng)女少尉王慶蓮晚年稱:共產(chǎn)黨養(yǎng)我31年,我從內心里感激共產(chǎn)黨

明月清風閣
2026-03-08 08:25:13
“一人公司”火了!全國人大代表、科大訊飛董事長劉慶峰:要完善適配稅費規(guī)則

“一人公司”火了!全國人大代表、科大訊飛董事長劉慶峰:要完善適配稅費規(guī)則

時代周報
2026-03-07 18:44:10
1967年,梁興初視察成都軍區(qū)時,被流氓威脅:這條街,你們出不去

1967年,梁興初視察成都軍區(qū)時,被流氓威脅:這條街,你們出不去

大運河時空
2026-02-21 13:40:03
vivo和OPPO差距有多大?2026年實測對比,別再買錯了

vivo和OPPO差距有多大?2026年實測對比,別再買錯了

小兔子發(fā)現(xiàn)大事情
2026-03-08 08:34:51
2026-03-08 16:32:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學家,提供AI領域技術資訊。
1347文章數(shù) 133關注度
往期回顧 全部

數(shù)碼要聞

2025年印度PC市場出貨量創(chuàng)歷史新高,首次突破1500萬臺

頭條要聞

媒體:伊朗用"窮人巡航導彈"反擊美以 美盟友聞之色變

頭條要聞

媒體:伊朗用"窮人巡航導彈"反擊美以 美盟友聞之色變

體育要聞

大傷后被交易,他說:22歲的我已經(jīng)死了

娛樂要聞

周迅新戀情曝光,李亞鵬等人已成過去

財經(jīng)要聞

油價要失控?

科技要聞

OpenClaw最大的推手是閑魚和小紅書

汽車要聞

9分鐘充飽 全新騰勢Z9GT首搭閃充技術26.98萬起

態(tài)度原創(chuàng)

游戲
數(shù)碼
房產(chǎn)
公開課
軍事航空

曝NS2開發(fā)機門檻降低 但老任不希望粗制濫造游戲泛濫

數(shù)碼要聞

微軟和英偉達聯(lián)手丟“王炸”!所有游戲玩家都能用上光追了?

房產(chǎn)要聞

傳統(tǒng)學區(qū)房熄火?2月??诙址勘鸬陌鍓K竟然是…

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

王毅:解決臺灣問題 實現(xiàn)祖國完全統(tǒng)一不可阻擋

無障礙瀏覽 進入關懷版