国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Gemini 3 正式發(fā)布!一句話生成一個世界,奧特曼親自點贊

0
分享至

剛剛,谷歌正式發(fā)布了Gemini 3。

從今天起,Gemini 3 Pro 已在全球范圍內(nèi)向 Gemini App 和 Google AI Studio 用戶推送。甚至在正式官宣之前,谷歌已經(jīng)悄悄把模型提前上線。

作為谷歌迄今最強的一代基礎(chǔ)模型,Gemini 3 在推理、多模態(tài)、工具使用等核心維度上全面超越了 2.5 和 2.0 系列,也被谷歌內(nèi)部定義為一次“代際升級”。就連奧特曼在看到相關(guān)案例展示時,都忍不住點了贊。



那么,Gemini 3 的實力究竟如何?下面我們結(jié)合谷歌發(fā)布的技術(shù)細(xì)節(jié)和實際案例,一起來拆解。

跑分更猛了,推理能力是亮點

Gemini 3 Pro 的核心變化,是推理能力的全面上升。谷歌在Gemini 3發(fā)布時反復(fù)強調(diào)一句話:這一代模型“能把任何想法變成現(xiàn)實”。

夸張成分先放在一邊,從各類基準(zhǔn)看,它的確在關(guān)鍵維度上拉開了與2.5 Pro 的差距。

最能體現(xiàn)整體實力的LMArena 排行榜里,它拿到 1501 分,排在第一。這種 Elo 式評分既考模型在開放問答里的穩(wěn)定性,也考它在長對話和任務(wù)拆解中的一致性,從結(jié)果看,Gemini 3 Pro 的表現(xiàn)明顯更“穩(wěn)”了,也更擅長把復(fù)雜問題講清楚。



▲Gemini 3系列的推理模式在多項高難度AI基準(zhǔn)測試中成績突出

在衡量思維深度的兩個基準(zhǔn)上,它同樣給出更具有象征意義的成績。Humanity’s Last Exam 與 GPQA 都不考知識,而是看模型能不能在沒有工具的情況下推理出正確結(jié)論。

Gemini 3 Pro 在這兩項上分別達(dá)到 37.5% 和 91.9%,已經(jīng)接近博士研究級別。

這次谷歌也跟進了類似o1 的Deep Think(深度思考)模式。Gemini 3 Deep Think 會花更多時間去推理,專門解決那種需要剝絲抽繭的復(fù)雜問題。

這個技術(shù)讓它在真正困難的任務(wù)上出現(xiàn)了非線性躍遷:在Humanity’s Last Exam上取得41.0%的成績,在GPQA Diamond上達(dá)到93.8%,在ARC-AGI-2里拿到45.1%。這些都是最考模型創(chuàng)造性與新穎推理的任務(wù)。



隨著谷歌同步推出的Deep Think 模式打開“慢思考”,這些數(shù)字進一步上升:GPQA 升到 93.8%,ARC-AGI-2 第一次沖到45.1%。

ARC的特點是不給先驗、不給模板,讓模型從頭找規(guī)律,因此被視為測試“通用智能苗頭”的指標(biāo)。通常超過 30% 就被認(rèn)為出現(xiàn)結(jié)構(gòu)性提升,而 Gemini 3 已經(jīng)逼近 50%。

數(shù)學(xué)依然是衡量模型推理真實性的那道最硬門檻。在MathArena Apex 中,Gemini 3 得到 23.4%。

雖然數(shù)字不高,卻是目前所有模型中最好的,數(shù)學(xué)推理既難以靠記憶補齊,也難以通過堆數(shù)據(jù)提升,能把分?jǐn)?shù)抬上去往往意味著模型內(nèi)部結(jié)構(gòu)發(fā)生了變化。

多模態(tài)方面,它在MMMU-Pro 和 Video-MMMU 上分別拿到 81% 和 87.6%,這組數(shù)據(jù)的重要性在于,它證明模型不只是“看見”圖像和視頻,而是能夠從中抽象出結(jié)構(gòu)和因果關(guān)系。

Google展示了一個很有趣的用法:做一個等離子體流在托卡馬克里的可視化展現(xiàn),同時用一首詩來捕捉核聚變的美。

以下視頻來源于

谷歌黑板報

▲一個有趣的用例,用Gemini 3系列編寫托卡馬克離子體流動的可視化編程,并寫一首捕捉聚變物理的詩歌

事實一致性上,SimpleQA Verified 的 72.1% 則顯示它“胡編”的情況減少了。這項指標(biāo)對任何需要大規(guī)模商用的產(chǎn)品都至關(guān)重要,因為它直接代表模型是否值得信任。

代碼能力是Gemini 3 的另一條增長曲線。它在 WebDev Arena 上拿到 1487 Elo,在 Terminal-Bench 2.0 中達(dá)到 54.2%,意味著它不僅能寫代碼段,還能通過終端調(diào)用工具、運行程序,形成一個完整的執(zhí)行鏈條。

在 SWE-bench Verified 上的 76.2% 則讓它在修復(fù)真實代碼問題時,比2.5 Pro穩(wěn)定得多。

綜合來看,Gemini 3 的變化并不是“某一項能力突然變強”,而是推理、工具使用、多模態(tài)理解、事實一致性幾個關(guān)鍵維度同步上揚。

同時,Deep Think的加入,讓它第一次具備了可以“沉下去思考”的能力。對谷歌來說,這意味著模型開始具備解決全新問題的基礎(chǔ),而不是只在過去熟悉的軌道里提升分?jǐn)?shù)。

從生成式界面到自動寫代碼,Gemini 3到底有多能打?

測試成績之外Gemini 3 在實際場景中的表現(xiàn)更能說明問題。

根據(jù)谷歌發(fā)布的一系列Gemini 3 案例,展示了模型能力已經(jīng)從“能回答問題”,走向“能處理真實任務(wù)”。

例如,它可以識別并翻譯手寫的家族菜譜,也能讀懂學(xué)術(shù)論文和長視頻講座,自動生成結(jié)構(gòu)化的學(xué)習(xí)卡片。甚至,用戶上傳一段打球的比賽視頻,它也能分析動作、識別弱點,再給出一套可執(zhí)行的訓(xùn)練計劃。

真正的變化發(fā)生在搜索端。Gemini 3首次引入“生成式界面”,讓搜索結(jié)果從過去的文本和鏈接,變成現(xiàn)場生成的可視化工具。

簡單來說,現(xiàn)在用一句話,就能讓Gemini 做出高質(zhì)量的交互式 SVG。

比如,當(dāng)你搜索“RNA 聚合酶是如何工作的”,傳統(tǒng)搜索會給你十幾個網(wǎng)頁,生成式 AI 只能給你一段解釋,而 Gemini 3 會直接做出一個可旋轉(zhuǎn)、可放大的 3D 分子模型,步驟演示以動畫形式呈現(xiàn),你還能拖著看每個結(jié)構(gòu)在起什么作用。

▲以RNA聚合酶為例,演示搜索AI模式下生成式界面是如何工作的

再比如,下面這個在X 上很火的“電風(fēng)扇”,不僅圖像精美,而且還能動、能交互,完全到了可以直接拿來用的程度。



整個體驗像是一個為你的問題臨時搭建的定制網(wǎng)頁,理解效率遠(yuǎn)高于翻百科。

另一項變化來自開發(fā)工具。谷歌發(fā)布了全新的AI IDE——Google Antigravity。

過去的AI 輔助開發(fā)工具大多停留在補全、解釋、改 Bug 的層面,而在 Gemini 3 之后,智能體開始成為一個真正能“自己做項目”的合作伙伴。

▲在AI Studio里從零編寫一款畫面更精細(xì)、交互更豐富的復(fù)古3D飛船游戲,而不需要人工介入

內(nèi)置的Agent 能規(guī)劃并執(zhí)行完整的軟件任務(wù)鏈條,從查資料、寫代碼到測試驗證都能自動完成。谷歌將推理、工具調(diào)用、代碼生成能力深度整合,并接入了 Gemini 2.5 的電腦控制模型和圖像處理模型,構(gòu)成一個能夠獨立跑通任務(wù)的執(zhí)行系統(tǒng)。它也能分析動作、識別弱點,再給出一套可執(zhí)行的訓(xùn)練計劃。

從Gemini 2 開始,谷歌就把“模型能不能自己做事”作為核心方向。Gemini 3 在這一點上更穩(wěn),也更能“堅持做完一件事”。



▲與其他主流模型相比,Gemini 3 Pro的長程規(guī)劃能力更強,任務(wù)完成度更高

驗證這一能力的是一個叫Vending-Bench 2 的測試,它要求模型經(jīng)營一家虛擬自動售貨機,全年 365 天,每天都有不同的變量和外部條件。

Gemini 3 Pro 在這項測試?yán)锱旁谇傲校憩F(xiàn)出罕見的一致性:工具調(diào)用穩(wěn)定,不會在決策鏈條中途走神,也不會忘記長期目標(biāo),因此最終收益更高。

從這些演示和公開信息中,很難不注意到一個事實:谷歌在Gemini 3 上幾乎動用了所有可以動用的資源。自研 TPU 帶來的算力成本優(yōu)勢,手中數(shù)量級差異巨大的專有數(shù)據(jù),長期投入的大規(guī)模訓(xùn)練工程,以及行業(yè)最厚實的人才儲備,這些“底層力量”疊加在一起,塑造了 Gemini 3 在各類主流基準(zhǔn)上的統(tǒng)治性表現(xiàn),也自然延伸到實際產(chǎn)品形態(tài)中。

Gemini 3 所展示的能力差距,既來自模型本身,也來自谷歌在基礎(chǔ)設(shè)施與技術(shù)棧上的系統(tǒng)性優(yōu)勢。它讓谷歌在這階段的領(lǐng)先位置被進一步鞏固,而其他公司能否在未來周期里追上這一節(jié)奏,讓我們拭目以待。

文/朗朗



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
許利民怒批球員擺大牌!賽后整頓更衣室,怒批一人不是周琦而是他

許利民怒批球員擺大牌!賽后整頓更衣室,怒批一人不是周琦而是他

理工男評籃球
2026-01-12 00:01:12
合川千人赴約殺豬飯后續(xù):女子闖大禍,原地嚇呆,文旅連夜下場

合川千人赴約殺豬飯后續(xù):女子闖大禍,原地嚇呆,文旅連夜下場

鋭娛之樂
2026-01-11 22:06:10
俄軍的報復(fù)來了,炸毀歐洲最大能源設(shè)施,美英法德開始商量下一步

俄軍的報復(fù)來了,炸毀歐洲最大能源設(shè)施,美英法德開始商量下一步

樂天閑聊
2026-01-12 13:40:20
閆學(xué)晶兒子中戲合照流出,先讀的預(yù)科,再進的本科班?

閆學(xué)晶兒子中戲合照流出,先讀的預(yù)科,再進的本科班?

金牌娛樂
2026-01-12 11:50:11
5人違規(guī)穿越鰲太線3人遇難,救援人員講述搜救細(xì)節(jié):一個規(guī)避罰款的決定,徹底斷絕了他們獲救的希望

5人違規(guī)穿越鰲太線3人遇難,救援人員講述搜救細(xì)節(jié):一個規(guī)避罰款的決定,徹底斷絕了他們獲救的希望

極目新聞
2026-01-11 16:42:27
退役又復(fù)出!巴薩35歲門神奪4冠,5次贏皇馬,特獅近乎無緣美加墨

退役又復(fù)出!巴薩35歲門神奪4冠,5次贏皇馬,特獅近乎無緣美加墨

球場沒跑道
2026-01-12 13:50:42
沒錢還硬裝?寧夏一笑成名拒絕百萬簽約的小女孩,現(xiàn)在成了這樣

沒錢還硬裝?寧夏一笑成名拒絕百萬簽約的小女孩,現(xiàn)在成了這樣

不寫散文詩
2026-01-11 19:40:42
美國又扣一艘中國香港油輪,美專家:或為全球攔截中國商船做準(zhǔn)備

美國又扣一艘中國香港油輪,美專家:或為全球攔截中國商船做準(zhǔn)備

阿龍聊軍事
2026-01-12 10:27:15
巴西歷史最佳陣容發(fā)布!內(nèi)馬爾 小羅 卡卡 卡洛斯落選!大羅上榜

巴西歷史最佳陣容發(fā)布!內(nèi)馬爾 小羅 卡卡 卡洛斯落選!大羅上榜

體壇八點半的那些事兒
2026-01-11 21:10:44
閆學(xué)晶道歉,榮華富貴一場空!

閆學(xué)晶道歉,榮華富貴一場空!

李東陽朋友圈
2026-01-12 13:44:00
沈騰帶妻兒參加晚會 穿五千塊衛(wèi)衣時尚有型 王琦瘦50斤年輕十歲

沈騰帶妻兒參加晚會 穿五千塊衛(wèi)衣時尚有型 王琦瘦50斤年輕十歲

樂悠悠娛樂
2026-01-12 08:27:32
聽完王皓現(xiàn)場指導(dǎo)林詩棟,終于明白,為什么王皓暫?偀o效了?

聽完王皓現(xiàn)場指導(dǎo)林詩棟,終于明白,為什么王皓暫?偀o效了?

卿子書
2026-01-12 08:53:07
現(xiàn)如今,世界上存在7個流亡“政府”,你覺得誰復(fù)國的希望最大?

現(xiàn)如今,世界上存在7個流亡“政府”,你覺得誰復(fù)國的希望最大?

七號說三國
2024-10-22 18:51:48
華為固態(tài)電池續(xù)航3000公里快充5分鐘全球領(lǐng)先

華為固態(tài)電池續(xù)航3000公里快充5分鐘全球領(lǐng)先

南風(fēng)不及你溫柔
2026-01-08 23:52:47
中紀(jì)委反腐大片曝光!原中央委員唐仁健賣90件“古董”斂財數(shù)千萬,過生日由不同老板大操大辦

中紀(jì)委反腐大片曝光!原中央委員唐仁健賣90件“古董”斂財數(shù)千萬,過生日由不同老板大操大辦

上觀新聞
2026-01-11 22:25:05
58歲妮可·基德曼正式離婚,不要男方1分錢!前夫阿湯哥私下評價

58歲妮可·基德曼正式離婚,不要男方1分錢!前夫阿湯哥私下評價

頭號電影院
2026-01-11 12:48:08
陪玩陪睡已過時!拳頭塞嘴、集體開嫖、戚薇遭殃,陰暗面徹底曝光

陪玩陪睡已過時!拳頭塞嘴、集體開嫖、戚薇遭殃,陰暗面徹底曝光

涵豆說娛
2025-11-20 16:35:46
國務(wù)院:任命蔣成華為商務(wù)部國際貿(mào)易談判副代表(副部長級)

國務(wù)院:任命蔣成華為商務(wù)部國際貿(mào)易談判副代表(副部長級)

界面新聞
2026-01-12 12:17:37
“讓我睡一次,不然死給你看!”17歲少年持刀,威脅舅媽發(fā)生關(guān)系

“讓我睡一次,不然死給你看!”17歲少年持刀,威脅舅媽發(fā)生關(guān)系

有書
2026-01-09 21:30:59
合川千人殺豬宴后續(xù): 惡心的一幕出現(xiàn),紅衣女砸場子,遭輿論反噬

合川千人殺豬宴后續(xù): 惡心的一幕出現(xiàn),紅衣女砸場子,遭輿論反噬

鋭娛之樂
2026-01-12 08:26:34
2026-01-12 14:24:49
硅基觀察Pro incentive-icons
硅基觀察Pro
人工智能新時代的商業(yè)智庫和價值燈塔
787文章數(shù) 57關(guān)注度
往期回顧 全部

數(shù)碼要聞

諾基亞與海信達(dá)成專利訴訟和解,就視頻技術(shù)簽署許可協(xié)議

頭條要聞

臺媒:大陸在朱日和基地復(fù)制"總統(tǒng)府" 不可掉以輕心

頭條要聞

臺媒:大陸在朱日和基地復(fù)制"總統(tǒng)府" 不可掉以輕心

體育要聞

聰明的球員,不是教練教出來的

娛樂要聞

閆學(xué)晶:脫離群眾太久 忘了自己的根

財經(jīng)要聞

揭秘“穩(wěn)賺不賠”的代工項目騙局

科技要聞

小米二手車價大跳水:SU7半年跌5萬元

汽車要聞

增配不加價 北京現(xiàn)代 第五代 勝達(dá)2026款上市

態(tài)度原創(chuàng)

手機
家居
本地
游戲
藝術(shù)

手機要聞

消息稱泡泡瑪特本月推“潮玩手機”,或與“年輕化主流品牌”合作

家居要聞

包絡(luò)石木為生 野性舒適

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

《P5》外網(wǎng)噴爛引發(fā)熱議 無聊透頂被人高估?

藝術(shù)要聞

畫完這組畫,他抑郁了,后來自殺了

無障礙瀏覽 進入關(guān)懷版