国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

姚順宇參與,谷歌最強(qiáng)Gemini推理模型發(fā)布!測評碾壓Opus 4.6、GPT-5.2

0
分享至


智東西
作者 云鵬
編輯 李水青

智東西2月13日消息,今天凌晨,谷歌發(fā)布了Gemini 3 Deep Think專用推理模式的重磅升級,其在“人類終極測試”、競技編程測試、國際數(shù)學(xué)奧林匹克競賽,以及國際物理、化學(xué)等多領(lǐng)域奧賽中均創(chuàng)下新記錄,全面超越了Claude Opus 4.6和GPT-5.2,也超越了自家Gemini 3 Pro Preview。


▲Gemini 3 Deep Think在ARC-AGI-2、人類終極測試(Humanity’s Last Exam)競技編程基準(zhǔn)測試Codeforces、2025年國際數(shù)學(xué)奧林匹克競賽四項測試中的成績,得分均超過Claude Opus 4.6和GPT-5.2

毫無疑問,谷歌祭出了當(dāng)前地表最強(qiáng)AI推理大模型。在Deep Think模式下,一張設(shè)計草圖可以快速轉(zhuǎn)化為3D打印文件,圖紙分析、復(fù)雜三維建模一氣呵成,用戶將3D打印文件交付給打印機(jī)就可以完成實體生產(chǎn):


▲在Deep Think模式下,一張設(shè)計草圖可以快速轉(zhuǎn)化為3D打印文件

谷歌CEO Sundar Pichai和相關(guān)高管都在X平臺發(fā)文宣布了這一重磅發(fā)布,此前于去年9月加入谷歌DeepMind的清華物理系傳奇人物姚順宇(Shunyu Yao)也發(fā)文號召大家體驗他們開發(fā)的新模式。


▲谷歌CEO(左)、姚順宇(右)X平臺發(fā)文

此姚順宇非彼姚順雨,后者是姚班出身、今年剛剛加入騰訊混元擔(dān)任首席AI科學(xué)家的另一位“學(xué)神”。前一位姚順宇現(xiàn)任谷歌DeepMind高級研究員,曾在Anthropic的Claude團(tuán)隊擔(dān)任研究員,是拿過清華物理系傳奇特獎的另一位“學(xué)神”。

此次的Deep Think模式升級也是姚順宇加入后參與的首個重磅項目。


▲姚順宇(左)和姚順雨(右)

總體來看,Deep Think模式主要用于解決科學(xué)、研究和工程領(lǐng)域的挑戰(zhàn),目前只向Google AI Ultra訂閱用戶開放,不過科研人員、工程師和企業(yè)可以提交申請加入早期測試。


一、高難度基準(zhǔn)測試猛刷記錄,碾壓Claude Opus 4.6、GPT-5.2

去年,谷歌已證實Deep Think模式的定制版本能攻克諸多高難度推理難題,在國際數(shù)學(xué)和編程錦標(biāo)賽中達(dá)到金牌水準(zhǔn)。而這次升級則讓Deep Think模式更進(jìn)一步支持研發(fā)人員開展研究級(research-level)的數(shù)學(xué)探索工作。

升級的Deep Think模式在各類高難度學(xué)術(shù)基準(zhǔn)測試中創(chuàng)下了新紀(jì)錄,具體包括:

·在“人類終極測試(Humanity’s Last Exam)”基準(zhǔn)測試中,無工具輔助狀態(tài)下取得48.4%的成績,刷新該測試的最佳紀(jì)錄(該測試專為檢驗前沿大模型的能力極限設(shè)計);

·在ARC-AGI-2基準(zhǔn)測試中獲84.6%高正確率,成績經(jīng)ARC獎基金會認(rèn)證;

·在競技編程基準(zhǔn)測試平臺Codeforces中,Elo評分3455分;

·在2025年國際數(shù)學(xué)奧林匹克競賽中,達(dá)到金牌水準(zhǔn);

從排名中我們看到,Deep Think模式在上述四項基準(zhǔn)測試中,全部領(lǐng)先于Claude Opus 4.6和GPT-5.2。

除數(shù)學(xué)和競技編程領(lǐng)域外,升級后的Gemini 3 Deep Think在化學(xué)、物理等眾多科學(xué)領(lǐng)域同樣表現(xiàn)不錯。


▲Gemini 3 Deep Think在各類測試中的成績表現(xiàn),所有測試項目均優(yōu)于Claude Opus 4.6和GPT-5.2

根據(jù)谷歌公布測試成績,Deep Think在2025年國際物理奧林匹克競賽和國際化學(xué)奧林匹克競賽的筆試環(huán)節(jié)中,均取得金牌水準(zhǔn)的成績;在高等理論物理領(lǐng)域也具備出色的應(yīng)用能力,在凝聚態(tài)理論基準(zhǔn)測試CMT-Benchmark中取得50.5%的成績。

同樣,在這些測試項目中,Deep Think的成績?nèi)扛哂贑laude Opus 4.6和GPT-5.2。

二、推動實際應(yīng)用落地,成為深度專業(yè)研究領(lǐng)域的最強(qiáng)助手

谷歌提到,除了強(qiáng)勁性能表現(xiàn),Deep Think模式的研發(fā)核心目的是推動實際應(yīng)用,也就是助力研究人員解析復(fù)雜數(shù)據(jù)、幫助工程師通過代碼構(gòu)建物理系統(tǒng)模型。

簡單來說,這些領(lǐng)域的問題往往缺乏明確的指導(dǎo)原則或唯一的正確答案,數(shù)據(jù)也通常是雜亂無章或不完整的。Deep Think可以將深厚的科學(xué)知識與日常工程實踐相結(jié)合,去解決這些復(fù)雜難題。

目前,谷歌正致力于讓Deep Think模式覆蓋科研和從業(yè)者的核心工作場景。

借助升級后的Deep Think模式,用戶可以很快將一張設(shè)計草圖轉(zhuǎn)化為可3D打印的實體模型——Deep Think能自動分析圖紙內(nèi)容、構(gòu)建復(fù)雜的三維形狀模型,并生成對應(yīng)的3D打印文件,實現(xiàn)實體物件的制作。


▲從文件草圖到3D實體模型

此外,從谷歌給出的演示中我們看到,Deep Think可以識別出高專業(yè)度數(shù)學(xué)論文中一個此前人工同行評審從未發(fā)現(xiàn)的細(xì)微邏輯缺陷。


▲科學(xué)家利用Deep Think識別專業(yè)論文中的細(xì)節(jié)邏輯缺陷

Deep Think還可以用來優(yōu)化復(fù)雜晶體生長的制備方法,用來探索新的半導(dǎo)體材料,在杜克大學(xué)的案例中,其設(shè)計的方案培育出了尺寸超過100微米的薄膜,技術(shù)指標(biāo)超過此前所有方法。

谷歌研發(fā)主管、前Liftware CEO也用Deep Think來加速物理組件的設(shè)計。

可以說,Deep Think是真能搞定復(fù)雜的科學(xué)、研究和工程領(lǐng)域挑戰(zhàn)。

結(jié)語:推理大模型專業(yè)化進(jìn)一步加深,AI沖向科研最前線

Gemini 3 Deep Think模式的升級,重點提升了其在諸多科研專業(yè)學(xué)術(shù)領(lǐng)域解決復(fù)雜專業(yè)問題的能力,令其在頂尖專業(yè)領(lǐng)域加速技術(shù)研發(fā)的價值進(jìn)一步凸顯。

目前,AI模型與產(chǎn)業(yè)融合進(jìn)一步加深,行業(yè)都在思索如何讓模型能更好地在專業(yè)領(lǐng)域提升生產(chǎn)力,AI推理大模型的競爭,跑在了技術(shù)與學(xué)術(shù)的最前沿。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
鬧麻了,過年親戚送的禮不忍直視!網(wǎng)友:無良商家,你是真敢賣

鬧麻了,過年親戚送的禮不忍直視!網(wǎng)友:無良商家,你是真敢賣

夜深愛雜談
2026-02-24 20:53:23
長沙一女員工開工第一天抽中10天帶薪年假,當(dāng)場歡呼拎包走人:假期重啟,這次多陪陪家人

長沙一女員工開工第一天抽中10天帶薪年假,當(dāng)場歡呼拎包走人:假期重啟,這次多陪陪家人

揚(yáng)子晚報
2026-02-25 07:49:29
WTT大滿貫:女單8強(qiáng),國乒名將1-3出局,王曼昱壓力大

WTT大滿貫:女單8強(qiáng),國乒名將1-3出局,王曼昱壓力大

余憁搞笑段子
2026-02-25 09:55:01
女子在河南中靈山失聯(lián)10日后遺體被找到,父親發(fā)聲:希望弄清女兒死因,讓她死得明明白白

女子在河南中靈山失聯(lián)10日后遺體被找到,父親發(fā)聲:希望弄清女兒死因,讓她死得明明白白

揚(yáng)子晚報
2026-02-25 11:16:22
被國家隊開除,加拿大送國籍千萬合同,王濛一句話震撼冰壇

被國家隊開除,加拿大送國籍千萬合同,王濛一句話震撼冰壇

觀察者海風(fēng)
2026-02-24 13:45:09
虎跳峽8歲男童墜亡:不是意外,是父親兩次糊涂操作,親手?jǐn)嗌?>
    </a>
        <h3>
      <a href=老特有話說
2026-02-24 17:19:32
關(guān)于上海市公積金貸款政策調(diào)整的業(yè)務(wù)問答

關(guān)于上海市公積金貸款政策調(diào)整的業(yè)務(wù)問答

澎湃新聞
2026-02-25 14:12:04
李維嘉重返公眾視野,獨(dú)居生活狀態(tài)令人驚訝!

李維嘉重返公眾視野,獨(dú)居生活狀態(tài)令人驚訝!

舞指飛揚(yáng)
2026-02-25 09:31:33
不出意外!2026年3月起,房子、車子、存款或?qū)⒂瓉碇卮蟾淖?>
    </a>
        <h3>
      <a href=財經(jīng)保探長
2026-02-23 19:40:52
3-1晉級!中國女乒22歲新雙子星崛起:看齊孫穎莎王曼昱爭當(dāng)主力

3-1晉級!中國女乒22歲新雙子星崛起:看齊孫穎莎王曼昱爭當(dāng)主力

李喜林籃球絕殺
2026-02-25 13:56:43
6.9斤烤全羊商家好評如潮,多給了6斤活羊套餐還贈送大量菜

6.9斤烤全羊商家好評如潮,多給了6斤活羊套餐還贈送大量菜

映射生活的身影
2026-02-24 12:34:56
挺住,烏克蘭人!

挺住,烏克蘭人!

近距離
2026-02-24 15:17:45
朝鮮人對中國人是怎樣的態(tài)度?讓我告訴你真相

朝鮮人對中國人是怎樣的態(tài)度?讓我告訴你真相

世界圈
2026-02-24 19:20:21
通威股份擬收購“獨(dú)角獸”,市場估值曾高達(dá)138億元,創(chuàng)始人為通威前董事

通威股份擬收購“獨(dú)角獸”,市場估值曾高達(dá)138億元,創(chuàng)始人為通威前董事

紅星資本局
2026-02-25 12:30:11
1980年鄧小平說:毛主席的錯誤,要毫不含糊地批評,但要實事求是

1980年鄧小平說:毛主席的錯誤,要毫不含糊地批評,但要實事求是

帝哥說史
2026-02-25 06:30:03
陳天龍接受審查調(diào)查

陳天龍接受審查調(diào)查

吉刻新聞
2026-02-25 09:23:20
中國第一監(jiān)獄:關(guān)的幾乎全是高官,為防止泄密,牢房內(nèi)有特殊布置

中國第一監(jiān)獄:關(guān)的幾乎全是高官,為防止泄密,牢房內(nèi)有特殊布置

瓦倫西亞月亮
2026-02-20 17:37:18
終止重組!暴漲妖股15天腰斬57%!今日再跌超16%,被套股民欲哭無淚

終止重組!暴漲妖股15天腰斬57%!今日再跌超16%,被套股民欲哭無淚

股市皆大事
2026-02-25 11:44:47
李亞鵬年初六到陳光標(biāo)家做客!為陳環(huán)保送行,陳光標(biāo)妻子罕見露臉

李亞鵬年初六到陳光標(biāo)家做客!為陳環(huán)保送行,陳光標(biāo)妻子罕見露臉

離離言幾許
2026-02-22 23:36:16
四川兄妹整理老家菜地挖出30年前金戒指,當(dāng)事人:當(dāng)時80元一克,母親此前生病說要給我,我沒要,結(jié)果第二天就丟了

四川兄妹整理老家菜地挖出30年前金戒指,當(dāng)事人:當(dāng)時80元一克,母親此前生病說要給我,我沒要,結(jié)果第二天就丟了

大象新聞
2026-02-25 11:44:03
2026-02-25 15:11:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
11251文章數(shù) 116979關(guān)注度
往期回顧 全部

科技要聞

“機(jī)器人只跳舞,沒什么用”

頭條要聞

15歲少女和姐姐吵架后失聯(lián)半月 父親懸賞100萬尋人

頭條要聞

15歲少女和姐姐吵架后失聯(lián)半月 父親懸賞100萬尋人

體育要聞

曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

撒貝寧到沈陽跑親戚 老婆李白模特身材

財經(jīng)要聞

春節(jié)檔"開門黑" 電影票少賣了7000萬張

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

教育
時尚
旅游
親子
軍事航空

教育要聞

【調(diào)劑專區(qū)】26考研調(diào)劑信息第二彈

普通人穿衣別太老氣橫秋!這些穿搭給你靈感,保暖耐看兩不誤

旅游要聞

穩(wěn)坐流量c位!天下第一泉風(fēng)景區(qū)新春活動引爆文旅市場

親子要聞

花園寶寶致敬過這一段

軍事要聞

俄烏沖突四周年:和平談判希望渺茫

無障礙瀏覽 進(jìn)入關(guān)懷版