国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

姚順宇谷歌首秀,Gemini新模型刷爆SOTA:僅剩7人捍衛(wèi)碳基編程

0
分享至

面對Claude Opus 4.6和GPT Codex 5.3的猛烈攻勢,谷歌反手就是一個Gemini 3 Deep Think的重大升級。



在Codeforces(一個包含各種競技編程挑戰(zhàn)的基準(zhǔn)測試平臺)上,它取得了驚人的3455Elo分?jǐn)?shù),相當(dāng)于世界第8名



這下子,全球只有7人的編程水平能排在它前面了。而此前最高分是一年前o3拿下的2727 Elo。



Gemini 3 Deep Think的實力不止于此,它還直接把ARC-AGI-2——這個公認(rèn)測試AI推理能力的前沿基準(zhǔn),給刷到了史無前例的84.6%

要知道,之前最強模型的得分在60%-70%之間徘徊,Claude Opus 4.6的成績也只有68.8%。

人類最后考試(HLE)上,Gemini 3 Deep Think也刷新SOTA,拿下了48.4%的成績。



官方表示,新版Deep Think是谷歌專門開發(fā)的推理模式,旨在推動智能前沿發(fā)展,并解決科學(xué)、研究和工程領(lǐng)域的現(xiàn)代挑戰(zhàn)。

另一位“堯舜禹”——清華物理系傳奇特獎得主姚順宇(Shunyu Yao),去年9月加入谷歌DeepMind,也是這次Deep Think新模型的參與者。



新版DeepThink已經(jīng)走進(jìn)了實驗室

升級后的Gemini 3 Deep Think實力究竟有多強?

它的野心不止于贏得基準(zhǔn)測試,而是要走進(jìn)科研和工程領(lǐng)域,幫助工程師處理復(fù)雜任務(wù)。

新版Deep Think可以分析草圖,對復(fù)雜形狀進(jìn)行建模,并直接生成用于3D打印的實體文件。這是它打印的一個筆記本電腦支架:



谷歌VP Josh Woodward 在X上曬出了打印的成果,看起來對草圖相當(dāng)還原:



羅格斯大學(xué)的數(shù)學(xué)家Lisa Carbone,利用Gemini 3 Deep Think審閱了一篇高度專業(yè)的數(shù)學(xué)論文。

結(jié)果Gemini 3 Deep Think成功地識別出了一個細(xì)微的邏輯缺陷,而這個缺陷在此前的人工同行評審中均未被發(fā)現(xiàn)。



杜克大學(xué)的王安實驗室,利用Gemini 3 Deep Think技術(shù)優(yōu)化了復(fù)雜晶體生長的制備方法,以期發(fā)現(xiàn)新的半導(dǎo)體材料。

結(jié)果Gemini 3 Deep Think成功設(shè)計了一種能夠生長厚度大于 100 微米薄膜的工藝,達(dá)到了以往方法難以企及的精確目標(biāo)。



在X上,DeepSeek多模態(tài)團(tuán)隊研究員XiaoKang Chen也表示:Gemini 3 Deep Think非常擅長處理科學(xué)領(lǐng)域中的長尾任務(wù)。

他給Deep Think輸入了一張復(fù)雜分子結(jié)構(gòu)的圖片,隨后模型便準(zhǔn)確地計算出了分子式。



勇奪三項新SOTA,推理成本降低82%

去年Deep Think專門版已經(jīng)IMO等國際競賽中奪下金牌?,F(xiàn)在,全新升級后的Deep Think又在多項高難度的基準(zhǔn)測試中全面刷新SOTA:

  • 不使用任何工具,在HLE中取得新SOTA——48.4%
  • 在ARC-AGI-2測試中取得前所未有的84.6%的成績,并經(jīng) ARC Prize 基金會驗證;
  • 在Codeforces上取得了驚人的3455Elo分?jǐn)?shù);
  • 在2025年國際數(shù)學(xué)奧林匹克競賽中達(dá)到金牌水平。



其中,ARC-AGI-2被譽為AI界的“圖靈測試”,旨在衡量模型處理從未見過的新穎推理任務(wù)的能力

要知道,去年12月剛發(fā)布的初代Deep Think得分還是45.1%,不到三個月時間已經(jīng)飆升到84.6%,比Opus 4.6還要強出一截。

而在ARC-AGI-1上,Gemini 3 Deep Think取得了96%的成績,直接頂?shù)教旎ò辶恕?/p>



性能提升的同時,推理成本也在大幅下降。初代Deep Think執(zhí)行每項任務(wù)的成本為77.16美元。此次升級讓成本降低了82%,每項任務(wù)僅需13.62美元



由于1和2都被Gemini刷爆了,現(xiàn)在ARC Prize已經(jīng)在構(gòu)建ARC-AGI-3了……

除了數(shù)學(xué)和編程,升級后的Deep Think在化學(xué)和物理等廣泛的科學(xué)領(lǐng)域同樣表現(xiàn)出色。

在2025年國際物理奧林匹克競賽和化學(xué)奧林匹克競賽中,Gemini 3 Deep Think在筆試部分取得了金牌級別的成績。

此外,它還展現(xiàn)了在高等理論物理方面的能力,在CMT-Benchmark測試中取得了50.5%的分?jǐn)?shù)。



華人帶隊,打造最強推理模型

Gemini 3 Deep Think的研發(fā)團(tuán)隊中,有不少華人身影。

核心成員包括95后華人科學(xué)家Yi Tay,他在Gemini團(tuán)隊中從事強化學(xué)習(xí)和推理方向的研究工作。



此前,他曾在Google Brain共同領(lǐng)導(dǎo)早期大語言模型項目,包括PaLM-2、UL2和Flan-2。

在Google Brain工作3年多之后,2023–2024 年間,Yi Tay曾短暫離開谷歌,作為聯(lián)合創(chuàng)始人創(chuàng)辦了一家獨角獸AI初創(chuàng)公司——Reka。

Reka AI由DeepMind、谷歌和Meta的研究人員創(chuàng)立,其創(chuàng)辦初衷是打造功能強大且高效的基礎(chǔ)模型,現(xiàn)在也開發(fā)界面設(shè)計、應(yīng)用邏輯以及其他應(yīng)用方面的工具。

在創(chuàng)業(yè)一年半后,Yi Tay便重返谷歌DeepMind,擔(dān)任高級資深研究科學(xué)家,繼續(xù)從事人工智能和大語言模型的研究。

去年剛從Anthropic跳槽到谷歌DeepMind的清華校友姚順宇,也參與了Deep think新模型的開發(fā)。



姚順宇本科就讀于清華大學(xué)物理系,曾拿下過清華本科生特等獎學(xué)金(清華授予在校優(yōu)秀本科生的最高獎學(xué)金榮譽)

本科期間,他就已在《Physical Review Letters》(國際物理學(xué)領(lǐng)域最頂級的學(xué)術(shù)期刊之一)發(fā)表高水平論文,首次在國際上給出了關(guān)于非厄米系統(tǒng)的拓?fù)淠軒Ю碚摚粌H準(zhǔn)確預(yù)測了相關(guān)現(xiàn)象,還定義了兩個新的物理概念。

本科畢業(yè)后,他赴斯坦福大學(xué)繼續(xù)攻讀博士,專注于量子多體混沌、開放量子系統(tǒng)動力學(xué)等前沿問題,師從Douglas Stanford(美國理論物理學(xué)家,被同行視為頂尖且有潛力改變物理學(xué)發(fā)展方向的年輕科學(xué)家之一)、Zhenbin Yang(楊振斌,華裔美國科學(xué)家,公認(rèn)的20世紀(jì)最重要的物理學(xué)家之一)等知名學(xué)者。

博士畢業(yè)后,他先是去UC伯克利做博士后研究,隨后加入了Anthropic。在Anthropic工作的一年時間里,他參與組建了強化學(xué)習(xí)基礎(chǔ)團(tuán)隊,負(fù)責(zé)了Claude 3.7 Sonnet框架,以及Claude 4系列背后的基本強化學(xué)習(xí)理論。

離開Anthropic之后,姚順宇轉(zhuǎn)戰(zhàn)谷歌DeepMind,繼續(xù)從事AI方面的研究。這次Deep Think新模型發(fā)布,也是他在谷歌的首秀之作


[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/
[2]https://x.com/ShunyuYao14/status/2022013770843967900
[3]https://x.com/YiTayML/status/2021988841142534287
[4]https://x.com/NoamShazeer/status/2021988459519652089
[5]https://x.com/PKUCXK/status/2022144532272623990

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
214億就封王!明天,廣州或?qū)⒄Q生新地王!

214億就封王!明天,廣州或?qū)⒄Q生新地王!

房二娃
2026-02-24 19:08:09
傅彪兒子近照曝光!過年和張一山聚餐,生活奢華難掩35歲滿頭白發(fā)

傅彪兒子近照曝光!過年和張一山聚餐,生活奢華難掩35歲滿頭白發(fā)

叨嘮
2026-02-24 21:53:09
26歲全身潰爛不治而亡,被全家8口吸血多年

26歲全身潰爛不治而亡,被全家8口吸血多年

仙味少女心
2026-01-31 23:14:30
官方丨牙槽骨骨折,下巴骨折,多顆牙齒脫落……

官方丨牙槽骨骨折,下巴骨折,多顆牙齒脫落……

米蘭圈
2026-02-24 08:35:27
韓鵬乾坤大挪移,泰山隊牙齒很白的28歲濟(jì)南小伙,有望迎來大爆發(fā)

韓鵬乾坤大挪移,泰山隊牙齒很白的28歲濟(jì)南小伙,有望迎來大爆發(fā)

姜大叔侃球
2026-02-24 20:47:03
美軍向以色列南部部署11架F-22戰(zhàn)斗機

美軍向以色列南部部署11架F-22戰(zhàn)斗機

財聯(lián)社
2026-02-25 02:28:33
荷蘭防長:烏克蘭在為歐洲而戰(zhàn),俄野心直指整個歐洲

荷蘭防長:烏克蘭在為歐洲而戰(zhàn),俄野心直指整個歐洲

老馬拉車莫少裝
2026-02-25 01:03:26
性能力與壽命關(guān)系被發(fā)現(xiàn)!男性40歲后,睪酮越高,死亡風(fēng)險越低

性能力與壽命關(guān)系被發(fā)現(xiàn)!男性40歲后,睪酮越高,死亡風(fēng)險越低

藥師說健康
2025-12-05 09:47:10
江蘇一家去貝加爾湖旅游:一萬六都花了,卻為省200全家遇難

江蘇一家去貝加爾湖旅游:一萬六都花了,卻為省200全家遇難

觀察鑒娛
2026-02-24 09:48:21
美軍集結(jié)“滅國”力量,伊朗最后關(guān)頭低頭了,全世界都緊盯特朗普

美軍集結(jié)“滅國”力量,伊朗最后關(guān)頭低頭了,全世界都緊盯特朗普

紀(jì)中百大事
2026-02-24 19:19:57
冬奧會結(jié)束僅1天,各國獎勵出爐!美國寒酸,第1名超500W 中國呢

冬奧會結(jié)束僅1天,各國獎勵出爐!美國寒酸,第1名超500W 中國呢

大秦壁虎白話體育
2026-02-24 08:35:56
艾滋病新增130萬!很多人中招很冤枉!在外“5不碰”一定要記死

艾滋病新增130萬!很多人中招很冤枉!在外“5不碰”一定要記死

今朝牛馬
2025-12-31 19:31:04
年輕人不買賬了,“老登資產(chǎn)”必然加速出清

年輕人不買賬了,“老登資產(chǎn)”必然加速出清

傳心財經(jīng)
2026-01-04 20:24:56
中國最“窄”省份:長1600公里最窄僅23公里,像根面條卻富得流油

中國最“窄”省份:長1600公里最窄僅23公里,像根面條卻富得流油

劉哥談體育
2026-02-24 20:55:57
翟曉川一家泰國度假,場均5分拿底薪,老婆太漂亮了,已財富自由

翟曉川一家泰國度假,場均5分拿底薪,老婆太漂亮了,已財富自由

大西體育
2026-02-24 10:37:07
國內(nèi)大醫(yī)院內(nèi)卷的極限來了:一三甲醫(yī)院宣布春節(jié)開始全面取消掛號費

國內(nèi)大醫(yī)院內(nèi)卷的極限來了:一三甲醫(yī)院宣布春節(jié)開始全面取消掛號費

金水路7號站
2026-02-21 09:46:18
這個漂亮的女大學(xué)生,廢了!

這個漂亮的女大學(xué)生,廢了!

皮蛋兒電影
2025-09-23 21:55:05
84歲劉尚嫻:在北京干休所養(yǎng)老,和丈夫生活簡單兒子從事影視行業(yè)

84歲劉尚嫻:在北京干休所養(yǎng)老,和丈夫生活簡單兒子從事影視行業(yè)

查爾菲的筆記
2026-02-23 22:24:56
鐘麗緹又老又胖

鐘麗緹又老又胖

動物奇奇怪怪
2026-02-24 19:43:26
克尼佩爾:新秀三分風(fēng)暴來襲,有望書寫NBA傳奇

克尼佩爾:新秀三分風(fēng)暴來襲,有望書寫NBA傳奇

問書君
2026-02-25 00:47:07
2026-02-25 03:40:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12196文章數(shù) 176392關(guān)注度
往期回顧 全部

科技要聞

宇樹科技發(fā)布四足機器人Unitree As2

頭條要聞

男子摟住繼女強吻動作親密 當(dāng)?shù)貗D聯(lián)介入

頭條要聞

男子摟住繼女強吻動作親密 當(dāng)?shù)貗D聯(lián)介入

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個熱愛單板滑雪的少年

娛樂要聞

汪小菲官宣三胎出生:承諾會照顧好3個孩子

財經(jīng)要聞

縣城消費「限時繁榮」了十天

汽車要聞

入門即滿配 威蘭達(dá)AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

家居
旅游
手機
教育
公開課

家居要聞

本真棲居 愛暖伴流年

旅游要聞

避寒+冰雪雙爆!5.96億人出游,解鎖新春新玩法

手機要聞

蘋果發(fā)布iOS 26.4 Beta 2系統(tǒng)更新,液態(tài)玻璃設(shè)計有新變化!

教育要聞

馬馬馬上上岸!!!TTS《大吉大利復(fù)試手冊》+復(fù)試班:紙質(zhì)筆記與1v1模擬面試堂堂上線!!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版