国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

谷歌Deep Think八語(yǔ)奧賽屠榜!自主攻克4大未解難題,科研壁壘崩塌

0
分享至


新智元報(bào)道

編輯:元宇

【新智元導(dǎo)讀】谷歌Deep Think橫掃亞歐多語(yǔ)種競(jìng)賽,AI科研工具的語(yǔ)言壁壘正在被拆掉,數(shù)學(xué)與科學(xué)發(fā)現(xiàn)進(jìn)入AI驅(qū)動(dòng)新時(shí)代。

「Deep Think」在所有競(jìng)賽中都擊敗/媲美競(jìng)爭(zhēng)對(duì)手」!

剛剛,Google DeepMind高級(jí)研究員Conglong Li在X平臺(tái)連發(fā)12條帖子,甩出了一張前所未見(jiàn)的成績(jī)單。



一個(gè)AI,同一個(gè)大腦,八張不同語(yǔ)言的試卷,全部高分交卷。

在任何一個(gè)模型身上,這樣的成績(jī)實(shí)屬罕見(jiàn)。

從IMO金牌到區(qū)域賽全覆蓋

這次Deep Think拿下多個(gè)榜單高分,并非突然的單點(diǎn)爆發(fā),而是一條已經(jīng)持續(xù)了近一年的能力演進(jìn)曲線(xiàn)。

首先登頂最硬核的推理賽場(chǎng)。

2025年7月,Gemini Deep Think首次在國(guó)際數(shù)學(xué)奧林匹克(IMO)達(dá)到金牌標(biāo)準(zhǔn),42分拿下35分。同期在ICPC世界決賽也取得類(lèi)似高水平表現(xiàn)。

這兩個(gè)成績(jī),DeepMind官方博客已經(jīng)正式公布。

Google DeepMind隨后把這兩項(xiàng)成績(jī)都寫(xiě)進(jìn)了官方博客,作為Deep Think邁過(guò)數(shù)學(xué)與編程「世界級(jí)競(jìng)賽門(mén)檻」的標(biāo)志。

接著,Deep Think開(kāi)始從「世界冠軍級(jí)單項(xiàng)突破」,走向「跨語(yǔ)言、跨學(xué)科、跨場(chǎng)景的系統(tǒng)驗(yàn)證」。

2026年2月,Google連發(fā)三篇博客。

一篇介紹Gemini 3.1 Pro模型本體,一篇介紹Deep Think專(zhuān)用推理模式的重大升級(jí),一篇來(lái)自DeepMind科學(xué)發(fā)現(xiàn)團(tuán)隊(duì),直接把Deep Think定位成「人類(lèi)智力倍增器」。

升級(jí)后的Deep Think交出了一串硬指標(biāo):

Humanity's Last Exam拿下48.4%(無(wú)工具輔助),ARC-AGI-2達(dá)到84.6%(ARC Prize基金會(huì)官方驗(yàn)證),Codeforces競(jìng)賽編程Elo評(píng)分3455,2025國(guó)際物理奧賽和化學(xué)奧賽筆試部分達(dá)到金牌水平。


這條路線(xiàn)非常清楚:先用IMO、ICPC這樣的世界級(jí)競(jìng)賽,證明它的強(qiáng)大推理能力,然后再用多語(yǔ)種、區(qū)域賽和跨學(xué)科奧賽成績(jī),證明它的跨語(yǔ)言、跨領(lǐng)域穩(wěn)定遷移的通用深度推理能力。


Gemini Deep Think從IMO金牌到PhD級(jí)科研加速的能力演進(jìn)

8語(yǔ)言成績(jī)單逐項(xiàng)細(xì)看

現(xiàn)在,把這張成績(jī)單真正攤開(kāi)來(lái)看。

日語(yǔ)最亮眼。

2025年第35回日本數(shù)學(xué)奧賽本選(JMO Finals),滿(mǎn)分。

ICPC亞洲日本初賽,滿(mǎn)分。


其中,JMO本選這項(xiàng)成績(jī)甚至超過(guò)了當(dāng)屆最高得分對(duì)應(yīng)的80%水平,達(dá)到官方所說(shuō)的「金獎(jiǎng)相當(dāng)」標(biāo)準(zhǔn)。

法語(yǔ)同樣滿(mǎn)分,100%。

中文就有意思了。

第41屆中國(guó)數(shù)學(xué)奧林匹克(CMO),Deep Think拿到86.3%,相當(dāng)出色。但中國(guó)信息學(xué)奧賽(NOI)只有63.3%。

86.3%和63.3%之間的落差,畫(huà)出了AI推理能力的真實(shí)邊界。

在數(shù)學(xué)競(jìng)賽里,模型面對(duì)的是抽象推導(dǎo)、證明構(gòu)造和多步演繹,這恰好是Deep Think最擅長(zhǎng)的能力帶。

但到了信息學(xué)競(jìng)賽,問(wèn)題就不只是「想明白」,還包括把邏輯翻譯成可執(zhí)行代碼、控制邊界條件、兼顧復(fù)雜度約束,并且在實(shí)現(xiàn)層面避免失誤。

前者更接近純推理,后者則要求「推理+算法設(shè)計(jì)+工程化實(shí)現(xiàn)」同時(shí)過(guò)關(guān)。

其它語(yǔ)種,韓語(yǔ)、印地語(yǔ)、越南語(yǔ)、俄語(yǔ)、葡萄牙語(yǔ)對(duì)應(yīng)的競(jìng)賽結(jié)果里,Deep Think 也都實(shí)現(xiàn)了擊敗對(duì)手或至少持平。

如果把日語(yǔ)、法語(yǔ)、中文再合起來(lái)看,這次最不尋常的一點(diǎn)其實(shí)不是某一門(mén)單科刷到滿(mǎn)分,而是同一個(gè)模型、同一種Deep Think推理系統(tǒng),在多種語(yǔ)言的競(jìng)賽試卷上,都交出了第一梯隊(duì)的成績(jī)。

這份成績(jī)單可靠嗎?

但這里有一個(gè)關(guān)鍵的缺失:

Conglong Li并沒(méi)有列出競(jìng)品的具體對(duì)比數(shù)據(jù):所有成績(jī),全部來(lái)自Google內(nèi)部評(píng)測(cè)。沒(méi)有第三方獨(dú)立復(fù)現(xiàn),沒(méi)有競(jìng)賽官方認(rèn)證,評(píng)測(cè)方法完全沒(méi)有公開(kāi)。

每道題是做一次還是做很多次取最優(yōu)?推理時(shí)用了多少算力?有沒(méi)有人工提示工程介入?

這些直接影響成績(jī)含金量的細(xì)節(jié),也都沒(méi)提。

還有一點(diǎn)容易被忽略:這些考試全部是各國(guó)區(qū)域選拔賽,不是國(guó)際決賽。

區(qū)域賽的題目難度和國(guó)際決賽之間,隔著一個(gè)量級(jí)。

研究員明確說(shuō)了,這些成績(jī)「將被納入模型卡」,截至發(fā)稿,模型卡尚未正式更新。

所以,目前這仍然好像是一張由考生自己打分、自己公布、尚未交給教務(wù)處蓋章的成績(jī)單。

多語(yǔ)言科研公平性

被忽視的真正戰(zhàn)場(chǎng)

為什么Google要專(zhuān)門(mén)花精力做8種語(yǔ)言的區(qū)域賽評(píng)測(cè)?

當(dāng)前AI推理能力的評(píng)測(cè),幾乎全部基于英語(yǔ)。

MATH、GSM8K、HumanEval、ARC-AGI……這些都是英語(yǔ)。

全世界的數(shù)學(xué)家、物理學(xué)家、工程師,只要母語(yǔ)不是英語(yǔ),在使用AI科研工具時(shí)都要先過(guò)一道語(yǔ)言關(guān)。

Google選的這8種語(yǔ)言不是隨機(jī)的。

日語(yǔ)、韓語(yǔ)、中文覆蓋東亞科研重鎮(zhèn),印地語(yǔ)、越南語(yǔ)覆蓋新興市場(chǎng),法語(yǔ)、俄語(yǔ)、葡萄牙語(yǔ)覆蓋歐洲和南美。

加在一起,這是全球科研產(chǎn)出的大半壁江山。

DeepMind在官方博客里把Deep Think定位為「人類(lèi)智力倍增器」,說(shuō)它能「處理知識(shí)檢索和嚴(yán)格驗(yàn)證,讓科學(xué)家專(zhuān)注于概念深度和創(chuàng)造性方向」。

結(jié)合這次的多語(yǔ)言成績(jī),這句話(huà)的潛臺(tái)詞不難理解:這個(gè)倍增器,不僅限英語(yǔ)的科學(xué)家用。

更值得注意的是Deep Think在科研落地上已經(jīng)走了多遠(yuǎn)。

DeepMind公布了一個(gè)叫Aletheia的數(shù)學(xué)研究智能體,基于Deep Think驅(qū)動(dòng),能自主生成、驗(yàn)證、修訂研究級(jí)數(shù)學(xué)問(wèn)題的解法。


Aletheia由Deep Think驅(qū)動(dòng),能夠?qū)ρ芯考?jí)數(shù)學(xué)問(wèn)題進(jìn)行迭代式生成、驗(yàn)證與修正

Aletheia已經(jīng)參與產(chǎn)出了多篇研究論文,其中一篇完全由AI自主完成,計(jì)算了算術(shù)幾何中的特定結(jié)構(gòu)常數(shù)。


另外,在700個(gè)開(kāi)放數(shù)學(xué)問(wèn)題的半自主評(píng)估中,它還獨(dú)立解決了4個(gè)此前未解的問(wèn)題。

Gemini Deep Think模式在計(jì)算機(jī)科學(xué)、物理學(xué)、經(jīng)濟(jì)學(xué)等領(lǐng)域也展現(xiàn)出巨大潛力。

在計(jì)算機(jī)科學(xué)領(lǐng)域,Deep Think幫助推翻了一個(gè)懸而未決十年的猜想,在物理學(xué)領(lǐng)域找到了宇宙弦引力輻射的新型解析解,在經(jīng)濟(jì)學(xué)領(lǐng)域擴(kuò)展了一個(gè)拍賣(mài)理論定理。


AI推理流程的示意圖,展示了在網(wǎng)絡(luò)層進(jìn)行的大規(guī)模解空間探索如何被匯聚為結(jié)構(gòu)化推理,并通過(guò)自動(dòng)化與人工驗(yàn)證加以確認(rèn)。

通過(guò)與專(zhuān)家合作解決18個(gè)研究難題,Gemini Deep Think的高級(jí)版本幫助突破了算法、機(jī)器學(xué)習(xí)與組合優(yōu)化、信息論以及經(jīng)濟(jì)學(xué)領(lǐng)域長(zhǎng)期存在的瓶頸。

這已經(jīng)遠(yuǎn)遠(yuǎn)超出了「做競(jìng)賽題」的范疇。

當(dāng)競(jìng)品還在卷英文benchmark排行榜的時(shí)候,Google已經(jīng)在「AI科研加速器」領(lǐng)域找到了新戰(zhàn)場(chǎng)。

這件事請(qǐng)最重要的東西其實(shí)不是分?jǐn)?shù),它背后真正的信號(hào)是:AI科研工具的語(yǔ)言壁壘正在被當(dāng)作一個(gè)工程問(wèn)題來(lái)解決。

如果這條路走通了,全世界用日語(yǔ)、韓語(yǔ)、中文、印地語(yǔ)做研究的科學(xué)家,將第一次和英語(yǔ)母語(yǔ)者站在同一條起跑線(xiàn)上。

這一次,Google已經(jīng)把牌攤在了桌上。

至于競(jìng)爭(zhēng)對(duì)手誰(shuí)會(huì)跟牌,相信我們很快也將看到。

參考資料:

https://blog.google/intl/ja-jp/company-news/technology/gemini-31-pro-gemini-31-pro-deep-think/%20

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
越南已被逼入絕境,總理臨卸任死磕中國(guó),賭上國(guó)運(yùn)也要換掉米軌

越南已被逼入絕境,總理臨卸任死磕中國(guó),賭上國(guó)運(yùn)也要換掉米軌

諦聽(tīng)骨語(yǔ)本尊
2026-04-07 18:33:35
一路走好!85歲陳麗華去世,私生活被扒底朝天,網(wǎng)友:老公太可憐

一路走好!85歲陳麗華去世,私生活被扒底朝天,網(wǎng)友:老公太可憐

別人都叫我阿螫
2026-04-08 06:26:16
張?zhí)m生日好鬧心!馬筱梅發(fā)文翻車(chē),小玥兒做餅干,汪小菲躲避相聚

張?zhí)m生日好鬧心!馬筱梅發(fā)文翻車(chē),小玥兒做餅干,汪小菲躲避相聚

潮鹿逐夢(mèng)
2026-04-08 00:02:21
12年江西男子淘到一破書(shū),有人出500萬(wàn)沒(méi)賣(mài)出,1年后以2600萬(wàn)成交

12年江西男子淘到一破書(shū),有人出500萬(wàn)沒(méi)賣(mài)出,1年后以2600萬(wàn)成交

談史論天地
2026-04-05 18:20:59
油車(chē)換電車(chē)1年真實(shí)感受:普通人別跟風(fēng)!買(mǎi)車(chē)前沒(méi)人告訴你的真相

油車(chē)換電車(chē)1年真實(shí)感受:普通人別跟風(fēng)!買(mǎi)車(chē)前沒(méi)人告訴你的真相

華庭講美食
2026-03-28 17:08:13
清明節(jié),兒子寫(xiě)燒給母親的祭文,看哭了14億中國(guó)人!

清明節(jié),兒子寫(xiě)燒給母親的祭文,看哭了14億中國(guó)人!

每日一首古詩(shī)詞
2026-04-05 06:07:07
留給美國(guó)時(shí)間不多了,伊朗戰(zhàn)爭(zhēng)打完后,世界就只剩一個(gè)超級(jí)大國(guó)了

留給美國(guó)時(shí)間不多了,伊朗戰(zhàn)爭(zhēng)打完后,世界就只剩一個(gè)超級(jí)大國(guó)了

觸摸史跡
2026-04-02 14:39:03
自導(dǎo)自演?佛山雞煲老板因流量壓力自黑求放過(guò),結(jié)果慘遭網(wǎng)友扒光

自導(dǎo)自演?佛山雞煲老板因流量壓力自黑求放過(guò),結(jié)果慘遭網(wǎng)友扒光

從零到一研究所
2026-04-03 15:04:26
阿爾忒彌斯2號(hào)拍的地球和月球,和我們平時(shí)看到的不一樣

阿爾忒彌斯2號(hào)拍的地球和月球,和我們平時(shí)看到的不一樣

空天論道
2026-04-06 20:30:03
美軍飛行員獲救,細(xì)節(jié)公開(kāi):48小時(shí)建簡(jiǎn)易機(jī)場(chǎng),搭進(jìn)去5架飛機(jī)

美軍飛行員獲救,細(xì)節(jié)公開(kāi):48小時(shí)建簡(jiǎn)易機(jī)場(chǎng),搭進(jìn)去5架飛機(jī)

潮鹿逐夢(mèng)
2026-04-05 16:55:57
詐尸了!哈梅內(nèi)伊死而復(fù)生?特朗普大秀軍功,伊朗做出了一個(gè)舉動(dòng)

詐尸了!哈梅內(nèi)伊死而復(fù)生?特朗普大秀軍功,伊朗做出了一個(gè)舉動(dòng)

像詩(shī)一樣的姑娘
2026-04-08 10:26:34
“中國(guó)紫檀女王”陳麗華逝世,曾是中國(guó)女首富,47歲時(shí)倒追“唐僧”遲重瑞,晚年每天生活費(fèi)10元

“中國(guó)紫檀女王”陳麗華逝世,曾是中國(guó)女首富,47歲時(shí)倒追“唐僧”遲重瑞,晚年每天生活費(fèi)10元

極目新聞
2026-04-07 12:39:33
李先念稱(chēng)陶鑄應(yīng)是元帥,說(shuō):我的部隊(duì),就是憑他8條槍起家的

李先念稱(chēng)陶鑄應(yīng)是元帥,說(shuō):我的部隊(duì),就是憑他8條槍起家的

史之銘
2026-04-06 18:45:28
徹底崩了!《乘風(fēng)2026》突發(fā)停播,倪萍道歉沒(méi)用,節(jié)目組兜不住了

徹底崩了!《乘風(fēng)2026》突發(fā)停播,倪萍道歉沒(méi)用,節(jié)目組兜不住了

橙星文娛
2026-04-06 10:24:31
全紅嬋被集體霸凌,隊(duì)友潛伏攻擊全紅嬋內(nèi)部群,聊天記錄被曝光!

全紅嬋被集體霸凌,隊(duì)友潛伏攻擊全紅嬋內(nèi)部群,聊天記錄被曝光!

眼光很亮
2026-04-08 12:10:03
“戴套不算是強(qiáng)奸”,2011年26歲女子被領(lǐng)導(dǎo)強(qiáng)暴,報(bào)案時(shí)她被驚呆

“戴套不算是強(qiáng)奸”,2011年26歲女子被領(lǐng)導(dǎo)強(qiáng)暴,報(bào)案時(shí)她被驚呆

漢史趣聞
2026-03-25 14:14:30
時(shí)隔7年!火箭連兩季50勝 杜蘭特未獲致敬視頻導(dǎo)21分逆轉(zhuǎn)橫掃舊主

時(shí)隔7年!火箭連兩季50勝 杜蘭特未獲致敬視頻導(dǎo)21分逆轉(zhuǎn)橫掃舊主

醉臥浮生
2026-04-08 13:46:05
巴拿馬港口突然“不認(rèn)賬”了,美國(guó)官員剛說(shuō)完話(huà)法院就裁決

巴拿馬港口突然“不認(rèn)賬”了,美國(guó)官員剛說(shuō)完話(huà)法院就裁決

小影的娛樂(lè)
2026-04-08 02:22:24
金燦榮:第三次國(guó)共合作不可能,對(duì)國(guó)民黨不抱過(guò)高期待

金燦榮:第三次國(guó)共合作不可能,對(duì)國(guó)民黨不抱過(guò)高期待

混沌錄
2026-03-29 17:08:14
越南的恨,為何唯獨(dú)留給了中國(guó)

越南的恨,為何唯獨(dú)留給了中國(guó)

民間胡扯老哥
2026-04-05 21:51:40
2026-04-08 14:23:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14923文章數(shù) 66754關(guān)注度
往期回顧 全部

科技要聞

造出地表最強(qiáng)AI,卻死活不給你用!

頭條要聞

裝修工強(qiáng)奸未遂殺雇主 死者兒子跟"媽"聊天發(fā)現(xiàn)不對(duì)勁

頭條要聞

裝修工強(qiáng)奸未遂殺雇主 死者兒子跟"媽"聊天發(fā)現(xiàn)不對(duì)勁

體育要聞

皇馬1.5億巨星浪費(fèi)超級(jí)單刀 丟球攤手抱怨

娛樂(lè)要聞

楊穎鄧超低調(diào)現(xiàn)身觀(guān)眾席 支持陳赫話(huà)劇

財(cái)經(jīng)要聞

特朗普同意停火兩周 伊朗:接受;鹛嶙h

汽車(chē)要聞

5門(mén)5座/新復(fù)古造型 繽果Pro將于4月14日開(kāi)啟預(yù)售

態(tài)度原創(chuàng)

家居
藝術(shù)
旅游
數(shù)碼
公開(kāi)課

家居要聞

自在恣意 侘寂風(fēng)別墅

藝術(shù)要聞

齊白石『凌波仙子』

旅游要聞

對(duì)話(huà)中山陵景區(qū)文創(chuàng)老板:接待不少臺(tái)灣游客,最?lèi)?ài)買(mǎi)雨花石

數(shù)碼要聞

小米R(shí)EDMI K Pad 2本月發(fā)布:搭載9100mAh電池、天璣9500處理器

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版