国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌Deep Think八語奧賽屠榜!自主攻克4大未解難題,科研壁壘崩塌

0
分享至


新智元報(bào)道

編輯:元宇

【新智元導(dǎo)讀】谷歌Deep Think橫掃亞歐多語種競賽,AI科研工具的語言壁壘正在被拆掉,數(shù)學(xué)與科學(xué)發(fā)現(xiàn)進(jìn)入AI驅(qū)動新時(shí)代。

「Deep Think」在所有競賽中都擊敗/媲美競爭對手」!

剛剛,Google DeepMind高級研究員Conglong Li在X平臺連發(fā)12條帖子,甩出了一張前所未見的成績單。



一個AI,同一個大腦,八張不同語言的試卷,全部高分交卷。

在任何一個模型身上,這樣的成績實(shí)屬罕見。

從IMO金牌到區(qū)域賽全覆蓋

這次Deep Think拿下多個榜單高分,并非突然的單點(diǎn)爆發(fā),而是一條已經(jīng)持續(xù)了近一年的能力演進(jìn)曲線。

首先登頂最硬核的推理賽場。

2025年7月,Gemini Deep Think首次在國際數(shù)學(xué)奧林匹克(IMO)達(dá)到金牌標(biāo)準(zhǔn),42分拿下35分。同期在ICPC世界決賽也取得類似高水平表現(xiàn)。

這兩個成績,DeepMind官方博客已經(jīng)正式公布。

Google DeepMind隨后把這兩項(xiàng)成績都寫進(jìn)了官方博客,作為Deep Think邁過數(shù)學(xué)與編程「世界級競賽門檻」的標(biāo)志。

接著,Deep Think開始從「世界冠軍級單項(xiàng)突破」,走向「跨語言、跨學(xué)科、跨場景的系統(tǒng)驗(yàn)證」。

2026年2月,Google連發(fā)三篇博客。

一篇介紹Gemini 3.1 Pro模型本體,一篇介紹Deep Think專用推理模式的重大升級,一篇來自DeepMind科學(xué)發(fā)現(xiàn)團(tuán)隊(duì),直接把Deep Think定位成「人類智力倍增器」。

升級后的Deep Think交出了一串硬指標(biāo):

Humanity's Last Exam拿下48.4%(無工具輔助),ARC-AGI-2達(dá)到84.6%(ARC Prize基金會官方驗(yàn)證),Codeforces競賽編程Elo評分3455,2025國際物理奧賽和化學(xué)奧賽筆試部分達(dá)到金牌水平。


這條路線非常清楚:先用IMO、ICPC這樣的世界級競賽,證明它的強(qiáng)大推理能力,然后再用多語種、區(qū)域賽和跨學(xué)科奧賽成績,證明它的跨語言、跨領(lǐng)域穩(wěn)定遷移的通用深度推理能力。


Gemini Deep Think從IMO金牌到PhD級科研加速的能力演進(jìn)

8語言成績單逐項(xiàng)細(xì)看

現(xiàn)在,把這張成績單真正攤開來看。

日語最亮眼。

2025年第35回日本數(shù)學(xué)奧賽本選(JMO Finals),滿分。

ICPC亞洲日本初賽,滿分。


其中,JMO本選這項(xiàng)成績甚至超過了當(dāng)屆最高得分對應(yīng)的80%水平,達(dá)到官方所說的「金獎相當(dāng)」標(biāo)準(zhǔn)。

法語同樣滿分,100%。

中文就有意思了。

第41屆中國數(shù)學(xué)奧林匹克(CMO),Deep Think拿到86.3%,相當(dāng)出色。但中國信息學(xué)奧賽(NOI)只有63.3%。

86.3%和63.3%之間的落差,畫出了AI推理能力的真實(shí)邊界。

在數(shù)學(xué)競賽里,模型面對的是抽象推導(dǎo)、證明構(gòu)造和多步演繹,這恰好是Deep Think最擅長的能力帶。

但到了信息學(xué)競賽,問題就不只是「想明白」,還包括把邏輯翻譯成可執(zhí)行代碼、控制邊界條件、兼顧復(fù)雜度約束,并且在實(shí)現(xiàn)層面避免失誤。

前者更接近純推理,后者則要求「推理+算法設(shè)計(jì)+工程化實(shí)現(xiàn)」同時(shí)過關(guān)。

其它語種,韓語、印地語、越南語、俄語、葡萄牙語對應(yīng)的競賽結(jié)果里,Deep Think 也都實(shí)現(xiàn)了擊敗對手或至少持平。

如果把日語、法語、中文再合起來看,這次最不尋常的一點(diǎn)其實(shí)不是某一門單科刷到滿分,而是同一個模型、同一種Deep Think推理系統(tǒng),在多種語言的競賽試卷上,都交出了第一梯隊(duì)的成績。

這份成績單可靠嗎?

但這里有一個關(guān)鍵的缺失:

Conglong Li并沒有列出競品的具體對比數(shù)據(jù):所有成績,全部來自Google內(nèi)部評測。沒有第三方獨(dú)立復(fù)現(xiàn),沒有競賽官方認(rèn)證,評測方法完全沒有公開。

每道題是做一次還是做很多次取最優(yōu)?推理時(shí)用了多少算力?有沒有人工提示工程介入?

這些直接影響成績含金量的細(xì)節(jié),也都沒提。

還有一點(diǎn)容易被忽略:這些考試全部是各國區(qū)域選拔賽,不是國際決賽。

區(qū)域賽的題目難度和國際決賽之間,隔著一個量級。

研究員明確說了,這些成績「將被納入模型卡」,截至發(fā)稿,模型卡尚未正式更新。

所以,目前這仍然好像是一張由考生自己打分、自己公布、尚未交給教務(wù)處蓋章的成績單。

多語言科研公平性

被忽視的真正戰(zhàn)場

為什么Google要專門花精力做8種語言的區(qū)域賽評測?

當(dāng)前AI推理能力的評測,幾乎全部基于英語。

MATH、GSM8K、HumanEval、ARC-AGI……這些都是英語。

全世界的數(shù)學(xué)家、物理學(xué)家、工程師,只要母語不是英語,在使用AI科研工具時(shí)都要先過一道語言關(guān)。

Google選的這8種語言不是隨機(jī)的。

日語、韓語、中文覆蓋東亞科研重鎮(zhèn),印地語、越南語覆蓋新興市場,法語、俄語、葡萄牙語覆蓋歐洲和南美。

加在一起,這是全球科研產(chǎn)出的大半壁江山。

DeepMind在官方博客里把Deep Think定位為「人類智力倍增器」,說它能「處理知識檢索和嚴(yán)格驗(yàn)證,讓科學(xué)家專注于概念深度和創(chuàng)造性方向」。

結(jié)合這次的多語言成績,這句話的潛臺詞不難理解:這個倍增器,不僅限英語的科學(xué)家用。

更值得注意的是Deep Think在科研落地上已經(jīng)走了多遠(yuǎn)。

DeepMind公布了一個叫Aletheia的數(shù)學(xué)研究智能體,基于Deep Think驅(qū)動,能自主生成、驗(yàn)證、修訂研究級數(shù)學(xué)問題的解法。


Aletheia由Deep Think驅(qū)動,能夠?qū)ρ芯考墧?shù)學(xué)問題進(jìn)行迭代式生成、驗(yàn)證與修正

Aletheia已經(jīng)參與產(chǎn)出了多篇研究論文,其中一篇完全由AI自主完成,計(jì)算了算術(shù)幾何中的特定結(jié)構(gòu)常數(shù)。


另外,在700個開放數(shù)學(xué)問題的半自主評估中,它還獨(dú)立解決了4個此前未解的問題。

Gemini Deep Think模式在計(jì)算機(jī)科學(xué)、物理學(xué)、經(jīng)濟(jì)學(xué)等領(lǐng)域也展現(xiàn)出巨大潛力。

在計(jì)算機(jī)科學(xué)領(lǐng)域,Deep Think幫助推翻了一個懸而未決十年的猜想,在物理學(xué)領(lǐng)域找到了宇宙弦引力輻射的新型解析解,在經(jīng)濟(jì)學(xué)領(lǐng)域擴(kuò)展了一個拍賣理論定理。


AI推理流程的示意圖,展示了在網(wǎng)絡(luò)層進(jìn)行的大規(guī)模解空間探索如何被匯聚為結(jié)構(gòu)化推理,并通過自動化與人工驗(yàn)證加以確認(rèn)。

通過與專家合作解決18個研究難題,Gemini Deep Think的高級版本幫助突破了算法、機(jī)器學(xué)習(xí)與組合優(yōu)化、信息論以及經(jīng)濟(jì)學(xué)領(lǐng)域長期存在的瓶頸。

這已經(jīng)遠(yuǎn)遠(yuǎn)超出了「做競賽題」的范疇。

當(dāng)競品還在卷英文benchmark排行榜的時(shí)候,Google已經(jīng)在「AI科研加速器」領(lǐng)域找到了新戰(zhàn)場。

這件事請最重要的東西其實(shí)不是分?jǐn)?shù),它背后真正的信號是:AI科研工具的語言壁壘正在被當(dāng)作一個工程問題來解決。

如果這條路走通了,全世界用日語、韓語、中文、印地語做研究的科學(xué)家,將第一次和英語母語者站在同一條起跑線上。

這一次,Google已經(jīng)把牌攤在了桌上。

至于競爭對手誰會跟牌,相信我們很快也將看到。

參考資料:

https://blog.google/intl/ja-jp/company-news/technology/gemini-31-pro-gemini-31-pro-deep-think/%20

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
房價(jià)大漲的時(shí)刻就要來了?

房價(jià)大漲的時(shí)刻就要來了?

米宅
2026-04-10 07:22:32
13歲“敦煌少女”驚艷全網(wǎng)!媽媽回應(yīng):一毛錢沒花,堅(jiān)決不炒作

13歲“敦煌少女”驚艷全網(wǎng)!媽媽回應(yīng):一毛錢沒花,堅(jiān)決不炒作

觀察鑒娛
2026-02-15 19:57:21
高人預(yù)測:5年后,持有燃油車的家庭,將面對3個現(xiàn)實(shí)問題

高人預(yù)測:5年后,持有燃油車的家庭,將面對3個現(xiàn)實(shí)問題

沙雕小琳琳
2026-04-12 00:03:20
歐洲人在性方面有多開放?德國再創(chuàng)歷史!女廁所、女浴室隨便進(jìn)了

歐洲人在性方面有多開放?德國再創(chuàng)歷史!女廁所、女浴室隨便進(jìn)了

西樓知趣雜談
2026-03-24 14:38:30
我干了50年風(fēng)水師,我發(fā)現(xiàn)真正能改變命運(yùn)的,只有三個字

我干了50年風(fēng)水師,我發(fā)現(xiàn)真正能改變命運(yùn)的,只有三個字

千秋文化
2026-04-04 21:29:57
原來這才是普通家庭存款?。【W(wǎng)友:兩套房一輛車,無房貸車貸

原來這才是普通家庭存款?。【W(wǎng)友:兩套房一輛車,無房貸車貸

另子維愛讀史
2026-03-06 20:12:51
搞笑圖集 | 這路燈好像在罵我

搞笑圖集 | 這路燈好像在罵我

講故事的菠蘿君
2026-04-10 20:23:35
黃景瑜不忍了!公開回應(yīng)與王玉雯真實(shí)關(guān)系,戀愛傳聞終于真相大白

黃景瑜不忍了!公開回應(yīng)與王玉雯真實(shí)關(guān)系,戀愛傳聞終于真相大白

原夢叁生
2026-04-12 02:40:05
婆婆命令我給她洗腳,拒絕后遭全家暴打,第二天他們的報(bào)應(yīng)來了

婆婆命令我給她洗腳,拒絕后遭全家暴打,第二天他們的報(bào)應(yīng)來了

云端小院
2026-03-22 09:10:05
風(fēng)靡全國的“的確良”消失了?其實(shí)是換了名字,如今很多人還在穿

風(fēng)靡全國的“的確良”消失了?其實(shí)是換了名字,如今很多人還在穿

冰語歷史
2026-04-12 02:28:50
大媽們坐河邊欄桿上做瑜伽,門戶大開不說,水深危險(xiǎn)也不顧

大媽們坐河邊欄桿上做瑜伽,門戶大開不說,水深危險(xiǎn)也不顧

映射生活的身影
2026-04-10 23:45:38
這是一個人最大的愚蠢:逢人就說這3句話!

這是一個人最大的愚蠢:逢人就說這3句話!

金沛的國學(xué)筆記
2026-04-09 11:27:16
外交部公開發(fā)聲,10字定性鄭麗文訪問大陸,白巖松的話果真沒說錯

外交部公開發(fā)聲,10字定性鄭麗文訪問大陸,白巖松的話果真沒說錯

阿纂看事
2026-04-11 15:53:22
女人非常喜歡的三種觸摸,最后一種使她瞬間心動……

女人非常喜歡的三種觸摸,最后一種使她瞬間心動……

周哥一影視
2026-04-06 14:08:46
采耳變賣淫?女技師可變裝,躺采色誘客人,有反應(yīng)了就直接脫褲子

采耳變賣淫?女技師可變裝,躺采色誘客人,有反應(yīng)了就直接脫褲子

烏娛子醬
2025-03-19 10:27:30
高市攤牌了,東京降級對華關(guān)系,并通告全球:中國欠日本兩筆賬

高市攤牌了,東京降級對華關(guān)系,并通告全球:中國欠日本兩筆賬

近史博覽
2026-04-11 01:09:05
摩納哥第一人!東道主黑馬勇闖蒙特卡洛大師賽4強(qiáng)

摩納哥第一人!東道主黑馬勇闖蒙特卡洛大師賽4強(qiáng)

體育妞世界
2026-04-11 08:51:41
踏破鐵鞋無覓處!美軍自毀飛機(jī)沒毀干凈,伊朗撿到紅外對抗系統(tǒng)

踏破鐵鞋無覓處!美軍自毀飛機(jī)沒毀干凈,伊朗撿到紅外對抗系統(tǒng)

軍迷戰(zhàn)情室
2026-04-12 00:32:53
京東否認(rèn)進(jìn)入網(wǎng)約車領(lǐng)域:正在測試新項(xiàng)目,4月13日上線

京東否認(rèn)進(jìn)入網(wǎng)約車領(lǐng)域:正在測試新項(xiàng)目,4月13日上線

澎湃新聞
2026-04-11 12:38:26
日本剛降級對華關(guān)系,53條中日航線被曝全部取消,中方反應(yīng)很平靜

日本剛降級對華關(guān)系,53條中日航線被曝全部取消,中方反應(yīng)很平靜

阿天愛旅行
2026-04-12 00:09:23
2026-04-12 03:23:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時(shí)代
14947文章數(shù) 66765關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

事關(guān)霍爾木茲海峽通行安排 伊美各執(zhí)一詞

頭條要聞

事關(guān)霍爾木茲海峽通行安排 伊美各執(zhí)一詞

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

鄭鈞回應(yīng)兒子走路:會監(jiān)督他挺直腰板

財(cái)經(jīng)要聞

從日本翻身看:這次誰能扛住高油價(jià)?

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬起

態(tài)度原創(chuàng)

親子
房產(chǎn)
手機(jī)
公開課
軍事航空

親子要聞

孩子出現(xiàn)這些行為,不是早戀那么簡單!

房產(chǎn)要聞

土地供應(yīng)突然暴跌!2026海口樓市,格局大變!

手機(jī)要聞

全球首款闊折疊賣爆!華為Pura X一年出貨量超150萬臺

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗議長帶四名遇難兒童照片赴美伊談判

無障礙瀏覽 進(jìn)入關(guān)懷版