国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌全線開掛!Gemini 3 Deep Think奪多項推理SOTA,Gemini亞洲新團隊也官宣了

0
分享至


作者 | 木子、高允毅

剛剛,Gemini 3Deep Think 模式終于正式上線了。

顧名思義,這是 Gemini 3 的深度思考模式,推理能力顯著加強, 能處理復雜、多步驟,以及更多創(chuàng)新的問題,還可以搞定超難的科學問題和數(shù)學題!


是 ARC-AGI、HLE 等

多項權(quán)威測評中的第一名

先來看看Gemini 3 Deep Think是怎么一回事。

在公認的大模型最難測試之一、全球最接近“通用智能(AGI)核心能力”驗證的基準測試ARC-AGI中,Gemini 3 Deep Think 在 2 個榜單中均拔得頭籌。

其中,ARC-AGI-1主要測模型的基礎抽象推理。在這項測試中,Gemini 3 Deep Think 的答題正確率排第一,達到了 87.5%,打敗了 GPT-5 系列、Claude Opus 4.5 等。


ARC-AGI-2則將任務升級為多步驟、遞歸、隱藏規(guī)則等,是更接近“類人智慧”的高階推理場景。

其中,Gemini 3 Deep Think 正確率達45.1%,比非深度思考模式的 Gemini 3 Pro(正確率 31.1%)高出了 14%。而在這項測試中,GPT-5 Pro 的正確率僅有18.3%


此外,Gemini 3 Deep Think 在人類最后考試(Humanity’s Last Exam,HLE)GPQA Diamond這兩個高難度評測中也都取得了第一名。

HLE 是谷歌 DeepMind 設計的一項綜合性推理測試,用于檢驗模型在跨學科問題、復雜邏輯、多步驟推理等方面的真實智能水平,難度遠高于傳統(tǒng)選擇題式的 benchmark。

而 GPQA Diamond 則聚焦量子物理、統(tǒng)計力學等高階科學問題,被視為檢驗模型是否具備“研究級科學理解力”的金標準。

Deep Think 在這兩項測試中都取得領先成績,說明它不僅在抽象推理上顯著提升,還具備更強的科學知識推斷與深度理解能力。


不過,目前 Gemini 3 的 Deep Think 模式只向 Google AI Ultra 訂閱用戶開放。

在社交媒體上,Gemini 3 的這個新功能引起了網(wǎng)友的熱議。

有網(wǎng)友對其 Deep Think 模式的測試成果豎起大拇指:

“HLI 和 ARC 的收益率都超過 40%,這很棒?!?/p>


有網(wǎng)友表示,Deep Think 的調(diào)試與代碼推理能力,已經(jīng)超過現(xiàn)有大多數(shù)模型:

“Gemini 3 Deep Think 成功解決了那個讓我耗費好幾天的 stack underflow bug。它給出的答案比 Opus 4.5 更明確,而后者是唯一一個也能解出這個問題的公開模型(甚至 Gemini 3 Pro 都失敗了)。

Deep Think 甚至能自信地指出 bug 的確切位置。不過,它運行確實很慢......”


還有人大贊 Gemini 3 Deep Think““創(chuàng)意場景推理””能力:

“這是我在這個提示(創(chuàng)意場景推理)上獲得過的最佳輸出之一,完全是前所未見的水準。”


不過也有人提出,雖然 Gemini 3 的實際使用效果并沒有那么好,希望能趕緊優(yōu)化 AGI 的相關(guān)功能。


DeepMind 將成立新的

Gemini 研究團隊

今天谷歌 DeepMind 宣布,將在新加坡成立全新的 Gemini 研究團隊。

帶隊人是 95 后華人科學家 Yi Tay,他分享稱,這個新團隊將專注于高級推理、LLM/RL 以及改進 Gemini、Gemini Deep Think 等前沿 SOTA 模型

這個團隊,將向 Google Brain(現(xiàn)在 Google DeepMind 的前身之一)的創(chuàng)始成員之一 Quoc Le 匯報。

他還提到,谷歌 DeepMind 在美國總部 Mountain View 的團隊,近期已經(jīng)憑借 Gemini Deep Think,在 IMO 和 ICPC 兩項國際數(shù)學奧林匹克競賽中斬獲金牌,并在 Gemini 項目的其他諸多重要進展中發(fā)揮了關(guān)鍵作用。


有趣的是,Yi Tay 還分享了一張他用 Nano Banana 生成的一張新加坡 Gemini 新團隊“辦公大樓”的趣味插畫。圖中匯集了新加坡的標志性建筑:濱海灣花園、魚尾獅、濱海灣金沙酒店... 以及“Gemini Team”大樓。


關(guān)于 Yi Tay 其人:他不僅是一位“高產(chǎn)”的學術(shù)研究者,在 Google Scholar 上的論文引用量達數(shù)萬次,還在 Gemini 項目的諸多進展中發(fā)揮關(guān)鍵作用。


至于這個新團隊,據(jù) Yi Tay 介紹,團隊的規(guī)模不會很大,但人才密度極高,過去幾個月正在招募全球最頂尖的人才。

同時,他們還將與 AI 領域的不少傳奇大佬合作,包括 Google Brain 傳奇科學家 Quoc Le、“推理之王”Denny Zhou;以及深度架構(gòu)大師 Mostafa Dehghani,就是 nano banana 背后的男人,還有 Transformers 發(fā)明人之一 Noam Shazeer 等等。

此外,不少當代行業(yè)頂尖人才輸送新鮮血液,如生成式檢索共同奠基者 Victor Tran、IMO 金牌紀錄保持者 Lê Minh Thang、自洽性與 CoT 提出者薛之、以及日本代表性 AI 學者 Shane Gu 等,可謂星光熠熠。

雖然新團隊的具體成員還未暴露,但回顧 Gemini 團隊的誕生始末,也能略窺一二。

Gemini 團隊誕生于 2023 年谷歌的 AI 大重組——當時 Google 將負責大模型研究的Google Brain,與負責通用智能探索DeepMind,合并為新的 Google DeepMind。

旨在把最強科研與最強工程整合,打造可與 GPT 系列正面競爭的下一代基礎模型。

合并后首個戰(zhàn)略動作,就是成立 Gemini 團隊:一個覆蓋算法設計、超大規(guī)模訓練、多模態(tài)系統(tǒng)構(gòu)建,到產(chǎn)品化落地的 全鏈路超級團隊。

Gemini 團隊一口氣推出 Ultra、Pro、Flash 三大全系模型,將 Gemini 推向全球數(shù)十億用戶,正式成為谷歌 AI 的王牌引擎。

One More Thing

還有值得一提的,谷歌最近新動作頻頻,昨天還正式推出的Google Workspace Studio。

以前,郵件看不過來、日程排不完、文檔數(shù)據(jù)要手動整理...... 這些每天都在消耗上班族的注意力。但從現(xiàn)在開始,它們都可以被 AI 接管。

Workspace Studio 深度整合了谷歌的辦公全家桶(Gmail 郵件、Docs 文檔、Sheets 表格、Drive 云端硬盤、Chat 聊天、Calendar 日歷),不寫代碼、幾分鐘就能做出自己的 AI Agent——從簡單提醒到跨系統(tǒng)流程自動化,全都可以交給 AI 跑。


Workspace Studio 基于谷歌最強大的Gemini 3,具備推理、多模態(tài)理解和跨應用調(diào)用能力。你只需給它一個示例,它就能自動執(zhí)行復雜辦公任務:情感分析、內(nèi)容生成、優(yōu)先級排序、智能通知……統(tǒng)統(tǒng)自動化。

網(wǎng)友們紛紛表示贊嘆,確實解決了痛點問題,恨不得馬上使用。




傳送門:

https://x.com/YiTayML/status/1996640869584445882

https://blog.google/products/gemini/gemini-3-deep-think/

https://arcprize.org/leaderboard

https://www.reddit.com/r/singularity/comments/1pec4zg/gemini\_3\_deep\_think\_benchmarks\_released\_hits\_451/

https://workspace.google.com/blog/product-announcements/introducing-google-workspace-studio-agents-for-everyday-work

會議預告

12 月 19~20 日,AICon 2025 年度收官站在北京舉辦?,F(xiàn)已開啟 9 折優(yōu)惠。

兩天時間,聊最熱的 Agent、上下文工程、AI 產(chǎn)品創(chuàng)新等等話題,與頭部企業(yè)與創(chuàng)新團隊的專家深度交流落地經(jīng)驗與思考。2025 年最后一場,不容錯過。

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
龍珠:一口氣看完角色原型,中國元素真的很多!

龍珠:一口氣看完角色原型,中國元素真的很多!

動漫心世界
2026-01-19 14:13:39
警惕!美媒:衛(wèi)星圖像揭露日本“出云”級艦艇“航母化”改造最新進展

警惕!美媒:衛(wèi)星圖像揭露日本“出云”級艦艇“航母化”改造最新進展

環(huán)球網(wǎng)資訊
2026-01-18 19:14:49
特朗普寫信給挪威首相:不給我諾獎,就別怪我不和平了

特朗普寫信給挪威首相:不給我諾獎,就別怪我不和平了

觀察者網(wǎng)
2026-01-19 17:42:09
不要在心里養(yǎng)一條毒蛇

不要在心里養(yǎng)一條毒蛇

洞見
2026-01-18 20:38:04
超??ㄩT:77歲被騙光積蓄,83歲仍有性生活,91歲雙腿依舊迷人

超??ㄩT:77歲被騙光積蓄,83歲仍有性生活,91歲雙腿依舊迷人

豐譚筆錄
2025-12-11 11:41:19
《瘋狂動物城2》票房超120億,奪得全球亞軍,《哪吒2》無可撼動

《瘋狂動物城2》票房超120億,奪得全球亞軍,《哪吒2》無可撼動

影視高原說
2026-01-19 19:22:02
77年來首次,歷史性的一幕發(fā)生,德國總理下定決心,必須要去中國

77年來首次,歷史性的一幕發(fā)生,德國總理下定決心,必須要去中國

近史博覽
2026-01-19 14:36:36
0-3出局?各國球迷熱議U23亞洲半決賽,看好越南進決賽,坐等打臉

0-3出局?各國球迷熱議U23亞洲半決賽,看好越南進決賽,坐等打臉

大秦壁虎白話體育
2026-01-20 09:13:37
皇馬要賣了!巴西天王 “已同意” 加盟藍軍,1.5 億歐創(chuàng)隊史紀錄

皇馬要賣了!巴西天王 “已同意” 加盟藍軍,1.5 億歐創(chuàng)隊史紀錄

奶蓋熊本熊
2026-01-20 04:50:06
1000架殲-20和900架殲-16?英國智庫:難以戰(zhàn)勝2030年的中國空軍

1000架殲-20和900架殲-16?英國智庫:難以戰(zhàn)勝2030年的中國空軍

滄海旅行家
2026-01-17 14:05:11
葉文斌,找到了!

葉文斌,找到了!

中國新聞周刊
2026-01-19 15:47:29
唐嫣在國外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時髦?

唐嫣在國外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時髦?

章眽八卦
2026-01-05 12:27:07
當年藥廠抓了譚秦東,但這次西貝不可能抓羅永浩了?

當年藥廠抓了譚秦東,但這次西貝不可能抓羅永浩了?

芳華青年
2026-01-19 20:55:13
丹麥放話不再接受中國投資,不到3天,特朗普反手一記悶棍

丹麥放話不再接受中國投資,不到3天,特朗普反手一記悶棍

阿天愛旅行
2026-01-20 11:07:40
戲子無情!賀嬌龍去世,與她合作過的吳京于適竇驍沒有一個人悼念

戲子無情!賀嬌龍去世,與她合作過的吳京于適竇驍沒有一個人悼念

小娛樂悠悠
2026-01-20 10:30:06
動物交配六親不認,若雄性遇上自己母親呢?馬不欺母是不是真的?

動物交配六親不認,若雄性遇上自己母親呢?馬不欺母是不是真的?

答案在這兒
2025-12-05 01:58:07
扎心了!原來只要失業(yè),所有人都一樣!網(wǎng)友分享越看越心涼 太難了

扎心了!原來只要失業(yè),所有人都一樣!網(wǎng)友分享越看越心涼 太難了

有趣的火烈鳥
2025-12-31 20:39:06
梁小龍生前深愛的兩個女人,一個毀容他不走,一個平淡他守到底

梁小龍生前深愛的兩個女人,一個毀容他不走,一個平淡他守到底

趣味八卦
2026-01-20 10:56:45
春節(jié)檔看《鏢人》,直接統(tǒng)一全家審美

春節(jié)檔看《鏢人》,直接統(tǒng)一全家審美

閑人電影
2026-01-19 20:00:59
亞洲最大的飛機墳場,藏于中國一小縣城里,停放數(shù)量僅次于美國?

亞洲最大的飛機墳場,藏于中國一小縣城里,停放數(shù)量僅次于美國?

顧史
2026-01-19 20:21:12
2026-01-20 12:32:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學家,提供AI領域技術(shù)資訊。
1257文章數(shù) 109關(guān)注度
往期回顧 全部

科技要聞

去年預虧60億后再投百億 兩大車企緊抱華為

頭條要聞

貝克漢姆長子發(fā)長文公開指責父母:試圖破壞我的婚姻

頭條要聞

貝克漢姆長子發(fā)長文公開指責父母:試圖破壞我的婚姻

體育要聞

新的時代!東契奇生涯首奪全明星票王 此前10年詹姆斯7次奪魁

娛樂要聞

貝克漢姆長子發(fā)文決裂:全家都在演戲

財經(jīng)要聞

2026年,7個趨勢正在爆發(fā)

汽車要聞

奇瑞張貴兵:墨甲不做秀技術(shù)的企業(yè) 只做痛點終結(jié)者

態(tài)度原創(chuàng)

教育
手機
藝術(shù)
親子
時尚

教育要聞

揭曉!華中科技大學2025屆畢業(yè)生,都去哪兒了?

手機要聞

消息稱iPhone Air 2因機身厚度限制,可能保留“藥丸屏”或改用側(cè)邊指紋

藝術(shù)要聞

書法圈人士秒認墻上14字,普通人能懂嗎?

親子要聞

什么字呢

碼住抄作業(yè)!春節(jié)見人不翻車就靠這8樣!

無障礙瀏覽 進入關(guān)懷版