国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌最新版「深度研究」反擊GPT-5.2

0
分享至


新智元報道

編輯:定慧

【新智元導(dǎo)讀】谷歌和OpenAI現(xiàn)在是針尖對麥芒!現(xiàn)在兩家公司是用各種新產(chǎn)品互相炮轟對方。

而在GPT-5.2發(fā)布前一個多小時,谷歌就率先推出全新版Gemini Deep Research Agent。


谷歌對Gemini深度研究進(jìn)行了重新構(gòu)想,使其比以往任何時候都更加強(qiáng)大。

  • 新版Deep Research Agent基于Gemini 3 Pro構(gòu)建;

  • 通過多步強(qiáng)化學(xué)習(xí)訓(xùn)練,提高準(zhǔn)確性并減少幻覺;

  • 它能夠處理海量上下文,并提供引用來源驗證提出的每一個觀點。


除了Deep Research Agent功能更新,還放出了另外兩項全新能力:

  • 開源新網(wǎng)絡(luò)研究Agent基準(zhǔn)DeepSearchQA,驗證智能體在網(wǎng)絡(luò)研究任務(wù)中的全面性;

  • 推出交互APIInteractions API)。

雖然GPT-5.2剛剛發(fā)布無法對比,但谷歌DeepMind產(chǎn)品經(jīng)理路Lukas Haas在社交平臺X上透露:


最新版Gemini Deep Research Agent在谷歌新基準(zhǔn)測試上得分46.4%,在BrowseComp上與GPT-5 Pro相當(dāng),價格卻低了一個數(shù)量級。


深度研究,更「深度」了

Gemini Deep Research是一款專為長時間上下文收集與綜合任務(wù)優(yōu)化的智能體。

該智能體的推理核心采用迄今為止最具事實準(zhǔn)確性的Gemini 3 Pro模型,并經(jīng)過專門訓(xùn)練,以在復(fù)雜任務(wù)中減少幻覺生成并最大化報告質(zhì)量。

通過擴(kuò)展多步強(qiáng)化學(xué)習(xí)在搜索中的應(yīng)用,該智能體能夠以高精度自主駕馭復(fù)雜的信息環(huán)境。


Gemini Deep Research在完整Humanity's Last Exam(HLE)測試集中達(dá)到46.4%的領(lǐng)先水平,在DeepSearchQA上取得66.1%的優(yōu)異成績,并在BrowseComp測試中獲得59.2%的高分表現(xiàn)。

DeepResearch采用迭代式研究規(guī)劃機(jī)制——它會制定查詢、閱讀結(jié)果、識別知識缺口并再次搜索。

本次版本大幅改進(jìn)了網(wǎng)絡(luò)搜索功能,使其能夠深入網(wǎng)站獲取特定數(shù)據(jù)。

該智能體經(jīng)過優(yōu)化,能夠以更低成本生成經(jīng)過充分研究的報告。

不同于傳統(tǒng)的聊天機(jī)器人(Chatbot),Deep Research被設(shè)計為一個長時程運(yùn)行的系統(tǒng),其核心競爭力在于處理「非即時性」的復(fù)雜任務(wù)。

簡單聊聊深度研究

深度研究,算是日常使用AI工具中,最高頻的功能了。

畢竟每個月20美元,就能享受到多次「博士級」的服務(wù),何樂而不為。

我的觀點就是,深度研究是普通人最能降維打擊知識服務(wù)的AI工具。


Deep Research,這一類深度研究的智能并非源于單一模型的暴力計算,而是源于其復(fù)雜的智能體工作流(Agentic Workflow)。

該工作流模擬了人類專家在面對陌生領(lǐng)域時的認(rèn)知行為,主要包含規(guī)劃、執(zhí)行、推理與報告四個閉環(huán)階段。


當(dāng)用戶提交一個模糊的宏觀指令(例如「分析2030年量子傳感器的商業(yè)化路徑」)時,DeepResearch首先啟動的是其規(guī)劃模塊。

基于Gemini 3 Pro強(qiáng)大的推理能力,系統(tǒng)不會立即進(jìn)行搜索,而是通過「后退一步提示」技術(shù),將這一宏觀問題拆解為多個子維度的研究路徑,如技術(shù)成熟度、供應(yīng)鏈瓶頸、政策監(jiān)管環(huán)境及主要競爭對手分析。

這一規(guī)劃過程是動態(tài)的。在傳統(tǒng)的鏈?zhǔn)剿季S中,路徑往往是線性的;而在DeepResearch中,規(guī)劃樹是可擴(kuò)展的。

如果在初步搜索中發(fā)現(xiàn)了未預(yù)見的新概念,系統(tǒng)會實時修改研究計劃,增加新的分支進(jìn)行深入挖掘。

DeepSearchQA:深度研究智能體的基準(zhǔn)測試

在上面的基準(zhǔn)測試中,你應(yīng)該注意到一個叫做DeepSearchQA。

這就是谷歌專門針對深度研究智能體開發(fā)的測試基準(zhǔn),一個用于評估智能體在復(fù)雜多步驟信息檢索任務(wù)表現(xiàn)的全新基準(zhǔn)。

DeepSearchQA包含涵蓋17個領(lǐng)域的900項人工設(shè)計的因果鏈任務(wù),其中每個步驟都依賴于先前的分析。

與傳統(tǒng)基于事實的測試不同,DeepSearchQA通過要求智能體生成詳盡答案集來評估研究完整性,同時檢驗研究精確度與信息召回能力。

DeepSearchQA還可作為思考時間效益的診斷工具。

在內(nèi)部評估中,谷歌發(fā)現(xiàn)當(dāng)允許智能體執(zhí)行更多搜索和推理步驟時,其性能獲得顯著提升。


對比pass@8與pass@1的結(jié)果,證明了讓智能體通過并行探索多條軌跡進(jìn)行答案驗證的價值。

這些結(jié)果基于DeepSearchQA的200個提示子集計算得出。

交互API:專為Agent應(yīng)用開發(fā)設(shè)計


交互API原生集成了一套專屬接口,該接口專為Agent應(yīng)用開發(fā)場景設(shè)計,可高效處理交錯式消息、思維鏈、工具調(diào)用及其狀態(tài)信息的復(fù)雜上下文管理工作。

Gemini模型套件外,交互API還提供其首個內(nèi)置Gemini Deep Research Agent。

下一步,谷歌將擴(kuò)展其內(nèi)置Agent,并提供構(gòu)建和引入其他Agent的功能,這將使開發(fā)者能夠通過一個API連接Gemini模型、谷歌內(nèi)置Agent和開發(fā)者的定制Agent

交互API提供了一個單一的RESTful端點,用于與模型和Agent交互。

Interactions API擴(kuò)展了generateContent的核心功能,為現(xiàn)代智能體應(yīng)用提供所需特性,包括:

  • 可選服務(wù)器端狀態(tài):將歷史記錄管理卸載到服務(wù)器的能力。這簡化了客戶端代碼,減少上下文管理錯誤,并可能通過提高緩存命中率來降低成本。

  • 可解釋且可組合的數(shù)據(jù)模型:專為復(fù)雜智能體歷史記錄設(shè)計的清晰架構(gòu)。您可以對交錯排列的消息、思考過程、工具及其結(jié)果進(jìn)行調(diào)試、操作、流式處理和邏輯推理。

  • 后臺執(zhí)行:無需維持客戶端連接,即可將長時間運(yùn)行的推理循環(huán)卸載到服務(wù)器端的能力。

  • 遠(yuǎn)程MCP工具支持:模型可直接調(diào)用模型上下文協(xié)議(MCP)服務(wù)器作為工具。

隨著InteractionsAPI的推出,Google試圖重新定義開發(fā)者構(gòu)建AI應(yīng)用的方式,從「無狀態(tài)的請求-響應(yīng)」模式轉(zhuǎn)向「有狀態(tài)的智能體交互」模式。

目前的LLM API大多是無狀態(tài)的。開發(fā)者必須在客戶端維護(hù)整個對話歷史,并在每次請求時將數(shù)萬token的上下文發(fā)送回服務(wù)器。

這不僅增加了延遲和帶寬成本,還使得構(gòu)建復(fù)雜的、多步驟的Agent變得異常繁瑣。

Interactions API引入了服務(wù)器端狀態(tài)管理。

開發(fā)者只需通過/interactions端點創(chuàng)建一個會話,Google的服務(wù)器就會自動維護(hù)該會話的所有上下文、工具調(diào)用結(jié)果以及Agent的內(nèi)部思維狀態(tài)。

這才是我認(rèn)為谷歌這個最新API恐怖的地方。

Interactions API最革命性的特性在于它允許開發(fā)者直接調(diào)用谷歌預(yù)訓(xùn)練的高級Agent,而不僅僅是基礎(chǔ)模型。

比如開發(fā)者可以通過簡單的API調(diào)用(指定agent=deep-research-pro-preview-12-2025)將Google最頂尖的研究能力嵌入到自己的ERP、CRM或科研軟件中。

考慮到DeepResearch一次任務(wù)可能消耗數(shù)十萬token的閱讀量和生成量,單次深度研究的成本可能達(dá)到數(shù)美元。

然而,與其替代的人類初級分析師數(shù)小時甚至數(shù)天的工作成本相比,這一價格仍具有極高的投資回報率。

DeepMind與英國政府達(dá)成合作

最后,還有一個消息值得注意。

在谷歌和OpenAI打生打死意外,谷歌DeepMIind已經(jīng)在國家層面,展開合作。

DeepMind作為誕生于倫敦的AI巨頭,正在通過DeepResearch及其底層技術(shù),與英國政府展開一場規(guī)??涨暗摹窤I治國」實驗。


這一合作不僅涉及科學(xué)探索,更深入到公共行政的毛細(xì)血管,特別是在解決英國長期存在的住房危機(jī)和規(guī)劃效率低下問題上取得了突破性進(jìn)展。

Project Extract:破解城市規(guī)劃的「數(shù)據(jù)孤島」

英國的城市規(guī)劃系統(tǒng)(Planning System)長期以來被視為阻礙經(jīng)濟(jì)增長和住房建設(shè)的瓶頸。

每年,地方議會需要處理約35萬份規(guī)劃申請,而大量的歷史規(guī)劃檔案仍以紙質(zhì)、掃描PDF或手繪地圖的形式存在。

規(guī)劃師往往需要花費(fèi)數(shù)小時在一個布滿灰塵的檔案中尋找?guī)资昵皠澏ǖ牡叵鹿芫€或保護(hù)區(qū)邊界。


為了解決這一痛點,DeepMind與英國政府AI孵化器(i.AI)合作開發(fā)了Extract工具。

這不是一個簡單的OCR軟件,而是一個基于Gemini多模態(tài)推理能力的復(fù)雜地理空間智能系統(tǒng)。


  1. 非結(jié)構(gòu)化信息理解:

    Extract首先利用Gemini的視覺語言能力讀取低質(zhì)量的掃描文檔。它不僅能識別文字,還能理解手寫注釋的語義(例如,識別旁注中的「批準(zhǔn)日期」而非「申請日期」),其日期識別準(zhǔn)確率達(dá)到了94%。

  2. 視覺推理與多邊形提取:

    這是最核心的技術(shù)突破。Gemini能夠理解地圖上的視覺符號語言,例如區(qū)分「紅色實線」代表的產(chǎn)權(quán)邊界和「藍(lán)色虛線」代表的排水渠。一旦識別出目標(biāo)區(qū)域,系統(tǒng)會調(diào)用OpenCVSAM等計算機(jī)視覺工具,像數(shù)字手術(shù)刀一樣精確地從像素圖像中提取出地理多邊形,其形狀匹配度(IoU)達(dá)到了90%。

  3. 時空特征匹配:

    歷史地圖的比例尺和參照系往往與現(xiàn)代衛(wèi)星地圖不同。Extract利用LoFTR算法,能夠在舊地圖和現(xiàn)代地圖之間找到共同的特征點(如古老的教堂、路口),計算出精確的變換矩陣,將幾十年前的手繪紅線精確映射到今天的數(shù)字地圖坐標(biāo)系中。

  4. 全流程自動化:

    通過這一流程,Extract將一份復(fù)雜規(guī)劃文檔的處理時間從平均2小時壓縮至40秒到3分鐘。這意味著一個地方議會每天可以數(shù)字化處理上百份積壓檔案,效率提升了百倍。


目前,Extract已在威斯敏斯特(Westminster)、希靈登(Hillingdon)等四個地區(qū)進(jìn)行試點。

英國政府計劃在2026年春季將其推廣至全國所有地方議會。

這不僅將釋放數(shù)千小時的行政人力,更重要的是,它將構(gòu)建一個全國統(tǒng)一的數(shù)字規(guī)劃數(shù)據(jù)庫,為英國政府承諾的「建設(shè)150萬套新住房」計劃提供數(shù)據(jù)底座。

這是DeepResearch技術(shù)在垂直領(lǐng)域應(yīng)用的最佳范例——將通用的多模態(tài)推理能力轉(zhuǎn)化為具體的行政生產(chǎn)力。

科學(xué)新基建:從AlphaFold到自動化材料實驗室

在基礎(chǔ)科學(xué)領(lǐng)域,DeepMind與英國政府的合作旨在通過AI加速科學(xué)發(fā)現(xiàn)的飛輪效應(yīng)。

DeepMind宣布將于2026年在英國建立其首個自動化AI科學(xué)實驗室。

  • 閉環(huán)發(fā)現(xiàn)系統(tǒng):實驗室將運(yùn)行一個由Gemini和GNoME(Graph Networks for Materials Exploration)驅(qū)動的閉環(huán)系統(tǒng)。AI負(fù)責(zé)基于量子化學(xué)原理設(shè)計新的晶體結(jié)構(gòu),預(yù)測其穩(wěn)定性。

  • 機(jī)器人合成:這些設(shè)計指令直接發(fā)送給全自動化的機(jī)器人平臺,機(jī)器人負(fù)責(zé)配料、合成、燒結(jié)和測試。

  • 數(shù)據(jù)反饋:實驗結(jié)果實時反饋給AI,用于修正下一輪的預(yù)測。目標(biāo)是將新材料(如室溫超導(dǎo)體、高效電池電解質(zhì))的發(fā)現(xiàn)周期從數(shù)十年縮短至數(shù)月甚至數(shù)天。這一舉措直接服務(wù)于英國的凈零排放(NetZero)戰(zhàn)略和能源安全。

除了硬件實驗室,DeepMind還向英國科學(xué)家開放了一系列前沿AI模型:

國家安全與數(shù)字免疫系統(tǒng)

在安全領(lǐng)域,合作重點從「進(jìn)攻性能力」轉(zhuǎn)向了「防御性韌性」。

DeepMind與英國AI安全研究所(UKAI Security Institute)合作,部署了基于DeepResearch技術(shù)的網(wǎng)絡(luò)防御工具。

  • BigSleep(原Project Naptime):這是一個利用LLM在大規(guī)模代碼庫中尋找潛伏漏洞的智能體。它曾成功在SQLite等核心開源基礎(chǔ)設(shè)施中發(fā)現(xiàn)了人類專家未能察覺的內(nèi)存安全漏洞。

  • Code Mender:與BigSleep配合,不僅發(fā)現(xiàn)漏洞,還能自動生成修復(fù)代碼補(bǔ)丁。這一套「發(fā)現(xiàn)-修復(fù)」的自動化閉環(huán),旨在為英國的國家關(guān)鍵信息基礎(chǔ)設(shè)施(CII)構(gòu)建一套實時的「數(shù)字免疫系統(tǒng)」,抵御日益復(fù)雜的網(wǎng)絡(luò)攻擊。

以上就是谷歌這次針對GPT 5.2的更新內(nèi)容。

個人認(rèn)為谷歌目前還是最強(qiáng)的。

雖然昨夜GPT 5.2閃擊Gemini 3成功,但是在多模態(tài)能力依然還是稍微落后的,或者在年底會有一個對標(biāo)Nano Banana Pro的產(chǎn)品出現(xiàn)。

而且從最新的深度研究智能體來看,以及DeepMind在英國的深度戰(zhàn)略布局,谷歌更加領(lǐng)先一步。

這種領(lǐng)先性向我們展示了AI技術(shù)發(fā)展的一個清晰圖景:

通用人工智能(AGI)的雛形正在從對話框中走出,演變?yōu)槟軌蚋兄⒁?guī)劃并改變物理與數(shù)字世界的智能體。

參考資料:

https://blog.google/technology/developers/deep-research-agent-gemini-api/

https://x.com/GoogleDeepMind/status/1999165701811015990

https://deepmind.google/blog/strengthening-our-partnership-with-the-uk-government-to-support-prosperity-and-security-in-the-ai-era/

秒追ASI

?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
16歲少女被父親過度溺愛,母親意外撞見不雅的一幕,最終釀成慘劇

16歲少女被父親過度溺愛,母親意外撞見不雅的一幕,最終釀成慘劇

林林故事揭秘
2024-11-29 18:38:13
婚姻法新規(guī):非夫妻關(guān)系的男女自愿同居,如果被查到了...

婚姻法新規(guī):非夫妻關(guān)系的男女自愿同居,如果被查到了...

譚老師地理大課堂
2025-12-09 18:24:33
33+9+9!弗拉格正式進(jìn)化!三狀元合體倒計時

33+9+9!弗拉格正式進(jìn)化!三狀元合體倒計時

籃球教學(xué)論壇
2025-12-24 18:37:41
南京博物院越撕越深 當(dāng)年借畫不還的老領(lǐng)導(dǎo)太壞了

南京博物院越撕越深 當(dāng)年借畫不還的老領(lǐng)導(dǎo)太壞了

原某報記者
2025-12-22 22:09:34
兩個拼車的人竟然親上了!盤點生活中那些有趣又尷尬的經(jīng)歷

兩個拼車的人竟然親上了!盤點生活中那些有趣又尷尬的經(jīng)歷

夜深愛雜談
2025-12-19 17:11:55
俄羅斯對美烏“和平計劃”提出修改方案,要求重點條件必須達(dá)成

俄羅斯對美烏“和平計劃”提出修改方案,要求重點條件必須達(dá)成

清濱酒客
2025-12-25 04:51:32
日本徹底目瞪口呆,美國也完全難以置信,遼寧已成全球矚目中心

日本徹底目瞪口呆,美國也完全難以置信,遼寧已成全球矚目中心

文雅筆墨
2025-12-20 10:57:51
晚年張震將軍與家人的合影,百歲高齡得知兒子去世,63天后也逝世

晚年張震將軍與家人的合影,百歲高齡得知兒子去世,63天后也逝世

史之銘
2025-12-24 19:29:38
離譜!楊書記為何敢直接拿走博物館的瓷花瓶?

離譜!楊書記為何敢直接拿走博物館的瓷花瓶?

仕道
2025-12-22 09:20:15
重錘!武漢又一小區(qū)要拆了!

重錘!武漢又一小區(qū)要拆了!

越喬
2025-12-24 22:52:06
英國首富、戴森公司創(chuàng)始人將6.24億英鎊轉(zhuǎn)至新加坡,其英國實體股本被削減至1英鎊

英國首富、戴森公司創(chuàng)始人將6.24億英鎊轉(zhuǎn)至新加坡,其英國實體股本被削減至1英鎊

紅星新聞
2025-12-24 21:58:21
你碰到過哪些玄學(xué)事件?網(wǎng)友:大小慎看,會顛覆你的認(rèn)知和三觀!

你碰到過哪些玄學(xué)事件?網(wǎng)友:大小慎看,會顛覆你的認(rèn)知和三觀!

解讀熱點事件
2025-11-25 00:20:03
里奇·保羅承認(rèn)本季與湖人詹姆斯存分歧,但他稱是詹姆斯應(yīng)得的

里奇·保羅承認(rèn)本季與湖人詹姆斯存分歧,但他稱是詹姆斯應(yīng)得的

好火子
2025-12-25 05:11:45
江蘇新誕生一座中型機(jī)場

江蘇新誕生一座中型機(jī)場

魯中晨報
2025-12-24 17:32:07
史上最荒唐謀反:北齊高湛費(fèi)盡心機(jī)籌備造反,誰知皇位本就是他的

史上最荒唐謀反:北齊高湛費(fèi)盡心機(jī)籌備造反,誰知皇位本就是他的

磊子講史
2025-12-23 20:02:26
弘一法師:少跟孩子生氣,孩子投胎到你家,有這幾種原因

弘一法師:少跟孩子生氣,孩子投胎到你家,有這幾種原因

木言觀
2025-12-23 18:35:55
在鋼鐵與夢想之間:一名女銷售的無聲敘事

在鋼鐵與夢想之間:一名女銷售的無聲敘事

疾跑的小蝸牛
2025-12-24 13:31:39
挺著七個月孕肚跪雪地作畫,繼子女喊“梅媽媽”,撕碎了后媽劇本

挺著七個月孕肚跪雪地作畫,繼子女喊“梅媽媽”,撕碎了后媽劇本

做一個合格的吃瓜群眾
2025-12-23 19:02:01
A股:剛剛,央行,商務(wù)部釋放王炸,兩大信號定調(diào),周四要有新變化

A股:剛剛,央行,商務(wù)部釋放王炸,兩大信號定調(diào),周四要有新變化

云鵬敘事
2025-12-25 00:00:05
起底南博院長徐湖平,我發(fā)現(xiàn)幾件趣事

起底南博院長徐湖平,我發(fā)現(xiàn)幾件趣事

亮見
2025-12-23 15:19:40
2025-12-25 05:55:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14175文章數(shù) 66395關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財經(jīng)要聞

北京進(jìn)一步放松限購 滬深是否會跟進(jìn)?

汽車要聞

“運(yùn)動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
本地
教育
公開課

藝術(shù)要聞

William Whitaker作品精選 | 美國當(dāng)代畫家

房產(chǎn)要聞

硬核!央企??谝痪€江景頂流紅盤,上演超預(yù)期交付!

本地新聞

云游安徽|一川江水潤安慶,一塔一戲一城史

教育要聞

誰說初中三年可以逆風(fēng)翻盤?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版