国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

谷歌深夜重磅開(kāi)源!深度研究Agent拿下SOTA,比GPT-5 pro便宜90%

0
分享至


智東西
編譯 程茜
編輯 心緣

智東西12月12日消息,今日凌晨,比OpenAI早一個(gè)小時(shí),谷歌甩出了3個(gè)Agent大招:

Deep Research Agent功能更新,并首次向開(kāi)發(fā)者開(kāi)放;開(kāi)源新網(wǎng)絡(luò)研究Agent基準(zhǔn)DeepSearchQA,旨在測(cè)試Agent在網(wǎng)絡(luò)研究任務(wù)中的全面性;推出新交互API(Interactions API)


Gemini Deep Research是一款專為長(zhǎng)期上下文采集和綜合任務(wù)優(yōu)化的Agent,其背后的模型是Gemini 3 Pro,通過(guò)多步強(qiáng)化學(xué)習(xí)的擴(kuò)展搜索,Agent能夠自主地以高精度導(dǎo)航復(fù)雜的信息環(huán)境。此次更新包括針對(duì)特定數(shù)據(jù)進(jìn)行網(wǎng)頁(yè)搜索、更低成本生成研究報(bào)告等。

谷歌DeepMind產(chǎn)品經(jīng)理路卡斯·哈斯(Lukas Haas)在社交平臺(tái)X上透露,新Gemini Deep Research Agent已經(jīng)實(shí)現(xiàn)SOTA,在谷歌新基準(zhǔn)測(cè)試上得分46.4%,在BrowseComp上與GPT-5 Pro相當(dāng),價(jià)格是其1/10左右


Deep Research Agent很快將在谷歌搜索、筆記本、 谷歌金融中提供,并在Gemini應(yīng)用中升級(jí)。

DeepSearchQA內(nèi)置了900個(gè)手工設(shè)計(jì)的“因果鏈”任務(wù),涵蓋17個(gè)領(lǐng)域,可以評(píng)估Agent在復(fù)雜、需要多步查詢信息等任務(wù)上的能力。

交互API作為其與Gemini模型和Agent的統(tǒng)一交互界面,通過(guò)Google AI Studio中的Gemini API公開(kāi)測(cè)試版向開(kāi)發(fā)者開(kāi)放。開(kāi)發(fā)者可以通過(guò)Agent開(kāi)發(fā)套件(ADK)和A2A協(xié)議使用交互API。

有網(wǎng)友評(píng)論,谷歌這是把“一個(gè)數(shù)字版的福爾摩斯交給了開(kāi)發(fā)者”,現(xiàn)在你只需要一邊喝咖啡,一邊就能讓每個(gè)應(yīng)用像寫(xiě)論文一樣展開(kāi)深度調(diào)查。


DeepSearchQA開(kāi)源地址:https://www.kaggle.com/benchmarks/google/dsqa/leaderboard

一、Deep Research Agent:更新網(wǎng)頁(yè)搜索、低成本生成研究報(bào)告功能

谷歌博客稱,Deep Research背后的Gemini 3 Pro模型是他們迄今為止最真實(shí)的模型,該模型經(jīng)過(guò)專門(mén)訓(xùn)練,旨在減少幻覺(jué)并最大化復(fù)雜任務(wù)中的報(bào)告質(zhì)量。

Deep Research通過(guò)迭代式流程運(yùn)行,它會(huì)提出問(wèn)題、閱讀結(jié)果、識(shí)別知識(shí)空白,然后再次進(jìn)行搜索。其新版本大幅提升了網(wǎng)頁(yè)搜索功能,使其能夠深入網(wǎng)站查找特定數(shù)據(jù)。

新Gemini Deep Research Agent在完整HLE測(cè)試中達(dá)到46.4%,Gemini 3 Pro為43.2%,GPT-5 Pro為38.9%。在DeepSearchQA、BrowseComp的測(cè)試中以微小優(yōu)勢(shì)勝出。


谷歌還優(yōu)化了該Agent以更低成本生成深度研究報(bào)告的功能。

Gemini Deep Research Agent已經(jīng)在需要高精度和基于早期反饋、測(cè)試的復(fù)雜領(lǐng)域應(yīng)用,包括金融服務(wù)、生物技術(shù)和市場(chǎng)調(diào)研等行業(yè),這些領(lǐng)域都可以利用Gemini Deep Research完成初步調(diào)研任務(wù)。

對(duì)于構(gòu)建下一代自動(dòng)化研究工具的開(kāi)發(fā)者來(lái)說(shuō),Gemini Deep Research Agent能夠綜合信息并生成詳細(xì)報(bào)告:

統(tǒng)一信息綜合:Gemini Deep Research通過(guò)文件上傳和文件搜索工具分析用戶的文檔和公共網(wǎng)絡(luò)數(shù)據(jù),還能處理長(zhǎng)上下文,允許用戶直接在提示中放置大量背景信息;

報(bào)告可控性:用戶可以通過(guò)提示定義結(jié)構(gòu)、頭部,或指定數(shù)據(jù)表生成和格式來(lái)控制輸出;

詳細(xì)引用:其會(huì)提供細(xì)粒度的來(lái)源,允許用戶驗(yàn)證數(shù)據(jù)來(lái)源;

結(jié)構(gòu)化輸出:支持JSON模式輸出,便于下游應(yīng)用解析研究結(jié)果。

二、DeepSearchQA:新Agent基礎(chǔ),涵蓋17大領(lǐng)域、900條任務(wù)

DeepSearchQA是Deep Research Agent的測(cè)試基準(zhǔn)。

現(xiàn)有基準(zhǔn)測(cè)試往往無(wú)法反映現(xiàn)實(shí)世界多步網(wǎng)絡(luò)研究的復(fù)雜性,谷歌開(kāi)源新基準(zhǔn)DeepSearchQA,是用于評(píng)估Agent在復(fù)雜、需要多步查詢信息等任務(wù)上。

DeepSearchQA有900個(gè)手工設(shè)計(jì)的“因果鏈”任務(wù),涵蓋17個(gè)領(lǐng)域,每一步都依賴于事先分析。與傳統(tǒng)的基于事實(shí)的測(cè)試不同,DeepSearchQA衡量的是全面性,要求Agent生成詳盡的答案集。這不僅評(píng)估研究的準(zhǔn)確性,也包括檢索的記憶能力。

DeepSearchQA還可以作為衡量“思考時(shí)長(zhǎng)”效率的工具。谷歌在內(nèi)部評(píng)估中發(fā)現(xiàn),當(dāng)允許Agent執(zhí)行更多搜索與推理步驟時(shí),其性能會(huì)獲得顯著提升


三、交互API:集成專為Agent應(yīng)用開(kāi)發(fā)設(shè)計(jì)的接口

交互API原生集成了一套專屬接口,該接口專為Agent應(yīng)用開(kāi)發(fā)場(chǎng)景設(shè)計(jì),可高效處理交錯(cuò)式消息、思維鏈、工具調(diào)用及其狀態(tài)信息的復(fù)雜上下文管理工作。除Gemini模型套件外,交互API還提供其首個(gè)內(nèi)置Agent Gemini Deep Research Agent。

下一步,谷歌將擴(kuò)展其內(nèi)置Agent,并提供構(gòu)建和引入其他Agent的功能,這將使開(kāi)發(fā)者能夠通過(guò)一個(gè)API連接Gemini模型、谷歌內(nèi)置Agent和開(kāi)發(fā)者的定制Agent。

交互API提供了一個(gè)單一的RESTful端點(diǎn),用于與模型和Agent交互。

通過(guò)指定模型參數(shù)與模型交互:


通過(guò)指定Agent參數(shù)與Agent互動(dòng),目前支持deep-research-pro-preview-12-2025:


交互API通過(guò)現(xiàn)代Agent應(yīng)用所需的功能擴(kuò)展了生成內(nèi)容的核心功能,包括:

可選的服務(wù)器端狀態(tài):能夠?qū)v史管理卸載到服務(wù)器。這簡(jiǎn)化了開(kāi)發(fā)者的客戶端代碼,減少了上下文管理錯(cuò)誤,并通過(guò)增加緩存命中率可能降低成本。

可解釋和可組合的數(shù)據(jù)模型:一個(gè)為復(fù)雜的Agent歷史設(shè)計(jì)的干凈圖式。開(kāi)發(fā)者可以對(duì)交錯(cuò)的信息、思維、工具及其結(jié)果進(jìn)行調(diào)試、流式分析和推理。

背景執(zhí)行:能夠?qū)㈤L(zhǎng)期運(yùn)行的推理環(huán)路卸載到服務(wù)器,而無(wú)需維護(hù)客戶端連接。

遠(yuǎn)程MCP工具支持:模型可以直接調(diào)用模型上下文協(xié)議(MCP)服務(wù)器作為工具。

結(jié)語(yǔ):Gemini生態(tài)再擴(kuò)容,谷歌簡(jiǎn)化Agent開(kāi)發(fā)模式

目前,Deep Research Agent已經(jīng)在金融、科學(xué)研究等諸多領(lǐng)域有所應(yīng)用。此次谷歌不僅更新了這一Agent,還發(fā)布了交互API,以簡(jiǎn)化與Gemini模型和Agent的交互流程,構(gòu)建更易用的開(kāi)發(fā)生態(tài)。

谷歌博客提到,其未來(lái)的更新還將聚焦于更豐富的輸出,如原生生成圖表以支持可視化分析報(bào)告,以及通過(guò)模型上下文協(xié)議(MCP)支持?jǐn)U展連接性,更輕松地訪問(wèn)自定義數(shù)據(jù)源,并努力將Gemini Deep Research引入企業(yè)用的Vertex AI。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
韓媒:徐正源原本已自動(dòng)激活續(xù)約條件,但最終其主動(dòng)放棄續(xù)約

韓媒:徐正源原本已自動(dòng)激活續(xù)約條件,但最終其主動(dòng)放棄續(xù)約

懂球帝
2025-12-19 11:25:47
力壓梅西!孫興慜獲美職聯(lián)賽季最佳!

力壓梅西!孫興慜獲美職聯(lián)賽季最佳!

足球王國(guó)
2025-12-18 16:17:57
內(nèi)娛瞧不上的,又被韓國(guó)拍成了網(wǎng)飛第一

內(nèi)娛瞧不上的,又被韓國(guó)拍成了網(wǎng)飛第一

獨(dú)立魚(yú)
2025-12-18 22:17:46
澳門(mén)這晚,陳偉霆的斗篷,吳尊的緊身褲,全敗給兩個(gè)70歲“老頭”

澳門(mén)這晚,陳偉霆的斗篷,吳尊的緊身褲,全敗給兩個(gè)70歲“老頭”

大鐵貓娛樂(lè)
2025-12-15 14:47:15
小鵬汽車(chē)法務(wù)部:已報(bào)案

小鵬汽車(chē)法務(wù)部:已報(bào)案

每日經(jīng)濟(jì)新聞
2025-12-18 14:52:26
南京博物院《江南春》名畫(huà)被6800元出售,曾有兩任館長(zhǎng)離奇自殺

南京博物院《江南春》名畫(huà)被6800元出售,曾有兩任館長(zhǎng)離奇自殺

Mr王的飯后茶
2025-12-19 09:29:15
CBA最新消息!沈梓捷第一階段報(bào)銷(xiāo),曾凡博正式回歸北京首鋼

CBA最新消息!沈梓捷第一階段報(bào)銷(xiāo),曾凡博正式回歸北京首鋼

體壇瞎白話
2025-12-19 08:11:27
吃他汀,一顆花生不能碰?再次提醒:這5種食物也要小心

吃他汀,一顆花生不能碰?再次提醒:這5種食物也要小心

華醫(yī)網(wǎng)
2025-12-19 05:41:20
別讓“不爽”毀了你的婚姻:夫妻生活和諧的5個(gè)信號(hào),你中了嗎?

別讓“不爽”毀了你的婚姻:夫妻生活和諧的5個(gè)信號(hào),你中了嗎?

精彩分享快樂(lè)
2025-12-19 11:30:19
新加坡估計(jì)怎么也想不通一覺(jué)醒來(lái),家門(mén)口的海南釜底抽薪

新加坡估計(jì)怎么也想不通一覺(jué)醒來(lái),家門(mén)口的海南釜底抽薪

忠于法紀(jì)
2025-12-12 09:14:49
三上悠亞、水卜櫻、淺野心、小澤菜穗、川越仁子 日美女明星動(dòng)態(tài)

三上悠亞、水卜櫻、淺野心、小澤菜穗、川越仁子 日美女明星動(dòng)態(tài)

鹿鹿156
2025-12-19 10:36:13
這樣清爽的打扮才適合我們普通模仿

這樣清爽的打扮才適合我們普通模仿

牛彈琴123456
2025-12-19 10:31:53
21號(hào)就是冬至了!為什么說(shuō)今年的冬至可不一般,60年一遇?

21號(hào)就是冬至了!為什么說(shuō)今年的冬至可不一般,60年一遇?

阿天愛(ài)旅行
2025-12-17 00:16:32
超過(guò)劉國(guó)梁,又升級(jí),擔(dān)任乒羽中心副主任,王勵(lì)勤級(jí)別年薪如何?

超過(guò)劉國(guó)梁,又升級(jí),擔(dān)任乒羽中心副主任,王勵(lì)勤級(jí)別年薪如何?

籃球看比賽
2025-12-19 11:35:54
膨大劑是什么東西,打過(guò)膨大劑的紅薯花生,究竟有沒(méi)有毒?

膨大劑是什么東西,打過(guò)膨大劑的紅薯花生,究竟有沒(méi)有毒?

半解智士
2025-12-17 18:36:39
這下好了!連權(quán)威黨刊半月談都下場(chǎng)證實(shí),孫穎莎的人品火到國(guó)外

這下好了!連權(quán)威黨刊半月談都下場(chǎng)證實(shí),孫穎莎的人品火到國(guó)外

番茄娛樂(lè)加
2025-12-19 10:44:20
突發(fā)!2.4萬(wàn)億資金,突然“消失”!黑天鵝來(lái)襲?

突發(fā)!2.4萬(wàn)億資金,突然“消失”!黑天鵝來(lái)襲?

證券時(shí)報(bào)
2025-12-19 08:17:05
王志文:不要對(duì)水平太低的人太好,認(rèn)知水平越低,越不懂你的好

王志文:不要對(duì)水平太低的人太好,認(rèn)知水平越低,越不懂你的好

杏花煙雨江南的碧園
2025-12-03 13:10:03
鹿晗、關(guān)曉彤“靜默式”分手藏著多少秘密

鹿晗、關(guān)曉彤“靜默式”分手藏著多少秘密

阿訊說(shuō)天下
2025-12-19 11:50:04
日本突然加息!全球股市震蕩,我們會(huì)如何?

日本突然加息!全球股市震蕩,我們會(huì)如何?

說(shuō)財(cái)貓
2025-12-19 11:37:26
2025-12-19 12:44:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
10938文章數(shù) 116929關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

媒體:美方官宣史上對(duì)臺(tái)單筆最大軍售 野心藏不住了

頭條要聞

媒體:美方官宣史上對(duì)臺(tái)單筆最大軍售 野心藏不住了

體育要聞

沒(méi)有塔圖姆,還有塔禿姆

娛樂(lè)要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無(wú)期

汽車(chē)要聞

最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬(wàn)

態(tài)度原創(chuàng)

藝術(shù)
手機(jī)
本地
公開(kāi)課
軍事航空

藝術(shù)要聞

諸樂(lè)三的寫(xiě)意花鳥(niǎo)

手機(jī)要聞

蘋(píng)果客服回應(yīng)“內(nèi)存用完致iPhone損壞”:建議及時(shí)清理并備份數(shù)據(jù)

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

福建艦入列后首過(guò)臺(tái)海 臺(tái)方談為何"甲板上沒(méi)有艦載機(jī)"

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版