国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

系統(tǒng)學(xué)習(xí)Deep Research,這一篇綜述就夠了

0
分享至



近年來,大模型的應(yīng)用正從對話與創(chuàng)意寫作,走向更加開放、復(fù)雜的研究型問題。盡管以檢索增強(qiáng)生成(RAG)為代表的方法緩解了知識獲取瓶頸,但其靜態(tài)的 “一次檢索 + 一次生成” 范式,難以支撐多步推理與長期研究流程,由此催生了 Deep Research(DR)這一新方向。

然而,隨著相關(guān)工作的快速涌現(xiàn),DR的概念也在迅速膨脹并趨于碎片化:不同工作在系統(tǒng)實現(xiàn)、任務(wù)假設(shè)與評價上差異顯著;相似術(shù)語的使用進(jìn)一步模糊了其能力邊界。

正是在這一背景下,來自山東大學(xué)、清華大學(xué)、CMU、UIUC、騰訊、萊頓大學(xué)等機(jī)構(gòu)共同撰寫并發(fā)布了目前最全面的深度研究智能體綜述《Deep Research: A Systematic Survey》。文章首先提出一條由淺入深的三階段能力發(fā)展路徑,隨后從系統(tǒng)視角系統(tǒng)化梳理關(guān)鍵組件,并進(jìn)一步總結(jié)了對應(yīng)的訓(xùn)練與優(yōu)化方法。



  • GitHub:https://github.com/mangopy/Deep-Research-Survey
  • Website:https://deep-research-survey.github.io/
  • 論文地址:https://deep-research-survey.github.io/static/doc/Deep-Research-Survey.pdf

什么是 Deep Research

DR 并非某一具體模型或技術(shù),而是一條逐步演進(jìn)的能力路徑。綜述刻畫了研究型智能體從信息獲取到完整科研流程的能力提升過程;趯ΜF(xiàn)有工作的梳理,可將這一演進(jìn)劃分為三個階段。

階段 1:「Agentic Search」。模型開始具備主動搜索與多步信息獲取能力,能夠根據(jù)中間結(jié)果動態(tài)調(diào)整查詢策略,其核心目標(biāo)在于持續(xù)地找對關(guān)鍵信息。這一階段關(guān)注的是如何高效獲取外界信息。

階段 2:「Integrated Research」。模型不再只是信息的收集者,而是能夠?qū)Χ嘣醋C據(jù)進(jìn)行理解、篩選和整合,最終生成邏輯連貫的報告。

階段 3:「Full-stack AI Scientist」。模型進(jìn)一步擴(kuò)展到完整的科研閉環(huán),具備提出研究假設(shè)、設(shè)計并執(zhí)行實驗,以及基于結(jié)果進(jìn)行反思與修正的能力。這一階段強(qiáng)調(diào)的不僅是推理深度,更是自主性與長期目標(biāo)驅(qū)動的科研能力。



Deep Research 的四大核心組件



1. 查詢規(guī)劃

查詢規(guī)劃主要負(fù)責(zé)在當(dāng)前狀態(tài)下,決定下一步應(yīng)該查詢什么信息。具體分為三類規(guī)劃策略:

  • 順序規(guī)劃,將復(fù)雜問題拆解為線性的子問題序列,模型根據(jù)前一步的檢索結(jié)果逐步推進(jìn),適用于依賴關(guān)系明確的研究任務(wù)。
  • 并行規(guī)劃,同時生成多個相對獨(dú)立的子查詢,用于加速搜索或降低單一搜索路徑帶來的信息缺失。
  • 樹狀規(guī)劃,顯式建模子問題之間的層級與分支關(guān)系,允許模型在研究過程中進(jìn)行探索與回溯。

相比傳統(tǒng) RAG 中一次性生成查詢的做法,DR 將 “如何提問” 本身納入推理過程,使模型能夠在多輪研究中動態(tài)調(diào)整推理路徑。



2. 信息獲取

論文從三個維度對現(xiàn)有的信息獲取方法進(jìn)行歸納。

(1)何時檢索:不同于固定步數(shù)或每輪必檢索的策略,DR 智能體需要根據(jù)當(dāng)前不確定性與信息缺口,動態(tài)判斷是否觸發(fā)檢索,以避免冗余查詢或過早依賴外部信息。

(2)檢索什么: 在確定檢索時機(jī)后,從 Web 或外界知識庫中做檢索,包括多模態(tài)和純文本信息。

(3)如何過濾檢索信息:面對噪聲較高的檢索結(jié)果,系統(tǒng)通常引入相關(guān)性判斷、一致性校驗或證據(jù)聚合機(jī)制,對外部信息進(jìn)行篩選與整合。

3. 記憶管理

在開放任務(wù)中,智能體往往需要跨越多輪交互、多個子問題與不同信息源。記憶模塊是支撐 DR 系統(tǒng)長期運(yùn)行與持續(xù)推理的核心基礎(chǔ)設(shè)施,為系統(tǒng)提供狀態(tài)延續(xù)和經(jīng)驗累積,使模型能夠使用長期長線推理任務(wù)。現(xiàn)有工作通常將記憶管理過程拆解為四個相互關(guān)聯(lián)的階段:記憶鞏固、記憶索引、記憶更新與記憶遺忘。



4. 答案生成

與傳統(tǒng)生成任務(wù)不同,DR 場景的問答更強(qiáng)調(diào)結(jié)論與證據(jù)之間的對應(yīng)關(guān)系,以及整體論證過程的邏輯一致性。因此,通常需要智能體顯式整合多源證據(jù)與中間推理結(jié)果,使輸出不僅在語言層面連貫,還能夠支持事實核驗與過程回溯。



如何訓(xùn)練與優(yōu)化 Deep Research 系統(tǒng)?

文中總結(jié)了三類具有代表性的方法:

提示工程:通過精心設(shè)計的多步提示構(gòu)建研究流程,引導(dǎo)模型執(zhí)行規(guī)劃、檢索與生成等步驟,適合快速構(gòu)建原型。其效果高度依賴提示設(shè)計,泛化能力有限。

監(jiān)督微調(diào):利用高質(zhì)量推理軌跡,對智能體進(jìn)行監(jiān)督微調(diào)。該方法直觀有效,但獲取覆蓋復(fù)雜研究行為的標(biāo)注數(shù)據(jù)成本較高。

智能體強(qiáng)化學(xué)習(xí): 通過強(qiáng)化學(xué)習(xí)信號直接優(yōu)化 DR 智能體在多步?jīng)Q策過程中的行為策略,無需復(fù)雜人工標(biāo)注。主要細(xì)分為兩種做法:

  • 端到端優(yōu)化:輸入到輸出的完整決策過程,聯(lián)合優(yōu)化查詢規(guī)劃、檢索、信息整合與報告生成等多個環(huán)節(jié)。這種方式有助于智能體學(xué)會協(xié)調(diào)各個模塊,但是面臨獎勵稀疏、訓(xùn)練不穩(wěn)定以及采樣成本高等問題。
  • 優(yōu)化特定模塊:僅對查詢規(guī)劃或調(diào)度等關(guān)鍵模塊施加強(qiáng)化學(xué)習(xí)信號。在保持系統(tǒng)其他模塊穩(wěn)定性的同時,學(xué)習(xí)何時檢索、如何推理等單一策略。這種模塊化訓(xùn)練顯著降低了訓(xùn)練難度,更易于在現(xiàn)有系統(tǒng)中落地。

Deep Research 真正難在哪里?

Deep Research 的核心挑戰(zhàn)并不在于單一能力的提升,而在于如何在長期、開放且不確定的研究流程中,實現(xiàn)穩(wěn)定、可控且可評估的系統(tǒng)級行為,F(xiàn)有工作主要面臨以下幾方面的關(guān)鍵難題。

(1)內(nèi)部知識與外部知識的協(xié)同: 研究型智能體需要在自身參數(shù)化知識與外部檢索信息之間做出動態(tài)權(quán)衡,即在何時依賴內(nèi)部推理、何時調(diào)用搜索工具。

(2)訓(xùn)練算法的穩(wěn)定性:面向長線任務(wù)的訓(xùn)練往往依賴強(qiáng)化學(xué)習(xí)等方法,但優(yōu)化過程中容易出現(xiàn)策略退化或熵坍縮等問題,使智能體過早收斂到次優(yōu)行為模式,限制其探索多樣化的推理路徑。

(3)評估方法的構(gòu)建: 如何合理評估研究型智能體仍是開放問題。綜述系統(tǒng)梳理了現(xiàn)有 benchmark。



盡管相關(guān)數(shù)據(jù)集不斷涌現(xiàn),構(gòu)建可靠且高效的評估方法仍有待深入探索,尤其是在開放式任務(wù)中如何對 report-level 的模型輸出進(jìn)行全面評估。當(dāng)前廣泛采用的 LLM-as-a-judge 范式在實踐中展現(xiàn)出便利性,但仍不可避免地受到順序偏差,偏好 hacking 等問題的影響,限制了其作為測評方法的可靠性。

(4)記憶模塊的構(gòu)建:記憶模塊的構(gòu)建是 DR 系統(tǒng)中最具挑戰(zhàn)性的部分之一。如何在記憶容量、檢索效率與信息可靠性之間取得平衡,并將記憶機(jī)制穩(wěn)定地融入端到端訓(xùn)練流程,仍是當(dāng)前研究中的關(guān)鍵難題。

結(jié)語 Deep Research

Deep Research 并非對現(xiàn)有 RAG 的簡單擴(kuò)展,而是智能體在能力、動作空間以及應(yīng)用邊界上的一次轉(zhuǎn)變:從單輪的答案生成,走向面向開放問題的深度研究。目前,該方向仍處于早期階段,如何在開放環(huán)境中構(gòu)建既具自主性、又具可信性的 Deep Research 智能體,仍是未來值得持續(xù)探索的重要問題。本文的 survey 也會持續(xù)更新,總結(jié)最新的進(jìn)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
廣東傳3好3壞消息!阿旺喊話遼寧,少杰傷情更新,王洪澤發(fā)文自勉

廣東傳3好3壞消息!阿旺喊話遼寧,少杰傷情更新,王洪澤發(fā)文自勉

后仰大風(fēng)車
2026-01-08 06:45:07
費(fèi)爾明傳射,拉菲尼亞獨(dú)造3球!巴薩造5-0慘案,坐等馬競死磕皇馬

費(fèi)爾明傳射,拉菲尼亞獨(dú)造3球!巴薩造5-0慘案,坐等馬競死磕皇馬

我的護(hù)球最獨(dú)特
2026-01-08 04:50:30
東部兩隊達(dá)成2換1交易!火箭不是接盤俠,烏度卡已暗示引援標(biāo)準(zhǔn)

東部兩隊達(dá)成2換1交易!火箭不是接盤俠,烏度卡已暗示引援標(biāo)準(zhǔn)

徐驤老表哥
2026-01-08 12:37:51
美國專家事后諸葛亮:換下彭德懷能贏?真要讓粟裕去指揮,美軍主力恐怕連撤退的機(jī)會都沒有,全得交代在那!

美國專家事后諸葛亮:換下彭德懷能贏?真要讓粟裕去指揮,美軍主力恐怕連撤退的機(jī)會都沒有,全得交代在那!

史海殘云
2025-12-13 21:54:16
我國存款最安全的3大銀行,永遠(yuǎn)都不會倒閉,你知道是哪3家嗎?

我國存款最安全的3大銀行,永遠(yuǎn)都不會倒閉,你知道是哪3家嗎?

小熊侃史
2026-01-07 11:17:59
馬杜羅被捕現(xiàn)場細(xì)節(jié)流出:古巴硬漢貼身安保,戰(zhàn)至最后盡忠職守

馬杜羅被捕現(xiàn)場細(xì)節(jié)流出:古巴硬漢貼身安保,戰(zhàn)至最后盡忠職守

裝甲鏟史官
2026-01-04 15:14:32
超百億,凈流出

超百億,凈流出

中國基金報
2026-01-08 14:19:20
S-300名聲廢了!美戰(zhàn)爭部長:在美軍襲擊委內(nèi)瑞拉期間表現(xiàn)不太好

S-300名聲廢了!美戰(zhàn)爭部長:在美軍襲擊委內(nèi)瑞拉期間表現(xiàn)不太好

鐵錘簡科
2026-01-07 15:14:31
國內(nèi)首個!海上可復(fù)用火箭基地開工 目標(biāo)發(fā)射成本2萬元/公斤

國內(nèi)首個!海上可復(fù)用火箭基地開工 目標(biāo)發(fā)射成本2萬元/公斤

科創(chuàng)板日報
2026-01-08 09:29:05
湖南某設(shè)計院一團(tuán)糟!

湖南某設(shè)計院一團(tuán)糟!

黯泉
2026-01-07 23:44:27
庫克送禮,老黃放貸,馬斯克畫餅:2025科技圈的「生存三部曲」

庫克送禮,老黃放貸,馬斯克畫餅:2025科技圈的「生存三部曲」

新智元
2026-01-07 13:16:06
英國證實參與美國北大西洋扣押油輪行動

英國證實參與美國北大西洋扣押油輪行動

澎湃新聞
2026-01-08 02:02:18
看懂史上真實的慈安,才明白慈禧為何絞盡腦汁,一輩子都斗不過她

看懂史上真實的慈安,才明白慈禧為何絞盡腦汁,一輩子都斗不過她

近史談
2026-01-06 16:28:59
1972年尼克松問該怎么稱呼蔣介石?毛主席淡定回了7個字,全場瞬間笑翻

1972年尼克松問該怎么稱呼蔣介石?毛主席淡定回了7個字,全場瞬間笑翻

源溯歷史
2026-01-01 23:46:13
清朝最強(qiáng)駙馬爺,多次拯救大舅子雍正,因功破格冊封親王爵位

清朝最強(qiáng)駙馬爺,多次拯救大舅子雍正,因功破格冊封親王爵位

銘記歷史呀
2026-01-08 07:34:37
1947年,三個上將擠一輛吉普車,司機(jī)是個武林高手,結(jié)果一腳油門下去,全都掉溝里了

1947年,三個上將擠一輛吉普車,司機(jī)是個武林高手,結(jié)果一腳油門下去,全都掉溝里了

寄史言志
2026-01-08 13:27:12
伊朗街道爆發(fā)沖突,兩名警察死亡,30人受傷:有示威者攜帶武器并向警察開槍

伊朗街道爆發(fā)沖突,兩名警察死亡,30人受傷:有示威者攜帶武器并向警察開槍

魯中晨報
2026-01-08 07:05:03
樸槿惠出獄生活:住1676平別墅,與小10歲律師為伴,如今生活安逸

樸槿惠出獄生活:住1676平別墅,與小10歲律師為伴,如今生活安逸

顧史
2026-01-07 20:10:11
咸魚還是太全面了,怪不得人稱國內(nèi)黑市

咸魚還是太全面了,怪不得人稱國內(nèi)黑市

另子維愛讀史
2025-12-20 17:07:20
U23亞洲杯剛剛開打,第一位下課主帥已經(jīng)誕生,中國隊漁翁得利

U23亞洲杯剛剛開打,第一位下課主帥已經(jīng)誕生,中國隊漁翁得利

綠茵舞著
2026-01-07 20:57:07
2026-01-08 15:00:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12077文章數(shù) 142531關(guān)注度
往期回顧 全部

科技要聞

雷軍:現(xiàn)在聽到營銷這兩個字都有點惡心

頭條要聞

國家級射擊教練因走私武器罪獲刑10年:多省射擊隊購買

頭條要聞

國家級射擊教練因走私武器罪獲刑10年:多省射擊隊購買

體育要聞

約基奇倒下后,一位故人邪魅一笑

娛樂要聞

2026春節(jié)檔將有六部電影強(qiáng)勢上映

財經(jīng)要聞

微軟CTO韋青:未來人類會花錢"戒手機(jī)"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

家居
房產(chǎn)
健康
教育
親子

家居要聞

理性主義 冷調(diào)自由居所

房產(chǎn)要聞

三亞新房,又全國第一了!

這些新療法,讓化療不再那么痛苦

教育要聞

學(xué)霸思維訓(xùn)練:求陰影部分的面積,根據(jù)蝴蝶定理求解

親子要聞

早上老師發(fā)我的視頻,胡圖圖跳舞太賣力了,老師說他活力滿滿 楊雪呀

無障礙瀏覽 進(jìn)入關(guān)懷版