国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

30B參數(shù)超越GPT-5!REDSearcher讓深度搜索Agent做到低成本可擴(kuò)展

0
分享至



「2018 到 2023 年間在 EMNLP 會(huì)議上發(fā)表的那篇論文中,第一作者本科就讀于達(dá)特茅斯學(xué)院、第四作者本科就讀于賓夕法尼亞大學(xué)的那篇科學(xué)論文,題目是什么?」

這并不是一道靠記憶就能解答的題。Agent 必須在多輪環(huán)境交互中,不斷假設(shè)、驗(yàn)證并修正路徑,始終保持推理一致性,才能將零散證據(jù)整合成自洽鏈條。

2025 年被視為 AI Agent 元年,但真正的自主 Agent 核心在于「深度搜索」,在長(zhǎng)程任務(wù)中像人類專家一樣維持目標(biāo)、驗(yàn)證信息并動(dòng)態(tài)調(diào)整策略。然而,訓(xùn)練這樣的 Agent 面臨三大瓶頸:

  • 數(shù)據(jù)稀缺:高難度長(zhǎng)程問(wèn)答任務(wù)極度依賴人工標(biāo)注,成本高昂。因此,我們需要一條能夠自動(dòng)化合成高難度問(wèn)題的鏈路。
  • 能力鴻溝:預(yù)訓(xùn)練模型雖知識(shí)儲(chǔ)備豐富,卻缺乏與真實(shí)環(huán)境進(jìn)行長(zhǎng)程交互的能力。這需要通過(guò)低成本的中訓(xùn)練階段來(lái)彌補(bǔ)鴻溝。
  • 環(huán)境缺失:在真實(shí)環(huán)境中訓(xùn)練成本高且不可控。一個(gè)功能等價(jià)的模擬環(huán)境,可以在本地復(fù)現(xiàn)搜索過(guò)程,從而支持算法的快速迭代。

為突破瓶頸,REDSearcher 團(tuán)隊(duì)設(shè)計(jì)了一套低成本、可擴(kuò)展的訓(xùn)練框架,最終使用 30B 規(guī)格模型在深度搜索任務(wù)上取得開源模型 SoTA,并且超越了 GPT-5 等一眾閉源模型。



  • 論文標(biāo)題:REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents
  • 項(xiàng)目主頁(yè):https://github.com/RedSearchAgent/REDSearcher
  • 論文鏈接:https://arxiv.org/abs/2602.14234
  • Collections:https://huggingface.co/collections/Zchu/redsearcher



一、什么是「足夠難」的深度搜索題目?

什么是困難的搜索題目?推理跳數(shù)往往只是表象,應(yīng)該追求的是問(wèn)題的結(jié)構(gòu)性困難。

1. 拓?fù)鋸?fù)雜度:用樹寬衡量「結(jié)構(gòu)性困難」

復(fù)雜任務(wù)中,信息分叉交織形成回環(huán)。Agent 需同時(shí)記憶多路推論,時(shí)刻驗(yàn)證一致性,并隨時(shí)準(zhǔn)備整體回溯,這便是深度搜索的核心挑戰(zhàn)。為此,團(tuán)隊(duì)引入圖論中的TreeWidth(樹寬)概念來(lái)刻畫這種「結(jié)構(gòu)性困難」。以下通過(guò)三種結(jié)構(gòu)問(wèn)題進(jìn)行對(duì)比:



  • 線性/樹狀(樹寬=1):典型鏈?zhǔn)酵评,只需按部就班檢索便可解答。
  • 菱形/回環(huán)(樹寬=2):出現(xiàn)分叉與重匯合,要求 Agent 維持多路假設(shè)的一致性,并在矛盾時(shí)進(jìn)行回溯。
  • 強(qiáng)耦合子圖(樹寬≥3):形成網(wǎng)狀約束,需要將零散證據(jù)拼合成一致的整體,迫使模型進(jìn)行全局驗(yàn)證和回溯。

2. 信息分散度:杜絕搜索「捷徑」

即使問(wèn)題的拓?fù)浣Y(jié)構(gòu)很復(fù)雜,如果存在一個(gè)網(wǎng)頁(yè)恰好包含所有關(guān)鍵事實(shí),模型一次檢索就能抄走答案。為此,團(tuán)隊(duì)引入「信息分散度」,即覆蓋全部關(guān)鍵證據(jù)所需的最小來(lái)源數(shù)。信息分散度越大,表明問(wèn)題相關(guān)的證據(jù)片段(注:原文為“爭(zhēng)取片段”,疑為筆誤,此處已作修正)在互聯(lián)網(wǎng)上的分布就更加零散,這迫使 Agent 與外部環(huán)境進(jìn)行更多輪次的交互從而獲取更加充分的信息。

二、大規(guī)!缸詣(dòng)化」合成

「高難度」的深度搜索問(wèn)題

基于雙約束復(fù)雜度標(biāo)準(zhǔn),我們采用 graph-to-text 流程合成數(shù)據(jù):先生成符合樹寬與分散度的推理圖,再將其翻譯為自然語(yǔ)言問(wèn)題,并經(jīng)過(guò)多層校驗(yàn)確!父唠y度、可解且答案唯一」。同時(shí),我們?cè)O(shè)計(jì)了基于「結(jié)構(gòu)化信息」與「網(wǎng)絡(luò)瀏覽」兩套圖構(gòu)造流程,以覆蓋不同搜索環(huán)境。在合成問(wèn)題中,我們采取:

  • 拓?fù)浣Y(jié)構(gòu)增強(qiáng):直接生成高樹寬圖的成功率較低。為此,我們引入大模型智能體對(duì)初始依賴圖進(jìn)行「拓?fù)浼用堋,通過(guò)添加環(huán)狀與交錯(cuò)約束,顯著提升結(jié)構(gòu)復(fù)雜度,迭代地提高問(wèn)題難度。
  • 工具增強(qiáng)的問(wèn)題合成:在問(wèn)題構(gòu)造階段,我們主動(dòng)植入工具調(diào)用需求。通過(guò)將關(guān)鍵實(shí)體替換為隱含工具依賴的表達(dá)(如地名→地圖服務(wù)、文章→谷歌學(xué)術(shù)),使工具調(diào)用成為解題前置條件。



三、多模態(tài)擴(kuò)展:從「文本圖」到「多模態(tài)圖」

在文本合成基礎(chǔ)上,REDSearcher 通過(guò)模態(tài)注入將純文本推理圖轉(zhuǎn)化為跨模態(tài)推理,使部分約束錨定在圖像中。

  • 視覺(jué)屬性錨定:用圖像描述替換節(jié)點(diǎn)的文本屬性,迫使模型先識(shí)別圖像再關(guān)聯(lián)知識(shí)。
  • 跨模態(tài)依賴:設(shè)置視覺(jué)不可替代約束,使圖像搜索成為推理必經(jīng)之路,而非冗余信息。
  • 視覺(jué)語(yǔ)義抽象:使用抽象指代替代直接命名,迫使模型識(shí)別圖像內(nèi)容后再進(jìn)行搜索。
  • 模態(tài)靈活插入:視覺(jué)證據(jù)可插入推理鏈任意位置,既可早期設(shè)置瓶頸增加難度,也可后期引入驗(yàn)證,實(shí)現(xiàn)難度精細(xì)控制。

通過(guò)這套輕量級(jí)擴(kuò)展,REDSearcher 可高效遷移至多模態(tài)搜索領(lǐng)域,合成高質(zhì)量的圖文深度搜索問(wèn)題。

四、「成本可控」Mid-Training 強(qiáng)化智能體能力

預(yù)訓(xùn)練模型缺乏多輪交互訓(xùn)練,在長(zhǎng)程搜索中易出現(xiàn)目標(biāo)漂移、重復(fù)搜索等問(wèn)題。為此,REDSearcher 采用可擴(kuò)展的兩階段 Mid-Training 框架,依次強(qiáng)化模型的「原子能力」與「組合能力」,實(shí)現(xiàn)從語(yǔ)言建模到智能體的過(guò)渡。



原子能力建設(shè)

針對(duì)深度搜索重要的兩個(gè)基礎(chǔ)能力優(yōu)化:

  • 意圖錨定:從含噪的觀測(cè)中精準(zhǔn)抓取關(guān)鍵證據(jù),過(guò)濾噪聲,減少幻覺(jué)與推理漂移。
  • 層次化規(guī)劃:將復(fù)雜目標(biāo)拆解為可立即求解的具體目標(biāo)與需逐步消解的不確定目標(biāo),確保規(guī)劃可落地。

組合能力建設(shè)

通過(guò)環(huán)境交互強(qiáng)化長(zhǎng)程任務(wù)中的狀態(tài)維持與目標(biāo)一致性,全程以成本為約束:

  • 工具調(diào)用能力:通過(guò)合成工具協(xié)議與本地模擬環(huán)境交互,使模型在 ReACT 范式下掌握基礎(chǔ)與外界環(huán)境交互能力。
  • 長(zhǎng)程交互能力:在「功能一致」模擬環(huán)境中,讓 Agent 進(jìn)行長(zhǎng)程的環(huán)境交互,強(qiáng)化規(guī)劃能力與目標(biāo)一致性。

五、后訓(xùn)練持續(xù)進(jìn)化:

不只是「搜得多」,更要「搜得準(zhǔn)」

后訓(xùn)練采取 SFT + Agentic RL 雙階段增強(qiáng):

  • 在真實(shí)環(huán)境中交互,通過(guò)多重過(guò)濾獲取長(zhǎng)程高質(zhì)量軌跡,教會(huì)模型深度搜索行為。
  • 在真實(shí)搜索環(huán)境中進(jìn)一步優(yōu)化策略,關(guān)鍵設(shè)計(jì)包括:
  • 低成本驗(yàn)證:構(gòu)建「功能等價(jià)」的本地模擬環(huán)境,保持 API 一致、證據(jù)完備且含噪聲,加速實(shí)驗(yàn)迭代。
  • 數(shù)據(jù)質(zhì)量保障:針對(duì)合成問(wèn)題中存在的答案錯(cuò)誤、一題多解現(xiàn)象,采用 Agent-as-Verifier 對(duì)強(qiáng)化學(xué)習(xí)問(wèn)題集進(jìn)行校驗(yàn),避免數(shù)據(jù)污染影響訓(xùn)練穩(wěn)定性。

團(tuán)隊(duì)觀察到了效率與性能同步提升的現(xiàn)象:隨著訓(xùn)練進(jìn)行,模型的平均交互輪次不斷下降,但準(zhǔn)確率持續(xù)提升。這表明 REDSearcher 并非簡(jiǎn)單的「暴力搜索」,而是學(xué)會(huì)了更精準(zhǔn)的信息獲取策略,主動(dòng)減少無(wú)效調(diào)用,形成「越訓(xùn)越聰明」的良性循環(huán)。

六、實(shí)驗(yàn)結(jié)果

在多項(xiàng)深度搜索權(quán)威基準(zhǔn)上,REDSearcher 在開源模型中取得了優(yōu)異的表現(xiàn):

  • REDSearcher 在同規(guī)模開源模型中取得了 SoTA 水平,并且超過(guò)了 GPT-5-Thinking-high、Gemini-2.5-pro、Claude-4.5-sonnet 一眾閉源先進(jìn)模型(*為帶有上下文管理的性能)。
  • REDSearcher-MM 在多模態(tài)搜索基準(zhǔn)中相比同規(guī)格模型取得了 SoTA 水平,并且性能超過(guò) Gemini-2.5-pro,在部分基準(zhǔn)上取得了接近 Gemini-3-pro 的性能。





結(jié)語(yǔ)

REDSearcher 的核心在于系統(tǒng)性設(shè)計(jì):從圖論角度定義深度搜索任務(wù)復(fù)雜度,以雙約束優(yōu)化可擴(kuò)展合成數(shù)據(jù),以兩階段中間訓(xùn)練降低能力遷移成本,以高質(zhì)量軌跡合成結(jié)合強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)持續(xù)迭代。它提供了一條可復(fù)現(xiàn)、低成本的深度搜索智能體訓(xùn)練路徑,使 AI 系統(tǒng)從靜態(tài)知識(shí)查詢走向開放環(huán)境下的自主探索、驗(yàn)證與信息整合。

作者簡(jiǎn)介

初征,哈工大社會(huì)計(jì)算與信息檢索中心在讀博士生,由劉銘教授和秦兵教授共同指導(dǎo),研究方向是智能體、大語(yǔ)言模型、復(fù)雜推理、深度搜索。

王梟,就職于小紅書 Hi Lab,負(fù)責(zé)Search Agent,主要關(guān)注長(zhǎng)程推理、智能體、數(shù)據(jù)合成、強(qiáng)化學(xué)習(xí)。

Jack Hong,小紅書 Hi Lab 團(tuán)隊(duì)算法實(shí)習(xí)生,主要研究方向是多模態(tài)大模型、Agent、計(jì)算機(jī)視覺(jué)等。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
A股:剛剛,國(guó)務(wù)院正式發(fā)布,利好兩大行業(yè),明日將迎來(lái)新的變盤

A股:剛剛,國(guó)務(wù)院正式發(fā)布,利好兩大行業(yè),明日將迎來(lái)新的變盤

夜深愛(ài)雜談
2026-04-23 19:51:35
曝中國(guó)槍迷赴英看阿森納比賽被捕!坐了9年牢 獄警拿1-5來(lái)羞辱他

曝中國(guó)槍迷赴英看阿森納比賽被捕!坐了9年牢 獄警拿1-5來(lái)羞辱他

風(fēng)過(guò)鄉(xiāng)
2026-04-23 17:16:10
特朗普下令擊沉任何在霍爾木茲海峽布設(shè)水雷的船只

特朗普下令擊沉任何在霍爾木茲海峽布設(shè)水雷的船只

新華社
2026-04-23 20:56:05
意大利或遞補(bǔ)世界杯?羅體:FIFA可能直接指定,也可能安排附加賽

意大利或遞補(bǔ)世界杯?羅體:FIFA可能直接指定,也可能安排附加賽

懂球帝
2026-04-23 18:35:08
“最強(qiáng)地級(jí)市”迎來(lái)新市長(zhǎng)

“最強(qiáng)地級(jí)市”迎來(lái)新市長(zhǎng)

觀察者網(wǎng)
2026-04-23 15:59:12
黑龍江慶安縣林草局副局長(zhǎng)楊某家暴女兒致輕傷二級(jí),目前已刑事立案

黑龍江慶安縣林草局副局長(zhǎng)楊某家暴女兒致輕傷二級(jí),目前已刑事立案

正在新聞
2026-04-23 17:09:10
一雞爆火,老板直接累癱了

一雞爆火,老板直接累癱了

南風(fēng)窗
2026-04-23 16:11:15
CBA季后賽又臨時(shí)改賽制?球迷怒噴:若去年如此,廣廈早被淘汰了

CBA季后賽又臨時(shí)改賽制?球迷怒噴:若去年如此,廣廈早被淘汰了

弄月公子
2026-04-23 19:29:40
伊朗德黑蘭防空系統(tǒng)啟動(dòng)

伊朗德黑蘭防空系統(tǒng)啟動(dòng)

財(cái)聯(lián)社
2026-04-24 01:36:24
12306現(xiàn)豪華旅游專列票價(jià)超20萬(wàn)元,運(yùn)營(yíng)方:定位高端,已售出兩間價(jià)格超100萬(wàn)元的套房產(chǎn)品,提供管家服務(wù)、特色餐飲及沿線住宿與游覽安排

12306現(xiàn)豪華旅游專列票價(jià)超20萬(wàn)元,運(yùn)營(yíng)方:定位高端,已售出兩間價(jià)格超100萬(wàn)元的套房產(chǎn)品,提供管家服務(wù)、特色餐飲及沿線住宿與游覽安排

大風(fēng)新聞
2026-04-23 17:21:04
SWIFT:3月人民幣位居全球第五大支付貨幣,占比3.10%

SWIFT:3月人民幣位居全球第五大支付貨幣,占比3.10%

界面新聞
2026-04-23 18:38:50
伊朗政權(quán)變天了!

伊朗政權(quán)變天了!

阿振觀點(diǎn)
2026-04-24 00:20:51
伊朗的大殺器!

伊朗的大殺器!

燕梳樓頻道
2026-04-23 15:40:50
巴薩官方:亞馬爾左腿股二頭肌受傷賽季報(bào)銷,預(yù)計(jì)能參加世界杯

巴薩官方:亞馬爾左腿股二頭肌受傷賽季報(bào)銷,預(yù)計(jì)能參加世界杯

懂球帝
2026-04-23 20:11:39
4月23日俄烏最新:久加諾夫?qū)ζ站┑?0次警告

4月23日俄烏最新:久加諾夫?qū)ζ站┑?0次警告

西樓飲月
2026-04-23 20:49:09
“19歲女生受邀去泰國(guó)潑水節(jié)被轉(zhuǎn)賣電詐園”最新消息:園區(qū)初步同意放人,可遲遲不給具體位置,雙方仍在協(xié)商接人事宜

“19歲女生受邀去泰國(guó)潑水節(jié)被轉(zhuǎn)賣電詐園”最新消息:園區(qū)初步同意放人,可遲遲不給具體位置,雙方仍在協(xié)商接人事宜

三湘都市報(bào)
2026-04-23 17:18:29
中美聯(lián)合國(guó)激烈交鋒,美逼中國(guó)買單,中方拒絕接受,對(duì)美反將一軍

中美聯(lián)合國(guó)激烈交鋒,美逼中國(guó)買單,中方拒絕接受,對(duì)美反將一軍

健身狂人
2026-04-22 20:37:47
女子買12萬(wàn)黃金首飾,金店為何報(bào)警?起底退費(fèi)騙局

女子買12萬(wàn)黃金首飾,金店為何報(bào)警?起底退費(fèi)騙局

環(huán)球網(wǎng)資訊
2026-04-23 16:39:17
被轟9連鞭 23歲斯佳輝面如死灰:3-10不敵伊朗選手 3年前遭11連鞭

被轟9連鞭 23歲斯佳輝面如死灰:3-10不敵伊朗選手 3年前遭11連鞭

風(fēng)過(guò)鄉(xiāng)
2026-04-23 21:54:22
美國(guó)11名頂尖科學(xué)家連續(xù)離奇失蹤或死亡,特朗普:相當(dāng)嚴(yán)重

美國(guó)11名頂尖科學(xué)家連續(xù)離奇失蹤或死亡,特朗普:相當(dāng)嚴(yán)重

新民周刊
2026-04-23 18:56:16
2026-04-24 04:23:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12839文章數(shù) 142635關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預(yù)測(cè)

頭條要聞

以色列:只要美國(guó)同意 將刺殺伊朗最高領(lǐng)袖

頭條要聞

以色列:只要美國(guó)同意 將刺殺伊朗最高領(lǐng)袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂(lè)要聞

王大陸因涉黑討債被判 女友也一同獲刑

財(cái)經(jīng)要聞

普華永道賠償10億 恒大股東見(jiàn)到"回頭錢"

汽車要聞

預(yù)售30.29萬(wàn)起 嵐圖泰山X8配896線激光雷達(dá)

態(tài)度原創(chuàng)

本地
數(shù)碼
家居
健康
公開課

本地新聞

SAGA GIRLS 2026女團(tuán)選秀

數(shù)碼要聞

榮耀重新定義輕薄本,四月連發(fā)六款新品續(xù)航首超Mac

家居要聞

浪漫協(xié)奏 法式風(fēng)格

干細(xì)胞如何讓燒燙傷皮膚"再生"?

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版