国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

經(jīng)驗記憶黑科技:LightSearcher讓AI工具調(diào)用減39.6%推理快48.6%

0
分享至



如今,以 DeepSeek-R1 為代表的深度思考大模型能夠處理復(fù)雜的推理任務(wù),而DeepSearch 作為深度思考大模型的核心搜索器,在推理過程中通過迭代調(diào)用外部搜索工具,訪問參數(shù)邊界之外的最新、領(lǐng)域特定知識,從而提升推理的深度和事實可靠性。

然而,現(xiàn)有的 RL 驅(qū)動的深度思考大模型系統(tǒng)常常面臨準(zhǔn)確率與效率的「蹺蹺板」困境:頻繁調(diào)用搜索工具提升準(zhǔn)確性,卻帶來計算開銷和效率低下。具體而言,高頻調(diào)用外部搜索工具雖能補充實時信息、提升推理準(zhǔn)確率,但使得推理延遲大幅升高,等待時間可達(dá)幾十秒至幾分鐘。從用戶體驗角度來看,若信息加載時間超過 10 秒,50% 的移動用戶會放棄訪問。

北郵百家 AI 團(tuán)隊提出 LightSearcher 框架,首創(chuàng)基于經(jīng)驗記憶的高效 RL 優(yōu)化技術(shù),通過引入文本化經(jīng)驗記憶和自適應(yīng)獎勵塑造機制,巧妙解決了這一痛點。

在保持與 SOTA 基線 ReSearch 相當(dāng)準(zhǔn)確率的同時,搜索工具調(diào)用和模型回復(fù)時間顯著縮短,搜索工具調(diào)用次數(shù)減少 39.6%,推理時間縮短 48.6%,Token 消耗降低 21.2%,在保持模型效果的同時顯著提升了工具調(diào)用效率。



  • 論文標(biāo)題:LightSearcher: Efficient DeepSearch via Experiential Memory
  • 論文鏈接:https://arxiv.org/abs/2512.06653
  • 百家 AI 主頁:https://baijia.online/homepage/index

引言

如何教會深度思考大模型策略性地控制搜索工具的使用,優(yōu)化何時以及如何查詢外部知識源,是深度思考大模型亟待解決的問題?,F(xiàn)有方法存在以下顯著缺陷:

  1. 提示工程或監(jiān)督學(xué)習(xí)方法依賴人工標(biāo)注,成本高且泛化差;RL 驅(qū)動方法雖能自主優(yōu)化,但獎勵偏重準(zhǔn)確性,導(dǎo)致模型為確保正確而頻繁調(diào)用工具,造成冗余開銷;
  2. 工具調(diào)用「過度依賴」,現(xiàn)有模型往往不分難易,對簡單查詢也反復(fù)檢索,導(dǎo)致推理時間延長、token 消耗激增;
  3. 準(zhǔn)確性與效率失衡,部分方法雖提升準(zhǔn)確率,但犧牲效率;另一些雖減少調(diào)用,卻降低答案質(zhì)量,無法兼顧雙重目標(biāo)。

這些問題導(dǎo)致現(xiàn)有模型要么答案不準(zhǔn)、可靠性差,要么工具調(diào)用過多、效率低下,難以同時滿足推理準(zhǔn)確和高效執(zhí)行的核心需求。

LightSearcher 框架

為解決上述缺陷,北郵百家 AI 團(tuán)隊提出基于經(jīng)驗記憶的高效 DeepSearch 框架(LightSearcher),核心思路是在大模型強化推理過程中,通過「對比經(jīng)驗學(xué)習(xí)」將隱性推理軌跡轉(zhuǎn)化為顯性指導(dǎo)經(jīng)驗,并結(jié)合自適應(yīng)獎勵優(yōu)化工具調(diào)用,具體包含三大關(guān)鍵組件:

  1. 對比經(jīng)驗推理機制(Contrastive Experiential Reasoning):收集高低質(zhì)量推理軌跡,通過 LLM 生成成功模式的自然語言總結(jié)(如「簡單查詢優(yōu)先用內(nèi)部知識」),構(gòu)建動態(tài)經(jīng)驗記憶庫;
  2. 自適應(yīng)獎勵塑造機制(Adaptive Reward Shaping):引入最小工具調(diào)用基準(zhǔn),僅在答案正確時懲罰冗余調(diào)用,使用指數(shù)衰減函數(shù)動態(tài)平衡準(zhǔn)確性和效率,避免盲目優(yōu)化;
  3. 基于經(jīng)驗的 RL 訓(xùn)練機制:采用 GRPO 算法,將積累經(jīng)驗和少樣本示例融入提示模板,指導(dǎo)模型生成高效軌跡,確保探索與利用的均衡。



模型最終優(yōu)化目標(biāo)為多目標(biāo)獎勵函數(shù)的加權(quán)和,確保工具調(diào)用精簡與答案質(zhì)量的協(xié)同提升。

實驗

研究團(tuán)隊在四個多跳 QA 基準(zhǔn)數(shù)據(jù)集(NQ、HotpotQA、Musique、2WikiMultihopQA)上進(jìn)行了全面評估,對比了多種主流 DeepSearch 方法。

3.1 主實驗結(jié)果



實驗結(jié)果顯示:

  • 模型準(zhǔn)確性保持頂尖:LightSearcher 在 F1 分?jǐn)?shù)和 LLM 評判上與 SOTA 基線 ReSearch 相當(dāng),甚至在部分?jǐn)?shù)據(jù)集上優(yōu)于 ReSearch;
  • 效率顯著提升:工具調(diào)用減少 39.6%,推理時間縮短 48.6%,token 消耗降低 21.2%;
  • 泛化能力強:在不同難度的查詢(易 / 難)上均表現(xiàn)穩(wěn)定,即使在域外測試集也能超越依賴固定檢索的迭代方法。

3.2 消融實驗

移除經(jīng)驗導(dǎo)致 F1 下降 7.2%,證明其核心作用。



LightSearcher 框架通過「經(jīng)驗記憶」這一核心理念,為構(gòu)建高效、可靠的深度推理系統(tǒng)提供了新路徑。盡管目前限于多跳 QA,未來可擴(kuò)展到代碼合成、策略規(guī)劃等領(lǐng)域。論文成功解決了現(xiàn)有 DeepSearch 的關(guān)鍵痛點:

  • 從隱性到顯性:將對比軌跡轉(zhuǎn)化為可解釋的推理指導(dǎo)
  • 精準(zhǔn)平衡:通過自適應(yīng)獎勵確保工具調(diào)用最小化
  • 效率優(yōu)先:利用 RL 訓(xùn)練維持準(zhǔn)確與開銷的連貫性
  • 雙重優(yōu)化:同時提升推理質(zhì)量和執(zhí)行效率,而非顧此失彼

最后,大模型的 DeepSearch 能力需設(shè)計有效的經(jīng)驗機制。相比于復(fù)雜的手動標(biāo)注,LightSearcher 通過其「對比經(jīng)驗」的設(shè)計思想,在推理過程依賴可靠的外部知識調(diào)用,為構(gòu)建更加高效、可靠的 AI 深度思考系統(tǒng)提供了重要的技術(shù)路徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
周大福,明天漲價!一條金手鏈要多收9000元

周大福,明天漲價!一條金手鏈要多收9000元

每日經(jīng)濟(jì)新聞
2025-12-18 21:00:07
中亞首個變色龍出現(xiàn),哈總統(tǒng)率先抵日,峰會還沒開,已簽14項協(xié)議

中亞首個變色龍出現(xiàn),哈總統(tǒng)率先抵日,峰會還沒開,已簽14項協(xié)議

井普椿的獨白
2025-12-19 15:24:49
臺民眾如何反制民進(jìn)黨?侯漢廷:討厭賴清德,2026票投“安安連線”

臺民眾如何反制民進(jìn)黨?侯漢廷:討厭賴清德,2026票投“安安連線”

海峽導(dǎo)報社
2025-12-19 09:12:05
1986年陳永貴病逝后,追悼會規(guī)格引起爭議,鄧小平一句話最終定調(diào)

1986年陳永貴病逝后,追悼會規(guī)格引起爭議,鄧小平一句話最終定調(diào)

寄史言志
2025-12-19 15:28:23
柬泰不打了?泰國開出3大停火條件,足夠讓洪森父子“顏面掃地”

柬泰不打了?泰國開出3大?;饤l件,足夠讓洪森父子“顏面掃地”

博覽歷史
2025-12-18 18:20:32
1940年,陳賡把戰(zhàn)壕挖到2米深,劉伯承拍桌大怒:你在自掘墳?zāi)梗£愘s:這是給鬼子修的墳!

1940年,陳賡把戰(zhàn)壕挖到2米深,劉伯承拍桌大怒:你在自掘墳?zāi)?!陳賡:這是給鬼子修的墳!

史海孤雁
2025-12-17 16:50:15
海南封關(guān)次日實探三亞免稅店:蘭蔻等護(hù)膚品牌有免稅臨期產(chǎn)品5折銷售,此前甚至有口紅打1折

海南封關(guān)次日實探三亞免稅店:蘭蔻等護(hù)膚品牌有免稅臨期產(chǎn)品5折銷售,此前甚至有口紅打1折

極目新聞
2025-12-19 13:22:22
警示!上海一三甲醫(yī)院發(fā)生一起甲等醫(yī)療事故,醫(yī)院賠償70多萬

警示!上海一三甲醫(yī)院發(fā)生一起甲等醫(yī)療事故,醫(yī)院賠償70多萬

梅斯醫(yī)學(xué)
2025-12-19 07:54:40
突發(fā)!曝李湘前夫李厚霖被刑拘,哥哥妹妹也被牽連,欠債10多億

突發(fā)!曝李湘前夫李厚霖被刑拘,哥哥妹妹也被牽連,欠債10多億

裕豐娛間說
2025-12-18 17:01:13
明朝的一首詞,抵得過千萬首唐詩宋詞,因為這首詞全篇都是名句

明朝的一首詞,抵得過千萬首唐詩宋詞,因為這首詞全篇都是名句

長風(fēng)文史
2025-12-18 15:00:28
錢再多有什么用,64歲郎平如今的現(xiàn)狀,給所有運動員們提了個醒

錢再多有什么用,64歲郎平如今的現(xiàn)狀,給所有運動員們提了個醒

削桐作琴
2025-12-10 16:53:18
12月19日俄烏最新:圖斯克拋出一枚重磅炸彈

12月19日俄烏最新:圖斯克拋出一枚重磅炸彈

西樓飲月
2025-12-19 18:05:05
600多元天津飛北京,中轉(zhuǎn)30多個小時“特種兵”游成都,無錫飛常州中轉(zhuǎn)重慶跨年省錢近一半,“回旋鏢”機票火出圈

600多元天津飛北京,中轉(zhuǎn)30多個小時“特種兵”游成都,無錫飛常州中轉(zhuǎn)重慶跨年省錢近一半,“回旋鏢”機票火出圈

極目新聞
2025-12-19 07:21:26
火箭輸球后,杜蘭特提出要求,烏度卡同時也下令了,申京很坦誠

火箭輸球后,杜蘭特提出要求,烏度卡同時也下令了,申京很坦誠

體壇大辣椒
2025-12-19 14:55:50
顯身材不浮夸,白背心配藍(lán)瑜伽褲,不同身材都能穿得好看

顯身材不浮夸,白背心配藍(lán)瑜伽褲,不同身材都能穿得好看

小喬古裝漢服
2025-12-19 19:17:46
固態(tài)電池出現(xiàn)變數(shù),安全測試全軍覆沒?

固態(tài)電池出現(xiàn)變數(shù),安全測試全軍覆沒?

環(huán)球零碳
2025-12-17 21:22:14
演員王傳君發(fā)文宣布退出電視劇拍攝

演員王傳君發(fā)文宣布退出電視劇拍攝

民間平哥
2025-12-19 15:41:22
針對臺灣問題,攤牌了!美國國防部今天表態(tài)了!

針對臺灣問題,攤牌了!美國國防部今天表態(tài)了!

安安說
2025-12-19 09:59:44
事情嚴(yán)重了!中國取消美國的訂單!

事情嚴(yán)重了!中國取消美國的訂單!

扶蘇聊歷史
2025-12-19 09:41:29
19號收評:日本加息25個基點!所有人都注意,大盤下周開始這樣看

19號收評:日本加息25個基點!所有人都注意,大盤下周開始這樣看

春江財富
2025-12-19 15:16:01
2025-12-19 20:51:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

美方"國防授權(quán)法案"塞入涉臺錯誤內(nèi)容 國臺辦回應(yīng)

頭條要聞

美方"國防授權(quán)法案"塞入涉臺錯誤內(nèi)容 國臺辦回應(yīng)

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財經(jīng)要聞

日元加息,恐慌來了?貨幣三國殺

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

手機
時尚
藝術(shù)
旅游
本地

手機要聞

華為Mate 80首銷數(shù)據(jù)出爐:約為前代的115%,基礎(chǔ)版占比75%

今日熱點:曾艷芬提醒絲芭傳媒有聊天記錄;邊伯賢惡評者被罰款……

藝術(shù)要聞

諸樂三的寫意花鳥

旅游要聞

爽居暢游!貴州到廣州發(fā)布“小車小團(tuán)”高端服務(wù)產(chǎn)品

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

無障礙瀏覽 進(jìn)入關(guān)懷版