国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

經(jīng)驗記憶黑科技:LightSearcher讓AI工具調(diào)用減39.6%推理快48.6%

0
分享至



如今,以 DeepSeek-R1 為代表的深度思考大模型能夠處理復(fù)雜的推理任務(wù),而DeepSearch 作為深度思考大模型的核心搜索器,在推理過程中通過迭代調(diào)用外部搜索工具,訪問參數(shù)邊界之外的最新、領(lǐng)域特定知識,從而提升推理的深度和事實可靠性。

然而,現(xiàn)有的 RL 驅(qū)動的深度思考大模型系統(tǒng)常常面臨準(zhǔn)確率與效率的「蹺蹺板」困境:頻繁調(diào)用搜索工具提升準(zhǔn)確性,卻帶來計算開銷和效率低下。具體而言,高頻調(diào)用外部搜索工具雖能補充實時信息、提升推理準(zhǔn)確率,但使得推理延遲大幅升高,等待時間可達(dá)幾十秒至幾分鐘。從用戶體驗角度來看,若信息加載時間超過 10 秒,50% 的移動用戶會放棄訪問。

北郵百家 AI 團(tuán)隊提出 LightSearcher 框架,首創(chuàng)基于經(jīng)驗記憶的高效 RL 優(yōu)化技術(shù),通過引入文本化經(jīng)驗記憶和自適應(yīng)獎勵塑造機制,巧妙解決了這一痛點。

在保持與 SOTA 基線 ReSearch 相當(dāng)準(zhǔn)確率的同時,搜索工具調(diào)用和模型回復(fù)時間顯著縮短,搜索工具調(diào)用次數(shù)減少 39.6%,推理時間縮短 48.6%,Token 消耗降低 21.2%,在保持模型效果的同時顯著提升了工具調(diào)用效率。



  • 論文標(biāo)題:LightSearcher: Efficient DeepSearch via Experiential Memory
  • 論文鏈接:https://arxiv.org/abs/2512.06653
  • 百家 AI 主頁:https://baijia.online/homepage/index

引言

如何教會深度思考大模型策略性地控制搜索工具的使用,優(yōu)化何時以及如何查詢外部知識源,是深度思考大模型亟待解決的問題?,F(xiàn)有方法存在以下顯著缺陷:

  1. 提示工程或監(jiān)督學(xué)習(xí)方法依賴人工標(biāo)注,成本高且泛化差;RL 驅(qū)動方法雖能自主優(yōu)化,但獎勵偏重準(zhǔn)確性,導(dǎo)致模型為確保正確而頻繁調(diào)用工具,造成冗余開銷;
  2. 工具調(diào)用「過度依賴」,現(xiàn)有模型往往不分難易,對簡單查詢也反復(fù)檢索,導(dǎo)致推理時間延長、token 消耗激增;
  3. 準(zhǔn)確性與效率失衡,部分方法雖提升準(zhǔn)確率,但犧牲效率;另一些雖減少調(diào)用,卻降低答案質(zhì)量,無法兼顧雙重目標(biāo)。

這些問題導(dǎo)致現(xiàn)有模型要么答案不準(zhǔn)、可靠性差,要么工具調(diào)用過多、效率低下,難以同時滿足推理準(zhǔn)確和高效執(zhí)行的核心需求。

LightSearcher 框架

為解決上述缺陷,北郵百家 AI 團(tuán)隊提出基于經(jīng)驗記憶的高效 DeepSearch 框架(LightSearcher),核心思路是在大模型強化推理過程中,通過「對比經(jīng)驗學(xué)習(xí)」將隱性推理軌跡轉(zhuǎn)化為顯性指導(dǎo)經(jīng)驗,并結(jié)合自適應(yīng)獎勵優(yōu)化工具調(diào)用,具體包含三大關(guān)鍵組件:

  1. 對比經(jīng)驗推理機制(Contrastive Experiential Reasoning):收集高低質(zhì)量推理軌跡,通過 LLM 生成成功模式的自然語言總結(jié)(如「簡單查詢優(yōu)先用內(nèi)部知識」),構(gòu)建動態(tài)經(jīng)驗記憶庫;
  2. 自適應(yīng)獎勵塑造機制(Adaptive Reward Shaping):引入最小工具調(diào)用基準(zhǔn),僅在答案正確時懲罰冗余調(diào)用,使用指數(shù)衰減函數(shù)動態(tài)平衡準(zhǔn)確性和效率,避免盲目優(yōu)化;
  3. 基于經(jīng)驗的 RL 訓(xùn)練機制:采用 GRPO 算法,將積累經(jīng)驗和少樣本示例融入提示模板,指導(dǎo)模型生成高效軌跡,確保探索與利用的均衡。



模型最終優(yōu)化目標(biāo)為多目標(biāo)獎勵函數(shù)的加權(quán)和,確保工具調(diào)用精簡與答案質(zhì)量的協(xié)同提升。

實驗

研究團(tuán)隊在四個多跳 QA 基準(zhǔn)數(shù)據(jù)集(NQ、HotpotQA、Musique、2WikiMultihopQA)上進(jìn)行了全面評估,對比了多種主流 DeepSearch 方法。

3.1 主實驗結(jié)果



實驗結(jié)果顯示:

  • 模型準(zhǔn)確性保持頂尖:LightSearcher 在 F1 分?jǐn)?shù)和 LLM 評判上與 SOTA 基線 ReSearch 相當(dāng),甚至在部分?jǐn)?shù)據(jù)集上優(yōu)于 ReSearch;
  • 效率顯著提升:工具調(diào)用減少 39.6%,推理時間縮短 48.6%,token 消耗降低 21.2%;
  • 泛化能力強:在不同難度的查詢(易 / 難)上均表現(xiàn)穩(wěn)定,即使在域外測試集也能超越依賴固定檢索的迭代方法。

3.2 消融實驗

移除經(jīng)驗導(dǎo)致 F1 下降 7.2%,證明其核心作用。



LightSearcher 框架通過「經(jīng)驗記憶」這一核心理念,為構(gòu)建高效、可靠的深度推理系統(tǒng)提供了新路徑。盡管目前限于多跳 QA,未來可擴(kuò)展到代碼合成、策略規(guī)劃等領(lǐng)域。論文成功解決了現(xiàn)有 DeepSearch 的關(guān)鍵痛點:

  • 從隱性到顯性:將對比軌跡轉(zhuǎn)化為可解釋的推理指導(dǎo)
  • 精準(zhǔn)平衡:通過自適應(yīng)獎勵確保工具調(diào)用最小化
  • 效率優(yōu)先:利用 RL 訓(xùn)練維持準(zhǔn)確與開銷的連貫性
  • 雙重優(yōu)化:同時提升推理質(zhì)量和執(zhí)行效率,而非顧此失彼

最后,大模型的 DeepSearch 能力需設(shè)計有效的經(jīng)驗機制。相比于復(fù)雜的手動標(biāo)注,LightSearcher 通過其「對比經(jīng)驗」的設(shè)計思想,在推理過程依賴可靠的外部知識調(diào)用,為構(gòu)建更加高效、可靠的 AI 深度思考系統(tǒng)提供了重要的技術(shù)路徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
上海一大媽走后留700萬,銀行要求本人簽字才給,女兒做法太解氣

上海一大媽走后留700萬,銀行要求本人簽字才給,女兒做法太解氣

蘭姐說故事
2025-03-19 15:00:05
中美俄雷達(dá)差距太大!俄預(yù)警6000公里,美5500公里,中國令人意外

中美俄雷達(dá)差距太大!俄預(yù)警6000公里,美5500公里,中國令人意外

蜉蝣說
2025-12-18 14:44:00
特朗普向全國發(fā)表電視講話,指責(zé)拜登,自我表揚,支持率顯示民眾并不買賬

特朗普向全國發(fā)表電視講話,指責(zé)拜登,自我表揚,支持率顯示民眾并不買賬

極目新聞
2025-12-18 15:14:48
英王室三小只久違露面氣質(zhì)大變?夏洛特一身紅裙氣場變更強,弟弟路易已是小帥哥模樣!

英王室三小只久違露面氣質(zhì)大變?夏洛特一身紅裙氣場變更強,弟弟路易已是小帥哥模樣!

英國報姐
2025-12-17 21:42:13
利物浦賣對了?26歲舊將2年身價跌3500萬歐,伊薩克可能還不如他

利物浦賣對了?26歲舊將2年身價跌3500萬歐,伊薩克可能還不如他

銳評利物浦
2025-12-18 23:48:40
冠軍不如外人?張本智和捧杯回國,日媒卻把封面給了王楚欽和松島輝空

冠軍不如外人?張本智和捧杯回國,日媒卻把封面給了王楚欽和松島輝空

最愛乒乓球
2025-12-19 00:06:35
孟晚舟也沒想到,央劇《老舅》播出僅3天,姚安娜竟實現(xiàn)口碑逆轉(zhuǎn)

孟晚舟也沒想到,央劇《老舅》播出僅3天,姚安娜竟實現(xiàn)口碑逆轉(zhuǎn)

春秋論娛
2025-12-19 07:09:16
退休9年后,張玉明主動投案!

退休9年后,張玉明主動投案!

上觀新聞
2025-12-18 16:27:54
曾導(dǎo)致馬爾卡寧交易告吹,記者:勇士比以往任何時候都更愿意交易波杰

曾導(dǎo)致馬爾卡寧交易告吹,記者:勇士比以往任何時候都更愿意交易波杰

懂球帝
2025-12-18 14:33:16
高市早苗的反擊計劃已全面出爐!動手前,日方當(dāng)眾問中國一個問題

高市早苗的反擊計劃已全面出爐!動手前,日方當(dāng)眾問中國一個問題

趣文說娛
2025-12-18 15:52:20
安吉麗娜·朱莉首次展示乳腺切除疤痕,黑色傷疤觸目驚心

安吉麗娜·朱莉首次展示乳腺切除疤痕,黑色傷疤觸目驚心

尋墨閣
2025-12-18 07:24:09
高市早苗當(dāng)局:2026年起將取消中國留學(xué)生在日打工收入的免稅政策

高市早苗當(dāng)局:2026年起將取消中國留學(xué)生在日打工收入的免稅政策

達(dá)文西看世界
2025-12-15 18:51:59
馬興全與他的深圳生意

馬興全與他的深圳生意

法經(jīng)網(wǎng)
2025-12-15 17:52:35
除了擋風(fēng)被,明年1月1日起,電動車、摩托車、三輪車上路“5禁”新規(guī)!最高罰款2000

除了擋風(fēng)被,明年1月1日起,電動車、摩托車、三輪車上路“5禁”新規(guī)!最高罰款2000

電動車小辣椒
2025-12-18 14:09:43
2000萬騎手的電動車,危險了

2000萬騎手的電動車,危險了

中國新聞周刊
2025-12-18 07:30:09
美團(tuán)外賣官宣周杰倫成為品牌代言人

美團(tuán)外賣官宣周杰倫成為品牌代言人

IT之家
2025-12-18 10:21:08
朋友,你見過XXXXL大小的游戲更新嗎?

朋友,你見過XXXXL大小的游戲更新嗎?

游民星空
2025-12-18 10:39:34
返回艙被覬覦,技術(shù)骨干成內(nèi)鬼!中國航天首次公開重大安全問題

返回艙被覬覦,技術(shù)骨干成內(nèi)鬼!中國航天首次公開重大安全問題

林子說事
2025-12-17 14:44:41
已花費超13億!緬甸喊話各國大使:盡快接回你們在妙瓦底的公民

已花費超13億!緬甸喊話各國大使:盡快接回你們在妙瓦底的公民

興史興談
2025-12-18 08:10:09
海南封關(guān)首日,居民排長隊購首批榴蓮,超市:每斤78元至98元,價格低于平時的一半

海南封關(guān)首日,居民排長隊購首批榴蓮,超市:每斤78元至98元,價格低于平時的一半

臺州交通廣播
2025-12-18 22:47:00
2025-12-19 08:07:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11950文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

美媒:美國下水一艘新軍艦中國已造好三艘 差距驚人

頭條要聞

美媒:美國下水一艘新軍艦中國已造好三艘 差距驚人

體育要聞

紐約尼克斯,板正的球隊

娛樂要聞

絲芭放大招了!實名舉報鞠婧祎經(jīng)濟(jì)犯罪

財經(jīng)要聞

尹艷林:呼吁加快2.5億新市民落戶進(jìn)程

汽車要聞

在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

態(tài)度原創(chuàng)

教育
家居
房產(chǎn)
公開課
軍事航空

教育要聞

考研醫(yī)學(xué)改統(tǒng)考,是難度升級還是撿漏機會?

家居要聞

高端私宅 理想隱居圣地

房產(chǎn)要聞

搶藏瘋潮!封關(guān)時代,??陧斏萃跽▔狠S,傳世資產(chǎn)即刻登場!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

福建艦入列后首過臺海 臺方談為何"甲板上沒有艦載機"

無障礙瀏覽 進(jìn)入關(guān)懷版