經(jīng)驗記憶黑科技：LightSearcher讓AI工具調(diào)用減39.6%推理快48.6%

2025-12-17 14:49:43　來源: 機器之心Pro

河北舉報

分享至

如今，以 DeepSeek-R1 為代表的深度思考大模型能夠處理復(fù)雜的推理任務(wù)，而DeepSearch 作為深度思考大模型的核心搜索器，在推理過程中通過迭代調(diào)用外部搜索工具，訪問參數(shù)邊界之外的最新、領(lǐng)域特定知識，從而提升推理的深度和事實可靠性。

然而，現(xiàn)有的 RL 驅(qū)動的深度思考大模型系統(tǒng)常常面臨準(zhǔn)確率與效率的「蹺蹺板」困境：頻繁調(diào)用搜索工具提升準(zhǔn)確性，卻帶來計算開銷和效率低下。具體而言，高頻調(diào)用外部搜索工具雖能補充實時信息、提升推理準(zhǔn)確率，但使得推理延遲大幅升高，等待時間可達(dá)幾十秒至幾分鐘。從用戶體驗角度來看，若信息加載時間超過 10 秒，50% 的移動用戶會放棄訪問。

北郵百家 AI 團(tuán)隊提出 LightSearcher 框架，首創(chuàng)基于經(jīng)驗記憶的高效 RL 優(yōu)化技術(shù)，通過引入文本化經(jīng)驗記憶和自適應(yīng)獎勵塑造機制，巧妙解決了這一痛點。

在保持與 SOTA 基線 ReSearch 相當(dāng)準(zhǔn)確率的同時，搜索工具調(diào)用和模型回復(fù)時間顯著縮短，搜索工具調(diào)用次數(shù)減少 39.6%，推理時間縮短 48.6%，Token 消耗降低 21.2%，在保持模型效果的同時顯著提升了工具調(diào)用效率。

論文標(biāo)題：LightSearcher: Efficient DeepSearch via Experiential Memory
論文鏈接：https://arxiv.org/abs/2512.06653
百家 AI 主頁：https://baijia.online/homepage/index

引言

如何教會深度思考大模型策略性地控制搜索工具的使用，優(yōu)化何時以及如何查詢外部知識源，是深度思考大模型亟待解決的問題?，F(xiàn)有方法存在以下顯著缺陷：

提示工程或監(jiān)督學(xué)習(xí)方法依賴人工標(biāo)注，成本高且泛化差；RL 驅(qū)動方法雖能自主優(yōu)化，但獎勵偏重準(zhǔn)確性，導(dǎo)致模型為確保正確而頻繁調(diào)用工具，造成冗余開銷；
工具調(diào)用「過度依賴」，現(xiàn)有模型往往不分難易，對簡單查詢也反復(fù)檢索，導(dǎo)致推理時間延長、token 消耗激增；
準(zhǔn)確性與效率失衡，部分方法雖提升準(zhǔn)確率，但犧牲效率；另一些雖減少調(diào)用，卻降低答案質(zhì)量，無法兼顧雙重目標(biāo)。

這些問題導(dǎo)致現(xiàn)有模型要么答案不準(zhǔn)、可靠性差，要么工具調(diào)用過多、效率低下，難以同時滿足推理準(zhǔn)確和高效執(zhí)行的核心需求。

LightSearcher 框架

為解決上述缺陷，北郵百家 AI 團(tuán)隊提出基于經(jīng)驗記憶的高效 DeepSearch 框架（LightSearcher），核心思路是在大模型強化推理過程中，通過「對比經(jīng)驗學(xué)習(xí)」將隱性推理軌跡轉(zhuǎn)化為顯性指導(dǎo)經(jīng)驗，并結(jié)合自適應(yīng)獎勵優(yōu)化工具調(diào)用，具體包含三大關(guān)鍵組件：

對比經(jīng)驗推理機制（Contrastive Experiential Reasoning）：收集高低質(zhì)量推理軌跡，通過 LLM 生成成功模式的自然語言總結(jié)（如「簡單查詢優(yōu)先用內(nèi)部知識」），構(gòu)建動態(tài)經(jīng)驗記憶庫；
自適應(yīng)獎勵塑造機制（Adaptive Reward Shaping）：引入最小工具調(diào)用基準(zhǔn)，僅在答案正確時懲罰冗余調(diào)用，使用指數(shù)衰減函數(shù)動態(tài)平衡準(zhǔn)確性和效率，避免盲目優(yōu)化；
基于經(jīng)驗的 RL 訓(xùn)練機制：采用 GRPO 算法，將積累經(jīng)驗和少樣本示例融入提示模板，指導(dǎo)模型生成高效軌跡，確保探索與利用的均衡。

模型最終優(yōu)化目標(biāo)為多目標(biāo)獎勵函數(shù)的加權(quán)和，確保工具調(diào)用精簡與答案質(zhì)量的協(xié)同提升。

實驗

研究團(tuán)隊在四個多跳 QA 基準(zhǔn)數(shù)據(jù)集（NQ、HotpotQA、Musique、2WikiMultihopQA）上進(jìn)行了全面評估，對比了多種主流 DeepSearch 方法。

3.1 主實驗結(jié)果

實驗結(jié)果顯示:

模型準(zhǔn)確性保持頂尖：LightSearcher 在 F1 分?jǐn)?shù)和 LLM 評判上與 SOTA 基線 ReSearch 相當(dāng)，甚至在部分?jǐn)?shù)據(jù)集上優(yōu)于 ReSearch；
效率顯著提升：工具調(diào)用減少 39.6%，推理時間縮短 48.6%，token 消耗降低 21.2%；
泛化能力強：在不同難度的查詢（易 / 難）上均表現(xiàn)穩(wěn)定，即使在域外測試集也能超越依賴固定檢索的迭代方法。

3.2 消融實驗

移除經(jīng)驗導(dǎo)致 F1 下降 7.2%，證明其核心作用。

LightSearcher 框架通過「經(jīng)驗記憶」這一核心理念，為構(gòu)建高效、可靠的深度推理系統(tǒng)提供了新路徑。盡管目前限于多跳 QA，未來可擴(kuò)展到代碼合成、策略規(guī)劃等領(lǐng)域。論文成功解決了現(xiàn)有 DeepSearch 的關(guān)鍵痛點：

從隱性到顯性：將對比軌跡轉(zhuǎn)化為可解釋的推理指導(dǎo)
精準(zhǔn)平衡：通過自適應(yīng)獎勵確保工具調(diào)用最小化
效率優(yōu)先：利用 RL 訓(xùn)練維持準(zhǔn)確與開銷的連貫性
雙重優(yōu)化：同時提升推理質(zhì)量和執(zhí)行效率，而非顧此失彼

最后，大模型的 DeepSearch 能力需設(shè)計有效的經(jīng)驗機制。相比于復(fù)雜的手動標(biāo)注，LightSearcher 通過其「對比經(jīng)驗」的設(shè)計思想，在推理過程依賴可靠的外部知識調(diào)用，為構(gòu)建更加高效、可靠的 AI 深度思考系統(tǒng)提供了重要的技術(shù)路徑。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.