国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

經(jīng)驗(yàn)記憶黑科技,LightSearcher讓AI工具調(diào)用減39.6%、推理快48.6%

0
分享至

以DeepSeek-R1為代表的深度思考大模型能夠處理復(fù)雜的推理任務(wù),DeepSearch作為深度思考大模型的核心搜索器,在推理過(guò)程中通過(guò)迭代調(diào)用外部搜索工具,訪問(wèn)參數(shù)邊界之外的最新、領(lǐng)域特定知識(shí),從而提升推理的深度和事實(shí)可靠性。然而,現(xiàn)有的RL驅(qū)動(dòng)的深度思考大模型系統(tǒng)常常面臨準(zhǔn)確率與效率的“蹺蹺板”困境:頻繁調(diào)用搜索工具提升準(zhǔn)確性,卻帶來(lái)計(jì)算開(kāi)銷(xiāo)和效率低下。具體而言,高頻調(diào)用外部搜索工具雖能補(bǔ)充實(shí)時(shí)信息、提升推理準(zhǔn)確率,但使得推理延遲大幅升高,等待時(shí)間可達(dá)幾十秒至幾分鐘,從用戶(hù)體驗(yàn)角度來(lái)看,若信息加載時(shí)間超過(guò)10秒,50%的移動(dòng)用戶(hù)會(huì)放棄訪問(wèn)。深度思考大模型系統(tǒng)的長(zhǎng)時(shí)推理等待無(wú)疑會(huì)帶來(lái)類(lèi)似的用戶(hù)流失風(fēng)險(xiǎn)。反之,減少工具調(diào)用以提升效率,則會(huì)因大語(yǔ)言模型內(nèi)部知識(shí)局限,導(dǎo)致推理結(jié)果準(zhǔn)確性與完整性不足。

北郵百家AI團(tuán)隊(duì)提出LightSearcher框架,首創(chuàng)基于經(jīng)驗(yàn)記憶的高效RL優(yōu)化技術(shù),通過(guò)引入文本化經(jīng)驗(yàn)記憶和自適應(yīng)獎(jiǎng)勵(lì)塑造機(jī)制,巧妙解決了這一痛點(diǎn)。在保持與SOTA基線ReSearch相當(dāng)準(zhǔn)確率的同時(shí),搜索工具調(diào)用和模型回復(fù)時(shí)間顯著縮短,搜索工具調(diào)用次數(shù)減少 39.6%,推理時(shí)間縮短 48.6%,Token消耗降低 21.2%,在保持模型效果的同時(shí)顯著提升了工具調(diào)用效率。


論文標(biāo)題: LightSearcher: Efficient DeepSearch via Experiential Memory 論文鏈接: https://arxiv.org/abs/2512.06653 百家AI 主頁(yè): https://baijia.online/homepage/index

一、引言

如何教會(huì)深度思考大模型策略性地控制搜索工具的使用,優(yōu)化何時(shí)以及如何查詢(xún)外部知識(shí)源,是深度思考大模型亟待解決的問(wèn)題,現(xiàn)有方法存在顯著缺陷:

  1. 提示工程或監(jiān)督學(xué)習(xí)方法依賴(lài)人工標(biāo)注,成本高且泛化差;RL驅(qū)動(dòng)方法雖能自主優(yōu)化,但獎(jiǎng)勵(lì)偏重準(zhǔn)確性,導(dǎo)致模型為確保正確而頻繁調(diào)用工具,造成冗余開(kāi)銷(xiāo)。

  2. 工具調(diào)用“過(guò)度依賴(lài)”,現(xiàn)有模型往往不分難易,對(duì)簡(jiǎn)單查詢(xún)也反復(fù)檢索,導(dǎo)致推理時(shí)間延長(zhǎng)、token消耗激增;

  3. 準(zhǔn)確性與效率失衡,部分方法雖提升準(zhǔn)確率,但犧牲效率;另一些雖減少調(diào)用,卻降低答案質(zhì)量,無(wú)法兼顧雙重目標(biāo)。

這些問(wèn)題導(dǎo)致現(xiàn)有模型要么要么答案不準(zhǔn)、可靠性差,要么工具調(diào)用過(guò)多、效率低下,難以同時(shí)滿足推理準(zhǔn)確和高效執(zhí)行的核心需求。

二、LightSearcher框架

為解決上述缺陷,北郵百家AI團(tuán)隊(duì)提出基于經(jīng)驗(yàn)記憶的高效DeepSearch框架(LightSearcher),核心思路是在大模型強(qiáng)化推理過(guò)程中,通過(guò)“對(duì)比經(jīng)驗(yàn)學(xué)習(xí)”將隱性推理軌跡轉(zhuǎn)化為顯性指導(dǎo)經(jīng)驗(yàn),并結(jié)合自適應(yīng)獎(jiǎng)勵(lì)優(yōu)化工具調(diào)用,具體包含三大關(guān)鍵組件:

  1. 對(duì)比經(jīng)驗(yàn)推理機(jī)制(Contrastive Experiential Reasoning):收集高低質(zhì)量推理軌跡,通過(guò)LLM生成成功模式的自然語(yǔ)言總結(jié)(如“簡(jiǎn)單查詢(xún)優(yōu)先用內(nèi)部知識(shí)”),構(gòu)建動(dòng)態(tài)經(jīng)驗(yàn)記憶庫(kù);

  2. 自適應(yīng)獎(jiǎng)勵(lì)塑造機(jī)制(Adaptive Reward Shaping):引入最小工具調(diào)用基準(zhǔn),僅在答案正確時(shí)懲罰冗余調(diào)用,使用指數(shù)衰減函數(shù)動(dòng)態(tài)平衡準(zhǔn)確性和效率,避免盲目?jī)?yōu)化;

  3. 基于經(jīng)驗(yàn)的RL訓(xùn)練機(jī)制:采用GRPO算法,將積累經(jīng)驗(yàn)和少樣本示例融入提示模板,指導(dǎo)模型生成高效軌跡,確保探索與利用的均衡。

模型最終優(yōu)化目標(biāo)為多目標(biāo)獎(jiǎng)勵(lì)函數(shù)的加權(quán)和,確保工具調(diào)用精簡(jiǎn)與答案質(zhì)量的協(xié)同提升。

三、實(shí)驗(yàn)

研究團(tuán)隊(duì)在四個(gè)多跳QA基準(zhǔn)數(shù)據(jù)集(NQ、HotpotQA、Musique、2WikiMultihopQA)上進(jìn)行了全面評(píng)估,對(duì)比了多種主流DeepSearch方法。

3.1 主實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果顯示:

  1. 模型準(zhǔn)確性保持頂尖: LightSearcher在F1分?jǐn)?shù)和LLM評(píng)判上與SOTA基線ReSearch相當(dāng),甚至在部分?jǐn)?shù)據(jù)集上優(yōu)于ReSearch;

  2. 效率顯著提升: 工具調(diào)用減少39.6%,推理時(shí)間縮短48.6%,token消耗降低21.2%;

  3. 泛化能力強(qiáng):在不同難度的查詢(xún)(易/難)上均表現(xiàn)穩(wěn)定,即使在域外測(cè)試集也能超越依賴(lài)固定檢索的迭代方法。

3.2 消融實(shí)驗(yàn)

移除經(jīng)驗(yàn)導(dǎo)致F1下降7.2%,證明其核心作用。


LightSearcher框架通過(guò)“經(jīng)驗(yàn)記憶”這一核心理念,為構(gòu)建高效、可靠的深度推理系統(tǒng)提供了新路徑。盡管目前限于多跳QA,未來(lái)可擴(kuò)展到代碼合成、策略規(guī)劃等領(lǐng)域。論成功解決了現(xiàn)有DeepSearch的關(guān)鍵痛點(diǎn):

  • 從隱性到顯性:將對(duì)比軌跡轉(zhuǎn)化為可解釋的推理指導(dǎo)

  • 精準(zhǔn)平衡:通過(guò)自適應(yīng)獎(jiǎng)勵(lì)確保工具調(diào)用最小化

  • 效率優(yōu)先:利用RL訓(xùn)練維持準(zhǔn)確與開(kāi)銷(xiāo)的連貫性

  • 雙重優(yōu)化:同時(shí)提升推理質(zhì)量和執(zhí)行效率,而非顧此失彼

最后,大模型的DeepSearch能力需設(shè)計(jì)有效的經(jīng)驗(yàn)機(jī)制。相比于復(fù)雜的手動(dòng)標(biāo)注, LightSearcher通過(guò)其“對(duì)比經(jīng)驗(yàn)”的設(shè)計(jì)思想, 在推理過(guò)程依賴(lài)可靠的外部知識(shí)調(diào)用,為構(gòu)建更加高效、可靠的AI深度思考系統(tǒng)提供了重要的技術(shù)路徑。

llustration From IconScout By IconScout Store

-The End-

本周上新!


掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門(mén)創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛(ài)的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專(zhuān)業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說(shuō)/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶(hù)啟發(fā)更大的文章,做原創(chuàng)性?xún)?nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情



關(guān)于我“門(mén)”

將門(mén)是一家以專(zhuān)注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過(guò)連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門(mén)成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門(mén)”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
安切洛蒂點(diǎn)兵!巴西18人基本確定出戰(zhàn)世界杯:內(nèi)馬爾懸了

安切洛蒂點(diǎn)兵!巴西18人基本確定出戰(zhàn)世界杯:內(nèi)馬爾懸了

葉青足球世界
2026-03-13 09:08:43
成龍安排好身后事才2個(gè)月,翁靜晶再曝大瓜,沒(méi)給他留一絲體面

成龍安排好身后事才2個(gè)月,翁靜晶再曝大瓜,沒(méi)給他留一絲體面

星星沒(méi)有你亮
2026-02-28 20:40:21
見(jiàn)過(guò)什么毀三觀的事網(wǎng)友講述自身經(jīng)歷,真的是很毀三觀。

見(jiàn)過(guò)什么毀三觀的事網(wǎng)友講述自身經(jīng)歷,真的是很毀三觀。

侃神評(píng)故事
2026-03-09 19:30:03
胡潤(rùn)報(bào)告揭秘:中國(guó)高凈值人群子女留學(xué),風(fēng)向變了!

胡潤(rùn)報(bào)告揭秘:中國(guó)高凈值人群子女留學(xué),風(fēng)向變了!

留學(xué)生日?qǐng)?bào)
2026-03-11 21:05:43
20歲劉美賢奧運(yùn)奪金三周:LV時(shí)裝秀、紐交所敲鐘,科技與奢侈品巨頭爭(zhēng)相押注

20歲劉美賢奧運(yùn)奪金三周:LV時(shí)裝秀、紐交所敲鐘,科技與奢侈品巨頭爭(zhēng)相押注

新浪財(cái)經(jīng)
2026-03-11 06:51:53
汪小菲回應(yīng)被許雅鈞甩黑鍋,用事實(shí)打臉S一家,馬筱梅終于撕破臉

汪小菲回應(yīng)被許雅鈞甩黑鍋,用事實(shí)打臉S一家,馬筱梅終于撕破臉

生命之泉的奧秘
2026-03-13 20:32:59
英媒評(píng)估伊朗戰(zhàn)爭(zhēng)五個(gè)可能發(fā)展態(tài)勢(shì)

英媒評(píng)估伊朗戰(zhàn)爭(zhēng)五個(gè)可能發(fā)展態(tài)勢(shì)

參考消息
2026-03-13 11:47:24
恐怖! 華人富商被女子約會(huì)引誘 慘遭綁架撕票埋尸荒野! 人財(cái)兩失

恐怖! 華人富商被女子約會(huì)引誘 慘遭綁架撕票埋尸荒野! 人財(cái)兩失

北國(guó)向錫安
2026-02-25 09:32:28
法國(guó)航母殺入中東,對(duì)伊反擊正式拉響!關(guān)鍵時(shí)刻特朗普卻喊停了?

法國(guó)航母殺入中東,對(duì)伊反擊正式拉響!關(guān)鍵時(shí)刻特朗普卻喊停了?

始于初見(jiàn)見(jiàn)
2026-03-14 03:55:32
上海男籃的傳奇球員,再度現(xiàn)身!

上海男籃的傳奇球員,再度現(xiàn)身!

新民晚報(bào)
2026-03-13 15:10:52
中美罕見(jiàn)意見(jiàn)一致!遭人嫌棄的“留學(xué)生”,美國(guó)不想留中國(guó)不敢要

中美罕見(jiàn)意見(jiàn)一致!遭人嫌棄的“留學(xué)生”,美國(guó)不想留中國(guó)不敢要

戶(hù)外阿毽
2026-03-13 20:45:34
不到48小時(shí),2個(gè)重大喜訊!美媒氣得牙癢癢:中國(guó)悶聲撿了大便宜

不到48小時(shí),2個(gè)重大喜訊!美媒氣得牙癢癢:中國(guó)悶聲撿了大便宜

諦聽(tīng)骨語(yǔ)本尊
2026-03-12 17:05:11
最新 | 天津這時(shí)停止供熱

最新 | 天津這時(shí)停止供熱

天津廣播
2026-03-13 16:14:03
果然不出外界所料:瞞了3天還是沒(méi)瞞住,伊朗公開(kāi)新領(lǐng)袖受傷內(nèi)幕

果然不出外界所料:瞞了3天還是沒(méi)瞞住,伊朗公開(kāi)新領(lǐng)袖受傷內(nèi)幕

起喜電影
2026-03-12 19:57:35
新中國(guó)成立后,各省級(jí)行政區(qū)的首任主席(省長(zhǎng)、市長(zhǎng))是誰(shuí)?

新中國(guó)成立后,各省級(jí)行政區(qū)的首任主席(省長(zhǎng)、市長(zhǎng))是誰(shuí)?

夢(mèng)沉古道
2026-03-13 21:25:07
馬杜羅獄中生活不是一般的慘,美國(guó)人把他整的“生不如死”

馬杜羅獄中生活不是一般的慘,美國(guó)人把他整的“生不如死”

愛(ài)下廚的阿釃
2026-03-13 19:48:56
絕對(duì)美女:性感動(dòng)人,美艷至極

絕對(duì)美女:性感動(dòng)人,美艷至極

國(guó)際藝術(shù)大觀
2026-02-20 21:35:26
江蘇男子突發(fā)腦出血走了,醫(yī)生:吃降壓藥時(shí)候,沒(méi)注意這5點(diǎn)!

江蘇男子突發(fā)腦出血走了,醫(yī)生:吃降壓藥時(shí)候,沒(méi)注意這5點(diǎn)!

敘說(shuō)醫(yī)療健康
2026-03-13 08:30:14
大連英博遭遇二年級(jí)魔咒!兩連敗丟9球,媒體人:引援徹底失敗

大連英博遭遇二年級(jí)魔咒!兩連敗丟9球,媒體人:引援徹底失敗

奧拜爾
2026-03-13 21:36:45
終于有專(zhuān)家說(shuō)實(shí)話了!如不出意外,2026年上半年,或出現(xiàn)6種怪象

終于有專(zhuān)家說(shuō)實(shí)話了!如不出意外,2026年上半年,或出現(xiàn)6種怪象

美食格物
2026-03-13 23:18:13
2026-03-14 06:03:00
將門(mén)創(chuàng)投 incentive-icons
將門(mén)創(chuàng)投
加速及投資技術(shù)驅(qū)動(dòng)型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

龍蝦熱卷到AI硬件 “無(wú)腦”硬件或被淘汰

頭條要聞

穆杰塔巴"亮相"沒(méi)講話 伊朗學(xué)者:其處境可能非常危險(xiǎn)

頭條要聞

穆杰塔巴"亮相"沒(méi)講話 伊朗學(xué)者:其處境可能非常危險(xiǎn)

體育要聞

叕戰(zhàn)奧運(yùn),張雨霏要做回“小將”

娛樂(lè)要聞

廣電總局公布演員將用姓氏筆畫(huà)定番位

財(cái)經(jīng)要聞

“十五五”規(guī)劃綱要,全文來(lái)了!

汽車(chē)要聞

置換補(bǔ)貼價(jià)8.68萬(wàn) 五菱繽果S 525km旗艦款上市

態(tài)度原創(chuàng)

游戲
時(shí)尚
房產(chǎn)
旅游
公開(kāi)課

AL打響LPL轉(zhuǎn)會(huì)第一槍?zhuān)〉谝毁惗巫罴呀叹毐粩貧ⅲ陆叹毴诉x出爐

扎十一惹:像鳥(niǎo)飛往她的山

房產(chǎn)要聞

不容易??!海口終于又要賣(mài)地了!

旅游要聞

春滿來(lái)鳳山,花開(kāi)迎客忙!騰沖茶花基地13萬(wàn)游人踏春“打卡”

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版