国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

愛丁堡大學(xué):搜索引擎在智能代理"深度研究"中的驚人表現(xiàn)差異

0
分享至


這項由愛丁堡大學(xué)、格拉斯哥大學(xué)聯(lián)合開展的研究發(fā)表于2026年2月25日的arXiv預(yù)印本平臺,論文編號為arXiv:2602.21456v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

想象你是一個需要解答復(fù)雜問題的智能助手,就像一個超級聰明的研究員,需要在互聯(lián)網(wǎng)的海洋中搜尋信息。但問題是,你使用的搜索工具就像不同品牌的釣魚竿,有些擅長捕撈大魚,有些適合釣小魚,而你面對的"魚塘"環(huán)境也在不斷變化。這正是當(dāng)前人工智能領(lǐng)域一個非常實際的挑戰(zhàn):當(dāng)AI代理需要進(jìn)行"深度研究"時,現(xiàn)有的文本排序和搜索方法到底表現(xiàn)如何?

深度研究是一個相對較新的概念,可以把它理解為AI版本的"調(diào)查記者"工作。就像優(yōu)秀的記者需要通過多輪深入采訪、交叉驗證信息來完成一篇深度報道一樣,AI代理也需要通過多次搜索、推理和信息整合來回答那些復(fù)雜、需要深入思考的問題。這些問題往往不能通過一次簡單的搜索就得到答案,而需要像拼圖一樣,從不同角度收集信息片段,最終組合成完整的答案。

然而,現(xiàn)有的大多數(shù)研究都依賴于"黑盒子"式的網(wǎng)絡(luò)搜索接口,就像使用一個完全封閉的搜索引擎,你只能輸入問題,得到結(jié)果,卻無法了解內(nèi)部是如何工作的。這種情況讓研究人員很難分析到底是哪個環(huán)節(jié)出了問題,也無法系統(tǒng)地改進(jìn)搜索效果。

為了解決這個問題,愛丁堡大學(xué)的研究團(tuán)隊決定打開這個"黑盒子",詳細(xì)分析各種文本搜索和排序方法在深度研究場景中的真實表現(xiàn)。他們就像汽車測試工程師一樣,把各種不同的"引擎"放到相同的"測試跑道"上,看看哪種在特定條件下跑得最快、最穩(wěn)定。

這項研究的獨特之處在于,它首次在深度研究的背景下,系統(tǒng)性地比較了多種文本排序方法的效果。研究團(tuán)隊選擇了BrowseComp-Plus這個專門設(shè)計的數(shù)據(jù)集作為"測試跑道",這個數(shù)據(jù)集包含了830個需要深度思考的復(fù)雜問題,就像830道需要多步解題的數(shù)學(xué)應(yīng)用題。與以往不同的是,這個數(shù)據(jù)集提供了固定的文檔庫和人工驗證的相關(guān)性判斷,讓所有的"選手"都在完全相同的條件下比賽。

研究團(tuán)隊設(shè)計了三個核心研究問題,就像三場不同規(guī)則的比賽。第一場比賽關(guān)注的是"顆粒度"問題:AI代理是應(yīng)該一次性閱讀整篇文檔(就像讀整本書),還是分段閱讀(就像讀書的章節(jié))?第二場比賽測試的是"二次篩選"的效果:在初步搜索結(jié)果的基礎(chǔ)上,是否需要再進(jìn)行一輪精細(xì)排序?第三場比賽探討的是"語言風(fēng)格匹配"問題:AI代理發(fā)出的搜索指令與搜索工具"習(xí)慣"的指令格式是否匹配?

為了確保測試的公平性和全面性,研究團(tuán)隊選擇了兩個開源的AI代理作為"測試員":gpt-oss-20b和GLM-4.7-Flash。這兩個代理就像兩個不同風(fēng)格的研究助手,一個擅長在有限的"工作空間"中高效作業(yè),另一個擁有更大的"工作空間"但需要更多資源。

在搜索工具的選擇上,研究團(tuán)隊覆蓋了目前主流的四大類搜索方法。第一類是傳統(tǒng)的"關(guān)鍵詞匹配"方法BM25,就像傳統(tǒng)的圖書館卡片索引系統(tǒng),通過精確匹配關(guān)鍵詞來查找信息。第二類是"學(xué)習(xí)型稀疏"方法SPLADE-v3,可以理解為升級版的關(guān)鍵詞搜索,能夠理解詞匯之間的關(guān)聯(lián)性。第三類包括兩種"密集向量"方法RepLLaMA和Qwen3-Embed-8B,它們將文本轉(zhuǎn)換為數(shù)字向量進(jìn)行比較,就像給每個文檔創(chuàng)建一個獨特的"數(shù)字指紋"。第四類是"多向量密集"方法ColBERTv2,可以看作是更精細(xì)的指紋比對系統(tǒng),能夠在更細(xì)致的層面上進(jìn)行匹配。

在排序優(yōu)化工具方面,研究團(tuán)隊選擇了三種代表不同性能和成本權(quán)衡的方法:相對經(jīng)濟(jì)的monoT5-3B、基于大語言模型的RankLLaMA-7B,以及具有推理能力的Rank1-7B。這就像選擇三種不同級別的"審稿專家",從快速篩選到深度分析,各有所長。

一、段落級信息單位:小塊拼圖的優(yōu)勢

研究的第一個重要發(fā)現(xiàn)涉及信息處理的基本單位選擇。就像讀書時你可以選擇一章章地讀,也可以選擇一節(jié)節(jié)地讀一樣,AI代理在處理網(wǎng)絡(luò)信息時也面臨類似的選擇:是處理完整的網(wǎng)頁文檔,還是處理分割成小段的文字?

傳統(tǒng)的做法是讓AI代理直接處理完整的網(wǎng)頁文檔,但這帶來了一個實際問題:完整的網(wǎng)頁往往很長,就像一本厚重的百科全書,如果要把整本書的內(nèi)容都塞進(jìn)AI的"工作記憶"中,很快就會超出容量限制。為了解決這個問題,以往的研究通常會截取文檔的前面部分,比如只讀前500個字,然后丟棄后面的內(nèi)容。這就像只讀每本書的前幾頁就下結(jié)論,顯然可能錯過重要信息。

雖然有研究嘗試通過添加"完整文檔閱讀器"來解決這個問題,讓AI代理在需要時可以調(diào)用完整文檔,但這增加了系統(tǒng)的復(fù)雜性,就像給研究員配備一個圖書管理員,雖然有用但增加了操作步驟。

研究團(tuán)隊提出了一個看似簡單但實際很有效的解決方案:將長文檔切分成短小的段落,讓AI代理直接處理這些"信息片段"。這種方法的優(yōu)勢是多方面的。首先,短段落不會占用太多"工作記憶",讓AI代理能夠進(jìn)行更多輪次的搜索和思考。其次,AI代理可以直接訪問文檔中任何相關(guān)的部分,避免了截取帶來的信息丟失。再次,對于傳統(tǒng)的關(guān)鍵詞搜索方法來說,處理短文本比處理長文本更容易,因為不需要復(fù)雜的長度標(biāo)準(zhǔn)化處理。

實驗結(jié)果證實了這種方法的有效性。以gpt-oss-20b代理為例,當(dāng)使用SPLADE-v3搜索方法時,處理段落級信息比處理文檔級信息的準(zhǔn)確率提高了8.4%,從47.6%提升到51.6%。這種改進(jìn)在具有較小"工作空間"的AI代理身上表現(xiàn)得更加明顯,因為段落級處理讓它們能夠在達(dá)到容量限制之前進(jìn)行更多次的搜索和推理。

有趣的是,這種優(yōu)勢在擁有更大"工作空間"的GLM-4.7-Flash代理身上相對較小,提升幅度約為4%。這說明"工作空間"大小確實是影響這種方法效果的重要因素。同時,研究還發(fā)現(xiàn),兩個代理在處理段落時都會發(fā)起更多次的搜索調(diào)用,這表明段落級處理確實為更充分的信息探索創(chuàng)造了條件。

更進(jìn)一步的測試表明,當(dāng)為段落級信息配備"完整文檔閱讀器"時,效果反而略有下降。這說明段落級處理本身已經(jīng)能夠提供足夠的信息訪問能力,額外的文檔閱讀器變得多余,就像已經(jīng)有了詳細(xì)的地圖還要攜帶望遠(yuǎn)鏡一樣。

二、傳統(tǒng)關(guān)鍵詞搜索的意外復(fù)出

在這場"搜索工具大比拼"中,最令人意外的結(jié)果之一是傳統(tǒng)關(guān)鍵詞搜索方法BM25的強(qiáng)勢表現(xiàn)。BM25就像是搜索工具中的"老將",誕生于1990年代,原理相對簡單:通過精確匹配查詢詞匯來尋找相關(guān)文檔。在神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)大行其道的今天,很多人以為這種"古老"的方法已經(jīng)過時了。

然而,實驗結(jié)果顯示,當(dāng)使用gpt-oss-20b代理在段落級信息上搜索時,BM25不僅沒有落后,反而取得了所有測試配置中的最高準(zhǔn)確率:57.2%。這個結(jié)果甚至超過了那些參數(shù)量達(dá)到數(shù)十億的現(xiàn)代神經(jīng)網(wǎng)絡(luò)搜索方法。

這種意外的優(yōu)勢有其深層原因。通過分析AI代理實際發(fā)出的搜索指令,研究人員發(fā)現(xiàn)了一個重要模式:AI代理習(xí)慣于使用"網(wǎng)絡(luò)搜索風(fēng)格"的查詢語句。這些查詢通常包含關(guān)鍵詞、短語和引號標(biāo)記的精確匹配要求,就像我們在Google中輸入"人工智能"+"深度學(xué)習(xí)"+2024這樣的搜索條件。

這種查詢風(fēng)格天然地適合傳統(tǒng)的關(guān)鍵詞匹配方法。BM25就像一個嚴(yán)格按照字典查詞的圖書管理員,當(dāng)你給它精確的關(guān)鍵詞時,它能夠快速找到包含這些詞匯的文檔。相比之下,現(xiàn)代的神經(jīng)網(wǎng)絡(luò)搜索方法更像是一個"理解語義"的助手,它們在處理自然語言問題時表現(xiàn)出色,但面對關(guān)鍵詞式的查詢時反而可能"過度解讀"。

這個發(fā)現(xiàn)具有重要的實踐意義。它提醒我們,在評估搜索技術(shù)時,不能只看方法本身的先進(jìn)程度,還要考慮使用環(huán)境和查詢特點的匹配度。就像不同的鑰匙適合不同的鎖一樣,不同的搜索方法適合不同類型的查詢。

不過,BM25的表現(xiàn)并不是在所有情況下都如此突出。當(dāng)處理完整文檔時,使用標(biāo)準(zhǔn)參數(shù)設(shè)置的BM25表現(xiàn)相對較差。深入分析發(fā)現(xiàn),這與文檔長度標(biāo)準(zhǔn)化處理有關(guān)。BM25有兩個重要參數(shù):k1控制詞頻飽和度,b控制文檔長度標(biāo)準(zhǔn)化。對于長文檔,需要適當(dāng)調(diào)整這些參數(shù)才能獲得最佳效果。

當(dāng)研究團(tuán)隊將BM25的參數(shù)從默認(rèn)設(shè)置(k1=0.9, b=0.4)調(diào)整為適合文檔搜索的設(shè)置(k1=3.8, b=0.87)時,性能得到了顯著提升,召回率提高了76.8%,準(zhǔn)確率提高了71.0%。這再次說明,傳統(tǒng)方法在適當(dāng)調(diào)優(yōu)后仍然具有很強(qiáng)的競爭力。

三、小而精的搜索方法勝過大而全

在現(xiàn)代AI發(fā)展中,有一種普遍的觀念認(rèn)為"越大越好":參數(shù)更多、模型更大的系統(tǒng)通常性能更強(qiáng)。然而,這項研究在文本搜索領(lǐng)域發(fā)現(xiàn)了一個有趣的反例:那些基于BERT模型、參數(shù)量相對較少的搜索方法,在某些方面竟然超過了參數(shù)量達(dá)到數(shù)十億的大型語言模型搜索方法。

具體來說,SPLADE-v3(學(xué)習(xí)型稀疏搜索)和ColBERTv2(多向量密集搜索)這兩種基于BERT的方法,雖然參數(shù)量只有數(shù)千萬到數(shù)億,但在處理AI代理發(fā)出的網(wǎng)絡(luò)搜索風(fēng)格查詢時,consistently表現(xiàn)優(yōu)于那些基于7B或8B參數(shù)大型語言模型的單向量密集搜索方法RepLLaMA和Qwen3-Embed-8B。

這種現(xiàn)象的出現(xiàn)有其技術(shù)原因。SPLADE-v3和ColBERTv2都具有更強(qiáng)的"精確匹配"能力。SPLADE-v3雖然是學(xué)習(xí)型方法,但它保持了稀疏向量的特性,這意味著它在處理關(guān)鍵詞和精確匹配時仍然保留了傳統(tǒng)方法的優(yōu)勢。ColBERTv2采用多向量方法,能夠在更細(xì)致的層面上進(jìn)行文本匹配,特別適合處理需要精確匹配的查詢。

相比之下,單向量密集搜索方法雖然在理解語義和處理自然語言方面有優(yōu)勢,但在面對關(guān)鍵詞驅(qū)動的查詢時可能"想得太多"。就像一個過于聰明的學(xué)生,在回答簡單的選擇題時反而會過度分析,錯過正確答案。

這個發(fā)現(xiàn)對搜索技術(shù)的發(fā)展具有重要啟示。它表明,在特定應(yīng)用場景中,"適配性"比"復(fù)雜性"更重要。一個在通用自然語言理解任務(wù)上表現(xiàn)卓越的大模型,在特定的搜索任務(wù)中可能不如專門針對該任務(wù)優(yōu)化的小模型。

同時,這也提醒我們在選擇AI工具時要考慮任務(wù)特點。如果你的應(yīng)用主要涉及關(guān)鍵詞搜索和精確匹配,那么選擇專門優(yōu)化過的小模型可能比使用通用大模型更有效,同時還能節(jié)省計算資源。

四、二次排序的強(qiáng)化效應(yīng)

在信息檢索中,通常會采用"兩階段"策略:首先用相對簡單快速的方法從大量文檔中篩選出候選文檔,然后用更精細(xì)但計算量更大的方法對候選文檔進(jìn)行重新排序。這就像先用粗篩網(wǎng)過濾掉大塊雜質(zhì),再用細(xì)篩網(wǎng)精選出最優(yōu)質(zhì)的部分。

研究結(jié)果顯示,這種二次排序策略在深度研究場景中表現(xiàn)出色。以gpt-oss-20b代理配合BM25初次搜索和monoT5-3B重排序為例,相比只使用BM25搜索,加入重排序后召回率提高了16.23%,準(zhǔn)確率提高了20.45%,同時搜索調(diào)用次數(shù)還減少了10.98%。

最令人印象深刻的是,這種相對"經(jīng)濟(jì)"的組合竟然達(dá)到了71.6%的召回率和68.9%的準(zhǔn)確率,接近使用商業(yè)頂級模型GPT-5的70.1%準(zhǔn)確率。這說明,通過合理的技術(shù)組合,即使使用相對簡單的工具也能達(dá)到接近頂級商業(yè)服務(wù)的效果。

重排序效果的提升遵循幾個有趣的規(guī)律。首先,"重排序深度"越大,效果通常越好。重排序深度指的是對多少個初步結(jié)果進(jìn)行重新排序。從重排序前10個結(jié)果增加到20個,再到50個,準(zhǔn)確率逐步提升。這就像藝術(shù)品鑒定,看得越多,選出精品的可能性越大。

其次,初始搜索方法的質(zhì)量會影響重排序的效果。更強(qiáng)的初始搜索為重排序提供了更好的"原材料",就像用優(yōu)質(zhì)食材更容易烹飪出美味佳肴。當(dāng)使用BM25作為初始搜索時,配合monoT5重排序的效果比使用Qwen3-Embed-8B作為初始搜索時好得多。

有趣的是,基于推理的重排序方法Rank1-7B并沒有表現(xiàn)出預(yù)期的優(yōu)勢。這種方法會在做出判斷前先"思考"一番,生成推理過程,然后再給出相關(guān)性評分。理論上這應(yīng)該更準(zhǔn)確,但實際測試中它的表現(xiàn)與不進(jìn)行推理的方法差不多,有時甚至更差。

分析發(fā)現(xiàn),問題出現(xiàn)在查詢風(fēng)格的不匹配上。Rank1-7B是在自然語言問題上訓(xùn)練的,當(dāng)面對AI代理發(fā)出的關(guān)鍵詞式查詢時,它的"推理"能力反而成了負(fù)擔(dān)。就像一個習(xí)慣于分析復(fù)雜文學(xué)作品的教授,在面對簡單的詞匯測試時可能反而發(fā)揮不好,因為過度分析導(dǎo)致誤解了題目意圖。

五、語言風(fēng)格的隱秘影響

研究的第三個重要發(fā)現(xiàn)涉及一個往往被忽視但影響深遠(yuǎn)的問題:AI代理發(fā)出的搜索查詢與搜索工具期望的查詢格式之間可能存在"溝通障礙"。這就像一個習(xí)慣說方言的人與只懂普通話的服務(wù)員交流,即使表達(dá)的是同樣的需求,理解效果也可能大打折扣。

現(xiàn)代的神經(jīng)網(wǎng)絡(luò)搜索方法大多在MS MARCO等數(shù)據(jù)集上訓(xùn)練,這些數(shù)據(jù)集包含的查詢都是自然語言問題,比如"什么是人工智能?"或"如何制作巧克力蛋糕?"這些問題語法完整,表達(dá)清晰,就像標(biāo)準(zhǔn)的客服詢問。

然而,AI代理在實際工作中發(fā)出的查詢卻很不一樣。它們更像是網(wǎng)絡(luò)搜索風(fēng)格的關(guān)鍵詞組合,比如"人工智能"定義 OR "機(jī)器學(xué)習(xí)"基礎(chǔ)概念,或者"巧克力蛋糕"制作方法"簡單"。這些查詢包含引號標(biāo)記的精確匹配要求、關(guān)鍵詞組合和特殊符號,更像是搜索引擎的高級語法。

為了測試這種"語言風(fēng)格不匹配"的影響,研究團(tuán)隊開發(fā)了一個"查詢到問題"(Q2Q)的轉(zhuǎn)換方法。這個方法就像一個翻譯器,能夠?qū)I代理發(fā)出的關(guān)鍵詞式查詢轉(zhuǎn)換為自然語言問題。

轉(zhuǎn)換的效果確實顯著。以SPLADE-v3搜索為例,使用轉(zhuǎn)換后的自然語言問題進(jìn)行搜索,召回率提高了7.34%,準(zhǔn)確率提高了7.95%。這種改進(jìn)在需要語義理解的神經(jīng)網(wǎng)絡(luò)搜索方法上特別明顯,而對傳統(tǒng)的關(guān)鍵詞匹配方法BM25影響不大,甚至略有負(fù)面影響。

這個發(fā)現(xiàn)揭示了一個重要問題:搜索工具的訓(xùn)練數(shù)據(jù)與實際應(yīng)用場景之間可能存在顯著差異。許多看似先進(jìn)的搜索技術(shù)在實驗室環(huán)境中表現(xiàn)出色,但在實際應(yīng)用中可能因為查詢風(fēng)格的不匹配而效果打折。

研究還發(fā)現(xiàn),轉(zhuǎn)換方法的效果取決于能否準(zhǔn)確把握AI代理的搜索意圖。僅基于查詢本身的轉(zhuǎn)換效果有限,因為關(guān)鍵詞式查詢往往信息不夠充分,容易產(chǎn)生歧義。但如果結(jié)合AI代理的推理過程進(jìn)行轉(zhuǎn)換,效果就會明顯改善。這就像了解了說話者的背景和上下文后,能夠更準(zhǔn)確地理解其真實意圖。

六、文檔長度處理的技術(shù)細(xì)節(jié)

在深入分析BM25方法的表現(xiàn)時,研究團(tuán)隊發(fā)現(xiàn)了一個重要的技術(shù)細(xì)節(jié):文檔長度標(biāo)準(zhǔn)化參數(shù)的設(shè)置對搜索效果有著決定性影響。這個看似技術(shù)性的發(fā)現(xiàn)實際上揭示了傳統(tǒng)搜索方法仍然具有強(qiáng)大潛力,關(guān)鍵在于正確的調(diào)優(yōu)。

BM25方法使用兩個核心參數(shù)來平衡搜索效果。參數(shù)k1控制詞頻飽和度,可以理解為"關(guān)鍵詞出現(xiàn)多少次才算夠"的閾值。參數(shù)b控制文檔長度標(biāo)準(zhǔn)化,決定長文檔相對于短文檔的"懲罰程度"。在處理網(wǎng)頁文檔這樣的長文本時,這些參數(shù)的設(shè)置變得尤為重要。

使用傳統(tǒng)的默認(rèn)參數(shù)設(shè)置(k1=0.9, b=0.4)時,BM25在完整文檔上的表現(xiàn)確實不佳,這也是為什么許多研究認(rèn)為傳統(tǒng)方法已經(jīng)過時的原因。然而,當(dāng)研究團(tuán)隊調(diào)整為適合文檔搜索的參數(shù)(k1=3.8, b=0.87)時,性能出現(xiàn)了戲劇性的改善。

這種改善的幅度是驚人的:召回率提高了76.8%,準(zhǔn)確率提高了71.0%。這種程度的性能提升足以改變我們對傳統(tǒng)搜索方法的整體評價。更有趣的是,當(dāng)研究團(tuán)隊嘗試將每個文檔只索引前512個詞時,BM25的性能也得到了顯著提升,召回率提高64.2%,準(zhǔn)確率提高98.1%。

這些結(jié)果說明,BM25方法本身并沒有過時,問題出在參數(shù)設(shè)置上。就像一輛好車配了不合適的輪胎,性能自然發(fā)揮不出來。一旦選對了"輪胎",這輛"老車"仍然能夠跑得很快。

通過系統(tǒng)性的參數(shù)網(wǎng)格搜索,研究團(tuán)隊發(fā)現(xiàn)在處理BrowseComp-Plus數(shù)據(jù)集時,較大的b值(接近1.0)通常能帶來更好的效果,這意味著對長文檔進(jìn)行更嚴(yán)格的"懲罰"是有益的。同時,k1值在較大范圍內(nèi)都能保持良好效果,說明這個參數(shù)相對不敏感。

這個發(fā)現(xiàn)對實際應(yīng)用具有重要指導(dǎo)意義。它提醒我們在使用任何搜索技術(shù)時,都應(yīng)該根據(jù)具體的數(shù)據(jù)特點和應(yīng)用場景進(jìn)行適當(dāng)?shù)膮?shù)調(diào)優(yōu),而不是簡單地使用默認(rèn)設(shè)置。同時,它也說明新技術(shù)與傳統(tǒng)方法的比較應(yīng)該在公平的條件下進(jìn)行,包括為每種方法選擇最優(yōu)的參數(shù)設(shè)置。

七、計算資源與效果的平衡

這項研究的一個重要價值在于它提供了不同技術(shù)方案在效果和計算成本之間的權(quán)衡分析。在實際應(yīng)用中,最先進(jìn)的技術(shù)并不總是最佳選擇,因為還需要考慮計算資源、響應(yīng)速度和部署復(fù)雜度等因素。

研究結(jié)果顯示,相對簡單的技術(shù)組合能夠達(dá)到接近頂級商業(yè)服務(wù)的效果。使用20B參數(shù)的gpt-oss-20b代理、傳統(tǒng)的BM25搜索方法和3B參數(shù)的monoT5重排序器,這個"經(jīng)濟(jì)型"組合實現(xiàn)了68.9%的準(zhǔn)確率,非常接近使用先進(jìn)商業(yè)模型GPT-5的70.1%準(zhǔn)確率。

這種"性價比"優(yōu)勢在資源受限的環(huán)境中特別有價值。對于許多研究機(jī)構(gòu)和初創(chuàng)公司來說,部署和運行大型商業(yè)模型的成本可能是一個重要考慮因素。研究結(jié)果表明,通過精心設(shè)計的技術(shù)組合,可以用相對較小的成本獲得接近頂級的性能。

段落級信息處理在這個平衡中也發(fā)揮了重要作用。通過將長文檔分割成短段落,不僅提高了搜索準(zhǔn)確性,還減少了每次處理的計算量,讓AI代理能夠在相同的計算預(yù)算下進(jìn)行更多輪次的搜索和推理。這種方法特別適合那些內(nèi)存或處理能力有限的環(huán)境。

同時,研究還發(fā)現(xiàn)重排序深度的選擇存在邊際收益遞減的規(guī)律。雖然更深度的重排序通常能帶來更好的效果,但改善幅度會逐步下降,而計算成本卻會持續(xù)上升。這提示實際應(yīng)用中需要根據(jù)具體需求找到最優(yōu)的深度設(shè)置點。

研究團(tuán)隊還測試了不同重排序方法的效率差異?;谕评淼腞ank1方法雖然理論上更智能,但需要生成額外的推理文本,計算成本明顯高于簡單的判斷型重排序方法,而效果提升卻有限。這再次說明,在實際應(yīng)用中需要綜合考慮效果和效率。

八、完整文檔閱讀器的補(bǔ)充作用

為了應(yīng)對文檔截取可能導(dǎo)致的信息丟失問題,一些研究引入了"完整文檔閱讀器"工具。這種工具允許AI代理在需要時調(diào)用完整文檔進(jìn)行深度閱讀,就像給研究員配備一個可以隨時調(diào)用的詳細(xì)資料庫。

實驗結(jié)果顯示,這種工具在不同情況下發(fā)揮著不同的作用。當(dāng)使用完整文檔作為基本信息單位時,添加完整文檔閱讀器能夠部分補(bǔ)償文檔截取帶來的信息損失。比如,使用gpt-oss-20b代理配合SPLADE-v3搜索時,啟用文檔閱讀器后準(zhǔn)確率從47.6%提升到52.9%。

這種改善的原理是顯而易見的:截取的文檔可能恰好遺漏了關(guān)鍵信息,而完整文檔閱讀器能夠提供完整的上下文。同時,有了這個工具后,AI代理的搜索策略也會相應(yīng)調(diào)整,搜索次數(shù)有所減少,因為它知道可以通過深度閱讀獲得更多信息。

然而,當(dāng)基本信息單位改為段落時,完整文檔閱讀器的作用就變得很有限,甚至略有負(fù)面影響。使用gpt-oss-20b配合BM25搜索段落時,啟用文檔閱讀器后準(zhǔn)確率從57.2%略微下降到54.2%。

這種差異的原因在于段落級處理本身已經(jīng)解決了信息訪問的問題。通過搜索段落,AI代理實際上已經(jīng)能夠訪問到文檔中的任何相關(guān)部分,完整文檔閱讀器變得多余。更糟糕的是,額外的工具選擇可能干擾AI代理的決策過程,就像選擇過多反而讓人猶豫不決一樣。

這個發(fā)現(xiàn)對系統(tǒng)設(shè)計具有重要啟示:工具并非越多越好,關(guān)鍵是要根據(jù)基礎(chǔ)架構(gòu)的特點來配置輔助工具。當(dāng)基礎(chǔ)架構(gòu)已經(jīng)能夠很好地解決某個問題時,額外的解決方案可能不僅無助,還可能產(chǎn)生干擾。

九、訓(xùn)練數(shù)據(jù)與應(yīng)用場景的適配性

研究的一個重要貢獻(xiàn)是深入分析了訓(xùn)練數(shù)據(jù)與實際應(yīng)用場景之間的匹配度問題。這個問題在機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)常被提及,但在文本搜索的深度研究應(yīng)用中還缺乏系統(tǒng)性的分析。

大多數(shù)現(xiàn)代神經(jīng)網(wǎng)絡(luò)搜索方法都是在MS MARCO等標(biāo)準(zhǔn)數(shù)據(jù)集上訓(xùn)練的,這些數(shù)據(jù)集的查詢具有明顯的特點:它們是完整的自然語言問題,語法規(guī)范,表達(dá)清晰。比如"紐約的人口是多少?"或"如何預(yù)防感冒?"這樣的問題。

但AI代理在深度研究任務(wù)中發(fā)出的查詢卻很不一樣。通過對實際查詢的分析,研究團(tuán)隊發(fā)現(xiàn)AI代理更傾向于使用關(guān)鍵詞組合、引號標(biāo)記和特殊搜索語法,就像經(jīng)驗豐富的搜索引擎用戶會做的那樣。比如"紐約"人口統(tǒng)計 2024,或者"感冒預(yù)防"方法"有效"。

這種風(fēng)格差異導(dǎo)致了一個有趣的現(xiàn)象:那些在標(biāo)準(zhǔn)評測中表現(xiàn)優(yōu)異的先進(jìn)搜索方法,在面對AI代理的實際查詢時可能發(fā)揮不佳。就像一個只習(xí)慣于處理正式商業(yè)郵件的助理,在面對簡短的即時消息時可能理解出現(xiàn)偏差。

查詢到問題(Q2Q)轉(zhuǎn)換方法的成功證明了這種匹配度的重要性。通過將AI代理的關(guān)鍵詞式查詢轉(zhuǎn)換為自然語言問題,神經(jīng)網(wǎng)絡(luò)搜索方法的表現(xiàn)得到了顯著改善。這種改善不是因為查詢內(nèi)容的變化,而是因為表達(dá)方式更符合搜索模型的"期待"。

更深入的分析顯示,僅僅基于查詢本身的轉(zhuǎn)換效果有限,因為關(guān)鍵詞式查詢往往信息不夠充分。但如果結(jié)合AI代理的推理上下文進(jìn)行轉(zhuǎn)換,效果會明顯改善。這說明理解查詢的真實意圖比簡單的格式轉(zhuǎn)換更重要。

這個發(fā)現(xiàn)對搜索技術(shù)的未來發(fā)展具有重要啟示。隨著AI代理的廣泛應(yīng)用,搜索系統(tǒng)需要適應(yīng)新的查詢模式。未來的搜索技術(shù)應(yīng)該考慮在訓(xùn)練階段就包含多樣化的查詢風(fēng)格,或者開發(fā)能夠自適應(yīng)不同查詢風(fēng)格的技術(shù)。

說到底,這項來自愛丁堡大學(xué)和格拉斯哥大學(xué)的研究為我們打開了一個全新的視角。它不僅系統(tǒng)性地評估了各種文本搜索技術(shù)在深度研究場景中的表現(xiàn),更重要的是揭示了一系列違反直覺的發(fā)現(xiàn):傳統(tǒng)方法在適當(dāng)調(diào)優(yōu)后仍然具有強(qiáng)大競爭力,小而精的技術(shù)有時勝過大而全的系統(tǒng),技術(shù)組合的效果可能超過單一先進(jìn)技術(shù)。

這些發(fā)現(xiàn)對AI系統(tǒng)的實際部署具有重要的指導(dǎo)價值。它提醒我們在追求技術(shù)先進(jìn)性的同時,不要忽視實用性和適配性。最好的技術(shù)不一定是最復(fù)雜的技術(shù),而是最適合特定應(yīng)用場景的技術(shù)。同時,它也說明了基礎(chǔ)研究的重要性:只有通過系統(tǒng)性的實驗和分析,才能真正理解技術(shù)的優(yōu)勢和局限,為實際應(yīng)用提供可靠的指導(dǎo)。

隨著AI代理在各個領(lǐng)域的廣泛應(yīng)用,類似的深度研究將變得越來越重要。我們需要更多這樣的系統(tǒng)性研究來幫助我們理解和優(yōu)化AI系統(tǒng)的各個組件,確保它們能夠在真實環(huán)境中發(fā)揮最佳效果。畢竟,技術(shù)的價值最終要在實際應(yīng)用中得到體現(xiàn)。

對于普通用戶而言,這項研究也傳遞了一個重要信息:在選擇和使用AI工具時,需要考慮工具與你的使用習(xí)慣和需求特點的匹配度。就像選擇合適的搜索策略一樣,理解工具的特性并相應(yīng)調(diào)整使用方式,往往能獲得更好的效果。

Q&A

Q1:深度研究中的段落級處理相比完整文檔處理有什么優(yōu)勢?

A:段落級處理有四個主要優(yōu)勢。首先,短段落不會占用AI代理太多"工作記憶",讓它能進(jìn)行更多輪搜索和思考;其次,AI代理可以直接訪問文檔中任何相關(guān)部分,避免截取導(dǎo)致的信息丟失;再次,傳統(tǒng)搜索方法處理短文本比長文本更容易,不需要復(fù)雜的長度標(biāo)準(zhǔn)化;最后,現(xiàn)有的神經(jīng)網(wǎng)絡(luò)搜索技術(shù)大多針對段落級輸入進(jìn)行優(yōu)化。實驗顯示,gpt-oss-20b使用段落處理比文檔處理準(zhǔn)確率提高8.4%。

Q2:為什么傳統(tǒng)的BM25搜索方法在深度研究中表現(xiàn)這么好?

A:BM25表現(xiàn)出色主要因為AI代理的查詢風(fēng)格與其特點高度匹配。AI代理習(xí)慣發(fā)出"網(wǎng)絡(luò)搜索風(fēng)格"的關(guān)鍵詞查詢,包含精確匹配、關(guān)鍵詞組合和特殊符號,這正是BM25擅長處理的。相比之下,現(xiàn)代神經(jīng)網(wǎng)絡(luò)搜索方法更適合自然語言問題,面對關(guān)鍵詞查詢時反而可能"過度解讀"。實驗中,gpt-oss-20b配合BM25在段落搜索中達(dá)到了57.2%的最高準(zhǔn)確率,超過了參數(shù)量達(dá)數(shù)十億的神經(jīng)網(wǎng)絡(luò)方法。

Q3:什么是查詢到問題轉(zhuǎn)換方法,它為什么有效?

A:查詢到問題(Q2Q)轉(zhuǎn)換方法是將AI代理發(fā)出的關(guān)鍵詞式查詢轉(zhuǎn)換為自然語言問題的技術(shù)。比如將"人工智能"定義轉(zhuǎn)換為"什么是人工智能?"這種方法有效是因為現(xiàn)代神經(jīng)網(wǎng)絡(luò)搜索方法大多在自然語言問題上訓(xùn)練,但AI代理實際發(fā)出的是關(guān)鍵詞式查詢,存在"語言風(fēng)格不匹配"。使用Q2Q轉(zhuǎn)換后,SPLADE-v3搜索的召回率提高7.34%,準(zhǔn)確率提高7.95%,顯著改善了神經(jīng)網(wǎng)絡(luò)搜索方法的效果。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中東局勢惡化沖擊航空業(yè) 全球旅游股遭受重創(chuàng)

中東局勢惡化沖擊航空業(yè) 全球旅游股遭受重創(chuàng)

財聯(lián)社
2026-03-03 01:16:08
美軍在打擊伊朗的行動中使用了“盧卡斯”自殺式無人機(jī)

美軍在打擊伊朗的行動中使用了“盧卡斯”自殺式無人機(jī)

看航空
2026-03-02 16:54:04
國行 iPhone NFC 即將全面開放 ,終于有希望了!

國行 iPhone NFC 即將全面開放 ,終于有希望了!

果粉易查
2026-03-01 19:10:03
“書記,你一件沖鋒衣頂農(nóng)民一年收成!”女選調(diào)生下鄉(xiāng),卻被威脅

“書記,你一件沖鋒衣頂農(nóng)民一年收成!”女選調(diào)生下鄉(xiāng),卻被威脅

妍妍教育日記
2026-02-04 18:29:23
23歲伊拉克國王費薩爾二世被處決,他的雙腳被砍掉,衣服也被扒光

23歲伊拉克國王費薩爾二世被處決,他的雙腳被砍掉,衣服也被扒光

南權(quán)先生
2026-02-13 15:23:32
8歲男孩確診結(jié)腸癌:他吃的不是零食,是命

8歲男孩確診結(jié)腸癌:他吃的不是零食,是命

消化石醫(yī)生
2026-02-27 07:02:22
“母子落魄吃蛋糕”視頻火了,獲贊過百萬:誰不羨慕這樣的父母?

“母子落魄吃蛋糕”視頻火了,獲贊過百萬:誰不羨慕這樣的父母?

妍妍教育日記
2026-02-25 20:58:43
以10億倍光速一直朝著一個方向飛行,最終能飛出宇宙嗎?

以10億倍光速一直朝著一個方向飛行,最終能飛出宇宙嗎?

宇宙時空
2026-03-01 21:20:03
褚時健到2002年才明白,原來當(dāng)年是得罪了惹不起的那幾位

褚時健到2002年才明白,原來當(dāng)年是得罪了惹不起的那幾位

阿柒的訊
2026-02-24 15:07:34
沒想到有這么多工作需要保密的!網(wǎng)友:首飾什么的也不能帶

沒想到有這么多工作需要保密的!網(wǎng)友:首飾什么的也不能帶

夜深愛雜談
2026-03-02 19:53:28
科威特上空傳出巨大爆炸聲 原因尚不明

科威特上空傳出巨大爆炸聲 原因尚不明

財聯(lián)社
2026-03-02 19:18:06
喜提68萬!孫穎莎賽后發(fā)言有些可怕!王曼昱懂了!

喜提68萬!孫穎莎賽后發(fā)言有些可怕!王曼昱懂了!

最愛乒乓球
2026-03-03 00:05:30
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀萬
2025-05-23 06:05:02
鞍鋼集團(tuán)賈文軍被查

鞍鋼集團(tuán)賈文軍被查

新浪財經(jīng)
2026-03-02 19:53:43
婆婆趕走我媽,搬來我家常住,我天天加班不回家,婆婆傻眼

婆婆趕走我媽,搬來我家常住,我天天加班不回家,婆婆傻眼

i書與房
2026-03-02 20:16:55
伊朗革命衛(wèi)隊發(fā)布血性檄文:哈梅內(nèi)伊殉難是勝利象征,復(fù)仇之手已張開

伊朗革命衛(wèi)隊發(fā)布血性檄文:哈梅內(nèi)伊殉難是勝利象征,復(fù)仇之手已張開

健身狂人
2026-03-01 10:58:21
新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

南權(quán)先生
2026-01-26 15:41:26
輔導(dǎo)員,全部入編

輔導(dǎo)員,全部入編

山東教育
2026-03-01 17:59:48
大年初6,米蘭冬奧會大結(jié)局,最后5金產(chǎn)生,賽程如下,獎牌榜有變

大年初6,米蘭冬奧會大結(jié)局,最后5金產(chǎn)生,賽程如下,獎牌榜有變

大秦壁虎白話體育
2026-02-22 09:02:40
中美沖突升級的下一步,一定是軍事較量,我們要做好全面準(zhǔn)備

中美沖突升級的下一步,一定是軍事較量,我們要做好全面準(zhǔn)備

曾經(jīng)年少
2025-04-14 16:03:33
2026-03-03 02:07:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7408文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

時尚
教育
本地
手機(jī)
公開課

今年春天一定要擁有的4件衣服,太好看了!

教育要聞

特別猛,但在留學(xué)生心中存在感很低的英國大學(xué)!

本地新聞

津南好·四時總相宜

手機(jī)要聞

iPhone 17e發(fā)布:4499元起,e系列首次搭載靈動島

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版