国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

<samp id="sqwko"><kbd id="sqwko"></kbd></samp>

<table id="sqwko"><dl id="sqwko"></dl></table>

<samp id="sqwko"></samp>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴(yán)選
郵箱大師
網(wǎng)易云課堂

注冊免費郵箱

注冊VIP郵箱（特權(quán)郵箱，付費）
免費下載網(wǎng)易官方手機(jī)郵箱應(yīng)用

移動端
網(wǎng)易公開課
網(wǎng)易嚴(yán)選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

愛丁堡大學(xué)：搜索引擎在智能代理"深度研究"中的驚人表現(xiàn)差異

2026-02-27 22:08:08　來源: 科技行者

北京舉報

0

分享至

這項由愛丁堡大學(xué)、格拉斯哥大學(xué)聯(lián)合開展的研究發(fā)表于2026年2月25日的arXiv預(yù)印本平臺，論文編號為arXiv:2602.21456v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

想象你是一個需要解答復(fù)雜問題的智能助手，就像一個超級聰明的研究員，需要在互聯(lián)網(wǎng)的海洋中搜尋信息。但問題是，你使用的搜索工具就像不同品牌的釣魚竿，有些擅長捕撈大魚，有些適合釣小魚，而你面對的"魚塘"環(huán)境也在不斷變化。這正是當(dāng)前人工智能領(lǐng)域一個非常實際的挑戰(zhàn)：當(dāng)AI代理需要進(jìn)行"深度研究"時，現(xiàn)有的文本排序和搜索方法到底表現(xiàn)如何？

深度研究是一個相對較新的概念，可以把它理解為AI版本的"調(diào)查記者"工作。就像優(yōu)秀的記者需要通過多輪深入采訪、交叉驗證信息來完成一篇深度報道一樣，AI代理也需要通過多次搜索、推理和信息整合來回答那些復(fù)雜、需要深入思考的問題。這些問題往往不能通過一次簡單的搜索就得到答案，而需要像拼圖一樣，從不同角度收集信息片段，最終組合成完整的答案。

然而，現(xiàn)有的大多數(shù)研究都依賴于"黑盒子"式的網(wǎng)絡(luò)搜索接口，就像使用一個完全封閉的搜索引擎，你只能輸入問題，得到結(jié)果，卻無法了解內(nèi)部是如何工作的。這種情況讓研究人員很難分析到底是哪個環(huán)節(jié)出了問題，也無法系統(tǒng)地改進(jìn)搜索效果。

為了解決這個問題，愛丁堡大學(xué)的研究團(tuán)隊決定打開這個"黑盒子"，詳細(xì)分析各種文本搜索和排序方法在深度研究場景中的真實表現(xiàn)。他們就像汽車測試工程師一樣，把各種不同的"引擎"放到相同的"測試跑道"上，看看哪種在特定條件下跑得最快、最穩(wěn)定。

這項研究的獨特之處在于，它首次在深度研究的背景下，系統(tǒng)性地比較了多種文本排序方法的效果。研究團(tuán)隊選擇了BrowseComp-Plus這個專門設(shè)計的數(shù)據(jù)集作為"測試跑道"，這個數(shù)據(jù)集包含了830個需要深度思考的復(fù)雜問題，就像830道需要多步解題的數(shù)學(xué)應(yīng)用題。與以往不同的是，這個數(shù)據(jù)集提供了固定的文檔庫和人工驗證的相關(guān)性判斷，讓所有的"選手"都在完全相同的條件下比賽。

研究團(tuán)隊設(shè)計了三個核心研究問題，就像三場不同規(guī)則的比賽。第一場比賽關(guān)注的是"顆粒度"問題：AI代理是應(yīng)該一次性閱讀整篇文檔（就像讀整本書），還是分段閱讀（就像讀書的章節(jié)）？第二場比賽測試的是"二次篩選"的效果：在初步搜索結(jié)果的基礎(chǔ)上，是否需要再進(jìn)行一輪精細(xì)排序？第三場比賽探討的是"語言風(fēng)格匹配"問題：AI代理發(fā)出的搜索指令與搜索工具"習(xí)慣"的指令格式是否匹配？

為了確保測試的公平性和全面性，研究團(tuán)隊選擇了兩個開源的AI代理作為"測試員"：gpt-oss-20b和GLM-4.7-Flash。這兩個代理就像兩個不同風(fēng)格的研究助手，一個擅長在有限的"工作空間"中高效作業(yè)，另一個擁有更大的"工作空間"但需要更多資源。

在搜索工具的選擇上，研究團(tuán)隊覆蓋了目前主流的四大類搜索方法。第一類是傳統(tǒng)的"關(guān)鍵詞匹配"方法BM25，就像傳統(tǒng)的圖書館卡片索引系統(tǒng)，通過精確匹配關(guān)鍵詞來查找信息。第二類是"學(xué)習(xí)型稀疏"方法SPLADE-v3，可以理解為升級版的關(guān)鍵詞搜索，能夠理解詞匯之間的關(guān)聯(lián)性。第三類包括兩種"密集向量"方法RepLLaMA和Qwen3-Embed-8B，它們將文本轉(zhuǎn)換為數(shù)字向量進(jìn)行比較，就像給每個文檔創(chuàng)建一個獨特的"數(shù)字指紋"。第四類是"多向量密集"方法ColBERTv2，可以看作是更精細(xì)的指紋比對系統(tǒng)，能夠在更細(xì)致的層面上進(jìn)行匹配。

在排序優(yōu)化工具方面，研究團(tuán)隊選擇了三種代表不同性能和成本權(quán)衡的方法：相對經(jīng)濟(jì)的monoT5-3B、基于大語言模型的RankLLaMA-7B，以及具有推理能力的Rank1-7B。這就像選擇三種不同級別的"審稿專家"，從快速篩選到深度分析，各有所長。

一、段落級信息單位：小塊拼圖的優(yōu)勢

研究的第一個重要發(fā)現(xiàn)涉及信息處理的基本單位選擇。就像讀書時你可以選擇一章章地讀，也可以選擇一節(jié)節(jié)地讀一樣，AI代理在處理網(wǎng)絡(luò)信息時也面臨類似的選擇：是處理完整的網(wǎng)頁文檔，還是處理分割成小段的文字？

傳統(tǒng)的做法是讓AI代理直接處理完整的網(wǎng)頁文檔，但這帶來了一個實際問題：完整的網(wǎng)頁往往很長，就像一本厚重的百科全書，如果要把整本書的內(nèi)容都塞進(jìn)AI的"工作記憶"中，很快就會超出容量限制。為了解決這個問題，以往的研究通常會截取文檔的前面部分，比如只讀前500個字，然后丟棄后面的內(nèi)容。這就像只讀每本書的前幾頁就下結(jié)論，顯然可能錯過重要信息。

雖然有研究嘗試通過添加"完整文檔閱讀器"來解決這個問題，讓AI代理在需要時可以調(diào)用完整文檔，但這增加了系統(tǒng)的復(fù)雜性，就像給研究員配備一個圖書管理員，雖然有用但增加了操作步驟。

研究團(tuán)隊提出了一個看似簡單但實際很有效的解決方案：將長文檔切分成短小的段落，讓AI代理直接處理這些"信息片段"。這種方法的優(yōu)勢是多方面的。首先，短段落不會占用太多"工作記憶"，讓AI代理能夠進(jìn)行更多輪次的搜索和思考。其次，AI代理可以直接訪問文檔中任何相關(guān)的部分，避免了截取帶來的信息丟失。再次，對于傳統(tǒng)的關(guān)鍵詞搜索方法來說，處理短文本比處理長文本更容易，因為不需要復(fù)雜的長度標(biāo)準(zhǔn)化處理。

實驗結(jié)果證實了這種方法的有效性。以gpt-oss-20b代理為例，當(dāng)使用SPLADE-v3搜索方法時，處理段落級信息比處理文檔級信息的準(zhǔn)確率提高了8.4%，從47.6%提升到51.6%。這種改進(jìn)在具有較小"工作空間"的AI代理身上表現(xiàn)得更加明顯，因為段落級處理讓它們能夠在達(dá)到容量限制之前進(jìn)行更多次的搜索和推理。

有趣的是，這種優(yōu)勢在擁有更大"工作空間"的GLM-4.7-Flash代理身上相對較小，提升幅度約為4%。這說明"工作空間"大小確實是影響這種方法效果的重要因素。同時，研究還發(fā)現(xiàn)，兩個代理在處理段落時都會發(fā)起更多次的搜索調(diào)用，這表明段落級處理確實為更充分的信息探索創(chuàng)造了條件。

更進(jìn)一步的測試表明，當(dāng)為段落級信息配備"完整文檔閱讀器"時，效果反而略有下降。這說明段落級處理本身已經(jīng)能夠提供足夠的信息訪問能力，額外的文檔閱讀器變得多余，就像已經(jīng)有了詳細(xì)的地圖還要攜帶望遠(yuǎn)鏡一樣。

二、傳統(tǒng)關(guān)鍵詞搜索的意外復(fù)出

在這場"搜索工具大比拼"中，最令人意外的結(jié)果之一是傳統(tǒng)關(guān)鍵詞搜索方法BM25的強(qiáng)勢表現(xiàn)。BM25就像是搜索工具中的"老將"，誕生于1990年代，原理相對簡單：通過精確匹配查詢詞匯來尋找相關(guān)文檔。在神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)大行其道的今天，很多人以為這種"古老"的方法已經(jīng)過時了。

然而，實驗結(jié)果顯示，當(dāng)使用gpt-oss-20b代理在段落級信息上搜索時，BM25不僅沒有落后，反而取得了所有測試配置中的最高準(zhǔn)確率：57.2%。這個結(jié)果甚至超過了那些參數(shù)量達(dá)到數(shù)十億的現(xiàn)代神經(jīng)網(wǎng)絡(luò)搜索方法。

這種意外的優(yōu)勢有其深層原因。通過分析AI代理實際發(fā)出的搜索指令，研究人員發(fā)現(xiàn)了一個重要模式：AI代理習(xí)慣于使用"網(wǎng)絡(luò)搜索風(fēng)格"的查詢語句。這些查詢通常包含關(guān)鍵詞、短語和引號標(biāo)記的精確匹配要求，就像我們在Google中輸入"人工智能"+"深度學(xué)習(xí)"+2024這樣的搜索條件。

這種查詢風(fēng)格天然地適合傳統(tǒng)的關(guān)鍵詞匹配方法。BM25就像一個嚴(yán)格按照字典查詞的圖書管理員，當(dāng)你給它精確的關(guān)鍵詞時，它能夠快速找到包含這些詞匯的文檔。相比之下，現(xiàn)代的神經(jīng)網(wǎng)絡(luò)搜索方法更像是一個"理解語義"的助手，它們在處理自然語言問題時表現(xiàn)出色，但面對關(guān)鍵詞式的查詢時反而可能"過度解讀"。

這個發(fā)現(xiàn)具有重要的實踐意義。它提醒我們，在評估搜索技術(shù)時，不能只看方法本身的先進(jìn)程度，還要考慮使用環(huán)境和查詢特點的匹配度。就像不同的鑰匙適合不同的鎖一樣，不同的搜索方法適合不同類型的查詢。

不過，BM25的表現(xiàn)并不是在所有情況下都如此突出。當(dāng)處理完整文檔時，使用標(biāo)準(zhǔn)參數(shù)設(shè)置的BM25表現(xiàn)相對較差。深入分析發(fā)現(xiàn)，這與文檔長度標(biāo)準(zhǔn)化處理有關(guān)。BM25有兩個重要參數(shù)：k1控制詞頻飽和度，b控制文檔長度標(biāo)準(zhǔn)化。對于長文檔，需要適當(dāng)調(diào)整這些參數(shù)才能獲得最佳效果。

當(dāng)研究團(tuán)隊將BM25的參數(shù)從默認(rèn)設(shè)置（k1=0.9, b=0.4）調(diào)整為適合文檔搜索的設(shè)置（k1=3.8, b=0.87）時，性能得到了顯著提升，召回率提高了76.8%，準(zhǔn)確率提高了71.0%。這再次說明，傳統(tǒng)方法在適當(dāng)調(diào)優(yōu)后仍然具有很強(qiáng)的競爭力。

三、小而精的搜索方法勝過大而全

在現(xiàn)代AI發(fā)展中，有一種普遍的觀念認(rèn)為"越大越好"：參數(shù)更多、模型更大的系統(tǒng)通常性能更強(qiáng)。然而，這項研究在文本搜索領(lǐng)域發(fā)現(xiàn)了一個有趣的反例：那些基于BERT模型、參數(shù)量相對較少的搜索方法，在某些方面竟然超過了參數(shù)量達(dá)到數(shù)十億的大型語言模型搜索方法。

具體來說，SPLADE-v3（學(xué)習(xí)型稀疏搜索）和ColBERTv2（多向量密集搜索）這兩種基于BERT的方法，雖然參數(shù)量只有數(shù)千萬到數(shù)億，但在處理AI代理發(fā)出的網(wǎng)絡(luò)搜索風(fēng)格查詢時，consistently表現(xiàn)優(yōu)于那些基于7B或8B參數(shù)大型語言模型的單向量密集搜索方法RepLLaMA和Qwen3-Embed-8B。

這種現(xiàn)象的出現(xiàn)有其技術(shù)原因。SPLADE-v3和ColBERTv2都具有更強(qiáng)的"精確匹配"能力。SPLADE-v3雖然是學(xué)習(xí)型方法，但它保持了稀疏向量的特性，這意味著它在處理關(guān)鍵詞和精確匹配時仍然保留了傳統(tǒng)方法的優(yōu)勢。ColBERTv2采用多向量方法，能夠在更細(xì)致的層面上進(jìn)行文本匹配，特別適合處理需要精確匹配的查詢。

相比之下，單向量密集搜索方法雖然在理解語義和處理自然語言方面有優(yōu)勢，但在面對關(guān)鍵詞驅(qū)動的查詢時可能"想得太多"。就像一個過于聰明的學(xué)生，在回答簡單的選擇題時反而會過度分析，錯過正確答案。

這個發(fā)現(xiàn)對搜索技術(shù)的發(fā)展具有重要啟示。它表明，在特定應(yīng)用場景中，"適配性"比"復(fù)雜性"更重要。一個在通用自然語言理解任務(wù)上表現(xiàn)卓越的大模型，在特定的搜索任務(wù)中可能不如專門針對該任務(wù)優(yōu)化的小模型。

同時，這也提醒我們在選擇AI工具時要考慮任務(wù)特點。如果你的應(yīng)用主要涉及關(guān)鍵詞搜索和精確匹配，那么選擇專門優(yōu)化過的小模型可能比使用通用大模型更有效，同時還能節(jié)省計算資源。

四、二次排序的強(qiáng)化效應(yīng)

在信息檢索中，通常會采用"兩階段"策略：首先用相對簡單快速的方法從大量文檔中篩選出候選文檔，然后用更精細(xì)但計算量更大的方法對候選文檔進(jìn)行重新排序。這就像先用粗篩網(wǎng)過濾掉大塊雜質(zhì)，再用細(xì)篩網(wǎng)精選出最優(yōu)質(zhì)的部分。

研究結(jié)果顯示，這種二次排序策略在深度研究場景中表現(xiàn)出色。以gpt-oss-20b代理配合BM25初次搜索和monoT5-3B重排序為例，相比只使用BM25搜索，加入重排序后召回率提高了16.23%，準(zhǔn)確率提高了20.45%，同時搜索調(diào)用次數(shù)還減少了10.98%。

最令人印象深刻的是，這種相對"經(jīng)濟(jì)"的組合竟然達(dá)到了71.6%的召回率和68.9%的準(zhǔn)確率，接近使用商業(yè)頂級模型GPT-5的70.1%準(zhǔn)確率。這說明，通過合理的技術(shù)組合，即使使用相對簡單的工具也能達(dá)到接近頂級商業(yè)服務(wù)的效果。

重排序效果的提升遵循幾個有趣的規(guī)律。首先，"重排序深度"越大，效果通常越好。重排序深度指的是對多少個初步結(jié)果進(jìn)行重新排序。從重排序前10個結(jié)果增加到20個，再到50個，準(zhǔn)確率逐步提升。這就像藝術(shù)品鑒定，看得越多，選出精品的可能性越大。

其次，初始搜索方法的質(zhì)量會影響重排序的效果。更強(qiáng)的初始搜索為重排序提供了更好的"原材料"，就像用優(yōu)質(zhì)食材更容易烹飪出美味佳肴。當(dāng)使用BM25作為初始搜索時，配合monoT5重排序的效果比使用Qwen3-Embed-8B作為初始搜索時好得多。

有趣的是，基于推理的重排序方法Rank1-7B并沒有表現(xiàn)出預(yù)期的優(yōu)勢。這種方法會在做出判斷前先"思考"一番，生成推理過程，然后再給出相關(guān)性評分。理論上這應(yīng)該更準(zhǔn)確，但實際測試中它的表現(xiàn)與不進(jìn)行推理的方法差不多，有時甚至更差。

分析發(fā)現(xiàn)，問題出現(xiàn)在查詢風(fēng)格的不匹配上。Rank1-7B是在自然語言問題上訓(xùn)練的，當(dāng)面對AI代理發(fā)出的關(guān)鍵詞式查詢時，它的"推理"能力反而成了負(fù)擔(dān)。就像一個習(xí)慣于分析復(fù)雜文學(xué)作品的教授，在面對簡單的詞匯測試時可能反而發(fā)揮不好，因為過度分析導(dǎo)致誤解了題目意圖。

五、語言風(fēng)格的隱秘影響

研究的第三個重要發(fā)現(xiàn)涉及一個往往被忽視但影響深遠(yuǎn)的問題：AI代理發(fā)出的搜索查詢與搜索工具期望的查詢格式之間可能存在"溝通障礙"。這就像一個習(xí)慣說方言的人與只懂普通話的服務(wù)員交流，即使表達(dá)的是同樣的需求，理解效果也可能大打折扣。

現(xiàn)代的神經(jīng)網(wǎng)絡(luò)搜索方法大多在MS MARCO等數(shù)據(jù)集上訓(xùn)練，這些數(shù)據(jù)集包含的查詢都是自然語言問題，比如"什么是人工智能？"或"如何制作巧克力蛋糕？"這些問題語法完整，表達(dá)清晰，就像標(biāo)準(zhǔn)的客服詢問。

然而，AI代理在實際工作中發(fā)出的查詢卻很不一樣。它們更像是網(wǎng)絡(luò)搜索風(fēng)格的關(guān)鍵詞組合，比如"人工智能"定義 OR "機(jī)器學(xué)習(xí)"基礎(chǔ)概念，或者"巧克力蛋糕"制作方法"簡單"。這些查詢包含引號標(biāo)記的精確匹配要求、關(guān)鍵詞組合和特殊符號，更像是搜索引擎的高級語法。

為了測試這種"語言風(fēng)格不匹配"的影響，研究團(tuán)隊開發(fā)了一個"查詢到問題"（Q2Q）的轉(zhuǎn)換方法。這個方法就像一個翻譯器，能夠?qū)I代理發(fā)出的關(guān)鍵詞式查詢轉(zhuǎn)換為自然語言問題。

轉(zhuǎn)換的效果確實顯著。以SPLADE-v3搜索為例，使用轉(zhuǎn)換后的自然語言問題進(jìn)行搜索，召回率提高了7.34%，準(zhǔn)確率提高了7.95%。這種改進(jìn)在需要語義理解的神經(jīng)網(wǎng)絡(luò)搜索方法上特別明顯，而對傳統(tǒng)的關(guān)鍵詞匹配方法BM25影響不大，甚至略有負(fù)面影響。

這個發(fā)現(xiàn)揭示了一個重要問題：搜索工具的訓(xùn)練數(shù)據(jù)與實際應(yīng)用場景之間可能存在顯著差異。許多看似先進(jìn)的搜索技術(shù)在實驗室環(huán)境中表現(xiàn)出色，但在實際應(yīng)用中可能因為查詢風(fēng)格的不匹配而效果打折。

研究還發(fā)現(xiàn)，轉(zhuǎn)換方法的效果取決于能否準(zhǔn)確把握AI代理的搜索意圖。僅基于查詢本身的轉(zhuǎn)換效果有限，因為關(guān)鍵詞式查詢往往信息不夠充分，容易產(chǎn)生歧義。但如果結(jié)合AI代理的推理過程進(jìn)行轉(zhuǎn)換，效果就會明顯改善。這就像了解了說話者的背景和上下文后，能夠更準(zhǔn)確地理解其真實意圖。

六、文檔長度處理的技術(shù)細(xì)節(jié)

在深入分析BM25方法的表現(xiàn)時，研究團(tuán)隊發(fā)現(xiàn)了一個重要的技術(shù)細(xì)節(jié)：文檔長度標(biāo)準(zhǔn)化參數(shù)的設(shè)置對搜索效果有著決定性影響。這個看似技術(shù)性的發(fā)現(xiàn)實際上揭示了傳統(tǒng)搜索方法仍然具有強(qiáng)大潛力，關(guān)鍵在于正確的調(diào)優(yōu)。

BM25方法使用兩個核心參數(shù)來平衡搜索效果。參數(shù)k1控制詞頻飽和度，可以理解為"關(guān)鍵詞出現(xiàn)多少次才算夠"的閾值。參數(shù)b控制文檔長度標(biāo)準(zhǔn)化，決定長文檔相對于短文檔的"懲罰程度"。在處理網(wǎng)頁文檔這樣的長文本時，這些參數(shù)的設(shè)置變得尤為重要。

使用傳統(tǒng)的默認(rèn)參數(shù)設(shè)置（k1=0.9, b=0.4）時，BM25在完整文檔上的表現(xiàn)確實不佳，這也是為什么許多研究認(rèn)為傳統(tǒng)方法已經(jīng)過時的原因。然而，當(dāng)研究團(tuán)隊調(diào)整為適合文檔搜索的參數(shù)（k1=3.8, b=0.87）時，性能出現(xiàn)了戲劇性的改善。

這種改善的幅度是驚人的：召回率提高了76.8%，準(zhǔn)確率提高了71.0%。這種程度的性能提升足以改變我們對傳統(tǒng)搜索方法的整體評價。更有趣的是，當(dāng)研究團(tuán)隊嘗試將每個文檔只索引前512個詞時，BM25的性能也得到了顯著提升，召回率提高64.2%，準(zhǔn)確率提高98.1%。

這些結(jié)果說明，BM25方法本身并沒有過時，問題出在參數(shù)設(shè)置上。就像一輛好車配了不合適的輪胎，性能自然發(fā)揮不出來。一旦選對了"輪胎"，這輛"老車"仍然能夠跑得很快。

通過系統(tǒng)性的參數(shù)網(wǎng)格搜索，研究團(tuán)隊發(fā)現(xiàn)在處理BrowseComp-Plus數(shù)據(jù)集時，較大的b值（接近1.0）通常能帶來更好的效果，這意味著對長文檔進(jìn)行更嚴(yán)格的"懲罰"是有益的。同時，k1值在較大范圍內(nèi)都能保持良好效果，說明這個參數(shù)相對不敏感。

這個發(fā)現(xiàn)對實際應(yīng)用具有重要指導(dǎo)意義。它提醒我們在使用任何搜索技術(shù)時，都應(yīng)該根據(jù)具體的數(shù)據(jù)特點和應(yīng)用場景進(jìn)行適當(dāng)?shù)膮?shù)調(diào)優(yōu)，而不是簡單地使用默認(rèn)設(shè)置。同時，它也說明新技術(shù)與傳統(tǒng)方法的比較應(yīng)該在公平的條件下進(jìn)行，包括為每種方法選擇最優(yōu)的參數(shù)設(shè)置。

七、計算資源與效果的平衡

這項研究的一個重要價值在于它提供了不同技術(shù)方案在效果和計算成本之間的權(quán)衡分析。在實際應(yīng)用中，最先進(jìn)的技術(shù)并不總是最佳選擇，因為還需要考慮計算資源、響應(yīng)速度和部署復(fù)雜度等因素。

研究結(jié)果顯示，相對簡單的技術(shù)組合能夠達(dá)到接近頂級商業(yè)服務(wù)的效果。使用20B參數(shù)的gpt-oss-20b代理、傳統(tǒng)的BM25搜索方法和3B參數(shù)的monoT5重排序器，這個"經(jīng)濟(jì)型"組合實現(xiàn)了68.9%的準(zhǔn)確率，非常接近使用先進(jìn)商業(yè)模型GPT-5的70.1%準(zhǔn)確率。

這種"性價比"優(yōu)勢在資源受限的環(huán)境中特別有價值。對于許多研究機(jī)構(gòu)和初創(chuàng)公司來說，部署和運行大型商業(yè)模型的成本可能是一個重要考慮因素。研究結(jié)果表明，通過精心設(shè)計的技術(shù)組合，可以用相對較小的成本獲得接近頂級的性能。

段落級信息處理在這個平衡中也發(fā)揮了重要作用。通過將長文檔分割成短段落，不僅提高了搜索準(zhǔn)確性，還減少了每次處理的計算量，讓AI代理能夠在相同的計算預(yù)算下進(jìn)行更多輪次的搜索和推理。這種方法特別適合那些內(nèi)存或處理能力有限的環(huán)境。

同時，研究還發(fā)現(xiàn)重排序深度的選擇存在邊際收益遞減的規(guī)律。雖然更深度的重排序通常能帶來更好的效果，但改善幅度會逐步下降，而計算成本卻會持續(xù)上升。這提示實際應(yīng)用中需要根據(jù)具體需求找到最優(yōu)的深度設(shè)置點。

研究團(tuán)隊還測試了不同重排序方法的效率差異?；谕评淼腞ank1方法雖然理論上更智能，但需要生成額外的推理文本，計算成本明顯高于簡單的判斷型重排序方法，而效果提升卻有限。這再次說明，在實際應(yīng)用中需要綜合考慮效果和效率。

八、完整文檔閱讀器的補(bǔ)充作用

為了應(yīng)對文檔截取可能導(dǎo)致的信息丟失問題，一些研究引入了"完整文檔閱讀器"工具。這種工具允許AI代理在需要時調(diào)用完整文檔進(jìn)行深度閱讀，就像給研究員配備一個可以隨時調(diào)用的詳細(xì)資料庫。

實驗結(jié)果顯示，這種工具在不同情況下發(fā)揮著不同的作用。當(dāng)使用完整文檔作為基本信息單位時，添加完整文檔閱讀器能夠部分補(bǔ)償文檔截取帶來的信息損失。比如，使用gpt-oss-20b代理配合SPLADE-v3搜索時，啟用文檔閱讀器后準(zhǔn)確率從47.6%提升到52.9%。

這種改善的原理是顯而易見的：截取的文檔可能恰好遺漏了關(guān)鍵信息，而完整文檔閱讀器能夠提供完整的上下文。同時，有了這個工具后，AI代理的搜索策略也會相應(yīng)調(diào)整，搜索次數(shù)有所減少，因為它知道可以通過深度閱讀獲得更多信息。

然而，當(dāng)基本信息單位改為段落時，完整文檔閱讀器的作用就變得很有限，甚至略有負(fù)面影響。使用gpt-oss-20b配合BM25搜索段落時，啟用文檔閱讀器后準(zhǔn)確率從57.2%略微下降到54.2%。

這種差異的原因在于段落級處理本身已經(jīng)解決了信息訪問的問題。通過搜索段落，AI代理實際上已經(jīng)能夠訪問到文檔中的任何相關(guān)部分，完整文檔閱讀器變得多余。更糟糕的是，額外的工具選擇可能干擾AI代理的決策過程，就像選擇過多反而讓人猶豫不決一樣。

這個發(fā)現(xiàn)對系統(tǒng)設(shè)計具有重要啟示：工具并非越多越好，關(guān)鍵是要根據(jù)基礎(chǔ)架構(gòu)的特點來配置輔助工具。當(dāng)基礎(chǔ)架構(gòu)已經(jīng)能夠很好地解決某個問題時，額外的解決方案可能不僅無助，還可能產(chǎn)生干擾。

九、訓(xùn)練數(shù)據(jù)與應(yīng)用場景的適配性

研究的一個重要貢獻(xiàn)是深入分析了訓(xùn)練數(shù)據(jù)與實際應(yīng)用場景之間的匹配度問題。這個問題在機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)常被提及，但在文本搜索的深度研究應(yīng)用中還缺乏系統(tǒng)性的分析。

大多數(shù)現(xiàn)代神經(jīng)網(wǎng)絡(luò)搜索方法都是在MS MARCO等標(biāo)準(zhǔn)數(shù)據(jù)集上訓(xùn)練的，這些數(shù)據(jù)集的查詢具有明顯的特點：它們是完整的自然語言問題，語法規(guī)范，表達(dá)清晰。比如"紐約的人口是多少？"或"如何預(yù)防感冒？"這樣的問題。

但AI代理在深度研究任務(wù)中發(fā)出的查詢卻很不一樣。通過對實際查詢的分析，研究團(tuán)隊發(fā)現(xiàn)AI代理更傾向于使用關(guān)鍵詞組合、引號標(biāo)記和特殊搜索語法，就像經(jīng)驗豐富的搜索引擎用戶會做的那樣。比如"紐約"人口統(tǒng)計 2024，或者"感冒預(yù)防"方法"有效"。

這種風(fēng)格差異導(dǎo)致了一個有趣的現(xiàn)象：那些在標(biāo)準(zhǔn)評測中表現(xiàn)優(yōu)異的先進(jìn)搜索方法，在面對AI代理的實際查詢時可能發(fā)揮不佳。就像一個只習(xí)慣于處理正式商業(yè)郵件的助理，在面對簡短的即時消息時可能理解出現(xiàn)偏差。

查詢到問題（Q2Q）轉(zhuǎn)換方法的成功證明了這種匹配度的重要性。通過將AI代理的關(guān)鍵詞式查詢轉(zhuǎn)換為自然語言問題，神經(jīng)網(wǎng)絡(luò)搜索方法的表現(xiàn)得到了顯著改善。這種改善不是因為查詢內(nèi)容的變化，而是因為表達(dá)方式更符合搜索模型的"期待"。

更深入的分析顯示，僅僅基于查詢本身的轉(zhuǎn)換效果有限，因為關(guān)鍵詞式查詢往往信息不夠充分。但如果結(jié)合AI代理的推理上下文進(jìn)行轉(zhuǎn)換，效果會明顯改善。這說明理解查詢的真實意圖比簡單的格式轉(zhuǎn)換更重要。

這個發(fā)現(xiàn)對搜索技術(shù)的未來發(fā)展具有重要啟示。隨著AI代理的廣泛應(yīng)用，搜索系統(tǒng)需要適應(yīng)新的查詢模式。未來的搜索技術(shù)應(yīng)該考慮在訓(xùn)練階段就包含多樣化的查詢風(fēng)格，或者開發(fā)能夠自適應(yīng)不同查詢風(fēng)格的技術(shù)。

說到底，這項來自愛丁堡大學(xué)和格拉斯哥大學(xué)的研究為我們打開了一個全新的視角。它不僅系統(tǒng)性地評估了各種文本搜索技術(shù)在深度研究場景中的表現(xiàn)，更重要的是揭示了一系列違反直覺的發(fā)現(xiàn)：傳統(tǒng)方法在適當(dāng)調(diào)優(yōu)后仍然具有強(qiáng)大競爭力，小而精的技術(shù)有時勝過大而全的系統(tǒng)，技術(shù)組合的效果可能超過單一先進(jìn)技術(shù)。

這些發(fā)現(xiàn)對AI系統(tǒng)的實際部署具有重要的指導(dǎo)價值。它提醒我們在追求技術(shù)先進(jìn)性的同時，不要忽視實用性和適配性。最好的技術(shù)不一定是最復(fù)雜的技術(shù)，而是最適合特定應(yīng)用場景的技術(shù)。同時，它也說明了基礎(chǔ)研究的重要性：只有通過系統(tǒng)性的實驗和分析，才能真正理解技術(shù)的優(yōu)勢和局限，為實際應(yīng)用提供可靠的指導(dǎo)。

隨著AI代理在各個領(lǐng)域的廣泛應(yīng)用，類似的深度研究將變得越來越重要。我們需要更多這樣的系統(tǒng)性研究來幫助我們理解和優(yōu)化AI系統(tǒng)的各個組件，確保它們能夠在真實環(huán)境中發(fā)揮最佳效果。畢竟，技術(shù)的價值最終要在實際應(yīng)用中得到體現(xiàn)。

對于普通用戶而言，這項研究也傳遞了一個重要信息：在選擇和使用AI工具時，需要考慮工具與你的使用習(xí)慣和需求特點的匹配度。就像選擇合適的搜索策略一樣，理解工具的特性并相應(yīng)調(diào)整使用方式，往往能獲得更好的效果。

Q&A

Q1：深度研究中的段落級處理相比完整文檔處理有什么優(yōu)勢？

A：段落級處理有四個主要優(yōu)勢。首先，短段落不會占用AI代理太多"工作記憶"，讓它能進(jìn)行更多輪搜索和思考；其次，AI代理可以直接訪問文檔中任何相關(guān)部分，避免截取導(dǎo)致的信息丟失；再次，傳統(tǒng)搜索方法處理短文本比長文本更容易，不需要復(fù)雜的長度標(biāo)準(zhǔn)化；最后，現(xiàn)有的神經(jīng)網(wǎng)絡(luò)搜索技術(shù)大多針對段落級輸入進(jìn)行優(yōu)化。實驗顯示，gpt-oss-20b使用段落處理比文檔處理準(zhǔn)確率提高8.4%。

Q2：為什么傳統(tǒng)的BM25搜索方法在深度研究中表現(xiàn)這么好？

A：BM25表現(xiàn)出色主要因為AI代理的查詢風(fēng)格與其特點高度匹配。AI代理習(xí)慣發(fā)出"網(wǎng)絡(luò)搜索風(fēng)格"的關(guān)鍵詞查詢，包含精確匹配、關(guān)鍵詞組合和特殊符號，這正是BM25擅長處理的。相比之下，現(xiàn)代神經(jīng)網(wǎng)絡(luò)搜索方法更適合自然語言問題，面對關(guān)鍵詞查詢時反而可能"過度解讀"。實驗中，gpt-oss-20b配合BM25在段落搜索中達(dá)到了57.2%的最高準(zhǔn)確率，超過了參數(shù)量達(dá)數(shù)十億的神經(jīng)網(wǎng)絡(luò)方法。

Q3：什么是查詢到問題轉(zhuǎn)換方法，它為什么有效？

A：查詢到問題（Q2Q）轉(zhuǎn)換方法是將AI代理發(fā)出的關(guān)鍵詞式查詢轉(zhuǎn)換為自然語言問題的技術(shù)。比如將"人工智能"定義轉(zhuǎn)換為"什么是人工智能？"這種方法有效是因為現(xiàn)代神經(jīng)網(wǎng)絡(luò)搜索方法大多在自然語言問題上訓(xùn)練，但AI代理實際發(fā)出的是關(guān)鍵詞式查詢，存在"語言風(fēng)格不匹配"。使用Q2Q轉(zhuǎn)換后，SPLADE-v3搜索的召回率提高7.34%，準(zhǔn)確率提高7.95%，顯著改善了神經(jīng)網(wǎng)絡(luò)搜索方法的效果。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

GPT-5.4據(jù)傳下周上線！200萬上下文窗口+持久化狀態(tài)，告別頻繁遺忘

新智元 2026-03-02 12:34:52
3 跟貼 3
Claude祭出「記憶搬家」，60秒搬空ChatGPT靈魂！70萬用戶退訂OpenAI

新智元 2026-03-02 12:35:56
7 跟貼 7

Cursor：AI編程「第三時代」來了

機(jī)器之心Pro 2026-03-02 17:07:37
1 跟貼 1

當(dāng)模型開始長出平臺：MiniMax的轉(zhuǎn)身時刻

華爾街見聞官方 2026-03-02 19:18:03
0 跟貼 0
CL-Bench的故事沒有結(jié)束，生成式CL-Bench：GENIUS來了

機(jī)器之心Pro 2026-03-02 17:46:26
0 跟貼 0

編程奇點逼近，程序員斬殺線就在眼前！軟件版YouTube時刻在發(fā)生

新智元 2026-03-02 20:14:21
0 跟貼 0

從“起大早趕大集”到“帶領(lǐng)行業(yè)趕大集”：百度引領(lǐng)AI內(nèi)化時代

每日經(jīng)濟(jì)新聞 2025-11-13 16:41:39
0 跟貼 0
中國創(chuàng)造一門新編程語言的黃金時代來了？

虎嗅APP 2025-12-23 03:54:05
0 跟貼 0

參加完百度世界大會，我終于理解了「內(nèi)化 AI」的正確打開方式

愛范兒 2025-11-13 18:01:50
0 跟貼 0
行業(yè)最大規(guī)模具身數(shù)據(jù)集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
行業(yè)最大規(guī)模具身數(shù)據(jù)集！出自簡智機(jī)器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
閆俊杰定調(diào)2026年AI勝負(fù)手

智東西 2026-03-03 00:25:13
0 跟貼 0
花一萬元植入DeepSeek，一場沒有終點的流量游戲

36氪 2025-09-05 13:09:55
3 跟貼 3
有了GEO還有必要做SEO嗎？

鈦媒體APP 2025-10-29 17:49:07
0 跟貼 0
人大&通義：IterResearch用40K上下文輕松實現(xiàn)2048輪交互不退化

機(jī)器之心Pro 2026-03-02 19:18:23
0 跟貼 0
杠桿式輔助工具

花狐貂先生 2026-02-27 07:18:07
1 跟貼 1
美團(tuán)殺入AI瀏覽器！

智東西 2026-03-02 20:12:12
0 跟貼 0
年輕人的“答案之書”，三個字

每日人物 2026-02-27 09:05:07
0 跟貼 0
我變懶，小紅書全責(zé)

花兒街參考 2026-02-26 22:34:23
0 跟貼 0
極氪公布春節(jié)十大獵裝旅行路線，揭秘深度自駕游版圖

魯中晨報 2026-02-26 12:29:41
15583 跟貼 15583
河南一豫劇團(tuán)冒雪堅持演出2小時，臺下觀眾寥寥，卻有3萬網(wǎng)友在線圍觀

環(huán)球網(wǎng)資訊 2026-03-02 17:46:01
64 跟貼 64
上千部違禁境外劇“唾手可得”，社科院建議：壓實平臺責(zé)任

大象新聞 2026-03-02 12:18:25
1027 跟貼 1027
Alec Radford新作：給大模型做腦部手術(shù)，知識重學(xué)成本暴增7000倍

機(jī)器之心Pro 2026-03-02 14:24:39
0 跟貼 0
不同社交平臺上的用戶都喜歡看什么汽車內(nèi)容？

駕仕派 2026-03-02 12:07:59
0 跟貼 0
山東省濟(jì)南市政府黨組成員、副市長謝堃接受紀(jì)律審查和監(jiān)察調(diào)查

中央紀(jì)委國家監(jiān)委網(wǎng)站 2026-03-02 10:06:45
3 跟貼 3
年前100多元一斤，年后價格腰斬！有湖北人已迫不及待下單

環(huán)球網(wǎng)資訊 2026-02-27 09:52:19
525 跟貼 525
男子爬到何仙姑雕像頭頂拍照，山東蓬萊閣景區(qū)回應(yīng)：“八仙過?！笔駥儆诠矃^(qū)域無人值守，后續(xù)會加強(qiáng)巡邏

三湘都市報 2026-02-28 13:37:39
960 跟貼 960
Dense、MoE之外第三條Scaling路徑：交大提出JTok模塊，省1/3算力

機(jī)器之心Pro 2026-03-02 18:55:21
0 跟貼 0
上海著名主持人直播中淚目！中東戰(zhàn)火下，有人平安返航、有人新婚分離、有人只想回家

新民晚報 2026-03-02 14:52:26
355 跟貼 355
京東「再造」京東

機(jī)器之心Pro 2026-01-21 18:07:25
0 跟貼 0
寧波一旅游團(tuán)所乘郵輪滯留迪拜，船上有約200名中國游客

上觀新聞 2026-03-02 16:27:07
354 跟貼 354
開學(xué)了！上海182萬中小學(xué)生迎來“超短學(xué)期”

澎湃新聞 2026-03-02 09:24:31
351 跟貼 351
歐洲天然氣價格漲幅擴(kuò)大至42%，創(chuàng)2022年3月以來最大漲幅

每日經(jīng)濟(jì)新聞 2026-03-02 20:22:09
35 跟貼 35
找平激光水平儀輔助工具

白了又了白 2026-03-01 13:29:34
1 跟貼 1
中國軍號：我們不期待，但絕不懼怕

上觀新聞 2026-03-02 06:59:20
508 跟貼 508
“滬七條”新政首周末顯效，申城樓市迎來看房熱潮

上觀新聞 2026-03-02 09:57:07
124 跟貼 124
從匹配困境到推理突破：阿里REG4Rec 激活生成式推薦的個性化潛力

機(jī)器之心Pro 2026-03-02 16:10:32
0 跟貼 0
被語音助手誤關(guān)大燈，男子凌晨高速撞上護(hù)欄！領(lǐng)克態(tài)度真沒想到

云舟史策 2026-02-28 19:54:00
12 跟貼 12
余承東曝光問界M6七款車色，滿足年輕用戶綜合需求

融煤資訊 2026-02-28 04:09:22
4 跟貼 4
專家呼吁：國家層面盡快出臺充電樁安裝統(tǒng)一標(biāo)準(zhǔn)

中國能源網(wǎng) 2026-03-02 15:40:06
52 跟貼 52

中東局勢惡化沖擊航空業(yè) 全球旅游股遭受重創(chuàng)

中東局勢惡化沖擊航空業(yè) 全球旅游股遭受重創(chuàng)

財聯(lián)社

2026-03-03 01:16:08

美軍在打擊伊朗的行動中使用了“盧卡斯”自殺式無人機(jī)

美軍在打擊伊朗的行動中使用了“盧卡斯”自殺式無人機(jī)

看航空

2026-03-02 16:54:04

國行 iPhone NFC 即將全面開放，終于有希望了！

國行 iPhone NFC 即將全面開放，終于有希望了！

果粉易查

2026-03-01 19:10:03

“書記，你一件沖鋒衣頂農(nóng)民一年收成！”女選調(diào)生下鄉(xiāng)，卻被威脅

“書記，你一件沖鋒衣頂農(nóng)民一年收成！”女選調(diào)生下鄉(xiāng)，卻被威脅

妍妍教育日記

2026-02-04 18:29:23

23歲伊拉克國王費薩爾二世被處決，他的雙腳被砍掉，衣服也被扒光

23歲伊拉克國王費薩爾二世被處決，他的雙腳被砍掉，衣服也被扒光

南權(quán)先生

2026-02-13 15:23:32

8歲男孩確診結(jié)腸癌：他吃的不是零食，是命

8歲男孩確診結(jié)腸癌：他吃的不是零食，是命

消化石醫(yī)生

2026-02-27 07:02:22

“母子落魄吃蛋糕”視頻火了，獲贊過百萬：誰不羨慕這樣的父母？

“母子落魄吃蛋糕”視頻火了，獲贊過百萬：誰不羨慕這樣的父母？

妍妍教育日記

2026-02-25 20:58:43

以10億倍光速一直朝著一個方向飛行，最終能飛出宇宙嗎？

以10億倍光速一直朝著一個方向飛行，最終能飛出宇宙嗎？

宇宙時空

2026-03-01 21:20:03

褚時健到2002年才明白，原來當(dāng)年是得罪了惹不起的那幾位

褚時健到2002年才明白，原來當(dāng)年是得罪了惹不起的那幾位

阿柒的訊

2026-02-24 15:07:34

沒想到有這么多工作需要保密的！網(wǎng)友：首飾什么的也不能帶

沒想到有這么多工作需要保密的！網(wǎng)友：首飾什么的也不能帶

夜深愛雜談

2026-03-02 19:53:28

科威特上空傳出巨大爆炸聲原因尚不明

科威特上空傳出巨大爆炸聲原因尚不明

財聯(lián)社

2026-03-02 19:18:06

喜提68萬！孫穎莎賽后發(fā)言有些可怕！王曼昱懂了！

喜提68萬！孫穎莎賽后發(fā)言有些可怕！王曼昱懂了！

最愛乒乓球

2026-03-03 00:05:30

“大尺度”女星的瓜！

文刀萬

2025-05-23 06:05:02

鞍鋼集團(tuán)賈文軍被查

鞍鋼集團(tuán)賈文軍被查

新浪財經(jīng)

2026-03-02 19:53:43

婆婆趕走我媽，搬來我家常住，我天天加班不回家，婆婆傻眼

婆婆趕走我媽，搬來我家常住，我天天加班不回家，婆婆傻眼

i書與房

2026-03-02 20:16:55

伊朗革命衛(wèi)隊發(fā)布血性檄文：哈梅內(nèi)伊殉難是勝利象征，復(fù)仇之手已張開

伊朗革命衛(wèi)隊發(fā)布血性檄文：哈梅內(nèi)伊殉難是勝利象征，復(fù)仇之手已張開

健身狂人

2026-03-01 10:58:21

新加坡急了，外長幾乎是拍著桌子，讓中國“尊重”馬六甲的地位。

新加坡急了，外長幾乎是拍著桌子，讓中國“尊重”馬六甲的地位。

南權(quán)先生

2026-01-26 15:41:26

輔導(dǎo)員，全部入編

山東教育

2026-03-01 17:59:48

大年初6，米蘭冬奧會大結(jié)局，最后5金產(chǎn)生，賽程如下，獎牌榜有變

大年初6，米蘭冬奧會大結(jié)局，最后5金產(chǎn)生，賽程如下，獎牌榜有變

大秦壁虎白話體育

2026-02-22 09:02:40

中美沖突升級的下一步，一定是軍事較量，我們要做好全面準(zhǔn)備

中美沖突升級的下一步，一定是軍事較量，我們要做好全面準(zhǔn)備

曾經(jīng)年少

2025-04-14 16:03:33

科技正在如何變革商業(yè)世界

7408文章數(shù) 553關(guān)注度

往期回顧全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e，4499元起

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后決定盡快撤離

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解只有一條真心話短信

財經(jīng)要聞

油價飆升美伊沖突將如何攪動全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

教育

本地

手機(jī)

公開課

今年春天一定要擁有的4件衣服，太好看了！

教育要聞

特別猛，但在留學(xué)生心中存在感很低的英國大學(xué)！

本地新聞

津南好·四時總相宜

手機(jī)要聞

iPhone 17e發(fā)布：4499元起，e系列首次搭載靈動島

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產(chǎn)30天

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權(quán)投訴

無障礙瀏覽進(jìn)入關(guān)懷版

<blockquote id="ecsmy"></blockquote>

<abbr id="ecsmy"></abbr>