国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

檢索做大,生成做輕:CMU團(tuán)隊系統(tǒng)評測RAG的語料與模型權(quán)衡

0
分享至



在檢索增強(qiáng)生成中,擴(kuò)大生成模型規(guī)模往往能提升準(zhǔn)確率,但也會顯著抬高推理成本與部署門檻。CMU 團(tuán)隊在固定提示模板、上下文組織方式與證據(jù)預(yù)算,并保持檢索與解碼設(shè)置不變的前提下,系統(tǒng)比較了生成模型規(guī)模與檢索語料規(guī)模的聯(lián)合效應(yīng),發(fā)現(xiàn)擴(kuò)充檢索語料能夠穩(wěn)定增強(qiáng) RAG,并在多項開放域問答基準(zhǔn)上讓小中型模型在更大語料下達(dá)到甚至超過更大模型在較小語料下的表現(xiàn),同時在更高語料規(guī)模處呈現(xiàn)清晰的邊際收益遞減。更進(jìn)一步,研究不僅刻畫了隨語料擴(kuò)容而變化的性能增益,也揭示了若干相對穩(wěn)定的不變規(guī)律。

在開放域問答等知識密集型任務(wù)中,檢索增強(qiáng)生成(RAG)已經(jīng)成為主流范式之一。它通過先檢索外部文檔,再讓大語言模型基于證據(jù)生成答案,從而緩解純參數(shù)記憶帶來的幻覺與事實錯誤。然而,近年來提升 RAG 的常見路徑往往集中在擴(kuò)大生成模型規(guī)模,準(zhǔn)確率確實會上升,但推理成本與部署門檻也隨之顯著提高。對于希望在有限算力下落地的系統(tǒng)而言,一個更現(xiàn)實的問題是:在不繼續(xù)擴(kuò)大模型參數(shù)的前提下,是否還有同樣有效的提升空間。



卡內(nèi)基梅隆大學(xué)計算機(jī)學(xué)院團(tuán)隊在最新 ECIR 接收論文中給出了一個清晰的回答。他們把關(guān)注點從更大的模型轉(zhuǎn)向更大的檢索語料,系統(tǒng)評估了語料規(guī)模與生成模型規(guī)模之間的替代關(guān)系,并提出了可操作的權(quán)衡框架。核心觀點為,擴(kuò)大檢索語料通??梢燥@著增強(qiáng) RAG,且在不少設(shè)置下,這種增強(qiáng)效果可以部分替代擴(kuò)大模型參數(shù)帶來的收益,但在更大語料規(guī)模處會出現(xiàn)邊際收益遞減。



  • 論文標(biāo)題:Less LLM, More Documents: Searching for Improved RAG
  • 論文鏈接:https://arxiv.org/pdf/2510.02657

從問題出發(fā):RAG 的另一條擴(kuò)展軸

RAG 的效果由兩部分共同決定。檢索模塊負(fù)責(zé)把可能包含答案的證據(jù)送到模型上下文中;生成模型負(fù)責(zé)理解問題、整合證據(jù)并形成答案。擴(kuò)大模型參數(shù)能夠提升推理與表達(dá)能力,但檢索端提供的證據(jù)質(zhì)量與覆蓋范圍,往往直接決定模型是否有機(jī)會看到答案線索。CMU 團(tuán)隊指出,檢索語料的規(guī)模本身就是一條獨立的擴(kuò)展軸,但長期以來缺少與模型規(guī)模聯(lián)合控制變量的系統(tǒng)研究,因此語料擴(kuò)容能否補(bǔ)償小模型仍缺乏定量結(jié)論。

實驗設(shè)計:只讓兩個變量變化

為得到可解釋的權(quán)衡曲線,研究采用了全因子設(shè)計,只讓語料規(guī)模與模型規(guī)模變化,其余保持一致。檢索語料選用大規(guī)模搜索引擎數(shù)據(jù)集 ClueWeb22-A 的英文子集,總計包含約 2.64 億真實網(wǎng)頁文檔,并將其隨機(jī)均衡切分為 12 個 shard。語料規(guī)模用激活 shard 的數(shù)量表示,逐步從 1 個 shard 擴(kuò)展到 12 個 shard。檢索端使用 MiniCPM-Embedding-Light 做稠密向量編碼,后端采用 DiskANN 構(gòu)建多 shard 近鄰檢索,固定 top 文檔數(shù)、切塊與重排策略,最終向生成模型提供固定數(shù)量的 top chunk 作為 LLM 答案生成證據(jù)。

生成端選用最新 Qwen3 同一模型家族的不同尺寸,覆蓋從 0.6B 到 14B 的 Qwen3 模型,并固定提示模板與解碼設(shè)置,以確保比較只反映規(guī)模變化帶來的差異。評測任務(wù)覆蓋三個開放域問答基準(zhǔn):Natural Questions、TriviaQA 與 Web Questions,指標(biāo)采用最常用的 F1 與 ExactMatch。

關(guān)鍵發(fā)現(xiàn)一:

語料擴(kuò)容可以讓小模型追上大模型(變)

實驗結(jié)果展示了明確的補(bǔ)償效應(yīng)。以 Natural Questions 為例,隨著語料從 1 個 shard 擴(kuò)展到更大規(guī)模,較小模型的 EM 與 F1 持續(xù)提升,并在一定語料規(guī)模后達(dá)到或超過更大模型在小語料上的基線表現(xiàn)。研究用 n 星指標(biāo)刻畫補(bǔ)償閾值,即小模型需要多少倍語料才能追平大模型在 1 個 shard 下的成績。在三個數(shù)據(jù)集上,這一閾值呈現(xiàn)出穩(wěn)定模式:中等規(guī)模模型之間的追平往往只需要把語料擴(kuò)大到 2 倍或 3 倍,而最小模型想追平下一檔模型則需要更高倍數(shù)的語料擴(kuò)容。



更重要的是,這種追平并非個別現(xiàn)象。研究在 TriviaQA 與 WebQuestions 上觀察到相同趨勢,并給出了跨數(shù)據(jù)集的閾值表,顯示語料擴(kuò)容在多數(shù)設(shè)置下都能把性能缺口縮小到一個模型檔位,甚至兩個檔位。對部署而言,這意味著當(dāng)推理預(yù)算難以支撐更大參數(shù)模型時,把資源投入到更大語料與更強(qiáng)檢索,可能是更務(wù)實的提效方向。

在增長形態(tài)上,研究觀察到幾乎與模型規(guī)模無關(guān)的共同曲線。最顯著的提升發(fā)生在從無檢索到有檢索的第一步,隨后隨著語料繼續(xù)擴(kuò)大,收益逐步下降,并在約 5 到 6 倍語料規(guī)模附近出現(xiàn)飽和趨勢。這一現(xiàn)象對工程實踐具有直接意義:檢索能力的從無到有往往帶來最大增益,但在較高語料規(guī)模處繼續(xù)無上限擴(kuò)容并不劃算,應(yīng)該結(jié)合吞吐、延遲與存儲成本做更精細(xì)的預(yù)算分配。

關(guān)鍵發(fā)現(xiàn)二:

提升主要來自證據(jù)覆蓋,而非模型更會用證據(jù)(不變)

語料變大為什么能帶來提升?論文給出的機(jī)制解釋相對直接且符合直覺預(yù)期:語料擴(kuò)容提高了檢索到含答案片段的概率。當(dāng)語料規(guī)模較小時,檢索到的片段經(jīng)常只與主題相關(guān),但不包含關(guān)鍵事實;隨著語料擴(kuò)大,更容易檢索到明確包含答案字符串的證據(jù)片段,生成模型因此獲得更可靠的落腳點。

為把這種直覺量化,研究定義了 Gold Answer Coverage Rate,用于統(tǒng)計傳入生成模型的 top chunk 中至少有一個包含標(biāo)準(zhǔn)答案字符串的概率。結(jié)果顯示,覆蓋率隨語料規(guī)模增長而單調(diào)上升,并在不同數(shù)據(jù)集上體現(xiàn)出差異性,例如 TriviaQA 的覆蓋率整體更高,反映其信息需求與網(wǎng)頁語料的重合度更強(qiáng)。



進(jìn)一步地,研究提出 Context Benefited Success Rate,用于衡量那些在無檢索時無法答對的問題,在加入檢索證據(jù)后被答對的比例,并用 Utilization Ratio 將其與覆蓋率相除,以刻畫模型把可用證據(jù)轉(zhuǎn)化為正確答案的效率。實驗顯示,Utilization Ratio 在不同語料規(guī)模下整體保持穩(wěn)定,且在不同模型尺寸之間差異有限。結(jié)合無檢索設(shè)置下的基線表現(xiàn)可以看到,不同大小模型的主要差別更多來自其參數(shù)中可直接調(diào)用的內(nèi)部知識儲備,使其在無需外部證據(jù)時也能回答一部分問題;而對于那些無法僅憑內(nèi)部知識答對的問題,一旦檢索端提供了包含答案線索的證據(jù),不同模型將證據(jù)轉(zhuǎn)化為正確答案的效率整體相近。因此,語料擴(kuò)容帶來的關(guān)鍵收益主要體現(xiàn)在提高含答案證據(jù)進(jìn)入上下文的概率,而非顯著提升模型對既有上下文的利用能力。



工程啟示:如何在預(yù)算約束下分配投入


綜合實驗結(jié)論,論文給出了一條可執(zhí)行的系統(tǒng)設(shè)計建議。當(dāng)推理資源受限時,優(yōu)先考慮擴(kuò)大檢索語料與提升覆蓋率,常常能讓中等規(guī)模生成模型達(dá)到接近更大模型的表現(xiàn)。相比之下,極小模型需要更激進(jìn)的語料擴(kuò)容才能追平下一檔,收益效率偏低;而極大模型在更大語料下的增益也相對有限,體現(xiàn)出利用效率并不會隨著參數(shù)規(guī)模單調(diào)上升。對系統(tǒng)優(yōu)化而言,跟蹤答案覆蓋率與利用率可以作為診斷指標(biāo),幫助判斷瓶頸更偏檢索端還是生成端,從而指導(dǎo)下一步應(yīng)該擴(kuò)語料、調(diào)檢索,還是換模型。

結(jié)語


這項研究把 RAG 的規(guī)模討論從單一的模型參數(shù)擴(kuò)展到語料與檢索能力,給出了可復(fù)現(xiàn)的控制變量實驗與清晰的機(jī)制解釋。其結(jié)論可以概括為兩點:擴(kuò)大語料通常有效,但收益存在邊際遞減;提升主要來自更高的答案證據(jù)覆蓋,而非模型利用證據(jù)能力的躍遷。在面向真實部署的 RAG 系統(tǒng)中,這提供了一條更可控、更具性價比的提升路徑。

作者簡介:



本論文第一作者為卡內(nèi)基梅隆大學(xué)計算機(jī)學(xué)院語言技術(shù)研究所碩士研究生 Jingjie Ning,研究方向聚焦信息檢索、DeepResearch、Query 理解與強(qiáng)化、推薦系統(tǒng) Benchmark 等工作。Jingjie Ning 師從 Jamie Callan 教授,后者為卡內(nèi)基梅隆大學(xué)計算機(jī)學(xué)院語言技術(shù)研究所教授,曾任 SIGIR 大會主席,同時擔(dān)任系博士項目主任,長期引領(lǐng)搜索與信息檢索領(lǐng)域研究,在學(xué)術(shù)界與工業(yè)界具有廣泛影響力。在卡內(nèi)基梅隆大學(xué)前,Jingjie 曾在騰訊任職 Senior Data Scientist。個人主頁:https://ethanning.github.io

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
上海男籃又要破紀(jì)錄了?

上海男籃又要破紀(jì)錄了?

新民晚報
2026-01-08 10:10:34
驚艷世界波!巴爾韋德爆發(fā),阿隆索昏招坑苦皇馬,怎能復(fù)仇巴薩?

驚艷世界波!巴爾韋德爆發(fā),阿隆索昏招坑苦皇馬,怎能復(fù)仇巴薩?

話體壇
2026-01-09 05:38:34
亞足聯(lián)官網(wǎng):中國隊在U23亞洲杯共輸球10場,為該賽事輸球最多的球隊

亞足聯(lián)官網(wǎng):中國隊在U23亞洲杯共輸球10場,為該賽事輸球最多的球隊

懂球帝
2026-01-08 11:50:35
5-4絕殺!斯諾克再現(xiàn)冷門:中國00后小將晉級!送7冠王資格賽出局

5-4絕殺!斯諾克再現(xiàn)冷門:中國00后小將晉級!送7冠王資格賽出局

小火箭愛體育
2026-01-09 01:13:41
伊朗抗議者完整拿下首個城市,距離成功又近了一步

伊朗抗議者完整拿下首個城市,距離成功又近了一步

金召點評
2026-01-07 08:01:29
據(jù)說劉亦菲當(dāng)年這張照片直接封神 從黃V變紅V

據(jù)說劉亦菲當(dāng)年這張照片直接封神 從黃V變紅V

動物奇奇怪怪
2026-01-02 01:32:55
事態(tài)升級!閆學(xué)晶囂張不認(rèn)錯,再現(xiàn)丑惡嘴臉,離譜發(fā)言誰也救不了

事態(tài)升級!閆學(xué)晶囂張不認(rèn)錯,再現(xiàn)丑惡嘴臉,離譜發(fā)言誰也救不了

李健政觀察
2026-01-06 19:13:28
公安部:按照過緊日子等要求,因地制宜開展警察節(jié)活動

公安部:按照過緊日子等要求,因地制宜開展警察節(jié)活動

南方都市報
2026-01-08 11:06:17
驚呆!上海一男子連闖數(shù)個紅燈,急停下車,掏出美工刀,狠狠割向4個輪胎

驚呆!上海一男子連闖數(shù)個紅燈,急停下車,掏出美工刀,狠狠割向4個輪胎

新民晚報
2026-01-08 14:30:02
萬億央企蛀蟲終于揪出來了!離職七年難逃法網(wǎng),25年腐化史現(xiàn)真容

萬億央企蛀蟲終于揪出來了!離職七年難逃法網(wǎng),25年腐化史現(xiàn)真容

墨蘭史書
2026-01-06 11:30:03
莘莊樞紐兩大商業(yè)體將全新亮相,能否吸引人們從“路過這里”到“特地趕來”?

莘莊樞紐兩大商業(yè)體將全新亮相,能否吸引人們從“路過這里”到“特地趕來”?

上觀新聞
2026-01-08 04:20:06
伊朗駐華大使回應(yīng)美國威脅:伊朗已制定多種預(yù)案,對外部襲擊采取“防御和攻擊行動”

伊朗駐華大使回應(yīng)美國威脅:伊朗已制定多種預(yù)案,對外部襲擊采取“防御和攻擊行動”

環(huán)球網(wǎng)資訊
2026-01-07 20:29:19
女性的私處哪種形態(tài)更好?女性陰部的形狀類型有哪些?不妨來了解

女性的私處哪種形態(tài)更好?女性陰部的形狀類型有哪些?不妨來了解

醫(yī)者榮耀
2025-12-25 12:05:06
“浩浩媽”王星辰出道前的性感泳裝美照,這身材太絕了

“浩浩媽”王星辰出道前的性感泳裝美照,這身材太絕了

星美圖
2025-12-19 23:14:22
你扣我油輪,我沒收你軍火,中國海警發(fā)布海報:敢運海馬斯就登船

你扣我油輪,我沒收你軍火,中國海警發(fā)布海報:敢運海馬斯就登船

楠楠自語
2025-12-31 14:59:38
建國后,毛主席讓人轉(zhuǎn)告鄧子恢:你不開除他,我就開除你

建國后,毛主席讓人轉(zhuǎn)告鄧子恢:你不開除他,我就開除你

鶴羽說個事
2026-01-08 11:00:54
車價腰斬、房企崩盤,你以為撿了便宜?其實是資本收割的開始!

車價腰斬、房企崩盤,你以為撿了便宜?其實是資本收割的開始!

流蘇晚晴
2025-11-29 17:10:03
浙大研究:阿爾茲海默癥早期不是記性差,而是身上6表現(xiàn),需注意

浙大研究:阿爾茲海默癥早期不是記性差,而是身上6表現(xiàn),需注意

岐黃傳人孫大夫
2026-01-05 14:28:04
顏值和馬力完勝小米SU7?追覓首款超跑實車正式亮相

顏值和馬力完勝小米SU7?追覓首款超跑實車正式亮相

泡泡網(wǎng)
2026-01-07 10:13:08
超市離職員工透露:逛超市“5不買”,誰買誰上當(dāng),白花冤枉錢

超市離職員工透露:逛超市“5不買”,誰買誰上當(dāng),白花冤枉錢

最新聲音
2026-01-07 22:21:17
2026-01-09 06:20:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12080文章數(shù) 142532關(guān)注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

采用俄羅斯的防空系統(tǒng) 委內(nèi)瑞拉防空體系因何失效

頭條要聞

采用俄羅斯的防空系統(tǒng) 委內(nèi)瑞拉防空體系因何失效

體育要聞

世乒賽銀牌得主,說自己夢里都是孫穎莎

娛樂要聞

抗戰(zhàn)劇《馬背搖籃》首播,獲觀眾好評

財經(jīng)要聞

微軟CTO韋青:未來人類會花錢"戒手機(jī)"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

時尚
家居
親子
本地
軍事航空

珍珠專場|| 無論18歲還是80歲,總是會為它再一次心動

家居要聞

理性主義 冷調(diào)自由居所

親子要聞

家長注意了!這7件事別再孩子面前做!

本地新聞

1986-2026,一通電話的時空旅程

軍事要聞

特朗普提出將美國軍費提升至1.5萬億美元

無障礙瀏覽 進(jìn)入關(guān)懷版