RAG系統(tǒng)優(yōu)化：三大維度提升AI助手效能

2026-04-08 18:33:41　來源: 真正能保護你的

四川舉報

分享至

今天咱們不聊那些虛頭巴腦的宏大敘事，什么“AGI時代降臨”、“大模型顛覆一切”。咱們關(guān)起門來，聊一個極其痛、極其現(xiàn)實，而且每天都在各大廠和小廠的會議室里真實發(fā)生的問題：

你們公司砸了錢、費了幾個月搞出來的那個基于大模型的“知識庫”或者“智能客服”（也就是大家常說的RAG系統(tǒng)），上線之后為什么表現(xiàn)得像個“人工智障”？更要命的是，作為產(chǎn)品經(jīng)理，你到底該怎么對這玩意兒進行業(yè)務(wù)驗收？

然后產(chǎn)品經(jīng)理和研發(fā)兄弟們吭哧吭哧搞了一個月，用LangChain搭了個管線，接了個向量數(shù)據(jù)庫，選了個開源大模型或者調(diào)了個API，跑通了幾個Demo。在會議室里給老板演示的時候，問了幾個設(shè)定的好問題，回答得有模有樣，老板連連點頭。

結(jié)果一灰度上線，面對真實用戶的千奇百怪的問題，徹底崩盤了：用戶問：“退貨運費誰出？” AI答：“根據(jù)《消費者權(quán)益保護法》，退貨運費需視具體情況而定……”（廢話連篇，就是不給確切答案）。用戶問：“你們系統(tǒng)怎么又崩了？” AI答：“抱歉，我沒有找到關(guān)于‘系統(tǒng)又崩了’的相關(guān)信息。”。

這時候，業(yè)務(wù)方開始罵，老板開始拍桌子。你跑去找算法工程師，算法同學(xué)兩手一攤：“模型能力就這樣，知識庫切片沒命中，大模型產(chǎn)生了幻覺，這屬于行業(yè)技術(shù)瓶頸，我能怎么辦？”

作為這口大黑鍋的最終接盤俠——產(chǎn)品經(jīng)理，你是不是覺得特別憋屈？

憋屈的根源在于：面對AI這種“生成式”的黑盒產(chǎn)品，我們過去那套互聯(lián)網(wǎng)時代的“軟件驗收標(biāo)準(zhǔn)”徹底失效了。

以前做個電商APP，下個單，要么成功要么失敗，用自動化測試跑一遍用例（Test Case），Yes or No，清清楚楚。但現(xiàn)在，面對一個用自然語言回答問題的AI，你沒法用Yes/No去衡量。它可能答對了一半，可能用錯了一個詞，可能態(tài)度很好但給的是錯誤信息。

如果你不能建立一套科學(xué)的、能落地的、能跟算法團隊拉齊認知的“RAG業(yè)務(wù)驗收標(biāo)準(zhǔn)”，你在這個AI時代就只是個畫線框圖的原型仔，隨時被替代。

今天，我就把壓箱底的實戰(zhàn)經(jīng)驗掏出來，手把手教你建立一套RAG系統(tǒng)的評價體系。字?jǐn)?shù)有點多，但全是干貨，建議先收藏再看。

在聊怎么評估之前，咱們得先統(tǒng)一一下認知：RAG到底是個什么玩意兒？

它分為兩個核心動作：第一步是“檢索（Retrieval）”：用戶提問后，系統(tǒng)去你們建好的知識庫里，把跟這個問題相關(guān)的資料找出來。第二步是“生成（Generation）”：把找出來的資料，連同用戶的問題，一起塞給大模型，讓大模型看著資料總結(jié)出一個答案。

認清了這個本質(zhì)，你就能明白一個極其重要的事實：RAG系統(tǒng)里90%的“智障”表現(xiàn)，根本不是大模型變笨了，而是你的“檢索”做得很爛！

這就是所謂的“Garbage in, garbage out（垃圾進，垃圾出）”。如果用戶問A商品怎么退貨，你的系統(tǒng)從知識庫里找出來的是B商品的維修說明，然后喂給大模型。大模型再聰明，也只能基于B商品的說明給你瞎編一段。這時候你去罵大模型有“幻覺”，大模型比你還冤。

所以，評估RAG系統(tǒng)，絕對不能只盯著最后的答案看。你必須把這個黑盒拆開，分段驗收。

一套真正能在業(yè)務(wù)線跑通的RAG驗收標(biāo)準(zhǔn)，必須包含三個維度：找得準(zhǔn)不準(zhǔn)（檢索質(zhì)量）、答得對不對（生成質(zhì)量）、用得爽不爽（業(yè)務(wù)體驗）。

別怕這些名詞，我用產(chǎn)品經(jīng)理的語言給你翻譯。

這是整個RAG的命根子。作為PM，你要逼著算法同學(xué)給你看這里的漏斗數(shù)據(jù)，絕對不能只看最終答案。

怎么評估檢索好不好？你主要盯三個點：

2. 準(zhǔn)確率（Precision）與噪音控制大白話解釋：系統(tǒng)撈出來的這5段資料里，有幾段是真正有用的？實戰(zhàn)場景：有時候命中率挺高，但找出來的5段資料里，只有1段有用，剩下4段全是毫不相干的廢話。這會導(dǎo)致什么結(jié)果？這會嚴(yán)重干擾大模型的注意力（這就叫Context Window的噪音污染），大模型一看這么多資料，腦子一亂，最后總結(jié)出來的答案就極其容易跑偏。這就要求你去優(yōu)化“切片策略（Chunking）”，別一撈就撈一大坨無關(guān)內(nèi)容。

好，現(xiàn)在檢索系統(tǒng)沒問題了，給大模型的資料都是精準(zhǔn)的。這時候我們再來評估大模型那張嘴靠不靠譜。這里也有三個極其關(guān)鍵的黃金指標(biāo)（脫胎于業(yè)界的RAGAS框架，但我給你講透徹）：

1. 忠實度（Faithfulness）：最核心的紅線！含義：大模型的回答，必須、絕對、完全能夠從你提供的資料里推導(dǎo)出來，不能有一絲一毫的自由發(fā)揮。舉個致命例子：資料里寫“本產(chǎn)品退貨運費由買家承擔(dān)”。大模型回答：“本產(chǎn)品支持7天無理由退貨，通常情況下運費由買家承擔(dān)，但如果是Plus會員可以免運費。”（這里的Plus會員免運費可能大模型從自己肚子里掏出來的公域知識，但你們公司根本沒有這個規(guī)定）。 PM怎么驗收：這叫“典型的RAG幻覺”。在業(yè)務(wù)線，你可以答非所問，但絕對不能瞎編亂造給業(yè)務(wù)挖坑。一旦發(fā)現(xiàn)忠實度低，必須通過修改Prompt（提示詞），死死按住大模型：“如果資料里沒有提到，你就必須回答‘資料未提供’，嚴(yán)禁你自己補充信息！”

2. 答案相關(guān)性（Answer Relevance）：能不能說人話，直擊痛點？含義：回答是不是直接解答了用戶的問題？有沒有兜圈子？有沒有說廢話？舉個例子：用戶問：“北京到上海今天還有高鐵票嗎？”資料里有相關(guān)的列車時刻表。大模型回答：“高鐵是中國重要的高速鐵路交通工具，北京到上海是熱門航線。根據(jù)資料，今天下午3點和5點還有G123和G124次列車的車票。” PM怎么驗收：這種回答雖然沒造假（忠實度合格），但極其啰嗦，答案相關(guān)性低。特別是在移動端屏幕那么小，用戶沒耐心看廢話。這時候你需要優(yōu)化Prompt：“請用最簡練的語言，一句話直接給出結(jié)論，再補充細節(jié)。”

到了這一步，才算是回到了咱們產(chǎn)品經(jīng)理的絕對主場。不管前面算法指標(biāo)吹得多天花亂墜，最終我們要看業(yè)務(wù)漏斗。一套RAG系統(tǒng)到底成沒成，看這幾個真實世界的指標(biāo)：

1. 首字響應(yīng)耗時（TTFT – Time To First Token）別扯什么大模型推理慢。在C端互聯(lián)網(wǎng)，如果用戶發(fā)完問題，界面上出現(xiàn)那個“正在輸入…”的加載圈超過了3秒鐘還沒吐出第一個字，50%的用戶就切出去看微信了；超過5秒，這個功能宣告死亡。你必須跟架構(gòu)師死磕這個指標(biāo)：是檢索太慢？還是向量庫拉胯？還是大模型API響應(yīng)太慢？怎么做并發(fā)流式輸出（Streaming）？這是極其硬核的用戶體驗。

2. 采納率 / 任務(wù)完成率（Task Success Rate）千萬別只看那個大拇指（點贊）和踩（點踩）。我跟你講句實話：用戶在覺得好用的時候，是絕對不會去點贊的，他拿了答案就走了；只有在答案極其弱智惹怒他的時候，他才會去點個踩。所以你要看“隱性行為反饋”。什么叫采納？

3. 會話輪數(shù)與追問率（Session Depth）這是個雙刃劍，要結(jié)合業(yè)務(wù)場景看。如果是客服場景，輪數(shù)越少越好，說明一次性解決了問題；如果是陪伴型或者探索型的知識Agent，輪數(shù)越多說明用戶越有探索欲，產(chǎn)品越粘人。產(chǎn)品經(jīng)理必須提前定義好你的北極星指標(biāo)到底是什么方向。

現(xiàn)在市面上流行一種做法，叫LLM-as-a-Judge（用大模型做裁判）。

什么意思呢？就是因為人工評估幾百上千個問答對太累了，有些聰明的研發(fā)就寫個腳本：把用戶的提問、RAG系統(tǒng)的回答，打包扔給GPT-4，寫一段Prompt說：“你現(xiàn)在是一個嚴(yán)厲的裁判，請給這個回答打分，滿分10分。”

老板一看，太高效了！自動化測試！降本增效！

我在此鄭重警告各位：在RAG系統(tǒng)上線的初期（冷啟動和MVP階段），不能用這套自動化評估。

為什么？老兵給你總結(jié)了三大坑：

坑一：AI會包庇AI（自帶偏見）大模型有一種天然的“冗長偏好（Verbosity Bias）”和“自我肯定”。它看到那種長篇大論、用了大量連詞的廢話，會天然覺得“寫得真好”，給你打個高分。哪怕這個回答根本沒解決業(yè)務(wù)問題。

坑二：大模型不懂你們的業(yè)務(wù)潛規(guī)則你讓GPT-4當(dāng)裁判，GPT-4哪知道你們公司退費的特殊流程？哪知道你們內(nèi)部黑話里的“盤活”、“抓手”是什么意思？它只能從語言學(xué)上判斷邏輯通不通，根本判斷不了業(yè)務(wù)上的“致命錯誤”。

坑三：把黑盒交給了另一個黑盒你本來就搞不懂你的RAG為什么答錯，現(xiàn)在你引入了一個裁判大模型，它給你打了個6分。你既不知道為什么你的RAG答錯了，也不知道裁判為什么給6分。系統(tǒng)徹底成了玄學(xué)，你還怎么優(yōu)化？

那么，正確的做法是什么？—— 放棄幻想，老老實實去建“黃金數(shù)據(jù)集（Ground Truth）”！

什么叫黃金數(shù)據(jù)集？這是產(chǎn)品經(jīng)理在AI時代最重要的資產(chǎn)，比代碼還值錢。你需要拉著你們最資深的客服、最懂業(yè)務(wù)的運營，甚至你自己親自下場，手工梳理出100到200個用戶在真實場景下最常問、最刁鉆的問題。

然后，對于每一個問題，人工寫出標(biāo)準(zhǔn)答案（標(biāo)準(zhǔn)不一定是一段話，可以是幾個必須包含的關(guān)鍵知識點）。

這就成了你的“黃金標(biāo)尺”。以后算法團隊每調(diào)一次參、每換一個大模型，你先把這100個問題跑一遍。

具體的盲測方法（強烈建議收藏）：拉上業(yè)務(wù)線的同學(xué)，把問題打亂。左邊放舊版本的回答，右邊放新版本的回答，隱去版本號。讓業(yè)務(wù)同學(xué)像品酒師一樣盲測：“A更好，還是B更好？好在哪里？” 只有人工盲測的勝率超過了某個閾值，這個版本才允許灰度上線。

前期的臟活累活，是為了后期系統(tǒng)不至于徹底失控。沒有任何捷徑可走，誰想偷懶，誰就會在生產(chǎn)環(huán)境被用戶的投訴教做人。

以前我們做產(chǎn)品，畫個原型，寫個PRD，扔給開發(fā)，然后就等著驗收UI和交互了。現(xiàn)在做AI產(chǎn)品，交互極其簡單，就是一個對話框。你難道天天去調(diào)整對話框的圓角大小嗎？

在Agent和RAG時代，產(chǎn)品經(jīng)理的核心價值，已經(jīng)從“畫界面”變成了“定義規(guī)則和建立數(shù)據(jù)飛輪”。

一個懂行的AI產(chǎn)品經(jīng)理，在負責(zé)RAG項目時，他的工作日常應(yīng)該是這樣的：

2. 建立常態(tài)化的 Bad Case Review（錯題本審查機制）系統(tǒng)上線后，每天都會產(chǎn)生大量的糟糕回答（Bad Case）。你必須搭建一個后臺工具，把那些被用戶點踩的、引發(fā)用戶長篇大論怒罵的對話全抓出來。每周拉著算法工程師和業(yè)務(wù)方開“錯題本復(fù)盤會”。拿著一個錯誤的回答，順藤摸瓜：

3. 設(shè)計優(yōu)雅的“人工接管”防線（HITL – Human in the Loop）無論你評估做得多好，大模型一定會犯錯。產(chǎn)品經(jīng)理必須要有兜底思維。在RAG系統(tǒng)里，什么是底線？比如涉及法律糾紛、涉及金融轉(zhuǎn)賬、涉及嚴(yán)重客訴。你必須在系統(tǒng)里設(shè)定一個規(guī)則：當(dāng)用戶的問題觸發(fā)了某些敏感詞（比如“起訴”、“賠償”、“報警”），或者大模型給自己的輸出置信度很低時，系統(tǒng)必須立刻閉嘴，并將對話無縫轉(zhuǎn)接給人工客服。不讓AI惹禍，比讓AI出彩更考驗產(chǎn)品經(jīng)理的功力。

這大半年，隨著百模大戰(zhàn)的冷卻，大家已經(jīng)看明白了：卷大模型的參數(shù)是硅谷巨頭和國內(nèi)大廠的事情，對于剩下的99%的移動互聯(lián)網(wǎng)從業(yè)者來說，真正的戰(zhàn)場在“應(yīng)用落地”。

而應(yīng)用落地最硬的骨頭，就是怎么把那個“經(jīng)常胡說八道”的模型，調(diào)教成一個“能在特定業(yè)務(wù)場景里穩(wěn)定產(chǎn)出價值”的系統(tǒng)。

不要去迷信那些學(xué)術(shù)界搞出來的跑分榜單（Leaderboard）。一個大模型在考試?yán)锬苣玫谝?，不代表它能處理好你們公司?fù)雜的退費政策。

評測標(biāo)準(zhǔn)，永遠掌握在離用戶最近、離業(yè)務(wù)最近的人手里——那就是你，產(chǎn)品經(jīng)理。

建立黃金測試集、盯死首字響應(yīng)耗時、每周復(fù)盤Bad Case、搭建隱性反饋飛輪。當(dāng)你把這套“臟活累活”真正跑通的時候，你就不再是一個在AI浪潮里感到焦慮的旁觀者，而是一個真正掌握了AI定價權(quán)、能駕馭這種新質(zhì)生產(chǎn)力的系統(tǒng)架構(gòu)師。

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.