国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

RAG系統(tǒng)優(yōu)化:三大維度提升AI助手效能

0
分享至



今天咱們不聊那些虛頭巴腦的宏大敘事,什么“AGI時代降臨”、“大模型顛覆一切”。咱們關(guān)起門來,聊一個極其痛、極其現(xiàn)實,而且每天都在各大廠和小廠的會議室里真實發(fā)生的問題:

你們公司砸了錢、費了幾個月搞出來的那個基于大模型的“知識庫”或者“智能客服”(也就是大家常說的RAG系統(tǒng)),上線之后為什么表現(xiàn)得像個“人工智障”?更要命的是,作為產(chǎn)品經(jīng)理,你到底該怎么對這玩意兒進行業(yè)務(wù)驗收?

然后產(chǎn)品經(jīng)理和研發(fā)兄弟們吭哧吭哧搞了一個月,用LangChain搭了個管線,接了個向量數(shù)據(jù)庫,選了個開源大模型或者調(diào)了個API,跑通了幾個Demo。在會議室里給老板演示的時候,問了幾個設(shè)定的好問題,回答得有模有樣,老板連連點頭。

結(jié)果一灰度上線,面對真實用戶的千奇百怪的問題,徹底崩盤了: 用戶問:“退貨運費誰出?” AI答:“根據(jù)《消費者權(quán)益保護法》,退貨運費需視具體情況而定……”(廢話連篇,就是不給確切答案)。 用戶問:“你們系統(tǒng)怎么又崩了?” AI答:“抱歉,我沒有找到關(guān)于‘系統(tǒng)又崩了’的相關(guān)信息。”。

這時候,業(yè)務(wù)方開始罵,老板開始拍桌子。你跑去找算法工程師,算法同學(xué)兩手一攤:“模型能力就這樣,知識庫切片沒命中,大模型產(chǎn)生了幻覺,這屬于行業(yè)技術(shù)瓶頸,我能怎么辦?”

作為這口大黑鍋的最終接盤俠——產(chǎn)品經(jīng)理,你是不是覺得特別憋屈?

憋屈的根源在于:面對AI這種“生成式”的黑盒產(chǎn)品,我們過去那套互聯(lián)網(wǎng)時代的“軟件驗收標(biāo)準(zhǔn)”徹底失效了。

以前做個電商APP,下個單,要么成功要么失敗,用自動化測試跑一遍用例(Test Case),Yes or No,清清楚楚。但現(xiàn)在,面對一個用自然語言回答問題的AI,你沒法用Yes/No去衡量。它可能答對了一半,可能用錯了一個詞,可能態(tài)度很好但給的是錯誤信息。

如果你不能建立一套科學(xué)的、能落地的、能跟算法團隊拉齊認知的“RAG業(yè)務(wù)驗收標(biāo)準(zhǔn)”,你在這個AI時代就只是個畫線框圖的原型仔,隨時被替代。

今天,我就把壓箱底的實戰(zhàn)經(jīng)驗掏出來,手把手教你建立一套RAG系統(tǒng)的評價體系。字?jǐn)?shù)有點多,但全是干貨,建議先收藏再看。

在聊怎么評估之前,咱們得先統(tǒng)一一下認知:RAG到底是個什么玩意兒?

它分為兩個核心動作: 第一步是“檢索(Retrieval)”:用戶提問后,系統(tǒng)去你們建好的知識庫里,把跟這個問題相關(guān)的資料找出來。 第二步是“生成(Generation)”:把找出來的資料,連同用戶的問題,一起塞給大模型,讓大模型看著資料總結(jié)出一個答案。

認清了這個本質(zhì),你就能明白一個極其重要的事實:RAG系統(tǒng)里90%的“智障”表現(xiàn),根本不是大模型變笨了,而是你的“檢索”做得很爛!

這就是所謂的“Garbage in, garbage out(垃圾進,垃圾出)”。如果用戶問A商品怎么退貨,你的系統(tǒng)從知識庫里找出來的是B商品的維修說明,然后喂給大模型。大模型再聰明,也只能基于B商品的說明給你瞎編一段。這時候你去罵大模型有“幻覺”,大模型比你還冤。

所以,評估RAG系統(tǒng),絕對不能只盯著最后的答案看。你必須把這個黑盒拆開,分段驗收。

一套真正能在業(yè)務(wù)線跑通的RAG驗收標(biāo)準(zhǔn),必須包含三個維度:找得準(zhǔn)不準(zhǔn)(檢索質(zhì)量)、答得對不對(生成質(zhì)量)、用得爽不爽(業(yè)務(wù)體驗)。

別怕這些名詞,我用產(chǎn)品經(jīng)理的語言給你翻譯。

這是整個RAG的命根子。作為PM,你要逼著算法同學(xué)給你看這里的漏斗數(shù)據(jù),絕對不能只看最終答案。

怎么評估檢索好不好?你主要盯三個點:

2. 準(zhǔn)確率(Precision)與噪音控制大白話解釋:系統(tǒng)撈出來的這5段資料里,有幾段是真正有用的? 實戰(zhàn)場景: 有時候命中率挺高,但找出來的5段資料里,只有1段有用,剩下4段全是毫不相干的廢話。這會導(dǎo)致什么結(jié)果?這會嚴(yán)重干擾大模型的注意力(這就叫Context Window的噪音污染),大模型一看這么多資料,腦子一亂,最后總結(jié)出來的答案就極其容易跑偏。這就要求你去優(yōu)化“切片策略(Chunking)”,別一撈就撈一大坨無關(guān)內(nèi)容。

好,現(xiàn)在檢索系統(tǒng)沒問題了,給大模型的資料都是精準(zhǔn)的。這時候我們再來評估大模型那張嘴靠不靠譜。這里也有三個極其關(guān)鍵的黃金指標(biāo)(脫胎于業(yè)界的RAGAS框架,但我給你講透徹):

1. 忠實度(Faithfulness):最核心的紅線!含義: 大模型的回答,必須、絕對、完全能夠從你提供的資料里推導(dǎo)出來,不能有一絲一毫的自由發(fā)揮。 舉個致命例子: 資料里寫“本產(chǎn)品退貨運費由買家承擔(dān)”。大模型回答:“本產(chǎn)品支持7天無理由退貨,通常情況下運費由買家承擔(dān),但如果是Plus會員可以免運費。”(這里的Plus會員免運費可能大模型從自己肚子里掏出來的公域知識,但你們公司根本沒有這個規(guī)定)。 PM怎么驗收: 這叫“典型的RAG幻覺”。在業(yè)務(wù)線,你可以答非所問,但絕對不能瞎編亂造給業(yè)務(wù)挖坑。一旦發(fā)現(xiàn)忠實度低,必須通過修改Prompt(提示詞),死死按住大模型:“如果資料里沒有提到,你就必須回答‘資料未提供’,嚴(yán)禁你自己補充信息!”

2. 答案相關(guān)性(Answer Relevance):能不能說人話,直擊痛點?含義: 回答是不是直接解答了用戶的問題?有沒有兜圈子?有沒有說廢話? 舉個例子: 用戶問:“北京到上海今天還有高鐵票嗎?”資料里有相關(guān)的列車時刻表。大模型回答:“高鐵是中國重要的高速鐵路交通工具,北京到上海是熱門航線。根據(jù)資料,今天下午3點和5點還有G123和G124次列車的車票。” PM怎么驗收: 這種回答雖然沒造假(忠實度合格),但極其啰嗦,答案相關(guān)性低。特別是在移動端屏幕那么小,用戶沒耐心看廢話。這時候你需要優(yōu)化Prompt:“請用最簡練的語言,一句話直接給出結(jié)論,再補充細節(jié)。”

到了這一步,才算是回到了咱們產(chǎn)品經(jīng)理的絕對主場。不管前面算法指標(biāo)吹得多天花亂墜,最終我們要看業(yè)務(wù)漏斗。一套RAG系統(tǒng)到底成沒成,看這幾個真實世界的指標(biāo):

1. 首字響應(yīng)耗時(TTFT – Time To First Token)別扯什么大模型推理慢。在C端互聯(lián)網(wǎng),如果用戶發(fā)完問題,界面上出現(xiàn)那個“正在輸入…”的加載圈超過了3秒鐘還沒吐出第一個字,50%的用戶就切出去看微信了;超過5秒,這個功能宣告死亡。 你必須跟架構(gòu)師死磕這個指標(biāo):是檢索太慢?還是向量庫拉胯?還是大模型API響應(yīng)太慢?怎么做并發(fā)流式輸出(Streaming)?這是極其硬核的用戶體驗。

2. 采納率 / 任務(wù)完成率(Task Success Rate)千萬別只看那個大拇指(點贊)和踩(點踩)。我跟你講句實話:用戶在覺得好用的時候,是絕對不會去點贊的,他拿了答案就走了;只有在答案極其弱智惹怒他的時候,他才會去點個踩。所以你要看“隱性行為反饋”。什么叫采納?

3. 會話輪數(shù)與追問率(Session Depth)這是個雙刃劍,要結(jié)合業(yè)務(wù)場景看。如果是客服場景,輪數(shù)越少越好,說明一次性解決了問題;如果是陪伴型或者探索型的知識Agent,輪數(shù)越多說明用戶越有探索欲,產(chǎn)品越粘人。產(chǎn)品經(jīng)理必須提前定義好你的北極星指標(biāo)到底是什么方向。

現(xiàn)在市面上流行一種做法,叫LLM-as-a-Judge(用大模型做裁判)。

什么意思呢?就是因為人工評估幾百上千個問答對太累了,有些聰明的研發(fā)就寫個腳本:把用戶的提問、RAG系統(tǒng)的回答,打包扔給GPT-4,寫一段Prompt說:“你現(xiàn)在是一個嚴(yán)厲的裁判,請給這個回答打分,滿分10分。”

老板一看,太高效了!自動化測試!降本增效!

我在此鄭重警告各位:在RAG系統(tǒng)上線的初期(冷啟動和MVP階段),不能用這套自動化評估。

為什么?老兵給你總結(jié)了三大坑:

坑一:AI會包庇AI(自帶偏見)大模型有一種天然的“冗長偏好(Verbosity Bias)”和“自我肯定”。它看到那種長篇大論、用了大量連詞的廢話,會天然覺得“寫得真好”,給你打個高分。哪怕這個回答根本沒解決業(yè)務(wù)問題。

坑二:大模型不懂你們的業(yè)務(wù)潛規(guī)則你讓GPT-4當(dāng)裁判,GPT-4哪知道你們公司退費的特殊流程?哪知道你們內(nèi)部黑話里的“盤活”、“抓手”是什么意思?它只能從語言學(xué)上判斷邏輯通不通,根本判斷不了業(yè)務(wù)上的“致命錯誤”。

坑三:把黑盒交給了另一個黑盒你本來就搞不懂你的RAG為什么答錯,現(xiàn)在你引入了一個裁判大模型,它給你打了個6分。你既不知道為什么你的RAG答錯了,也不知道裁判為什么給6分。系統(tǒng)徹底成了玄學(xué),你還怎么優(yōu)化?

那么,正確的做法是什么?—— 放棄幻想,老老實實去建“黃金數(shù)據(jù)集(Ground Truth)”!

什么叫黃金數(shù)據(jù)集?這是產(chǎn)品經(jīng)理在AI時代最重要的資產(chǎn),比代碼還值錢。 你需要拉著你們最資深的客服、最懂業(yè)務(wù)的運營,甚至你自己親自下場,手工梳理出100到200個用戶在真實場景下最常問、最刁鉆的問題。

然后,對于每一個問題,人工寫出標(biāo)準(zhǔn)答案(標(biāo)準(zhǔn)不一定是一段話,可以是幾個必須包含的關(guān)鍵知識點)。

這就成了你的“黃金標(biāo)尺”。以后算法團隊每調(diào)一次參、每換一個大模型,你先把這100個問題跑一遍。

具體的盲測方法(強烈建議收藏):拉上業(yè)務(wù)線的同學(xué),把問題打亂。左邊放舊版本的回答,右邊放新版本的回答,隱去版本號。讓業(yè)務(wù)同學(xué)像品酒師一樣盲測:“A更好,還是B更好?好在哪里?” 只有人工盲測的勝率超過了某個閾值,這個版本才允許灰度上線。

前期的臟活累活,是為了后期系統(tǒng)不至于徹底失控。沒有任何捷徑可走,誰想偷懶,誰就會在生產(chǎn)環(huán)境被用戶的投訴教做人。

以前我們做產(chǎn)品,畫個原型,寫個PRD,扔給開發(fā),然后就等著驗收UI和交互了。 現(xiàn)在做AI產(chǎn)品,交互極其簡單,就是一個對話框。你難道天天去調(diào)整對話框的圓角大小嗎?

在Agent和RAG時代,產(chǎn)品經(jīng)理的核心價值,已經(jīng)從“畫界面”變成了“定義規(guī)則和建立數(shù)據(jù)飛輪”。

一個懂行的AI產(chǎn)品經(jīng)理,在負責(zé)RAG項目時,他的工作日常應(yīng)該是這樣的:

2. 建立常態(tài)化的 Bad Case Review(錯題本審查機制)系統(tǒng)上線后,每天都會產(chǎn)生大量的糟糕回答(Bad Case)。你必須搭建一個后臺工具,把那些被用戶點踩的、引發(fā)用戶長篇大論怒罵的對話全抓出來。 每周拉著算法工程師和業(yè)務(wù)方開“錯題本復(fù)盤會”。 拿著一個錯誤的回答,順藤摸瓜:

3. 設(shè)計優(yōu)雅的“人工接管”防線(HITL – Human in the Loop)無論你評估做得多好,大模型一定會犯錯。產(chǎn)品經(jīng)理必須要有兜底思維。 在RAG系統(tǒng)里,什么是底線?比如涉及法律糾紛、涉及金融轉(zhuǎn)賬、涉及嚴(yán)重客訴。你必須在系統(tǒng)里設(shè)定一個規(guī)則:當(dāng)用戶的問題觸發(fā)了某些敏感詞(比如“起訴”、“賠償”、“報警”),或者大模型給自己的輸出置信度很低時,系統(tǒng)必須立刻閉嘴,并將對話無縫轉(zhuǎn)接給人工客服。不讓AI惹禍,比讓AI出彩更考驗產(chǎn)品經(jīng)理的功力。

這大半年,隨著百模大戰(zhàn)的冷卻,大家已經(jīng)看明白了:卷大模型的參數(shù)是硅谷巨頭和國內(nèi)大廠的事情,對于剩下的99%的移動互聯(lián)網(wǎng)從業(yè)者來說,真正的戰(zhàn)場在“應(yīng)用落地”。

而應(yīng)用落地最硬的骨頭,就是怎么把那個“經(jīng)常胡說八道”的模型,調(diào)教成一個“能在特定業(yè)務(wù)場景里穩(wěn)定產(chǎn)出價值”的系統(tǒng)。

不要去迷信那些學(xué)術(shù)界搞出來的跑分榜單(Leaderboard)。一個大模型在考試?yán)锬苣玫谝?,不代表它能處理好你們公司?fù)雜的退費政策。

評測標(biāo)準(zhǔn),永遠掌握在離用戶最近、離業(yè)務(wù)最近的人手里——那就是你,產(chǎn)品經(jīng)理。

建立黃金測試集、盯死首字響應(yīng)耗時、每周復(fù)盤Bad Case、搭建隱性反饋飛輪。當(dāng)你把這套“臟活累活”真正跑通的時候,你就不再是一個在AI浪潮里感到焦慮的旁觀者,而是一個真正掌握了AI定價權(quán)、能駕馭這種新質(zhì)生產(chǎn)力的系統(tǒng)架構(gòu)師。

聲明:個人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
1-0,申花積分終清零,拉唐破門浪費多次單刀 海港1場傷了4員大將

1-0,申花積分終清零,拉唐破門浪費多次單刀 海港1場傷了4員大將

替補席看球
2026-04-11 21:40:08
王珞丹現(xiàn)狀:搬進深山生活,母親不再催婚,41歲和兩只狗相依為命

王珞丹現(xiàn)狀:搬進深山生活,母親不再催婚,41歲和兩只狗相依為命

八斗小先生
2026-04-11 15:52:07
愛因斯坦臨終警告:宇宙誕生之前是什么?大腦根本無法想象

愛因斯坦臨終警告:宇宙誕生之前是什么?大腦根本無法想象

觀察宇宙
2026-04-10 21:32:43
是時候攤牌了,中方明確信號:要打,戰(zhàn)火必須燒進美國本土!

是時候攤牌了,中方明確信號:要打,戰(zhàn)火必須燒進美國本土!

史說方休
2026-04-11 01:23:59
連滅兩大日本主力!一波流15-1打懵山口茜,王祉怡2-1宣戰(zhàn)安洗瑩

連滅兩大日本主力!一波流15-1打懵山口茜,王祉怡2-1宣戰(zhàn)安洗瑩

釘釘陌上花開
2026-04-11 18:02:18
1.4億人同時心碎!西甲雙雄主場集體淪陷,歐冠真要變天了?

1.4億人同時心碎!西甲雙雄主場集體淪陷,歐冠真要變天了?

茅塞盾開本尊
2026-04-11 21:20:35
求復(fù)合?馬伊琍官宣兩大喜訊,前夫文章也傳來好消息,這是鬧哪出

求復(fù)合?馬伊琍官宣兩大喜訊,前夫文章也傳來好消息,這是鬧哪出

林雁飛
2026-04-11 19:04:39
長期持有,可能是散戶虧損的最大元兇。

長期持有,可能是散戶虧損的最大元兇。

流蘇晚晴
2026-04-11 17:53:40
趙子琪浪姐一公淘汰后發(fā)文不會再來被質(zhì)疑茶言茶語

趙子琪浪姐一公淘汰后發(fā)文不會再來被質(zhì)疑茶言茶語

一窺究竟
2026-04-11 20:37:09
日本降級對華關(guān)系,不到12小時,53條航線全部取消,高市沉默不語

日本降級對華關(guān)系,不到12小時,53條航線全部取消,高市沉默不語

娛樂的宅急便
2026-04-11 18:08:57
河北一市原副市長,公安局長馬某山被查!

河北一市原副市長,公安局長馬某山被查!

新牛城
2026-04-11 20:04:02
演員李丁去世11年后,兒子也離開人世,只留下妻子賈九霄痛不欲生

演員李丁去世11年后,兒子也離開人世,只留下妻子賈九霄痛不欲生

白面書誏
2026-04-11 16:58:55
閉門會談 1 小時,鄭麗文邀咱們訪臺。大陸一句話,定調(diào)兩岸統(tǒng)一

閉門會談 1 小時,鄭麗文邀咱們訪臺。大陸一句話,定調(diào)兩岸統(tǒng)一

眼界看視野
2026-04-11 11:29:37
人均600萬到欠400億,毀掉"天下第一村"的不是別人,是他們自己

人均600萬到欠400億,毀掉"天下第一村"的不是別人,是他們自己

聞香閣
2026-04-11 08:40:49
有魄力!43歲少帥全場棄用國手和頂薪掀翻四冠王,不愧是鬼才教練

有魄力!43歲少帥全場棄用國手和頂薪掀翻四冠王,不愧是鬼才教練

南海浪花
2026-04-11 07:15:50
全紅嬋事件最新!嫌疑人被抓,央視曝處罰結(jié)果,牽連人員真相大白

全紅嬋事件最新!嫌疑人被抓,央視曝處罰結(jié)果,牽連人員真相大白

東風(fēng)寄的千愁
2026-04-11 15:16:06
3月銷冠還是Model Y:網(wǎng)上沒贏過,現(xiàn)實沒輸過

3月銷冠還是Model Y:網(wǎng)上沒贏過,現(xiàn)實沒輸過

小南看車
2026-04-11 07:04:23
白色路虎車加油后逃單,江西高速交警通報

白色路虎車加油后逃單,江西高速交警通報

環(huán)球網(wǎng)資訊
2026-04-11 07:53:11
長得一模一樣!男籃U18新星李沂澤疑似換名字、年齡改小2歲!

長得一模一樣!男籃U18新星李沂澤疑似換名字、年齡改小2歲!

籃球大圖
2026-04-11 09:52:02
天?。】吹?987年春晚觀眾席的遲重瑞,才懂陳麗華為啥一見鐘情

天?。】吹?987年春晚觀眾席的遲重瑞,才懂陳麗華為啥一見鐘情

觀察鑒娛
2026-04-09 09:36:18
2026-04-11 22:28:49
真正能保護你的
真正能保護你的
真正能保護你的
442文章數(shù) 167關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

特朗普:美方開始清理霍爾木茲海峽

頭條要聞

特朗普:美方開始清理霍爾木茲海峽

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

鄭鈞回應(yīng)兒子走路:會監(jiān)督他挺直腰板

財經(jīng)要聞

從日本翻身看:這次誰能扛住高油價?

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

游戲
藝術(shù)
本地
親子
公開課

《紅色沙漠》更新神速:韓國人都不休息的嗎?

藝術(shù)要聞

花6億,爛尾12年,福建一處“頂奢別墅”,野草都長到三樓了

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

親子要聞

糖果套圈圈想吃哪個套哪個

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版