国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從 RAG 到 Context:2025 年 RAG 技術(shù)年終總結(jié)

0
分享至


作者 | 張穎峰

過去的 2025 年,對于檢索增強(qiáng)生成(RAG)技術(shù)而言,是經(jīng)歷深刻反思、激烈辯論與實質(zhì)性演進(jìn)的一年。

盡管圍繞其“臨時性”與“被替代性”的疑云一直籠罩,但縱觀全年發(fā)展軌跡,RAG 并未如部分激進(jìn)觀點(diǎn)所預(yù)言的那樣黯然退場,反而在企業(yè)級 AI 落地的深水區(qū)中,愈發(fā)彰顯出其作為數(shù)據(jù)基礎(chǔ)設(shè)施的不可替代性。

回顧全年,RAG 的發(fā)展態(tài)勢可謂錯綜復(fù)雜:

一方面,其實際應(yīng)用效果面臨諸多質(zhì)疑,部分源于 RAG 系統(tǒng)自身“易用難精”的調(diào)優(yōu)挑戰(zhàn);另一方面,其輿論關(guān)注度也似乎被 2025 年大模型應(yīng)用的絕對焦點(diǎn)——AI Agents 所分流。

然而,一個頗具意味的現(xiàn)象是,盡管爭議增多且并非處于流量中心,但真正致力于構(gòu)建核心競爭力、嚴(yán)肅對待 AI 能力建設(shè)的企業(yè),尤其是中大型組織,對 RAG 的投入反而更為深入和系統(tǒng)化。

RAG 在企業(yè) AI 架構(gòu)中非但未被邊緣化,反而更加穩(wěn)固地扮演著核心角色,其作為關(guān)鍵基礎(chǔ)設(shè)施的地位并未動搖,正如下圖所示,它構(gòu)成了企業(yè)智能能力的堅實底座。


因此,我們首先需要超越表面的爭議,深入審視 RAG 技術(shù)本身的生命力:它究竟只是一種彌補(bǔ)大模型知識缺陷的過渡性“創(chuàng)可貼”方案,還是具備持續(xù)演進(jìn)、并能成為下一代 AI 應(yīng)用基石的架構(gòu)?

要回答這個問題,我們必須系統(tǒng)盤點(diǎn)其在技術(shù)改進(jìn)、架構(gòu)演進(jìn)以及在 Agent 時代所扮演的新角色。

RAG 還能改進(jìn)么?

長上下文和 RAG 之爭

進(jìn)入 2025 年,圍繞 RAG 的諸多爭議,其根源可歸結(jié)為一個核心矛盾:企業(yè)對 RAG “既離不了,又不滿意”的普遍心態(tài)已形成共識。RAG 降低了接入私有知識的門檻,但其效果的穩(wěn)定性和準(zhǔn)確性(尤其是面對復(fù)雜查詢時)往往需要大量精細(xì)調(diào)優(yōu),這使得其總擁有成本評估變得復(fù)雜。

因此,2024 年學(xué)術(shù)界與投資界熱烈探討的“長上下文(Long Context)能否取代 RAG”的理論命題,在 2025 年迅速進(jìn)入了實踐檢驗階段。部分對延遲和成本相對不敏感、且查詢模式相對固定的場景(如某些類型的合同條款審查、固定格式報告分析),開始嘗試直接利用長上下文窗口,將整篇或大量相關(guān)文檔一次性輸入模型,以期繞過 RAG 檢索可能帶來的信息丟失或噪聲問題,直接緩解對話效果不一致的痛點(diǎn)。

然而,關(guān)于兩者的技術(shù)對比,2024 年以來的研究已給出相對清晰的圖景:在 LLM 上下文窗口中機(jī)械地填充過長文本,本質(zhì)上是一種“暴力堆料”策略,它必然導(dǎo)致模型注意力分散,從而使得回答質(zhì)量顯著下降,產(chǎn)生所謂的“中間迷失”(Lost in the Middle)或“信息淹沒”效應(yīng)。

更重要的是,此舉伴隨著高昂的成本考量——處理長上下文的計算開銷呈非線性增長。

因此,對企業(yè)而言,真正具有實踐價值的思考并非糾結(jié)于“RAG 已死”的口號式辯論,而是回歸問題本質(zhì):如何將最相關(guān)、最有效的信息,以最高性價比的方式納入模型的上下文處理體系。

這一命題,恰恰是 RAG 技術(shù)設(shè)計的初衷。長上下文能力的提升,非但沒有宣告 RAG 的終結(jié),反而促使我們更深入地思考兩者如何協(xié)同。例如,可以在 RAG 系統(tǒng)中,利用長上下文窗口來容納更完整、語義更連貫的檢索結(jié)果塊,或者用于多步檢索與反思的中間結(jié)果匯總。

這種“檢索前置,長上下文容納”的協(xié)同模式,正是“上下文工程”(Context Engineering)這一新興領(lǐng)域需求興起的重要源頭。它標(biāo)志著工作重心從單一的“檢索算法”優(yōu)化,轉(zhuǎn)向?qū)Α皺z索 - 上下文組裝 - 模型推理”端到端鏈路的系統(tǒng)性設(shè)計。

當(dāng)前,向 LLM 提供外部知識的輸入范式主要分為四種:

  • 單純依賴 LLM 的長上下文能力。

  • 借助于 KV Cache 。

  • 利用 Grep 等簡易搜索手段。

  • 采用完整的 RAG 架構(gòu)。

從成本角度來看,方案 1 與方案 4 之間存在 2 個數(shù)量級的差距。方案 2 即將所有文檔數(shù)據(jù)經(jīng) LLM 前向傳播處理為張量后存入專門的 KV Cache 系統(tǒng),其成本相比 RAG 仍高出至少一個數(shù)量級。

即便將 KV Cache 升級為數(shù)據(jù)庫與推理一體化引擎(如 AlayaDB【文獻(xiàn) 1】所倡導(dǎo)的路徑),在技術(shù)層面仍存在多重根本性限制:

  • 大數(shù)據(jù)量與檢索性能的矛盾:

若預(yù)處理后的張量數(shù)據(jù)總量遠(yuǎn)超 GPU 顯存容量,則系統(tǒng)必須引入二級存儲和相應(yīng)的檢索機(jī)制來實現(xiàn)按需加載。這將導(dǎo)致推理過程變?yōu)椤斑吷蛇吽阉鳌保瑢?I/O 延遲和檢索速度的要求變得極其苛刻。

為了滿足極低延遲,通常不得不將整個數(shù)據(jù)集和 LLM 推理服務(wù)強(qiáng)綁定部署于同一物理機(jī)或高性能計算集群的緊密網(wǎng)絡(luò)域內(nèi),這在架構(gòu)上極大地犧牲了靈活性與可擴(kuò)展性,限制了業(yè)務(wù)部署形態(tài)。

  • 場景局限性:

該方法主要適用于相對靜態(tài)的、以事實性知識問答為主的文本庫,難以靈活、低成本地結(jié)合企業(yè)內(nèi)部復(fù)雜多變的業(yè)務(wù)規(guī)則、實時更新的知識以及進(jìn)行多樣化的組合查詢。

  • 技術(shù)融合趨勢:

該方法與 RAG 并不沖突。即該方法未來走向?qū)嵱?,也極有可能被 RAG 技術(shù)體系所吸納和融合,成為 RAG 架構(gòu)中的一個優(yōu)化組件。

方案 3(無索引 RAG)因 Claude Code 為其代碼助手 Agent 引入而受到一定關(guān)注。那么,一個樸素的問題是:在特定領(lǐng)域,簡單的字符串匹配(Grep)能否取代復(fù)雜的基于檢索的 RAG 架構(gòu)?

對于組織良好、格式純粹、術(shù)語固定的代碼庫或某些高度結(jié)構(gòu)化的文本數(shù)據(jù)(如日志文件),基于規(guī)則的 Grep 或關(guān)鍵詞搜索或許能以極低成本獲得不錯的效果,從而節(jié)約索引構(gòu)建與維護(hù)的開銷。

但對于絕大多數(shù)企業(yè)環(huán)境中的多模態(tài)、非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)(如產(chǎn)品手冊、會議紀(jì)要、設(shè)計圖紙、含表格和圖片的報告),此方法則完全失效。

事實上,即使是看似規(guī)則的代碼搜索,領(lǐng)先的產(chǎn)品如 Augment Code 也未采用簡單的 Grep,而是專門微調(diào)了適用于代碼語義的 Embedding 模型。

原因在于,為代碼助手提供有效的上下文,不僅需要精確的字符串匹配(找函數(shù)名),更需要語義近似的代碼片段(實現(xiàn)相似功能的不同寫法)、相關(guān)的 API 文檔以及代碼塊的依賴關(guān)系。

至于企業(yè)級應(yīng)用所必需的多樣化自然語言查詢、高并發(fā)、低延遲響應(yīng)以及結(jié)合業(yè)務(wù)元數(shù)據(jù)的過濾與排序等需求,則更非 Grep 所能覆蓋。

因此,RAG 及其前身——企業(yè)搜索引擎,始終是面向復(fù)雜企業(yè)級需求的綜合性技術(shù)與架構(gòu)解決方案,其價值在于提供一種系統(tǒng)化、可擴(kuò)展、可治理的知識接入與管理能力。

RAG 對話效果的優(yōu)化路徑

回歸 RAG 技術(shù)本質(zhì),其回答不準(zhǔn)確、不穩(wěn)定的常見根源,源于傳統(tǒng)“分塊 - 嵌入 - 檢索”流水線中存在一個結(jié)構(gòu)性矛盾:使用單一粒度、固定大小的文本塊(Chunk)同時承擔(dān)兩項存在內(nèi)在沖突的任務(wù):

  • 語義匹配(召回):為了在語義空間中進(jìn)行相似度搜索時獲得高精度召回,需要文本塊較小(如 100-256 個 Token),使其語義焦點(diǎn)明確,減少無關(guān)信息的干擾。

  • 上下文理解(利用):為了向 LLM 提供足夠完整、連貫的上下文以生成優(yōu)質(zhì)回答,需要文本塊較大(如 1024 甚至更多 Token),以保證邏輯的完整性和背景信息的充足。

這導(dǎo)致系統(tǒng)設(shè)計者不得不在“精準(zhǔn)但碎片化”與“完整但模糊”之間進(jìn)行艱難權(quán)衡,常常顧此失彼。小切片可能導(dǎo)致檢索到的信息支離破碎,LLM 無法理解全貌;大切片則可能引入噪聲,降低檢索精度,并且由于向量表示是對整個塊的概括,也會丟失內(nèi)部細(xì)節(jié)的區(qū)分度。

因此,一個根本性的改進(jìn)思路是將 RAG 流程從“一步走”解耦為兩個邏輯階段——“搜索(Search)”與“檢索(Retrieve)”——并允許它們采用不同的文本粒度:

  • 搜索(Search):類比“掃描”或“定位”,核心目標(biāo)是快速、精準(zhǔn)地從海量數(shù)據(jù)中找出所有可能相關(guān)的“線索點(diǎn)”。此階段應(yīng)使用較小的、語義純凈的文本單元,以實現(xiàn)高召回率與高精度。像"掃描"或"定位",需使用小塊文本以實現(xiàn)高精度的語義匹配。

  • 檢索(Retrieve):類比“閱讀”或“理解”,核心目標(biāo)是為 LLM 組裝出用于生成答案的“閱讀材料”。此階段應(yīng)基于搜索階段得到的線索,動態(tài)地聚合、拼接或擴(kuò)展出更大、更完整、更連貫的上下文片段。

RAGFlow 提出 TreeRAG 技術(shù),正是這一思想的實踐。它通過借助 LLM 在離線階段自動化地分析文檔,構(gòu)建出層次化的樹狀目錄摘要結(jié)構(gòu),從而巧妙地橋接了“小粒度搜索”與“大粒度閱讀”之間的鴻溝。其核心工作流體現(xiàn)了“先精準(zhǔn)定位,再展開閱讀”的智慧 :

  • 離線處理(知識結(jié)構(gòu)化):文檔切分后,先送入 LLM 進(jìn)行分析,生成對應(yīng)的多級樹狀目錄摘要(例如,章 ->節(jié) ->子節(jié) ->關(guān)鍵段落梗概)。同時,還可以為每個節(jié)點(diǎn)或原始切片進(jìn)一步衍生出摘要、關(guān)鍵詞、實體、可能的問題、元數(shù)據(jù)、關(guān)聯(lián)的圖片上下文描述等豐富的語義增強(qiáng)信息。研究表明【文獻(xiàn) 3】,在離線處理階段,對原始切片的精細(xì)度要求可以適當(dāng)放寬,過于復(fù)雜的切分策略有時反而會破壞語義單元,簡單且重疊的切片策略往往在實踐中更有效和健壯。

  • 在線檢索(動態(tài) Context 組裝):當(dāng)用戶查詢到來時,首先使用最細(xì)粒度的“小片段”(原始切片或其摘要)進(jìn)行相似度搜索,實現(xiàn)快速、精準(zhǔn)的初步召回。然后,利用離線構(gòu)建的“樹狀目錄”這一導(dǎo)航圖,根據(jù)召回的切片節(jié)點(diǎn),迅速定位到其所在的父節(jié)點(diǎn)、兄弟節(jié)點(diǎn)及相鄰節(jié)點(diǎn),將這些語義相關(guān)的片段自動組合成一個邏輯完整的“大片段”,最后提供給 LLM。這種方法有效解決了因固定粒度切片造成的上下文碎片化問題,確保了提供給模型的材料既包含了精準(zhǔn)匹配的核心信息,也具備了理解該信息所需的周邊語境。

類似的工作還有 PageIndex【文獻(xiàn) 2】,它更側(cè)重于解析和利用文檔本身(如 PDF)固有的物理或邏輯目錄結(jié)構(gòu)。

這種方法在文檔結(jié)構(gòu)清晰、格式規(guī)范時非常高效,但其局限性在于高度依賴源文檔的質(zhì)量,當(dāng)文檔缺乏清晰目錄或目錄不準(zhǔn)確時,其自動定位能力就會大打折扣。


TreeRAG 及其同類技術(shù)有效緩解了因切片不當(dāng)導(dǎo)致的“Lost in the Middle”痛點(diǎn)。

然而,對于某些更為復(fù)雜的查詢,例如問題答案分散在數(shù)十個互不相鄰的切片中、或需要綜合多個獨(dú)立文檔的信息進(jìn)行推理的情況,僅靠樹狀結(jié)構(gòu)可能仍無法全面覆蓋所有關(guān)聯(lián)。

此時,業(yè)界很自然地將目光投向另一條技術(shù)路徑:GraphRAG。GraphRAG 通過從文檔中抽取實體及實體間關(guān)系,構(gòu)建知識圖譜,利用圖查詢與圖推理來發(fā)現(xiàn)間接關(guān)聯(lián)的信息片段。

然而,GraphRAG 自誕生以來,同樣讓許多嘗試者處于“愛恨交加”的境地,其主要挑戰(zhàn)源于以下幾個方面:

  • Token 消耗巨大:

實體抽取、去重、社區(qū)摘要等步驟會導(dǎo)致數(shù)倍乃至數(shù)十倍于原文的 Token 消耗。

  • 實體抽取質(zhì)量與預(yù)期存在落差:

傳統(tǒng)知識圖譜經(jīng)過領(lǐng)域?qū)<揖脑O(shè)計與校驗,圖譜質(zhì)量高,可直接用于可視化分析與交互。而 GraphRAG 自動抽取的實體和關(guān)系常包含大量噪聲、冗余或錯誤,若以可視化知識圖譜的標(biāo)準(zhǔn)去審視和使用它,往往會感到失望,陷入“圖表美觀但實用性不強(qiáng)”的尷尬境地。

  • 知識碎片化:

即便通過圖算法發(fā)現(xiàn)了關(guān)聯(lián)社區(qū)并生成了摘要,其產(chǎn)出仍然是圍繞特定主題的“知識片段”集合?;谶@些離散的片段去生成最終答案,對 LLM 的整合與連貫敘述能力提出了極高要求,容易產(chǎn)生回答缺乏邏輯主線或遺漏重要側(cè)面信息的問題。 實體和關(guān)系得到的是離散的知識點(diǎn),即便圍繞社區(qū)生成的摘要也是碎片化的信息,基于此生成的回答難免缺乏連貫性。

由此可見,結(jié)合 TreeRAG 與 GraphRAG 的優(yōu)勢,有望進(jìn)一步緩解 RAG 的痛點(diǎn):TreeRAG 擅長解決因物理切片導(dǎo)致的局部語義斷裂問題,提供連貫的上下文;GraphRAG 則能基于實體與關(guān)系網(wǎng)絡(luò),利用圖遍歷算法(如 Personalized PageRank)輔助發(fā)現(xiàn)那些在語義上高度相關(guān)但在原始文檔中物理距離較遠(yuǎn)、甚至跨文檔的內(nèi)容片段。

因此,無論是 TreeRAG、GraphRAG,還是兩者融合的混合架構(gòu)(可以統(tǒng)稱為“長上下文 RAG”),其共同的核心范式都是在傳統(tǒng) RAG 流水線的基礎(chǔ)上,引入了額外的語義增強(qiáng)與結(jié)構(gòu)構(gòu)建層:

在數(shù)據(jù)寫入(Ingestion)階段,不僅進(jìn)行切片,更利用 LLM 進(jìn)行深度的語義理解、摘要生成和結(jié)構(gòu)提?。?/p>

在檢索(Retrieval)階段,則不僅僅依賴搜索,還結(jié)合了基于預(yù)定義結(jié)構(gòu)(樹、圖)的導(dǎo)航、關(guān)聯(lián)查詢和動態(tài)組裝能力。

因此,RAG 技術(shù)遠(yuǎn)非陷入停滯,其改進(jìn)方向正日益清晰:借助 LLM 本身的能力,在數(shù)據(jù)生命周期的早期階段就盡力彌合原始數(shù)據(jù)與最終問答之間的語義鴻溝。

通過在寫入階段使用不同指令的提示詞,多輪次、多角度地請求 LLM 分析文本,從中提取出豐富、多層次的語義信息(元數(shù)據(jù)),并在檢索階段,以這些增強(qiáng)語義為“導(dǎo)航圖”,在單純的向量相似度搜索之外,智能地完成上下文的篩選、聚合與填充。

這才是解決復(fù)雜、開放域問答挑戰(zhàn)的更可靠之道。

RAGFlow 等產(chǎn)品已在此方向展開深入實踐,其未來演進(jìn)將圍繞這些核心點(diǎn)持續(xù)深化。簡而言之,現(xiàn)代 RAG 系統(tǒng)的設(shè)計哲學(xué)是:充分協(xié)同“強(qiáng)大檢索與推理能力”與“有限但寶貴的 LLM 上下文窗口”,通過智能的預(yù)處理與動態(tài)組裝,在效果、性能與成本之間尋求最優(yōu)平衡。

從知識庫到數(shù)據(jù)底座

我們常強(qiáng)調(diào) RAG 本身是一種架構(gòu)范式而非具體應(yīng)用,但不可否認(rèn),知識庫是 RAG 最直觀和成功的應(yīng)用形態(tài)。

隨著 AI Agent 開發(fā)的蓬勃興起,一個顯著的趨勢是:Agent 的復(fù)雜任務(wù)執(zhí)行越來越離不開對海量、多樣化企業(yè)數(shù)據(jù)的實時訪問與理解。因此,企業(yè)級的 RAG 產(chǎn)品開始超越“問答知識庫”的單一定位,向更底層、更通用的 Agent 數(shù)據(jù)基座演進(jìn)。它需要承擔(dān)起為各類 Agent 提供統(tǒng)一、高效、安全的非結(jié)構(gòu)化數(shù)據(jù)訪問服務(wù)的角色。

為此,一個健壯、可擴(kuò)展和可配置的數(shù)據(jù)注入管道(Ingestion pipeline) 已成為現(xiàn)代 RAG 引擎不可或缺的核心功能模塊。它承擔(dān)著“接管”企業(yè)內(nèi)部紛繁復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)(文檔、圖片、音視頻、代碼、郵件等),并將其“消化”成 RAG 引擎可索引、可檢索的標(biāo)準(zhǔn)格式的全過程。

如果說 ETL/ELT 是現(xiàn)代數(shù)據(jù)棧中處理結(jié)構(gòu)化數(shù)據(jù)的工業(yè)化標(biāo)準(zhǔn)管線(以 dbt、 Fivetran、 Airbyte 等工具為代表),為數(shù)據(jù)倉庫和數(shù)據(jù)湖提供了統(tǒng)一、靈活且可靠的數(shù)據(jù)集成方案,那么,面向非結(jié)構(gòu)化數(shù)據(jù)的 Ingestion pipeline(或可稱為 PTI: Parse-Transform-Index) 就是其在 AI 時代對等的關(guān)鍵基礎(chǔ)設(shè)施。

兩者在架構(gòu)定位與處理哲學(xué)上高度相似,但在具體技術(shù)手段上因數(shù)據(jù)特質(zhì)不同而有所區(qū)分,其核心環(huán)節(jié)對比如下圖所示:


具體來看各個環(huán)節(jié)的異同:

  • Extract 與 Parsing:傳統(tǒng) ETL/ELT 的“Extract”階段主要從關(guān)系型數(shù)據(jù)庫、API、日志文件等結(jié)構(gòu)化或半結(jié)構(gòu)化源中抽取數(shù)據(jù)。而 Ingestion pipeline 在此基礎(chǔ)上,強(qiáng)化了“Parsing”環(huán)節(jié),以專門攻克非結(jié)構(gòu)化數(shù)據(jù)的信息提取難題。

該環(huán)節(jié)需要綜合利用各種解析器,例如:用于 PDF /Word 的格式解析器、RAGFlow 自帶的 DeepDoc 專用文檔智能解析模型、基于視覺語言模型(VLM)微調(diào)的 OCR 模型等。其目標(biāo)是將多模態(tài)、多格式的原始文檔,轉(zhuǎn)化為純凈、結(jié)構(gòu)化的文本表示,并盡可能保留原始的邏輯結(jié)構(gòu)(如標(biāo)題、列表、表格)和元信息(如作者、日期)。

  • Transform:這是兩者差異最大的環(huán)節(jié)。傳統(tǒng) ETL/ELT 的“Transform”側(cè)重于基于 SQL 或代碼進(jìn)行數(shù)據(jù)清洗、格式標(biāo)準(zhǔn)化、業(yè)務(wù)邏輯計算(如聚合、關(guān)聯(lián))等。

而 Ingestion pipeline 的“Transform”階段,則是以 LLM 為核心的一系列語義理解與增強(qiáng)算子。它們負(fù)責(zé)把 Parser 輸出的原始文本流,轉(zhuǎn)變成檢索階段所需的各種高級“素材”。除了基礎(chǔ)的文本分塊(Chunking)外,前述的樹狀結(jié)構(gòu)生成、知識圖譜(實體 - 關(guān)系)抽取、摘要生成、問題生成、關(guān)鍵詞提取等所有旨在提升檢索效果與精度的處理,都在這個步驟完成。這個階段是注入“智能”的關(guān)鍵,決定了數(shù)據(jù)被“理解”的深度。

  • Load 與 Indexing: 傳統(tǒng) ETL/ELT 將處理后的干凈數(shù)據(jù)加載(Load)到目標(biāo)數(shù)據(jù)倉庫或數(shù)據(jù)湖表中。而 RAG 引擎則通過“Indexing”模塊,將 Transform 階段產(chǎn)出的豐富內(nèi)容(原始文本塊、摘要、向量、元數(shù)據(jù)、圖關(guān)系等)構(gòu)建成適合多種檢索方式的高效索引。

這是因為 RAG 引擎本質(zhì)上是一個高并發(fā)、低延遲的檢索服務(wù)層(Serving layer),它需要支持混合檢索(向量檢索 + 關(guān)鍵詞檢索 + 元數(shù)據(jù)過濾)、并可能集成上述的樹檢索、圖查詢等高級能力。

無論是處理結(jié)構(gòu)化數(shù)據(jù)的 ETL,還是處理非結(jié)構(gòu)化數(shù)據(jù)的 PTI,中間的“轉(zhuǎn)換(Transform)”步驟都是價值創(chuàng)造的核心環(huán)節(jié)。

對于 ETL,工程師需要根據(jù)具體的業(yè)務(wù)分析需求,精心設(shè)計轉(zhuǎn)換邏輯(SQL);對于 PTI,由于 Ingestion pipeline 必須與最終的檢索(Retrieval)需求端到端協(xié)同設(shè)計,因此需要根據(jù)上層應(yīng)用(如問答、摘要、分析)對精度、速度、成本的不同要求,來決定 Transform 階段應(yīng)該采用何種粒度的切片、生成何種類型的增強(qiáng)語義、構(gòu)建何種復(fù)雜度的索引結(jié)構(gòu)。

因此,構(gòu)建優(yōu)秀 RAG 系統(tǒng)的關(guān)鍵點(diǎn),并非僅僅在于選擇了某個最先進(jìn)的 Parser 模型或某款高性能的向量數(shù)據(jù)庫,而在于對整個“數(shù)據(jù)注入 -> 語義增強(qiáng) -> 索引構(gòu)建 -> 檢索服務(wù)”鏈路的協(xié)同設(shè)計與持續(xù)調(diào)優(yōu)。

當(dāng) RAG 系統(tǒng)具備了這樣強(qiáng)大、靈活且智能的 Ingestion pipeline,它就真正從一個“問答系統(tǒng)”升級為企業(yè)級非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一處理與訪問平臺。它能夠以標(biāo)準(zhǔn)化、自動化的方式,消化企業(yè)內(nèi)部散落各處的知識資產(chǎn),并將其轉(zhuǎn)化為可供 AI Agent 隨時調(diào)用的“燃料”。

這也是為何今天,當(dāng)企業(yè)決心構(gòu)建統(tǒng)一的 AI 能力中臺時,該中臺的核心與基石必然,也只能是這樣一個以 RAG 引擎為核心的、具備強(qiáng)大數(shù)據(jù)處理能力的數(shù)據(jù)底座。它為企業(yè)所有的 AI 應(yīng)用提供了唯一可信、實時更新的知識來源。

從 RAG 到 Context

2025 年 LLM 應(yīng)用側(cè)最火熱、最引人注目的無疑是各式各樣的 AI Agent。

從 Agent 框架的視角來看,它可以視 RAG 為一個提供外部知識訪問能力的工具(Tool) ,就如同調(diào)用計算器、查詢天氣 API 或操作數(shù)據(jù)庫的工具一樣。這種工具化的視角,加之“Agentic RAG”(利用 Agent 的規(guī)劃、反思等能力來增強(qiáng) RAG 流程本身)概念的興起,使得“RAG 將被更通用的 Agent 取代”或“RAG 只是 Agent 的一種普通工具”的論調(diào)在 2025 年尤其盛行。

然而,這種觀點(diǎn)可能過于簡化,甚至誤解了 RAG 在 Agent 生態(tài)中的根本價值與地位。

它忽視了 RAG 架構(gòu)的本質(zhì)——其核心能力與價值基石在于檢索(Retrieval),而并非僅僅在于“增強(qiáng)生成”。正是“高效、準(zhǔn)確、可擴(kuò)展地從海量私有數(shù)據(jù)中檢索相關(guān)信息”這一核心能力,使得 RAG 有潛力成為,且正在成為 Agent 最不可或缺、最基礎(chǔ)的數(shù)據(jù)底座。

因為無論多么智能的 Agent,其決策與行動的質(zhì)量,在根本上都取決于它所獲得的上下文(Context) 的質(zhì)量與相關(guān)性。如何為不同的任務(wù)、在不同的時刻,動態(tài)地、智能地組裝出最有效的上下文,成為了 2025 年下半年業(yè)界最熱門的技術(shù)探索與實踐指導(dǎo)原則,這就是上下文工程(Context Engineering)。

讓我們深入剖析 Context Engineering 所涉及的主要數(shù)據(jù)類型和技術(shù),來理解為何“檢索”處于其絕對的核心:

Context Engineering 之所以成為一個獨(dú)立的工程領(lǐng)域,正是因為實踐反復(fù)證明:簡單粗暴地將所有可能相關(guān)的數(shù)據(jù)都塞進(jìn) LLM 的上下文窗口,不僅會導(dǎo)致成本無法承受,更會因信息過載而嚴(yán)重?fù)p害 LLM 的理解、推理與工具調(diào)用能力。因此,智能地篩選、排序、拼接上下文成為必須。

一個典型的 Agent 上下文通常需要精心組裝三類數(shù)據(jù):

  • 領(lǐng)域知識數(shù)據(jù):

對于作為核心工具的知識庫(即 RAG 系統(tǒng))來說,檢索結(jié)果的質(zhì)量直接決定答案成敗。返回過多無關(guān)片段會引入噪聲,干擾答案生成;遺漏關(guān)鍵片段則必然導(dǎo)致事實性錯誤或答案不完整。因此,RAG 本身就可以被視作最早期的、針對領(lǐng)域知識的上下文工程 1.0 實踐。

  • 工具數(shù)據(jù):

對于其他功能工具,特別是通過模型上下文協(xié)議(Model Context Protocol, MCP)等標(biāo)準(zhǔn)封裝的大量工具而言,其描述信息(名稱、功能、參數(shù)說明)本身也是上下文的一部分。當(dāng)可用工具只有少數(shù)幾個時,可以將其描述全部硬編碼在提示詞中。但在企業(yè)級場景下,通過 MCP 包裝的內(nèi)部服務(wù)、API、函數(shù)可能達(dá)到數(shù)百甚至上千個,每次對話都由人工或靜態(tài)規(guī)則指定調(diào)用哪幾個工具是不現(xiàn)實的。

這個“工具選擇”難題直到 2025 年底才被部分用戶深刻感知,甚至引發(fā)了《誕生才一周年,MCP 涼了》這樣的標(biāo)題黨文章【文獻(xiàn) 9】。

實際上,文章作者抱怨錯了對象——問題癥結(jié)在于將所有工具描述不加區(qū)分地堆進(jìn)上下文,導(dǎo)致 LLM “選擇困難癥”爆發(fā),而非 MCP 協(xié)議本身。MCP 是一個極重要的協(xié)議,其目標(biāo)在于統(tǒng)一工具調(diào)用的接口標(biāo)準(zhǔn),但它并不負(fù)責(zé)、也無法解決“在特定情境下該選擇哪個工具”的決策問題。

那么,這個決策責(zé)任應(yīng)該由誰承擔(dān)?這正是當(dāng)前多數(shù) Agent 框架缺失的關(guān)鍵一環(huán)。

答案依然是檢索 (Retrieval)。我們需要通過對所有工具描述信息進(jìn)行語義搜索,并結(jié)合對過往工具使用歷史中形成的“技巧”(Skills)、“操作手冊”(Playbook)或“最佳實踐指南”(Guideline)進(jìn)行檢索,才能動態(tài)地、精準(zhǔn)地為當(dāng)前 Agent 的當(dāng)前任務(wù),篩選出最相關(guān)、最可能被正確使用的工具子集和工具調(diào)用參數(shù)放入上下文。

這遠(yuǎn)非當(dāng)前的 Anthropic Skills 等產(chǎn)品特性所能涵蓋。如何將 Skills / Playbook / Guideline 的生成、檢索與使用形成閉環(huán)并產(chǎn)品化,是 Context Engineering 必須解決的核心問題,這本質(zhì)上是一個數(shù)據(jù)基礎(chǔ)設(shè)施(Infra)問題,而非單純的模型能力問題。

  • 會話和狀態(tài)數(shù)據(jù):

除了靜態(tài)知識和工具,上下文還需要包含動態(tài)的、與當(dāng)前交互相關(guān)的數(shù)據(jù),例如:當(dāng)前會話的歷史消息、用戶的個性化信息與偏好、以及部分 Agent 的內(nèi)部狀態(tài)信息(例如 Human-in-the-loop 中的人工輸入)。

這類數(shù)據(jù)的管理與訪問常被形象地稱為“記憶(Memory)”,它在 2025 年上半年至年中成為獨(dú)立的熱門概念。但從技術(shù)實現(xiàn)內(nèi)核看,記憶系統(tǒng)的核心能力——對歷史交互信息的存儲、索引與檢索——與 RAG 并無本質(zhì)區(qū)別,可以看作是針對特定數(shù)據(jù)源(會話日志)和特定使用模式(更強(qiáng)調(diào)時序和會話關(guān)聯(lián))的檢索系統(tǒng)特化版。

通過對上下文組成的解構(gòu),我們可以清晰地看到,Context Engineering 的核心任務(wù),仍然是基于 Agent 所需三大類數(shù)據(jù)源的檢索:

  • 針對企業(yè)私有化、非結(jié)構(gòu)化的領(lǐng)域文檔數(shù)據(jù)的檢索——即 RAG。

  • 針對 Agent 交互過程中產(chǎn)生的會話歷史與狀態(tài)數(shù)據(jù),特別是 LLM 生成內(nèi)容的檢索——即記憶(Memory)。

  • 針對企業(yè)現(xiàn)有服務(wù)與 API 封裝而成的工具描述及使用指南數(shù)據(jù)的檢索——可稱之為工具檢索(Tool Retrieval),這類數(shù)據(jù)同樣可以放入專用區(qū)域如 Memory。

由此可見,RAG 技術(shù)在 AI Agent 時代將無可爭議地升級,它不再僅僅是“檢索增強(qiáng)生成”中的一個環(huán)節(jié),而是以“檢索”為核心能力,擴(kuò)展其數(shù)據(jù)范疇,演進(jìn)為支撐所有上下文組裝需求的上下文引擎(Context Engine),真正成為服務(wù)于 LLM 應(yīng)用的、統(tǒng)一的上下文層(Context Layer)與數(shù)據(jù)底座。

Agent 所需的 Retrieval vs 傳統(tǒng)搜索

理解這種演進(jìn),需要對比傳統(tǒng)搜索時代與 Agent 時代檢索范式的根本差異:

在傳統(tǒng)搜索時代(如使用谷歌或企業(yè)內(nèi)搜索),檢索的發(fā)起者、執(zhí)行者和結(jié)果消費(fèi)者都是人。用戶提出問題,搜索引擎返回一系列相關(guān)文檔鏈接,用戶需要自己打開多個鏈接,閱讀、比較、綜合信息,最終形成答案或決策。這是一個“人機(jī)協(xié)同、人工主導(dǎo)”的循環(huán)。

而在 Agent 時代,檢索的發(fā)起者和初級消費(fèi)者是 Agent(由 LLM 驅(qū)動)。其典型工作流是:LLM 首先對用戶復(fù)雜問題進(jìn)行理解與拆解(假設(shè) / 規(guī)劃),然后代表用戶自動發(fā)起一次或多次檢索請求,接著對檢索返回的原始結(jié)果進(jìn)行理解、核驗與提煉(反思),最后將加工后的信息拼接成最終生成答案的上下文。檢索的內(nèi)容也從單一的網(wǎng)頁或文檔,擴(kuò)展到工具使用、記憶片段等。

整個“問題理解 -> 檢索 -> 結(jié)果處理 -> 上下文組裝”的閉環(huán)是由 Agent 自動完成的。


因此,Agent 所需的檢索系統(tǒng)面臨著前所未有的新要求:

請求頻率極高(可能會超過傳統(tǒng)搜索時代人類發(fā)出的檢索請求次數(shù)的一到兩個數(shù)量級)、查詢類型多樣化(對文檔的語義查詢、對工具的關(guān)鍵詞匹配、對工具使用指導(dǎo)的參數(shù)匹配、對記憶的關(guān)聯(lián)查詢)、延遲要求苛刻(直接影響 Agent 的響應(yīng)速度)、需要與 Agent 的推理流程緊密耦合。

這遠(yuǎn)非一個獨(dú)立的搜索引擎或向量數(shù)據(jù)庫所能滿足。它需要在存儲與索引層之上,構(gòu)建一個智能的中間服務(wù)層,該層理解 Agent 的意圖,能根據(jù)上下文組裝策略,動態(tài)地協(xié)調(diào)對背后不同數(shù)據(jù)源(文檔庫、記憶庫、工具庫)的檢索請求,并對結(jié)果進(jìn)行必要的融合、去重、排序與格式化,最終打包成 LLM-ready 的上下文。

這種使用模式,意味著 Agent 開發(fā)中最為繁瑣和專業(yè)的“上下文工程”部分,有望從高度手工、嵌入在提示詞硬編碼中的狀態(tài),走向聲明式配置甚至自動化,從而大幅降低 Agent 開發(fā)與維護(hù)的復(fù)雜度,提升其效果的一致性與可復(fù)用性。

工具也是需要搜索的

工具的多樣性直接決定了 Agent 能夠解決問題的廣度和深度。

在簡單的演示或原型開發(fā)中,常見的做法是將所有可用工具的描述(通常是一段自然語言文本)一次性全部嵌入 Agent 的提示詞中。

然而,當(dāng)工具數(shù)量從幾個增長到幾十個、幾百個時,這種做法的弊端將暴露無遺:首先,它占用了大量寶貴的上下文 Token,這些 Token 本可用于容納更重要的任務(wù)描述和中間結(jié)果;其次,過多的選項會給 LLM 的工具選擇邏輯帶來巨大負(fù)擔(dān),增加其“幻覺”調(diào)用或選擇錯誤工具的概率。

特別是在企業(yè)級場景中,工具的數(shù)量可能達(dá)到驚人的規(guī)模。因為從理念上講,幾乎所有現(xiàn)有的企業(yè)內(nèi)部服務(wù)、數(shù)據(jù)庫、API 和工作流,都可以被包裝成 Agent 可以理解和調(diào)用的標(biāo)準(zhǔn)化工具接口。這正是 MCP 等協(xié)議致力于解決的問題——成為 Agent 時代的“TCP/IP”,解決連通性問題。

但必須清醒認(rèn)識到,MCP 解決的是“如何調(diào)用”的協(xié)議問題,而不是“應(yīng)該調(diào)用哪個”的決策問題。優(yōu)秀的模型(如一些正在研發(fā)的 SOTA 模型)或許能在上下文中勉強(qiáng)處理數(shù)百個工具描述,但這絕非高性價比的解決方案。將上下文窗口視為稀缺資源,盡可能少地填入無效或低概率使用的信息,對于控制成本和提升整體系統(tǒng)效果都是至關(guān)重要的設(shè)計原則。


因此,工具檢索(Tool Retrieval) 在 2025 年底開始受到學(xué)術(shù)界和業(yè)界的前沿關(guān)注。

其核心思想是:為所有工具建立一個專門的描述信息索引庫(可以是向量索引,也可以是關(guān)鍵詞索引,或兩者混合)。當(dāng) Agent 需要調(diào)用工具時,先根據(jù)當(dāng)前對話的上下文和任務(wù)目標(biāo),生成一個針對工具功能的“查詢”,去這個索引庫中進(jìn)行快速檢索,只召回最相關(guān)的少數(shù)幾個(例如 Top-3)工具描述,并將其動態(tài)插入到當(dāng)前上下文中,供 LLM 進(jìn)行最終的選擇和調(diào)用。

研究表明【文獻(xiàn) 10】,即使是簡單的 BM25 關(guān)鍵詞檢索算法,在這個任務(wù)上也能作為一個很強(qiáng)的基線(Baseline)方法。當(dāng)然,使用經(jīng)過微調(diào)的專用嵌入模型,能夠獲得更精準(zhǔn)的匹配結(jié)果。

除了工具本身的描述信息,在 Agent 的開發(fā)、測試和實際使用過程中,還會自然沉淀出一系列關(guān)于“如何正確使用工具”的元知識。例如:“在處理客戶退款請求時,應(yīng)依次調(diào)用 A 工具驗證訂單、B 工具檢查庫存、C 工具執(zhí)行退款,且參數(shù) X 必須來自會話歷史 Y?!边@類“操作手冊”或“攻略”性文本,是比工具描述更豐富、更具指導(dǎo)性的上下文素材。

它們同樣應(yīng)該被納入可檢索的體系:當(dāng) Agent 面臨一個復(fù)雜任務(wù)時,可以先檢索相關(guān)的任務(wù)指南,將指南作為上下文的一部分,這樣 LLM 就能像“開卷考試”一樣,遵循最佳實踐來規(guī)劃行動。

這類關(guān)于工具使用的指南數(shù)據(jù),其數(shù)量和數(shù)據(jù)密度可能遠(yuǎn)大于工具描述本身,對其的高效利用毫無疑問必須依賴于檢索技術(shù)。早期的探索如 Dspy 框架中的 GEPA 優(yōu)化器【文獻(xiàn) 11】,它利用遺傳算法自動演化出更好的提示詞(可能包含工具使用邏輯),但其焦點(diǎn)在于優(yōu)化提示詞文本本身。

而更系統(tǒng)的工作如 ACE(Agentic Context Engineering)框架【文獻(xiàn) 12】,開始體系化地研究如何生成、管理和利用這類指導(dǎo)性上下文。雖然這不屬于本文的重點(diǎn),但我們必須認(rèn)識到,這代表了 Context Engineering 向深度發(fā)展的一個重要方向,而這類工作產(chǎn)生的結(jié)果,必然毫無疑問需要被納入到 Retrieval 需要涵蓋的體系之中,連同工具描述一起提供上下文。

Memory 值得成為單獨(dú)的 Infra 么?

“記憶”在 2025 年的技術(shù)討論中獲得了遠(yuǎn)高于 RAG 的關(guān)注度,常被各類文章和產(chǎn)品宣傳列為 Agent 基礎(chǔ)設(shè)施層的核心組件之一,甚至出現(xiàn)了“記憶將取代 RAG ”等模糊邊界的觀點(diǎn)。

那么,記憶究竟是什么?層出不窮的開源記憶項目與 RAG 系統(tǒng)在底層上有何區(qū)別與聯(lián)系?

簡而言之,記憶系統(tǒng)的出現(xiàn),最初是為了滿足對 Agent 歷史交互信息進(jìn)行有效管理和再利用的需求。

其基本使用模式與 RAG 如出一轍:當(dāng)新的對話發(fā)生時,系統(tǒng)根據(jù)當(dāng)前查詢,從存儲的歷史會話記錄中檢索出相關(guān)的過往對話片段(例如,同一用戶之前的提問、LLM 之前的回答、用戶的反饋等),然后將這些片段作為上下文的一部分,與新問題一起提交給 LLM,以便模型能保持對話的連貫性、記住用戶偏好或避免重復(fù)。因此,從功能接口和核心技術(shù)(檢索) 上看,記憶與 RAG 共享同一內(nèi)核。

它們的核心區(qū)別在于數(shù)據(jù)來源與管理目標(biāo):

  • RAG:處理的數(shù)據(jù)主要是預(yù)先存在的、相對靜態(tài)的企業(yè)私有知識資產(chǎn)(文檔、手冊、知識庫文章等)。其目標(biāo)是提供領(lǐng)域事實和背景知識。

  • 記憶:處理的數(shù)據(jù)主要是 Agent 在運(yùn)行過程中動態(tài)產(chǎn)生的交互日志與派生數(shù)據(jù)(用戶輸入、LLM 輸出、可能的交互狀態(tài)、由 LLM 生成的摘要或反思等)。其目標(biāo)是維持會話的連續(xù)性、實現(xiàn)個性化、以及從歷史經(jīng)驗中學(xué)習(xí)。

隨著研究的深入,記憶系統(tǒng)內(nèi)部的數(shù)據(jù)組織也出現(xiàn)了更精細(xì)的劃分,借鑒了認(rèn)知科學(xué)中的概念,通常包括 Working Memory ,Episodic Memory,Semantic Memory,Meta Memory 等。這些不同的“記憶區(qū)域”,在實現(xiàn)上可以類比為數(shù)據(jù)庫中的不同表或集合。

記憶系統(tǒng)的復(fù)雜性不僅在于存儲和檢索,更在于記憶的管理邏輯:新產(chǎn)生的原始對話何時、以何種方式被寫入記憶?何時觸發(fā) LLM 對一段對話進(jìn)行摘要,并將摘要存入語義記憶?如何建立不同記憶片段之間的關(guān)聯(lián)?這些“記憶的流轉(zhuǎn)、加工與生命周期管理”功能,其地位完全等價于 RAG 系統(tǒng)中的 Ingestion pipeline,只不過它處理的是動態(tài)產(chǎn)生的流式數(shù)據(jù)。

如果我們把視野放大,在記憶系統(tǒng)中專門劃分出一個區(qū)域(或單獨(dú)建立一個緊密關(guān)聯(lián)的知識庫)來存儲和檢索上文提到的工具使用指南,那么,一個支撐 AI Agent 的完整數(shù)據(jù)基座的藍(lán)圖就清晰浮現(xiàn)了:


這個藍(lán)圖清晰地表明:記憶(處理動態(tài)交互數(shù)據(jù))與 RAG(處理靜態(tài)領(lǐng)域知識)在技術(shù)上同源(均基于檢索),在功能上互補(bǔ),共同構(gòu)成了 AI Agents 賴以生存的完整數(shù)據(jù)基座。

所有 Agent 對數(shù)據(jù)的訪問需求——無論是已有的非結(jié)構(gòu)化文檔(通過 RAG)、實時產(chǎn)生的交互日志(通過記憶),還是結(jié)構(gòu)化的服務(wù)接口(通過 MCP 封裝,其元數(shù)據(jù)、使用指導(dǎo)和攻略的檢索可納入專用知識庫)——都可以被統(tǒng)一規(guī)劃、治理和接入到一個一體化的平臺中。

這個平臺,正是像 RAGFlow 這樣的系統(tǒng)正在演進(jìn)的方向:上下文引擎(Context Engine)或上下文平臺(Context Platform)。它不再是一個孤立的檢索工具,而是一個為 AI 應(yīng)用提供全方位、智能化上下文組裝服務(wù)的基礎(chǔ)設(shè)施。

從上下文工程到上下文平臺

“Context Platform” 這一前瞻性提法,可能最早由投資機(jī)構(gòu) Theory Ventures 在其系列文章中系統(tǒng)闡述【文獻(xiàn) 13, 14】。事實上,這家富有遠(yuǎn)見的機(jī)構(gòu)早在 2024 年就旗幟鮮明地指出了檢索對于 LLM 應(yīng)用的根本重要性【文獻(xiàn) 15】。

時至今日,如何將技術(shù)視角的 Retrieval Engine 升級為 Context Engine,正在成為決定 AI Agent 能否在企業(yè)中規(guī)?;?、低成本落地的關(guān)鍵勝負(fù)手。

從前文的全面分析可見,許多所謂“Agent 智能”要解決的問題,其本質(zhì)仍然是在正確的時間,為 LLM 找到并呈現(xiàn)正確的信息。如果 Agent 能擁有一個強(qiáng)大的“外腦”(Context Engine),幫助它高效地查找、篩選、驗證和梳理所有相關(guān)數(shù)據(jù),那么用戶最終獲得的體驗和結(jié)果將遠(yuǎn)超一個僅依靠龐大參數(shù)和復(fù)雜提示詞的“裸”模型。

從 Context Engineering 到 Context Engine / Platform,這標(biāo)志著上下文的創(chuàng)建、管理與交付,正從一項高度依賴專家經(jīng)驗的手工藝術(shù),向高度自動化、產(chǎn)品化和可運(yùn)維的平臺科學(xué)演進(jìn)。

當(dāng)前企業(yè)在開發(fā)定制 Agent 時,往往需要投入大量工程師和數(shù)據(jù)科學(xué)家手工編寫復(fù)雜的提示詞模板,精心設(shè)計上下文拼接邏輯,并硬編碼到工作流編排中。這種方式難以維護(hù)、無法規(guī)?;?,且上下文的所有權(quán)和更新流程混亂。

未來的上下文平臺將致力于改變這一現(xiàn)狀:

  • 上下文的創(chuàng)建將通過與數(shù)據(jù)源的深度集成自動完成,并持續(xù)同步更新。

  • 上下文的交付將不再是硬編碼的,而是根據(jù)每次對話的實時意圖,通過平臺統(tǒng)一的檢索與編排層,動態(tài)地從各類數(shù)據(jù)源中檢索、組裝而成。

  • 上下文的維護(hù)將從供應(yīng)商主導(dǎo)的手動服務(wù),轉(zhuǎn)變?yōu)榭蛻艨勺灾鞴芾?、可視化配置的自動化流程,上下文的所有?quán)和控制權(quán)將明確歸屬于客戶。

這帶來的范式轉(zhuǎn)變是巨大的:企業(yè) AI 落地的核心價值,正從追求“最智能的模型”和“最巧妙的提示詞”,回歸到構(gòu)建“最豐富、最準(zhǔn)確、最易用的上下文”。

上下文的質(zhì)量、實時性、動態(tài)組裝能力和產(chǎn)品化水平,將直接決定下一代企業(yè) AI 應(yīng)用的競爭力。上下文的產(chǎn)品化,將是解鎖 AI 大規(guī)模應(yīng)用的最后一道關(guān)鍵枷鎖。它標(biāo)志著企業(yè) AI 正式從“手工作坊式定制”的早期階段,邁入“平臺化、可擴(kuò)展、可持續(xù)運(yùn)營”的工業(yè)化時代。


多模態(tài) RAG 進(jìn)展

在 2024 年的年終回顧中,我們曾預(yù)測以“延遲交互”為基座的多模態(tài) RAG 將成為 2025 年的技術(shù)關(guān)鍵詞。然而,這一預(yù)測并未完全成為現(xiàn)實。

這是否意味著多模態(tài) RAG 缺乏實際意義?

答案顯然是否定的。以專門針對醫(yī)療文獻(xiàn)設(shè)計的基準(zhǔn)數(shù)據(jù)集 M3Retrieve【文獻(xiàn) 4】的測試結(jié)果為例,多模態(tài) RAG 的價值與定位已得到清晰印證:

  • 在圖文結(jié)合任務(wù)中表現(xiàn)卓越:在視覺上下文檢索、基于圖像的問答等場景下,多模態(tài) RAG 能夠綜合利用文本與視覺信息,表現(xiàn)顯著優(yōu)于純文本方案。

  • 在文本主導(dǎo)任務(wù)中優(yōu)勢不顯:對于摘要生成、純文本病例檢索等任務(wù),成熟的單模態(tài) RAG 憑借其高效與精準(zhǔn),依然占據(jù)優(yōu)勢。

由此可見,產(chǎn)品級的多模態(tài) RAG 并非簡單地將圖像與文本模型拼接,其核心需求在于實現(xiàn)真正高效的跨模態(tài)檢索與理解。從技術(shù)演進(jìn)脈絡(luò)看,多模態(tài) RAG 無疑是 RAG 體系深入發(fā)展、覆蓋更廣泛數(shù)據(jù)類型的必然方向。

當(dāng)前,處理圖文等多模態(tài)文檔主要存在兩種技術(shù)路徑:

  • 模態(tài)轉(zhuǎn)換路徑:

借助 OCR 或 VLM(視覺語言模型),將圖像、表格等內(nèi)容轉(zhuǎn)化為純文本描述,從而將多模態(tài)問題降維為單模態(tài)的文本檢索問題。這種方法兼容現(xiàn)有文本 RAG 架構(gòu),但可能丟失原始視覺布局、顏色、細(xì)微特征等關(guān)鍵信息。

  • 原生多模態(tài)路徑:

將圖像直接進(jìn)行視覺分詞(Tokenize),與文本 Token 一同輸入統(tǒng)一的多模態(tài)編碼器,生成融合的多向量(Multi-Vector)表示。在檢索排序階段,則借助延遲交互(Late Interaction)模型進(jìn)行精細(xì)化的相似度計算。

其流程可概括為下圖:


Google DeepMind 在今年 9 月發(fā)表的理論指導(dǎo)文章【文獻(xiàn) 5】明確指出,基于單一的全局向量進(jìn)行檢索存在固有的語義損失,而使用多向量(即高維張量)表示能夠更完整地保留文檔的細(xì)粒度語義信息。

既然理論優(yōu)勢如此明確,為何在 2025 年仍未涌現(xiàn)出成熟的、產(chǎn)品化的多模態(tài) RAG 解決方案?

其根本原因在于從技術(shù)原型到穩(wěn)定產(chǎn)品的工程化挑戰(zhàn)尚未被完全攻克。

工程化跨模態(tài)檢索的首要挑戰(zhàn)是確定召回單元與檢索策略。以文檔“頁”為召回單元是常見做法,具體實施方案包括:


  • 混合索引方案:為文本內(nèi)容同時建立全文索引和張量索引,為圖片建立獨(dú)立的張量索引。檢索時,對三種索引進(jìn)行混合搜索與結(jié)果融合。

  • 文本為主、張量重排方案:僅利用 PDF 解析出的文本,建立全文和單向量索引進(jìn)行初步召回,然后利用將整頁作為圖像生成的張量表示,對初篩結(jié)果進(jìn)行精細(xì)化重排。此方案也可用于純文本檢索,以獲取更好的語義召回效果。

  • 純張量檢索方案:完全依賴張量索引。對于跨模態(tài)頁面,分別計算查詢與文本張量、圖像張量的相似度,取最大值作為該頁的最終相關(guān)性得分。

盡管上述方案在技術(shù)上均可行,但它們共同面臨一個棘手的工程化瓶頸:因 Token 數(shù)量爆炸導(dǎo)致的張量數(shù)據(jù)存儲與計算開銷激增。

假設(shè)使用類似 ColPali 的模型,默認(rèn)每頁圖像輸出 1024 個 Token(每個 Token 對應(yīng)一個特征向量),每個向量維度為 128,采用 float32 精度存儲,那么僅一頁圖像對應(yīng)的張量數(shù)據(jù)就需占用約 512KB 空間。對于一個百萬頁級別的文檔庫,其索引體積將膨脹至 TB 級別,這對存儲成本、內(nèi)存加載和檢索延遲都是巨大挑戰(zhàn)。

要推動多模態(tài) RAG 走向工程實用化,目前主要有兩條技術(shù)路徑可供實踐:

  • 張量量化壓縮:

對張量中的每個向量進(jìn)行二值化或低比特量化(如用 1 個比特表示),可將存儲壓縮至原來的 1/32 甚至更低。代價是會引入一定的精度損失。這條路徑的可行性,取決于能否訓(xùn)練出對量化操作魯棒性強(qiáng)的專用嵌入模型。

  • Token 剪枝:

顯著減少每頁圖像生成的 Token 數(shù)量,例如從 1024 個降至 128 個或更少。具體實現(xiàn)方法包括:

  • 隨機(jī)投影:將大量 Token 對應(yīng)的向量投影到單個高維(如 1 萬維)向量中,如 MUVERA 算法【文獻(xiàn) 6】。這種方法計算高效,但會損失較多的細(xì)粒度信息。

  • Token 聚類:對生成的 Token 對應(yīng)的向量進(jìn)行無監(jiān)督聚類,用聚類中心代表原始集合。該方法不依賴模型改動,但同樣會犧牲精度。

  • 模型端 Token 剪枝:改造 Embedding 模型(特別是其底層的 VLM),使其能夠根據(jù)內(nèi)部注意力機(jī)制主動輸出更少但信息量更大的“精煉” Token。這是最根本的方法。

因此,多模態(tài) RAG 的成熟不僅要求底層檢索引擎具備對張量索引(Tensor Index)和張量重排器(Tensor Reranker) 的原生高效支持,更有賴于整個 AI 社區(qū)涌現(xiàn)出更多對量化友好、支持自適應(yīng) Token 剪枝的下一代多模態(tài) Embedding 模型。

這兩者的發(fā)展相輔相成:缺乏成熟易用的 Retrieval Engine,會阻礙新模型在真實場景中的驗證與迭代;而沒有高效的模型,Retrieval Engine 也無用武之地。所幸的是,這個話題已經(jīng)引起了廣泛重視,專門以延遲交互為主題的 Workshop 也將在 26 年上半年舉行【文獻(xiàn) 7】。

展望 2026 年,隨著 AI 基礎(chǔ)設(shè)施層對張量計算與存儲的支持日益完善,我們有望看到更多為工程化量身定制的優(yōu)秀多模態(tài)模型問世,從而真正解鎖跨模態(tài) RAG 的實用潛力。

而它的工程化落地,將自然而然地催生多模態(tài)上下文的普遍需求——例如,能夠同時理解和記憶文本、圖像乃至視頻的“多模態(tài)記憶”系統(tǒng)已不再是理論設(shè)想,而是進(jìn)入了原型研發(fā)階段【文獻(xiàn) 16】。

展望 2026

邁入 2026 年,企業(yè)對 LLM 應(yīng)用的關(guān)注點(diǎn),必將從概念驗證與早期嘗鮮,轉(zhuǎn)向規(guī)?;涞嘏c投資回報的務(wù)實階段。在這一進(jìn)程中,作為整個 AI 應(yīng)用數(shù)據(jù)基座層的 RAG 技術(shù),將迎來更為堅實、體系化的建設(shè)浪潮。

如果說 AI Agent 在企業(yè)復(fù)雜場景中的終極價值與形態(tài)尚處于廣泛探索期,那么 RAG 對于所有 Agent 乃至 LLM 應(yīng)用的基礎(chǔ)支撐作用,已成為越來越多技術(shù)決策者的共識。

一個明顯的趨勢是:許多企業(yè)已率先啟動以“AI 中臺”或“智能數(shù)據(jù)底座”為核心的能力建設(shè),而其樞紐正是以 RAG 引擎為基座的非結(jié)構(gòu)化數(shù)據(jù)處理與供給平臺。相比之下,上層 Agent 的具體構(gòu)建與引入,反而可以基于這一穩(wěn)固底座,以更靈活、更循序漸進(jìn)的節(jié)奏展開。

若要用一句話概括從 2025 到 2026 年 RAG 技術(shù)的演進(jìn)軌跡與未來展望,那便是:RAG 將完成其自身的深刻蛻變,從“檢索增強(qiáng)生成”的特定模式,升維為以“智能檢索”為核心能力的“上下文引擎(Context Engine)”。 這一演進(jìn)趨勢已不可逆轉(zhuǎn),并必將從技術(shù)后臺走向戰(zhàn)略前臺,成為企業(yè)構(gòu)建下一代智能化基礎(chǔ)設(shè)施時不可或缺的核心組件。

而 RAGFlow,正是為這一宏大而確定的未來圖景而生。

我們所構(gòu)建的,不僅僅是一個開源的高效 RAG 系統(tǒng),更是通往“上下文引擎”時代的關(guān)鍵基石與推進(jìn)器。從深耕多模態(tài)解析與語義增強(qiáng)的 DeepDoc,到探索 TreeRAG 等前沿架構(gòu)以彌合語義鴻溝,再到打造服務(wù)于 Agent 的上下文引擎——RAGFlow 的每一次迭代,都旨在將文中探討的技術(shù)方向,轉(zhuǎn)化為穩(wěn)定、易用、高性能的產(chǎn)品能力,推動企業(yè)智能化從構(gòu)想穩(wěn)步邁向現(xiàn)實。

我們堅信,以檢索為核心的 Context Engine,是釋放 LLM 與 Agent 全部潛能的關(guān)鍵。

歡迎持續(xù)關(guān)注 RAGFlow 的演進(jìn),并前往 GitHub 點(diǎn)亮 Star,與全球開發(fā)者一同,見證并參與構(gòu)建下一代企業(yè) AI 的基礎(chǔ)設(shè)施。

參考文獻(xiàn)

AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference https://arxiv.org/abs/2504.10326?

https://github.com/VectifyAI/PageIndex

A Systematic Framework for Enterprise Knowledge Retrieval: Leveraging LLM-Generated Metadata to Enhance RAG Systems https://arxiv.org/abs/2512.05411

M3Retrieve: Benchmarking Multimodal Retrieval for Medicine https://arxiv.org/abs/2510.06888

On the Theoretical Limitations of Embedding-Based Retrieval https://arxiv.org/abs/2508.21038

MUVERA: Multi-Vector Retrieval via Fixed Dimensional Encodings https://arxiv.org/abs/2405.19504

https://www.lateinteraction.com/

https://huggingface.co/blog/QuentinJG/introducing-vidore-v3

誕生才一周年,MCP 涼了

https://huggingface.co/datasets/bowang0911/ToolSearch

Dspy GEPA https://dspy.ai/api/optimizers/GEPA/overview/

Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models https://arxiv.org/abs/2510.04618

Why the Business Context Layer Is the Key to Making AI Work in Enterprise https://theoryvc.com/blog-posts/business-context-layer

From Context Engineering to Context Platforms https://theoryvc.com/blog-posts/from-context-engineering-to-context-platforms

https://www.linkedin.com/pulse/every-llm-company-search-hard-future-retrieval-systems-7zigc/

MemVerse: Multimodal Memory for Lifelong Learning Agents https://arxiv.org/abs/2512.03627

作者簡介

張穎峰,資深技術(shù)創(chuàng)業(yè)者,現(xiàn)為領(lǐng)先開源項目 RAGFlow 的聯(lián)合創(chuàng)始人。RAGFlow 是一款廣受歡迎的企業(yè)級 RAG 引擎,在其主導(dǎo)下于 GitHub 已收獲 7 萬星標(biāo),成為業(yè)界在知識檢索與 Agent 開發(fā)領(lǐng)域廣泛采用的開源解決方案。其本人擁有多年基礎(chǔ)設(shè)施與人工智能核心算法的研發(fā)經(jīng)驗,曾支撐過億級用戶規(guī)模的業(yè)務(wù)系統(tǒng),致力于通過扎實的技術(shù)產(chǎn)品推動企業(yè)實現(xiàn)智能化升級。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美國人,已經(jīng)癲成了所有人看不懂的樣子

美國人,已經(jīng)癲成了所有人看不懂的樣子

楓冷慕詩
2025-12-23 17:17:41
所有目標(biāo)被控制,洪森大勢已去?中方已盡力,泰國幕后有高人指點(diǎn)

所有目標(biāo)被控制,洪森大勢已去?中方已盡力,泰國幕后有高人指點(diǎn)

離離言幾許
2025-12-22 11:28:24
不能打也不能驅(qū)趕!江西有30多頭在農(nóng)田賴20多天,破壞500畝農(nóng)田

不能打也不能驅(qū)趕!江西有30多頭在農(nóng)田賴20多天,破壞500畝農(nóng)田

萬象硬核本尊
2025-11-25 17:19:32
造孽,挖了個大大坑

造孽,挖了個大大坑

越女事務(wù)所
2025-12-23 22:45:01
離婚13年,不后悔離開聶遠(yuǎn),如今不婚不育,自由背后也有眼淚

離婚13年,不后悔離開聶遠(yuǎn),如今不婚不育,自由背后也有眼淚

小熊侃史
2025-12-22 11:25:54
中國首次硬剛美國軍售,警告時代正式結(jié)束!

中國首次硬剛美國軍售,警告時代正式結(jié)束!

回京歷史夢
2025-12-24 00:45:02
事實證明,67歲最風(fēng)光的廣東臺主持人鄭達(dá),已經(jīng)走上另一條道路

事實證明,67歲最風(fēng)光的廣東臺主持人鄭達(dá),已經(jīng)走上另一條道路

阿訊說天下
2025-12-24 15:36:11
“金條遭瘋搶,飾金賣不動”,老鳳祥有煩惱:金價越漲,生意越愁

“金條遭瘋搶,飾金賣不動”,老鳳祥有煩惱:金價越漲,生意越愁

新浪財經(jīng)
2025-12-24 18:28:33
蒙古國總統(tǒng)簽文件,要在與中國接壤的東戈壁省增建130公里鐵絲網(wǎng)

蒙古國總統(tǒng)簽文件,要在與中國接壤的東戈壁省增建130公里鐵絲網(wǎng)

百態(tài)人間
2025-12-24 16:51:04
湖北一大媽跳了20多年廣場舞后,拿100多個金鐲子去賣,說家里還有金項鏈沒拿,我人好,都是別人送的

湖北一大媽跳了20多年廣場舞后,拿100多個金鐲子去賣,說家里還有金項鏈沒拿,我人好,都是別人送的

LULU生活家
2025-12-24 18:51:10
“男子向女友發(fā)淫穢視頻被行拘”,沖上熱搜

“男子向女友發(fā)淫穢視頻被行拘”,沖上熱搜

揚(yáng)子晚報
2025-12-24 19:23:11
2005年必將載入人類史冊的7大事件

2005年必將載入人類史冊的7大事件

史政先鋒
2025-12-24 15:13:06
南博事件發(fā)酵!吳家哭訴,和龐家同病相憐,我們家捐的文物也丟了

南博事件發(fā)酵!吳家哭訴,和龐家同病相憐,我們家捐的文物也丟了

火山詩話
2025-12-24 17:35:41
0分0板0助0斷0帽!連刷4場五零神跡,卻坐穩(wěn)輪換,開拓者會搞事情

0分0板0助0斷0帽!連刷4場五零神跡,卻坐穩(wěn)輪換,開拓者會搞事情

球童無忌
2025-12-24 13:44:19
被攻擊后 快手直播緊急拉閘前的兩小時

被攻擊后 快手直播緊急拉閘前的兩小時

新京報
2025-12-24 09:39:29
好消息!闞清子生寶寶了!壞消息!寶寶因為發(fā)育問題,已經(jīng)離開了

好消息!闞清子生寶寶了!壞消息!寶寶因為發(fā)育問題,已經(jīng)離開了

有范又有料
2025-12-24 14:25:14
他是最接近大羅的神,卻在22歲靈魂枯萎!薩內(nèi)蒂:我把他當(dāng)親弟弟

他是最接近大羅的神,卻在22歲靈魂枯萎!薩內(nèi)蒂:我把他當(dāng)親弟弟

天下足球資訊
2025-12-24 16:30:08
“毀掉”孩子內(nèi)驅(qū)力很簡單,一直陪他寫作業(yè)就行,很多家長還在做

“毀掉”孩子內(nèi)驅(qū)力很簡單,一直陪他寫作業(yè)就行,很多家長還在做

枕邊聊育兒
2025-12-24 09:02:59
大收藏家谷牧——

大收藏家谷牧——

跟著老李看世界
2025-12-23 13:26:40
央行終于出手,2026年2月1日起正式執(zhí)行!拒收現(xiàn)金正式納入嚴(yán)管!

央行終于出手,2026年2月1日起正式執(zhí)行!拒收現(xiàn)金正式納入嚴(yán)管!

今朝牛馬
2025-12-24 22:30:26
2025-12-25 03:28:49
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
11864文章數(shù) 51648關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財經(jīng)要聞

北京進(jìn)一步放松限購 滬深是否會跟進(jìn)?

汽車要聞

“運(yùn)動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

時尚
家居
游戲
本地
健康

對不起周柯宇,是陳靖可先來的

家居要聞

法式大平層 智能家居添彩

前《DOTA2》選手起訴LGD 稱拖欠近14萬賽事獎金

本地新聞

云游安徽|一川江水潤安慶,一塔一戲一城史

這些新療法,讓化療不再那么痛苦

無障礙瀏覽 進(jìn)入關(guān)懷版