国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI讀不懂文檔結(jié)構(gòu)?計算所重構(gòu)Agentic RAG文檔推理能力

0
分享至


新智元報道

編輯:LRST

【新智元導(dǎo)讀】DeepRead讓AI像人一樣閱讀文檔:利用OCR識別章節(jié)結(jié)構(gòu),先精準(zhǔn)定位相關(guān)段落,再完整讀取上下文,避免碎片化檢索。實驗顯示,其長文檔問答準(zhǔn)確率提升17%,能自動跳過冗余信息,精準(zhǔn)提取財報、論文等復(fù)雜內(nèi)容,無需額外知識圖譜,輕量高效。

大語言模型的工具使用能力正推動RAG從靜態(tài)的一次性檢索,向自主、多輪的證據(jù)獲取進(jìn)化,Agentic RAG已成為解決復(fù)雜問答任務(wù)的核心方向。

但現(xiàn)有主流Agentic Search框架普遍存在一個關(guān)鍵痛點——結(jié)構(gòu)盲:它們將長文檔視為無差別的扁平文本塊,忽略了文檔原生的層級組織(如章節(jié)、段落)和順序邏輯,導(dǎo)致檢索碎片化、證據(jù)遺漏、冗余操作等問題頻發(fā)。

比如說,人類查詢「ACL論文投稿要求」時,會先翻閱目錄找到「投稿指南」章節(jié),再逐段精讀關(guān)鍵信息。

但傳統(tǒng)Agentic Search(如Search-o1)卻只能通過不斷給出新的query反復(fù)檢索,可能遺漏「頁碼限制」「格式要求」等未被關(guān)鍵詞覆蓋的內(nèi)容,還會重復(fù)獲取已瀏覽過的片段。


這種「結(jié)構(gòu)盲」帶來三大問題:

  1. 證據(jù)碎片化:將文檔拆分為固定大小的文本塊,破壞語義連貫性,迫使智能體拼接零散片段;

  2. 檢索冗余:缺乏全局結(jié)構(gòu)認(rèn)知,反復(fù)檢索同類信息,浪費計算資源;

  3. 信息遺漏:依賴關(guān)鍵詞匹配,無法捕獲章節(jié)內(nèi)隱含的相關(guān)信息。

而現(xiàn)代OCR技術(shù)已能精準(zhǔn)提取文檔的層級結(jié)構(gòu)和閱讀順序,這為解決「結(jié)構(gòu)盲」提供了基礎(chǔ)——讓智能體學(xué)會利用這些原生結(jié)構(gòu),而非忽視它們。

中國科學(xué)院計算技術(shù)研究所團(tuán)隊提出的DeepRead,核心創(chuàng)新是將文檔結(jié)構(gòu)轉(zhuǎn)化為智能體可理解、可操作的坐標(biāo)系統(tǒng),通過兩大工具協(xié)同實現(xiàn)類人推理,整體框架參考下圖。


論文:https://arxiv.org/abs/2602.05014

代碼:https://github.com/Zhanli-Li/DeepRead


文檔結(jié)構(gòu)建模:給每個段落分配「坐標(biāo)」

DeepRead首先通過OCR工具將原始文檔轉(zhuǎn)化為結(jié)構(gòu)化Markdown格式,構(gòu)建雙維度結(jié)構(gòu)模型:

  • 層級維度:區(qū)分標(biāo)題(如章節(jié))和內(nèi)容段落,記錄標(biāo)題的父子關(guān)系(如「2.方法」包含「2.1模型設(shè)計」);

  • 順序維度:給每個段落分配唯一坐標(biāo)(doc_id, sec_id, para_idx),即「文檔ID-章節(jié)ID-段落索引」,讓每個文本片段都有明確的位置標(biāo)識。

同時,DeepRead會將輕量化的目錄(TOC)注入系統(tǒng)提示,讓智能體掌握全局結(jié)構(gòu),無需加載全量文檔內(nèi)容,平衡上下文開銷與結(jié)構(gòu)感知能力。

兩大核心工具:Retrieve與ReadSection的協(xié)同

DeepRead為智能體配備兩個互補(bǔ)工具,模擬人類「快速定位+深度閱讀」的行為:

  • Retrieve(掃描式定位):接收語義查詢,返回Top-K相關(guān)段落及其坐標(biāo),同時支持「掃描窗口」(在召回的段落加上前后各1段),模擬人類快速瀏覽上下文的行為;

  • ReadSection(聚焦式閱讀):接收坐標(biāo)范圍(如doc_id=1, sec_id=3, start_para=0, end_para=5),返回該范圍內(nèi)的連續(xù)、保序段落,重構(gòu)完整語義上下文,徹底解決碎片化問題。

兩者形成閉環(huán):Retrieve負(fù)責(zé)「找方向」,快速鎖定相關(guān)章節(jié);ReadSection負(fù)責(zé)「深挖掘」,獲取完整證據(jù),避免關(guān)鍵詞檢索的局限性。

涌現(xiàn)行為:自主學(xué)會「定位再閱讀」

無需手動編碼規(guī)則或是特定指令,DeepRead可自主進(jìn)化出類人推理策略:先通過Retrieve獲取結(jié)構(gòu)錨點,再調(diào)用ReadSection精讀相關(guān)章節(jié)。實驗顯示,90%以上的查詢會遵循這一范式,且工具調(diào)用比例會自適應(yīng)任務(wù)特性——ContextBench(長文檔推理)更依賴ReadSection,F(xiàn)inanceBench(金融數(shù)據(jù)提取)更依賴Retrieve。


實驗結(jié)果

跨場景的顯著提升

研究人員在四大基準(zhǔn)數(shù)據(jù)集(涵蓋單文檔/合成多文檔數(shù)據(jù)集)上驗證了DeepRead的效果,核心結(jié)果參考下表


關(guān)鍵亮點包括:

  1. 長文檔推理突破:在需長距離依賴的ContextBench上,DeepRead準(zhǔn)確率從74.5%提升至91.5%,提升幅度達(dá)17.0%,驗證了結(jié)構(gòu)感知對長文檔的價值;

  2. 多文檔融合優(yōu)勢:在基于QASPER(學(xué)術(shù)論文問答)和SyllabusQA(課程大綱對比)合成的多文檔數(shù)據(jù)集上表現(xiàn)優(yōu)越,分別提升7.7%和13.8%,證明結(jié)構(gòu)感知能有效跨文檔整合證據(jù);

  3. 魯棒性驗證:通過DeepSeek-V3.2、GLM-4.7、Qwen3-235B三大獨立法官評估,結(jié)果一致率達(dá)88.58%,確保提升并非偶然。


值得注意的是,DeepRead的優(yōu)勢并非來自「更多的檢索片段」——即使Search-o1允許檢索更多文本塊,仍無法彌補(bǔ)結(jié)構(gòu)缺失的差距;而盲目擴(kuò)展上下文(expand)可能會降低DeepRead在部分任務(wù)上的性能,因為結(jié)構(gòu)化閱讀已能提供足夠連貫的證據(jù),冗余文本只會引入噪聲。

案例直觀感受:從「關(guān)鍵詞拼湊」到「章節(jié)精讀」

以FinanceBench中的亞馬遜營收計算任務(wù)為例:

  • 傳統(tǒng)Search-o1風(fēng)格的Agentic Search需反復(fù)檢索「2016營收」「2017凈銷售額」等關(guān)鍵詞,可能混淆「預(yù)估數(shù)據(jù)」與「實際財報數(shù)據(jù)」;

  • DeepRead則先通過Retrieve定位到「合并利潤表」章節(jié),再用ReadSection讀取完整表格,精準(zhǔn)提取2016年135987百萬美元、2017年177866百萬美元的凈銷售額,計算出30.8%的同比增長率。


總結(jié)

DeepRead的核心價值在于:挖掘文檔原生結(jié)構(gòu)先驗,用輕量坐標(biāo)系統(tǒng)和協(xié)同工具,實現(xiàn)了Agentic RAG的結(jié)構(gòu)感知升級。

相比構(gòu)建復(fù)雜知識圖譜的方案,DeepRead無需額外結(jié)構(gòu)化成本,僅通過OCR解析和工具設(shè)計,就在長文檔、多文檔任務(wù)上實現(xiàn)顯著提升,兼具實用性和效率。

參考資料:

https://arxiv.org/abs/2602.05014

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
譚瑞松,被判死緩

譚瑞松,被判死緩

新京報政事兒
2026-03-25 17:17:03
她出身上海名門,是國家一級演員,嫁東北丈夫,如今66歲生活幸福

她出身上海名門,是國家一級演員,嫁東北丈夫,如今66歲生活幸福

白面書誏
2026-03-23 17:38:15
生產(chǎn)速度提升四倍,推出桌面級金屬3D打印機(jī),「融速科技」完成近億元A輪融資 | 36氪首發(fā)

生產(chǎn)速度提升四倍,推出桌面級金屬3D打印機(jī),「融速科技」完成近億元A輪融資 | 36氪首發(fā)

36氪
2026-03-25 18:22:39
張雪峰死因:吃外賣撐住了?

張雪峰死因:吃外賣撐住了?

李萬卿
2026-03-26 10:48:19
爆冷!米切爾28+6莫布里拉胯,阿德巴約17+10,哈登18+9扭頭就走

爆冷!米切爾28+6莫布里拉胯,阿德巴約17+10,哈登18+9扭頭就走

魚崖大話籃球
2026-03-26 10:07:22
遺憾!3次活命機(jī)會都沒抓??!張雪峰去世前,倒地30分鐘才被發(fā)現(xiàn)

遺憾!3次活命機(jī)會都沒抓??!張雪峰去世前,倒地30分鐘才被發(fā)現(xiàn)

奇思妙想草葉君
2026-03-26 02:36:58
3月17日重慶新橋醫(yī)院 廣西女子求醫(yī)掛不上號 醫(yī)生下班蹲地看片暖哭

3月17日重慶新橋醫(yī)院 廣西女子求醫(yī)掛不上號 醫(yī)生下班蹲地看片暖哭

觀星賞月
2026-03-26 05:17:03
美容院老板娘大實話:55歲后臉再光也沒用,脫了衣服見真章!

美容院老板娘大實話:55歲后臉再光也沒用,脫了衣服見真章!

距離距離
2026-03-25 16:53:55
民間大巴悄然復(fù)興,大舉爭奪高鐵客源,壟斷后又為何要瘋狂漲價?

民間大巴悄然復(fù)興,大舉爭奪高鐵客源,壟斷后又為何要瘋狂漲價?

世界圈
2026-03-26 08:06:12
終于知道廣東人為啥不抑郁了!網(wǎng)友:西醫(yī)叫抑郁,中醫(yī)叫郁結(jié)

終于知道廣東人為啥不抑郁了!網(wǎng)友:西醫(yī)叫抑郁,中醫(yī)叫郁結(jié)

另子維愛讀史
2026-03-25 22:34:08
甘蔗干成“柴”無人看管,陌生人發(fā)帖尋“甘蔗哥” 母親:兒子已手術(shù)出院

甘蔗干成“柴”無人看管,陌生人發(fā)帖尋“甘蔗哥” 母親:兒子已手術(shù)出院

封面新聞
2026-03-25 19:12:04
張雪峰助理萬霞:十年相伴,生死相隔最痛的人!

張雪峰助理萬霞:十年相伴,生死相隔最痛的人!

天光破云來
2026-03-26 11:55:41
女孩“全損課本”火了,自認(rèn)為是清北的料子,老師:自我感動罷了

女孩“全損課本”火了,自認(rèn)為是清北的料子,老師:自我感動罷了

復(fù)轉(zhuǎn)這些年
2026-03-23 20:48:15
你見過哪些悶聲發(fā)大財?shù)娜??網(wǎng)友:干這個買三套房子,兩個門面

你見過哪些悶聲發(fā)大財?shù)娜??網(wǎng)友:干這個買三套房子,兩個門面

夜深愛雜談
2026-02-01 18:57:04
祖比門迪該讓位了!阿森納新賴斯已就位,阿爾特塔可以動手了

祖比門迪該讓位了!阿森納新賴斯已就位,阿爾特塔可以動手了

瀾歸序
2026-03-26 04:51:37
四川多所中學(xué)發(fā)布嚴(yán)正聲明

四川多所中學(xué)發(fā)布嚴(yán)正聲明

四川省教育廳
2026-03-26 10:57:12
給男人提個醒:女人不主動、不拒絕,意思就兩字,別再裝不懂

給男人提個醒:女人不主動、不拒絕,意思就兩字,別再裝不懂

i書與房
2026-03-26 10:39:54
國民黨爆發(fā)內(nèi)訌,馬英九拒接電話,倒向美國?大陸公布統(tǒng)一后安排

國民黨爆發(fā)內(nèi)訌,馬英九拒接電話,倒向美國?大陸公布統(tǒng)一后安排

柏拉圖的訴說1
2026-03-26 11:06:32
醫(yī)生解剖5516例猝死者,發(fā)現(xiàn)猝死規(guī)律:易猝死的人,有4個共同點

醫(yī)生解剖5516例猝死者,發(fā)現(xiàn)猝死規(guī)律:易猝死的人,有4個共同點

牛鍋巴小釩
2026-03-25 22:05:21
伊朗指定萬斯為唯一談判對象:特朗普“勝利”聲明成最大諷刺

伊朗指定萬斯為唯一談判對象:特朗普“勝利”聲明成最大諷刺

觀星賞月
2026-03-26 10:27:38
2026-03-26 12:51:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14819文章數(shù) 66720關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

伊朗議長和外長暫被移出美以清除名單 時限4到5天

頭條要聞

伊朗議長和外長暫被移出美以清除名單 時限4到5天

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰家人首發(fā)聲 不設(shè)追思會喪事從簡

財經(jīng)要聞

黃仁勛:芯片公司的時代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
親子
游戲
時尚
軍事航空

教育要聞

太管用了!高考俄語二輪復(fù)習(xí)聽力模塊得分要點!

親子要聞

躺平的孩子意外覺醒了,在父母學(xué)會當(dāng)“烏龜”!

任天堂澄清Switch2游戲定價策略:實體版不會漲價

2026年了,最好看的還是“這件針織”!

軍事要聞

伊朗重申非交戰(zhàn)國家船只可安全通過霍爾木茲海峽

無障礙瀏覽 進(jìn)入關(guān)懷版