国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Doc-V*:讀100頁(yè)文檔不如只翻對(duì)5頁(yè),80頁(yè)場(chǎng)景「暴打」RAG 10個(gè)點(diǎn)

0
分享至



本項(xiàng)目主要貢獻(xiàn)者包括鄭元雷(華中科技大學(xué) VLRLab)、付培(小米大模型 Plus),通訊作者為羅振波(小米大模型 Plus)、陳偉(華中科技大學(xué) VLRLab)

在多頁(yè)文檔理解任務(wù)中,一個(gè)被廣泛接受但很少被質(zhì)疑的假設(shè)是:要理解一篇長(zhǎng)文檔,模型就應(yīng)該盡可能多地「看」。

但如果換個(gè)角度想:人類(lèi)閱讀一份幾十頁(yè)的報(bào)告時(shí),真的會(huì)逐頁(yè)從頭看到尾嗎?顯然不會(huì)。我們會(huì)先翻目錄、掃標(biāo)題,找到可能相關(guān)的部分,然后才精讀。真正值得追問(wèn)的問(wèn)題是:為什么現(xiàn)有的文檔理解模型,不能也這樣做?

這正是 Doc-V* 想要回答的問(wèn)題。

Doc-V* 由小米大模型 Plus 團(tuán)隊(duì)和華中科技大學(xué) VLRLab 團(tuán)隊(duì)合作提出,一種從「靜態(tài)閱讀」到「主動(dòng)探索」的多頁(yè)文檔理解新范式,通過(guò)交互式視覺(jué)推理讓模型像人一樣有策略地閱讀長(zhǎng)文檔。

從結(jié)果上看,這條思路確實(shí)帶來(lái)了實(shí)際收益:在統(tǒng)一使用 Qwen2.5-VL 7B 作為 backbone 的設(shè)定下,Doc-V* 相比 RAG 變體在多個(gè)多頁(yè)文檔問(wèn)答基準(zhǔn)上取得了 49.7% 的提升,且不依賴(lài)更大的模型或更長(zhǎng)的上下文窗口。

這說(shuō)明,與其給模型塞更多頁(yè)面,不如讓模型學(xué)會(huì)「在合適的時(shí)機(jī)獲取合適的頁(yè)面」。



  • 論文鏈接:https://arxiv.org/abs/2604.13731v1

重新審視「看全部頁(yè)面」:靜態(tài)輸入范式的根本矛盾

現(xiàn)有方法在處理長(zhǎng)文檔時(shí),面臨一個(gè)根深蒂固的矛盾。

一類(lèi)方法嘗試將所有頁(yè)面一次性輸入模型,以保證信息完整,但隨著文檔長(zhǎng)度增加,計(jì)算成本迅速上升,同時(shí)模型容易受到「中間信息遺忘」等問(wèn)題影響。

另一類(lèi)方法則依賴(lài)檢索策略,僅選擇部分頁(yè)面作為輸入,雖然在效率上有所改善,但其性能高度依賴(lài)檢索結(jié)果 —— 一旦關(guān)鍵頁(yè)面未被召回,后續(xù)推理便難以修正。

從根本上看,這兩類(lèi)方法都采用了一種「靜態(tài)輸入」范式:在推理開(kāi)始前就固定輸入內(nèi)容,而缺乏在推理過(guò)程中動(dòng)態(tài)調(diào)整信息獲取策略的能力。

這種方式與人類(lèi)處理長(zhǎng)文檔的習(xí)慣存在明顯差異,也限制了模型在復(fù)雜多跳推理場(chǎng)景中的表現(xiàn)。

Doc-V* 的方法設(shè)計(jì):從「靜態(tài)閱讀」到「主動(dòng)探索」

Doc-V* 的核心思路可以用一句話概括:不要一次性把所有內(nèi)容塞給模型,而是讓模型自己決定看什么、什么時(shí)候看。

第一步是構(gòu)建 Global Thumbnail Overview。在輸入階段,Doc-V* 并不會(huì)直接處理所有高分辨率頁(yè)面,而是首先將每一頁(yè)壓縮為低分辨率縮略圖,并按照網(wǎng)格形式排列。這使模型能夠在較低成本下觀察文檔的整體結(jié)構(gòu),例如章節(jié)分布、圖表位置以及高層語(yǔ)義區(qū)域。

這種設(shè)計(jì)的關(guān)鍵在于,它并不試圖提供精細(xì)內(nèi)容,而是提供一種結(jié)構(gòu)性導(dǎo)航信號(hào),幫助模型在后續(xù)步驟中更有針對(duì)性地選擇頁(yè)面。



圖 1:Pipeline 示意,初始輸入為 Question+Document Thumbnail。模型先獲得文檔的全局縮略圖視角,再有針對(duì)性調(diào)用工具對(duì)文檔作深入的探索。

第二步是兩種交互式操作。在獲得初步結(jié)構(gòu)信息后,模型可以通過(guò)兩類(lèi)操作與文檔進(jìn)行交互:

  • :全局語(yǔ)義檢索(粗粒度探索)



  • :精確頁(yè)面獲?。?xì)粒度證據(jù)定位 ?)



基于結(jié)構(gòu)線索的直接定位:從 thumbnail 中看到某幾頁(yè)包含表格 / 圖表 / 標(biāo)題,直接跳轉(zhuǎn)這些頁(yè)面進(jìn)行精細(xì)分析;

② 鄰接信息補(bǔ)全:表格跨頁(yè)、圖文分離、上下文延續(xù),自動(dòng)獲取「前一頁(yè) / 后一頁(yè)」補(bǔ)全語(yǔ)義;

③ 顯式頁(yè)碼問(wèn)題的精確響應(yīng):如:「第 3 頁(yè)的表格中有多少個(gè)方法」?

這兩種操作在功能上形成互補(bǔ):前者用于覆蓋潛在的相關(guān)區(qū)域,從全局范圍內(nèi)召回可能有用的頁(yè)面;后者則更偏向于精細(xì)化定位,例如圍繞某一已知頁(yè)面獲取其上下相鄰頁(yè),或依據(jù)問(wèn)題描述以及縮略圖中的結(jié)構(gòu)線索,直接定位到具體的證據(jù)頁(yè)面。



圖 2:Doc-V * 的數(shù)據(jù)構(gòu)造以及訓(xùn)練方式

第三步是 SFT+GRPO 兩階段訓(xùn)練策略。在訓(xùn)練階段,Doc-V* 采用了 SFT+GRPO 兩階段策略,使模型學(xué)會(huì)何時(shí)調(diào)用哪種操作、如何基于已有證據(jù)進(jìn)行判斷。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果首先驗(yàn)證了 Doc-V* 在標(biāo)準(zhǔn)多頁(yè)文檔問(wèn)答任務(wù)上的有效性。

從主表結(jié)果可以看出,在統(tǒng)一 backbone(Qwen2.5-VL 7B)設(shè)置下,Doc-V* 相比基礎(chǔ)模型以及其 RAG 變體均取得了穩(wěn)定提升。RAG Top-5 相比原始模型在各數(shù)據(jù)集上已有一定增益,說(shuō)明基于檢索的頁(yè)面篩選確實(shí)能夠在一定程度上緩解長(zhǎng)文檔中的噪聲問(wèn)題。

然而,這種提升仍然受限于「靜態(tài)檢索」范式 —— 模型只能基于一次性召回的頁(yè)面完成推理,一旦關(guān)鍵證據(jù)未被包含在 Top-K 中,后續(xù)過(guò)程缺乏糾錯(cuò)能力。



圖 3:Doc-V * 在各個(gè)文檔問(wèn)答 Benchmark 上的結(jié)果對(duì)比。*

這說(shuō)明,動(dòng)態(tài)的證據(jù)獲取機(jī)制確實(shí)能夠彌補(bǔ)靜態(tài)檢索的固有缺陷,讓模型在推理過(guò)程中持續(xù)修正自身判斷。

進(jìn)一步分析不同方法在「輸入頁(yè)面數(shù)量 — 性能」之間的關(guān)系,可以觀察到一個(gè)值得關(guān)注的現(xiàn)象:對(duì)于基于 RAG 的方法,隨著輸入頁(yè)面數(shù)量的增加,性能通常呈現(xiàn)出「先提升、后下降」的趨勢(shì)。

初始階段,增加頁(yè)面數(shù)量能夠提高召回率,使模型更有可能接觸到正確證據(jù),因此性能有所提升;但當(dāng)輸入頁(yè)面繼續(xù)增加時(shí),大量無(wú)關(guān)或弱相關(guān)信息被引入,反而會(huì)干擾模型的注意力分配,使有效信號(hào)被稀釋?zhuān)罱K導(dǎo)致性能下降。



圖 4:不同方法在「輸入頁(yè)面數(shù)量 — 性能」關(guān)系上的對(duì)比。RAG 方法存在明顯的性能拐點(diǎn),隨著 K 的增加,性能先升后降,并趨于輸入所有頁(yè)面的性能,而 Doc-V * 則不受 K 的影響。

這一現(xiàn)象在多個(gè)數(shù)據(jù)集(如 SlideVQA、LongDocURL、MMLongBench-Doc)上均有體現(xiàn),說(shuō)明其并非特定任務(wù)或模型的個(gè)例,而是檢索式方法在長(zhǎng)上下文場(chǎng)景中的普遍特征。

換言之,RAG 方法在「信息覆蓋」與「信息干擾」之間存在一個(gè)敏感的平衡點(diǎn),其性能高度依賴(lài)于 Top-K 的選擇。

相比之下,Doc-V* 并未表現(xiàn)出類(lèi)似的明顯退化趨勢(shì)。這主要是因?yàn)槠漭斎氩⒎且淮涡源_定,而是在推理過(guò)程中逐步擴(kuò)展:模型只在需要時(shí)引入新的頁(yè)面,并結(jié)合已有證據(jù)進(jìn)行判斷,從而避免了無(wú)關(guān)信息的過(guò)度積累。



圖 5:不同方法在 MMLongBench-Doc 數(shù)據(jù)集上的不同文檔長(zhǎng)度的表現(xiàn)對(duì)比。

除此之外,本文還對(duì)不同方法在不同文檔長(zhǎng)度上的表現(xiàn)進(jìn)行了分析。隨著文檔整體長(zhǎng)度增加,無(wú)論是 RAG 還是 All Pages 方法,其性能均呈現(xiàn)出整體下降趨勢(shì)。

這進(jìn)一步說(shuō)明,面對(duì)越來(lái)越長(zhǎng)的文檔,「給更多內(nèi)容」并不能解決問(wèn)題,真正需要的是一種更智能的信息獲取策略。

「信息獲取 ≠ 信息堆疊」,當(dāng)無(wú)關(guān)信息占據(jù)上下文時(shí),模型反而更容易被「視覺(jué)上顯眼但無(wú)關(guān)」的頁(yè)面誤導(dǎo),忽略真正關(guān)鍵的證據(jù)頁(yè)。



圖 6:不同方法具體推理過(guò)程。

真正需要的是「策略驅(qū)動(dòng)的信息獲取」,Doc-V* 在其中做了一件關(guān)鍵的事情 —— 不是盲目讀取內(nèi)容,而是「先判斷去哪里看」。

具體表現(xiàn)為一個(gè)非常接近人類(lèi)的過(guò)程:先看縮略圖(判斷哪些頁(yè)面「看起來(lái)可能有用」)→ 直接跳轉(zhuǎn)到最可能包含答案的頁(yè)面 → 基于最小但最相關(guān)的信息完成答案。

這背后其實(shí)是一個(gè)核心的轉(zhuǎn)變:從「被動(dòng)接收信息」→「主動(dòng)決策信息獲取路徑」,從全局搜索 → 局部確認(rèn) → 逐步逼近答案,這正是人類(lèi)閱讀長(zhǎng)文檔時(shí)的真實(shí)行為。

從更大的視角看:文檔理解的下一步

整體來(lái)看,Doc-V* 提供了一種不同于傳統(tǒng)方法的視角:將多頁(yè)文檔理解問(wèn)題從「靜態(tài)建模」轉(zhuǎn)化為「動(dòng)態(tài)證據(jù)獲取與整合」的過(guò)程。

通過(guò)引入縮略圖導(dǎo)航、交互式操作以及工作記憶機(jī)制,模型能夠在推理過(guò)程中不斷修正自身判斷,從而更有效地處理長(zhǎng)文檔中的復(fù)雜信息關(guān)系。

這種方法并不依賴(lài)于更大的模型或更長(zhǎng)的上下文,而是通過(guò)更合理的信息使用方式,提高推理效率與結(jié)果可靠性。

對(duì)文檔理解來(lái)說(shuō),真正重要的,也許從來(lái)不是「一次性看完所有內(nèi)容」,而是能不能像人一樣,在閱讀過(guò)程中不斷調(diào)整策略、主動(dòng)尋找證據(jù)、逐步逼近答案。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點(diǎn)
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來(lái) | 伊朗的反應(yīng)為何如此激烈

偉偉道來(lái) | 伊朗的反應(yīng)為何如此激烈

經(jīng)濟(jì)觀察報(bào)
2026-05-06 11:40:46
吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國(guó)買(mǎi)房,50萬(wàn)英鎊獎(jiǎng)金需交稅超23萬(wàn)鎊,實(shí)際到手約26.5萬(wàn)鎊

吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國(guó)買(mǎi)房,50萬(wàn)英鎊獎(jiǎng)金需交稅超23萬(wàn)鎊,實(shí)際到手約26.5萬(wàn)鎊

大風(fēng)新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請(qǐng)賽5月9日開(kāi)桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請(qǐng)賽5月9日開(kāi)桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個(gè)隱私,是性感嗎?

女性跑步:暴露這個(gè)隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

懂球帝
2026-05-05 19:39:09
在中國(guó)人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒(méi)一個(gè)在出現(xiàn)場(chǎng)

在中國(guó)人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒(méi)一個(gè)在出現(xiàn)場(chǎng)

侃故事的阿慶
2026-05-06 09:21:32
被延長(zhǎng)的搶救時(shí)間,被卡住的工傷認(rèn)定

被延長(zhǎng)的搶救時(shí)間,被卡住的工傷認(rèn)定

新京報(bào)
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說(shuō)她索取無(wú)度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說(shuō)她索取無(wú)度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來(lái),誰(shuí)敢動(dòng)筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來(lái),誰(shuí)敢動(dòng)筷子

畫(huà)夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說(shuō)故事的阿襲
2026-05-05 20:20:30
8.84億的美國(guó)工廠說(shuō)關(guān)就關(guān)?曹德旺:美國(guó)不講理,我就不陪玩了

8.84億的美國(guó)工廠說(shuō)關(guān)就關(guān)?曹德旺:美國(guó)不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點(diǎn)半》人走茶涼,賺不到錢(qián)球球退出,根本原因早就注定了

《陳翔六點(diǎn)半》人走茶涼,賺不到錢(qián)球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買(mǎi)菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買(mǎi)菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當(dāng)?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報(bào)
2026-05-06 12:38:05
中美同時(shí)向全球下達(dá)禁令,各國(guó)都傻眼了!美媒:中國(guó)此舉史無(wú)前例

中美同時(shí)向全球下達(dá)禁令,各國(guó)都傻眼了!美媒:中國(guó)此舉史無(wú)前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽(tīng)到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽(tīng)到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

男子購(gòu)百萬(wàn)保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬(wàn)買(mǎi)"熊膽"心虛

頭條要聞

男子購(gòu)百萬(wàn)保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬(wàn)買(mǎi)"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個(gè)人了

娛樂(lè)要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財(cái)經(jīng)要聞

人形機(jī)器人七小龍:誰(shuí)真能賣(mài) 誰(shuí)在講故事?

汽車(chē)要聞

領(lǐng)克10/領(lǐng)克10+ 無(wú)論能源形式 領(lǐng)克都要快樂(lè)

態(tài)度原創(chuàng)

時(shí)尚
游戲
旅游
藝術(shù)
教育

卷首語(yǔ)|這屆年輕人,全員渡劫奧德賽

掌控陰陽(yáng)挑戰(zhàn)圣山!《生肖山Zodiac Mountain》登陸Steam牌組構(gòu)建游戲節(jié)

旅游要聞

龍江新觀察|“五一”文旅熱力十足 特色體驗(yàn)燃動(dòng)春日消費(fèi)

藝術(shù)要聞

震撼!康斯坦丁攝影作品里的性感曲線讓人驚艷!

教育要聞

六條邏輯主線替代四個(gè)大概念,反映了怎樣的理念? | 高中課標(biāo)修訂解讀⑥

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版