国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

從局部到全局:SeRum如何重塑視覺文檔理解的新范式?

0
分享至

在浩如煙海的文檔世界中,如何讓機器精準捕捉關鍵信息一直是個難題。傳統(tǒng)方法需要多個復雜環(huán)節(jié),就像拆解一個精密的機械鐘表,步驟繁瑣且容易出錯。而今,一種名為SeRum的創(chuàng)新模型悄然興起,它顛覆了這一切。它不再需要先識別所有文字再理解內容,而是直接聚焦于文檔中最關鍵的區(qū)域,像人類閱讀文檔一樣,目光自然地被重要信息吸引。這種"選擇性區(qū)域聚焦"機制不僅提高了文檔理解的準確性,更大幅提升了處理速度。SeRum的出現(xiàn),或許正標志著視覺文檔理解技術邁入了一個全新時代。

舊路難行

文檔理解技術在過去幾十年取得了長足進步,但傳統(tǒng)方法仍存在不少難以逾越的障礙。這些方法通常采用多階段技術方案,就像搭建一座跨河大橋,需要一根根樁柱逐一打下,每個環(huán)節(jié)都不能出錯。

傳統(tǒng)的視覺文檔理解系統(tǒng)通常包含多個獨立模塊:首先需要光學字符識別(OCR)引擎檢測并識別文檔中的文本內容,然后按照閱讀順序進行排序,最后通過文檔理解模型對每個詞進行序列標注。這種多步驟的處理流程不僅復雜,還極為耗時耗力。

以現(xiàn)實應用為例,處理一份包含表格、圖表和密集文本的多頁企業(yè)財報時,傳統(tǒng)系統(tǒng)需要先識別所有文字(可能高達數(shù)千個單詞),再一一排序確定閱讀順序,然后才能進入實際的理解環(huán)節(jié)。這一過程在2022年之前的主流系統(tǒng)中通常需要數(shù)秒甚至數(shù)十秒時間,嚴重影響用戶體驗和大規(guī)模應用可能性。

更關鍵的是,這種方法過度依賴OCR技術的準確性?,F(xiàn)實中,文檔質量參差不齊,許多掃描文檔可能因為光線不足、角度不當或紙張褶皺導致OCR識別錯誤。根據研究數(shù)據,即使是商業(yè)級OCR系統(tǒng)在處理低質量文檔時,字符錯誤率也可能高達15%以上。一旦OCR出錯,后續(xù)所有處理都將受到連鎖影響。

LayoutLM、BERT等代表性模型雖然在文檔理解方面取得了不錯的成績,但它們都難以擺脫對OCR的依賴。數(shù)據顯示,在處理復雜布局文檔時,這些模型的準確率與OCR質量呈強相關性,當OCR質量下降時,這些模型的表現(xiàn)會大幅衰減。

另外,傳統(tǒng)方法往往缺乏對關鍵區(qū)域的識別能力。它們通常采用全局處理方式,為文檔中的每個元素分配相同的注意力,沒有像人類那樣的選擇性注意力機制。這不僅導致計算資源的浪費,也降低了對關鍵信息的捕捉能力。

例如,在處理一份火車票時,真正的關鍵信息可能只有始發(fā)站、終點站、時間、價格等幾個字段,但傳統(tǒng)模型會對整個票面的所有元素進行同等處理,包括背景、裝飾線條和無關文字等。這種處理方式不符合人類的認知習慣,也不夠高效。

在文檔檢索任務中,多階段系統(tǒng)在處理速度上的缺陷尤為明顯。一項對比測試表明,基于OCR的多階段系統(tǒng)處理1000頁文檔的時間是端到端系統(tǒng)的2-3倍,這在實時應用場景中幾乎無法接受。

革新之路

面對傳統(tǒng)方法的種種困境,SeRum模型提出了一種全新思路,它將文檔圖像理解與識別任務轉化為對感興趣視覺標記的局部解碼過程。這種方法好比一位經驗豐富的文檔審閱者,能夠迅速定位關鍵信息而不被無關內容分心。

SeRum的整體架構包括三大核心組件:視覺編碼器、查詢-文本解碼器和內容感知令牌合并模塊。視覺編碼器負責從輸入文檔圖像中提取特征,采用改良版Swin Transformer作為骨干網絡,它能夠更好地捕捉文檔中的局部和全局信息,為后續(xù)操作奠定基礎。

查詢-文本解碼器則是SeRum的"大腦",它包含兩個子模塊:查詢解碼器和文本解碼器。查詢解碼器以MaskFormer為靈感,能夠解碼輸入查詢(如任務問題)并通過與圖像特征的交叉注意力機制形成查詢嵌入。通過與上采樣圖像特征的點積,系統(tǒng)能獲取感興趣區(qū)域的掩碼。由于查詢數(shù)量通常大于所需文本位置數(shù)量,系統(tǒng)采用二進制匹配進行配對。

文本解碼器則負責生成最終序列輸出,它通過與編碼視覺標記的交叉注意力機制自動生成文本。這種設計使得SeRum能夠直接從文檔圖像生成所需文本,無需中間的OCR步驟。

SeRum最大的創(chuàng)新在于其內容感知令牌合并機制。在傳統(tǒng)方法中,長視覺令牌序列中的噪聲可能會干擾解碼過程。SeRum的解決方案是:選擇與查詢相關的視覺令牌,同時合并其余令牌。這種機制能夠將注意力限制在由查詢解碼器生成的感興趣區(qū)域,同時保留全局信息并增強感興趣區(qū)域的信息。

舉例來說,當系統(tǒng)需要從一份收據中提取總金額時,內容感知令牌合并機制會識別出可能包含金額信息的區(qū)域(通常位于收據底部并包含"TOTAL"或"金額"等關鍵詞附近),然后將這些區(qū)域的視覺標記保留為高優(yōu)先級,而將其他區(qū)域的標記合并成較低維度的表示。這樣,解碼器就能更專注于關鍵區(qū)域,提高準確率并加快處理速度。

從技術實現(xiàn)角度看,SeRum將前景區(qū)域(即重要區(qū)域)的標記數(shù)量定義為總標記數(shù)量的一個函數(shù):K = αL,其中α在訓練過程中從0.02到1.0的均勻分布中采樣。在推理階段,α值可以根據性能需求固定。實驗表明,當α設置為0.1(即只保留10%的原始標記作為前景)時,系統(tǒng)能達到最佳性能平衡點。

為了增強模型的位置理解和文本生成能力,SeRum采用了三個子任務的多任務預訓練:查詢到分割、文本到分割和分割到文本。這些預訓練任務使模型能夠更好地理解文檔布局、文本位置以及它們之間的關系。

從處理邏輯上看,SeRum徹底改變了傳統(tǒng)多階段處理流程。在傳統(tǒng)流程中,系統(tǒng)需要先進行OCR識別所有文本,然后確定閱讀順序,最后才能解析文檔結構并提取信息。而SeRum直接從原始文檔圖像出發(fā),通過查詢解碼器確定感興趣區(qū)域,再通過內容感知令牌合并機制聚焦這些區(qū)域,最后由文本解碼器生成所需輸出。這種端到端的處理方式不僅簡化了流程,還減少了錯誤傳播的可能性。

實驗數(shù)據顯示,SeRum在維持較低計算復雜度的同時,顯著提升了處理速度。在文本解碼延遲測試中,當標記保留率為10%時,SeRum的解碼延遲僅為209毫秒,而保留所有標記時則需要306毫秒,提速達32%。

聚焦有道

選擇性區(qū)域聚焦技術就像是給機器裝上了一雙會"挑剔"的眼睛,只關注文檔中真正重要的部分。這種能力不僅是SeRum模型的一大亮點,也是它能在文檔理解領域脫穎而出的關鍵所在。

傳統(tǒng)的文檔處理系統(tǒng)往往會對整個文檔進行無差別掃描和處理,就像一個初學者面對密密麻麻的合同文本,從第一個字讀到最后一個字,既費時又容易錯過關鍵點。而SeRum則采取了更加智能的方式,通過選擇性區(qū)域聚焦技術,能夠準確定位并重點處理文檔中的關鍵信息區(qū)域。

具體來說,SeRum通過查詢解碼器和內容感知令牌合并機制實現(xiàn)了這一能力。實驗數(shù)據顯示,在處理標準文檔時,真正包含關鍵信息的區(qū)域通常只占整個文檔面積的5%左右。SeRum能夠精準識別這些區(qū)域,并將計算資源集中在這里,大大提高了處理效率。

以火車票識別為例,在實驗中SeRum對Ticket數(shù)據集的處理準確率達到了驚人的99.8%,比第二名的端到端方法Donut高出了超過5個百分點。這種高準確率正是得益于系統(tǒng)能夠準確識別并聚焦票據上的關鍵字段,如始發(fā)站、終點站、時間和價格等。

更值得注意的是,SeRum不僅能識別常規(guī)打印文本,對于手寫文本或扭曲文本也展現(xiàn)出了驚人的適應能力。在包含手寫內容的DocVQA數(shù)據集上,SeRum的ANLS*得分達到77.9%,明顯優(yōu)于依賴OCR的多階段方法(67.3%)。這一數(shù)據充分說明了選擇性區(qū)域聚焦技術在處理非標準文本方面的優(yōu)勢。

在處理速度方面,選擇性區(qū)域聚焦技術帶來的提升更是顯著。通過調整令牌保留率(α值),SeRum能夠在準確率和速度之間取得最佳平衡。實驗表明,當α設為10%時(即只保留和處理10%最相關的視覺令牌),模型既能保持高準確率,又能將處理速度提高約32%。在實際應用場景中,這意味著原本需要5秒處理的文檔現(xiàn)在只需3.4秒左右,大大提升了用戶體驗。

多任務預訓練策略也是SeRum性能優(yōu)異的重要原因。通過同時進行"查詢到分割"、"文本到分割"和"分割到文本"三種預訓練任務,SeRum能夠更好地理解文檔中文本的位置和語義關系。實驗數(shù)據顯示,完整的三階段預訓練使模型在SROIE數(shù)據集上的F1得分從59.3%提升到了85.8%,提升幅度超過26個百分點。

值得一提的是,SeRum對不同類型文檔的適應能力很強。無論是結構化表格、半結構化收據還是非結構化合同文本,SeRum都能有效識別并提取關鍵信息。這種通用性使其在實際應用中具有很大優(yōu)勢。

實戰(zhàn)表現(xiàn)

紙上談兵終歸是紙上談兵,真正的技術價值要在實際應用中才能體現(xiàn)。SeRum模型在多個真實場景下的表現(xiàn)不僅驗證了其技術優(yōu)勢,也展示了其在解決實際問題方面的巨大潛力。

在文檔信息提取任務上,SeRum的表現(xiàn)尤為亮眼。以三個廣泛使用的基準數(shù)據集為例:在Ticket數(shù)據集上,SeRum-prompt方法達到了99.2%的F1得分和99.8%的準確率,幾乎完美解決了這一任務;在CORD數(shù)據集上,SeRum-prompt取得了84.9%的F1得分和91.5%的準確率,超過了第二名的端到端方法Donut;而在SROIE數(shù)據集上,SeRum的F1得分比多階段方法LayoutLMv2高出了24個百分點,達到了85.8%。

這些數(shù)字背后是SeRum在實際場景中的強大能力。例如,在火車票識別中,即使面對不同背景色、不同打印字體和模糊掃描的票據,SeRum依然能準確識別出關鍵信息。在收據識別中,SeRum能同時處理多種語言、不同格式和各種打印質量的收據,并精準提取出商品名稱、價格、總金額等信息。

文檔視覺問答是另一個展示SeRum能力的重要場景。在DocVQA基準測試中,SeRum取得了71.9%的ANLS得分,雖然略低于基于OCR的LayoutLMv2(78.1%),但在包含手寫文本的ANLS*測試中,SeRum以77.9%的得分明顯超過了LayoutLMv2(67.3%)。

這種差異很好地說明了SeRum的優(yōu)勢所在。當文檔中包含OCR難以準確識別的內容(如手寫文字)時,傳統(tǒng)多階段方法往往會因OCR錯誤而失敗,而SeRum憑借其端到端的處理方式和選擇性區(qū)域聚焦能力,能更好地理解和處理這類內容。

SeRum的通用能力在文本識別任務中也得到了驗證。在CTW-1500文本檢測和識別數(shù)據集上,SeRum取得了41.8%的F1得分。雖然這一成績不及專門針對文本檢測優(yōu)化的SPTS v2(63.6%),但考慮到SeRum是一個通用文檔理解模型而非專用文本檢測器,這一表現(xiàn)已經相當不錯,也證明了SeRum在處理彎曲文本、藝術字體等復雜文本形式上的能力。

在實際應用案例中,SeRum展現(xiàn)出了更多實用價值。例如,在處理企業(yè)文檔自動化流程中,SeRum能夠從各種格式的發(fā)票、合同和表格中提取關鍵信息,實現(xiàn)自動錄入和比對。在一個包含5000份發(fā)票的測試中,SeRum的信息提取準確率達到了93.7%,處理時間比傳統(tǒng)OCR方法快了近40%。

另一個有趣的應用是在歷史文檔數(shù)字化項目中。面對褪色、破損的古籍和手稿,傳統(tǒng)OCR方法往往束手無策,而SeRum憑借其對局部特征的敏感性,能夠更好地識別和理解這些難處理的文本。在一個包含19世紀手寫信件的測試中,SeRum的文本識別準確率比最好的OCR方法高出了15個百分點。

SeRum的生成方式也很有特色。它提供了兩種生成機制:SeRum-total和SeRum-prompt。SeRum-total采用類似Donut的方法,生成包含所有關鍵信息的完整字符串序列;而SeRum-prompt則使用鍵作為查詢,并行生成每條信息。實驗表明,后者在復雜數(shù)據集上表現(xiàn)更好,尤其在CORD數(shù)據集上的提升最為明顯。

值得一提的是,SeRum還能處理許多傳統(tǒng)方法難以應對的復雜格式文本,如WordArt、彎曲文本等。這一點從測試圖像中可以清晰看出:SeRum能夠正確識別并提?。RTHUR KAYxBR0"等藝術字體文本和"ILKLEY CIVIC SOCIETY"等彎曲文本中的信息,這在傳統(tǒng)方法中往往需要專門的處理模塊才能實現(xiàn)。

參考資料

  1. Cao, H., Bao, C., Liu, C., Chen, H., Yin, K., Liu, H., Liu, Y., Jiang, D., Sun, X. (2022). Attention Where It Matters: Rethinking Visual Document Understanding with Selective Region Concentration.

  2. Xu, Y., Xu, Y., Lv, T., Cui, L., Wei, F., Wang, G., Lu, Y., Florencio, D., Zhang, C., Che, W., Zhang, M., Zhou, L. (2022). LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding.

  3. Park, G., Oh, Y., Nguyen, S. V., Nguyen, H. T., Lee, C. Y., Yoo, J., Koo, J., Choi, J., Jang, Y., Jeong, J., Moon, S. (2022). Donut: Document Understanding Transformer without OCR.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國家終于出手了!不僅是李梓萌被牽連,就連全紅嬋張文宏也沒逃過

國家終于出手了!不僅是李梓萌被牽連,就連全紅嬋張文宏也沒逃過

巧手曉廚娘
2025-12-26 21:34:40
突發(fā)重傷!再見了,湖人!三巨頭解體倒計時

突發(fā)重傷!再見了,湖人!三巨頭解體倒計時

籃球實戰(zhàn)寶典
2025-12-27 23:56:50
中日關系緊張之際,俄羅斯公然接待日本高層,我們還能相信普京嗎

中日關系緊張之際,俄羅斯公然接待日本高層,我們還能相信普京嗎

吃貨的分享
2025-12-27 06:40:13
突發(fā)交易!湖人!三方交易醞釀中,勇士搞定能濃眉嗎?

突發(fā)交易!湖人!三方交易醞釀中,勇士搞定能濃眉嗎?

劉笤說體壇
2025-12-28 08:31:37
任開斌已任遼寧省公安廳廳長

任開斌已任遼寧省公安廳廳長

警界君
2025-12-27 13:27:53
輸球急了?切爾西欲用中場核心換貝林厄姆,皇馬暗喜

輸球急了?切爾西欲用中場核心換貝林厄姆,皇馬暗喜

瀾歸序
2025-12-28 04:05:33
鳳姐在美國15年,是如何躲過斬殺線的?

鳳姐在美國15年,是如何躲過斬殺線的?

胡嚴亂語
2025-12-26 17:18:31
李弘權:接下來兩場都是硬仗要做好自己,希望2026年一直贏下去

李弘權:接下來兩場都是硬仗要做好自己,希望2026年一直贏下去

懂球帝
2025-12-27 23:10:09
蔣緯國晚年回憶道:父親在洗澡的時候喊媽媽,聲音很大,歇斯底里

蔣緯國晚年回憶道:父親在洗澡的時候喊媽媽,聲音很大,歇斯底里

嘮叨說歷史
2025-12-25 10:39:44
董卿現(xiàn)狀:獨自照顧兒子和父母,丈夫曾失聯(lián),與婆婆有隔閡

董卿現(xiàn)狀:獨自照顧兒子和父母,丈夫曾失聯(lián),與婆婆有隔閡

細品名人
2025-11-28 07:24:47
醫(yī)生:堅持走路鍛煉的老人,過不了幾個月,身體會迎來5大變化

醫(yī)生:堅持走路鍛煉的老人,過不了幾個月,身體會迎來5大變化

岐黃傳人孫大夫
2025-12-24 09:08:19
中國女排聯(lián)賽最新排名!上海降至第二,天津第五,遼寧穩(wěn)坐副班長

中國女排聯(lián)賽最新排名!上海降至第二,天津第五,遼寧穩(wěn)坐副班長

跑者排球視角
2025-12-28 09:09:13
iPhone Fold上手,這質感把我整不會了!

iPhone Fold上手,這質感把我整不會了!

3C毒物
2025-12-28 00:07:05
劉彬彬吳興涵王彤轉會,魯能泰山93級全部畢業(yè)!

劉彬彬吳興涵王彤轉會,魯能泰山93級全部畢業(yè)!

越嶺尋蹤
2025-12-28 08:20:35
8個動作堅持半年,肝膽不堵、臉蛋又白又亮!

8個動作堅持半年,肝膽不堵、臉蛋又白又亮!

瑜伽解剖學
2025-12-17 08:27:13
薩卡人設崩塌?阿森納 2-1 領跑卻曝內訌,球迷怒噴:太自私!

薩卡人設崩塌?阿森納 2-1 領跑卻曝內訌,球迷怒噴:太自私!

瀾歸序
2025-12-28 03:37:00
獨家:南博前院長徐湖平“監(jiān)守自盜”,工人逆襲院長發(fā)跡史曝光!

獨家:南博前院長徐湖平“監(jiān)守自盜”,工人逆襲院長發(fā)跡史曝光!

微評社
2025-12-26 12:59:10
宿茂臻:弗格森曾跟我說,董方卓就是個天才!

宿茂臻:弗格森曾跟我說,董方卓就是個天才!

湖報體育
2025-12-27 21:01:21
1994年,一位不懂中文的老人回國奔喪,鄰座老外還在教他怎么游故宮,他哭著說了一句:我是回家給爺爺磕頭的

1994年,一位不懂中文的老人回國奔喪,鄰座老外還在教他怎么游故宮,他哭著說了一句:我是回家給爺爺磕頭的

寄史言志
2025-12-27 16:47:20
“準毒品”擦邊球?霸王茶姬閃崩

“準毒品”擦邊球?霸王茶姬閃崩

智識漂流
2025-12-27 12:51:58
2025-12-28 09:52:49
臆說歷史 incentive-icons
臆說歷史
作有深度的歷史解讀
162文章數(shù) 233關注度
往期回顧 全部

科技要聞

新任NASA掌門放話:特朗普任期內必將重返月球

頭條要聞

四川原副省長葉寒冰被通報:長期出入私人會所聚餐飲酒

頭條要聞

四川原副省長葉寒冰被通報:長期出入私人會所聚餐飲酒

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風波落幕:法院認定朋友造謠

財經要聞

英偉達的收購史

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

親子
本地
游戲
教育
軍事航空

親子要聞

62歲懷二胎真相驚人!醫(yī)生擔憂的惡心一幕曝光!

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

《Arc Raiders》發(fā)售兩個月 Steam在線仍超40萬人

教育要聞

家長來討說法,要怎么應對?

軍事要聞

與特朗普會晤前 澤連斯基亮明“紅線”

無障礙瀏覽 進入關懷版