国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

古舊地圖的信息化

0
分享至


江西地名研究

關(guān)注我們,獲取更多地名資訊

摘要:近年人文社會科學(xué)研究中古舊地圖的使用規(guī)模和數(shù)字化處理需求不斷增加,古舊地圖的信息化迫在眉睫。文章以“數(shù)字歷史黃河”(DHYR)·圖形資料庫建設(shè)為例,介紹DHYR中圖形史料的RDF編目方案和古舊地圖地名信息自動化;通過清代基層水利單元“汛”“堡”重建黃河變遷事件研究案例,分析古舊地圖以及古舊地圖信息化方案在人文社會科學(xué)研究中的意義。RDF是用于描述知識圖譜實(shí)體及其關(guān)系的數(shù)據(jù)模型,能減少歷史地理信息化數(shù)據(jù)孤島現(xiàn)象,在DHYR中設(shè)計(jì)針對古舊地圖的編目方案和描述詞表;采用U-Net架構(gòu)模型進(jìn)行古舊地圖地名OCR識別,展現(xiàn)深度學(xué)習(xí)方法在古舊地圖信息自動化提取中的能力,提高歷史地名提取的效率和準(zhǔn)確率。

關(guān)鍵詞:地名 古舊地圖 黃河 信息化

0

前言


古舊地圖是人文社會科學(xué)研究的重要史料,在光學(xué)字符識別(OCR)、地理信息系統(tǒng)(GIS)、數(shù)據(jù)庫技術(shù)等數(shù)據(jù)庫信息化手段支持下,可以最大限度挖掘古舊地圖中的地理信息,提升古舊地圖的使用效率。歷史地理學(xué)界針對古舊地圖的信息化處理已經(jīng)進(jìn)行多項(xiàng)實(shí)踐,如張萍等基于多種古舊地圖對西北“絲綢之路”交通路線和古代城市定位、韓昭慶研究康熙《皇輿全覽圖》投影方式、潘威等對近代灌渠體系的重建和分析,皆實(shí)踐了GIS手段在古舊地圖處理中的運(yùn)用。不過,歷史地理學(xué)界將古舊地圖的信息化操作局限于GIS環(huán)境下的人工矢量化處理,限定了對古舊地圖的進(jìn)一步研究和更廣泛使用。解決以上問題的方法是讓歷史地理信息化與圖情、計(jì)算機(jī)科學(xué)、信息管理等學(xué)科領(lǐng)域深度融合,在持續(xù)推動GIS在歷史地理學(xué)中應(yīng)用的同時,充分利用大數(shù)據(jù)環(huán)境下的數(shù)據(jù)庫技術(shù)、圖形計(jì)算技術(shù)、深度學(xué)習(xí)技術(shù)。通過加強(qiáng)對古舊地圖的管理、處理、使用和分析等多項(xiàng)技能,為歷史地理學(xué)、地圖學(xué)史和數(shù)字人文發(fā)展提供更多可能性。而要落實(shí)這一目標(biāo),首先應(yīng)解決古舊地圖文獻(xiàn)的數(shù)字化管理和圖幅內(nèi)容的自動化提取。對古舊地圖的管理既是對圖幅作為文獻(xiàn)的數(shù)字化和編目,也是對圖幅內(nèi)容的提取和數(shù)據(jù)化。

在歷史地理學(xué)研究中,使用古舊地圖需要信息化管理和圖幅內(nèi)容的信息化提取,兩者實(shí)際為一有機(jī)整體。研究者首先需要建立古舊地圖資料庫,采用信息化手段管理大量古舊地圖文檔,在此基礎(chǔ)上采用OCR等手段實(shí)現(xiàn)古舊地圖信息提取的自動化,之后方才進(jìn)入具體研究環(huán)節(jié),即專題數(shù)據(jù)的使用層面。因此,古舊地圖的信息化管理以及圖幅內(nèi)容的自動化提取是科研工作中的重要環(huán)節(jié)。實(shí)現(xiàn)這一目標(biāo),必須引入圖情知識體系(本文所用“圖情知識體系”一詞為圖書情報學(xué)的理論與技術(shù)體系總和,是筆者作為歷史地理學(xué)工作者對圖情學(xué)路徑的一種概括),尤其是圖情學(xué)界所采用的RDF編目、語義網(wǎng)和近年來大力提倡的OCR技術(shù)等,對推動歷史地理信息化具有重要意義。本文以清代河工圖的信息化處理方法為例,通過“數(shù)字歷史黃河”(DHYR)中的圖形資料庫的設(shè)計(jì)與實(shí)現(xiàn),展現(xiàn)OCR、語義網(wǎng)技術(shù)、深度學(xué)習(xí)技術(shù)在歷史地理信息化建設(shè)中的重要作用,特別是對古舊地圖管理和使用中的重要作用。


1

“數(shù)字歷史黃河”·圖形資料庫


1.1 資料介紹

“數(shù)字歷史黃河”(DHYR)是由河南大學(xué)、云南大學(xué)共建共享共有的黃河歷史變遷古舊地圖資料庫,目的是實(shí)現(xiàn)黃河歷史變遷的數(shù)據(jù)管理、多維展示和輔助分析。黃河流域古舊地圖數(shù)量眾多,中國國家圖書館等單位建有古舊地圖管理平臺,對其已經(jīng)收藏圖形,DHYR原則上不重復(fù)收錄,專門針對尚未得到系統(tǒng)收集、整理和電子化處理的古舊地圖,力求與其他單位藏圖互為補(bǔ)充。該系統(tǒng)的資料管理庫有專門的“圖形資料庫”(本文記為“DHYR·圖形資料庫”),其中收錄有清代河工圖、民國地形圖、黃河流域規(guī)劃圖、晚清西方黃河調(diào)查圖、近代工程藍(lán)圖、手繪草圖等多種圖像。圖1列舉了被DHYR·圖形資料庫收錄的圖形史料,其中,圖1-1為1753年徐城北岸黃河支岔圖(局部);圖1-2為1932年渭北引涇灌溉圖(局部);圖1-3為1946年陜西省水利廳黃河規(guī)劃圖·洛河(局部)。DHYR覆蓋范圍為黃河流域的青、寧、甘、陜、豫、魯、蘇7省,內(nèi)容涉及黃河防洪工程、灌溉體系、交通布局、土地利用等,包括中、英、日等多種語言文字,已達(dá)2,100余幅,原圖收藏單位包括中國水利水電研究院、黃河水利委員會等重要機(jī)構(gòu),以及地方水利、檔案、博物館等系統(tǒng)。需要說明的是,沿黃地區(qū)的地形圖除水利部門繪制外,還有大量為軍事部門繪制,這類非水利機(jī)構(gòu)暫時不收錄于DHYR內(nèi)。


1.2 設(shè)計(jì)思路

DHYR·圖形資料庫的界面設(shè)計(jì)風(fēng)格簡潔(見圖2)。DHYR·圖形資料庫建設(shè)的主要思路包括:持續(xù)收集有關(guān)黃河的各類圖形史料;修復(fù)破損史料;對圖形進(jìn)行掃描,形成高精度電子文本;建設(shè)信息化管理方案,進(jìn)行高效管理;與平臺其他資料庫和數(shù)據(jù)庫實(shí)現(xiàn)鏈接;充分挖掘史料價值,推動黃河變遷研究。之所以形成以上目的,主要在于這一工作面臨多種困難,包括:經(jīng)費(fèi)限制,本工作只能將經(jīng)費(fèi)用于收集與整理圖幅,突出內(nèi)容建設(shè),降低平臺建設(shè)難度;管理能力不足,作為高校小型科研團(tuán)隊(duì),缺乏公共圖書館那樣成熟的信息平臺管理能力,只能犧牲平臺功能,將其維持在團(tuán)隊(duì)能夠運(yùn)營的水平上。實(shí)際上,這是許多高校中小型科研團(tuán)隊(duì)面臨的問題,這一問題造成大量的歷史地理專題數(shù)據(jù)庫無法持續(xù)運(yùn)營。


DHYR·圖形資料庫在設(shè)計(jì)上采取較保守的策略,優(yōu)先保證資料庫的穩(wěn)定運(yùn)行,在這一前提下逐步嘗試新技術(shù)運(yùn)用。DHYR·圖形資料庫有四大功能模塊:(1)圖幅信息模塊:對圖形史料的基本信息進(jìn)行輸入、編輯;(2)查詢檢索模塊:按照圖名、編碼、繪制者、管理者、時代等多種要素進(jìn)行圖幅檢索;(3)用戶管理模塊:登記、管理DHYR使用者信息;(4)數(shù)據(jù)維護(hù)模塊:對數(shù)據(jù)進(jìn)行存儲、備份、還原操作。圖形資料庫是DHYR的組成部分,庫結(jié)構(gòu)采用HTML+CSS設(shè)計(jì),后臺結(jié)構(gòu)采用SQL-Server。

1.3 編目方案

1.3.1 元數(shù)據(jù)方案和語義網(wǎng)技術(shù)

本團(tuán)隊(duì)在資料管理方式上,嘗試中國歷史地理學(xué)界內(nèi)尚未被關(guān)注和使用的一些新方法,最重要的嘗試是借鑒圖情領(lǐng)域的元數(shù)據(jù)方案方法和語義網(wǎng)技術(shù),對圖形史料進(jìn)行編目和元數(shù)據(jù)記錄編碼。圖幅管理的重點(diǎn)在于編目方案設(shè)計(jì),而歷史地理學(xué)界尚未重視標(biāo)準(zhǔn)化規(guī)范化的資源編目的重要性,導(dǎo)致嚴(yán)重的數(shù)據(jù)孤島現(xiàn)象。DHYR·圖形資料采用圖情領(lǐng)域的元數(shù)據(jù)方案設(shè)計(jì)方法和語義網(wǎng)領(lǐng)域的RDF(Resource Description Framework)模型和編碼格式。RDF是W3C提出的用于描述知識單元及其相互關(guān)系的數(shù)據(jù)模型和數(shù)據(jù)編碼標(biāo)準(zhǔn),是特色歷史文獻(xiàn)資源編目中的主流方法。RDF將元數(shù)據(jù)記錄抽象為主體(subject)、謂詞(predict)與客體(object)3個組成部分,利用標(biāo)準(zhǔn)化的數(shù)據(jù)編碼方案描述資料庫中數(shù)據(jù)記錄的每一個知識節(jié)點(diǎn)。統(tǒng)一采用這種標(biāo)準(zhǔn)化規(guī)范化的方法,不僅能夠?qū)崿F(xiàn)工作團(tuán)隊(duì)內(nèi)部和跨團(tuán)隊(duì)的數(shù)據(jù)共享,更易與圖書館系統(tǒng)中的編目數(shù)據(jù)進(jìn)行互操作和整合,將個人研究融入文化基礎(chǔ)設(shè)施體系,令歷史地理學(xué)專題數(shù)據(jù)具有更為廣闊的用戶群體,共同建設(shè)知識譜系。這是促進(jìn)歷史地理信息管理規(guī)范化、數(shù)據(jù)共享便捷化、豐富數(shù)據(jù)維度的重要舉措。DHYR在歷史地理學(xué)界率先針對圖形史料采用此方法,將單幅圖形本身作為主體(subject)、描述圖形元數(shù)據(jù)規(guī)范詞表中的元素作為謂語(predict)、元素值作為客體(object)。比如,《道光黃河六省河工埽壩全圖》的“題名(dc:title)”這一元素的編碼結(jié)果為:《道光河工埽壩全圖》實(shí)體dc:title“道光河工埽壩全圖”。

1.3.2 元素集(詞表)設(shè)計(jì)

在確定編目基本原則的基礎(chǔ)上,具體編目方案設(shè)計(jì)需要充分考慮古舊圖形記錄的獨(dú)特性,不能簡單地將圖情管理系統(tǒng)中對現(xiàn)代正規(guī)出版物、檔案和一般古籍的編目方案套用至本工作。因此,需要制訂有針對性的元數(shù)據(jù)方案,設(shè)計(jì)專用于古舊地圖的元數(shù)據(jù)元素集(描述字段)。通過分析DHYR工作中已經(jīng)收集的古舊地圖,發(fā)現(xiàn)一些描述字段對描述圖形具有重要作用,見表1中的“描述字段”列,包括描述性元數(shù)據(jù)和管理性元數(shù)據(jù),是設(shè)計(jì)元數(shù)據(jù)元素集的基礎(chǔ)。在此基礎(chǔ)上,借鑒國際通用的都柏林核心(DC)元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,復(fù)用其中的部分元素,并自定義一部分元素,還復(fù)用少量上海圖書館本體詞表中的部分屬性。隨著今后工作的進(jìn)展,這一方案將進(jìn)行更新、擴(kuò)展和修正。



表1是對DHYR中古舊圖形進(jìn)行描述的字段構(gòu)成及其定義。通過這些字段,能清晰描述古舊圖形的時空信息、繪制信息和平臺管理信息。

(1)“空間范圍”字段采用經(jīng)緯度坐標(biāo)體現(xiàn),這一做法可以在GIS環(huán)境中形成圖幅覆蓋范圍的空間可視化成果,更直觀地表現(xiàn)DHYR所收錄圖形史料的空間格局。

(2)“圖件標(biāo)識符”“繪制人員標(biāo)識符”“繪制機(jī)構(gòu)標(biāo)識符”等的編訂方式尚無行業(yè)標(biāo)準(zhǔn),在歷史地理學(xué)界也無前期成果可供參考,因此參考地理學(xué)界內(nèi)普遍使用的“郵政編碼方法”?!皥D件標(biāo)識符”采用7位整數(shù)進(jìn)行編碼,首2位表示圖幅的歷史階段,如清代用“12”代表;第3位代表圖幅類型,如傳統(tǒng)時代的河工圖用“1”代表;后4位代表此類型序號,由“0000”開始?!袄L制人員標(biāo)識符”“繪制機(jī)構(gòu)標(biāo)識符”采用4位整數(shù)進(jìn)行編碼,首2位表示人員、機(jī)構(gòu)所處的歷史階段,后2位序號由“00”開始。“繪制人員標(biāo)識符”“繪制機(jī)構(gòu)標(biāo)識符”分別是“水利人物數(shù)據(jù)庫”中的人物標(biāo)識碼與“水利機(jī)構(gòu)數(shù)據(jù)庫”的機(jī)構(gòu)標(biāo)識碼,通過標(biāo)識碼可以實(shí)現(xiàn)跨庫鏈接。

2

基于深度學(xué)習(xí)的

古舊地圖地名識別


在完成古舊地圖管理信息化的基礎(chǔ)上,需要重視古舊地圖圖幅內(nèi)容的自動提取。OCR(Optical Character Recognition)是圖形識別的一種,主流的OCR系統(tǒng)使用深度神經(jīng)網(wǎng)絡(luò),能夠?qū)崿F(xiàn)高精度的文檔內(nèi)容識別。

2.1 研制的必要性

在OCR系統(tǒng)支持下,歷史文獻(xiàn)識別的精度不斷提升,數(shù)字化進(jìn)程大大加快,但通用OCR系統(tǒng)中的文檔分析與圖形識別方法難以直接應(yīng)用到古舊地圖的處理之中,是因?yàn)楣排f地圖清晰度、幅面整潔度等要素差異巨大。比如,手繪古舊地圖中,道路、邊界線、文本等不同的地理要素互相疊加,而手寫手繪也導(dǎo)致樣式存在隨機(jī)性誤差,因而古舊地圖中地名的識別難度更大。古舊地圖中地理要素的定位和提取非常重要,傳統(tǒng)上由人工進(jìn)行,近年借助機(jī)器學(xué)習(xí)等手段訓(xùn)練計(jì)算機(jī)實(shí)現(xiàn)自動提取圖幅內(nèi)容的需求日益增多,一些研究涉及從多種地圖中提取地理信息和文本信息的方法。地理信息系統(tǒng)中的地名解析(Geoparsing或Toponym Resolution)是找出非結(jié)構(gòu)化文本中提到的地名并將轉(zhuǎn)換為對應(yīng)的經(jīng)緯度坐標(biāo)的過程。非結(jié)構(gòu)話文本中自動檢測識別地名是自然語言處理(Natural Language Processing,NLP)中的命名實(shí)體識別(Named Entity Recognition,NER)。本研究與文本中地名解析目標(biāo)一致,都是從文本中提取地名:筆者的處理對象是圖片,即掃描地圖,使用OCR方法提取文本;后者的處理對象是已經(jīng)數(shù)字化的文本,使用訓(xùn)練機(jī)器從中識別出表示地名的短語。筆者的工作與文本中地名解析的任務(wù)部分重疊:筆者從古舊地圖中識別出的文本默認(rèn)都是地名,但識別文本中的地名是文本中地名解析的核心工作,其方法能為本研究提供思路;相同的部分是都需要將識別的地名(通過OCR或NER得到)進(jìn)行歧義消除(Disambiguation),確保提取的文本單元是合法的地名,OCR提取的文本內(nèi)容如何組合為正確的地名是本研究需要解決的關(guān)鍵問題。

2.2 深度學(xué)習(xí)與古舊地圖地名識別

利用機(jī)器學(xué)習(xí)方法從古舊地圖中識別地名需要大量的訓(xùn)練數(shù)據(jù),因此數(shù)據(jù)標(biāo)注工作很關(guān)鍵。本研究采用逐步迭代的數(shù)據(jù)標(biāo)注方法,起初使用通用的OCR檢測和識別古舊地圖中的文本,然后人工對檢測出的文本區(qū)域以及識別的文本內(nèi)容進(jìn)行校對,在新數(shù)據(jù)集上訓(xùn)練新的地名文本檢測和識別模型,這樣每迭代一次模型的性能增強(qiáng)一次,經(jīng)過若干次迭代,系統(tǒng)就具備較高的地名檢測和識別準(zhǔn)確率。

古舊地圖中地名文本的檢測屬于對象檢測的一種,深度學(xué)習(xí)在該領(lǐng)域取得了成功。對象檢測主要分為“兩步法”(Two-Stage)和“一步法”(One-Stage)?!皟刹椒ā睂D片進(jìn)行特征提取后,得到候選框,再進(jìn)行分類及回歸,代表算法是RCNN系列的目標(biāo)檢測算法?!耙徊椒ā笔窃谔崛〉膱D片的特征圖上進(jìn)行密集抽樣,產(chǎn)生大量的先驗(yàn)框,然后進(jìn)行分類和回歸,代表方法包括YOLO、SSD、RetinaNet。本研究使用一步法檢測中國古舊地圖中所有的單個漢字,訓(xùn)練針對不同大小漢字的檢測模型。U-Net在智能語義分割任務(wù)中表現(xiàn)突出,最初是在醫(yī)療影像處理中得到成功應(yīng)用,然后廣泛應(yīng)用于對象檢測和語義分割任務(wù),本研究采用這種結(jié)構(gòu)的網(wǎng)絡(luò)進(jìn)行字符級文本檢測。

由于文本檢測是字符級的,因此文本識別模型采用字符級識別模型。在文本識別領(lǐng)域,主流的OCR系統(tǒng)采用行(列)級別的識別模型,主要采用CTC(Connectionist Temporal Classification)算法搭配卷積神經(jīng)網(wǎng)絡(luò)疊加循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(RNN)對圖片中包含的文本序列進(jìn)行建模,一般而言文檔中的行和列相較于單個字符更易檢測。但是,地圖中的地名文本排列往往不像普通文獻(xiàn)那樣規(guī)則,而且有的地名字符間的距離較遠(yuǎn),所以行列級別的識別在地圖文本識別中并不像在一般文獻(xiàn)識別那么有效,因此使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行字符級別的檢測和識別。

2.3 工作流程

檢測到的文字形成正確的地名需要將這些字符合并組成地名詞語,使用Min-Cost Flow算法,將檢測到的文字進(jìn)行適當(dāng)合并得到地名。圖片中的文本轉(zhuǎn)錄到計(jì)算機(jī),主要包含兩個步驟:文本區(qū)域的檢測和文本的識別。前者從圖片中將包含文本的部分與圖片其余區(qū)域進(jìn)行分割;后者將切割出的文本圖片進(jìn)行識別,并將對應(yīng)的文本存儲到計(jì)算機(jī)。

本研究的古舊地圖文本自動提取方法包括2項(xiàng)關(guān)鍵步驟:一是古舊地圖中地名文本的檢測與識別;二是合并檢測到的文本形成正確的地名。第一步實(shí)際上是OCR系統(tǒng)功能:檢測和識別圖片中文本。有些中文地圖中文字?jǐn)?shù)量密集,使用主流的OCR框架往往很難正確檢測出所有包含的文字,也很難一步到位地將所有文字根據(jù)視覺特點(diǎn)(如排列、距離)直接生成正確的地名(見圖3)。


本系統(tǒng)工作流程見圖4。第一步,采取字符級別的文本檢測,即檢測地圖中所有的字符,并使用字符識別模型識別出這些字符。第二步,首先根據(jù)檢測到的字符的視覺特點(diǎn),如相對位置、大小,構(gòu)建一個K-NN的網(wǎng)絡(luò)。在網(wǎng)路中,每個檢測到的字符是一個節(jié)點(diǎn),每個漢字代表的節(jié)點(diǎn)周圍距離它最近的K個其他漢字所對應(yīng)的節(jié)點(diǎn)之間,添加一條有向邊邊的權(quán)重是它們在圖片中檢測到的限界框(Bounding Boxes)中心之間的歐式距離,這里的權(quán)重在后面的算法中也稱為耗費(fèi),在構(gòu)建的這個網(wǎng)絡(luò)上使用Min-Cost Flow Algorithm將符合條件的字符連綴起來形成地名候選。后續(xù)研究將嘗試使用與該古舊地圖同時代的地名詞典(Gazetteer)對候選地名進(jìn)行篩選和校對,從而獲得更準(zhǔn)確的歷史地名。


2.4 系統(tǒng)關(guān)鍵部件

(1)文本檢測部件。在古舊地圖的字符檢測任務(wù)中,采用U-Net架構(gòu)的深度神經(jīng)網(wǎng)絡(luò)模型。該模型能夠進(jìn)行圖片的語義分割(Semantic Segmentation),在歷史文獻(xiàn)自動處理領(lǐng)域得到廣泛應(yīng)用,其中包括古舊地圖中的文本識別。因?yàn)槟繕?biāo)是進(jìn)行字符級的識別,所以字符檢測模型的數(shù)據(jù)標(biāo)注采用單個字符的標(biāo)注,標(biāo)注的信息主要是字符的定界框(bounding boxes)。檢測出的單個字符輸入中文手寫體OCR系統(tǒng)進(jìn)行識別,該系統(tǒng)能夠?qū)嗴w、繁體中文進(jìn)行識別。

(2)文本識別部件。實(shí)施文本檢測的模塊需要記錄每個字符的坐標(biāo)和尺寸,一方面為后續(xù)查詢定位提供服務(wù),另一方面為第二步的字符合成地名提供輔助信息。地圖中的文本標(biāo)注信息具有如下特點(diǎn):一個地名用的字符大小一致,大小不一致的往往不屬于同一個地名;一個地名包含的字符往往聚在一起成為方向不定的一行(排列方向可能為多種傾斜角度)。本研究的方法是:首先根據(jù)第一步中獲得的每個字符的定界框(Bounding Box),將檢測到的字符進(jìn)行分層(位置與原圖中一樣),大小近似的在同一層次,以解決大小字符之間的干擾。將同一層的文本視為同一級別,利用地名文本的視覺特點(diǎn)組合成地名候選。

(3)中文地名合成部件。第二步類似于解析文本中包含的地名(Geoparsing),采用基于Min-cost Flow Algorithm的地名合成算法,從無結(jié)構(gòu)文本中識別出地名(自動化的實(shí)現(xiàn)需要自然語言理解相關(guān)技術(shù)),處理的是提取到的詞條,默認(rèn)是地名。但OCR識別準(zhǔn)確率難以在各種情況下都能達(dá)到100%準(zhǔn)確率,古舊地圖中有些地名文本排列密度高、與背景疊加等原因使得提取到的詞條可能是錯誤的。因此,提取到的地名需要一個去模糊化(Toponym Disambiguation)過程,即確定提取的地名所屬歷史時期和所屬高層政區(qū)。

3

古舊地圖信息化處理

與清代黃河變遷研究


基于元數(shù)據(jù)方案、語義網(wǎng)技術(shù)和深度學(xué)習(xí)的古舊地圖管理、處理方法能夠?qū)崿F(xiàn)古舊地圖中地理信息的高效挖掘。這些方法是否能在歷史地理學(xué)科研實(shí)踐中發(fā)揮作用呢?下文以清代黃河變遷研究為例,介紹該方法在歷史自然地理研究中的應(yīng)用前景。

3.1 清代黃河下游的“汛”“堡”名稱提取

清代黃河下游依靠“汛”“堡”等基層水利管理單元實(shí)現(xiàn)修防、賑災(zāi)、工程建設(shè)與管理、河銀征收、防盜等事務(wù),是清代河政運(yùn)作的基礎(chǔ)?!把础币劳杏邳S河一側(cè)河岸的堤防進(jìn)行劃分,“堡”則是在“汛”之下由幾個河兵或河夫駐守的據(jù)點(diǎn)?!把础薄氨ぁ钡然鶎铀麊卧奶崛『投ㄎ唬梢詾榍宕S河變遷研究提供定位河務(wù)運(yùn)作的空間框架,能夠?qū)⒑鱼y收支、物料貿(mào)易網(wǎng)絡(luò)、河務(wù)官員流動路徑、堤防修護(hù)與決口等多項(xiàng)河務(wù)環(huán)節(jié)置于具體的地理空間下重新認(rèn)識。但是,“汛”“堡”的整體狀況在文字性史料中并未得到全面記錄,僅有少數(shù)舉辦大型工程或發(fā)生決堤事件的“汛”“堡”名稱被記載。這一問題可以依靠清代河工圖解決。

利用DHYR·圖形資料庫,在規(guī)模龐大的清代河工圖中快速檢索到覆蓋下游全境、擁有“汛”-“堡”記錄的圖形史料。在史料搜尋方面,大致比傳統(tǒng)方法節(jié)省70%~80%的時間成本。以《道光黃河六省埽壩全圖》為例,利用本文提出的古舊地圖地名提取方法,訓(xùn)練計(jì)算機(jī)對圖幅中“汛”“堡”名稱進(jìn)行快速提取,形成格式化表格,能夠快速完成“汛”“堡”名錄的制作。如圖5所示,限界框(Bounding Boxes)標(biāo)定100%的“汛”“堡”名稱,為后期實(shí)現(xiàn)定位提供基礎(chǔ)。


圖5是依據(jù)此方法重建的豫東河段“汛”“堡”空間格局。與孫濤提出的黃河蘭考以下河段“汛”界數(shù)據(jù)共同構(gòu)成完整的“汛”“堡”空間數(shù)據(jù)。在此基礎(chǔ)上,根據(jù)文字性史料,可以判斷少數(shù)“堡”所在的經(jīng)緯度位置,如中牟下汛的九堡即今中牟縣九堡村,此河段一直是豫東河防重點(diǎn),現(xiàn)代建有“九堡控導(dǎo)工程”。少數(shù)“堡”的經(jīng)緯度確定后,基本上可以在現(xiàn)代地圖上確定“汛”“堡”體系的基本格局,之后根據(jù)史料記錄和清代黃河下游形態(tài)、堤防格局推斷所有“堡”的位置,據(jù)此確定“汛”的范圍。

3.2 黃河重大變遷事件研究

19世紀(jì)以來,黃河下游最重要的變化即1855年(清咸豐五年)的“銅瓦廂改道”,黃河在今蘭考東壩頭一帶改道北流,奪大清河入渤海,結(jié)束了1128年以來形成的黃河“奪淮入黃?!本置?,奠定了現(xiàn)代黃河下游基本格局。借助道光《豫省河工圖》(見圖6)及對其的信息化處理,可以重新認(rèn)識“銅瓦廂改道”的過程、原因和影響。


重新討論“銅瓦廂改道”,首先需要準(zhǔn)確認(rèn)識決口點(diǎn)位置,長期以來,學(xué)界認(rèn)為此次大改道決口點(diǎn)為黃河蘭考段的銅瓦廂,但通過閱讀清代河工檔案,結(jié)合實(shí)地調(diào)查,本研究發(fā)現(xiàn)1855年決口點(diǎn)為蘭陽上汛三堡。從道光《豫省河工圖》中發(fā)現(xiàn),道光年間銅瓦廂段黃河已經(jīng)緊逼河堤,銅瓦廂段形成托壩、挑水壩、雞嘴壩、格堤等復(fù)合工程構(gòu)成的復(fù)雜體系,其中緊鄰黃河北岸的挑壩和格堤體系才是銅瓦廂埽工所在,黃河北擺的現(xiàn)象在道光時期已經(jīng)非常明顯。因此,確定蘭陽上汛三堡所在位置非常重要。按前述操作方法,基于道光《豫省河工圖》,本研究確定蘭陽上汛三堡所在地(今蘭考東壩頭鎮(zhèn)東700米黃河河道內(nèi))。決口點(diǎn)位置的重新認(rèn)識確定了決口點(diǎn)正是清代檔案中記錄的“蘭陽無工河段”,“銅瓦廂改道”的直接原因之一其實(shí)是清政府對“工”的布局出現(xiàn)問題,而非銅瓦廂本身工程出現(xiàn)問題。這一認(rèn)識使得學(xué)界能夠重新思考1949年以來得出的一些認(rèn)識,比如用銅瓦廂工程腐敗、太平天國戰(zhàn)爭導(dǎo)致清廷無暇顧及河務(wù)等解釋此次大改道的成因,而是回到清代河務(wù)制度本身,從制度結(jié)構(gòu)性不足角度重新認(rèn)識大改道的原因?!般~瓦廂改道”的重新認(rèn)識僅是一個例證,實(shí)際上,古舊地圖在歷史時期黃河變遷(改道、決口、擺動以及管理方式)研究中的作用仍需更多案例進(jìn)行驗(yàn)證,進(jìn)而總結(jié)為歷史自然地理的系統(tǒng)性研究方法,革新歷史地理學(xué)的研究方法。

4

結(jié)論與展望


(1)古舊地圖的信息化包括管理信息化、內(nèi)容自動化提取和專題數(shù)據(jù)利用3個環(huán)節(jié)。

(2)編目方案能提高古舊地圖的管理效率。DHYR建設(shè)嘗試采用RDF方案對平臺圖形資料庫進(jìn)行編目,這一方法實(shí)現(xiàn)了圖形資料信息的標(biāo)準(zhǔn)化,在提高信息檢索效率、實(shí)現(xiàn)跨庫鏈接以及不同知識體系融合方面發(fā)揮巨大作用,能解決歷史地理信息化中的數(shù)據(jù)孤島現(xiàn)象。

(3)基于深度學(xué)習(xí)的古舊地圖地名檢測和提取技術(shù)能夠快速、準(zhǔn)確地整理古舊地圖中的地名信息。本研究所采用的“U-Net架構(gòu)深度神經(jīng)網(wǎng)絡(luò)模型”在處理古舊地圖中提高了信息采集的準(zhǔn)確率和完整性,效果良好。

(4)信息化手段能夠支持中小型學(xué)術(shù)團(tuán)隊(duì)進(jìn)行批量文獻(xiàn)處理、數(shù)據(jù)重建與分析,克服人力、財(cái)力限制,完成較復(fù)雜的大型跨學(xué)科研究任務(wù)。歷史地理學(xué)界有必要學(xué)習(xí)圖情知識體系,增強(qiáng)與圖情學(xué)界的交流。

作者:潘威 張光偉 夏翠娟 孫濤

來源:《圖書館論壇》2021年第11期

選稿:耿 曈

編輯:宋柄燃

校對:杜佳玲

審訂:汪鴻琴

責(zé)編:楊 琪

(由于版面內(nèi)容有限,文章注釋內(nèi)容請參照原文)



微信掃碼加入

中國地名研究交流群

QQ掃碼加入

江西地名研究交流群

歡迎來稿!歡迎交流!

轉(zhuǎn)載請注明來源:“江西地名研究”微信公眾號

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
124-121!森林狼3連殺開拓者,克林根11+16+5,楊瀚森缺席虧大了

124-121!森林狼3連殺開拓者,克林根11+16+5,楊瀚森缺席虧大了

小火箭愛體育
2026-02-25 13:49:39
漲停潮!又一AI關(guān)鍵材料被全球巨頭瘋搶

漲停潮!又一AI關(guān)鍵材料被全球巨頭瘋搶

市值Observation
2026-02-25 10:03:26
古董相機(jī)價格暴漲翻10倍 根本搶不到 業(yè)內(nèi)人士:芯片短缺和物流費(fèi)用暴漲成主因

古董相機(jī)價格暴漲翻10倍 根本搶不到 業(yè)內(nèi)人士:芯片短缺和物流費(fèi)用暴漲成主因

快科技
2026-02-24 11:31:04
濃眉:真正的冠軍球隊(duì),是沒有任何東西能動搖其決心的

濃眉:真正的冠軍球隊(duì),是沒有任何東西能動搖其決心的

懂球帝
2026-02-25 01:26:05
一場最糙的晚會,AI含量為0,甚至還有演出事故,讓人想起84年春晚

一場最糙的晚會,AI含量為0,甚至還有演出事故,讓人想起84年春晚

大廠觀察
2026-02-24 14:04:59
女子在河南中靈山失聯(lián)10日后遺體被找到,父親發(fā)聲:希望弄清女兒死因,讓她死得明明白白

女子在河南中靈山失聯(lián)10日后遺體被找到,父親發(fā)聲:希望弄清女兒死因,讓她死得明明白白

揚(yáng)子晚報
2026-02-25 11:16:22
差距一目了然!一場高速堵車,戳穿了3700萬新能源車主的“謊言”

差距一目了然!一場高速堵車,戳穿了3700萬新能源車主的“謊言”

小怪吃美食
2026-02-25 15:42:18
特斯拉中國新品上架!這次真買得起了

特斯拉中國新品上架!這次真買得起了

XCiOS俱樂部
2026-02-25 09:59:03
我嫁全村最窮懶漢,新婚夜剛要打地鋪,他開口:轉(zhuǎn)窮17年終于等到你

我嫁全村最窮懶漢,新婚夜剛要打地鋪,他開口:轉(zhuǎn)窮17年終于等到你

奶茶麥子
2026-02-25 11:05:22
夫妻春節(jié)不回家送外賣1個月賺4萬,騎手站長:青島春節(jié)補(bǔ)貼最高8200元,月入2萬日均需跑約70單

夫妻春節(jié)不回家送外賣1個月賺4萬,騎手站長:青島春節(jié)補(bǔ)貼最高8200元,月入2萬日均需跑約70單

大風(fēng)新聞
2026-02-24 15:44:14
吳越國雷峰塔出土的這枚銅鏡,見證了孫太真最真實(shí)的歷史模樣

吳越國雷峰塔出土的這枚銅鏡,見證了孫太真最真實(shí)的歷史模樣

留言亦非語
2026-02-25 15:25:50
“讓我先走,我去貴州提親”!江西小伙獨(dú)自駕車932公里提親獲全網(wǎng)祝福:女友事前不知情,已成功定親,決定初九訂婚!

“讓我先走,我去貴州提親”!江西小伙獨(dú)自駕車932公里提親獲全網(wǎng)祝福:女友事前不知情,已成功定親,決定初九訂婚!

大象新聞
2026-02-24 10:44:03
韓信剛死滿朝歡呼,張良一句話嚇癱劉邦:四十萬匈奴壓境 誰去退

韓信剛死滿朝歡呼,張良一句話嚇癱劉邦:四十萬匈奴壓境 誰去退

老謝談史
2026-02-24 11:12:25
實(shí)探胖東來鄭州首店建設(shè)現(xiàn)狀:春節(jié)期間還在趕工期!此前于東來直播時稱五一前有開業(yè)可能

實(shí)探胖東來鄭州首店建設(shè)現(xiàn)狀:春節(jié)期間還在趕工期!此前于東來直播時稱五一前有開業(yè)可能

大象新聞
2026-02-25 12:44:18
去日本才發(fā)現(xiàn):年輕人都不穿耐克、阿迪,滿街都是Asics、鬼塚虎

去日本才發(fā)現(xiàn):年輕人都不穿耐克、阿迪,滿街都是Asics、鬼塚虎

白宸侃片
2026-02-24 15:45:22
“一旦中美開戰(zhàn),中國連一個小時都撐不了!”真的會是這樣嗎?

“一旦中美開戰(zhàn),中國連一個小時都撐不了!”真的會是這樣嗎?

起喜電影
2026-02-25 15:42:31
3-10到13-11!國乒女雙超級大逆轉(zhuǎn),馬琳卻搓臉不敢看

3-10到13-11!國乒女雙超級大逆轉(zhuǎn),馬琳卻搓臉不敢看

曹老師評球
2026-02-25 14:36:16
13點(diǎn)之后,A股集體跳水,原因是什么?

13點(diǎn)之后,A股集體跳水,原因是什么?

萌生財(cái)經(jīng)
2026-02-25 15:14:25
日本女子與28歲男友將8歲兒子遺棄山中,男孩被放下車后,獨(dú)自步行前往附近的露營地求助,二人因此被捕

日本女子與28歲男友將8歲兒子遺棄山中,男孩被放下車后,獨(dú)自步行前往附近的露營地求助,二人因此被捕

大象新聞
2026-02-24 16:44:03
趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了

趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了

小小科普員
2025-11-21 20:23:24
2026-02-25 16:56:49
江西地名研究 incentive-icons
江西地名研究
分享地名研究信息、行業(yè)資訊。
3254文章數(shù) 302關(guān)注度
往期回顧 全部

頭條要聞

中方就涉烏克蘭問題的決議草案投棄權(quán)票 中國代表發(fā)聲

頭條要聞

中方就涉烏克蘭問題的決議草案投棄權(quán)票 中國代表發(fā)聲

體育要聞

曝雄鹿計(jì)劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

撒貝寧到沈陽跑親戚 老婆李白模特身材

財(cái)經(jīng)要聞

GEO亂象:誰為AI營銷的泡沫買單?

科技要聞

“機(jī)器人只跳舞,沒什么用”

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

本地
房產(chǎn)
健康
家居
公開課

本地新聞

津南好·四時總相宜

房產(chǎn)要聞

330萬人涌入!春節(jié)全國樓市,第一個賣爆的區(qū)域出現(xiàn)了!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

家居要聞

藝居辦公 溫度與效率

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版