国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

基于通名的中外地名分類體系同現(xiàn)映射研究

0
分享至


江西地名研究

關注我們,獲取更多地名資訊

摘要:針對眾源數(shù)據(jù)中外文地名分類體系差距大,側重不同無法準確映射的問題,提出了一種基于通名同現(xiàn)關系的類別映射方法,以實現(xiàn)類別的準確映射。地名由專名和通名組成,通名是地名中用來區(qū)分各個地理實體類別的詞。以地名數(shù)據(jù)集進行標注,對數(shù)據(jù)集的標注結果進行分析,可實現(xiàn)外文類別與中文類別的映射關系,同時,以geonames地名數(shù)據(jù)為實驗數(shù)據(jù),將該文提出的方法與基于規(guī)則、基于字面相似度的方法結果進行了比較。試驗證明,該方法在大規(guī)模數(shù)據(jù)集上的映射效果顯著,能夠有效實現(xiàn)外文體系與中文體系類別之間的一對一、一對多及雙向映射關系,同時數(shù)據(jù)映射效率明顯優(yōu)于其他方法,其在不同國家地名數(shù)據(jù)上具有適用性,有利于中外分類體系類別映射研究,對于建設標準化的全球地名數(shù)據(jù)庫有重要意義。

關鍵詞:同現(xiàn)映射;類別映射;分類體系

0

引言

目前,世界上大多數(shù)發(fā)達國家建立了自己的地名信息系統(tǒng)。我國地名信息建設近幾年發(fā)展快速,民政部組織建設了全國地名數(shù)據(jù)庫,但是缺少一個覆蓋全球、可靠且具有統(tǒng)一技術標準的全球地名數(shù)據(jù)庫。全球地名數(shù)據(jù)資源涉及范圍廣、國家多、語種多,不同國家和地區(qū)經濟發(fā)展水平懸殊,信息資源差距明顯,互聯(lián)網發(fā)展不均衡。由于分類體系差異大,存在各自獨立的分類準則,對我國地名信息標準化建設造成一定影響,來自眾源數(shù)據(jù)的外文類別準確映射到中文類別的問題急需解決。

地名分類體系主要以地理實體為主要區(qū)分目標,不同地名分類體系對地理實體的囊括范圍不同造成了分類的差異。分類法映射把分類法和分類法中的類目分別作為集合和集合中的元素,從類目概念出發(fā),對一個分類法中的類目與另一個分類法中的一個或多個類目建立對應關系的過程。目前類別映射分為基于規(guī)則、基于統(tǒng)計、基于機器學習、基于深度學習、基于知識圖譜的映射等方法。最基礎的是簡單規(guī)則映射,根據(jù)明確的、預先定義好的規(guī)則進行類別映射。其次是決策樹映射,該方法通過對數(shù)據(jù)特征進行層層判斷來實現(xiàn)類別映射。每個內部節(jié)點是一個屬性上的測試,分支是測試輸出,葉節(jié)點是類別。

基于機器學習的映射方法有樸素貝葉斯映射、支持向量機(SVM)映射等,SVM是通過尋找一個最優(yōu)超平面,將不同類別的數(shù)據(jù)點分隔開,從而實現(xiàn)類別映射。對于線性可分的數(shù)據(jù),SVM可以找到一個線性超平面;對于非線性數(shù)據(jù),可以通過核函數(shù)將數(shù)據(jù)映射到高維空間,使其變得線性可分,文獻[3]針對興趣點(POI)數(shù)據(jù)提出一種基于詞向量計算工具Word2vec和支持向量機的POI分類方法;近年來基于機器學習的映射方法研究更廣泛,比如K近鄰(KNN)方法,對于一個待分類樣本,計算它與訓練集中所有樣本的距離,選取距離最近的K個樣本,根據(jù)這K個樣本的類別來確定待分類樣本的類別,通常采用多數(shù)表決的方式,文獻[4]提出了一種基于動態(tài)權重的地理要素類別語義相似度算法,根據(jù)不同類型的特征屬性提出相應的相似度算法;文獻[5]提出了一種結合字面相似度計算方法和語義對照模式,自動生成地理信息分類體系對照關系的方法;人工神經網絡映射由大量的神經元相互連接組成,通過對訓練數(shù)據(jù)的學習,自動提取數(shù)據(jù)的特征和模式,實現(xiàn)類別映射,文獻[6]通過語料訓練得到一個關于類目的分類器,利用機器學習得到專利與圖書的類目映射;文獻[7]采用基于中心結構模型的語義映射方法,初步構建關聯(lián)映射表,收集生物醫(yī)學領域數(shù)據(jù)基于inctes學科分析工具與期刊同現(xiàn)兩種方法完成映射結果的優(yōu)化與驗證;文獻[8]將詞共現(xiàn)概念模型引入到文本相似度比較中,找出高頻的共現(xiàn)詞集,加強同一類別文本相似度比較的能力;而目前大多數(shù)學者基于深度學習研究映射方法,文獻[9]提出了基于BERT預訓練上下文語言模型的李生網絡模型,對CLC與IPC的類目映射關系進行研究;文獻[10]通過關鍵詞提取、預訓練語言模型、相似度計算及結果推薦,構建基于深度學習的物品編碼映射模型,實現(xiàn)了關于物品編碼的類別映射;文獻[11]提出一種顧及描述知識的地理要素分類映射方法,建立綜合相似性度量模型來評估地理要素類別的語義相似性;文獻[12]提出了一種將社會網絡分析思想與同現(xiàn)映射相融合的映射方法,對每個單位數(shù)據(jù)進行分類標注,結合類目相似度得到類目映射關系?;谥R圖譜的本體的映射研究,利用知識圖譜的本體結構和語義關系,根據(jù)實體的屬性和與其他實體的關系,將其映射到合適的類別。文獻[13]提出一種基于本體屬性特征學習的地理要素分類語義映射方法;文獻[14]提出一種基于類別核心詞的概念映射方法,在概念空間上完成文本分類工作;文獻[15]提出了一種新的基于本體屬性特征學習的地理類別映射方法,該方法利用本體屬性和地理類別的分類層次結構,用新的層次編碼方法來描述類別的分類層次,并識別每個類別的分類狀態(tài)然后采用一種基于BP神經網絡的自學習映射機制,建立本體屬性特征向量與分類狀態(tài)之間的非線性關系,可以支持類別映射。

文獻[16]分析天津市陸海地理要素分類分級差異,基于語義建立地形圖和電子海圖要素類別之間的對應關系,實現(xiàn)天津市陸海地理信息數(shù)據(jù)的語義融合;文獻[17]通過語義映射方法實現(xiàn)IFC與CityGML標準的轉換,驗證了BIM與3D GIS結合對智慧城市三維建模的促進作用;文獻[18]針對IFC與CityGML標準轉換中的信息丟失和幾何不精確問題,提出一種基于建筑構件類型和語義分析的完整映射方法,實現(xiàn)BIM到多層次CityGML模型的轉換,文獻[19]采用人工輔助方式提取通名,建立地名通名與地理要素類型之間的映射關系。目前關于地理信息領域的類別映射方法研究較少,基于人工的類別映射,耗時高、成本大,易出錯且一致性差,難以擴展和適應變化;基于相似度和基于機器學習的映射均需要對語義或字面結構進行處理,處理跨語言、跨文化的地名映射時仍存在局限性,難以避免由語義或語種問題而導致的誤差。若干個詞經常共同出現(xiàn)(共現(xiàn))在文本的同一窗口單元(如一句話、一個自然段等),則認為這若干個詞在意義上是相互關聯(lián)的。共現(xiàn)的概念最早出現(xiàn)在情報學中,通過對共現(xiàn)現(xiàn)象的分析可以更多地了解事物之間的關聯(lián)性。充分理解詞匯之間的共現(xiàn)關系,可以幫助我們挖掘出許多詞匯間相關聯(lián)的語義關系及深層含義,同時對自然語言分析起著重要作用。共現(xiàn)的概率越高,其相互關聯(lián)越緊密,并且表示一定的語義概念。本文結合分類與映射思想,提出基于通名的類別同現(xiàn)映射方法:結合通名可以避免由于分類體系差異大,側重不同造成分類錯誤,含有通名的地名作為大規(guī)模數(shù)據(jù)集,標注外文類別與類中文類別,計算同一類別組同現(xiàn)的條數(shù),用Jaccard系數(shù)計算相似值并建立比較標準,能夠獲得具有普適性的映射關系,在其他國家含有相同類別組時能夠快速映射中文類別。

1

中外分類體系分析

從編制體例上看,外文地名分類體系常采用等級列舉式體系分類法,適用于地名的分層管理,特別是行政區(qū)劃、地理空間分級等層級分明的場景。中文地名分類體系常采用線分類法,在編制原則、體系結構、聚類方式等方面有顯著差異,難以準確映射,比如外文類別“學?!辈粎^(qū)分中小學,外文分類體系常按照地理實體的類型和功能進行聚類,遵循從大到小、從一般到具體的邏輯逐級展開,層次清晰,形成一個覆蓋自然地貌、行政區(qū)劃、歷史遺跡等涵蓋廣泛的分類體系,更注重地理實體的層次性和全球適用性,包含海底地形地貌等類別,更為廣泛,沒有針對性。中文地名分類體系描述特定活動與服務場所的點位,注重服務的本地化和實用性,其編制原則以數(shù)據(jù)源融合為基礎,重點擴展了實體店鋪、政府機關、地名等類別,具有唯一性、安全性、擴展性特點,一般有大類、中類和小類三級分類結構,配以標簽和提示詞,提供具體分類參考信息,便于數(shù)據(jù)的查詢與標注。

2

基于通名的同現(xiàn)映射方法

2.1

方法原理

本文提出基于通名的同現(xiàn)映射方法能夠較為準確地實現(xiàn)外文體系與中文體系之間的類別映射。其特點在于:①以基于同現(xiàn)的映射為基礎,可以避免中外地名分類體系差異大,側重點不同,類別與類別映射由此產生誤差;②基于同現(xiàn)的映射作為目前得到較多驗證和應用的映射方法,對數(shù)據(jù)集的要求很高,單條地名作為單位數(shù)據(jù),在此基礎上結合地名通名,從該視角對外文類別與中文類別進行匹配,更為高效和準確。同一個形式的通名在不同類別的含義不同,如外文通名“park”的中文含義有公園和停車場的意思,需要根據(jù)單位數(shù)據(jù)含有的地理信息標注符合的類別。當有足夠量的結合通名后被外文體系與中文體系共同標引的數(shù)據(jù)時,能夠較為精準地反映類別間的聯(lián)系。

2.2

數(shù)據(jù)處理流程

2.2.1 數(shù)據(jù)標注

針對外文地名數(shù)據(jù)構建了雙層次特征編碼模型。首先通過外文分類體系的有限類別獲取標準化的源類別中文譯名,并基于雙語通名映射庫提取通名中文特征(如“酒店”);繼而采用Jieba分詞工具對通名及源類別文本進行語義解構,通過中國科學院地名詞向量預訓練模型CAS-GeoBERT生成細粒度詞向量,以通名詞向量均值與源類別詞向量均值拼接形成復合特征向量;對于目標分類體系中的國內地理實體類別,直接利用同源詞向量模型生成基準向量表征。通過計算跨域特征向量與國內類別向量的余弦相似度實現(xiàn)自動分類,對未登錄詞導致的零向量異常及低相似度樣本啟動人工校正機制,數(shù)據(jù)標注過程如圖1所示。


2.2.2 劃分數(shù)據(jù)集

在原始數(shù)據(jù)集的基礎上,單位數(shù)據(jù)因類別不同會有重復,為保證類別標注統(tǒng)一,逐步建立同現(xiàn)映射所需初始數(shù)據(jù)集與特殊數(shù)據(jù)集,具體步驟如圖2所示。


1)外文地名為初始鏈接條件,并篩選出每個單位數(shù)據(jù)的通名為原始數(shù)據(jù)集;

2)以單位數(shù)據(jù)有通名地名和無通名地名為區(qū)分作為初始數(shù)據(jù)集;同時篩選完全一樣的單位數(shù)據(jù),包含有通名和無通名情況,為特殊數(shù)據(jù)集。

3)無通名地名以原始來源包含信息判斷“通名”,外文體系類別和中文體系類別對每一個單位數(shù)據(jù)分別標注,初始數(shù)據(jù)集與特殊數(shù)據(jù)集中重復地名標注需統(tǒng)一,形成標注數(shù)據(jù)集。

2.3

相似度計算

由外文體系類別集合位M={m1,m2,···,mx}和中文體系類別集合為N={n1,n2,···,ny},給定外文體系矩陣W=(w1,w2,···,wi)和中文矩陣體系V=(v1,v2,···,vj)其中每個單位數(shù)據(jù)都有與之對應的m(n)標注,將W與V中的元素組合形成新的數(shù)據(jù)矩陣E=WV,通過統(tǒng)計矩陣E中不同類別的頻次來計算其相似度。

相似度的計算方法有很多種,本文采用Jaccard系數(shù)來計算類別間的相似度,給定兩個集合A,B,Jaccard系數(shù)定義為A與B交集的大小與AB并集的大小的比值,定義見式(1)。


與Jaccard系數(shù)相關的指標叫Jaccard距離,用于描述集合之間的相似度。Jaccard距離越大,樣本相似度越低,定義見式(2)。


Jaccard系數(shù)在本文計算源類別與目標類別相似度計算,見式(3)~式(6)。


式中:m和n分別為源類別與目標類別;Sim(m,n)為源類別m和目標類別n之間的相似系數(shù),取值范圍為[0,1],數(shù)值越大,則類別之間的相似程度越高;式(4)和式(5)中假定N為標注數(shù)據(jù)集中單位數(shù)據(jù)總量,N(m?,n)為標注數(shù)據(jù)集中同時被類別m和類別n標注的單位數(shù)據(jù)總量,N(m?,n?)為標注數(shù)據(jù)集中既未被類別m,又未被類別n標注的單位數(shù)據(jù)總量,故源類別m與目標類別n之間的相似度公式可以轉化為式(6)。

根據(jù)式(6)可以計算出兩者的相似度。為進一步通過相似度取值大小判斷兩者是否存在映射,需要建立比較標準。從外文體系視角來看,設定當外文體系中某一類別mx與中文體系中某一類別ny之間的相似度取值大于類別mx與中文體系全部類別之間相似度最大值的1/4時,判斷類別mx與類別ny間存在映射關系;基于中文體系視角同理。類別間存在映射的相似度判斷標準見式(7)和式(8)。


綜上,通過相似度計算以及取值標準的設定可合理判斷兩者是否存在映射,進而分別從外文體系與中文體系兩個角度,推斷兩種分類體系類別間的映射關系。

3

實驗結果與分析

3.1

實驗數(shù)據(jù)

3.1.1 分類體系選取

基于通名的類別同現(xiàn)映射需要確定中外分類體系,美國地質調查局地名信息系統(tǒng)、Gazetteer for Scotland、英國國家地名數(shù)據(jù)庫、Open Street Map(OSM)、Geonames等地名數(shù)據(jù)庫都蘊含大量地理信息。從宏觀角度上看,Geonames數(shù)據(jù)質量覆蓋范圍廣泛、種類豐富,并且數(shù)據(jù)庫是開源的,用戶可以自由訪問、下載并用于商業(yè)或學術研究,更適用于跨文化、國際化的應用場景,故外文地名分類體系選用geonames分類體系。中文地名分類體系選用天地圖(Map World)分類體系,主要采用的國家標準GB/T 35648—2017。天地圖是國家測繪地理信息局建設的地理信息綜合服務網站,是我國自主構建的地理信息分類體系,主要面向國內的地圖服務與地理信息應用場景。

3.1.2 數(shù)據(jù)集

基于通名的類別同現(xiàn)映射其次需要確定數(shù)據(jù)集,考慮到中外分類體系的應用性特征,數(shù)據(jù)要考慮國土面積、地理實體分布密度、數(shù)據(jù)豐富度與多樣性等方面。geonames是一個基于社區(qū)眾包的開源地圖項目,其數(shù)據(jù)由用戶貢獻和維護,地名數(shù)據(jù)包含全球的地理信息,包括道路、建筑物、水體、公園、地標等。故選取geonames官網下載新西蘭、墨西哥、南非、智利國家的地名,并進行樣本均衡性處理共計71043條單位數(shù)據(jù)。

對用于映射研究的標注數(shù)據(jù)集中單位數(shù)據(jù)的中文體系和外文體系類別進行初步計量,發(fā)現(xiàn)基于通名的單位數(shù)據(jù),涉及geonames676個類別中的281個,主要涉及天地圖371個小類中的128個,基于geonames視角標注單位數(shù)據(jù)的原始類別部分結果(包含1000條以上地名的類別)如表1所示。


基于天地圖視角標注單位數(shù)據(jù)的類別(包含1000條以上地名的類別)部分結果如表2所示。對比兩表,由此可見,天地圖中對自然地物的分類比較粗糙,而geonames中自然地物分類更加細致;對于非自然地物,天地圖比geonames分類體系更為精準。


3.2

基于通名的同現(xiàn)映射示例

對天地圖中與geonames中兩個視角超過1000條單位數(shù)據(jù)的類別的映射關系進行分析。以geonames中的“htl”為例,具體分析過程如下:一方面,從geonames角度出發(fā),在標注數(shù)據(jù)集中篩選出“htl”的單位數(shù)據(jù),統(tǒng)計該部分數(shù)據(jù),結果共涉及天地圖中17個類別,計算標注數(shù)據(jù)集中同時被“htl”和天地圖類別“星級賓館”標注的單位數(shù)據(jù)總量N(htl,星級賓館)=1816,未被兩者標注的單位數(shù)據(jù)總量N()=N?(htl,星級賓館)=67880,標注數(shù)據(jù)集中單位數(shù)據(jù)總量N為固定值71043,則類別“htl”與類別“星級賓館”之間的相似度Sim(htl,星級賓館)==0.5741。同理可分別計算出其他N(htl,旅館、招待所)=776,N(htl,酒店式公寓)=148,N(htl,度假村、療養(yǎng)院)=118,N(htl,民宿)=92,N(htl,商業(yè)性住宿)=52,N(htl,農林牧漁生產)=36,N(htl,野生動物保護區(qū))=26,N(htl,居民住宿)=25,N(htl,自然地物)=21,N(htl,會議中心、展覽中心)=20,N(htl,露營房車營地)=13,N(htl,自然村)=10,N(htl,運動場館)=4,N(htl,集鎮(zhèn))=2,N(htl,博彩)=1,N(htl,咖啡館)=1,N?(htl,旅館、招待所)=67599,N?(htl,酒店式公寓)=67880,N?(htl,度假村、療養(yǎng)院)=67828,N?(htl,民宿)=67878,N?(htl,商業(yè)性住宿)=0,N?(htl,農林牧漁生產)=64175,N?(htl,野生動物保護區(qū))=67842,N?(htl,居民住宿)=65176,N?(htl,自然地物)=61821,N?(htl,會議中心、展覽中心)=0,N?(htl,露營房車營地)=61599,N?(htl,自然村)=66929,N?(htl,運動場館)=67806,N?(htl,集鎮(zhèn))=67828,N?(htl,博彩)=67876,N?(htl,咖啡館)=67853;進一步得到geonames類別htl與天地圖剩余16個類別間的相似度,結果如表3所示。


從表3可以看出geonames中的類別htl與天地圖中的類別“星級賓館”“旅館、招待所”間的相似度取值符合類別間存在映射的相似度判斷標準,即相似度取值大于類別htl與天地圖全部類別之間的相似度最大值(0.58077)的1/4。另一方面,從天地圖視角出發(fā),在標注數(shù)據(jù)集中篩選出被類別“星級賓館”標注的單位數(shù)據(jù),發(fā)現(xiàn)只涉及geonames中htl、ghse類別,其次篩選被類別“旅館、招待所”標注的單位數(shù)據(jù),涉及geonames的6個類別,分別計算類別“旅館、招待所”與6個geonames類別對應的數(shù)據(jù)量N(m,旅館、招待所),N(m?,),由此計算出天地圖類別“旅館、招待所”與geonames類別間的相似度,結果如表4所示。


從表4可以看出,天地圖中“星級賓館”僅與geonames中htl的相似度取值符合類別間存在映射的相似度判斷標準,類別“旅館、招待所”與geonames中htl、bldg的相似度取值大于類別“旅館、招待所”與geonames全部類別之間的相似度最大值(0.22513)的1/4。如圖3所示,在兩種分類體系中,源類別htl與目標類別“星級賓館”、“旅館、招待所”之間為一對多的映射關系,類別“旅館、招待所”與類別htl、bldg之間為一對多的映射關系,在geonames視角bldg與“旅館、招待所”不符合映射相似度判斷標準,故箭頭由天地圖視角“旅館、招待所”單向映射“bldg”。


3.3

實驗結果與分析

3.3.1 實驗結果

分別從geonames與天地圖兩個視角出發(fā),計算其余geonames類別與天地圖類別間的相似度。將geonames(天地圖)特定類別與天地圖(geonames)全部類別間的相似度視為一組,對組內取值進行比較。結合類別間映射判斷標準公式可以發(fā)現(xiàn),在geonames視角上的映射關系如圖3所示。

圖4橫坐標為1000條數(shù)據(jù)以上的geonames類別,縱坐標是基于通名與橫坐標同現(xiàn)的天地圖類比,圖中標記的為同現(xiàn)關系,其中紅色標記表示符合判斷標準的類別即判斷為橫坐標與縱坐標的類別存在映射關系,藍色標記為不符合判斷標準的類別?;谔斓貓D視角的映射關系,同樣為1000條數(shù)據(jù)以上的天地圖類別,由于包含1000條以上數(shù)據(jù)的天地圖類別有15個,與其同現(xiàn)的geonames類別有157個,散點圖很難清晰完整展示,比如“山”、“自然地物”與geonames中同現(xiàn)的類別數(shù)較多,主要因為天地圖分類體系對與自然地物的劃分比較籠統(tǒng),洼地、沼澤、冰川之類的單位數(shù)據(jù)全部標注“自然地物”。


基于geonames和天地圖兩個視角,將兩種分類法中的所有類別同現(xiàn)映射結果可視化,通過重疊的連線可發(fā)現(xiàn)類別間的雙向映射關系,兩者互為非一對一映射關系,如圖5所示。兩者互為一對一映射關系,如圖6所示。



3.3.2 實驗分析

在本文中人工分類的結果作為標準值,并經過專家組認定,人工分類結果構成標準摘要集,本文方法類別映射構成自動摘要集,對比二者的重疊單元數(shù)量,并計算重疊單元在標準摘要集中的占比,來評定類別映射的質量。本文基于通名的同現(xiàn)映射得到映射結果,同時為了驗證本文方法的有效性,用基于規(guī)則和基于字面相似度(外文類別翻譯為中文)的方法比較,并用準確率、召回率和F1值對分類結果進行評價分析,在地名類別映射實驗對比結果如表5所示。結果表明基于通名的同現(xiàn)映射是最優(yōu)選擇,但在規(guī)則明確、簡單的場景中,基于規(guī)則的映射也能提供可靠的結果,綜合來看基于通名的同現(xiàn)映射方法較好。


4

結束語

針對中外地名分類體系之間缺乏有效的關聯(lián)與映射這一問題,本文提出了一種基于通名的同現(xiàn)映射方法,建立了外文地名體系geonames與中文地名體系天地圖類別之間的有效鏈接,實現(xiàn)了geonames與天地圖類別之間的映射,探討了從geonames視角出發(fā)的類別映射關系、從天地圖視角出發(fā)的類別映射關系以及geonames與天地圖小類類別之間的雙向映射關系,同時對比基于規(guī)則的映射,基于字面相似度的映射的方法,有效證明本方法的優(yōu)勢。這些映射關系的識別有助于促進中外文地名的分類的互操作性。該方法對數(shù)據(jù)集的數(shù)量和質量都有較高的要求與標準,數(shù)據(jù)集越完善,映射結果就越準確。標注數(shù)據(jù)集中各類別下單位數(shù)據(jù)的數(shù)量分布并不均勻,但由于視角不同,geonames視角下類別均衡后天地圖視角類別可能不均衡,比如geonames類別中的mt、pt、mts對應的天地圖類別都為“山”。另外在處理特殊地名、罕見通名等情況時就面臨著需要人工校正的問題,外文類別直接翻譯為中文與中文類別直接進行映射可以用基于相似度的方法,但是由于地名來自用戶貢獻的網站,存在地名分類錯誤的問題,但是結合通名會減少由此帶來的問題,后續(xù)會進一步研究將通名特征融入源類別中,生成詞向量和子詞向量;將通名對應中文翻譯特征融入目標類別中,生成詞向量和字向量,用機器學習的方法預訓練一個適合地名類別映射的模型。

作者:何新雨 趙江洪 王繼周 毛曦

來源:《測繪科學》2025年第9期

選稿:宋柄燃

編輯:宋柄燃

校對:鄭雨晴

審訂:楊 琪

責編:耿 曈

(由于版面內容有限,文章注釋內容請參照原文)



微信掃碼加入

中國地名研究交流群

QQ掃碼加入

江西地名研究交流群

歡迎來稿!歡迎交流!

轉載請注明來源:“江西地名研究”微信公眾號

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美日真正懼怕的,不是中國的東風導彈、福建艦航母,17國談之色變

美日真正懼怕的,不是中國的東風導彈、福建艦航母,17國談之色變

議紀史
2025-12-19 20:25:04
演員向梅:晚年退休后生活凄涼,真相被曝光,才知道背后的傷痛

演員向梅:晚年退休后生活凄涼,真相被曝光,才知道背后的傷痛

小熊侃史
2025-12-18 10:59:04
深圳烤雞少年塌房!所謂秘方竟是“肉寶王”,評論區(qū)炸鍋

深圳烤雞少年塌房!所謂秘方竟是“肉寶王”,評論區(qū)炸鍋

胡嚴亂語
2025-12-20 20:19:26
9個3元股集體漲停,誰是跨年大牛?連續(xù)7個十字星,該變盤了

9個3元股集體漲停,誰是跨年大牛?連續(xù)7個十字星,該變盤了

鵬哥投研
2025-12-20 14:38:12
不了解奢侈品有啥嚴重后果?網友:豪車我只認識四個圈圈

不了解奢侈品有啥嚴重后果?網友:豪車我只認識四個圈圈

帶你感受人間冷暖
2025-12-01 00:20:03
回歸意甲!羅馬租借+買斷與曼聯(lián)就齊爾克澤轉會達成協(xié)議

回歸意甲!羅馬租借+買斷與曼聯(lián)就齊爾克澤轉會達成協(xié)議

智道足球
2025-12-20 10:28:18
日本邀中亞五國參會,只托卡耶夫一人抵達,中亞現(xiàn)首個“變色龍”

日本邀中亞五國參會,只托卡耶夫一人抵達,中亞現(xiàn)首個“變色龍”

觸摸史跡
2025-12-19 10:38:14
002240,再簽百億級大單!

002240,再簽百億級大單!

新浪財經
2025-12-20 14:20:57
廣東發(fā)現(xiàn)一戶人家廚房,那叫一個高級,曬給大家瞧瞧,真先進!

廣東發(fā)現(xiàn)一戶人家廚房,那叫一個高級,曬給大家瞧瞧,真先進!

家居設計師蘇哥
2025-12-20 14:56:14
日哈14項協(xié)議簽訂,高市早苗萬萬沒想到,托卡耶夫竟然還留了一手

日哈14項協(xié)議簽訂,高市早苗萬萬沒想到,托卡耶夫竟然還留了一手

凡知
2025-12-20 05:04:30
許亞軍說他每次給兒子微信轉賬的時候不到1分鐘,兒子馬上就收款

許亞軍說他每次給兒子微信轉賬的時候不到1分鐘,兒子馬上就收款

忠于法紀
2025-12-19 18:27:51
烏克蘭首次在地中海摧毀俄羅斯影子艦隊油輪!噸位超11萬

烏克蘭首次在地中海摧毀俄羅斯影子艦隊油輪!噸位超11萬

項鵬飛
2025-12-20 17:47:08
日本和美國早已禁種,中國為何依然大力種植?背后原因不簡單

日本和美國早已禁種,中國為何依然大力種植?背后原因不簡單

劉森森
2025-12-19 16:34:32
就算是緊急求饒也沒用!中國已經拿捏日本命門,多家日企被迫停工

就算是緊急求饒也沒用!中國已經拿捏日本命門,多家日企被迫停工

科普100克克
2025-12-19 17:22:57
王子銘不去云南了!費爾南多更合適 離別歌白唱了 蓉城沒唱走一群

王子銘不去云南了!費爾南多更合適 離別歌白唱了 蓉城沒唱走一群

刀鋒體育
2025-12-20 18:25:19
滬深交易所宣布!

滬深交易所宣布!

數(shù)據(jù)寶
2025-12-19 22:35:59
鹽城2名干部遭人舉報!經紀委調查......

鹽城2名干部遭人舉報!經紀委調查......

俯瞰江蘇
2025-12-20 15:07:33
摩爾線程發(fā)布新一代GPU架構“花港”:能效提升10倍,支持十萬卡以上智算集群

摩爾線程發(fā)布新一代GPU架構“花港”:能效提升10倍,支持十萬卡以上智算集群

澎湃新聞
2025-12-20 10:48:26
難怪老蔣必除戴笠:他手下武裝隊,已強到可輕松擊敗蔣軍二流兵團

難怪老蔣必除戴笠:他手下武裝隊,已強到可輕松擊敗蔣軍二流兵團

小豫講故事
2025-11-06 06:00:03
演都不演了!何晴葬禮結束不到24小時,惡心事情發(fā)生,還不止一件

演都不演了!何晴葬禮結束不到24小時,惡心事情發(fā)生,還不止一件

boss外傳
2025-12-20 20:30:05
2025-12-20 21:16:49
江西地名研究 incentive-icons
江西地名研究
分享地名研究信息、行業(yè)資訊。
3114文章數(shù) 300關注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

司機稱轎車剎車失靈狂奔490公里 網友質疑"自導自演"

頭條要聞

司機稱轎車剎車失靈狂奔490公里 網友質疑"自導自演"

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會陣容曝光,豪華陣仗

財經要聞

求解“地方財政困難”

汽車要聞

嵐圖推進L3量產測試 已完成11萬公里實際道路驗證

態(tài)度原創(chuàng)

教育
數(shù)碼
旅游
藝術
軍事航空

教育要聞

今年難度小于去年!不過剛走出考場,這件事千萬不要做!

數(shù)碼要聞

盧偉冰今晚直播:小米17 Ultra超前劇透 不怕“泄密”

旅游要聞

“鳥中大熊貓”黑鸛做客滹源景區(qū)

藝術要聞

Licio Passon:當代意大利畫家

軍事要聞

澤連斯基:前線局勢愈發(fā)艱難

無障礙瀏覽 進入關懷版