奧斯陸大學(xué)團(tuán)隊發(fā)布全球最大多語言歷史語料庫

2026-02-26 16:32:00　來源: 科技行者

北京舉報

分享至

這項由挪威奧斯陸大學(xué)聯(lián)合美國康奈爾大學(xué)的研究發(fā)表于2026年2月的arXiv預(yù)印本平臺（論文編號：arXiv:2602.11968v1），感興趣的讀者可以通過該編號查找完整論文。這次研究發(fā)布了一個叫作DHPLT的全新語料庫，就像為全球41種語言建立了一個超級歷史檔案館，專門記錄詞匯在不同時代的含義變化軌跡。

想象你翻閱祖父的老日記，會發(fā)現(xiàn)他年輕時寫的"網(wǎng)絡(luò)"指的是漁網(wǎng)，而現(xiàn)在說"網(wǎng)絡(luò)"通常指互聯(lián)網(wǎng)。詞匯的含義會隨著時間推移而發(fā)生微妙或劇烈的變化，這就像語言的進(jìn)化過程。過去，研究這種語言進(jìn)化現(xiàn)象就像考古學(xué)家挖掘文物一樣困難，因為缺乏足夠規(guī)模和質(zhì)量的歷史文本資料。特別是除了英語、德語等少數(shù)語言之外，絕大多數(shù)世界語言都缺乏系統(tǒng)的歷史語料庫。

研究團(tuán)隊巧妙地利用了互聯(lián)網(wǎng)這個巨大的文本寶庫。他們從HPLT項目收集的網(wǎng)絡(luò)爬蟲數(shù)據(jù)中提取了三個時間段的文檔：2011-2015年（早期互聯(lián)網(wǎng)時代）、2020-2021年（新冠疫情時代）、2024年至今（最新時代）。每個語言在每個時間段都包含100萬份文檔，總計約590億個詞匯。這就像為每種語言建立了三個時代的語言快照，讓研究者能夠觀察詞匯含義的歷史演變軌跡。

更有趣的是，研究團(tuán)隊還為每種語言挑選了大約18600個"目標(biāo)詞匯"，就像選擇了一批語言變化的"觀察對象"。他們不僅提供了原始文本，還預(yù)先計算了這些詞匯的各種語義表示，包括詞向量嵌入、上下文嵌入和詞匯替換等。這就像不僅提供了歷史照片，還配備了放大鏡、顯微鏡等各種觀察工具，讓研究者能夠立即開始分析工作，而無需花費大量計算資源重新處理數(shù)據(jù)。

一、網(wǎng)絡(luò)爬蟲時間戳的巧妙運用

傳統(tǒng)的歷史語料庫建設(shè)就像修建一座大教堂，需要語言學(xué)家花費數(shù)十年時間精心收集和整理各個歷史時期的文獻(xiàn)資料。然而，對于世界上絕大多數(shù)語言來說，這樣的歷史語料庫幾乎不存在。研究團(tuán)隊采用了一種創(chuàng)新的"時間考古"方法，將網(wǎng)絡(luò)爬蟲的時間戳作為文檔年代的判斷依據(jù)。

這種方法的原理就像考古學(xué)中的地層學(xué)。當(dāng)考古學(xué)家在某個地層發(fā)現(xiàn)文物時，可以確定這件文物的年代不會晚于該地層形成的時間。同樣，如果網(wǎng)絡(luò)爬蟲在2015年抓取到某個網(wǎng)頁，那么這個網(wǎng)頁的內(nèi)容創(chuàng)建時間肯定不會晚于2015年。雖然這種方法不如傳統(tǒng)歷史語料庫那樣精確（網(wǎng)頁可能包含更早期創(chuàng)建的內(nèi)容），但它為大規(guī)模多語言歷史研究提供了一個可行的解決方案。

研究團(tuán)隊分析了HPLT v3.0數(shù)據(jù)集中不同年份的文檔分布情況，發(fā)現(xiàn)2011年是最早的爬取年份，文檔數(shù)量在2017年之前相對較少，而2020年之后文檔數(shù)量大幅增加，在2020年和2024年達(dá)到峰值。基于這些觀察，他們選擇了三個相互間隔至少兩年的時間段，這樣的時間間隔就像給語言變化留出了足夠的"反應(yīng)時間"，讓詞匯含義的變化更容易被檢測到。

選擇這三個特定時間段還有著特殊的社會歷史背景意義。2011-2015年代表了早期互聯(lián)網(wǎng)時代，社交媒體剛剛興起；2020-2021年是全球新冠疫情期間，遠(yuǎn)程工作、在線教育等概念迅速普及；而2024年至今則見證了大型語言模型和生成式AI的爆發(fā)式發(fā)展。這三個時間段就像三個重要的歷史節(jié)點，恰好捕捉到了近十年來最重要的社會和技術(shù)變革。

二、精心挑選的41種多元化語言

從HPLT v3.0數(shù)據(jù)集包含的198種語言中篩選出41種語言，這個過程就像從浩瀚的語言海洋中精選出最有代表性的樣本。研究團(tuán)隊設(shè)立了兩個主要篩選標(biāo)準(zhǔn)：每種語言在每個時間段至少要有50萬份文檔，確保有足夠的數(shù)據(jù)量進(jìn)行可靠分析；同時要求存在對應(yīng)的HPLT v3.0 T5單語編碼器-解碼器語言模型，這些模型將用于生成詞匯的上下文嵌入表示。

最終入選的41種語言展現(xiàn)了令人印象深刻的多樣性，覆蓋了12個不同的語系。除了英語、德語、法語等傳統(tǒng)研究熱門語言外，還包括了阿拉伯語、中文、日語、泰米爾語、泰語等非印歐語系的語言。這種語言多樣性就像組建了一個"聯(lián)合國語言觀察團(tuán)"，能夠從不同文化和語言背景下觀察詞匯含義變化的共性和差異。

每種語言的數(shù)據(jù)量也相當(dāng)可觀。研究團(tuán)隊為每個語言的每個時間段隨機(jī)采樣了100萬份文檔，如果某個時間段的文檔數(shù)量不足100萬，則采樣50萬份。這樣的數(shù)據(jù)規(guī)模相當(dāng)于為每種語言建立了一個包含數(shù)千萬到上億詞匯的歷史文本庫。整個DHPLT語料庫壓縮后約170GB，雖然相比原始HPLT v3.0數(shù)據(jù)集的50TB來說是大幅精簡，但仍然為研究者提供了豐富的研究材料。

三、目標(biāo)詞匯的智能篩選策略

為了讓研究更加聚焦和高效，研究團(tuán)隊為每種語言都精心挑選了一批"目標(biāo)詞匯"，這個過程就像從詞典中挑選最有可能發(fā)生含義變化的候選詞。他們從每種語言對應(yīng)的T5模型詞匯表開始，這些詞匯表包含32768個詞條，但并非所有詞條都適合作為語義變化研究的對象。

篩選過程采用了多重過濾標(biāo)準(zhǔn)，就像用不同網(wǎng)眼的篩子逐層過濾。首先排除詞匯片段和非完整詞匯，只保留在文本中作為獨立單詞出現(xiàn)的詞條。接著統(tǒng)計這些詞匯在三個時間段中的出現(xiàn)頻率，只保留每個時間段至少出現(xiàn)10次的詞匯，這樣確保有足夠的樣本進(jìn)行可靠的語義分析。

更進(jìn)一步，研究團(tuán)隊只保留名詞、動詞和形容詞這三類最容易發(fā)生語義變化的詞性，因為這些詞匯往往承載著更豐富的語義內(nèi)容。他們還確保所選詞匯都使用該語言的主要文字系統(tǒng)書寫，比如英語必須使用拉丁字母，日語必須包含平假名、片假名或漢字等。

這套精心設(shè)計的篩選流程最終為每種語言產(chǎn)生了平均約18600個目標(biāo)詞匯。這些詞匯就像語言變化的"哨兵"，能夠敏感地反映社會、文化和技術(shù)變革對語言的影響。研究團(tuán)隊還對這些目標(biāo)詞匯進(jìn)行了詞形還原處理，將不同詞形（如"thread"、"Thread"、"threads"）歸并到同一個詞根（"thread"）下，這樣能夠更準(zhǔn)確地追蹤詞匯語義的變化軌跡。

四、多維度語義表示的預(yù)計算

僅僅提供原始文本數(shù)據(jù)還不夠，就像給研究者一堆礦石卻不提供冶煉工具。研究團(tuán)隊貼心地預(yù)先計算了多種類型的語義表示，讓研究者能夠立即開始分析工作，而無需耗費大量計算資源進(jìn)行數(shù)據(jù)預(yù)處理。

上下文化詞嵌入是現(xiàn)代語義變化研究的主力工具，就像給每個詞匯配備了一個能夠感知上下文環(huán)境的"語義傳感器"。研究團(tuán)隊利用HPLT v3.0 T5模型為每個目標(biāo)詞匯的1000個隨機(jī)樣本生成了編碼器嵌入表示。這些嵌入向量不僅能夠捕捉詞匯的基本語義，還能反映其在不同上下文中的細(xì)微含義差別。

除了T5模型，他們還使用XLM-R多語言模型和HPLT v3.0 GPT-BERT模型生成了額外的上下文嵌入。這種多模型方法就像從不同角度拍攝同一個物體，能夠提供更全面和可靠的語義表示。每種表示方法都有其獨特優(yōu)勢：T5模型在序列到序列任務(wù)上表現(xiàn)出色，XLM-R擅長跨語言理解，而GPT-BERT則在文本生成和理解方面具有優(yōu)勢。

詞匯替換是另一種重要的語義表示方法，就像為每個詞匯找到一群"同義詞朋友"。研究團(tuán)隊使用HPLT v3.0 GPT-BERT模型為每個目標(biāo)詞匯的100個隨機(jī)樣本生成了前15個最佳替換詞。這種方法的妙處在于，通過觀察不同時期同一個詞匯的替換詞變化，可以直觀地理解其語義演變過程。比如，"AI"這個詞在早期可能被"游戲角色"等詞匯替換，而現(xiàn)在更多被"ChatGPT"、"機(jī)器學(xué)習(xí)"等詞匯替換。

五、靜態(tài)詞向量模型的訓(xùn)練

盡管上下文化嵌入是當(dāng)前語義變化研究的主流，但傳統(tǒng)的靜態(tài)詞向量仍然具有獨特價值，就像雖然有了彩色照片，黑白照片仍然有其藝術(shù)價值。靜態(tài)詞向量為每個詞匯提供單一的向量表示，雖然不如上下文嵌入那樣細(xì)致入微，但在計算簡單性和結(jié)果解釋性方面具有優(yōu)勢。

研究團(tuán)隊為每個語言和時間段組合訓(xùn)練了基于SGNS（Skip-gram with Negative Sampling）架構(gòu)的word2vec模型。這些模型就像為每個時代的詞匯建立了一張"語義地圖"，相似含義的詞匯在這張地圖上會聚集在一起。訓(xùn)練參數(shù)經(jīng)過精心調(diào)整：窗口大小設(shè)為10，訓(xùn)練5個輪次，采用5個負(fù)樣本，嵌入維度為300，詞匯表限制為5萬個最頻繁詞匯。

為了讓不同時期的詞向量模型能夠進(jìn)行直接比較，研究團(tuán)隊采用了標(biāo)準(zhǔn)的Procrustes對齊技術(shù)。這種對齊方法就像將不同時期的"語義地圖"疊加在一起，讓研究者能夠直觀地觀察詞匯在語義空間中的移動軌跡。具體來說，他們將2011-2015年和2020-2021年的模型對齊到2024年的模型，這樣就能夠計算同一個詞匯在不同時期之間的語義相似度變化。

六、頻率統(tǒng)計的補(bǔ)充作用

除了復(fù)雜的語義表示，研究團(tuán)隊還提供了每個目標(biāo)詞匯在三個時間段的頻率統(tǒng)計信息。這些頻率數(shù)據(jù)就像詞匯使用的"體溫計"，能夠反映社會關(guān)注度的變化。某個詞匯使用頻率的突然增加往往預(yù)示著相關(guān)概念的流行或重要事件的發(fā)生。

頻率變化與語義變化往往相互關(guān)聯(lián)。當(dāng)一個詞匯獲得新含義時，其使用頻率通常會發(fā)生顯著變化。比如"病毒"這個詞在2020年疫情期間的使用頻率大幅增加，同時其語義重心也從計算機(jī)病毒向生物病毒轉(zhuǎn)移。研究團(tuán)隊提供的頻率數(shù)據(jù)能夠幫助研究者控制頻率效應(yīng)的影響，更準(zhǔn)確地識別純粹的語義變化。

這些頻率統(tǒng)計還有助于研究規(guī)劃和計算資源分配。根據(jù)Zipf定律，語言中的詞匯頻率分布極不均勻，少數(shù)高頻詞占據(jù)了大部分使用，而大量低頻詞只偶爾出現(xiàn)。在進(jìn)行詞匯替換生成等計算密集型任務(wù)時，為最不常見的100個目標(biāo)詞匯尋找樣本往往需要花費一半的時間，頻率信息能夠幫助研究者更好地規(guī)劃計算資源。

七、英語"AI"詞匯的語義演變實證

為了驗證DHPLT語料庫的有效性，研究團(tuán)隊展示了一個極具說服力的案例分析：英語詞匯"AI"（人工智能）在過去十幾年中的語義演變軌跡。這個案例就像一部微縮的科技發(fā)展史，生動地展現(xiàn)了技術(shù)進(jìn)步如何在語言中留下印記。

通過靜態(tài)詞向量模型分析，研究團(tuán)隊發(fā)現(xiàn)"AI"的語義發(fā)生了戲劇性的變化。在2011-2015年的早期時代，"AI"主要與電子游戲相關(guān)，其最相似的詞匯包括"multiplayer"（多人游戲）、"NPCs"（非玩家角色）、"RPG"（角色扮演游戲）、"animations"（動畫）和"FPS"（第一人稱射擊）。這反映了當(dāng)時人工智能概念主要局限在游戲領(lǐng)域，普通大眾對AI的理解還停留在游戲角色的智能行為上。

到了2020-2021年的疫情時代，"AI"的語義開始向更廣泛的技術(shù)領(lǐng)域擴(kuò)展。其相似詞匯轉(zhuǎn)變?yōu)?chatbots"（聊天機(jī)器人）、"IoT"（物聯(lián)網(wǎng)）、"robotics"（機(jī)器人技術(shù)）、"RPA"（機(jī)器人流程自動化）和"intelligence"（智能）。這個時期正值機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的快速發(fā)展，AI開始從游戲娛樂向?qū)嶋H應(yīng)用場景滲透，但仍然保持著相對技術(shù)化的特征。

而到了2024年至今的最新時期，"AI"的語義徹底轉(zhuǎn)向了生成式人工智能。其相似詞匯變成了"generative"（生成式）、"AI's"、"GenAI"（生成式AI）、"ChatGPT"和"LLMs"（大型語言模型）。這種變化清晰地反映了ChatGPT和其他大型語言模型對公眾AI認(rèn)知的革命性影響。

八、多語言驗證的一致性發(fā)現(xiàn)

令人驚訝的是，這種語義演變模式并非英語獨有，而是在多種語言中都觀察到了相似的趨勢。研究團(tuán)隊分析了西班牙語中的對應(yīng)詞匯"IA"（inteligencia artificial），發(fā)現(xiàn)了幾乎完全平行的演變軌跡。

在2011-2015年期間，西班牙語的"IA"同樣與游戲相關(guān)，其相似詞匯包括"BETA"、"PS"（PlayStation）、"AI"、"jugabilidad"（游戲性）和"artificial"（人工的）。這表明早期的AI概念在不同語言文化中都主要與游戲娛樂聯(lián)系在一起。

到了2020-2021年，西班牙語"IA"開始與更廣泛的技術(shù)概念關(guān)聯(lián)，包括"AI"、"artificial"、"algoritmos"（算法）、"learning"（學(xué)習(xí)）和"inteligencia"（智能）。有趣的是，這個時期的相似詞匯中出現(xiàn)了英語詞匯，反映了AI技術(shù)發(fā)展的國際化特征和英語在科技領(lǐng)域的主導(dǎo)地位。

到了2024年，西班牙語"IA"也轉(zhuǎn)向了生成式AI概念，其相似詞匯包括"generativa"（生成式）、"artificial"、"AI"、"inteligencia"和"ChatGPT"。這種跨語言的一致性變化模式強(qiáng)有力地證明了AI技術(shù)發(fā)展對全球語言的同步影響。

俄語中的對應(yīng)分析進(jìn)一步驗證了這一發(fā)現(xiàn)。俄語"ИИ"（искусственный интеллект，人工智能）在2020-2021年的相似詞匯包括"интеллект"（智能）、"AI"、"роботов"（機(jī)器人）、"блокчейн"（區(qū)塊鏈）和"алгоритмы"（算法）。到了2024年，則轉(zhuǎn)向"интеллект"、"нейросети"（神經(jīng)網(wǎng)絡(luò)）、"ChatGPT"、"AI"和"искусственный"（人工的）。

九、上下文嵌入分析的深入洞察

除了靜態(tài)詞向量分析，研究團(tuán)隊還利用T5編碼器嵌入進(jìn)行了更精細(xì)的語義變化檢測。他們計算了不同時間段表示之間的平均成對距離（APD），這種方法就像測量詞匯在高維語義空間中的"移動距離"。

針對英語詞匯的分析顯示，"ai"確實表現(xiàn)出最大的語義變化，其在不同時期之間的平均距離分別為：2011-2015年到2020-2021年為0.5533，2011-2015年到2024年為0.5646，2020-2021年到2024年為0.48。這些數(shù)值清晰地量化了AI概念的語義演變程度。

作為對比，研究團(tuán)隊還分析了"remote"（遠(yuǎn)程）、"legislative"（立法的）和"jurisdiction"（管轄權(quán)）等詞匯。"remote"在疫情期間經(jīng)歷了顯著變化，特別是從2011-2015年到2020-2021年的變化最大，反映了遠(yuǎn)程工作概念的興起。而"legislative"和"jurisdiction"作為保守的法律領(lǐng)域術(shù)語，其語義變化相對較小，這符合法律用語穩(wěn)定性的預(yù)期。

西班牙語的上下文嵌入分析也展現(xiàn)了相似的模式。對應(yīng)的西班牙語詞匯"ia"、"remoto"、"legislativo"和"jurisdicción"的變化程度與英語詞匯高度一致，進(jìn)一步驗證了跨語言語義變化的同步性。

十、詞匯替換分析的補(bǔ)充視角

通過HPLT v3.0 GPT-BERT模型生成的詞匯替換提供了另一個觀察語義變化的獨特視角。這種方法就像為每個詞匯尋找不同時期的"替身演員"，通過觀察這些替身的變化來理解詞匯語義的演變。

對于英語"ai"的詞匯替換分析揭示了更加細(xì)致入微的語義變化模式。在2011-2015年期間，"ai"的替換詞主要是非技術(shù)性的或與游戲、汽車相關(guān)的詞匯。到了2020-2021年，替換詞擴(kuò)展到更廣泛的技術(shù)領(lǐng)域，包括"IoT"、"NLP"、"robotics"、"animation"等，同時出現(xiàn)了反映AI社會影響的詞匯如"cybersecurity"、"humanity"、"innovation"以及各種州名和公司名。

到了2024年，替換詞又發(fā)生了有趣的轉(zhuǎn)變，從技術(shù)樂觀主義轉(zhuǎn)向了更多社會關(guān)切，包括"elite"、"censorship"、"communism"、"scammers"、"capitalism"等詞匯。同時還出現(xiàn)了傳統(tǒng)上由人類主導(dǎo)但現(xiàn)在逐漸自動化的領(lǐng)域，如"art"、"healthcare"等。令人意外的是，替換詞中并沒有出現(xiàn)太多與大型語言模型直接相關(guān)的術(shù)語，而是更多反映了從AI樂觀主義向悲觀主義的轉(zhuǎn)變。

"remote"詞匯的替換分析也非常有啟發(fā)性。在2011-2015年期間，其替換詞主要與網(wǎng)絡(luò)和地理距離相關(guān)。2020-2021年期間，"virtual"頻繁出現(xiàn)作為替換詞。而到了2024年，替換詞呈現(xiàn)出技術(shù)樂觀的模式，類似于2020-2021年期間的"AI"，包括積極的工作相關(guān)形容詞如"skilled"、"flexible"、"professional"，以及更廣泛的技術(shù)和社會領(lǐng)域詞匯。

十一、數(shù)據(jù)資源的開放共享

DHPLT項目的一個重要特點是其完全開放的共享理念。所有資源都在Creative Commons CC0許可證下發(fā)布，這意味著任何研究者都可以自由使用、修改和分發(fā)這些數(shù)據(jù)，而無需擔(dān)心版權(quán)限制。這種開放態(tài)度就像在學(xué)術(shù)界建立了一個公共圖書館，讓全世界的研究者都能受益。

整個數(shù)據(jù)集按語言分類組織，方便研究者根據(jù)需要選擇特定語言的數(shù)據(jù)。每個文檔都包含詳細(xì)的元數(shù)據(jù)信息，包括唯一標(biāo)識符、時間戳、實際文檔內(nèi)容和質(zhì)量評分。這些豐富的元數(shù)據(jù)就像給每份文檔配備了詳細(xì)的"身份證"，讓研究者能夠進(jìn)行精確的篩選和分析。

研究團(tuán)隊還開放了完整的處理代碼，任何人都可以使用這些代碼從原始HPLT數(shù)據(jù)重新生成DHPLT，或者根據(jù)不同需求調(diào)整時間段劃分和語言選擇。這種透明度確保了研究的可復(fù)現(xiàn)性，也為其他研究者提供了定制化的可能性。

除了預(yù)處理的語料庫，研究團(tuán)隊還提供了各種預(yù)計算的語義表示，包括不同模型的詞嵌入、上下文嵌入和詞匯替換結(jié)果。這些預(yù)計算資源就像提供了現(xiàn)成的分析工具包，讓研究者能夠立即開始實驗，而不需要投入大量計算資源進(jìn)行數(shù)據(jù)預(yù)處理。

十二、研究意義與未來展望

DHPLT項目填補(bǔ)了多語言歷史語義研究的一個重要空白。在此之前，語義變化檢測研究主要局限于少數(shù)幾種高資源語言，這就像只能觀察幾個樣本就要得出關(guān)于整個群體的結(jié)論?，F(xiàn)在，研究者可以在41種不同語言上進(jìn)行比較研究，這為理解語言變化的普遍規(guī)律和文化特異性提供了前所未有的機(jī)會。

這種大規(guī)模多語言資源的意義不僅在于數(shù)據(jù)規(guī)模，更在于它開啟了全新的研究可能性。研究者現(xiàn)在可以探索不同語言中相同概念的演變是否遵循相似模式，可以研究全球化和技術(shù)發(fā)展如何同步影響不同文化的語言表達(dá)，還可以發(fā)現(xiàn)某些語義變化是否具有跨文化的普遍性。

從技術(shù)角度來看，DHPLT為各種語義變化檢測方法提供了統(tǒng)一的測試平臺。研究者可以在相同的數(shù)據(jù)基礎(chǔ)上比較不同算法的效果，推動整個領(lǐng)域的技術(shù)進(jìn)步。同時，多種預(yù)計算的語義表示也為新方法的開發(fā)提供了便利，研究者可以將更多精力投入到算法創(chuàng)新而非數(shù)據(jù)預(yù)處理。

當(dāng)然，這項研究也有一些局限性需要注意。最主要的限制來自于時間信號的來源：網(wǎng)絡(luò)爬蟲時間戳只能提供文檔創(chuàng)建時間的上界，而非確切的創(chuàng)建時間。這就像考古學(xué)中的相對年代測定，只能確定"不晚于某個時間"而非"確切創(chuàng)建于某個時間"。不過，研究團(tuán)隊的驗證實驗顯示，即使在這種限制下，仍然能夠檢測到清晰的語義變化模式。

另一個限制是預(yù)計算表示只覆蓋了選定的目標(biāo)詞匯，而非所有詞匯。這是受計算資源和存儲空間限制的必然選擇。幸運的是，原始文本數(shù)據(jù)的完全開放為研究者提供了靈活性，他們可以根據(jù)自己的研究需求計算其他詞匯的表示。

展望未來，DHPLT項目可能會繼續(xù)擴(kuò)展，包含更多語言和更長的時間跨度。隨著計算能力的提升和新的語言模型的出現(xiàn)，也可能會有更多類型的語義表示被加入到資源庫中。更重要的是，這個項目為語義變化研究建立了一個新的標(biāo)準(zhǔn)和范式，可能會激發(fā)更多類似的多語言歷史語料庫建設(shè)項目。

說到底，DHPLT項目就像為語言學(xué)研究打開了一扇新的大門。它不僅提供了豐富的數(shù)據(jù)資源，更重要的是展示了如何利用現(xiàn)代技術(shù)手段來研究傳統(tǒng)的語言學(xué)問題。在這個信息爆炸的時代，語言變化的速度前所未有地加快，新詞匯不斷涌現(xiàn)，舊詞匯不斷獲得新含義。DHPLT為我們理解這種快速變化提供了強(qiáng)有力的工具，讓我們能夠以前所未有的規(guī)模和精度來觀察語言這個人類最重要的交流工具是如何與時代同步演進(jìn)的。

這項研究的價值不僅在于學(xué)術(shù)層面，還可能對實際應(yīng)用產(chǎn)生深遠(yuǎn)影響。從自然語言處理系統(tǒng)的改進(jìn)到跨文化交流的理解，從歷史文獻(xiàn)的分析到社會變遷的研究，DHPLT都可能成為一個重要的基礎(chǔ)資源。它證明了開放科學(xué)的力量，也為未來的多語言人工智能研究奠定了堅實的基礎(chǔ)。

Q&A

Q1：DHPLT語料庫包含哪些語言和時間段？

A：DHPLT包含41種不同語系的語言，覆蓋三個時間段：2011-2015年（早期互聯(lián)網(wǎng)時代）、2020-2021年（疫情時代）和2024年至今。每個語言在每個時間段包含100萬份文檔，總計約590億詞匯。這些語言涵蓋了從英語、中文到阿拉伯語、泰米爾語等多種主要世界語言。

Q2：這個語料庫如何確定文檔的創(chuàng)建時間？

A：研究團(tuán)隊使用網(wǎng)絡(luò)爬蟲的時間戳作為文檔年代判斷依據(jù)。雖然這種方法不能確定確切的創(chuàng)建時間，但能確保文檔內(nèi)容不會晚于爬取時間。就像考古學(xué)的地層分析一樣，如果文檔在2015年被爬取，那么內(nèi)容創(chuàng)建時間肯定不會晚于2015年。這為大規(guī)模多語言歷史研究提供了可行的時間標(biāo)記方案。

Q3：普通研究者如何使用DHPLT進(jìn)行語義變化研究？

A：DHPLT提供了完整的數(shù)據(jù)和工具包。研究者可以直接下載預(yù)處理的文本數(shù)據(jù)和預(yù)計算的詞向量、上下文嵌入等語義表示。每種語言還包含約18600個精選目標(biāo)詞匯及其多種語義表示。所有資源在CC0許可下免費開放，研究者可以立即開始分析而無需大量預(yù)處理工作。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.