国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI翻譯正在“毒害”維基百科,將弱勢(shì)語言推向滅絕

0
分享至


(來源:MIT TR)

四年前,當(dāng) Kenneth Wehr 開始接管格陵蘭語維基百科時(shí),他的第一項(xiàng)舉措是刪掉幾乎所有內(nèi)容。他認(rèn)為,這是它唯一的生存機(jī)會(huì)。

現(xiàn)年 26 歲的 Wehr 并非來自格陵蘭——他在德國長大,但在十幾歲時(shí)訪問過這座作為丹麥自治領(lǐng)的島嶼后,便對(duì)它深深著迷。他曾花費(fèi)數(shù)年時(shí)間,用自己的母語撰寫關(guān)于各種冷門主題的維基百科條目。

為了格陵蘭語,他甚至最終搬到哥本哈根專門學(xué)習(xí)。這門語言的使用者約有 57,000 人,主要是因紐特原住民,他們散布在北極圈內(nèi)幾十個(gè)偏遠(yuǎn)的村莊里。

格陵蘭語維基百科大約在 2003 年,即英文網(wǎng)站推出幾年后上線。在 Wehr 近 20 年后接手時(shí),已有數(shù)百名維基百科貢獻(xiàn)者參與其中,共同撰寫了約 1,500 篇文章,總字?jǐn)?shù)超過數(shù)萬。這似乎有力地證明了眾包模式的成功,正是這種模式使維基百科成為在線信息的首選來源,表明它即便在最不可能的角落也能生根發(fā)芽。

然而,問題只有一個(gè):格陵蘭語維基百科只是一個(gè)幻象。

幾乎每一篇文章都出自那些根本不會(huì)說這門語言的人之手。如今在丹麥教授格陵蘭語的 Wehr 推測(cè),或許只有一兩位格陵蘭人曾經(jīng)貢獻(xiàn)過內(nèi)容。但更讓他憂心的是另一件事:他注意到,隨著時(shí)間的推移,越來越多由機(jī)器翻譯生成的文章被直接復(fù)制粘貼到維基百科上。這些文章充斥著低級(jí)錯(cuò)誤——從語法失誤到毫無意義的詞匯,再到更嚴(yán)重的失實(shí)信息,例如一個(gè)詞條宣稱加拿大只有 41 名居民。其他頁面有時(shí)甚至包含一串隨機(jī)字母,這是機(jī)器在找不到合適的格陵蘭語詞匯時(shí)隨意拼湊的結(jié)果。

“對(duì)于那些發(fā)布者來說,這些內(nèi)容或許看起來像是格陵蘭語,但他們自己根本無從判斷,” Wehr 抱怨道。

“這些句子要么完全不通,要么有明顯錯(cuò)誤,”他補(bǔ)充說。“AI 翻譯在處理格陵蘭語方面表現(xiàn)得非常糟糕。”

Wehr 所描述的困境并非格陵蘭語版本所獨(dú)有。

維基百科是繼《圣經(jīng)》之后最宏大的多語言項(xiàng)目:它擁有超過 340 種語言版本,另有 400 種更小眾的語言版本正在開發(fā)和測(cè)試中。隨著 AI 技術(shù)的普及,許多這類小型語言版本已被自動(dòng)翻譯的內(nèi)容所淹沒。例如,據(jù)《麻省理工科技評(píng)論》估計(jì),在四個(gè)非洲語言的維基百科版本中,有 40% 到 60% 的文章是未經(jīng)校對(duì)的機(jī)器翻譯內(nèi)容。而在對(duì)因紐特語(一種與格陵蘭語相近、在加拿大使用的原住民語言)的維基百科版本進(jìn)行審查后,《麻省理工科技評(píng)論》估計(jì),超過三分之二包含多個(gè)句子的頁面都部分采用了這種方式創(chuàng)建。

這正開始引發(fā)一個(gè)棘手的問題。從谷歌翻譯到 ChatGPT,AI 系統(tǒng)通過抓取互聯(lián)網(wǎng)上的海量文本來學(xué)習(xí)“說”一門新語言。對(duì)于那些使用者較少的語言來說,維基百科有時(shí)是其最大的在線語言數(shù)據(jù)庫。因此,這些頁面上的任何語法或其他錯(cuò)誤,都可能污染 AI 賴以學(xué)習(xí)的“水源”。這會(huì)導(dǎo)致模型在翻譯這些語言時(shí)尤其容易出錯(cuò),從而形成一種語言學(xué)的惡性循環(huán):人們繼續(xù)使用這些工具添加更多劣質(zhì)翻譯的維基百科頁面,而 AI 模型則繼續(xù)從這些劣質(zhì)頁面中學(xué)習(xí)。這是一個(gè)復(fù)雜的問題,但可以歸結(jié)為一個(gè)簡(jiǎn)單的概念:垃圾進(jìn),垃圾出 (Garbage in, garbage out)。

“這些模型是建立在原始數(shù)據(jù)之上的,” Kevin Scannell 說道。他曾是圣路易斯大學(xué)的計(jì)算機(jī)科學(xué)教授,現(xiàn)在專注于為瀕危語言開發(fā)軟件。“它們會(huì)試圖從零開始學(xué)習(xí)一門語言的一切。沒有其他輸入,沒有語法書,沒有詞典,輸入的只有文本?!?/p>

關(guān)于這個(gè)問題的嚴(yán)重程度,目前還沒有確切的數(shù)據(jù),部分原因是許多 AI 訓(xùn)練數(shù)據(jù)是保密的,而且該領(lǐng)域仍在快速發(fā)展。但早在 2020 年,據(jù)估計(jì),在用于翻譯非洲數(shù)百萬人口所使用的語言(包括馬達(dá)加斯加語、約魯巴語和紹納語)的 AI 模型中,維基百科提供了超過一半的訓(xùn)練數(shù)據(jù)。2022 年,一個(gè)德國研究團(tuán)隊(duì)在調(diào)查可通過網(wǎng)絡(luò)抓取獲得的數(shù)據(jù)時(shí)發(fā)現(xiàn),對(duì)于 27 種資源匱乏的語言,維基百科是唯一易于獲取的在線語言數(shù)據(jù)來源。

在維基百科內(nèi)容質(zhì)量低劣的情況下,這可能會(huì)產(chǎn)生嚴(yán)重后果——它可能會(huì)將地球上最脆弱的語言推向懸崖,因?yàn)楹蟠鷮㈤_始對(duì)它們失去信心。

“維基百科的狀況將反映在這些語言的 AI 模型中,” 挪威特羅姆瑟大學(xué)的計(jì)算語言學(xué)家 Trond Trosterud 說。多年來,他一直在就劣質(zhì)維基百科版本可能帶來的危害發(fā)出警告?!拔液茈y想象這會(huì)沒有后果。當(dāng)然,維基百科的地位越主導(dǎo),情況就會(huì)越糟?!?/p>



負(fù)責(zé)任地使用

自誕生之初,自動(dòng)化就已融入維基百科。機(jī)器程序維持著平臺(tái)的運(yùn)作:它們修復(fù)損壞的鏈接、修正格式錯(cuò)誤,甚至糾正拼寫。還有一支機(jī)器人大軍,它們通過將河流、城市或動(dòng)物的名稱填入固定句式,來生成簡(jiǎn)短的條目。總體而言,它們使平臺(tái)變得更好。

但AI 是另一回事。任何人只需幾次點(diǎn)擊,就能用它造成巨大的破壞。

相比許多其他網(wǎng)站,維基百科在應(yīng)對(duì) AI 時(shí)代的到來方面做得更好。它沒有像社交媒體那樣被 AI 機(jī)器人或虛假信息所淹沒,并在很大程度上保留了早期互聯(lián)網(wǎng)時(shí)代的純粹性。維基百科開放、免費(fèi),任何人都可以使用、編輯和引用,它由它所服務(wù)的社群來運(yùn)營,公開透明且易于使用。但社群驅(qū)動(dòng)的平臺(tái),其生死存亡取決于社群的規(guī)模。英語維基百科取得了巨大成功,而格陵蘭語版本則走向衰落。

“我們需要優(yōu)秀的維基百科貢獻(xiàn)者。這一點(diǎn)人們習(xí)以為常,但這并非理所當(dāng)然,” Amir Aharoni 說道,他是維基百科語言委員會(huì)的志愿者成員,該委員會(huì)負(fù)責(zé)監(jiān)督語言版本的開設(shè)與關(guān)閉。“如果你負(fù)責(zé)任地使用機(jī)器翻譯,它可以是高效且有用的。不幸的是,你不能指望所有人都這么做。”

Trosterud 研究了小型維基百科版本用戶的行為,他表示,AI 賦能了一個(gè)他稱之為“維基百科劫持者”的子群體。這些用戶的范圍很廣——從天真的青少年創(chuàng)建關(guān)于自己家鄉(xiāng)或喜愛的 YouTuber 的頁面,到善意的維基百科人,他們認(rèn)為通過創(chuàng)建少數(shù)族裔語言的文章是在以某種方式“幫助”這些社群。

“如今他們的問題在于,他們手握谷歌翻譯這個(gè)武器,” Trosterud 說。他補(bǔ)充道,這讓他們能夠炮制出比以往任何時(shí)候都更長、更以假亂真的內(nèi)容:“以前,他們的武器只有詞典?!?/p>

這實(shí)際上將破壞行為工業(yè)化了——受影響最嚴(yán)重的是那些脆弱的語言,因?yàn)?AI 對(duì)它們的翻譯通常最不可靠。原因有很多,但一個(gè)重要因素是在線可用的源文本數(shù)量相對(duì)較少。有時(shí),模型難以識(shí)別一種語言,因?yàn)樗c其他語言相似;有時(shí)則是因?yàn)槟承┱Z言,包括格陵蘭語和大多數(shù)美洲原住民語言,其結(jié)構(gòu)特點(diǎn)使其不適用于大多數(shù)機(jī)器翻譯系統(tǒng)的工作方式。(Wehr 指出,格陵蘭語是一種粘著語,即通過在詞根上附加前綴和后綴來構(gòu)詞。因此,許多詞匯具有極強(qiáng)的語境特異性,能夠表達(dá)在其他語言中需要用一整個(gè)句子才能說明的復(fù)雜概念。)

谷歌在三年前大規(guī)模擴(kuò)展其翻譯服務(wù)前發(fā)布的一項(xiàng)研究發(fā)現(xiàn),資源匱乏型語言的翻譯系統(tǒng)質(zhì)量普遍低于資源充足型語言。研究人員發(fā)現(xiàn),他們的模型常常會(huì)錯(cuò)誤翻譯跨語言的基本名詞,包括動(dòng)物和顏色的名稱。(谷歌在給《麻省理工科技評(píng)論》的一份聲明中寫道,它“致力于為其支持的所有 249 種語言達(dá)到高質(zhì)量標(biāo)準(zhǔn)”,并“通過嚴(yán)格測(cè)試和改進(jìn)其系統(tǒng),特別是針對(duì)那些網(wǎng)絡(luò)公開文本資源有限的語言”。)

維基百科自身提供了一個(gè)名為“內(nèi)容翻譯”(Content Translate) 的內(nèi)置編輯工具,允許用戶將文章從一種語言自動(dòng)翻譯到另一種語言——其初衷是通過保留原文的參考文獻(xiàn)和復(fù)雜的格式來節(jié)省時(shí)間。但它依賴于外部機(jī)器翻譯系統(tǒng),因此也深受其他機(jī)器翻譯工具的弱點(diǎn)所困擾——維基媒體基金會(huì)表示,這是一個(gè)難以解決的問題。是否允許使用該工具由每個(gè)語言版本的社群自行決定,一些社群已決定禁用。值得注意的是,英語維基百科已基本禁止使用該工具,聲稱約 95% 使用“內(nèi)容翻譯”創(chuàng)建的文章未達(dá)到可接受標(biāo)準(zhǔn),需要大量額外修改。不過,至少可以輕易判斷該程序是否被使用過,因?yàn)樗鼤?huì)在維基百科的后端添加一個(gè)標(biāo)簽。

其他的 AI 程序則更難監(jiān)控。盡管如此,我采訪過的許多維基百科編輯都表示,一旦他們的語言被添加到主流在線翻譯工具中,他們就會(huì)注意到質(zhì)量低劣、很可能是機(jī)器翻譯的頁面數(shù)量相應(yīng)激增。

一些使用 AI 翻譯內(nèi)容的維基百科貢獻(xiàn)者偶爾會(huì)承認(rèn)他們并不會(huì)說目標(biāo)語言。他們可能認(rèn)為自己是在為小語種社群提供可供修改的“草稿”,這本質(zhì)上是在效仿那些在更活躍的維基百科版本中行之有效的模式。

然而,一旦充滿錯(cuò)誤的頁面在小語種中被創(chuàng)建出來,通常是不會(huì)有一支龐大的、懂這門語言的專家隊(duì)伍來隨時(shí)準(zhǔn)備改進(jìn)它們的。這些版本的讀者很少,有時(shí)甚至沒有一個(gè)固定的編輯。

20 多歲的加拿大教師 Yuet Man Lee 表示,他曾使用谷歌翻譯和 ChatGPT 的混合工具,將他為英語維基百科寫的幾篇文章翻譯成因紐特語,他覺得這能為一個(gè)小社群做出貢獻(xiàn)是件好事。他說,他在其中一篇文章中加了備注,說明這只是一個(gè)粗略的翻譯?!拔耶?dāng)時(shí)沒想過會(huì)有人注意到這篇文章,”他解釋說?!叭绻阍谀切┬”姷木S基百科上發(fā)布內(nèi)容——大多數(shù)時(shí)候根本沒人會(huì)看?!?/p>

但與此同時(shí),他也表示,他仍然覺得“也許有人會(huì)看到并修正它”——他補(bǔ)充說,他曾想過 AI 系統(tǒng)生成的因紐特語翻譯在語法上是否正確。自他創(chuàng)建那篇文章以來,沒有任何人動(dòng)過它。

在溫哥華教授社會(huì)科學(xué)的 Lee 十年前開始在英語維基百科上編輯條目。他說,熟悉更活躍的維基百科的用戶可能會(huì)陷入一種他稱之為“大維基百科式傲慢”的心態(tài):當(dāng)他們嘗試為小版本做貢獻(xiàn)時(shí),他們會(huì)想當(dāng)然地認(rèn)為別人會(huì)來修正他們的錯(cuò)誤。有時(shí)這確實(shí)行得通。Lee 說,他之前曾為韃靼語(一種主要在俄羅斯由數(shù)百萬人使用的語言)維基百科貢獻(xiàn)過幾篇文章,其中至少有一篇后來被修正了。但相比之下,因紐特語維基百科則是一片“貧瘠的荒原”。

他強(qiáng)調(diào)自己的初衷是好的:他想為一個(gè)加拿大原住民語言的維基百科增加更多文章。“我現(xiàn)在覺得這可能是一個(gè)壞主意。我沒有考慮到我可能在促成一個(gè)遞歸循環(huán),”他說?!拔抑皇浅鲇诤闷婧秃猛?,想把內(nèi)容發(fā)布出去,而沒有認(rèn)真思考后果?!?/p>



“徹底,完全沒有未來”

維基百科是一個(gè)由理想主義驅(qū)動(dòng)的項(xiàng)目。編輯工作可能吃力不討好,需要花費(fèi)數(shù)周時(shí)間與匿名的、身份不明的人爭(zhēng)論,但奉獻(xiàn)者們投入了大量無償勞動(dòng),因?yàn)樗麄冎铝τ谝豁?xiàng)更崇高的事業(yè)。正是這種奉獻(xiàn)精神,驅(qū)動(dòng)著我采訪過的許多小語種編輯。他們都擔(dān)心,如果垃圾內(nèi)容繼續(xù)出現(xiàn)在他們的頁面上,后果將不堪設(shè)想。

26 歲的農(nóng)業(yè)規(guī)劃師 Abdulkadir Abdulkadir 在尼日利亞北部一條繁忙的公路邊,通過一通信號(hào)不穩(wěn)的電話與我交談。他說他每天花三個(gè)小時(shí),用他的母語富爾富爾德語(一種主要由薩赫勒地區(qū)的牧民和農(nóng)民使用的語言)處理維基百科條目?!暗ぷ髁刻罅耍彼f。

Abdulkadir 認(rèn)為,富爾富爾德語維基百科迫切需要正常運(yùn)作。他一直建議將其作為偏遠(yuǎn)村莊農(nóng)民為數(shù)不多的在線資源之一,為他們提供關(guān)于哪些種子或作物最適合他們田地的信息,并且是用他們能理解的語言?!叭绻憬o他們一篇機(jī)器翻譯的文章,” Abdulkadir 告訴我,“那很可能會(huì)‘輕易地傷害他們’,因?yàn)樾畔⒑芸赡軟]有被正確翻譯?!?/p>

例如,谷歌翻譯顯示富爾富爾德語中“一月”的意思是“六月”,而 ChatGPT 則說是“八月”或“九月”。這些程序還暗示,富爾富爾德語中“收獲”的意思是“發(fā)燒”或“安康”等其他可能性。

Abdulkadir 說,他最近被迫修正了一篇關(guān)于豇豆的文章,這是一種在非洲大部分地區(qū)至關(guān)重要的經(jīng)濟(jì)作物,因?yàn)樗l(fā)現(xiàn)那篇文章幾乎無法閱讀。

Abdulkadir 表示,如果有人想在富爾富爾德語維基百科上創(chuàng)建頁面,他們應(yīng)該手動(dòng)翻譯。否則,“任何讀你文章的人都無法獲得最基本的知識(shí),”他告誡這些維基百科貢獻(xiàn)者。盡管如此,他估計(jì)仍有大約 60% 的文章是未經(jīng)校對(duì)的機(jī)器翻譯。Abdulkadir 告訴我,除非 AI 系統(tǒng)的學(xué)習(xí)和部署方式發(fā)生重大改變,否則富爾富爾德語的前景堪憂。“老實(shí)說,情況會(huì)很糟糕,”他說。“徹底,完全沒有未來。”

在尼日利亞的另一端,Lucy Iwuala 為伊博語(一種在該國東南部有數(shù)百萬人使用的語言)維基百科做貢獻(xiàn)。“傷害已經(jīng)造成了,”她告訴我,同時(shí)打開了最近創(chuàng)建的兩篇文章。兩篇都是通過維基百科的“內(nèi)容翻譯”工具自動(dòng)翻譯的,里面錯(cuò)誤百出,她說讀下去會(huì)讓她頭疼?!坝行┬g(shù)語甚至根本沒被翻譯,還是英語,”她指出。她認(rèn)出創(chuàng)建這些頁面的用戶名是一個(gè)慣犯。“這個(gè)人甚至用了伊博語里不存在的字母,”她說。

三年前,出于對(duì)伊博語正被英語取代的擔(dān)憂,Iwuala 開始定期為維基百科做貢獻(xiàn)。這種擔(dān)憂在許多活躍于小語種版本的人中很常見?!斑@是我的文化,這是我的身份,”她告訴我?!斑@才是核心:確保你不會(huì)被抹去?!?/p>

如今作為一名英語和伊博語之間的專業(yè)翻譯,Iwuala 說,造成最大破壞的用戶是那些缺乏經(jīng)驗(yàn)的人,他們將 AI 翻譯視為快速提升伊博語維基百科影響力的方式。她發(fā)現(xiàn)自己經(jīng)常要在她組織的線上編輯松,或通過電子郵件向各種出錯(cuò)的編輯解釋,結(jié)果可能恰恰相反,這會(huì)趕走用戶:“你會(huì)感到沮喪,然后不想再訪問這個(gè)地方。你只會(huì)放棄它,然后回到英語維基百科?!?/p>

夏威夷大學(xué)的夏威夷語助理教授 Noah Ha?alilio Solomon 也表達(dá)了同樣的擔(dān)憂。他報(bào)告說,夏威夷語維基百科上某些頁面約有 35% 的詞語是無法理解的?!叭绻@就是將要存在于網(wǎng)絡(luò)上的夏威夷語,那它帶來的壞處將遠(yuǎn)大于好處,”他說。

幾十年前曾一度瀕臨滅絕的夏威夷語,在原住民活動(dòng)家和學(xué)者的努力下,正在經(jīng)歷一場(chǎng)復(fù)興。在維基百科這樣一個(gè)廣泛使用的平臺(tái)上看到如此拙劣的夏威夷語,令 Ha?alilio Solomon 感到不安。

“這很痛苦,因?yàn)樗屛覀兿肫鹞覀兊奈幕驼Z言曾無數(shù)次被盜用,”他說?!拔覀?yōu)榱苏Z言復(fù)興,一直在艱難地向上攀登。這絕非易事,而這種現(xiàn)象會(huì)增加額外的障礙。人們會(huì)認(rèn)為這就是夏威夷語的準(zhǔn)確呈現(xiàn)?!?/p>

所有這些維基百科錯(cuò)誤所帶來的后果可能很快就會(huì)顯現(xiàn)。毫無疑問已經(jīng)吸收了這些頁面作為訓(xùn)練數(shù)據(jù)的 AI 翻譯器,現(xiàn)在正被用于制作充斥錯(cuò)誤的 AI 生成書籍,這些書籍面向各種語言的學(xué)習(xí)者,如因紐特語和克里語(加拿大原住民語言),以及曼島語(馬恩島上的一種小型凱爾特語言)。其中許多書籍已在亞馬遜上架銷售?!澳峭耆呛f八道,” 蒙特利爾魁北克大學(xué)的語言學(xué)家 Richard Compton 在評(píng)價(jià)一本他審閱過的、號(hào)稱是因紐特語入門手冊(cè)的出版物時(shí)說。

AI 非但沒有讓少數(shù)族裔語言變得更容易接觸,反而正在為這些語言的學(xué)生和使用者創(chuàng)造一個(gè)不斷擴(kuò)大的雷區(qū)。“這簡(jiǎn)直是打臉,” Compton 說。他擔(dān)心,在加拿大那些為了將傳統(tǒng)傳承下去而與歧視進(jìn)行了艱苦斗爭(zhēng)的社群中,希望學(xué)習(xí)語言的年輕一代可能會(huì)求助于像 ChatGPT 這樣的在線工具或亞馬遜上的短語手冊(cè),結(jié)果只會(huì)讓事情變得更糟?!斑@是欺詐,”他說。



與時(shí)間賽跑

根據(jù)聯(lián)合國教科文組織 (UNESCO) 的數(shù)據(jù),每兩周就有一種語言被宣布滅絕。但是,運(yùn)營維基百科的維基媒體基金會(huì)是否有義務(wù)保護(hù)其平臺(tái)上的語言,這是一個(gè)懸而未決的問題。當(dāng)我與該基金會(huì)的高級(jí)總監(jiān) Runa Bhattacharjee 交談時(shí),她說,決定什么樣的內(nèi)容應(yīng)該存在于他們的維基百科上,取決于各個(gè)社群自己?!白罱K,責(zé)任確實(shí)在于社群,他們需要確保沒有破壞行為或不希望的活動(dòng),無論是通過機(jī)器翻譯還是其他方式,”她說。Bhattacharjee 補(bǔ)充說,通常只有在收到具體投訴后,才會(huì)考慮關(guān)閉一個(gè)版本。

但如果沒有活躍的社群,一個(gè)版本又如何能被修復(fù),甚至如何能有人提出投訴呢?

Bhattacharjee 解釋說,維基媒體基金會(huì)在這種情況下扮演的角色是維護(hù)維基百科平臺(tái),以防有人前來復(fù)興它:“我們提供的是一個(gè)讓他們成長和發(fā)展的空間。這就是我們的定位?!?/p>

伊納里薩米語,一種僅在芬蘭北部一個(gè)偏遠(yuǎn)社群使用的語言,是人們?nèi)绾紊朴镁S基百科的典范。四十年前,這門語言正走向滅絕;當(dāng)時(shí)只有四個(gè)孩子會(huì)說。他們的父母創(chuàng)建了伊納里薩米語言協(xié)會(huì),作為挽救語言的最后努力。這些努力奏效了。如今,已有數(shù)百名使用者,多所學(xué)校使用伊納里薩米語作為教學(xué)媒介,維基百科上更有 6,400 篇文章,每一篇都由流利的使用者進(jìn)行過審校。

這個(gè)成功案例凸顯了維基百科確實(shí)可以為小而堅(jiān)定的社群提供一個(gè)獨(dú)特的工具,以促進(jìn)他們語言的傳承?!拔覀儾魂P(guān)心數(shù)量,我們關(guān)心質(zhì)量,” 伊納里-薩米語言協(xié)會(huì)的成員 Fabrizio Brecciaroli 說?!拔覀冋?jì)劃將維基百科用作書面語言的資料庫。我們需要為年輕一代提供可以使用的工具。讓他們能夠以數(shù)字化的方式使用伊納里薩米語,這很重要?!?/p>

這一舉措非常成功,以至于維基百科已被整合到伊納里薩米語學(xué)校的課程中,Brecciaroli 補(bǔ)充道。他會(huì)接到老師打來的電話,請(qǐng)求他撰寫從龍卷風(fēng)到薩米民間傳說等各種主題的簡(jiǎn)單頁面。維基百科甚至提供了一種將新詞引入伊納里薩米語的方式?!拔覀兛偸窃趧?chuàng)造新詞,” Brecciaroli 說?!澳贻p人需要用它來談?wù)擉w育、政治和電子游戲。如果他們不確定怎么說,現(xiàn)在他們會(huì)去查維基百科?!?/p>

維基百科是一項(xiàng)宏偉的智力實(shí)驗(yàn)。伊納里薩米語的例子表明,只要給予最大程度的關(guān)注,它在小語種中也能奏效。“最終目標(biāo)是確保伊納里薩米語能夠存活下去,” Brecciaroli 說?!耙良{里薩米語沒有谷歌翻譯,這或許是件好事?!?/p>

這或許是真的——盡管像 ChatGPT 這樣的大型語言模型可以將短語翻譯成傳統(tǒng)機(jī)器翻譯工具不支持的語言。Brecciaroli 告訴我,ChatGPT 在伊納里薩米語方面的表現(xiàn)并不好,但其質(zhì)量因你提出的要求而異;如果你用該語言提問,答案會(huì)充滿芬蘭語詞匯甚至它自己發(fā)明的詞。但如果你用英語、芬蘭語或意大利語提問,然后要求它用伊納里薩米語回答,它的表現(xiàn)會(huì)更好。

有鑒于此,盡可能多地創(chuàng)作高質(zhì)量的在線內(nèi)容,成為了一場(chǎng)與時(shí)間的賽跑。“ChatGPT 只需要大量的詞匯,” Brecciaroli 說?!叭绻覀儾粩噍斎牒玫牟牧希敲催t早我們會(huì)得到好的輸出。這就是希望。” 這個(gè)想法得到了多位語言學(xué)家的支持——即有可能終結(jié)“垃圾進(jìn),垃圾出”的循環(huán)。(OpenAI 沒有回應(yīng)置評(píng)請(qǐng)求。)

盡管如此,整體問題很可能會(huì)持續(xù)惡化,因?yàn)樵S多語言不像伊納里薩米語那樣幸運(yùn)——它們的 AI 翻譯器很可能會(huì)在越來越多 AI 垃圾的基礎(chǔ)上進(jìn)行訓(xùn)練。不幸的是,Wehr 對(duì)他心愛的格陵蘭語的未來似乎遠(yuǎn)沒有那么樂觀。

自從刪除了格陵蘭語維基百科的大部分內(nèi)容后,他花了好幾年時(shí)間試圖招募使用者來幫助他復(fù)興它。他登上了格陵蘭的媒體,也在社交媒體上發(fā)出了呼吁。但他沒有得到太多回應(yīng),他說這令人心灰意冷。

“格陵蘭沒人對(duì)此感興趣,也沒人愿意貢獻(xiàn),”他說?!斑@完全沒有意義,所以它應(yīng)該被關(guān)閉?!?/p>

去年年底,他開始申請(qǐng),要求維基百科語言委員會(huì)關(guān)閉格陵蘭語版本。在數(shù)十名維基百科官僚之間展開了數(shù)月的激烈辯論;一些人似乎對(duì)一個(gè)表面上看起來健康的版本竟會(huì)陷入如此多的問題感到驚訝。

然后,本月早些時(shí)候,Wehr 的提議被接受了:格陵蘭語維基百科將被關(guān)閉,所有剩余的文章將被移至維基百科孵化器,那里是新語言版本進(jìn)行測(cè)試和構(gòu)建的地方。語言委員會(huì)引述的原因之一是 AI 工具的使用,這些工具“頻繁產(chǎn)生可能歪曲該語言的無意義內(nèi)容”。

但一切可能已經(jīng)太遲了——格陵蘭語的錯(cuò)誤似乎已經(jīng)固化在機(jī)器翻譯器中。如果你讓谷歌翻譯或 ChatGPT 做一件像用標(biāo)準(zhǔn)的格陵蘭語數(shù)到 10 這樣簡(jiǎn)單的事,兩個(gè)程序都無法做到。

原文鏈接:https://www.technologyreview.com/2025/09/25/1124005/ai-wikipedia-vulnerable-languages-doom-spiral/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
火箭對(duì)陣國王!主隊(duì)阿門缺陣+4位老將不打,客隊(duì)陣容齊整皆可出戰(zhàn)

火箭對(duì)陣國王!主隊(duì)阿門缺陣+4位老將不打,客隊(duì)陣容齊整皆可出戰(zhàn)

熊哥愛籃球
2026-02-25 12:25:36
怪發(fā)型,唇穿孔,冬奧花滑華裔冠軍叛逆征服了全世界!

怪發(fā)型,唇穿孔,冬奧花滑華裔冠軍叛逆征服了全世界!

ChicMyGeek
2026-02-24 17:10:12
那爾那茜報(bào)復(fù)陳麗君!?

那爾那茜報(bào)復(fù)陳麗君???

八卦瘋叔
2026-02-23 10:54:55
誰也別吹牛,100萬現(xiàn)金攥在手里,你就已經(jīng)跑贏了全國99%的家庭

誰也別吹牛,100萬現(xiàn)金攥在手里,你就已經(jīng)跑贏了全國99%的家庭

白淺娛樂聊
2026-02-15 07:00:34
晚飯七分飽被推翻了?醫(yī)生調(diào)查:過了56歲,吃飯盡量要做到這5點(diǎn)

晚飯七分飽被推翻了?醫(yī)生調(diào)查:過了56歲,吃飯盡量要做到這5點(diǎn)

蜉蝣說
2026-02-03 15:00:19
“余生好好走”,知名央視主持人王小丫,病床上的留言字字催淚

“余生好好走”,知名央視主持人王小丫,病床上的留言字字催淚

風(fēng)月得自難尋
2026-02-24 23:06:21
徹底撕破臉!谷愛凌坦言:代表中國參賽后,在美遭毆打、宿舍被闖

徹底撕破臉!谷愛凌坦言:代表中國參賽后,在美遭毆打、宿舍被闖

科學(xué)發(fā)掘
2026-02-25 02:38:37
124-121!森林狼3連殺開拓者,克林根11+16+5,楊瀚森缺席虧大了

124-121!森林狼3連殺開拓者,克林根11+16+5,楊瀚森缺席虧大了

小火箭愛體育
2026-02-25 13:49:39
羅晉:我這輩子最正確的決定,就是錯(cuò)過苗圃后,娶了比我火的唐嫣

羅晉:我這輩子最正確的決定,就是錯(cuò)過苗圃后,娶了比我火的唐嫣

春日在捕月
2026-02-25 02:52:45
回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

就一點(diǎn)
2025-11-22 10:36:39
特朗普宣布訪華,不到24小時(shí),高市緊急改口:中日還是“好鄰居”

特朗普宣布訪華,不到24小時(shí),高市緊急改口:中日還是“好鄰居”

東極妙嚴(yán)
2026-02-24 15:29:10
同時(shí)有金礦、銀礦、銅礦的中國企業(yè),只有6家!到底有多厲害?

同時(shí)有金礦、銀礦、銅礦的中國企業(yè),只有6家!到底有多厲害?

花小貓的美食日常
2026-02-23 22:19:06
卡拉格:這支國米似乎和其他意大利球隊(duì)一起下滑了

卡拉格:這支國米似乎和其他意大利球隊(duì)一起下滑了

懂球帝
2026-02-25 17:37:14
可樂有“濃縮版”了?三得利的日本首款,讓你在家自制百事

可樂有“濃縮版”了?三得利的日本首款,讓你在家自制百事

FBIF食品飲料創(chuàng)新
2026-02-25 15:38:52
補(bǔ)貼一減,電車在中端車市場(chǎng)歸零,燃油車大獲全勝!外資車贏麻了

補(bǔ)貼一減,電車在中端車市場(chǎng)歸零,燃油車大獲全勝!外資車贏麻了

柏銘銳談
2026-02-24 08:42:53
嫁入豪門12年,如今早已兒女雙全,和丈夫定居美國,享受闊太生活

嫁入豪門12年,如今早已兒女雙全,和丈夫定居美國,享受闊太生活

林輕吟
2026-02-25 17:18:52
羊肉被關(guān)注!研究發(fā)現(xiàn):腦梗患者吃羊肉,用不了多久,或有3益處

羊肉被關(guān)注!研究發(fā)現(xiàn):腦?;颊叱匝蛉猓貌涣硕嗑?,或有3益處

阿兵科普
2026-02-07 21:11:54
若不出意外,2026年上半年開始,一般家庭都可能面臨“四大難題”

若不出意外,2026年上半年開始,一般家庭都可能面臨“四大難題”

貓叔東山再起
2026-02-23 10:40:04
王健林再為萬達(dá)續(xù)命25億元,他比許家印爺們!

王健林再為萬達(dá)續(xù)命25億元,他比許家印爺們!

毒sir財(cái)經(jīng)
2026-02-24 22:34:10
海外上映口碑爆棚,《鏢人》讓外媒直接用了“wuxia”這個(gè)詞

海外上映口碑爆棚,《鏢人》讓外媒直接用了“wuxia”這個(gè)詞

揚(yáng)子晚報(bào)
2026-02-23 22:10:35
2026-02-25 19:04:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16320文章數(shù) 514653關(guān)注度
往期回顧 全部

科技要聞

“機(jī)器人只跳舞,沒什么用”

頭條要聞

美官員稱6個(gè)月內(nèi)三國政府或被親美政權(quán)取代 中方回應(yīng)

頭條要聞

美官員稱6個(gè)月內(nèi)三國政府或被親美政權(quán)取代 中方回應(yīng)

體育要聞

曝雄鹿計(jì)劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

撒貝寧到沈陽跑親戚 老婆李白模特身材

財(cái)經(jīng)要聞

上海樓市放大招,地產(chǎn)預(yù)期別太大

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

健康
手機(jī)
房產(chǎn)
教育
軍事航空

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

手機(jī)要聞

又有兩家品牌退出小折疊賽道 網(wǎng)友調(diào)侃:美麗的小廢物

房產(chǎn)要聞

海南樓市春節(jié)熱銷地圖曝光!三亞、陵水又殺瘋了!

教育要聞

高考生家長速碼!這幾個(gè)冷門專業(yè)已翻紅,選對(duì)不后悔

軍事要聞

俄烏沖突四周年:和平談判希望渺茫

無障礙瀏覽 進(jìn)入關(guān)懷版