網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

韓國(guó)高麗大學(xué)研究團(tuán)隊(duì)揭開多語(yǔ)言搜索引擎的"英語(yǔ)偏心"秘密

2026-04-16 20:28:43　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由韓國(guó)高麗大學(xué)計(jì)算機(jī)科學(xué)與工程系主導(dǎo)的研究，于2026年發(fā)表在國(guó)際機(jī)器學(xué)習(xí)頂級(jí)會(huì)議ICLR 2026（International Conference on Learning Representations）上，論文編號(hào)為arXiv:2604.05684。研究聚焦于跨語(yǔ)言信息檢索領(lǐng)域一個(gè)長(zhǎng)期被忽視卻至關(guān)重要的問(wèn)題：當(dāng)搜索引擎面對(duì)多語(yǔ)言混合文檔庫(kù)時(shí)，為什么它總是莫名其妙地"偏愛"英文內(nèi)容？

假設(shè)你是一位泰語(yǔ)母語(yǔ)者，想在網(wǎng)上搜索關(guān)于"氣候變化"的文章。文檔庫(kù)里既有一篇非常切題的泰語(yǔ)文章，也有大量不那么相關(guān)的英語(yǔ)文章。理論上，一個(gè)優(yōu)秀的多語(yǔ)言搜索引擎應(yīng)該把那篇泰語(yǔ)文章排在最前面。然而現(xiàn)實(shí)卻往往相反——搜索引擎會(huì)把那些內(nèi)容并不對(duì)口的英語(yǔ)文章推到更靠前的位置，讓真正有用的泰語(yǔ)文章石沉大海。這就是該研究團(tuán)隊(duì)發(fā)現(xiàn)并著力解決的核心問(wèn)題。

研究團(tuán)隊(duì)不僅精確地描述了這個(gè)問(wèn)題的存在，還設(shè)計(jì)了一套新的測(cè)量工具來(lái)量化這種偏差，并提出了一種僅需2800個(gè)訓(xùn)練樣本就能顯著改善現(xiàn)狀的訓(xùn)練方法。這個(gè)數(shù)字相當(dāng)精妙——在動(dòng)輒需要百萬(wàn)級(jí)數(shù)據(jù)的深度學(xué)習(xí)領(lǐng)域，用不到三千條數(shù)據(jù)就能讓模型發(fā)生實(shí)質(zhì)性改變，頗有"四兩撥千斤"的意味。

一、搜索引擎的語(yǔ)言翻譯官是怎么工作的

要理解這項(xiàng)研究，首先得明白現(xiàn)代搜索引擎的核心機(jī)制。當(dāng)你輸入一個(gè)搜索詞，搜索引擎并不是逐字逐句去比對(duì)文檔里有沒有相同的詞，而是把你的問(wèn)題和每篇文檔分別"翻譯"成一串?dāng)?shù)字——專業(yè)上叫做"嵌入向量"（embedding）。這個(gè)數(shù)字串就像是文本內(nèi)容的數(shù)字指紋，意思越相近的兩段文字，它們的數(shù)字指紋在數(shù)學(xué)空間里就越接近。

這個(gè)把文字變成數(shù)字指紋的過(guò)程，是由經(jīng)過(guò)大規(guī)模訓(xùn)練的語(yǔ)言模型完成的。好的多語(yǔ)言模型，應(yīng)該能把不同語(yǔ)言中意思相同的句子轉(zhuǎn)化為非常相近的數(shù)字指紋。比如"蘋果是水果"的中文版本和英文版本"Apple is a fruit"，在理想的多語(yǔ)言模型中，兩者的數(shù)字指紋應(yīng)該幾乎一模一樣，就像是同一張臉在不同語(yǔ)言的鏡子里照出來(lái)的像。

然而研究團(tuán)隊(duì)發(fā)現(xiàn)，目前主流的多語(yǔ)言模型并沒有做到這一點(diǎn)。英文文本的數(shù)字指紋往往比其他語(yǔ)言的數(shù)字指紋"更有優(yōu)勢(shì)"——即便是與查詢內(nèi)容完全不相關(guān)的英文文檔，它的數(shù)字指紋也常常比內(nèi)容高度相關(guān)的非英文文檔更接近用戶的查詢內(nèi)容。這就好比一臺(tái)本該公平比較各國(guó)菜肴味道的機(jī)器，卻天生對(duì)西餐的味道更敏感，結(jié)果總是把西餐排在前面，哪怕用戶明明想找的是一碗正宗的東北豬肉燉粉條。

二、現(xiàn)有評(píng)測(cè)方式為何發(fā)現(xiàn)不了這個(gè)問(wèn)題

弄清楚問(wèn)題的存在之后，研究團(tuán)隊(duì)面臨的第二個(gè)挑戰(zhàn)是：為什么學(xué)術(shù)界長(zhǎng)期以來(lái)沒有發(fā)現(xiàn)這個(gè)嚴(yán)重的偏差？答案在于現(xiàn)有的評(píng)測(cè)方式本身存在盲點(diǎn)。

傳統(tǒng)的跨語(yǔ)言信息檢索評(píng)測(cè)，通常是這樣設(shè)計(jì)的：文檔庫(kù)里全是英文文章，用戶用另一種語(yǔ)言（比如中文）提問(wèn)，考察系統(tǒng)能不能把相關(guān)的英文文章找出來(lái)。在這種純英文文檔庫(kù)的設(shè)定下，系統(tǒng)對(duì)英語(yǔ)的天然偏好反而成了一種優(yōu)勢(shì)——因?yàn)樗泻蜻x文檔都是英文的，偏好英文不會(huì)造成任何問(wèn)題。

還有一種叫做多語(yǔ)言信息檢索的評(píng)測(cè)，文檔庫(kù)里包含三種以上的語(yǔ)言，任務(wù)是從這個(gè)混合庫(kù)里檢索相關(guān)內(nèi)容。但這種評(píng)測(cè)往往只關(guān)注"能不能找到"，而不深入分析"為什么找到了"或者"有沒有因?yàn)檎Z(yǔ)言偏見而錯(cuò)過(guò)了什么"。

研究團(tuán)隊(duì)意識(shí)到，要真正發(fā)現(xiàn)英語(yǔ)偏心問(wèn)題，需要一種特殊的實(shí)驗(yàn)設(shè)置：文檔庫(kù)里同時(shí)包含英文文檔和另一種語(yǔ)言的文檔，而且這些文檔是一一對(duì)應(yīng)的翻譯版本，意思完全相同。在這種設(shè)置下，如果用非英文語(yǔ)言提問(wèn)，一個(gè)真正公平的系統(tǒng)應(yīng)該同樣容易找到對(duì)應(yīng)的非英文文檔，就像一個(gè)真正公平的裁判應(yīng)該不管選手的國(guó)籍，只看表現(xiàn)一樣。

三、用一把新尺子來(lái)量清楚問(wèn)題有多嚴(yán)重

為了在這種新的實(shí)驗(yàn)設(shè)置下衡量系統(tǒng)表現(xiàn)，研究團(tuán)隊(duì)發(fā)明了一個(gè)叫做"Max@R"的新評(píng)測(cè)指標(biāo)。這個(gè)指標(biāo)的設(shè)計(jì)思路相當(dāng)直覺化：當(dāng)文檔庫(kù)里存在兩個(gè)意思相同、語(yǔ)言不同的正確答案時(shí)，系統(tǒng)必須把這兩個(gè)答案都找出來(lái)才算成功。Max@R記錄的，就是系統(tǒng)找到所有正確答案時(shí)需要翻看多少篇文檔——翻看的文檔越少，說(shuō)明系統(tǒng)越高效、越公平。

用一個(gè)生活化的場(chǎng)景來(lái)理解：假設(shè)你委托助理幫你在一個(gè)書架上找兩本書，一本中文版、一本英文版，內(nèi)容完全相同。助理從書架最前面開始找，如果他第15本找到了中文版，第300本才找到英文版，那么Max@R就是300。這說(shuō)明助理對(duì)中文書的敏感度比英文書差得多——盡管兩本書內(nèi)容一樣，他就是更容易"看見"英文書。

研究團(tuán)隊(duì)還配套設(shè)計(jì)了兩個(gè)輔助指標(biāo)。一個(gè)叫Complete@K，意思是"在前K個(gè)結(jié)果里，兩個(gè)正確答案是否都出現(xiàn)了"，類似于考核助理在找前10本書時(shí)能不能把兩本都找到，結(jié)果以百分比表示。另一個(gè)叫Max@Rnorm，是對(duì)Max@R的標(biāo)準(zhǔn)化版本，方便在不同規(guī)模的文檔庫(kù)之間進(jìn)行橫向比較，因?yàn)?000本書的庫(kù)和100萬(wàn)本書的庫(kù)里，"翻到第300本"的難度截然不同。

四、四大主流系統(tǒng)在新測(cè)試下的真實(shí)表現(xiàn)

研究團(tuán)隊(duì)用這套新的評(píng)測(cè)體系，對(duì)四個(gè)當(dāng)前最主流的多語(yǔ)言文本嵌入模型進(jìn)行了測(cè)試，分別是multilingual-E5-base、gte-multilingual-base、jina-embeddings-v3和bge-M3。測(cè)試語(yǔ)言覆蓋了阿拉伯語(yǔ)、中文、西班牙語(yǔ)、泰語(yǔ)和越南語(yǔ)，以及另外五種語(yǔ)言（德語(yǔ)、希臘語(yǔ)、印地語(yǔ)、羅馬尼亞語(yǔ)、土耳其語(yǔ)），使用的測(cè)試數(shù)據(jù)集是XQuAD和Belebele——兩個(gè)經(jīng)過(guò)專業(yè)人工翻譯、質(zhì)量有保障的多語(yǔ)言問(wèn)答基準(zhǔn)集。

測(cè)試結(jié)果相當(dāng)觸目驚心。以multilingual-E5-base模型為例，在傳統(tǒng)的單語(yǔ)言文檔庫(kù)測(cè)試中，用英文提問(wèn)和用中文提問(wèn)的性能差距并不明顯，Max@R的差值僅在個(gè)位數(shù)左右。但在新的雙語(yǔ)文檔庫(kù)測(cè)試中，用中文提問(wèn)時(shí)的Max@R值高達(dá)650.95，而用英文提問(wèn)時(shí)只有53.04，差值接近600。這意味著，如果一個(gè)中文用戶用這個(gè)系統(tǒng)搜索，系統(tǒng)需要翻閱大約650篇文檔才能同時(shí)找到中文和英文的正確答案，而英文用戶只需翻閱53篇。換句話說(shuō)，中文用戶需要付出英文用戶十二倍以上的"搜索代價(jià)"，才能獲得同等質(zhì)量的服務(wù)。

即便是相對(duì)表現(xiàn)較好的bge-M3模型，差異同樣存在，只是幅度較小。在西班牙語(yǔ)的測(cè)試中，該模型表現(xiàn)最為穩(wěn)定，但在阿拉伯語(yǔ)和泰語(yǔ)上的表現(xiàn)明顯較差，說(shuō)明不同語(yǔ)言之間的對(duì)齊質(zhì)量并不均勻——有些語(yǔ)言被"照顧"得好一些，有些語(yǔ)言則持續(xù)被冷落。

研究團(tuán)隊(duì)還觀察到第三個(gè)問(wèn)題：在雙語(yǔ)文檔庫(kù)的場(chǎng)景下，幾乎所有模型的Max@R值都高得離譜，在實(shí)際應(yīng)用中完全不可用。如果一個(gè)搜索引擎要讓用戶翻閱數(shù)百篇文檔才能找到所需信息，那它基本上就失去了搜索引擎存在的意義。

五、兩步走的修復(fù)方案：讓數(shù)字指紋真正說(shuō)同一種語(yǔ)言

發(fā)現(xiàn)問(wèn)題之后，研究團(tuán)隊(duì)設(shè)計(jì)了一套訓(xùn)練策略來(lái)修復(fù)這些模型。這套策略的核心思路是：既然問(wèn)題出在不同語(yǔ)言的數(shù)字指紋不夠接近，那就直接讓它們?cè)跀?shù)學(xué)層面上更接近。

修復(fù)方案分成兩個(gè)相輔相成的部分。第一部分解決的是"指紋不像"的問(wèn)題。研究團(tuán)隊(duì)引入了一種叫做"詹森-香農(nóng)散度"（Jensen-Shannon Divergence，JSD）的數(shù)學(xué)工具。這個(gè)工具的作用，可以用調(diào)色板來(lái)理解：如果說(shuō)英文版文檔的數(shù)字指紋是一種顏色，非英文版文檔的數(shù)字指紋是另一種顏色，JSD就是衡量這兩種顏色差異大小的尺子。訓(xùn)練時(shí)，系統(tǒng)會(huì)被要求盡可能讓這兩種顏色變得一致——也就是說(shuō)，意思相同的文章，不管用什么語(yǔ)言寫成，它們的數(shù)字指紋應(yīng)該在數(shù)學(xué)空間里高度重合。

這種做法的精妙之處在于，它直接操作的是嵌入向量的"分布形狀"，而不只是表面上的相似度分?jǐn)?shù)。就像兩幅畫的整體顏色分布可以完全不同，即便你從兩幅畫里各取一個(gè)像素，這兩個(gè)像素的顏色可能剛好相同——單看一個(gè)點(diǎn)是騙人的，看整體分布才是真的。研究團(tuán)隊(duì)在論文中也通過(guò)圖示展示了這一點(diǎn)：用傳統(tǒng)方法訓(xùn)練的模型，兩種語(yǔ)言的嵌入向量在整體分布上差異高達(dá)18.61，而用新方法訓(xùn)練后，差異縮小到7.98，即便兩種方法得到的余弦相似度同樣是0.99。

第二部分解決的是"檢索能力本身"的問(wèn)題。研究團(tuán)隊(duì)使用了一種叫做InfoNCE的對(duì)比學(xué)習(xí)損失函數(shù)。這個(gè)部分的訓(xùn)練邏輯可以用"認(rèn)親游戲"來(lái)理解：系統(tǒng)被訓(xùn)練成能夠在一堆人里認(rèn)出"親戚"——當(dāng)給定一個(gè)英文查詢，系統(tǒng)必須在一批候選文檔里認(rèn)出對(duì)應(yīng)的非英文文檔，并把它與其他不相關(guān)的文檔區(qū)分開。通過(guò)反復(fù)練習(xí)這種"認(rèn)親游戲"，系統(tǒng)對(duì)跨語(yǔ)言語(yǔ)義相似度的感知能力會(huì)顯著提升。

訓(xùn)練所用的數(shù)據(jù)格式是三元組：一個(gè)英文查詢、一個(gè)對(duì)應(yīng)的英文文檔、以及這個(gè)英文文檔的目標(biāo)語(yǔ)言譯版。訓(xùn)練數(shù)據(jù)來(lái)自MIRACL數(shù)據(jù)集的英文訓(xùn)練集，共2800個(gè)英文查詢-文檔對(duì)，然后用GPT-4o將英文文檔翻譯成各目標(biāo)語(yǔ)言，從而得到訓(xùn)練所需的三元組。整個(gè)訓(xùn)練過(guò)程在兩張NVIDIA A100 GPU上完成，每個(gè)模型只訓(xùn)練一個(gè)輪次，計(jì)算成本相對(duì)較低。

六、修復(fù)之后效果如何

經(jīng)過(guò)這套方法微調(diào)之后，四個(gè)模型在各項(xiàng)指標(biāo)上都取得了顯著改善。以jina-embeddings-v3模型在中文場(chǎng)景下的表現(xiàn)為例，在XQuAD數(shù)據(jù)集上，英文查詢和中文查詢之間的性能差距從6.89個(gè)百分點(diǎn)驟降至1.77個(gè)百分點(diǎn)；在Belebele數(shù)據(jù)集上，這個(gè)差距從4.45個(gè)百分點(diǎn)縮小到幾乎可以忽略不計(jì)的0.12個(gè)百分點(diǎn)。兩種語(yǔ)言的用戶終于站在了幾乎相同的起跑線上。

在Max@R這個(gè)全召回排名指標(biāo)上，改善同樣驚人。multilingual-E5-base模型在中文查詢下的Max@R從650.95降至23.10，意味著系統(tǒng)需要翻閱的文檔數(shù)量從650多篇減少到23篇左右。這種量級(jí)的改變，已經(jīng)足以讓系統(tǒng)從"不可用"變?yōu)?實(shí)用"。

研究團(tuán)隊(duì)還專門設(shè)計(jì)了一個(gè)更嚴(yán)苛的測(cè)試場(chǎng)景，叫做Multi-1：在雙語(yǔ)文檔庫(kù)里，故意把與查詢語(yǔ)言相同的那個(gè)正確答案藏起來(lái)，只保留另一種語(yǔ)言的正確答案。這相當(dāng)于要求系統(tǒng)必須跨越語(yǔ)言壁壘去找到那個(gè)"異國(guó)版本"的正確答案。在這個(gè)測(cè)試中，經(jīng)過(guò)新方法微調(diào)的模型表現(xiàn)同樣有明顯提升，在所有語(yǔ)言對(duì)和兩個(gè)數(shù)據(jù)集上都能看到NDCG@1指標(biāo)的一致改善。

另一個(gè)重要的驗(yàn)證維度是：新方法有沒有"拆東墻補(bǔ)西墻"，在改善跨語(yǔ)言表現(xiàn)的同時(shí)破壞單語(yǔ)言場(chǎng)景的性能？測(cè)試結(jié)果顯示，在單語(yǔ)言同語(yǔ)言檢索（Mono-Same）的場(chǎng)景下，新方法基本保持了原模型的水平，甚至在部分語(yǔ)言上略有提升。在單語(yǔ)言跨語(yǔ)言檢索（Mono-Cross，即傳統(tǒng)CLIR）場(chǎng)景下，新方法同樣超越了基線模型。這說(shuō)明提升跨語(yǔ)言對(duì)齊能力不僅沒有傷害原有性能，反而對(duì)所有檢索場(chǎng)景都有正向的遷移效應(yīng)。

七、消融實(shí)驗(yàn)：兩個(gè)組件缺一不可

研究團(tuán)隊(duì)還做了一組"拆零件"實(shí)驗(yàn)——分別去掉JSD損失和InfoNCE損失，看看少了哪個(gè)零件系統(tǒng)會(huì)如何表現(xiàn)。結(jié)果證明兩個(gè)組件確實(shí)缺一不可，功能上高度互補(bǔ)。

單獨(dú)去掉JSD損失之后，系統(tǒng)的跨語(yǔ)言語(yǔ)義對(duì)齊能力明顯下降，說(shuō)明InfoNCE單打獨(dú)斗時(shí)只能提升檢索層面的表現(xiàn)，而無(wú)法從根本上解決嵌入向量分布不對(duì)齊的問(wèn)題。單獨(dú)去掉InfoNCE損失之后，系統(tǒng)的檢索能力大幅下滑——即便兩種語(yǔ)言的嵌入向量在數(shù)學(xué)上對(duì)齊得很好，如果系統(tǒng)不知道怎么利用這種對(duì)齊來(lái)進(jìn)行檢索，對(duì)齊本身也是白費(fèi)功夫。

研究團(tuán)隊(duì)還比較了另一種替代方案：僅用InfoNCE來(lái)拉近英文文檔和目標(biāo)語(yǔ)言文檔之間的相似度（記作LNCEpsg），而不是用來(lái)拉近查詢和文檔之間的相似度。這種方案確實(shí)比純基線模型有所改善，但與完整方法相比仍有明顯差距。這個(gè)對(duì)比揭示了新方法的核心優(yōu)勢(shì)：它不是簡(jiǎn)單地讓兩個(gè)文檔"看起來(lái)更像"，而是從根本上調(diào)整了嵌入空間的分布結(jié)構(gòu)，讓查詢能夠更有效地找到跨語(yǔ)言的相關(guān)文檔。

八、研究的邊界與未來(lái)

坦率地說(shuō)，這項(xiàng)研究也有一些自認(rèn)的局限。首先，所有實(shí)驗(yàn)都以英文為中心，研究的是英文與其他語(yǔ)言之間的偏差。現(xiàn)實(shí)世界中還有大量不涉及英文的語(yǔ)言對(duì)——比如中文和日文之間、阿拉伯語(yǔ)和波斯語(yǔ)之間——這些情況是否同樣存在類似的偏差，目前還沒有系統(tǒng)性的研究。

其次，實(shí)驗(yàn)場(chǎng)景主要局限于兩種語(yǔ)言混合的文檔庫(kù)。真實(shí)的多語(yǔ)言搜索環(huán)境可能同時(shí)包含十幾種語(yǔ)言，那種場(chǎng)景下問(wèn)題會(huì)更復(fù)雜，現(xiàn)有方案是否同樣有效，還有待驗(yàn)證。

第三，訓(xùn)練數(shù)據(jù)的翻譯依賴GPT-4o進(jìn)行機(jī)器翻譯。機(jī)器翻譯雖然質(zhì)量較高，但相比人工翻譯仍可能存在細(xì)微的文化語(yǔ)境失真，這可能在某些語(yǔ)言對(duì)上引入細(xì)小的系統(tǒng)性偏差。

說(shuō)到底，這項(xiàng)研究做的事情，是給那些天生說(shuō)"英文偏心話"的多語(yǔ)言搜索系統(tǒng)補(bǔ)上了一節(jié)"語(yǔ)言公平教育課"?，F(xiàn)實(shí)中的信息檢索場(chǎng)景遠(yuǎn)比學(xué)術(shù)評(píng)測(cè)復(fù)雜，但如果連最基本的"意思相同就應(yīng)該得到相同排名"這條原則都難以保證，那多語(yǔ)言搜索的價(jià)值就要大打折扣。

歸根結(jié)底，語(yǔ)言應(yīng)該是獲取信息的橋梁，而不是設(shè)置門檻的壁壘。一個(gè)泰語(yǔ)用戶搜到的信息質(zhì)量，不應(yīng)該比英文用戶差十二倍。這道理聽起來(lái)再簡(jiǎn)單不過(guò)，但讓機(jī)器真正理解并做到，仍然需要這樣系統(tǒng)性的研究工作來(lái)一步一步推進(jìn)。

對(duì)這個(gè)方向感興趣的讀者，可以通過(guò)論文編號(hào)arXiv:2604.05684查閱完整原文，深入了解技術(shù)細(xì)節(jié)和實(shí)驗(yàn)數(shù)據(jù)。

Q&A

Q1：Max@R這個(gè)新指標(biāo)和傳統(tǒng)的NDCG、MRR有什么區(qū)別？

A：傳統(tǒng)指標(biāo)如NDCG和MRR主要衡量"第一個(gè)正確答案排在第幾位"，適合每個(gè)問(wèn)題只有一個(gè)標(biāo)準(zhǔn)答案的場(chǎng)景。而Max@R針對(duì)的是每個(gè)問(wèn)題有多個(gè)正確答案（比如同一內(nèi)容的多語(yǔ)言版本）的情況，它記錄的是"找到所有正確答案需要翻閱多少文檔"，也就是最后一個(gè)正確答案出現(xiàn)的位置。這個(gè)數(shù)字越小，說(shuō)明系統(tǒng)對(duì)不同語(yǔ)言的文檔都能公平對(duì)待。傳統(tǒng)指標(biāo)在單語(yǔ)言文檔庫(kù)里根本發(fā)現(xiàn)不了英語(yǔ)偏心問(wèn)題，但Max@R在雙語(yǔ)文檔庫(kù)下能直接把這個(gè)差距數(shù)字化地展示出來(lái)。

Q2：跨語(yǔ)言信息檢索訓(xùn)練只用了2800條數(shù)據(jù)，為什么這么少的數(shù)據(jù)也能有效果？

A：這套方法有效的關(guān)鍵不在于數(shù)據(jù)量，而在于訓(xùn)練目標(biāo)的設(shè)計(jì)。JSD損失直接優(yōu)化的是嵌入向量在數(shù)學(xué)空間中的分布形狀，讓不同語(yǔ)言的向量在整體結(jié)構(gòu)上趨于一致，這是一種比較"深層"的調(diào)整，不需要大量數(shù)據(jù)就能讓模型的內(nèi)部表示發(fā)生實(shí)質(zhì)性變化。InfoNCE損失則通過(guò)對(duì)比學(xué)習(xí)告訴模型"什么是跨語(yǔ)言的正確匹配"，這種明確的監(jiān)督信號(hào)效率很高。此外，底層的多語(yǔ)言模型本身已經(jīng)經(jīng)過(guò)大規(guī)模預(yù)訓(xùn)練，具備相當(dāng)?shù)亩嗾Z(yǔ)言理解能力，2800條高質(zhì)量的微調(diào)數(shù)據(jù)足以引導(dǎo)它朝正確方向調(diào)整。

Q3：多語(yǔ)言嵌入模型的英語(yǔ)偏心問(wèn)題是怎么產(chǎn)生的？

A：這個(gè)問(wèn)題主要源于訓(xùn)練數(shù)據(jù)的不均衡。英文是互聯(lián)網(wǎng)上數(shù)據(jù)量最大的語(yǔ)言，大多數(shù)多語(yǔ)言模型在預(yù)訓(xùn)練階段接觸的英文文本遠(yuǎn)遠(yuǎn)多于其他語(yǔ)言。模型見過(guò)更多英文數(shù)據(jù)，自然對(duì)英文的語(yǔ)義理解更精準(zhǔn)、嵌入向量也更穩(wěn)定。相比之下，泰語(yǔ)、阿拉伯語(yǔ)等語(yǔ)言的訓(xùn)練數(shù)據(jù)少，嵌入向量的質(zhì)量相對(duì)較低，與英文向量之間的對(duì)齊也就不夠緊密。這就像一個(gè)從小只吃川菜的廚師，突然讓他評(píng)價(jià)日料和法餐的味道，他的判斷難免帶有偏差，因?yàn)樗奈队X標(biāo)準(zhǔn)本身就是按川菜校準(zhǔn)的。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.