国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

92%訓(xùn)練數(shù)據(jù)是英語,大模型把40億人擋在門外

0
分享至


一個泰國農(nóng)民詢問作物補(bǔ)貼政策,一個尼日利亞母親用約魯巴語搜索疫苗接種時間表,一個巴西公民用葡萄牙語填寫稅務(wù)表格——他們面對的AI,運(yùn)行能力只有英文用戶的零頭。不是智力不夠,是模型根本沒學(xué)過他們的語言。

這是當(dāng)前AI行業(yè)最隱蔽的裂縫:超過92%的訓(xùn)練數(shù)據(jù)是英語,全球約7000種語言中,主流大模型真正支持的只有50種左右。這里說的"支持",僅僅是"能給出回答",不涉及準(zhǔn)確度。剩下的語言,要么被低質(zhì)量的機(jī)器翻譯英語內(nèi)容粗糙覆蓋,要么完全缺席。

行業(yè)忙著慶祝"人類水平"的基準(zhǔn)測試成績,但這些基準(zhǔn)測試 overwhelmingly 是英語的。對世界上大多數(shù)人來說,AI革命還沒真正抵達(dá)——它卡在海關(guān),等著一個翻譯。

巴別塔的當(dāng)代回聲

大約4000年前,巴比倫是地球上最國際化的城市。位于現(xiàn)代伊拉克境內(nèi),地處古代貿(mào)易路線的十字路口,阿卡德語、蘇美爾語、阿拉姆語、埃蘭語等數(shù)十種語言在此日常碰撞。商人、學(xué)者、外交官從美索不達(dá)米亞各地匯聚于此,這座城市之所以繁榮,正是因?yàn)樗业搅丝缭秸Z言的橋梁——通過抄寫員、翻譯官,以及世界上第一批多語種圖書館。

《圣經(jīng)》中巴別塔的故事背景就設(shè)在巴比倫,但講法不同:上帝將人類分散到世界各地,混淆他們的語言,使他們無法再相互理解。這是一個關(guān)于溝通斷裂的故事——共享的工程因語言不通而變得不可能。

我們正生活在一個奇怪的回聲里。人類建造了史上最強(qiáng)大的推理機(jī)器,能寫詩、證明定理、生成可運(yùn)行的代碼。但這些機(jī)器用英語思考。當(dāng)世界其他地方試圖與它們對話時,塔就崩塌了。不是智力不存在,而是語言屏障在信號抵達(dá)模型的推理核心之前,就已經(jīng)將其腐蝕。

用英語問前沿大模型任何問題,你會得到 polished、準(zhǔn)確、推理嚴(yán)密的回答。用泰語問同樣的問題,結(jié)果往往像用漏勺喝湯——信息還在,但精華流走了。


數(shù)據(jù)荒漠里的語言

大模型的能力邊界由訓(xùn)練數(shù)據(jù)劃定。英語在互聯(lián)網(wǎng)上占據(jù)絕對優(yōu)勢:維基百科60%以上內(nèi)容、學(xué)術(shù)論文90%以上、高質(zhì)量書籍和代碼庫的主流語言。這種優(yōu)勢被直接繼承到模型權(quán)重里。

低資源語言的困境是雙重的。首先是數(shù)據(jù)量——斯瓦希里語、孟加拉語、泰盧固語等數(shù)億人使用的語言,數(shù)字化文本可能只有英語的幾千分之一。其次是數(shù)據(jù)質(zhì)量——大量所謂"多語言"內(nèi)容,實(shí)為英語材料的機(jī)器翻譯,帶著翻譯腔和事實(shí)錯誤進(jìn)入訓(xùn)練集。

一個模型在英語上學(xué)會的邏輯推理、事實(shí)核查、語境理解,在低資源語言上無法自動遷移。語言不只是詞匯替換,是整套思維方式的載體。當(dāng)模型用"英語思維"處理泰語輸入,它其實(shí)在做一個損耗極大的轉(zhuǎn)碼游戲。

更隱蔽的傷害在于反饋循環(huán)。AI生成的低質(zhì)量多語言內(nèi)容又回流互聯(lián)網(wǎng),成為下一代模型的訓(xùn)練數(shù)據(jù)。劣幣驅(qū)逐良幣,數(shù)據(jù)荒漠逐漸擴(kuò)大。

被折疊的用戶體驗(yàn)

產(chǎn)品層面,這種不平等被界面設(shè)計巧妙掩蓋。聊天機(jī)器人的輸入框看起來對所有人平等開放,但背后的服務(wù)質(zhì)量天差地別。

英文用戶享受的是原生體驗(yàn):復(fù)雜指令理解、多輪對話連貫、專業(yè)術(shù)語準(zhǔn)確、文化語境恰當(dāng)。非英語用戶得到的是降級版本:簡單查詢尚可應(yīng)付,一旦涉及專業(yè)領(lǐng)域、微妙表達(dá)或本地知識,模型就開始"幻覺"——用自信的語氣編造答案。


這種降級對高教育程度、能切換英語的用戶影響有限。但對真正的全球多數(shù)——那些只會本地語言、依賴AI獲取關(guān)鍵信息的人——這是結(jié)構(gòu)性排斥。他們被要求用第二甚至第三語言與機(jī)器交互,或者接受質(zhì)量打折的服務(wù)。

技術(shù)民主化的承諾,在語言門檻前出現(xiàn)了分叉。

修補(bǔ)與重建

行業(yè)并非毫無作為。多語言預(yù)訓(xùn)練、跨語言遷移學(xué)習(xí)、特定語言微調(diào)——這些技術(shù)方向都在推進(jìn)。一些開源項(xiàng)目專注收集低資源語言的本土語料,繞過英語中心的中介。

但商業(yè)激勵結(jié)構(gòu)是擰巴的。訓(xùn)練數(shù)據(jù)的獲取成本、計算資源的分配、產(chǎn)品優(yōu)先級的排序,都向高回報市場傾斜。英語用戶付費(fèi)意愿強(qiáng)、數(shù)據(jù)反饋豐富、品牌效應(yīng)顯著。邊緣語言社區(qū)的投入產(chǎn)出比,在 spreadsheet 上很難好看。

更深層的張力在于:大模型的"通用智能"敘事,與語言特定性的現(xiàn)實(shí)之間的矛盾。我們傾向于認(rèn)為推理能力是抽象的、可遷移的,但證據(jù)表明,語言深度嵌入認(rèn)知過程。一個從未真正"浸泡"在某語言中的模型,對該語言使用者的思維方式始終是陌生的。

巴比倫的抄寫員花了數(shù)千年積累多語言知識。我們似乎期待大模型用幾十年走完這條路,卻忘了它們的學(xué)習(xí)材料本身就不平衡。

下一次當(dāng)你用中文向AI提問,得到看似流暢的回答時,可以多想一層:這個回答的"母語"是什么?它理解你的問題,還是僅僅在模擬理解?如果答案關(guān)乎你的健康、財務(wù)或法律權(quán)利,這種模擬的代價是什么?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
這4個小時是“黃金睡眠時間”,錯過了很難補(bǔ)回來

這4個小時是“黃金睡眠時間”,錯過了很難補(bǔ)回來

齊魯壹點(diǎn)
2026-03-07 05:15:12
張雪峰室內(nèi)跑步有多夸張!配速是馬拉松冠軍基普喬格的水平

張雪峰室內(nèi)跑步有多夸張!配速是馬拉松冠軍基普喬格的水平

金牌娛樂
2026-03-30 09:54:01
美國在中東駐軍已超5萬!美軍特種作戰(zhàn)部隊(duì)人員已抵達(dá)中東,專家:美國打伊朗軍費(fèi)消耗強(qiáng)度為歷史之最

美國在中東駐軍已超5萬!美軍特種作戰(zhàn)部隊(duì)人員已抵達(dá)中東,專家:美國打伊朗軍費(fèi)消耗強(qiáng)度為歷史之最

每日經(jīng)濟(jì)新聞
2026-03-30 11:08:09
登陸時間確定,鄭麗文欣喜發(fā)聲,連戰(zhàn)成關(guān)鍵“啟蒙”,藍(lán)要員力挺

登陸時間確定,鄭麗文欣喜發(fā)聲,連戰(zhàn)成關(guān)鍵“啟蒙”,藍(lán)要員力挺

小陸搞笑日常
2026-03-30 13:43:51
福特航母戰(zhàn)斗群5700官兵被扣押,接受調(diào)查

福特航母戰(zhàn)斗群5700官兵被扣押,接受調(diào)查

遠(yuǎn)方青木
2026-03-30 23:59:08
富人的生活能有多夸張?網(wǎng)友:根本找不到心動還門當(dāng)戶對的人

富人的生活能有多夸張?網(wǎng)友:根本找不到心動還門當(dāng)戶對的人

帶你感受人間冷暖
2026-03-27 00:05:14
澤連斯基夫人談下屆總統(tǒng)選舉:“我們倆都累了”

澤連斯基夫人談下屆總統(tǒng)選舉:“我們倆都累了”

參考消息
2026-03-30 21:43:31
3-2到3-5!塔猜亞被轟3連鞭,或8連敗克星,特魯姆普0-4無緣8強(qiáng)?

3-2到3-5!塔猜亞被轟3連鞭,或8連敗克星,特魯姆普0-4無緣8強(qiáng)?

劉姚堯的文字城堡
2026-03-30 22:43:16
52分狂勝,本賽季3-0橫掃騎士!你們要這么打,哈登有機(jī)會奪冠

52分狂勝,本賽季3-0橫掃騎士!你們要這么打,哈登有機(jī)會奪冠

老梁體育漫談
2026-03-30 23:15:19
世界賽場首次奪冠!國產(chǎn)摩托實(shí)現(xiàn)驚天超越 創(chuàng)始人:中國制造不輸歐日美

世界賽場首次奪冠!國產(chǎn)摩托實(shí)現(xiàn)驚天超越 創(chuàng)始人:中國制造不輸歐日美

封面新聞
2026-03-30 22:29:07
1979年計劃生育,一家只準(zhǔn)生一個,陳云:搞不好要被罵斷子絕孫

1979年計劃生育,一家只準(zhǔn)生一個,陳云:搞不好要被罵斷子絕孫

觀史搜尋著
2026-03-19 06:44:44
上海樓市開始漲價了?

上海樓市開始漲價了?

魔都財觀
2026-03-31 07:40:32
趙繼偉14+6+11遼寧力克福建 付豪22分莫蘭德20+15

趙繼偉14+6+11遼寧力克福建 付豪22分莫蘭德20+15

醉臥浮生
2026-03-30 21:36:27
上萬億資本大逃亡!國家嚴(yán)查1.5萬富豪組團(tuán)移民,這次動真格了

上萬億資本大逃亡!國家嚴(yán)查1.5萬富豪組團(tuán)移民,這次動真格了

潮鹿逐夢
2026-03-19 12:16:28
5-4擊敗南美勁旅,烏茲別克斯坦連克強(qiáng)敵,取得FIFA系列賽冠軍

5-4擊敗南美勁旅,烏茲別克斯坦連克強(qiáng)敵,取得FIFA系列賽冠軍

俯身沖頂
2026-03-31 02:48:12
她是好聲音最冠軍,李榮浩幫她奪冠卻無人問津,今判若兩人

她是好聲音最冠軍,李榮浩幫她奪冠卻無人問津,今判若兩人

以茶帶書
2026-03-30 18:04:21
網(wǎng)約車司機(jī)花1200元把車改成“頭等艙”,收到6000元打賞

網(wǎng)約車司機(jī)花1200元把車改成“頭等艙”,收到6000元打賞

用車指南
2026-03-29 10:01:32
天津一醫(yī)院突發(fā)危急事件

天津一醫(yī)院突發(fā)危急事件

天津族
2026-03-31 07:32:37
恩佐再次示好皇馬:喜愛馬德里,愿定居!熱刺孤注一擲砸德澤爾比

恩佐再次示好皇馬:喜愛馬德里,愿定居!熱刺孤注一擲砸德澤爾比

足球偵探
2026-03-31 08:35:03
兩個老外騎行中國誤闖喪禮找吃的,湖南村民流利英語幫解困:帶他們到自家吃飯,還去看了英雄紀(jì)念碑

兩個老外騎行中國誤闖喪禮找吃的,湖南村民流利英語幫解困:帶他們到自家吃飯,還去看了英雄紀(jì)念碑

極目新聞
2026-03-30 20:14:05
2026-03-31 09:07:00
硬核玩家2哈
硬核玩家2哈
沉淀中,勿擾
506文章數(shù) 3關(guān)注度
往期回顧 全部

教育要聞

通識必修課被下架?佛羅里達(dá)州高校取消社會學(xué)導(dǎo)論引爭議

頭條要聞

牛彈琴:中東新的大麻煩來了 特朗普又盯上了新目標(biāo)

頭條要聞

牛彈琴:中東新的大麻煩來了 特朗普又盯上了新目標(biāo)

體育要聞

想進(jìn)世界杯,意大利還要過他這一關(guān)

娛樂要聞

全紅嬋聊到體重哭了,每天只吃一頓飯

財經(jīng)要聞

助貸被約談背后:誰在「吞噬」你的借款?

科技要聞

尚未正式宣發(fā),國行蘋果AI半夜"意外閃現(xiàn)"

汽車要聞

限時12.58萬起 銀河星耀8遠(yuǎn)航家系列上市

態(tài)度原創(chuàng)

本地
時尚
家居
旅游
公開課

本地新聞

用Color Walk的方式解鎖城市春日

媽媽們的人生,不該只有一個選項(xiàng)

家居要聞

東方法式美學(xué) 現(xiàn)代簡約

旅游要聞

山東肥城:赴一場桃花之約

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版