国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI 大模型的「中文稅」:中文比英文更費(fèi) Token,為什么?

0
分享至


模型不是中性的,它內(nèi)置了語(yǔ)言偏好。


作者|湯一濤

編輯|靖宇

Opus 4.7 剛發(fā)布那幾天,X 上怨聲載道。有人說(shuō)一次對(duì)話就把她的 session 額度用光了,有人說(shuō)同一段代碼跑完的成本比上周翻了一倍多;還有人曬出自己 200 美元 Max 訂閱不到兩小時(shí)就觸頂?shù)慕貓D。


獨(dú)立開(kāi)發(fā)者 BridgeMind 承認(rèn) Claude 是世界上最好的模型,但同時(shí)也是最貴的模型。他的 Max 訂閱用不到兩小時(shí)就限額了,但幸好——他買(mǎi)了兩份。|圖片來(lái)源:X@bridgemindai

Anthropic 官方價(jià)格沒(méi)變,每百萬(wàn)輸入 token 仍是 5 美元,輸出 25 美元。但這個(gè)版本引入了新 tokenizer,同時(shí) Claude Code 把默認(rèn) effort 從 high 提到了 xhigh。兩件事疊加,同一份工作消耗的 token 變成了以前的 2 到 2.7 倍。

我在這些討論里看到兩個(gè)和中文有關(guān)的說(shuō)法。一個(gè)是:中文在新 tokenizer 下幾乎沒(méi)漲,中文用戶(hù)躲過(guò)了這次漲價(jià)。另一個(gè)更有意思:古文比現(xiàn)代漢語(yǔ)還省 token,用文言文跟 AI 對(duì)話可以節(jié)省成本

第一個(gè)說(shuō)法暗示 Claude 對(duì)中文做了某種優(yōu)化,但 Anthropic 的發(fā)布文檔里,沒(méi)提過(guò)任何和中文相關(guān)的調(diào)整。

第二個(gè)說(shuō)法則更難解釋。古文對(duì)人類(lèi)讀者來(lái)說(shuō)顯然比現(xiàn)代漢語(yǔ)難懂,一個(gè)對(duì)人類(lèi)更復(fù)雜的文本,怎么會(huì)對(duì) AI 更容易?

于是我做了一次測(cè)試,用 22 段平行文本(包含商業(yè)新聞、技術(shù)文檔、古文、日常對(duì)話等類(lèi)型),同時(shí)送進(jìn) 5 個(gè) tokenizer(Claude 4.6 和 4.7、GPT-4o、Qwen 3.6、DeepSeek-V3),讀取每段文本在每個(gè)模型下的 token 數(shù),做橫向?qū)Ρ取?/p>


測(cè)試文本:

1、日常對(duì)話中英文(旅行、論壇求助、寫(xiě)作請(qǐng)求)

2、技術(shù)文檔中英文(python 文檔、Anthropic 文檔)

3、新聞中英文(NYT 時(shí)政新聞、NYT 商業(yè)新聞、蘋(píng)果公司官方聲明)

4、文學(xué)選段中英古漢語(yǔ)(《出師表》《道德經(jīng)》)

測(cè)完之后,兩個(gè)說(shuō)法都得到了部分驗(yàn)證,但事實(shí)會(huì)比傳言更復(fù)雜一些。

01

中文稅

先說(shuō)結(jié)論:

1、在 Claude 和 GPT 上,中文一直比英文貴

2、在 Qwen 和 DeepSeek 上,中文反而比英文便宜

3、Opus 4.7 這次引發(fā)震蕩的 tokenizer 升級(jí),通脹幾乎只發(fā)生在英文上,中文紋絲不動(dòng)

看具體數(shù)字。Claude Opus 4.7 之前的全系列模型(包括 Opus 4.6、Sonnet、Haiku),使用的是同一個(gè) tokenizer。在這個(gè) tokenizer 下,中文的 token 消耗全線高于等量英文內(nèi)容,cn/en 比值范圍在 1.11× 到 1.64× 之間。

最極端的場(chǎng)景出現(xiàn)在 NYT 風(fēng)格的商業(yè)新聞:同一段內(nèi)容,中文版要多消耗 64% 的 token,等于多付 64% 的錢(qián)。


Opus 4.6 及其之前的 Claude 模型,中文 token 的消耗量顯著高于其它模型(紅框)

最極端的場(chǎng)景出現(xiàn)在 NYT 風(fēng)格的商業(yè)新聞:同一段內(nèi)容,中文版要多消耗 64% 的 token(綠框)

GPT-4o 的 o200k tokenizer 好一些,cn/en 比值多數(shù)落在 1.0 到 1.35× 之間,部分場(chǎng)景低于 1。中文仍然整體偏貴,但差距比 Claude 小得多。

國(guó)產(chǎn)模型 Qwen 3.6 和 DeepSeek-V3 的數(shù)據(jù)則完全反了過(guò)來(lái)。兩者的 cn/en 比值大面積低于 1,這意味著同樣的內(nèi)容,中文版反而比英文版省 token。DeepSeek 最低做到了 0.65×,同一段話中文版比英文版便宜三分之一。

Opus 4.7 的新 tokenizer 通脹幾乎只發(fā)生在英文上。英文 token 數(shù)膨脹了 1.24× 到 1.63×,中文大量維持在 1.000×,幾乎沒(méi)有變化。開(kāi)頭那些英文開(kāi)發(fā)者的賬單震蕩,中文用戶(hù)確實(shí)沒(méi)感受到。原因可能是中文在舊版上已經(jīng)被切到了單字顆粒度,可拆分的空間極小。


Opus 4.7 對(duì)比 4.6,英文消耗的 token 更多了,中文反而沒(méi)變

測(cè)試過(guò)程中我還注意到一件事。token 消耗的差異不只是賬單問(wèn)題,它直接影響工作空間的大小。同樣 200k 上下文窗口,用舊版 Claude tokenizer 裝中文資料,能塞進(jìn)去的內(nèi)容量比英文少 40% 到 70%。

同一類(lèi)工作,比如讓 AI 分析一份長(zhǎng)文檔或者是總結(jié)一組會(huì)議記錄,中文用戶(hù)能喂給模型的材料更少,模型能參考的上下文更短。結(jié)果就是付了更多的錢(qián),但得到的是更小的工作空間。

四組數(shù)據(jù)放在一起看,一個(gè)問(wèn)題自然浮出來(lái):

為什么同一段內(nèi)容換個(gè)語(yǔ)言,token 數(shù)就不一樣?為什么 Claude 和 GPT 的中文貴,Qwen 和 DeepSeek 的中文反而便宜?

答案藏在上文多次提到的概念 tokenizer(分詞器)上。

02

一個(gè)漢字,可以切成幾塊?

模型在讀到任何文字之前,會(huì)通過(guò) tokenizer 把輸入切成一個(gè)個(gè) token。你可以把 tokenizer 想象成 AI 的「積木切割機(jī)」。你輸入一句話,它負(fù)責(zé)把這句話拆成一塊塊標(biāo)準(zhǔn)化的積木(也就是 token)。AI 模型不看文字,只認(rèn)積木的編號(hào)。你用多少塊積木,就付多少錢(qián)。

英文的切法比較符合直覺(jué),比如「intelligence」大概率是一個(gè) token,「information」也是一個(gè) token,一個(gè)單詞對(duì)應(yīng)一個(gè)計(jì)費(fèi)單位。


但中文到了這一步就出問(wèn)題了。把同一句話「人工智能正在重塑全球的信息基礎(chǔ)設(shè)施」分別送進(jìn) GPT-4 的 cl100k tokenizer 和 Qwen 2.5 的 tokenizer,切出來(lái)的結(jié)果完全不同。

GPT-4 基本把每一個(gè)漢字都拆成了一個(gè) token;Qwen 則會(huì)把詞語(yǔ)識(shí)別成一個(gè) token,例如「人工智能」這 4 個(gè)字在千問(wèn)只算一個(gè) token。


同一句 16 個(gè)漢字的話,GPT-4 切出來(lái) 19 個(gè) token,Qwen 切出來(lái)只有 6 個(gè)。

為什么會(huì)切成這樣?原因在一個(gè)叫 BPE(Byte Pair Encoding)的算法。

BPE 的工作方式,是統(tǒng)計(jì)訓(xùn)練語(yǔ)料里哪些字符組合出現(xiàn)頻率最高,然后把高頻組合合并成一個(gè) token,納入詞表。

GPT-2 時(shí)代,訓(xùn)練語(yǔ)料的絕大多數(shù)是英文。英文字母組合(th、ing、tion)反復(fù)出現(xiàn),很快就被合并成 token。中文字符在那個(gè)語(yǔ)料池里出現(xiàn)的頻率太低,排不進(jìn)詞表,只能被當(dāng)作原始字節(jié)來(lái)處理,一個(gè)漢字占 3 個(gè)字節(jié),就變成了 3 個(gè) token。


BPE 按訓(xùn)練語(yǔ)料中的字符頻率決定合并。英文語(yǔ)料主導(dǎo)下,中文 UTF-8 字節(jié)無(wú)法合并為整字

后來(lái) GPT-4 的 cl100k 詞表擴(kuò)大了,常用漢字開(kāi)始被納入,一個(gè)字通?s到 1 到 2 個(gè) token,但整體效率仍然不如英文。

到了 GPT-4o 的 o200k 詞表,中文效率再進(jìn)了一步。這也解釋了為什么第一段的數(shù)據(jù)里 GPT-4o 的 cn/en 比值比 Claude 低。

Qwen 和 DeepSeek 作為國(guó)產(chǎn)模型,從一開(kāi)始就把大量常用漢字和高頻詞組作為整字、整詞納入詞表。一個(gè)字一個(gè) token,效率直接翻倍甚至更多。


同一句話在不同 tokenizer 下的拆分結(jié)果示意圖

這就是為什么它們的 cn/en 比值能低于 1,中文字均信息密度本來(lái)就高于英文單詞,當(dāng) tokenizer 不再人為拆碎漢字,這個(gè)天然優(yōu)勢(shì)就顯現(xiàn)出來(lái)了。

所以上一節(jié)那四組數(shù)據(jù)的差異,根源不在模型的能力,而在 tokenizer 的詞表里,給中文留了多少位置。

Claude 和早期 GPT 的詞表是以英文為默認(rèn)值構(gòu)建的,中文是后來(lái)被「塞進(jìn)去」的;Qwen 和 DeepSeek 的詞表從設(shè)計(jì)之初就把中文當(dāng)作默認(rèn)語(yǔ)言對(duì)待。這個(gè)起點(diǎn)的差異,一路傳導(dǎo)到 token 數(shù)、賬單、上下文窗口大小。

03

古文真的更便宜嗎?

再看開(kāi)頭的第二個(gè)傳言:古文比現(xiàn)代漢語(yǔ)更省 token。

數(shù)據(jù)確認(rèn)了這個(gè)說(shuō)法。在測(cè)試?yán)铮盼臉颖镜?cn/en 比值全線低于 1,在所有五個(gè) tokenizer 上都一致。同一段內(nèi)容的古文版本,token 數(shù)比對(duì)應(yīng)英文翻譯還少。


在所有模型中,古文消耗的 token 數(shù)不但比現(xiàn)代中文少,甚至比英文還少

原因也不復(fù)雜,古文用字極度精煉!笇W(xué)而不思則罔,思而不學(xué)則殆」是 12 個(gè)字。翻譯成現(xiàn)代漢語(yǔ)就是「只是學(xué)習(xí)而不思考就會(huì)迷惑,只是思考而不學(xué)習(xí)就會(huì)陷入困境」,字?jǐn)?shù)直接翻倍,token 數(shù)自然也跟著翻倍。

而且古文的常用字(之、也、者、而、不)都是高頻字符,在任何 tokenizer 的詞表里都有獨(dú)立位置,不會(huì)被拆成字節(jié)。所以古文在編碼層面確實(shí)是高效的。

但這里藏著一個(gè)陷阱。

古文的 token 省在編碼端,但模型的推理負(fù)擔(dān)沒(méi)有減輕!肛琛挂粋(gè)字,模型需要判斷它在這個(gè)語(yǔ)境里是「迷惑」「被蒙蔽」還是「沒(méi)有」,F(xiàn)代漢語(yǔ)可以用 26 個(gè)字把這層意思說(shuō)清楚,用古文等于把鋪開(kāi)的部分壓了回去,把推理的活留給了模型。打個(gè)比方,一份壓縮成 zip 的文件體積更小,但解壓它需要更多計(jì)算。

token 省了,推理的消耗反而上升了,理解準(zhǔn)確度還下降了。這筆賬算不過(guò)來(lái)。

古文這個(gè)例子讓我意識(shí)到,token 數(shù)量本身不能說(shuō)明太多問(wèn)題。但順著這個(gè)方向想下去,還有一層我之前忽略了的東西。

上面說(shuō)過(guò),GPT-2 時(shí)代的 tokenizer 會(huì)把「人」這個(gè)字拆成三個(gè) UTF-8 字節(jié) token,后來(lái) GPT-4 的詞表擴(kuò)大,常用漢字變成了一個(gè)字一個(gè) token,Qwen 更進(jìn)一步,把「人工智能」四個(gè)字合成一個(gè) token。

直覺(jué)上這是一個(gè)不斷改進(jìn)的過(guò)程:合并得越多,效率越高,模型應(yīng)該也理解得越好。

但真的是這樣嗎?我們不妨回憶一下,我們是如何認(rèn)識(shí)漢字的。

漢字是表意文字,現(xiàn)代漢字里超過(guò) 80% 是形聲字,由一個(gè)表義的偏旁和一個(gè)表音的部件組合而成。「氵」旁的字多和液體有關(guān),「木」旁的字多和植物有關(guān),「火」旁的字多和熱量有關(guān)。偏旁部首就是人類(lèi)識(shí)字時(shí)最基礎(chǔ)的語(yǔ)義線索,一個(gè)不認(rèn)識(shí)「焱」字的人,看到 3 個(gè)「火」也能猜到它和火有關(guān)。

因?yàn)槠圆渴资侨祟?lèi)識(shí)字時(shí)最基礎(chǔ)的語(yǔ)義線索,人會(huì)先從結(jié)構(gòu)推斷意義范疇,再結(jié)合語(yǔ)境理解具體含義。


火花、火焰、光焰,書(shū)面語(yǔ)與人名中多見(jiàn),寓意光明、熾熱。

但是在 tokenizer 的詞表里,「焱」這個(gè)字對(duì)應(yīng)的是一個(gè)編號(hào)。我們假設(shè)它是 38721 號(hào),它代表的是詞表里的一個(gè)索引位置,模型通過(guò)它查找到一組數(shù)字向量,用這組向量來(lái)表征「焱」這個(gè)字。

編號(hào)本身不攜帶任何關(guān)于這個(gè)字內(nèi)部結(jié)構(gòu)的信息。38721 和 38722 的關(guān)系,對(duì)模型來(lái)說(shuō)和 1 和 10000 的關(guān)系沒(méi)有區(qū)別。于是,「漢字的結(jié)構(gòu)」這一層信息,就被封裝起來(lái)了。三個(gè)「火」疊在一起這件事,在編號(hào)里不存在。

模型當(dāng)然可以通過(guò)大量訓(xùn)練數(shù)據(jù)間接學(xué)到「焱」「炎」「灼」經(jīng)常出現(xiàn)在相似的語(yǔ)境里,但這條路比直接利用偏旁信息要更間接一些。

所以模型能不能從拆開(kāi)的字節(jié)里,「看到」某些類(lèi)似偏旁的結(jié)構(gòu)線索,然后在后續(xù)的計(jì)算層里重新組合呢?這條路雖然 token 數(shù)多、成本高,但有沒(méi)有可能在語(yǔ)義理解上,反而比直接吞下一個(gè)不透明的編號(hào)更有效?

2025 年發(fā)表在 MIT Press《Computational Linguistics》上的一篇論文(《Tokenization Changes Meaning in Large Language Models: Evidence from Chinese》),回答了這個(gè)問(wèn)題。

04

碎片里長(zhǎng)出偏旁

論文作者 David Haslett 注意到一個(gè)歷史巧合。

1990 年代,Unicode 聯(lián)盟在給漢字分配 UTF-8 編碼時(shí),排列順序是按部首歸類(lèi)排的。同一個(gè)部首下的漢字,UTF-8 編碼是相鄰的!覆琛购汀盖o」都含有「艸」部(草字頭),它們的 UTF-8 字節(jié)序列以相同的字節(jié)開(kāi)頭!负印购汀负!苟己小搞摺共,字節(jié)序列同樣共享開(kāi)頭。


UTF-8 按照部分部首順序給中文排序,部首相同的字,編碼相近|圖片來(lái)源:Github

這意味著,當(dāng) tokenizer 把漢字拆成三個(gè) UTF-8 字節(jié) token 的時(shí)候,共享部首的漢字會(huì)共享第一個(gè) token。模型在訓(xùn)練過(guò)程中反復(fù)看到這些共享的字節(jié)模式,有可能從中學(xué)到「第一個(gè) token 相同的字,往往屬于同一個(gè)意義范疇」。這在功能上就接近于人類(lèi)通過(guò)偏旁判斷語(yǔ)義的過(guò)程。

Haslett 設(shè)計(jì)了三個(gè)實(shí)驗(yàn)來(lái)驗(yàn)證這件事。

第一個(gè)實(shí)驗(yàn)詢(xún)問(wèn) GPT-4、GPT-4o 和 Llama 3:「茶」和「莖」是否含有相同的語(yǔ)義部首?

第二個(gè)實(shí)驗(yàn)讓模型給兩個(gè)漢字的語(yǔ)義相似度評(píng)分。

第三個(gè)實(shí)驗(yàn)讓模型做「找出不同類(lèi)」的排除任務(wù)

每個(gè)實(shí)驗(yàn)都控制了兩個(gè)變量:兩個(gè)漢字是否真的共享部首、兩個(gè)漢字在 tokenizer 下是否共享第一個(gè) token。這個(gè) 2×2 的設(shè)計(jì),讓她能分離出部首效應(yīng)和 token 效應(yīng)各自的影響。

三個(gè)實(shí)驗(yàn)的結(jié)論一致:當(dāng)漢字被切成多個(gè) token 時(shí)(比如 GPT-4 的舊 tokenizer 下,89% 的漢字被切成了多 token),模型識(shí)別共享部首的準(zhǔn)確率更高;當(dāng)漢字被編碼為單個(gè) token 時(shí)(GPT-4o 的新 tokenizer 下,只有 57% 的漢字還是多 token),準(zhǔn)確率下降了。

換句話說(shuō),上一段的那個(gè)猜想成立了。把漢字切碎,成本確實(shí)更高,但切碎后的字節(jié)序列里保留了部首的痕跡,模型真的從中學(xué)到了一些東西。而把漢字編碼為整字 token,成本降下來(lái)了,但部首信息被封裝在一個(gè)不透明的編號(hào)里,模型無(wú)法再通過(guò)字節(jié)序列獲取這一線索。

需要特別說(shuō)明的是,這一結(jié)論僅局限于字形相關(guān)的細(xì)分語(yǔ)義任務(wù),不能等同于模型整體的中文理解、邏輯推理、長(zhǎng)文本生成能力下降。同時(shí),實(shí)驗(yàn)對(duì)比的 GPT-4 與 GPT-4o,除了分詞器差異外,模型架構(gòu)、訓(xùn)練語(yǔ)料、參數(shù)量均有顯著變化,無(wú)法將準(zhǔn)確率變化 100% 歸因于分詞粒度的調(diào)整。

這個(gè)發(fā)現(xiàn)還得到了工程側(cè)的驗(yàn)證。2024 年一項(xiàng)針對(duì) GPT-4o 的研究發(fā)現(xiàn),GPT-4o 的新 tokenizer 把某些中文字符組合合成了一個(gè)長(zhǎng) token 之后,模型反而出現(xiàn)了理解錯(cuò)誤。當(dāng)研究者用專(zhuān)業(yè)的中文分詞器,把這些長(zhǎng) token 重新拆開(kāi)再喂給模型,理解準(zhǔn)確度恢復(fù)了。

目前全球大模型行業(yè)的主流共識(shí),依然是針對(duì)目標(biāo)語(yǔ)言?xún)?yōu)化的整詞 / 整字分詞器,能顯著提升模型的整體性能。整字 / 整詞編碼不僅能大幅降低 token 成本、提升上下文窗口的有效信息量,還能縮短序列長(zhǎng)度、降低推理延遲、提升長(zhǎng)文本處理的穩(wěn)定性。論文中發(fā)現(xiàn)的細(xì)分任務(wù)優(yōu)勢(shì),無(wú)法覆蓋絕大多數(shù)中文 NLP 場(chǎng)景的性能收益。

但這件事依然戳中了大型系統(tǒng)里最難處理的一類(lèi)問(wèn)題:你能優(yōu)化你設(shè)計(jì)過(guò)的部分,但你沒(méi)法優(yōu)化你不知道自己擁有的部分。Unicode 聯(lián)盟按部首排列編碼,是為了人類(lèi)檢索的方便。BPE 把漢字拆成字節(jié),是因?yàn)橹形脑谡Z(yǔ)料里的頻率太低。兩個(gè)不相關(guān)的工程決策碰巧疊在一起,產(chǎn)生了一條誰(shuí)都沒(méi)規(guī)劃過(guò)的語(yǔ)義通道。

然后,當(dāng)新一代工程師「改進(jìn)」tokenizer、把漢字合并為整字 token 的時(shí)候,他們同時(shí)抹掉了一條自己不知道存在的路。效率提升了,成本降低了,某些東西也安靜地消失了,而你甚至不會(huì)收到一條報(bào)錯(cuò)信息。

所以事情比「中文在 AI 里多付錢(qián)」這個(gè)判斷更復(fù)雜。每一種 tokenizer 都在為某個(gè)默認(rèn)值優(yōu)化,代價(jià)藏在了別處。

05

林語(yǔ)堂

中文適配西方技術(shù)基礎(chǔ)設(shè)施的代價(jià),不是 AI 時(shí)代才開(kāi)始付的。

2025 年 1 月,紐約居民 Nelson Felix 在 Facebook 一個(gè)打字機(jī)愛(ài)好者小組里發(fā)了幾張照片。他在妻子祖父的遺物里發(fā)現(xiàn)了一臺(tái)刻滿中文的打字機(jī),不知道是什么來(lái)歷。很快數(shù)百條評(píng)論涌入。


Nelson Felix 的問(wèn)題:明快打字機(jī)值錢(qián)嗎?|圖片來(lái)源:Facebook

斯坦福大學(xué)漢學(xué)家墨磊寧(Thomas S. Mullaney)看到照片后立刻認(rèn)出來(lái)了,這是林語(yǔ)堂 1947 年發(fā)明的「明快打字機(jī)」的唯一原型機(jī),失蹤了將近 80 年。同年 4 月,F(xiàn)elix 夫婦將打字機(jī)賣(mài)給斯坦福大學(xué)圖書(shū)館。

明快打字機(jī)要解決的問(wèn)題,和今天 tokenizer 面對(duì)的問(wèn)題在結(jié)構(gòu)上是同一個(gè):怎么把中文高效地嵌入一套為西方語(yǔ)言設(shè)計(jì)的技術(shù)基礎(chǔ)設(shè)施。

1940 年代的英文打字機(jī)有 26 個(gè)字母鍵,一鍵一字,簡(jiǎn)單直接。中文有幾千個(gè)常用字,不可能一鍵一字。當(dāng)時(shí)的中文打字機(jī)是一個(gè)巨大的字盤(pán),排著幾千個(gè)鉛字,打字員用手逐個(gè)撿字,每分鐘只能打十幾個(gè)字。


1899年,美國(guó)傳教士謝衛(wèi)樓(Devello Z. Sheffield)所發(fā)明的中文打字機(jī),是中文打字機(jī)最早的紀(jì)錄|圖片來(lái)源:Wikipedia

林語(yǔ)堂耗資 12 萬(wàn)美元研發(fā)經(jīng)費(fèi),幾乎傾家蕩產(chǎn),委托紐約的 Carl E. Krum 公司做出了一臺(tái)只有 72 個(gè)鍵的中文打字機(jī)。工作原理是把漢字按字形結(jié)構(gòu)拆開(kāi),上形鍵選字根上半部、下形鍵選字根下半部,候選字顯示在一個(gè)叫「魔術(shù)眼」的小窗里,按數(shù)字鍵選中。每分鐘 40 到 50 字,支持 8000 余常用字符。


(左)透明玻璃小窗即位「魔術(shù)眼」;(右)明快打字機(jī)內(nèi)部結(jié)構(gòu)|圖片來(lái)源:Facebook

趙元任評(píng)價(jià):「不論中國(guó)人還是美國(guó)人,只要稍加學(xué)習(xí),便能熟悉這一鍵盤(pán)。我認(rèn)為這就是我們所需要的打字機(jī)了。」

技術(shù)上明快打字機(jī)是一種突破,但商業(yè)上它失敗了。

林語(yǔ)堂向雷明頓公司高管演示時(shí)機(jī)器出了故障,投資者隨之失去興趣,而造價(jià)高昂加上他個(gè)人資金鏈斷裂,量產(chǎn)再無(wú)可能。1948 年,林語(yǔ)堂將原型機(jī)和商業(yè)權(quán),賣(mài)給默根特勒鑄排機(jī)公司(Mergenthaler Linotype)。該公司最終放棄量產(chǎn),原型機(jī)在 1950 年代公司搬遷時(shí)被一位員工帶回長(zhǎng)島家中,之后下落不明,直到 2025 年重見(jiàn)天日。

墨磊寧在《中文打字機(jī)》一書(shū)里有一個(gè)判斷,他認(rèn)為明快打字機(jī)「并不失敗」。作為一款 1940 年代的產(chǎn)品,它確實(shí)失敗了。但作為一種人機(jī)交互范式,它勝利了。

林語(yǔ)堂第一次把中文「打字」變成了「檢索加選擇」。三排按鍵組合定位字根,從候選字里挑選。這正是所有現(xiàn)代中文輸入法的底層邏輯。從倉(cāng)頡、五筆到搜狗拼音,都可以說(shuō)是明快打字機(jī)的后裔。


《中文打字機(jī)》,作者:墨磊寧|圖片來(lái)源:豆瓣

這臺(tái)跨越了近八十年的打字機(jī),和今天我們反復(fù)討論的分詞器,暗藏著某種的歷史規(guī)律。中文始終面對(duì)著一個(gè)問(wèn)題

如何接入一套羅馬字母形成的基礎(chǔ)設(shè)施。

有趣的是,在這個(gè)尋找的過(guò)程中,充滿了非人為規(guī)劃的巧合。Unicode 聯(lián)盟為了人類(lèi)檢索方便制定的排序,跟 BPE 算法的無(wú)心拆解疊在一起,竟然在神經(jīng)網(wǎng)絡(luò)的黑盒里,重現(xiàn)了人類(lèi)識(shí)字的過(guò)程。而當(dāng)工程師們?yōu)榱讼钢形亩悺,主?dòng)把漢字拼好、把成本打下來(lái)時(shí),那條意外誕生的語(yǔ)義通道也閉合了。

歷史并不是一條直線進(jìn)化的軌道,而是在各種約束條件的擠壓下,不斷發(fā)生變形的流體。

有些能力是設(shè)計(jì)出來(lái)的,有些只是碰巧沒(méi)有被刪掉。

*頭圖來(lái)源:geyuyao.com

本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO

極客一問(wèn)

你怎么看大模型「中文稅」這件事?


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
小米鴻蒙智行4月雙雙破3萬(wàn)!但海報(bào)那行小字,真當(dāng)用戶(hù)瞎?

小米鴻蒙智行4月雙雙破3萬(wàn)!但海報(bào)那行小字,真當(dāng)用戶(hù)瞎?

趣味萌寵的日常
2026-05-02 13:33:51
【復(fù)盤(pán)】維尼修斯雙響,皇馬不用給巴薩列隊(duì)了

【復(fù)盤(pán)】維尼修斯雙響,皇馬不用給巴薩列隊(duì)了

體壇周報(bào)
2026-05-04 12:24:53
中日聯(lián)合國(guó)交鋒,日本代表口出狂言:中國(guó)沒(méi)資格批評(píng)日本防衛(wèi)姿態(tài)

中日聯(lián)合國(guó)交鋒,日本代表口出狂言:中國(guó)沒(méi)資格批評(píng)日本防衛(wèi)姿態(tài)

共工之錨
2026-05-02 23:56:56
征戰(zhàn)NCAA?美記:徐昕吸引多所大學(xué)球隊(duì)關(guān)注,下周抵達(dá)美國(guó)

征戰(zhàn)NCAA?美記:徐昕吸引多所大學(xué)球隊(duì)關(guān)注,下周抵達(dá)美國(guó)

懂球帝
2026-05-04 10:27:09
中國(guó)首次動(dòng)用的新武器——阻斷令

中國(guó)首次動(dòng)用的新武器——阻斷令

凱利經(jīng)濟(jì)觀察
2026-05-03 12:40:14
找吳彥祖來(lái)演年輕版蔡元祺,是《寒戰(zhàn)1994》導(dǎo)演最正確的決定!

找吳彥祖來(lái)演年輕版蔡元祺,是《寒戰(zhàn)1994》導(dǎo)演最正確的決定!

陳意小可愛(ài)
2026-05-02 01:19:10
他帶著200根金條逃到香港,卻把價(jià)值800億的家當(dāng)留在了大陸!

他帶著200根金條逃到香港,卻把價(jià)值800億的家當(dāng)留在了大陸!

阿器談史
2026-04-02 17:05:17
范蠡告誡:一個(gè)人所有的禍?zhǔn),根本原因在于不懂“藏”這個(gè)字

范蠡告誡:一個(gè)人所有的禍?zhǔn),根本原因在于不懂“藏”這個(gè)字

千秋文化
2026-04-06 19:27:28
影帝家的狗也會(huì)演!孫儷愛(ài)犬裝死嚇瘋鄧超 網(wǎng)笑:連狗都是戲精

影帝家的狗也會(huì)演!孫儷愛(ài)犬裝死嚇瘋鄧超 網(wǎng)笑:連狗都是戲精

ETtoday星光云
2026-05-04 13:16:14
逼走陳忠和,打壓劉國(guó)梁,排擠郎平,90歲“體壇惡人”現(xiàn)今咋樣了

逼走陳忠和,打壓劉國(guó)梁,排擠郎平,90歲“體壇惡人”現(xiàn)今咋樣了

拳擊時(shí)空
2026-05-03 06:12:49
丈夫就是“三無(wú)價(jià)值”!廣東10年全職媽媽撕開(kāi)遮羞布,評(píng)論區(qū)反轉(zhuǎn)

丈夫就是“三無(wú)價(jià)值”!廣東10年全職媽媽撕開(kāi)遮羞布,評(píng)論區(qū)反轉(zhuǎn)

火山詩(shī)話
2026-05-02 07:19:28
李亞鵬約會(huì)被拍!女子像大學(xué)生,在香港酒店大堂手牽手,舉止親密

李亞鵬約會(huì)被拍!女子像大學(xué)生,在香港酒店大堂手牽手,舉止親密

眼底星碎
2026-05-02 13:33:45
絕地逆轉(zhuǎn)震驚斯諾克世界,吳宜澤帶著自信沖擊世錦賽冠軍

絕地逆轉(zhuǎn)震驚斯諾克世界,吳宜澤帶著自信沖擊世錦賽冠軍

澎湃新聞
2026-05-03 13:06:27
毫無(wú)底線!以色列高官生日驚現(xiàn)絞索蛋糕,力推殺人法案,口出狂言

毫無(wú)底線!以色列高官生日驚現(xiàn)絞索蛋糕,力推殺人法案,口出狂言

落下星星河
2026-05-04 11:17:11
解放臺(tái)灣:上午發(fā)動(dòng)統(tǒng)一之戰(zhàn),下午就發(fā)身份證?第一步登陸就很難

解放臺(tái)灣:上午發(fā)動(dòng)統(tǒng)一之戰(zhàn),下午就發(fā)身份證?第一步登陸就很難

小曙說(shuō)娛
2026-04-07 12:14:24
人不會(huì)無(wú)緣無(wú)故患帶狀皰疹!調(diào)查發(fā)現(xiàn):得帶狀皰疹,離不開(kāi)這5點(diǎn)

人不會(huì)無(wú)緣無(wú)故患帶狀皰疹!調(diào)查發(fā)現(xiàn):得帶狀皰疹,離不開(kāi)這5點(diǎn)

岐黃傳人孫大夫
2026-05-01 14:35:03
離婚后只字不提李琳!輸給了經(jīng)超后才發(fā)現(xiàn),原來(lái)他們不是同類(lèi)人

離婚后只字不提李琳!輸給了經(jīng)超后才發(fā)現(xiàn),原來(lái)他們不是同類(lèi)人

小蘭聊歷史
2026-04-27 15:10:56
原來(lái)名字起太大,一般人根本壓不住!網(wǎng)友:教訓(xùn),老祖宗早說(shuō)過(guò)了

原來(lái)名字起太大,一般人根本壓不!網(wǎng)友:教訓(xùn),老祖宗早說(shuō)過(guò)了

夜深?lèi)?ài)雜談
2026-04-30 21:37:49
人性本惡!幾百斤的“大石頭”硬生生從甘蔗堆里扒出來(lái)

人性本惡!幾百斤的“大石頭”硬生生從甘蔗堆里扒出來(lái)

好笑娛樂(lè)君每一天
2026-05-03 21:27:29
車(chē)企又迎一盆冷水:4月油車(chē)跌33%,電車(chē)跌11%,大家都不買(mǎi)車(chē)了?

車(chē)企又迎一盆冷水:4月油車(chē)跌33%,電車(chē)跌11%,大家都不買(mǎi)車(chē)了?

互聯(lián)網(wǎng).亂侃秀
2026-05-01 15:33:33
2026-05-04 13:48:49
極客公園
極客公園
讓最棒的創(chuàng)新成為頭條
12011文章數(shù) 78876關(guān)注度
往期回顧 全部

科技要聞

OpenAI“復(fù)活”了QQ寵物,網(wǎng)友直接玩瘋

頭條要聞

媒體:見(jiàn)東南亞請(qǐng)求中國(guó)賣(mài)石油 日本罕見(jiàn)向俄羅斯購(gòu)買(mǎi)

頭條要聞

媒體:見(jiàn)東南亞請(qǐng)求中國(guó)賣(mài)石油 日本罕見(jiàn)向俄羅斯購(gòu)買(mǎi)

體育要聞

曼聯(lián)3-2雙殺利物浦!提前三輪鎖定歐冠資格 梅努制勝

娛樂(lè)要聞

嚴(yán)浩翔新歌,父母離婚17年矛盾升級(jí)

財(cái)經(jīng)要聞

魔幻的韓國(guó)股市,父母給嬰兒開(kāi)戶(hù)買(mǎi)股票

汽車(chē)要聞

同比大漲190% 方程豹4月銷(xiāo)量29138臺(tái)

態(tài)度原創(chuàng)

旅游
時(shí)尚
本地
家居
藝術(shù)

旅游要聞

民族巡游、非遺絕技、篝火晚會(huì)……多彩貴州城燃動(dòng)假日

快看。∵@個(gè)女演員近日暴瘦。∨,知道了……

本地新聞

用青花瓷的方式,打開(kāi)西溪濕地

家居要聞

靈動(dòng)實(shí)用 生活藝術(shù)場(chǎng)

藝術(shù)要聞

奧托·馮·托倫:19世紀(jì)奧地利著名動(dòng)物/風(fēng)景畫(huà)家

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版