網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI 大模型的「中文稅」：中文比英文更費(fèi) Token，為什么？

2026-05-03 12:09:22　來(lái)源: 極客公園

北京舉報(bào)

分享至

模型不是中性的，它內(nèi)置了語(yǔ)言偏好。

作者｜湯一濤

編輯｜靖宇

Opus 4.7 剛發(fā)布那幾天，X 上怨聲載道。有人說(shuō)一次對(duì)話就把她的 session 額度用光了，有人說(shuō)同一段代碼跑完的成本比上周翻了一倍多；還有人曬出自己 200 美元 Max 訂閱不到兩小時(shí)就觸頂?shù)慕貓D。

獨(dú)立開(kāi)發(fā)者 BridgeMind 承認(rèn) Claude 是世界上最好的模型，但同時(shí)也是最貴的模型。他的 Max 訂閱用不到兩小時(shí)就限額了，但幸好——他買(mǎi)了兩份。｜圖片來(lái)源：X@bridgemindai

Anthropic 官方價(jià)格沒(méi)變，每百萬(wàn)輸入 token 仍是 5 美元，輸出 25 美元。但這個(gè)版本引入了新 tokenizer，同時(shí) Claude Code 把默認(rèn) effort 從 high 提到了 xhigh。兩件事疊加，同一份工作消耗的 token 變成了以前的 2 到 2.7 倍。

我在這些討論里看到兩個(gè)和中文有關(guān)的說(shuō)法。一個(gè)是：中文在新 tokenizer 下幾乎沒(méi)漲，中文用戶(hù)躲過(guò)了這次漲價(jià)。另一個(gè)更有意思：古文比現(xiàn)代漢語(yǔ)還省 token，用文言文跟 AI 對(duì)話可以節(jié)省成本。

第一個(gè)說(shuō)法暗示 Claude 對(duì)中文做了某種優(yōu)化，但 Anthropic 的發(fā)布文檔里，沒(méi)提過(guò)任何和中文相關(guān)的調(diào)整。

第二個(gè)說(shuō)法則更難解釋。古文對(duì)人類(lèi)讀者來(lái)說(shuō)顯然比現(xiàn)代漢語(yǔ)難懂，一個(gè)對(duì)人類(lèi)更復(fù)雜的文本，怎么會(huì)對(duì) AI 更容易？

于是我做了一次測(cè)試，用 22 段平行文本（包含商業(yè)新聞、技術(shù)文檔、古文、日常對(duì)話等類(lèi)型），同時(shí)送進(jìn) 5 個(gè) tokenizer（Claude 4.6 和 4.7、GPT-4o、Qwen 3.6、DeepSeek-V3），讀取每段文本在每個(gè)模型下的 token 數(shù)，做橫向?qū)Ρ取?/p>

測(cè)試文本：

1、日常對(duì)話中英文（旅行、論壇求助、寫(xiě)作請(qǐng)求）

2、技術(shù)文檔中英文（python 文檔、Anthropic 文檔）

3、新聞中英文（NYT 時(shí)政新聞、NYT 商業(yè)新聞、蘋(píng)果公司官方聲明）

4、文學(xué)選段中英古漢語(yǔ)（《出師表》《道德經(jīng)》）

測(cè)完之后，兩個(gè)說(shuō)法都得到了部分驗(yàn)證，但事實(shí)會(huì)比傳言更復(fù)雜一些。

中文稅

先說(shuō)結(jié)論：

1、在 Claude 和 GPT 上，中文一直比英文貴

2、在 Qwen 和 DeepSeek 上，中文反而比英文便宜

3、Opus 4.7 這次引發(fā)震蕩的 tokenizer 升級(jí)，通脹幾乎只發(fā)生在英文上，中文紋絲不動(dòng)

看具體數(shù)字。Claude Opus 4.7 之前的全系列模型（包括 Opus 4.6、Sonnet、Haiku），使用的是同一個(gè) tokenizer。在這個(gè) tokenizer 下，中文的 token 消耗全線高于等量英文內(nèi)容，cn/en 比值范圍在 1.11× 到 1.64× 之間。

最極端的場(chǎng)景出現(xiàn)在 NYT 風(fēng)格的商業(yè)新聞：同一段內(nèi)容，中文版要多消耗 64% 的 token，等于多付 64% 的錢(qián)。

Opus 4.6 及其之前的 Claude 模型，中文 token 的消耗量顯著高于其它模型（紅框）

最極端的場(chǎng)景出現(xiàn)在 NYT 風(fēng)格的商業(yè)新聞：同一段內(nèi)容，中文版要多消耗 64% 的 token（綠框）

GPT-4o 的 o200k tokenizer 好一些，cn/en 比值多數(shù)落在 1.0 到 1.35× 之間，部分場(chǎng)景低于 1。中文仍然整體偏貴，但差距比 Claude 小得多。

國(guó)產(chǎn)模型 Qwen 3.6 和 DeepSeek-V3 的數(shù)據(jù)則完全反了過(guò)來(lái)。兩者的 cn/en 比值大面積低于 1，這意味著同樣的內(nèi)容，中文版反而比英文版省 token。DeepSeek 最低做到了 0.65×，同一段話中文版比英文版便宜三分之一。

Opus 4.7 的新 tokenizer 通脹幾乎只發(fā)生在英文上。英文 token 數(shù)膨脹了 1.24× 到 1.63×，中文大量維持在 1.000×，幾乎沒(méi)有變化。開(kāi)頭那些英文開(kāi)發(fā)者的賬單震蕩，中文用戶(hù)確實(shí)沒(méi)感受到。原因可能是中文在舊版上已經(jīng)被切到了單字顆粒度，可拆分的空間極小。

Opus 4.7 對(duì)比 4.6，英文消耗的 token 更多了，中文反而沒(méi)變

測(cè)試過(guò)程中我還注意到一件事。token 消耗的差異不只是賬單問(wèn)題，它直接影響工作空間的大小。同樣 200k 上下文窗口，用舊版 Claude tokenizer 裝中文資料，能塞進(jìn)去的內(nèi)容量比英文少 40% 到 70%。

同一類(lèi)工作，比如讓 AI 分析一份長(zhǎng)文檔或者是總結(jié)一組會(huì)議記錄，中文用戶(hù)能喂給模型的材料更少，模型能參考的上下文更短。結(jié)果就是付了更多的錢(qián)，但得到的是更小的工作空間。

四組數(shù)據(jù)放在一起看，一個(gè)問(wèn)題自然浮出來(lái)：

為什么同一段內(nèi)容換個(gè)語(yǔ)言，token 數(shù)就不一樣？為什么 Claude 和 GPT 的中文貴，Qwen 和 DeepSeek 的中文反而便宜？

答案藏在上文多次提到的概念 tokenizer（分詞器）上。

一個(gè)漢字，可以切成幾塊？

模型在讀到任何文字之前，會(huì)通過(guò) tokenizer 把輸入切成一個(gè)個(gè) token。你可以把 tokenizer 想象成 AI 的「積木切割機(jī)」。你輸入一句話，它負(fù)責(zé)把這句話拆成一塊塊標(biāo)準(zhǔn)化的積木（也就是 token）。AI 模型不看文字，只認(rèn)積木的編號(hào)。你用多少塊積木，就付多少錢(qián)。

英文的切法比較符合直覺(jué)，比如「intelligence」大概率是一個(gè) token，「information」也是一個(gè) token，一個(gè)單詞對(duì)應(yīng)一個(gè)計(jì)費(fèi)單位。

但中文到了這一步就出問(wèn)題了。把同一句話「人工智能正在重塑全球的信息基礎(chǔ)設(shè)施」分別送進(jìn) GPT-4 的 cl100k tokenizer 和 Qwen 2.5 的 tokenizer，切出來(lái)的結(jié)果完全不同。

GPT-4 基本把每一個(gè)漢字都拆成了一個(gè) token；Qwen 則會(huì)把詞語(yǔ)識(shí)別成一個(gè) token，例如「人工智能」這 4 個(gè)字在千問(wèn)只算一個(gè) token。

同一句 16 個(gè)漢字的話，GPT-4 切出來(lái) 19 個(gè) token，Qwen 切出來(lái)只有 6 個(gè)。

為什么會(huì)切成這樣？原因在一個(gè)叫 BPE（Byte Pair Encoding）的算法。

BPE 的工作方式，是統(tǒng)計(jì)訓(xùn)練語(yǔ)料里哪些字符組合出現(xiàn)頻率最高，然后把高頻組合合并成一個(gè) token，納入詞表。

GPT-2 時(shí)代，訓(xùn)練語(yǔ)料的絕大多數(shù)是英文。英文字母組合（th、ing、tion）反復(fù)出現(xiàn)，很快就被合并成 token。中文字符在那個(gè)語(yǔ)料池里出現(xiàn)的頻率太低，排不進(jìn)詞表，只能被當(dāng)作原始字節(jié)來(lái)處理，一個(gè)漢字占 3 個(gè)字節(jié)，就變成了 3 個(gè) token。

BPE 按訓(xùn)練語(yǔ)料中的字符頻率決定合并。英文語(yǔ)料主導(dǎo)下，中文 UTF-8 字節(jié)無(wú)法合并為整字

后來(lái) GPT-4 的 cl100k 詞表擴(kuò)大了，常用漢字開(kāi)始被納入，一個(gè)字通常縮到 1 到 2 個(gè) token，但整體效率仍然不如英文。

到了 GPT-4o 的 o200k 詞表，中文效率再進(jìn)了一步。這也解釋了為什么第一段的數(shù)據(jù)里 GPT-4o 的 cn/en 比值比 Claude 低。

Qwen 和 DeepSeek 作為國(guó)產(chǎn)模型，從一開(kāi)始就把大量常用漢字和高頻詞組作為整字、整詞納入詞表。一個(gè)字一個(gè) token，效率直接翻倍甚至更多。

同一句話在不同 tokenizer 下的拆分結(jié)果示意圖

這就是為什么它們的 cn/en 比值能低于 1，中文字均信息密度本來(lái)就高于英文單詞，當(dāng) tokenizer 不再人為拆碎漢字，這個(gè)天然優(yōu)勢(shì)就顯現(xiàn)出來(lái)了。

所以上一節(jié)那四組數(shù)據(jù)的差異，根源不在模型的能力，而在 tokenizer 的詞表里，給中文留了多少位置。

Claude 和早期 GPT 的詞表是以英文為默認(rèn)值構(gòu)建的，中文是后來(lái)被「塞進(jìn)去」的；Qwen 和 DeepSeek 的詞表從設(shè)計(jì)之初就把中文當(dāng)作默認(rèn)語(yǔ)言對(duì)待。這個(gè)起點(diǎn)的差異，一路傳導(dǎo)到 token 數(shù)、賬單、上下文窗口大小。

古文真的更便宜嗎？

再看開(kāi)頭的第二個(gè)傳言：古文比現(xiàn)代漢語(yǔ)更省 token。

數(shù)據(jù)確認(rèn)了這個(gè)說(shuō)法。在測(cè)試?yán)?，古文樣本?cn/en 比值全線低于 1，在所有五個(gè) tokenizer 上都一致。同一段內(nèi)容的古文版本，token 數(shù)比對(duì)應(yīng)英文翻譯還少。

在所有模型中，古文消耗的 token 數(shù)不但比現(xiàn)代中文少，甚至比英文還少

原因也不復(fù)雜，古文用字極度精煉?！笇W(xué)而不思則罔，思而不學(xué)則殆」是 12 個(gè)字。翻譯成現(xiàn)代漢語(yǔ)就是「只是學(xué)習(xí)而不思考就會(huì)迷惑，只是思考而不學(xué)習(xí)就會(huì)陷入困境」，字?jǐn)?shù)直接翻倍，token 數(shù)自然也跟著翻倍。

而且古文的常用字（之、也、者、而、不）都是高頻字符，在任何 tokenizer 的詞表里都有獨(dú)立位置，不會(huì)被拆成字節(jié)。所以古文在編碼層面確實(shí)是高效的。

但這里藏著一個(gè)陷阱。

古文的 token 省在編碼端，但模型的推理負(fù)擔(dān)沒(méi)有減輕。「罔」一個(gè)字，模型需要判斷它在這個(gè)語(yǔ)境里是「迷惑」「被蒙蔽」還是「沒(méi)有」?，F(xiàn)代漢語(yǔ)可以用 26 個(gè)字把這層意思說(shuō)清楚，用古文等于把鋪開(kāi)的部分壓了回去，把推理的活留給了模型。打個(gè)比方，一份壓縮成 zip 的文件體積更小，但解壓它需要更多計(jì)算。

token 省了，推理的消耗反而上升了，理解準(zhǔn)確度還下降了。這筆賬算不過(guò)來(lái)。

古文這個(gè)例子讓我意識(shí)到，token 數(shù)量本身不能說(shuō)明太多問(wèn)題。但順著這個(gè)方向想下去，還有一層我之前忽略了的東西。

上面說(shuō)過(guò)，GPT-2 時(shí)代的 tokenizer 會(huì)把「人」這個(gè)字拆成三個(gè) UTF-8 字節(jié) token，后來(lái) GPT-4 的詞表擴(kuò)大，常用漢字變成了一個(gè)字一個(gè) token，Qwen 更進(jìn)一步，把「人工智能」四個(gè)字合成一個(gè) token。

直覺(jué)上這是一個(gè)不斷改進(jìn)的過(guò)程：合并得越多，效率越高，模型應(yīng)該也理解得越好。

但真的是這樣嗎？我們不妨回憶一下，我們是如何認(rèn)識(shí)漢字的。

漢字是表意文字，現(xiàn)代漢字里超過(guò) 80% 是形聲字，由一個(gè)表義的偏旁和一個(gè)表音的部件組合而成?！搞摺古缘淖侄嗪鸵后w有關(guān)，「木」旁的字多和植物有關(guān)，「火」旁的字多和熱量有關(guān)。偏旁部首就是人類(lèi)識(shí)字時(shí)最基礎(chǔ)的語(yǔ)義線索，一個(gè)不認(rèn)識(shí)「焱」字的人，看到 3 個(gè)「火」也能猜到它和火有關(guān)。

因?yàn)槠圆渴资侨祟?lèi)識(shí)字時(shí)最基礎(chǔ)的語(yǔ)義線索，人會(huì)先從結(jié)構(gòu)推斷意義范疇，再結(jié)合語(yǔ)境理解具體含義。

火花、火焰、光焰，書(shū)面語(yǔ)與人名中多見(jiàn)，寓意光明、熾熱。

但是在 tokenizer 的詞表里，「焱」這個(gè)字對(duì)應(yīng)的是一個(gè)編號(hào)。我們假設(shè)它是 38721 號(hào)，它代表的是詞表里的一個(gè)索引位置，模型通過(guò)它查找到一組數(shù)字向量，用這組向量來(lái)表征「焱」這個(gè)字。

編號(hào)本身不攜帶任何關(guān)于這個(gè)字內(nèi)部結(jié)構(gòu)的信息。38721 和 38722 的關(guān)系，對(duì)模型來(lái)說(shuō)和 1 和 10000 的關(guān)系沒(méi)有區(qū)別。于是，「漢字的結(jié)構(gòu)」這一層信息，就被封裝起來(lái)了。三個(gè)「火」疊在一起這件事，在編號(hào)里不存在。

模型當(dāng)然可以通過(guò)大量訓(xùn)練數(shù)據(jù)間接學(xué)到「焱」「炎」「灼」經(jīng)常出現(xiàn)在相似的語(yǔ)境里，但這條路比直接利用偏旁信息要更間接一些。

所以模型能不能從拆開(kāi)的字節(jié)里，「看到」某些類(lèi)似偏旁的結(jié)構(gòu)線索，然后在后續(xù)的計(jì)算層里重新組合呢？這條路雖然 token 數(shù)多、成本高，但有沒(méi)有可能在語(yǔ)義理解上，反而比直接吞下一個(gè)不透明的編號(hào)更有效？

2025 年發(fā)表在 MIT Press《Computational Linguistics》上的一篇論文（《Tokenization Changes Meaning in Large Language Models: Evidence from Chinese》），回答了這個(gè)問(wèn)題。

碎片里長(zhǎng)出偏旁

論文作者 David Haslett 注意到一個(gè)歷史巧合。

1990 年代，Unicode 聯(lián)盟在給漢字分配 UTF-8 編碼時(shí)，排列順序是按部首歸類(lèi)排的。同一個(gè)部首下的漢字，UTF-8 編碼是相鄰的?！覆琛购汀盖o」都含有「艸」部（草字頭），它們的 UTF-8 字節(jié)序列以相同的字節(jié)開(kāi)頭?！负印购汀负！苟己小搞摺共?，字節(jié)序列同樣共享開(kāi)頭。

UTF-8 按照部分部首順序給中文排序，部首相同的字，編碼相近｜圖片來(lái)源：Github

這意味著，當(dāng) tokenizer 把漢字拆成三個(gè) UTF-8 字節(jié) token 的時(shí)候，共享部首的漢字會(huì)共享第一個(gè) token。模型在訓(xùn)練過(guò)程中反復(fù)看到這些共享的字節(jié)模式，有可能從中學(xué)到「第一個(gè) token 相同的字，往往屬于同一個(gè)意義范疇」。這在功能上就接近于人類(lèi)通過(guò)偏旁判斷語(yǔ)義的過(guò)程。

Haslett 設(shè)計(jì)了三個(gè)實(shí)驗(yàn)來(lái)驗(yàn)證這件事。

第一個(gè)實(shí)驗(yàn)詢(xún)問(wèn) GPT-4、GPT-4o 和 Llama 3：「茶」和「莖」是否含有相同的語(yǔ)義部首？

第二個(gè)實(shí)驗(yàn)讓模型給兩個(gè)漢字的語(yǔ)義相似度評(píng)分。

第三個(gè)實(shí)驗(yàn)讓模型做「找出不同類(lèi)」的排除任務(wù)。

每個(gè)實(shí)驗(yàn)都控制了兩個(gè)變量：兩個(gè)漢字是否真的共享部首、兩個(gè)漢字在 tokenizer 下是否共享第一個(gè) token。這個(gè) 2×2 的設(shè)計(jì)，讓她能分離出部首效應(yīng)和 token 效應(yīng)各自的影響。

三個(gè)實(shí)驗(yàn)的結(jié)論一致：當(dāng)漢字被切成多個(gè) token 時(shí)（比如 GPT-4 的舊 tokenizer 下，89% 的漢字被切成了多 token），模型識(shí)別共享部首的準(zhǔn)確率更高；當(dāng)漢字被編碼為單個(gè) token 時(shí)（GPT-4o 的新 tokenizer 下，只有 57% 的漢字還是多 token），準(zhǔn)確率下降了。

換句話說(shuō)，上一段的那個(gè)猜想成立了。把漢字切碎，成本確實(shí)更高，但切碎后的字節(jié)序列里保留了部首的痕跡，模型真的從中學(xué)到了一些東西。而把漢字編碼為整字 token，成本降下來(lái)了，但部首信息被封裝在一個(gè)不透明的編號(hào)里，模型無(wú)法再通過(guò)字節(jié)序列獲取這一線索。

需要特別說(shuō)明的是，這一結(jié)論僅局限于字形相關(guān)的細(xì)分語(yǔ)義任務(wù)，不能等同于模型整體的中文理解、邏輯推理、長(zhǎng)文本生成能力下降。同時(shí)，實(shí)驗(yàn)對(duì)比的 GPT-4 與 GPT-4o，除了分詞器差異外，模型架構(gòu)、訓(xùn)練語(yǔ)料、參數(shù)量均有顯著變化，無(wú)法將準(zhǔn)確率變化 100% 歸因于分詞粒度的調(diào)整。

這個(gè)發(fā)現(xiàn)還得到了工程側(cè)的驗(yàn)證。2024 年一項(xiàng)針對(duì) GPT-4o 的研究發(fā)現(xiàn)，GPT-4o 的新 tokenizer 把某些中文字符組合合成了一個(gè)長(zhǎng) token 之后，模型反而出現(xiàn)了理解錯(cuò)誤。當(dāng)研究者用專(zhuān)業(yè)的中文分詞器，把這些長(zhǎng) token 重新拆開(kāi)再喂給模型，理解準(zhǔn)確度恢復(fù)了。

目前全球大模型行業(yè)的主流共識(shí)，依然是針對(duì)目標(biāo)語(yǔ)言?xún)?yōu)化的整詞 / 整字分詞器，能顯著提升模型的整體性能。整字 / 整詞編碼不僅能大幅降低 token 成本、提升上下文窗口的有效信息量，還能縮短序列長(zhǎng)度、降低推理延遲、提升長(zhǎng)文本處理的穩(wěn)定性。論文中發(fā)現(xiàn)的細(xì)分任務(wù)優(yōu)勢(shì)，無(wú)法覆蓋絕大多數(shù)中文 NLP 場(chǎng)景的性能收益。

但這件事依然戳中了大型系統(tǒng)里最難處理的一類(lèi)問(wèn)題：你能優(yōu)化你設(shè)計(jì)過(guò)的部分，但你沒(méi)法優(yōu)化你不知道自己擁有的部分。Unicode 聯(lián)盟按部首排列編碼，是為了人類(lèi)檢索的方便。BPE 把漢字拆成字節(jié)，是因?yàn)橹形脑谡Z(yǔ)料里的頻率太低。兩個(gè)不相關(guān)的工程決策碰巧疊在一起，產(chǎn)生了一條誰(shuí)都沒(méi)規(guī)劃過(guò)的語(yǔ)義通道。

然后，當(dāng)新一代工程師「改進(jìn)」tokenizer、把漢字合并為整字 token 的時(shí)候，他們同時(shí)抹掉了一條自己不知道存在的路。效率提升了，成本降低了，某些東西也安靜地消失了，而你甚至不會(huì)收到一條報(bào)錯(cuò)信息。

所以事情比「中文在 AI 里多付錢(qián)」這個(gè)判斷更復(fù)雜。每一種 tokenizer 都在為某個(gè)默認(rèn)值優(yōu)化，代價(jià)藏在了別處。

林語(yǔ)堂

中文適配西方技術(shù)基礎(chǔ)設(shè)施的代價(jià)，不是 AI 時(shí)代才開(kāi)始付的。

2025 年 1 月，紐約居民 Nelson Felix 在 Facebook 一個(gè)打字機(jī)愛(ài)好者小組里發(fā)了幾張照片。他在妻子祖父的遺物里發(fā)現(xiàn)了一臺(tái)刻滿中文的打字機(jī)，不知道是什么來(lái)歷。很快數(shù)百條評(píng)論涌入。

Nelson Felix 的問(wèn)題：明快打字機(jī)值錢(qián)嗎？｜圖片來(lái)源：Facebook

斯坦福大學(xué)漢學(xué)家墨磊寧（Thomas S. Mullaney）看到照片后立刻認(rèn)出來(lái)了，這是林語(yǔ)堂 1947 年發(fā)明的「明快打字機(jī)」的唯一原型機(jī)，失蹤了將近 80 年。同年 4 月，F(xiàn)elix 夫婦將打字機(jī)賣(mài)給斯坦福大學(xué)圖書(shū)館。

明快打字機(jī)要解決的問(wèn)題，和今天 tokenizer 面對(duì)的問(wèn)題在結(jié)構(gòu)上是同一個(gè)：怎么把中文高效地嵌入一套為西方語(yǔ)言設(shè)計(jì)的技術(shù)基礎(chǔ)設(shè)施。

1940 年代的英文打字機(jī)有 26 個(gè)字母鍵，一鍵一字，簡(jiǎn)單直接。中文有幾千個(gè)常用字，不可能一鍵一字。當(dāng)時(shí)的中文打字機(jī)是一個(gè)巨大的字盤(pán)，排著幾千個(gè)鉛字，打字員用手逐個(gè)撿字，每分鐘只能打十幾個(gè)字。

1899年，美國(guó)傳教士謝衛(wèi)樓（Devello Z. Sheffield）所發(fā)明的中文打字機(jī)，是中文打字機(jī)最早的紀(jì)錄｜圖片來(lái)源：Wikipedia

林語(yǔ)堂耗資 12 萬(wàn)美元研發(fā)經(jīng)費(fèi)，幾乎傾家蕩產(chǎn)，委托紐約的 Carl E. Krum 公司做出了一臺(tái)只有 72 個(gè)鍵的中文打字機(jī)。工作原理是把漢字按字形結(jié)構(gòu)拆開(kāi)，上形鍵選字根上半部、下形鍵選字根下半部，候選字顯示在一個(gè)叫「魔術(shù)眼」的小窗里，按數(shù)字鍵選中。每分鐘 40 到 50 字，支持 8000 余常用字符。

（左）透明玻璃小窗即位「魔術(shù)眼」；（右）明快打字機(jī)內(nèi)部結(jié)構(gòu)｜圖片來(lái)源：Facebook

趙元任評(píng)價(jià)：「不論中國(guó)人還是美國(guó)人，只要稍加學(xué)習(xí)，便能熟悉這一鍵盤(pán)。我認(rèn)為這就是我們所需要的打字機(jī)了?！?/p>

技術(shù)上明快打字機(jī)是一種突破，但商業(yè)上它失敗了。

林語(yǔ)堂向雷明頓公司高管演示時(shí)機(jī)器出了故障，投資者隨之失去興趣，而造價(jià)高昂加上他個(gè)人資金鏈斷裂，量產(chǎn)再無(wú)可能。1948 年，林語(yǔ)堂將原型機(jī)和商業(yè)權(quán)，賣(mài)給默根特勒鑄排機(jī)公司（Mergenthaler Linotype）。該公司最終放棄量產(chǎn)，原型機(jī)在 1950 年代公司搬遷時(shí)被一位員工帶回長(zhǎng)島家中，之后下落不明，直到 2025 年重見(jiàn)天日。

墨磊寧在《中文打字機(jī)》一書(shū)里有一個(gè)判斷，他認(rèn)為明快打字機(jī)「并不失敗」。作為一款 1940 年代的產(chǎn)品，它確實(shí)失敗了。但作為一種人機(jī)交互范式，它勝利了。

林語(yǔ)堂第一次把中文「打字」變成了「檢索加選擇」。三排按鍵組合定位字根，從候選字里挑選。這正是所有現(xiàn)代中文輸入法的底層邏輯。從倉(cāng)頡、五筆到搜狗拼音，都可以說(shuō)是明快打字機(jī)的后裔。

《中文打字機(jī)》，作者：墨磊寧｜圖片來(lái)源：豆瓣

這臺(tái)跨越了近八十年的打字機(jī)，和今天我們反復(fù)討論的分詞器，暗藏著某種的歷史規(guī)律。中文始終面對(duì)著一個(gè)問(wèn)題：

如何接入一套羅馬字母形成的基礎(chǔ)設(shè)施。

有趣的是，在這個(gè)尋找的過(guò)程中，充滿了非人為規(guī)劃的巧合。Unicode 聯(lián)盟為了人類(lèi)檢索方便制定的排序，跟 BPE 算法的無(wú)心拆解疊在一起，竟然在神經(jīng)網(wǎng)絡(luò)的黑盒里，重現(xiàn)了人類(lèi)識(shí)字的過(guò)程。而當(dāng)工程師們?yōu)榱讼钢形亩悺?，主?dòng)把漢字拼好、把成本打下來(lái)時(shí)，那條意外誕生的語(yǔ)義通道也閉合了。

歷史并不是一條直線進(jìn)化的軌道，而是在各種約束條件的擠壓下，不斷發(fā)生變形的流體。

有些能力是設(shè)計(jì)出來(lái)的，有些只是碰巧沒(méi)有被刪掉。

*頭圖來(lái)源：geyuyao.com

本文為極客公園原創(chuàng)文章，轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO

極客一問(wèn)

你怎么看大模型「中文稅」這件事？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.