国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI 大模型的「中文稅」:中文比英文更費(fèi) Token,為什么?

0
分享至


模型不是中性的,它內(nèi)置了語(yǔ)言偏好。


作者|湯一濤

編輯|靖宇

Opus 4.7 剛發(fā)布那幾天,X 上怨聲載道。有人說(shuō)一次對(duì)話就把她的 session 額度用光了,有人說(shuō)同一段代碼跑完的成本比上周翻了一倍多;還有人曬出自己 200 美元 Max 訂閱不到兩小時(shí)就觸頂?shù)慕貓D。


獨(dú)立開(kāi)發(fā)者 BridgeMind 承認(rèn) Claude 是世界上最好的模型,但同時(shí)也是最貴的模型。他的 Max 訂閱用不到兩小時(shí)就限額了,但幸好——他買(mǎi)了兩份。|圖片來(lái)源:X@bridgemindai

Anthropic 官方價(jià)格沒(méi)變,每百萬(wàn)輸入 token 仍是 5 美元,輸出 25 美元。但這個(gè)版本引入了新 tokenizer,同時(shí) Claude Code 把默認(rèn) effort 從 high 提到了 xhigh。兩件事疊加,同一份工作消耗的 token 變成了以前的 2 到 2.7 倍。

我在這些討論里看到兩個(gè)和中文有關(guān)的說(shuō)法。一個(gè)是:中文在新 tokenizer 下幾乎沒(méi)漲,中文用戶(hù)躲過(guò)了這次漲價(jià)。另一個(gè)更有意思:古文比現(xiàn)代漢語(yǔ)還省 token,用文言文跟 AI 對(duì)話可以節(jié)省成本。

第一個(gè)說(shuō)法暗示 Claude 對(duì)中文做了某種優(yōu)化,但 Anthropic 的發(fā)布文檔里,沒(méi)提過(guò)任何和中文相關(guān)的調(diào)整。

第二個(gè)說(shuō)法則更難解釋。古文對(duì)人類(lèi)讀者來(lái)說(shuō)顯然比現(xiàn)代漢語(yǔ)難懂,一個(gè)對(duì)人類(lèi)更復(fù)雜的文本,怎么會(huì)對(duì) AI 更容易?

于是我做了一次測(cè)試,用 22 段平行文本(包含商業(yè)新聞、技術(shù)文檔、古文、日常對(duì)話等類(lèi)型),同時(shí)送進(jìn) 5 個(gè) tokenizer(Claude 4.6 和 4.7、GPT-4o、Qwen 3.6、DeepSeek-V3),讀取每段文本在每個(gè)模型下的 token 數(shù),做橫向?qū)Ρ取?/p>


測(cè)試文本:

1、日常對(duì)話中英文(旅行、論壇求助、寫(xiě)作請(qǐng)求)

2、技術(shù)文檔中英文(python 文檔、Anthropic 文檔)

3、新聞中英文(NYT 時(shí)政新聞、NYT 商業(yè)新聞、蘋(píng)果公司官方聲明)

4、文學(xué)選段中英古漢語(yǔ)(《出師表》《道德經(jīng)》)

測(cè)完之后,兩個(gè)說(shuō)法都得到了部分驗(yàn)證,但事實(shí)會(huì)比傳言更復(fù)雜一些。

01

中文稅

先說(shuō)結(jié)論:

1、在 Claude 和 GPT 上,中文一直比英文貴

2、在 Qwen 和 DeepSeek 上,中文反而比英文便宜

3、Opus 4.7 這次引發(fā)震蕩的 tokenizer 升級(jí),通脹幾乎只發(fā)生在英文上,中文紋絲不動(dòng)

看具體數(shù)字。Claude Opus 4.7 之前的全系列模型(包括 Opus 4.6、Sonnet、Haiku),使用的是同一個(gè) tokenizer。在這個(gè) tokenizer 下,中文的 token 消耗全線高于等量英文內(nèi)容,cn/en 比值范圍在 1.11× 到 1.64× 之間。

最極端的場(chǎng)景出現(xiàn)在 NYT 風(fēng)格的商業(yè)新聞:同一段內(nèi)容,中文版要多消耗 64% 的 token,等于多付 64% 的錢(qián)。


Opus 4.6 及其之前的 Claude 模型,中文 token 的消耗量顯著高于其它模型(紅框)

最極端的場(chǎng)景出現(xiàn)在 NYT 風(fēng)格的商業(yè)新聞:同一段內(nèi)容,中文版要多消耗 64% 的 token(綠框)

GPT-4o 的 o200k tokenizer 好一些,cn/en 比值多數(shù)落在 1.0 到 1.35× 之間,部分場(chǎng)景低于 1。中文仍然整體偏貴,但差距比 Claude 小得多。

國(guó)產(chǎn)模型 Qwen 3.6 和 DeepSeek-V3 的數(shù)據(jù)則完全反了過(guò)來(lái)。兩者的 cn/en 比值大面積低于 1,這意味著同樣的內(nèi)容,中文版反而比英文版省 token。DeepSeek 最低做到了 0.65×,同一段話中文版比英文版便宜三分之一。

Opus 4.7 的新 tokenizer 通脹幾乎只發(fā)生在英文上。英文 token 數(shù)膨脹了 1.24× 到 1.63×,中文大量維持在 1.000×,幾乎沒(méi)有變化。開(kāi)頭那些英文開(kāi)發(fā)者的賬單震蕩,中文用戶(hù)確實(shí)沒(méi)感受到。原因可能是中文在舊版上已經(jīng)被切到了單字顆粒度,可拆分的空間極小。


Opus 4.7 對(duì)比 4.6,英文消耗的 token 更多了,中文反而沒(méi)變

測(cè)試過(guò)程中我還注意到一件事。token 消耗的差異不只是賬單問(wèn)題,它直接影響工作空間的大小。同樣 200k 上下文窗口,用舊版 Claude tokenizer 裝中文資料,能塞進(jìn)去的內(nèi)容量比英文少 40% 到 70%。

同一類(lèi)工作,比如讓 AI 分析一份長(zhǎng)文檔或者是總結(jié)一組會(huì)議記錄,中文用戶(hù)能喂給模型的材料更少,模型能參考的上下文更短。結(jié)果就是付了更多的錢(qián),但得到的是更小的工作空間。

四組數(shù)據(jù)放在一起看,一個(gè)問(wèn)題自然浮出來(lái):

為什么同一段內(nèi)容換個(gè)語(yǔ)言,token 數(shù)就不一樣?為什么 Claude 和 GPT 的中文貴,Qwen 和 DeepSeek 的中文反而便宜

答案藏在上文多次提到的概念 tokenizer(分詞器)上。

02

一個(gè)漢字,可以切成幾塊?

模型在讀到任何文字之前,會(huì)通過(guò) tokenizer 把輸入切成一個(gè)個(gè) token。你可以把 tokenizer 想象成 AI 的「積木切割機(jī)」。你輸入一句話,它負(fù)責(zé)把這句話拆成一塊塊標(biāo)準(zhǔn)化的積木(也就是 token)。AI 模型不看文字,只認(rèn)積木的編號(hào)。你用多少塊積木,就付多少錢(qián)。

英文的切法比較符合直覺(jué),比如「intelligence」大概率是一個(gè) token,「information」也是一個(gè) token,一個(gè)單詞對(duì)應(yīng)一個(gè)計(jì)費(fèi)單位。


但中文到了這一步就出問(wèn)題了。把同一句話「人工智能正在重塑全球的信息基礎(chǔ)設(shè)施」分別送進(jìn) GPT-4 的 cl100k tokenizer 和 Qwen 2.5 的 tokenizer,切出來(lái)的結(jié)果完全不同。

GPT-4 基本把每一個(gè)漢字都拆成了一個(gè) token;Qwen 則會(huì)把詞語(yǔ)識(shí)別成一個(gè) token,例如「人工智能」這 4 個(gè)字在千問(wèn)只算一個(gè) token。


同一句 16 個(gè)漢字的話,GPT-4 切出來(lái) 19 個(gè) token,Qwen 切出來(lái)只有 6 個(gè)。

為什么會(huì)切成這樣?原因在一個(gè)叫 BPE(Byte Pair Encoding)的算法。

BPE 的工作方式,是統(tǒng)計(jì)訓(xùn)練語(yǔ)料里哪些字符組合出現(xiàn)頻率最高,然后把高頻組合合并成一個(gè) token,納入詞表。

GPT-2 時(shí)代,訓(xùn)練語(yǔ)料的絕大多數(shù)是英文。英文字母組合(th、ing、tion)反復(fù)出現(xiàn),很快就被合并成 token。中文字符在那個(gè)語(yǔ)料池里出現(xiàn)的頻率太低,排不進(jìn)詞表,只能被當(dāng)作原始字節(jié)來(lái)處理,一個(gè)漢字占 3 個(gè)字節(jié),就變成了 3 個(gè) token。


BPE 按訓(xùn)練語(yǔ)料中的字符頻率決定合并。英文語(yǔ)料主導(dǎo)下,中文 UTF-8 字節(jié)無(wú)法合并為整字

后來(lái) GPT-4 的 cl100k 詞表擴(kuò)大了,常用漢字開(kāi)始被納入,一個(gè)字通常縮到 1 到 2 個(gè) token,但整體效率仍然不如英文。

到了 GPT-4o 的 o200k 詞表,中文效率再進(jìn)了一步。這也解釋了為什么第一段的數(shù)據(jù)里 GPT-4o 的 cn/en 比值比 Claude 低。

Qwen 和 DeepSeek 作為國(guó)產(chǎn)模型,從一開(kāi)始就把大量常用漢字和高頻詞組作為整字、整詞納入詞表。一個(gè)字一個(gè) token,效率直接翻倍甚至更多。


同一句話在不同 tokenizer 下的拆分結(jié)果示意圖

這就是為什么它們的 cn/en 比值能低于 1,中文字均信息密度本來(lái)就高于英文單詞,當(dāng) tokenizer 不再人為拆碎漢字,這個(gè)天然優(yōu)勢(shì)就顯現(xiàn)出來(lái)了。

所以上一節(jié)那四組數(shù)據(jù)的差異,根源不在模型的能力,而在 tokenizer 的詞表里,給中文留了多少位置。

Claude 和早期 GPT 的詞表是以英文為默認(rèn)值構(gòu)建的,中文是后來(lái)被「塞進(jìn)去」的;Qwen 和 DeepSeek 的詞表從設(shè)計(jì)之初就把中文當(dāng)作默認(rèn)語(yǔ)言對(duì)待。這個(gè)起點(diǎn)的差異,一路傳導(dǎo)到 token 數(shù)、賬單、上下文窗口大小。

03

古文真的更便宜嗎?

再看開(kāi)頭的第二個(gè)傳言:古文比現(xiàn)代漢語(yǔ)更省 token。

數(shù)據(jù)確認(rèn)了這個(gè)說(shuō)法。在測(cè)試?yán)?,古文樣本?cn/en 比值全線低于 1,在所有五個(gè) tokenizer 上都一致。同一段內(nèi)容的古文版本,token 數(shù)比對(duì)應(yīng)英文翻譯還少。


在所有模型中,古文消耗的 token 數(shù)不但比現(xiàn)代中文少,甚至比英文還少

原因也不復(fù)雜,古文用字極度精煉?!笇W(xué)而不思則罔,思而不學(xué)則殆」是 12 個(gè)字。翻譯成現(xiàn)代漢語(yǔ)就是「只是學(xué)習(xí)而不思考就會(huì)迷惑,只是思考而不學(xué)習(xí)就會(huì)陷入困境」,字?jǐn)?shù)直接翻倍,token 數(shù)自然也跟著翻倍。

而且古文的常用字(之、也、者、而、不)都是高頻字符,在任何 tokenizer 的詞表里都有獨(dú)立位置,不會(huì)被拆成字節(jié)。所以古文在編碼層面確實(shí)是高效的。

但這里藏著一個(gè)陷阱。

古文的 token 省在編碼端,但模型的推理負(fù)擔(dān)沒(méi)有減輕。「罔」一個(gè)字,模型需要判斷它在這個(gè)語(yǔ)境里是「迷惑」「被蒙蔽」還是「沒(méi)有」?,F(xiàn)代漢語(yǔ)可以用 26 個(gè)字把這層意思說(shuō)清楚,用古文等于把鋪開(kāi)的部分壓了回去,把推理的活留給了模型。打個(gè)比方,一份壓縮成 zip 的文件體積更小,但解壓它需要更多計(jì)算。

token 省了,推理的消耗反而上升了,理解準(zhǔn)確度還下降了。這筆賬算不過(guò)來(lái)。

古文這個(gè)例子讓我意識(shí)到,token 數(shù)量本身不能說(shuō)明太多問(wèn)題。但順著這個(gè)方向想下去,還有一層我之前忽略了的東西。

上面說(shuō)過(guò),GPT-2 時(shí)代的 tokenizer 會(huì)把「人」這個(gè)字拆成三個(gè) UTF-8 字節(jié) token,后來(lái) GPT-4 的詞表擴(kuò)大,常用漢字變成了一個(gè)字一個(gè) token,Qwen 更進(jìn)一步,把「人工智能」四個(gè)字合成一個(gè) token。

直覺(jué)上這是一個(gè)不斷改進(jìn)的過(guò)程:合并得越多,效率越高,模型應(yīng)該也理解得越好。

但真的是這樣嗎?我們不妨回憶一下,我們是如何認(rèn)識(shí)漢字的。

漢字是表意文字,現(xiàn)代漢字里超過(guò) 80% 是形聲字,由一個(gè)表義的偏旁和一個(gè)表音的部件組合而成?!搞摺古缘淖侄嗪鸵后w有關(guān),「木」旁的字多和植物有關(guān),「火」旁的字多和熱量有關(guān)。偏旁部首就是人類(lèi)識(shí)字時(shí)最基礎(chǔ)的語(yǔ)義線索,一個(gè)不認(rèn)識(shí)「焱」字的人,看到 3 個(gè)「火」也能猜到它和火有關(guān)。

因?yàn)槠圆渴资侨祟?lèi)識(shí)字時(shí)最基礎(chǔ)的語(yǔ)義線索,人會(huì)先從結(jié)構(gòu)推斷意義范疇,再結(jié)合語(yǔ)境理解具體含義。


火花、火焰、光焰,書(shū)面語(yǔ)與人名中多見(jiàn),寓意光明、熾熱。

但是在 tokenizer 的詞表里,「焱」這個(gè)字對(duì)應(yīng)的是一個(gè)編號(hào)。我們假設(shè)它是 38721 號(hào),它代表的是詞表里的一個(gè)索引位置,模型通過(guò)它查找到一組數(shù)字向量,用這組向量來(lái)表征「焱」這個(gè)字。

編號(hào)本身不攜帶任何關(guān)于這個(gè)字內(nèi)部結(jié)構(gòu)的信息。38721 和 38722 的關(guān)系,對(duì)模型來(lái)說(shuō)和 1 和 10000 的關(guān)系沒(méi)有區(qū)別。于是,「漢字的結(jié)構(gòu)」這一層信息,就被封裝起來(lái)了。三個(gè)「火」疊在一起這件事,在編號(hào)里不存在。

模型當(dāng)然可以通過(guò)大量訓(xùn)練數(shù)據(jù)間接學(xué)到「焱」「炎」「灼」經(jīng)常出現(xiàn)在相似的語(yǔ)境里,但這條路比直接利用偏旁信息要更間接一些。

所以模型能不能從拆開(kāi)的字節(jié)里,「看到」某些類(lèi)似偏旁的結(jié)構(gòu)線索,然后在后續(xù)的計(jì)算層里重新組合呢?這條路雖然 token 數(shù)多、成本高,但有沒(méi)有可能在語(yǔ)義理解上,反而比直接吞下一個(gè)不透明的編號(hào)更有效?

2025 年發(fā)表在 MIT Press《Computational Linguistics》上的一篇論文(《Tokenization Changes Meaning in Large Language Models: Evidence from Chinese》),回答了這個(gè)問(wèn)題。

04

碎片里長(zhǎng)出偏旁

論文作者 David Haslett 注意到一個(gè)歷史巧合。

1990 年代,Unicode 聯(lián)盟在給漢字分配 UTF-8 編碼時(shí),排列順序是按部首歸類(lèi)排的。同一個(gè)部首下的漢字,UTF-8 編碼是相鄰的?!覆琛购汀盖o」都含有「艸」部(草字頭),它們的 UTF-8 字節(jié)序列以相同的字節(jié)開(kāi)頭?!负印购汀负!苟己小搞摺共?,字節(jié)序列同樣共享開(kāi)頭。


UTF-8 按照部分部首順序給中文排序,部首相同的字,編碼相近|圖片來(lái)源:Github

這意味著,當(dāng) tokenizer 把漢字拆成三個(gè) UTF-8 字節(jié) token 的時(shí)候,共享部首的漢字會(huì)共享第一個(gè) token。模型在訓(xùn)練過(guò)程中反復(fù)看到這些共享的字節(jié)模式,有可能從中學(xué)到「第一個(gè) token 相同的字,往往屬于同一個(gè)意義范疇」。這在功能上就接近于人類(lèi)通過(guò)偏旁判斷語(yǔ)義的過(guò)程。

Haslett 設(shè)計(jì)了三個(gè)實(shí)驗(yàn)來(lái)驗(yàn)證這件事。

第一個(gè)實(shí)驗(yàn)詢(xún)問(wèn) GPT-4、GPT-4o 和 Llama 3:「茶」和「莖」是否含有相同的語(yǔ)義部首

第二個(gè)實(shí)驗(yàn)讓模型給兩個(gè)漢字的語(yǔ)義相似度評(píng)分。

第三個(gè)實(shí)驗(yàn)讓模型做「找出不同類(lèi)」的排除任務(wù)

每個(gè)實(shí)驗(yàn)都控制了兩個(gè)變量:兩個(gè)漢字是否真的共享部首、兩個(gè)漢字在 tokenizer 下是否共享第一個(gè) token。這個(gè) 2×2 的設(shè)計(jì),讓她能分離出部首效應(yīng)和 token 效應(yīng)各自的影響。

三個(gè)實(shí)驗(yàn)的結(jié)論一致:當(dāng)漢字被切成多個(gè) token 時(shí)(比如 GPT-4 的舊 tokenizer 下,89% 的漢字被切成了多 token),模型識(shí)別共享部首的準(zhǔn)確率更高;當(dāng)漢字被編碼為單個(gè) token 時(shí)(GPT-4o 的新 tokenizer 下,只有 57% 的漢字還是多 token),準(zhǔn)確率下降了

換句話說(shuō),上一段的那個(gè)猜想成立了。把漢字切碎,成本確實(shí)更高,但切碎后的字節(jié)序列里保留了部首的痕跡,模型真的從中學(xué)到了一些東西。而把漢字編碼為整字 token,成本降下來(lái)了,但部首信息被封裝在一個(gè)不透明的編號(hào)里,模型無(wú)法再通過(guò)字節(jié)序列獲取這一線索。

需要特別說(shuō)明的是,這一結(jié)論僅局限于字形相關(guān)的細(xì)分語(yǔ)義任務(wù),不能等同于模型整體的中文理解、邏輯推理、長(zhǎng)文本生成能力下降。同時(shí),實(shí)驗(yàn)對(duì)比的 GPT-4 與 GPT-4o,除了分詞器差異外,模型架構(gòu)、訓(xùn)練語(yǔ)料、參數(shù)量均有顯著變化,無(wú)法將準(zhǔn)確率變化 100% 歸因于分詞粒度的調(diào)整。

這個(gè)發(fā)現(xiàn)還得到了工程側(cè)的驗(yàn)證。2024 年一項(xiàng)針對(duì) GPT-4o 的研究發(fā)現(xiàn),GPT-4o 的新 tokenizer 把某些中文字符組合合成了一個(gè)長(zhǎng) token 之后,模型反而出現(xiàn)了理解錯(cuò)誤。當(dāng)研究者用專(zhuān)業(yè)的中文分詞器,把這些長(zhǎng) token 重新拆開(kāi)再喂給模型,理解準(zhǔn)確度恢復(fù)了。

目前全球大模型行業(yè)的主流共識(shí),依然是針對(duì)目標(biāo)語(yǔ)言?xún)?yōu)化的整詞 / 整字分詞器,能顯著提升模型的整體性能。整字 / 整詞編碼不僅能大幅降低 token 成本、提升上下文窗口的有效信息量,還能縮短序列長(zhǎng)度、降低推理延遲、提升長(zhǎng)文本處理的穩(wěn)定性。論文中發(fā)現(xiàn)的細(xì)分任務(wù)優(yōu)勢(shì),無(wú)法覆蓋絕大多數(shù)中文 NLP 場(chǎng)景的性能收益。

但這件事依然戳中了大型系統(tǒng)里最難處理的一類(lèi)問(wèn)題:你能優(yōu)化你設(shè)計(jì)過(guò)的部分,但你沒(méi)法優(yōu)化你不知道自己擁有的部分。Unicode 聯(lián)盟按部首排列編碼,是為了人類(lèi)檢索的方便。BPE 把漢字拆成字節(jié),是因?yàn)橹形脑谡Z(yǔ)料里的頻率太低。兩個(gè)不相關(guān)的工程決策碰巧疊在一起,產(chǎn)生了一條誰(shuí)都沒(méi)規(guī)劃過(guò)的語(yǔ)義通道。

然后,當(dāng)新一代工程師「改進(jìn)」tokenizer、把漢字合并為整字 token 的時(shí)候,他們同時(shí)抹掉了一條自己不知道存在的路。效率提升了,成本降低了,某些東西也安靜地消失了,而你甚至不會(huì)收到一條報(bào)錯(cuò)信息。

所以事情比「中文在 AI 里多付錢(qián)」這個(gè)判斷更復(fù)雜。每一種 tokenizer 都在為某個(gè)默認(rèn)值優(yōu)化,代價(jià)藏在了別處。

05

林語(yǔ)堂

中文適配西方技術(shù)基礎(chǔ)設(shè)施的代價(jià),不是 AI 時(shí)代才開(kāi)始付的。

2025 年 1 月,紐約居民 Nelson Felix 在 Facebook 一個(gè)打字機(jī)愛(ài)好者小組里發(fā)了幾張照片。他在妻子祖父的遺物里發(fā)現(xiàn)了一臺(tái)刻滿中文的打字機(jī),不知道是什么來(lái)歷。很快數(shù)百條評(píng)論涌入。


Nelson Felix 的問(wèn)題:明快打字機(jī)值錢(qián)嗎?|圖片來(lái)源:Facebook

斯坦福大學(xué)漢學(xué)家墨磊寧(Thomas S. Mullaney)看到照片后立刻認(rèn)出來(lái)了,這是林語(yǔ)堂 1947 年發(fā)明的「明快打字機(jī)」的唯一原型機(jī),失蹤了將近 80 年。同年 4 月,F(xiàn)elix 夫婦將打字機(jī)賣(mài)給斯坦福大學(xué)圖書(shū)館。

明快打字機(jī)要解決的問(wèn)題,和今天 tokenizer 面對(duì)的問(wèn)題在結(jié)構(gòu)上是同一個(gè):怎么把中文高效地嵌入一套為西方語(yǔ)言設(shè)計(jì)的技術(shù)基礎(chǔ)設(shè)施。

1940 年代的英文打字機(jī)有 26 個(gè)字母鍵,一鍵一字,簡(jiǎn)單直接。中文有幾千個(gè)常用字,不可能一鍵一字。當(dāng)時(shí)的中文打字機(jī)是一個(gè)巨大的字盤(pán),排著幾千個(gè)鉛字,打字員用手逐個(gè)撿字,每分鐘只能打十幾個(gè)字。


1899年,美國(guó)傳教士謝衛(wèi)樓(Devello Z. Sheffield)所發(fā)明的中文打字機(jī),是中文打字機(jī)最早的紀(jì)錄|圖片來(lái)源:Wikipedia

林語(yǔ)堂耗資 12 萬(wàn)美元研發(fā)經(jīng)費(fèi),幾乎傾家蕩產(chǎn),委托紐約的 Carl E. Krum 公司做出了一臺(tái)只有 72 個(gè)鍵的中文打字機(jī)。工作原理是把漢字按字形結(jié)構(gòu)拆開(kāi),上形鍵選字根上半部、下形鍵選字根下半部,候選字顯示在一個(gè)叫「魔術(shù)眼」的小窗里,按數(shù)字鍵選中。每分鐘 40 到 50 字,支持 8000 余常用字符。


(左)透明玻璃小窗即位「魔術(shù)眼」;(右)明快打字機(jī)內(nèi)部結(jié)構(gòu)|圖片來(lái)源:Facebook

趙元任評(píng)價(jià):「不論中國(guó)人還是美國(guó)人,只要稍加學(xué)習(xí),便能熟悉這一鍵盤(pán)。我認(rèn)為這就是我們所需要的打字機(jī)了?!?/p>

技術(shù)上明快打字機(jī)是一種突破,但商業(yè)上它失敗了。

林語(yǔ)堂向雷明頓公司高管演示時(shí)機(jī)器出了故障,投資者隨之失去興趣,而造價(jià)高昂加上他個(gè)人資金鏈斷裂,量產(chǎn)再無(wú)可能。1948 年,林語(yǔ)堂將原型機(jī)和商業(yè)權(quán),賣(mài)給默根特勒鑄排機(jī)公司(Mergenthaler Linotype)。該公司最終放棄量產(chǎn),原型機(jī)在 1950 年代公司搬遷時(shí)被一位員工帶回長(zhǎng)島家中,之后下落不明,直到 2025 年重見(jiàn)天日。

墨磊寧在《中文打字機(jī)》一書(shū)里有一個(gè)判斷,他認(rèn)為明快打字機(jī)「并不失敗」。作為一款 1940 年代的產(chǎn)品,它確實(shí)失敗了。但作為一種人機(jī)交互范式,它勝利了

林語(yǔ)堂第一次把中文「打字」變成了「檢索加選擇」。三排按鍵組合定位字根,從候選字里挑選。這正是所有現(xiàn)代中文輸入法的底層邏輯。從倉(cāng)頡、五筆到搜狗拼音,都可以說(shuō)是明快打字機(jī)的后裔。


《中文打字機(jī)》,作者:墨磊寧|圖片來(lái)源:豆瓣

這臺(tái)跨越了近八十年的打字機(jī),和今天我們反復(fù)討論的分詞器,暗藏著某種的歷史規(guī)律。中文始終面對(duì)著一個(gè)問(wèn)題

如何接入一套羅馬字母形成的基礎(chǔ)設(shè)施

有趣的是,在這個(gè)尋找的過(guò)程中,充滿了非人為規(guī)劃的巧合。Unicode 聯(lián)盟為了人類(lèi)檢索方便制定的排序,跟 BPE 算法的無(wú)心拆解疊在一起,竟然在神經(jīng)網(wǎng)絡(luò)的黑盒里,重現(xiàn)了人類(lèi)識(shí)字的過(guò)程。而當(dāng)工程師們?yōu)榱讼钢形亩悺?,主?dòng)把漢字拼好、把成本打下來(lái)時(shí),那條意外誕生的語(yǔ)義通道也閉合了。

歷史并不是一條直線進(jìn)化的軌道,而是在各種約束條件的擠壓下,不斷發(fā)生變形的流體。

有些能力是設(shè)計(jì)出來(lái)的,有些只是碰巧沒(méi)有被刪掉。

*頭圖來(lái)源:geyuyao.com

本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO

極客一問(wèn)

你怎么看大模型「中文稅」這件事?


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
詹姆斯:網(wǎng)傳我身價(jià)十幾億都是假的,我卡上就幾千塊,身上的行頭都不花錢(qián)

詹姆斯:網(wǎng)傳我身價(jià)十幾億都是假的,我卡上就幾千塊,身上的行頭都不花錢(qián)

動(dòng)物奇奇怪怪
2026-05-04 09:05:10
臺(tái)灣終于等來(lái)同心領(lǐng)頭人!兩岸統(tǒng)一大勢(shì),誰(shuí)也擋不住!

故事終將光明磊落
2026-05-04 11:01:41

特朗普稱(chēng)伊朗的“新提議”不可接受

特朗普稱(chēng)伊朗的“新提議”不可接受

界面新聞
2026-05-04 07:00:28
邁瑞女高管,日薪4.6萬(wàn)!

邁瑞女高管,日薪4.6萬(wàn)!

醫(yī)療器械經(jīng)銷(xiāo)商聯(lián)盟
2026-05-04 07:58:29
爆料:伊朗暗示妥協(xié)

爆料:伊朗暗示妥協(xié)

魯中晨報(bào)
2026-05-02 19:43:45
被淘汰后徐昕主動(dòng)和陳海濤父子握手示好,卻不理杜峰

被淘汰后徐昕主動(dòng)和陳海濤父子握手示好,卻不理杜峰

陌識(shí)
2026-05-04 12:04:32
NBA東西部4強(qiáng)產(chǎn)生!半決賽晉級(jí)概率如下:雷霆85% 騎士55%馬刺70%

NBA東西部4強(qiáng)產(chǎn)生!半決賽晉級(jí)概率如下:雷霆85% 騎士55%馬刺70%

小徐講八卦
2026-05-04 10:53:50
拒絕黑八!活塞4-3逆轉(zhuǎn)魔術(shù)晉級(jí) 坎寧安32+12班凱羅38+9+6

拒絕黑八!活塞4-3逆轉(zhuǎn)魔術(shù)晉級(jí) 坎寧安32+12班凱羅38+9+6

醉臥浮生
2026-05-04 06:12:37
兩性關(guān)系:55-65歲這十年,惜命最好的方式,不是鍛煉,而是這6點(diǎn)

兩性關(guān)系:55-65歲這十年,惜命最好的方式,不是鍛煉,而是這6點(diǎn)

周哥一影視
2026-04-17 06:45:59
男子五一帶朋友回家喝酒,不顧妻子隱私,當(dāng)場(chǎng)大打出手,丟盡臉面

男子五一帶朋友回家喝酒,不顧妻子隱私,當(dāng)場(chǎng)大打出手,丟盡臉面

觀察鑒娛
2026-05-04 10:09:18
無(wú)人機(jī)禁飛之后,大量北京網(wǎng)友低價(jià)進(jìn)行甩賣(mài)

無(wú)人機(jī)禁飛之后,大量北京網(wǎng)友低價(jià)進(jìn)行甩賣(mài)

映射生活的身影
2026-05-02 22:42:01
春晚爆紅后,她洗完澡從23樓一躍而下,臨終時(shí)最后喊了聲"媽媽"

春晚爆紅后,她洗完澡從23樓一躍而下,臨終時(shí)最后喊了聲"媽媽"

米果說(shuō)識(shí)
2026-04-18 16:50:03
公公當(dāng)面罵兒媳破鞋,以為她不敢回嘴,誰(shuí)料她一句話讓大家愣住了

公公當(dāng)面罵兒媳破鞋,以為她不敢回嘴,誰(shuí)料她一句話讓大家愣住了

麥子情感故事
2026-05-03 17:54:12
曼聯(lián)豪取三連勝!鎖定歐冠門(mén)票,10年首次雙殺利物浦,連刷4紀(jì)錄

曼聯(lián)豪取三連勝!鎖定歐冠門(mén)票,10年首次雙殺利物浦,連刷4紀(jì)錄

奧拜爾
2026-05-04 00:31:30
32+30!史上最爛黑8搶7終于結(jié)束!23年了,魔術(shù)還是那么爛!

32+30!史上最爛黑8搶7終于結(jié)束!23年了,魔術(shù)還是那么爛!

貴圈真亂
2026-05-04 09:46:50
爸走前讓我提防舅舅,把530萬(wàn)存信托后,媽就要拿80萬(wàn)給表哥買(mǎi)車(chē)

爸走前讓我提防舅舅,把530萬(wàn)存信托后,媽就要拿80萬(wàn)給表哥買(mǎi)車(chē)

大熊歡樂(lè)坊
2026-05-04 09:26:49
92年高考前,班主任嘲笑我是去工廠的命,10年后同學(xué)會(huì)再見(jiàn)她懵了

92年高考前,班主任嘲笑我是去工廠的命,10年后同學(xué)會(huì)再見(jiàn)她懵了

白云故事
2025-04-05 19:55:04
最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣(mài)淫行為?

最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣(mài)淫行為?

周軍律師聊案子
2026-04-21 09:50:16
吳宜澤為何輸墨菲四連鞭?賽后吳宜澤幽默說(shuō)出原因,說(shuō)的非常實(shí)在

吳宜澤為何輸墨菲四連鞭?賽后吳宜澤幽默說(shuō)出原因,說(shuō)的非常實(shí)在

觀察鑒娛
2026-05-04 10:46:19
外媒:以色列緊急向阿聯(lián)酋部署“鐵光束”和“斯佩克特羅”系統(tǒng)

外媒:以色列緊急向阿聯(lián)酋部署“鐵光束”和“斯佩克特羅”系統(tǒng)

參考消息
2026-05-03 12:53:04
2026-05-04 15:04:49
極客公園
極客公園
讓最棒的創(chuàng)新成為頭條
12011文章數(shù) 78876關(guān)注度
往期回顧 全部

科技要聞

OpenAI“復(fù)活”了QQ寵物,網(wǎng)友直接玩瘋

頭條要聞

媒體:見(jiàn)東南亞請(qǐng)求中國(guó)賣(mài)石油 日本罕見(jiàn)向俄羅斯購(gòu)買(mǎi)

頭條要聞

媒體:見(jiàn)東南亞請(qǐng)求中國(guó)賣(mài)石油 日本罕見(jiàn)向俄羅斯購(gòu)買(mǎi)

體育要聞

騎士破猛龍:加雷特·阿倫的活力

娛樂(lè)要聞

嚴(yán)浩翔新歌,父母離婚17年矛盾升級(jí)

財(cái)經(jīng)要聞

魔幻的韓國(guó)股市,父母給嬰兒開(kāi)戶(hù)買(mǎi)股票

汽車(chē)要聞

同比大漲190% 方程豹4月銷(xiāo)量29138臺(tái)

態(tài)度原創(chuàng)

游戲
教育
親子
公開(kāi)課
軍事航空

《生化危機(jī)9》仍有重大遺憾!大神手搓MOD強(qiáng)制解決

教育要聞

一中、四中和西外

親子要聞

中日萌娃喜娜醬假期結(jié)束,開(kāi)學(xué)第一天,表現(xiàn)的怎么樣?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普回絕伊朗新方案

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版