国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

token正式命名為“詞元”,token到底是個(gè)啥?

0
分享至

最近幾天,不少人第一次在許許多多的媒體里看見了這個(gè)詞。不是流量,不是算力,也不是參數(shù),而是一個(gè)原本更常出現(xiàn)在程序員聊天記錄和大模型后臺(tái)里的詞——token,也就是“詞元”。

01


一夜之間,

token怎么就成了“詞元”?



“詞元”被正式定義。圖源于網(wǎng)絡(luò)

值得注意的是,在人民日?qǐng)?bào)等公開報(bào)道里,它被明確寫成了“詞元”;在國(guó)新辦發(fā)布會(huì)上,國(guó)家數(shù)據(jù)局局長(zhǎng)也直接說出了“Token,也就是詞元”這句話。一個(gè)技術(shù)圈常用的英文詞,正在以中文名字進(jìn)入更廣泛的公共表達(dá)。

為什么這件事值得關(guān)注?因?yàn)橐粋€(gè)概念一旦被大眾媒體穩(wěn)定使用,就意味著它不再只是圈內(nèi)黑話,而是開始成為普通人也會(huì)頻繁遇到的公共詞匯。以前大家刷到 AI 新聞時(shí),看到 token 往往會(huì)直接跳過;現(xiàn)在,“詞元”這個(gè)譯法把它拉近了。它不像一個(gè)遙遠(yuǎn)的英文術(shù)語,更像一個(gè)可以被理解、可以被討論、也可以被拿來解釋現(xiàn)實(shí)世界的新名詞。


看似聊天,背后卻是詞元計(jì)算。圖源于網(wǎng)絡(luò)

問題隨之而來:這個(gè)聽起來像是AI時(shí)代的“貨幣”單位的詞元,到底是什么?它為什么突然這么重要?它跟我們平時(shí)說的字、詞、句子,到底是什么關(guān)系?很多人以為自己只是在和 AI 聊天,實(shí)際上在模型眼里,這整個(gè)過程都在圍繞詞元展開。

02


一句話解釋,

詞元到底是個(gè)啥?

最直接的答案是,token,也就是詞元,是大模型處理語言時(shí)使用的基本單位。它不是整句話,也不總是一個(gè)完整的詞,更不等于字?jǐn)?shù)。人類看見的是一段完整表達(dá),模型接收到的卻是一連串被切開的信息小塊。模型不會(huì)像人那樣“直接讀懂一句話”,它需要先把語言拆分,再把這些拆分后的部分轉(zhuǎn)成數(shù)字,最后才能繼續(xù)計(jì)算。

如果把人類語言比作一條長(zhǎng)長(zhǎng)的項(xiàng)鏈,那詞元就像項(xiàng)鏈上的珠子。你看到的是整體的光澤和形狀,模型處理的卻是每一顆珠子的順序、位置和關(guān)系。它并不先理解“意義”,而是先處理“單位”。這就是為什么詞元是大模型世界里最基礎(chǔ)、也最關(guān)鍵的那把尺子。


你看到的是一句話,模型看到的是一串詞元。圖為AI創(chuàng)作

換個(gè)更生活化的比喻也許更好理解。我們點(diǎn)外賣時(shí),平臺(tái)不會(huì)按“我現(xiàn)在有點(diǎn)餓”來計(jì)算訂單,它會(huì)按份數(shù)、菜品、重量、地址這些可處理的單位來組織系統(tǒng)。模型面對(duì)語言也是一樣。你輸入的是問題、情緒和需求,模型真正處理的卻是一個(gè)個(gè)可以統(tǒng)計(jì)、可以編碼、可以運(yùn)算的詞元。

它不是“字”,也不是“詞”,更不是“句子”。

很多人一看到“詞元”這個(gè)中文譯名,就會(huì)自然地把它理解成“詞”。但這恰恰是最容易產(chǎn)生誤會(huì)的地方。詞元并不嚴(yán)格等于語文課本里的“詞”,也不穩(wěn)定對(duì)應(yīng)某個(gè)漢字,更不是一整個(gè)句子。它是機(jī)器為了處理語言而切分出來的一種計(jì)算單位。


詞元不是整句,也不穩(wěn)定等于一個(gè)詞。圖源于網(wǎng)絡(luò)

有時(shí)候,一個(gè)詞元可能只是一個(gè)字符;有時(shí)候,它可能是一整個(gè)常見詞;還有時(shí)候,它只是一個(gè)詞的一部分??崭瘛?biāo)點(diǎn)、前后搭配,都會(huì)影響切分結(jié)果。也就是說,詞元不是語言天然長(zhǎng)出來的邊界,而是模型為了更高效地處理語言,主動(dòng)“切”出來的顆粒。

這件事非常重要,因?yàn)樗鼤?huì)直接影響我們對(duì)“token 數(shù)量”的理解。你不能把 token 簡(jiǎn)單換算成“多少個(gè)字”或者“多少個(gè)詞”。同一句話,換一個(gè)模型,詞元數(shù)量可能就變了。因?yàn)椴煌P捅澈蟮?tokenizer,也就是詞元切分器,并不完全相同。人類共享的是語言,模型共享的卻未必是同一套切法。


詞元像積木,一樣大的物體,可以根據(jù)不同的定義,拆解成不同的元件。圖源于網(wǎng)絡(luò)

03


模型為什么一定要

先把話“切一刀”?

原因說穿了并不神秘:模型并不真正認(rèn)識(shí)文字,它認(rèn)識(shí)的是數(shù)字。對(duì)我們來說,文字本身攜帶意義;對(duì)機(jī)器來說,文字只是符號(hào)。要讓模型處理語言,必須先把這些符號(hào)轉(zhuǎn)成編號(hào),再讓模型在編號(hào)之間建立關(guān)系。詞元就是這個(gè)翻譯過程中最關(guān)鍵的一層。

所以,大模型理解一句話的大致流程并不是“看見文字=立刻懂了”,而更像“切分語言—映射編號(hào)—進(jìn)行計(jì)算—生成新編號(hào)—再還原成文字”。從這個(gè)角度看,模型不是在直接閱讀人類語言,而是在處理一條條編號(hào)序列。文字是我們看到的外衣,詞元和編號(hào)才是模型真正工作的內(nèi)部形態(tài)。



和其它計(jì)量單位作用相似,詞元是AI 時(shí)代的重要“計(jì)量單位”。圖源于網(wǎng)絡(luò)

如果你愿意把它想象得更具象一點(diǎn),tokenizer 就像海關(guān)安檢機(jī)。人類說出一句完整的話,進(jìn)門時(shí)先被拆包、掃描、分類、編號(hào),然后才進(jìn)入系統(tǒng)內(nèi)部流轉(zhuǎn)。你在外面看到的是“我說了一句話”,模型內(nèi)部發(fā)生的卻是一場(chǎng)高密度的信息物流。

今天人人都開始談?wù)撛~元,因?yàn)樵~元已經(jīng)不只是技術(shù)細(xì)節(jié),而是越來越像 AI 時(shí)代的基礎(chǔ)計(jì)量單位。你和模型聊一次天,會(huì)消耗輸入詞元;模型給你回一段話,會(huì)產(chǎn)生輸出詞元;上下文越長(zhǎng)、材料越多、任務(wù)越復(fù)雜,詞元消耗往往也越高。于是,速度、成本、上下文容量、服務(wù)能力,最后都會(huì)和詞元掛鉤。


AI運(yùn)用詞元的基本原理。圖為AI生成

這也是為什么,國(guó)家數(shù)據(jù)局會(huì)把詞元描述為既可計(jì)量,也可定價(jià)、可交易的單位。一個(gè)概念一旦同時(shí)進(jìn)入技術(shù)語言、產(chǎn)業(yè)語言和媒體語言,就說明它已經(jīng)不僅僅是工程師內(nèi)部的術(shù)語,而是正在成為商業(yè)和公共討論中的共同語言。簡(jiǎn)單說,詞元之于大模型,有點(diǎn)像度數(shù)之于電表、流量之于手機(jī)套餐、公里數(shù)之于網(wǎng)約車。你平時(shí)可能不盯著它看,但一旦涉及性能、費(fèi)用和規(guī)模,它立刻變成關(guān)鍵數(shù)字。

04


為什么中文語境下,

“詞元”尤其值得理解?

在英文里,很多人會(huì)自然把 token 聯(lián)想到 word,也就是“詞”。但中文并不是按空格天然分詞的語言,漢字、詞語、短語和語境之間的邊界都更靈活。因此,如果簡(jiǎn)單把 token 理解成“單詞”,在中文場(chǎng)景下反而更容易誤解。

這也是“詞元”這個(gè)譯法的一個(gè)妙處。它沒有把 token 硬塞進(jìn)已有的語法概念里,而是保留了一點(diǎn)技術(shù)感,同時(shí)又給普通人留出了理解空間。它在字和詞之間,在語言學(xué)概念和計(jì)算概念之間,搭起了一座橋。你一看就知道,它大概和“詞”有關(guān),但又不是傳統(tǒng)意義上的詞。

更進(jìn)一步說,很多主流的詞元化方法,本來就不是按傳統(tǒng)詞典那樣死板切分,而是采用子詞策略。常見表達(dá)盡量整體保留,罕見表達(dá)再拆得更細(xì)。這樣既能控制詞表規(guī)模,又能兼顧表達(dá)能力。對(duì)于中文這種沒有天然空格的語言,這種策略尤其關(guān)鍵。


AI對(duì)語言的轉(zhuǎn)化。圖源于網(wǎng)絡(luò)

理解詞元,其實(shí)是在理解 AI 到底怎么‘讀’你的話。很多人覺得 AI 神秘,一個(gè)重要原因是我們總是從結(jié)果去看它。它會(huì)聊天、會(huì)寫作、會(huì)總結(jié)、會(huì)翻譯,于是大家容易把它想象成一個(gè)藏在屏幕后面的“聰明大腦”。但如果你從詞元這個(gè)入口重新看,大模型立刻就會(huì)變得更具體。它不是先有靈感,再給出答案;它是在大量詞元之間不斷計(jì)算下一步最可能出現(xiàn)什么。

這并不會(huì)削弱 AI 的神奇感,反而會(huì)讓我們更真實(shí)地理解它。你會(huì)明白,模型看起來像在和你自然交流,本質(zhì)上卻在完成一場(chǎng)高度精密的語言運(yùn)算。你看到的是話語的流動(dòng),模型經(jīng)歷的是詞元的排布、映射與生成。你感受到的是“它好像懂我”,模型內(nèi)部處理的卻是“這些詞元在上下文里如何彼此關(guān)聯(lián)”。

對(duì)普通人來說,理解這一點(diǎn)很有價(jià)值。因?yàn)槲磥碓絹碓蕉嗟?AI 產(chǎn)品說明書、服務(wù)計(jì)費(fèi)、性能指標(biāo)、上下文限制、平臺(tái)公告,都會(huì)不斷提到“詞元”這個(gè)單位。它很可能會(huì)像曾經(jīng)的“流量”“像素”“帶寬”一樣,慢慢成為數(shù)字生活里必須認(rèn)識(shí)的新詞。

說到底,詞元讓我們看見了 AI 的底層節(jié)奏。

如果用一句話收束全文,答案可以是這樣的:詞元是人工智能把人類語言翻譯成機(jī)器可處理形式時(shí)所使用的基本單位。它一頭連著文字,一頭連著數(shù)字;一頭連著理解,一頭連著計(jì)算;一頭連著技術(shù)原理,一頭連著商業(yè)現(xiàn)實(shí)。


理解詞元,就是理解 AI 如何真正“讀”你的話。圖源于網(wǎng)絡(luò)

所以,下次再聽到“這個(gè)模型很費(fèi) token”時(shí),你完全可以把它理解得更準(zhǔn)確一些:不是它“很費(fèi)詞”,而是它在大量消耗機(jī)器處理語言所需的最小計(jì)算單位。你看到的是一句完整的話,模型面對(duì)的卻是一串可以分割、編號(hào)和運(yùn)算的詞元。

而“詞元”這個(gè)中文名字之所以重要,也正因?yàn)樗尭嗳说谝淮斡袡C(jī)會(huì)用中文、用日常經(jīng)驗(yàn),去理解大模型世界里最基礎(chǔ)卻最關(guān)鍵的一塊磚。你并不一定要學(xué)會(huì)訓(xùn)練模型,但只要理解了詞元,就已經(jīng)摸到了 AI 時(shí)代語言計(jì)算的門把手。

參考資料:

[1] 人民日?qǐng)?bào). 我國(guó)日均詞元調(diào)用量突破140萬億[EB/OL]. (2026-03-24)[2026-03-24].https://paper.people.com.cn/rmrb/pc/content/202603/24/content_30147015.html.

[2] 國(guó)家數(shù)據(jù)局. 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏出席國(guó)新辦新聞發(fā)布會(huì) 介紹第九屆數(shù)字中國(guó)建設(shè)峰會(huì)有關(guān)情況并回答記者提問[EB/OL]. (2026-03-24)[2026-03-24].https://www.nda.gov.cn/sjj/zhuanti/sjzgzxd/szzgzb/0324/20260324132817761432606_pc.html.

[3] OpenAI. What are tokens and how to count them?[EB/OL]. [2026-03-24]. https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them.

[4] OpenAI. Tokenizer[EB/OL]. [2026-03-24].

https://platform.openai.com/tokenizer.

[5] Hugging Face. Tokenizer[EB/OL]. [2026-03-24]. https://huggingface.co/docs/transformers/main_classes/tokenizer.

[6] Hugging Face. Summary of the tokenizers[EB/OL]. [2026-03-24]. https://huggingface.co/docs/transformers/v4.47.1/tokenizer_summary.

[7] Hugging Face. Tokenization algorithms[EB/OL]. [2026-03-24]. https://huggingface.co/docs/transformers/tokenizer_summary.

編輯:亦山

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
看了一天!終于理清特朗普老婆和愛潑斯坦的瓜!

看了一天!終于理清特朗普老婆和愛潑斯坦的瓜!

啃金融
2026-04-10 22:47:23
如何優(yōu)雅地謀殺一座城:陳麗華的推土機(jī)與華新民的廢紙

如何優(yōu)雅地謀殺一座城:陳麗華的推土機(jī)與華新民的廢紙

有戲
2026-04-11 09:21:04
張雪峰老師后繼有人!峰學(xué)蔚來小郭老師登上熱搜,網(wǎng)友直言整哭了

張雪峰老師后繼有人!峰學(xué)蔚來小郭老師登上熱搜,網(wǎng)友直言整哭了

火山詩話
2026-04-12 08:39:45
雷暴周一!15股迎天量解禁,37股遭減持,這50家別碰

雷暴周一!15股迎天量解禁,37股遭減持,這50家別碰

慧眼看世界哈哈
2026-04-12 06:23:18
張雪夸同行豪爵踏板,豪爵老板回應(yīng):當(dāng)時(shí)我就震驚了!

張雪夸同行豪爵踏板,豪爵老板回應(yīng):當(dāng)時(shí)我就震驚了!

童叔不飆車
2026-04-09 20:43:06
蘇州小伙娶小7歲俄羅斯美女,洋媳婦熱衷生娃,說至少要生4個(gè)

蘇州小伙娶小7歲俄羅斯美女,洋媳婦熱衷生娃,說至少要生4個(gè)

不似少年游
2026-04-11 19:41:13
爆料者:壓根不是沖賈淺淺,查賈平凹時(shí)意外匹配到八字直指惡劣度

爆料者:壓根不是沖賈淺淺,查賈平凹時(shí)意外匹配到八字直指惡劣度

觀察鑒娛
2026-04-11 11:28:56
他竟然轉(zhuǎn)型成了個(gè)“正能量偶像”?

他竟然轉(zhuǎn)型成了個(gè)“正能量偶像”?

BenSir本色說
2026-04-10 22:07:04
部分員工無證上崗,同花順旗下基金銷售公司收罰單

部分員工無證上崗,同花順旗下基金銷售公司收罰單

南方都市報(bào)
2026-04-12 11:12:10
30分鐘直撲東北!美國(guó)調(diào)48架F-35兵臨城下,解放軍:敢動(dòng)就全殲!

30分鐘直撲東北!美國(guó)調(diào)48架F-35兵臨城下,解放軍:敢動(dòng)就全殲!

論事的老樞
2026-04-11 20:37:25
周末信息如何影響市場(chǎng)?明天是紅色星期一?還是黑色星期一?

周末信息如何影響市場(chǎng)?明天是紅色星期一?還是黑色星期一?

春江財(cái)富
2026-04-12 09:29:38
亞錦賽出現(xiàn)3匹黑馬!國(guó)羽爭(zhēng)3冠韓國(guó)提前定2冠,混雙冠軍提前揭曉

亞錦賽出現(xiàn)3匹黑馬!國(guó)羽爭(zhēng)3冠韓國(guó)提前定2冠,混雙冠軍提前揭曉

排球黃金眼
2026-04-12 00:05:17
2-0!17歲天才閃耀,薩拉赫建功,終結(jié)3連敗,利物浦叫板大巴黎

2-0!17歲天才閃耀,薩拉赫建功,終結(jié)3連敗,利物浦叫板大巴黎

我的護(hù)球最獨(dú)特
2026-04-12 02:36:39
正式達(dá)標(biāo)!你好,倫納德!戰(zhàn)神卡重現(xiàn)NBA

正式達(dá)標(biāo)!你好,倫納德!戰(zhàn)神卡重現(xiàn)NBA

籃球?qū)崙?zhàn)寶典
2026-04-11 16:54:45
兩岸統(tǒng)一后:臺(tái)灣為何不宜“建省”?背后是一段深刻歷史教訓(xùn)

兩岸統(tǒng)一后:臺(tái)灣為何不宜“建省”?背后是一段深刻歷史教訓(xùn)

三石記
2026-04-11 11:52:20
導(dǎo)演溫成林因突發(fā)心梗搶救無效去世,享年62歲

導(dǎo)演溫成林因突發(fā)心梗搶救無效去世,享年62歲

澎湃新聞
2026-04-11 13:43:02
匈牙利總理歐爾班競(jìng)選被喊“俄羅斯人回家”!只剩2成勝率

匈牙利總理歐爾班競(jìng)選被喊“俄羅斯人回家”!只剩2成勝率

項(xiàng)鵬飛
2026-04-11 22:08:11
美伊談判:倆“生手”上桌,三大分歧待解,都藏著后手

美伊談判:倆“生手”上桌,三大分歧待解,都藏著后手

上游新聞
2026-04-11 16:59:35
55歲上海炒股冠軍罕見發(fā)聲:尾盤30分鐘買次日必漲股票,從不例外

55歲上海炒股冠軍罕見發(fā)聲:尾盤30分鐘買次日必漲股票,從不例外

股經(jīng)縱橫談
2026-04-11 16:40:48
鄭麗文的婚姻:女主外男主內(nèi),不生育孩子,事業(yè)理想置于家庭之上

鄭麗文的婚姻:女主外男主內(nèi),不生育孩子,事業(yè)理想置于家庭之上

觀察者海風(fēng)
2026-04-09 17:42:58
2026-04-12 11:40:49
中科院物理所 incentive-icons
中科院物理所
愛上物理,改變世界。
10056文章數(shù) 136519關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

美國(guó)副總統(tǒng)萬斯:美伊談判未能達(dá)成協(xié)議 將返回美國(guó)

頭條要聞

美國(guó)副總統(tǒng)萬斯:美伊談判未能達(dá)成協(xié)議 將返回美國(guó)

體育要聞

換帥之后,他們從降級(jí)區(qū)沖到升級(jí)區(qū)

娛樂要聞

46歲趙達(dá)官宣結(jié)婚!曾與殷桃談婚論嫁

財(cái)經(jīng)要聞

三輪磋商談至深夜 美伊談判三大議題仍待解

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬起

態(tài)度原創(chuàng)

數(shù)碼
本地
旅游
家居
公開課

數(shù)碼要聞

戴爾推出Pro Micro瘦客戶機(jī)Q9M1260:7瓦功耗,可選1GbE光纖接口

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

旅游要聞

河北灤平:春日金山嶺長(zhǎng)城美如畫卷

家居要聞

復(fù)古風(fēng)格 自然簡(jiǎn)約

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版