国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型的token究竟是什么?一文讀懂!

0
分享至

在大模型的語境中,token是一個基本的數(shù)據(jù)處理單元,它可以是一個單詞、一個字符,或者是一個子詞等,以下從其定義、作用及常見的token劃分方式等方面進行具體介紹:

定義:簡單來說,token是對文本進行分割后的最小單元。大模型在處理文本時,無法直接處理人類自然語言中的文字,需要將文本拆分成一個個的token,以便模型能夠理解和處理。例如,對于句子 “歡迎關(guān)注訂閱招文袋公眾號”,可以將其拆分成多個token:“歡迎”“關(guān)注”“訂閱”“招文袋”“公眾號”。

作用將文本數(shù)字化:把自然語言文本轉(zhuǎn)化為模型可以處理的數(shù)字向量形式。每個token會被映射為一個唯一的數(shù)字編號,模型通過處理這些數(shù)字來學習語言的模式和規(guī)律。如在一個簡單的詞匯表中,“歡迎”可能被編碼為1,“關(guān)注”編碼為2,“訂閱”編碼為3,“招文袋”編碼為4,“公眾號”編碼為5。這樣句子 “歡迎關(guān)注訂閱招文袋公眾號”就可以表示為 [1, 2, 3,4,5],便于模型進行計算和分析。

控制模型輸入輸出長度:模型處理的token數(shù)量是有限制的,通過對文本進行token化,可以將輸入文本截斷或補齊到合適的長度,使模型能夠有效地處理。例如,某模型的輸入長度限制為512個token,對于較長的文本,就需要截斷多余部分;對于較短的文本,可能需要添加特殊的填充token,使其達到規(guī)定長度。

提高語言理解精度:將文本細分為token后,模型可以更精確地捕捉語言中的語義和語法信息。比如,對于一些具有多種含義的詞,通過上下文的其他 token,模型能更準確地判斷其在具體語境中的意思。

常見的token劃分方式單詞級別:將文本按照空格等分隔符拆分成多個單獨的詞匯作為token。如 “加入招文袋知識星球一起學習AI” 會被拆分為 “加入”“招文袋”“知識星球”“一起” “學習”“AI”六個token。這種方式簡單直接,但對于一些復(fù)雜的語言現(xiàn)象,如復(fù)合詞、詞的變形等處理可能不夠精細。

字符級別:把文本中的每個字符都作為一個token。例如,“關(guān)注招文袋” 會被拆分為“關(guān)”“注”“招”“文”“袋”五個token。字符級別的token化可以處理任何未知的詞匯,但會導致輸入序列過長,增加模型的計算量和訓練難度。

子詞級別:結(jié)合了單詞級別和字符級別的優(yōu)點,將單詞拆分成更小的子詞單元。例如,“招文袋知識星球” 可能被拆分成 “招文”“袋”“知識”“星球”四個token。這種方式既能處理一些罕見詞和復(fù)合詞,又能保持相對合理的token數(shù)量和序列長度。

如何計算token的數(shù)量?

計算token數(shù)量的方法會因tokenization的方式不同而有所差異,常見的有基于空格或標點符號的簡單統(tǒng)計、基于預(yù)訓練模型的工具包統(tǒng)計、基于字符的統(tǒng)計等方法,以下是具體介紹:

基于空格和標點符號的簡單統(tǒng)計

對于以單詞為token的情況,可以通過統(tǒng)計文本中的空格和標點符號來大致計算token數(shù)量。例如,對于文本 “知識星球名:招文袋 星球號:75873546!保梢酝ㄟ^計算空格和標點符號的數(shù)量來確定 token 的數(shù)量。一般來說,空格將單個詞匯分隔開,標點符號也可以作為分隔的標志。在這個例子中,有四個token,分別是“知識星球名”“招文袋”“星球號”“75873546”。不過這種方法對于一些復(fù)雜的語言現(xiàn)象可能會不準確。

基于預(yù)訓練模型的工具包統(tǒng)計

使用Hugging Face(一個專注于自然語言處理的開源社區(qū))的tokenizers庫:許多預(yù)訓練語言模型都有相應(yīng)的tokenizer工具,以Hugging Face的transformers庫為例,它提供了各種預(yù)訓練模型的tokenizer,可以方便地對文本進行token化并計算token數(shù)量。如對于BERT模型(一種語言表示模型),可以使用BertTokenizer(對文本進行分詞和編碼的工具)來處理文本。

使用AllenNLP(一個自然語言處理的模型框架)的tokenizers:AllenNLP也提供了豐富的自然語言處理工具,包括tokenizer?梢允褂肧pacyTokenizer或WordTokenizer等對文本進行處理和 token 數(shù)量計算。

基于字符的統(tǒng)計

如果是基于字符的tokenization,那么直接統(tǒng)計文本中的字符數(shù)量即可。例如,對于文本 “知識星球名:招文袋”,字符數(shù)量為8,即token數(shù)量為8。但需要注意一些特殊情況,如是否將空格、標點符號等也算作token。如果要將空格也算作token,那么 “知識星球名:招文袋” 的token數(shù)量就是9。

基于特定規(guī)則的統(tǒng)計

對于一些特定的領(lǐng)域或任務(wù),可能會有自定義的token定義和計算規(guī)則。例如,在處理代碼時,可以將每個關(guān)鍵字、變量名、運算符等作為一個 token(小白不用處理代碼,了解即可)。

最后,簡單直白總結(jié)如下:

- token定義:大語言模型接收到文字后,分詞器將其切成的小塊就是token,它可以是單個漢字、詞語、短語、標點符號、單詞或詞綴等。大模型輸出文字時也是逐個token生成,所以看起來像打字。

- token存在的原因:類比人腦處理信息方式,為提高效率、節(jié)省腦力,人腦常把有意義的詞語或短語作為整體對待,人工智能也借鑒了這一思路,通過分詞器把大段文字拆解成大小合適的token。

- 分詞器分詞方法:分詞器通過統(tǒng)計大量文字,把經(jīng)常一起出現(xiàn)的組合(如“招文袋” )、單個常用字(如“請”)、常見字母組合(如“ing” )、標點符號等,分別打包成token,配上編號,形成龐大的token表。大模型輸入和輸出時,處理的是token編號,再由分詞器轉(zhuǎn)換為人類可看懂的內(nèi)容。

- token的作用及計費方式:token是大模型理解和生成文字的基礎(chǔ),大模型通過計算token之間的關(guān)系推算下一個可能的token。幾乎所有大模型公司按token數(shù)量計費,因為其對應(yīng)背后的計算量。

這里有些AI大模型說是免費,其實是免費一部分token,超過后就要收費。比如,有平臺就出了政策,說新注冊或者拉新會員注冊就免費送你50萬token。看著數(shù)字好像很多都用不完的樣子,但其實如果天天用的話,幾天也就用沒了。

- 不同模型分詞差異:不同模型分詞結(jié)果不同,如“請關(guān)注訂閱招文袋公眾號”在DeepSeek和其他模型里分詞結(jié)果不同,所以分詞的數(shù)量也就不同了。此外,token在人工智能領(lǐng)域外也有出現(xiàn),但含義不同。

就說到這里,如果耐心看完,也就對token的概念基本清晰無誤了。

聲明:個人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
馬斯克警告中國在AI計算和電力上大幅領(lǐng)先美國:中國電力產(chǎn)能2026年達到美國的3倍

馬斯克警告中國在AI計算和電力上大幅領(lǐng)先美國:中國電力產(chǎn)能2026年達到美國的3倍

知識圈
2026-01-15 16:49:27
西貝創(chuàng)始人賈國龍發(fā)長文為華杉正名:華與華是“最好的企業(yè)咨詢公司”,當時他流淚勸我不要回應(yīng),是我不聽

西貝創(chuàng)始人賈國龍發(fā)長文為華杉正名:華與華是“最好的企業(yè)咨詢公司”,當時他流淚勸我不要回應(yīng),是我不聽

大風新聞
2026-01-16 08:14:05
言論翻車!張維為“特朗普捉馬杜羅顯美弱勢”言論遭狂批

言論翻車!張維為“特朗普捉馬杜羅顯美弱勢”言論遭狂批

老馬拉車莫少裝
2026-01-15 23:11:25
原來他就是聶衛(wèi)平長子,移民日本改國籍娶日本妻,拒絕讓兒子姓聶

原來他就是聶衛(wèi)平長子,移民日本改國籍娶日本妻,拒絕讓兒子姓聶

一娛三分地
2026-01-15 16:10:35
關(guān)閉102家門店!胡錫進:賈國龍不該那么蠢,互聯(lián)網(wǎng)也不該這么狠

關(guān)閉102家門店!胡錫進:賈國龍不該那么蠢,互聯(lián)網(wǎng)也不該這么狠

火山詩話
2026-01-16 06:11:54
“每賣一輛問界,13.6萬流向華為”,賽力斯最新披露來了

“每賣一輛問界,13.6萬流向華為”,賽力斯最新披露來了

智能車參考
2026-01-14 17:14:37
聶衛(wèi)平全家福曝光太催淚,3個子女近況各不同,最后露面暴瘦!

聶衛(wèi)平全家福曝光太催淚,3個子女近況各不同,最后露面暴瘦!

古希臘掌管松餅的神
2026-01-15 13:55:45
航母打擊群開往中東,特朗普:希望“速戰(zhàn)速決”!伊朗進入最高戰(zhàn)備狀態(tài),約2000枚導彈可覆蓋美以基地!多國航班繞飛伊領(lǐng)空

航母打擊群開往中東,特朗普:希望“速戰(zhàn)速決”!伊朗進入最高戰(zhàn)備狀態(tài),約2000枚導彈可覆蓋美以基地!多國航班繞飛伊領(lǐng)空

每日經(jīng)濟新聞
2026-01-15 19:49:32
委內(nèi)瑞拉對莫斯科感到失望:俄羅斯被斥為“紙老虎”

委內(nèi)瑞拉對莫斯科感到失望:俄羅斯被斥為“紙老虎”

老馬拉車莫少裝
2026-01-14 23:21:48
文班在防守字母哥時與對方對撞膝蓋痛苦倒地,現(xiàn)已返回更衣室

文班在防守字母哥時與對方對撞膝蓋痛苦倒地,現(xiàn)已返回更衣室

懂球帝
2026-01-16 09:40:09
贏麻了!深圳一工廠稱海外訂單爆棚,春節(jié)期不放假,工資按4倍拿

贏麻了!深圳一工廠稱海外訂單爆棚,春節(jié)期不放假,工資按4倍拿

火山詩話
2026-01-16 05:45:07
三位離退休“老干部”分別在美國、日本和澳大利亞去世...

三位離退休“老干部”分別在美國、日本和澳大利亞去世...

深度報
2026-01-15 22:44:55
原來她們是聶衛(wèi)平妻子,第一任棋手第二任王剛妹妹 第三任最特別

原來她們是聶衛(wèi)平妻子,第一任棋手第二任王剛妹妹 第三任最特別

攬星河的筆記
2026-01-15 15:16:44
“棋圣”聶衛(wèi)平去世不到3小時,惡心的一幕發(fā)生,女兒曾凌晨發(fā)文

“棋圣”聶衛(wèi)平去世不到3小時,惡心的一幕發(fā)生,女兒曾凌晨發(fā)文

鋭娛之樂
2026-01-15 12:42:52
23歲女子因被逼嫁給38歲男子喝藥輕生?當?shù)貗D聯(lián):救治結(jié)束后會澄清一些事情;雙方知情人士講述

23歲女子因被逼嫁給38歲男子喝藥輕生?當?shù)貗D聯(lián):救治結(jié)束后會澄清一些事情;雙方知情人士講述

大風新聞
2026-01-15 21:46:37
幾乎被搶光!清倉首日大排長隊,門口500米堵車2小時,網(wǎng)友:全是人,信號都沒有

幾乎被搶光!清倉首日大排長隊,門口500米堵車2小時,網(wǎng)友:全是人,信號都沒有

新民晚報
2026-01-15 22:17:59
原來他就是聶衛(wèi)平長子,移民日本入日籍娶日本妻,拒絕讓兒子姓聶

原來他就是聶衛(wèi)平長子,移民日本入日籍娶日本妻,拒絕讓兒子姓聶

以茶帶書
2026-01-15 14:14:27
全網(wǎng)學中式養(yǎng)生:TikTok上掀起“當中國人很酷”的潮流

全網(wǎng)學中式養(yǎng)生:TikTok上掀起“當中國人很酷”的潮流

上游新聞
2026-01-15 22:26:07
QQ官方回應(yīng)沈騰空間被盜傳聞:非盜號,是騰哥的來時路

QQ官方回應(yīng)沈騰空間被盜傳聞:非盜號,是騰哥的來時路

TechWeb
2026-01-15 17:56:03
四川瀘州“花壇白骨案”告破:女老板遭謀殺藏尸,嫌疑人“換臉”逃亡28年

四川瀘州“花壇白骨案”告破:女老板遭謀殺藏尸,嫌疑人“換臉”逃亡28年

封面新聞
2026-01-15 19:13:05
2026-01-16 09:52:49
招文袋
招文袋
偶爾思考,經(jīng)常無腦,請勿介意。
250文章數(shù) 1453關(guān)注度
往期回顧 全部

科技要聞

被網(wǎng)友"催"著走,小米緊急"抄"了特斯拉

頭條要聞

馬克龍警告美國:侵犯格陵蘭島將引發(fā)"前所未有后果"

頭條要聞

馬克龍警告美國:侵犯格陵蘭島將引發(fā)"前所未有后果"

體育要聞

聶衛(wèi)平:黑白棋盤上的凡人棋圣

娛樂要聞

92歲陶玉玲去世,馮遠征曹可凡悼念

財經(jīng)要聞

深圳有白銀商家爆雷 維權(quán)群超350人

汽車要聞

吉利帝豪/繽越推冠軍一口價 起售價4.88萬

態(tài)度原創(chuàng)

本地
教育
旅游
游戲
軍事航空

本地新聞

云游內(nèi)蒙|黃沙與碧波撞色,烏海天生會“混搭”

教育要聞

垂線段最短最值問題,一個視頻學會!

旅游要聞

閃電新聞“孔孟之鄉(xiāng)·運河之都”建設(shè)世界文化旅游名城專題上線!一站式解鎖濟寧文旅新體驗

《波斯王子:時之砂》重制版網(wǎng)頁更新顯示今日發(fā)售

軍事要聞

美國已正式開始出售委內(nèi)瑞拉石油

無障礙瀏覽 進入關(guān)懷版