国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI視頻丨token為什么叫“詞元”

0
分享至

▲人工智能領(lǐng)域token的中文名定為“詞元”(視頻由AI生成)

3月25日,全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)發(fā)布公告,將人工智能領(lǐng)域token的中文名定為“詞元”,面向全社會(huì)發(fā)布試用。

“詞元”(token)是人工智能時(shí)代智能設(shè)備中信息存儲(chǔ)、處理和交換的具有一定語(yǔ)義的基本符號(hào)單元,特別是在人工智能大模型中作為模型處理和交換信息的最小單位。


01

“詞元”的詞源

token一詞源于古英語(yǔ)tācen,意為“符號(hào)”或“標(biāo)記”。在語(yǔ)言模型中,token是文本經(jīng)過(guò)切分或字節(jié)級(jí)編碼后得到的最小離散單元。它既可能是人類語(yǔ)言意義上的詞串、單個(gè)詞,也可能是詞根、詞綴、子詞或單個(gè)字符。語(yǔ)言模型通過(guò)對(duì)token序列建模,展現(xiàn)出一定的智能水平。

在“詞元”這一定名中,“詞”點(diǎn)明其在語(yǔ)言場(chǎng)景下的根源,體現(xiàn)出token與表達(dá)對(duì)象語(yǔ)義的密切關(guān)聯(lián);“元” 傳達(dá)出“基本單元”之意,與 “元素”等術(shù)語(yǔ)中的“元”保持一致的語(yǔ)義脈絡(luò)。

“詞元”一詞可以將“作為語(yǔ)言基本語(yǔ)義單元”這一最初本質(zhì)清晰表達(dá)出來(lái),更貼合其在人工智能中的初始角色。

02

“詞元”的變化

隨著大模型從純文本走向多模態(tài)(圖像、語(yǔ)音、視頻等),token的所指已經(jīng)擴(kuò)展。圖像被切分為“圖像塊”并映射為嵌入序列,語(yǔ)音片段可以被量化編碼為離散單元,這些單元在多模態(tài)模型中同樣被稱為token,主要建模手段仍為序列模型。此時(shí)“詞元”中的“詞”在這里超越了人類語(yǔ)言意義上的“詞”,卻能暗合術(shù)語(yǔ)命名中普遍存在的類比思維——將非文本模態(tài)的離散基本單元,也視作“廣義的詞”。這種用法與“詞云”(word cloud)、“詞袋”(bag of word)類似,雖由文本衍生,但已成為人工智能領(lǐng)域中表達(dá)更寬泛語(yǔ)義的通用術(shù)語(yǔ)。“詞元”在跨模態(tài)場(chǎng)景中承載了“離散基本單元”的語(yǔ)義,這種語(yǔ)義普遍存在于所有模態(tài)之中。

在中文文獻(xiàn)、技術(shù)文檔及學(xué)術(shù)交流中,“詞元”作為描述大模型中token的一個(gè)譯名,逐漸被學(xué)術(shù)界很多學(xué)者所認(rèn)同。

token是模型將數(shù)據(jù)映射為離散符號(hào)序列的基本單位,本身并不攜帶智能,只是承載信息的載體;它與“嵌入”“注意力”“隱狀態(tài)”等術(shù)語(yǔ)并列時(shí),保持了風(fēng)格一致性;它符合中文“二字詞”偏好,表述簡(jiǎn)潔,易于傳播。

03

為什么要審定名詞

科學(xué)技術(shù)名詞是科學(xué)知識(shí)傳播和交流的媒介和工具。概念明確、指稱規(guī)范的科技名詞,能夠快速有效地傳播科學(xué)知識(shí),避免因?qū)斫獠煌l(fā)生誤解。

“詞元”的定名捕捉了其在人工智能語(yǔ)言模型中作為“基本離散符號(hào)單元”的本質(zhì),又可以通過(guò)類比自然延伸至多模態(tài)領(lǐng)域。

“詞元”作為人工智能領(lǐng)域token的中文名,符合單義性、科學(xué)性、簡(jiǎn)明性、協(xié)調(diào)性等科技名詞審定原則,全國(guó)各科研、教學(xué)、生產(chǎn)經(jīng)營(yíng)及新聞出版單位可推廣使用。

全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)于1985年經(jīng)國(guó)務(wù)院批準(zhǔn)成立,是由科學(xué)技術(shù)部和中國(guó)科學(xué)院共建,代表國(guó)家審定、公布科技名詞的權(quán)威性機(jī)構(gòu)。同時(shí)科技部和中國(guó)科學(xué)院共同聘請(qǐng)了國(guó)家相關(guān)部門負(fù)責(zé)人和一百余名各學(xué)科領(lǐng)域著名學(xué)者、專家擔(dān)任副主任委員、常務(wù)委員和委員。

此次推薦“詞元”作為token中文名的全國(guó)計(jì)算機(jī)科學(xué)技術(shù)名詞審定委員會(huì),是全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)的學(xué)科名詞審定專委會(huì)之一。

簡(jiǎn)而言之,“詞元”審定后,社會(huì)各界都有了統(tǒng)一的表述,避免了不必要的歧義和混亂,提高了效率。

來(lái)源:全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)

責(zé)任編輯:吳昊 侯茜 閆文藝

聲明:包含AI生成內(nèi)容

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

中科院之聲 incentive-icons
中科院之聲
中國(guó)科學(xué)院官方賬號(hào)
13669文章數(shù) 53784關(guān)注度
往期回顧 全部

專題推薦

洞天福地 花海畢節(jié) 山水饋贈(zèng)里的“詩(shī)與遠(yuǎn)方

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版