国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

20萬生僻字“重生”記

0
分享至



作者 |辰紋

來源 |洞見新研社

過去,一個(gè)古文獻(xiàn)研究專家在處理一批珍貴刻本。突然,一個(gè)從未見過的生僻字映入眼簾。按照傳統(tǒng)工作流程,他需要查閱大量工具書才能弄清這個(gè)字的含義,期間可能花費(fèi)數(shù)小時(shí)甚至數(shù)天,這在學(xué)界是司空見慣的現(xiàn)象。

但現(xiàn)在,他只需打開“識(shí)典古籍”平臺(tái),使用最新上線的編輯器搜字、造字、復(fù)制字圖功能,將這個(gè)字拆解拼接,系統(tǒng)便從20余萬個(gè)字形中精準(zhǔn)匹配出了結(jié)果——整個(gè)過程不到10秒。

這正是字節(jié)跳動(dòng)用技術(shù)助力古籍?dāng)?shù)字化帶來的變革。通過AI技術(shù),識(shí)典古籍不僅大幅降低了古籍整理門檻,提升了工作效率,更解決了困擾古文獻(xiàn)研究領(lǐng)域多年的生僻字整理難題。

01 古籍?dāng)?shù)字化的三大難題

古籍整理,單從字面上來理解,與普通人的生活幾乎沒有任何關(guān)聯(lián),但從宏觀視角來看,作為歷史文明傳承的載體,古籍的價(jià)值無可替代。它們既是中國古典學(xué)不可或缺的研究基礎(chǔ),也是社會(huì)大眾繼承和發(fā)揚(yáng)傳統(tǒng)文化的寶貴資源,同時(shí)還是世界理解中華文明的重要途徑。

早在1919年,胡適就在《新青年》雜志上發(fā)起了著名的“整理國故”運(yùn)動(dòng),提出“研究問題、輸入學(xué)理、整理國故、再造文明”的主張,胡適本人也身體力行,投入巨大精力進(jìn)行國學(xué)研究,創(chuàng)辦《國學(xué)季刊》;推動(dòng)古史討論,擬出“最低限度的國學(xué)書目”,向廣大青年大力推薦……

進(jìn)入21世紀(jì),古籍整理工作的重要程度也在學(xué)界、國家管理機(jī)構(gòu)、乃至社會(huì)層面形成了共識(shí)。2007年,重大文化工程“中華古籍保護(hù)計(jì)劃”啟動(dòng);2018年,《中華人民共和國公共圖書館法》頒布,“公共圖書館要加強(qiáng)館內(nèi)古籍保護(hù)”成為法條……

根據(jù)國家古籍保護(hù)中心調(diào)查結(jié)果顯示,我國現(xiàn)存20多萬種古籍,存世50萬個(gè)版本,古籍?dāng)?shù)量達(dá)3200多萬冊,然而當(dāng)前古籍整理工作的現(xiàn)狀卻是數(shù)字化程度極低,許多書只是完成了初步的影像掃描,真正實(shí)現(xiàn)文本數(shù)字化的不到四萬種。

之所以會(huì)存在這樣的困境,專業(yè)人才匱乏是首要障礙。

全國高等院校古籍整理研究工作委員會(huì)副秘書長吳國武在接受媒體采訪時(shí)曾透露,目前全國范圍內(nèi)專業(yè)從事古籍整理的人員僅有一萬人左右。華東師范大學(xué)古典文獻(xiàn)學(xué)在讀博士生劉帥以自己作為參照,“一年能整理幾十萬字就很了不起了”。

需要整理的古籍?dāng)?shù)量巨大,但在供應(yīng)端,專業(yè)人才不夠,單人效率又有限,古籍整理工作推進(jìn)自然就快不起來。

其次是生僻字處理存在技術(shù)瓶頸,由于古籍中存在大量異體字、俗體字和避諱字,使得文字識(shí)別準(zhǔn)確率難以提高。傳統(tǒng)OCR技術(shù)是為打印材料設(shè)計(jì)的,面對古書中的不同字體風(fēng)格、非漢字筆畫符號、折痕和破損缺字,識(shí)別效果大打折扣。

最后是資金與版權(quán)的桎梏。從1999年“文淵閣四庫全書”數(shù)據(jù)庫發(fā)布以來,古籍?dāng)?shù)據(jù)庫成為中國古典研究不可或缺的基礎(chǔ)設(shè)施,同時(shí)大多數(shù)的重要典籍也都已經(jīng)完成了數(shù)字化。

由于最方便使用的古籍圖文庫基本上都是商業(yè)數(shù)據(jù)庫,這就限制了普通公眾的訪問。

隨著人力校對成本越來越高,商業(yè)古籍庫擴(kuò)容的邊際收益斷崖式下跌,這就使得現(xiàn)階段很多古籍?dāng)?shù)字化工作成果有些“養(yǎng)在深閨人未識(shí)”的狀態(tài),不能被公眾充分利用,并且發(fā)展建設(shè)難以為繼。

02 從“字圖”到“造字”的技術(shù)破局

正是在這樣的背景之下,字節(jié)跳動(dòng)在2022年10月,與北京大學(xué)合作推出了完全公益的古籍智能閱讀和整理平臺(tái)——“識(shí)典古籍”,旨在通過技術(shù)力量改變傳統(tǒng)古籍整理模式。

識(shí)典古籍初期就整合了三大核心技術(shù),文字識(shí)別(OCR),自動(dòng)標(biāo)點(diǎn)和實(shí)體識(shí)別,這意味著機(jī)器已經(jīng)能夠初步“讀懂”古文。

就在不久前,針對古籍?dāng)?shù)字化中最棘手的生僻字問題,識(shí)典古籍平臺(tái)推出了編輯器造字、拼字、字圖復(fù)制功能,將古籍?dāng)?shù)字化工作的效率又向前推動(dòng)了一大步。

在以往的古籍?dāng)?shù)字化過程中,遇到字庫中沒有的生僻字或異體字時(shí),研究人員的通常做法是截取該字在古籍掃描圖中的局部區(qū)域的圖片作為替代,稱之為“字圖”。

然而這樣處理存在明顯缺陷,字圖有當(dāng)時(shí)古籍本身的印刷書寫風(fēng)格和背景,不宜閱讀;同時(shí),不同字圖可能實(shí)為同一字,卻因無法識(shí)別而被重復(fù)截取,造成整理混亂。

識(shí)典古籍給出的解決方案是自研了一套拼字輸入法(拼出字圖)、造標(biāo)準(zhǔn)宋體字(造出字圖)等算法,以幫助研究人員在整理古籍時(shí)能夠快速的輸入生僻字甚至“造”出字體。

拼字輸?法的技術(shù)原理并不復(fù)雜,就是讓用戶在自己認(rèn)識(shí)的簡單字和簡單筆畫的基礎(chǔ)上,去搜索更加復(fù)雜的漢字,即便不清楚這個(gè)漢字的字音、字義,也能憑借字形快速匹配。

例如,“矦”字可由“?”“廠”“矢”組成,輸入這些部件即可召回該字。對于普通人來說,雖然這個(gè)字我不認(rèn)識(shí),但總有它的部分我認(rèn)識(shí),認(rèn)識(shí)什么輸入什么,就可以把這個(gè)字拼出來。這種方式比五筆輸入法更直觀,無需記憶詞根,也支持生僻字檢索。



在研發(fā)過程中,團(tuán)隊(duì)面臨的核心挑戰(zhàn)是漢字組合的極端復(fù)雜性。例如一個(gè)“椪”字,就有“木並”、“木?業(yè)”、“木丷亞”、“木八亞”等多種拆分方式,組合數(shù)量呈階乘級增長,傳統(tǒng)窮舉方法根本行不通。

團(tuán)隊(duì)曾嘗試用有向無環(huán)圖來建模漢字部件關(guān)系,想象一堆有箭頭連接的積木,箭頭只指向后方,且絕對不允許形成一個(gè)閉合的圓圈,這樣我們就可以從起點(diǎn)一路暢通無阻地走到終點(diǎn),但十萬漢字構(gòu)建的圖譜對性能挑戰(zhàn)巨大,也難以量化匹配效果。

那段時(shí)間,組內(nèi)成員兵分幾路,有人繼續(xù)嘗試圖結(jié)構(gòu)優(yōu)化,有人從組合數(shù)學(xué)角度尋找新思路。大家頻繁交流、互相“挑戰(zhàn)”,常常列舉出各種bad case推翻對方方案,卻又在碰撞中萌生新的靈感。

最終,識(shí)典古籍研發(fā)團(tuán)隊(duì)設(shè)計(jì)出了一套高性能、通過計(jì)算漢字細(xì)節(jié)特征進(jìn)行匹配的解決方案,可支持在20余萬個(gè)漢字中實(shí)時(shí)搜索。

該方案在初始加載階段,不僅會(huì)整體收集每個(gè)漢字的組成部分作為其特征,還會(huì)構(gòu)建一套簡繁字、偏旁部首的等價(jià)映射表,如“馬”可代“馬”、“水”可代“氵”。

在搜索階段,算法會(huì)先對用戶輸入進(jìn)行前置處理以提升容錯(cuò)能力,比如相似的“”和“乚”都會(huì)被處理成“乚”,然后比對用戶輸入與所有漢字特征之間的差異,按匹配程度排序返回最佳結(jié)果,若匹配失敗,算法還會(huì)自動(dòng)使用等價(jià)映射表重新檢索,如輸入“水”、“木”可查找出“沐”,顯著降低輸入門檻,更貼合用戶的用字習(xí)慣。

記得那天下午,當(dāng)?shù)谝话嫠惴?yàn)證通過、匹配準(zhǔn)確率大幅提升時(shí),整個(gè)團(tuán)隊(duì)都感到“內(nèi)心無比激動(dòng)”。長期困擾項(xiàng)目的瓶頸終于突破,多位成員在現(xiàn)場忍不住鼓掌。

拼字輸入法主要輔助研究人員找到當(dāng)今已經(jīng)被編碼的漢字,對于古籍中存在的?些沒有被計(jì)算機(jī)編碼的漢字,識(shí)典古籍團(tuán)隊(duì)又開發(fā)了基于IDS造出標(biāo)準(zhǔn)宋體字的算法,通過結(jié)構(gòu)化的描述?式去表達(dá)任意?個(gè)漢字,進(jìn)而為這個(gè)生僻字量?設(shè)計(jì)字體。

根據(jù)識(shí)典古籍團(tuán)隊(duì)介紹,IDS是Unicode標(biāo)準(zhǔn)定義的漢字結(jié)構(gòu)描述語法,通過IDC符號(用于描述漢字結(jié)構(gòu),如?、?、?、?、?等)和漢字部件組合而成。例如,“古”字是上下結(jié)構(gòu),其IDS就是 “?十口”。



通過分析漢字的空間結(jié)構(gòu)輸入相應(yīng)的IDS表達(dá)式生成字體字形,以上是不同空間結(jié)構(gòu)的示例

造字的核心是解析用戶輸入的IDS表達(dá)式,為每個(gè)部件選擇合適的變形和空間布局,組合成新字。例如,在處理左右結(jié)構(gòu)時(shí),需控制部件寬度比例和間距;在處理包圍結(jié)構(gòu)時(shí),需確定缺口位置并在缺口處合理放置被包圍的部件。



團(tuán)隊(duì)在開發(fā)過程中摒棄了“大而全”的幻想,比如像‘廴’只需主要考慮‘?’布局,無需過多考慮?、?、?、?等其他情況,轉(zhuǎn)而遵循實(shí)際漢字布局規(guī)則,逐步實(shí)現(xiàn)了覆蓋常見結(jié)構(gòu)的造字引擎。



由于造字是基于IDS的,所以它天然就具有漢字的組成信息,因此用戶“造”出來的字經(jīng)平臺(tái)審核通過后也可以使用上述的拼字輸入法搜索出來,實(shí)現(xiàn)相互聯(lián)動(dòng)。



就像識(shí)典古籍研發(fā)團(tuán)隊(duì)說的那樣,編輯器搜字、造字、復(fù)制字圖功能就像一個(gè)“萬能積木”,讓古籍整理這項(xiàng)傳承文明的事業(yè)不會(huì)因?yàn)椤白帧倍蛔璧K,而讓團(tuán)隊(duì)自豪的是,當(dāng)看到自己設(shè)計(jì)的造字工具能生成古籍中千變?nèi)f化的字形,甚至一些早已遺失在歷史中的字體重現(xiàn)屏幕時(shí),“一種跨越時(shí)空的技術(shù)成就感油然而生”。

03 將文化基因刻入數(shù)字未來

識(shí)典古籍的價(jià)值不僅僅提高了古籍專業(yè)研究人員的工作效率,更是通過技術(shù)手段降低了古籍整理的門檻,使公眾參與成為可能。

去年識(shí)典古籍平臺(tái)聯(lián)合全國22所高校,發(fā)起了“我是校書官”活動(dòng),吸引了1萬余名學(xué)生報(bào)名參加,其中許多人的專業(yè)都與古籍無關(guān)。

這項(xiàng)活動(dòng)的參與流程非常簡單,志愿者在平臺(tái)上領(lǐng)取任務(wù),系統(tǒng)提供清晰的指導(dǎo)和要求。校對過程中,AI會(huì)輔助標(biāo)識(shí)出可能存在的問題,志愿者只需重點(diǎn)關(guān)注這些區(qū)域即可。

平臺(tái)還建立了質(zhì)量保障機(jī)制。所有校對結(jié)果會(huì)經(jīng)過多種審核,包括機(jī)器審核、專業(yè)人員審核等,在提高整理質(zhì)量的同時(shí),也是人才培養(yǎng)的過程。

在這項(xiàng)活動(dòng)中,一些非專業(yè)的同學(xué)原本對古籍一無所知,但參加活動(dòng),校對三個(gè)月后,也算跨過了古籍研究的門檻,養(yǎng)成了閱讀古籍的習(xí)慣,更難能可貴的是,識(shí)典古籍以這種類似于眾包的模式,重塑了古籍整理生態(tài)。

從這一視角來看,古籍?dāng)?shù)字化的價(jià)值遠(yuǎn)遠(yuǎn)超出了保護(hù)本身,它讓古籍內(nèi)容變得更加可用、易懂,為文化傳承和創(chuàng)新提供了基礎(chǔ)。

全國高等院校古籍整理研究工作委員會(huì)副秘書長吳國武教授在接受媒體采訪時(shí)曾表示,“古籍相當(dāng)于先人的知識(shí)體系,將經(jīng)典智慧為現(xiàn)代人所用,是非常重要的任務(wù)”,數(shù)字化后的古籍可以被更容易地檢索、分析和利用,為學(xué)術(shù)研究提供支持。

更重要的是,數(shù)字化古籍還正在成為文化創(chuàng)新的源泉。從去年風(fēng)靡全球的游戲“黑神話悟空”,到今年的動(dòng)畫電影《哪吒2》,都是傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化的案例,而浩瀚的典籍文化遺產(chǎn)正是文化產(chǎn)業(yè)取之不盡的素材資源。

根據(jù)官方公布的數(shù)據(jù),識(shí)典古籍平臺(tái)在數(shù)萬名來自高校、社會(huì)及字節(jié)跳動(dòng)員工的古籍整理志愿者共同努力下,現(xiàn)已經(jīng)免費(fèi)公開3萬余部古籍,每月有超240萬用戶訪問量。在2025年底,將發(fā)布4萬部古籍面向公眾開放。

AI正在讓那些沉睡在圖書館庫房里的古籍蘇醒,重新跳動(dòng)起來,融入當(dāng)代人的文化生活之中。就像幾個(gè)世紀(jì)前,這些書籍影響著當(dāng)時(shí)的文人學(xué)者那樣,繼續(xù)參與中華文明的演進(jìn)與傳承。

聲明:個(gè)人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
終于,上海入冬成功!網(wǎng)友:明天就哐哐升溫,最高17℃

終于,上海入冬成功!網(wǎng)友:明天就哐哐升溫,最高17℃

新民晚報(bào)
2025-12-28 20:58:02
這有點(diǎn)牛逼了!CBA球員正負(fù)值榜,排前6名本土中,這球隊(duì)占了4人

這有點(diǎn)牛逼了!CBA球員正負(fù)值榜,排前6名本土中,這球隊(duì)占了4人

金山話體育
2025-12-28 17:50:32
宋慶齡不愿與孫中山合葬,直言緣由:“這個(gè)人陪了我 53年,我早就答應(yīng)過,要和她葬在一起?!?>
    </a>
        <h3>
      <a href=史海孤雁
2025-12-27 20:40:17
醫(yī)學(xué)博士:腫瘤越來越高發(fā),我們究竟被隱瞞了什么?

醫(yī)學(xué)博士:腫瘤越來越高發(fā),我們究竟被隱瞞了什么?

深度報(bào)
2025-12-21 23:01:02
臺(tái)海戰(zhàn)爭爆發(fā),西方可凍結(jié) 3.2 萬億中國資產(chǎn),但中國手里也有王炸

臺(tái)海戰(zhàn)爭爆發(fā),西方可凍結(jié) 3.2 萬億中國資產(chǎn),但中國手里也有王炸

藍(lán)色海邊
2025-12-03 14:27:26
李金羽有眼光!中超再迎巴甲獨(dú)造36球大殺器:僅花150萬歐

李金羽有眼光!中超再迎巴甲獨(dú)造36球大殺器:僅花150萬歐

邱澤云
2025-12-28 20:27:22
網(wǎng)紅保時(shí)捷銷售三姐妹跳槽尊界品牌 S800交付破萬!

網(wǎng)紅保時(shí)捷銷售三姐妹跳槽尊界品牌 S800交付破萬!

手機(jī)中國
2025-12-27 12:34:37
姜昆視頻風(fēng)波后續(xù):視頻拍攝者曝真相,姜昆頻繁去美國有“苦衷”

姜昆視頻風(fēng)波后續(xù):視頻拍攝者曝真相,姜昆頻繁去美國有“苦衷”

阿纂看事
2025-12-27 09:24:01
2008年80萬買長江電力,17年躺賺分紅192.6萬,成本歸零成傳奇

2008年80萬買長江電力,17年躺賺分紅192.6萬,成本歸零成傳奇

真實(shí)人物采訪
2025-12-28 13:00:06
美國專家:漢字是全球唯一超越時(shí)空的文字,這一優(yōu)勢碾壓英法俄語

美國專家:漢字是全球唯一超越時(shí)空的文字,這一優(yōu)勢碾壓英法俄語

比利
2025-12-27 19:26:54
新加坡出動(dòng)4500警力、法律行動(dòng)1400次、7大警署聯(lián)手,竟是為了…

新加坡出動(dòng)4500警力、法律行動(dòng)1400次、7大警署聯(lián)手,竟是為了…

新加坡萬事通
2025-12-28 20:53:17
日本足協(xié)主席:擊敗巴西那支日本隊(duì)中有一半人出自高中足球部

日本足協(xié)主席:擊敗巴西那支日本隊(duì)中有一半人出自高中足球部

懂球帝
2025-12-28 16:13:09
83年嚴(yán)打:被遣送西北重刑犯的最終命運(yùn)如何

83年嚴(yán)打:被遣送西北重刑犯的最終命運(yùn)如何

品茗談史論世事
2025-12-28 14:54:27
一個(gè)男人如果不正經(jīng),通過這2個(gè)模樣,一看便知!

一個(gè)男人如果不正經(jīng),通過這2個(gè)模樣,一看便知!

加油丁小文
2025-12-01 08:00:12
“去一趟封關(guān)后的海南,我被自己‘窮’笑了”

“去一趟封關(guān)后的海南,我被自己‘窮’笑了”

鳳凰網(wǎng)財(cái)經(jīng)
2025-12-27 19:48:31
1死4傷!成都一4s店有人故意燃爆,目擊者:威力再大點(diǎn)我就報(bào)銷了

1死4傷!成都一4s店有人故意燃爆,目擊者:威力再大點(diǎn)我就報(bào)銷了

火山詩話
2025-12-28 19:01:01
必須有人離開:詹姆斯堅(jiān)持做詹姆斯 湖人連敗逼老板清算三選二

必須有人離開:詹姆斯堅(jiān)持做詹姆斯 湖人連敗逼老板清算三選二

籃球話題團(tuán)
2025-12-28 00:20:03
A股:剛剛,大消息傳來,信號很明確,不出意外,下周一要變天了

A股:剛剛,大消息傳來,信號很明確,不出意外,下周一要變天了

云鵬敘事
2025-12-28 00:00:03
集團(tuán)CEO當(dāng)場怒撕我因降薪7萬提交的辭職報(bào)告

集團(tuán)CEO當(dāng)場怒撕我因降薪7萬提交的辭職報(bào)告

今天說故事
2025-12-24 17:04:16
醫(yī)院主任實(shí)名怒批張水華:人家生完孩子的都沒調(diào)休 比你更不容易

醫(yī)院主任實(shí)名怒批張水華:人家生完孩子的都沒調(diào)休 比你更不容易

念洲
2025-12-27 09:55:35
2025-12-28 21:56:49
洞見新研社
洞見新研社
專注商業(yè)與科技,深思五分鐘。
266文章數(shù) 152關(guān)注度
往期回顧 全部

藝術(shù)要聞

驚艷!陳紅20年前沙發(fā)照曝光,宛如人間尤物!

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購史

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

教育
時(shí)尚
房產(chǎn)
家居
公開課

教育要聞

從2026年北京選調(diào)擬錄用名單看升學(xué):這些大學(xué)最受青睞

2026年了,最好看還是這件大衣!

房產(chǎn)要聞

降維打擊!三亞CBD驚現(xiàn)“豪宅新王”,高端局要變天了!

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版