国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

觀點(diǎn)丨徐擁軍 成徐慧:如何建設(shè)面向人工智能的高質(zhì)量檔案數(shù)據(jù)集?

0
分享至


徐擁軍

中國人民大學(xué)國家發(fā)展與戰(zhàn)略研究院研究員

信息資源管理學(xué)院教授

成徐慧

中國人民大學(xué)信息資源管理學(xué)院碩士生

在數(shù)智時(shí)代,高質(zhì)量數(shù)據(jù)集作為人工智能模型訓(xùn)練與應(yīng)用的基石,已成為國家科技發(fā)展與戰(zhàn)略安全的核心稀缺要素。《中共中央關(guān)于制定國民經(jīng)濟(jì)和社會(huì)發(fā)展第十五個(gè)五年規(guī)劃的建議》要求:“強(qiáng)化算力、算法、數(shù)據(jù)等高效供給。”《國務(wù)院關(guān)于深入實(shí)施“人工智能+”行動(dòng)的意見》提出:“加強(qiáng)數(shù)據(jù)供給創(chuàng)新。以應(yīng)用為導(dǎo)向,持續(xù)加強(qiáng)人工智能高質(zhì)量數(shù)據(jù)集建設(shè)?!痹诖吮尘跋?,加強(qiáng)優(yōu)質(zhì)數(shù)據(jù)供給,以高質(zhì)量數(shù)據(jù)集驅(qū)動(dòng)人工智能創(chuàng)新發(fā)展變得愈發(fā)關(guān)鍵。

檔案作為人類社會(huì)活動(dòng)的原始記錄,在高質(zhì)量數(shù)據(jù)集建設(shè)方面具有突出優(yōu)勢。目前,已有電子疾病檔案(EDR)數(shù)據(jù)集、公共信用檔案數(shù)據(jù)集等入選國家數(shù)據(jù)局高質(zhì)量數(shù)據(jù)集典型案例,初步展現(xiàn)了檔案資源向高質(zhì)量語料轉(zhuǎn)化的可行路徑。檔案部門應(yīng)該面向人工智能積極行動(dòng),將檔案信息化建設(shè)重心轉(zhuǎn)向高質(zhì)量檔案數(shù)據(jù)集建設(shè)。

面向場景開展數(shù)據(jù)需求識(shí)別與規(guī)劃設(shè)計(jì)

建設(shè)高質(zhì)量檔案數(shù)據(jù)集,首要前提是弄清楚“數(shù)據(jù)要用來干什么”,將數(shù)據(jù)需求與具體應(yīng)用場景緊密耦合。具體而言,高質(zhì)量檔案數(shù)據(jù)集的建設(shè)需求應(yīng)當(dāng)從三個(gè)方面入手加以系統(tǒng)梳理:一是面向外部模型的通用需求,如支持人工智能模型的價(jià)值對齊。二是面向數(shù)據(jù)要素市場的開發(fā)需求,如檔案資源在醫(yī)療健康、城市治理、文化創(chuàng)意、金融風(fēng)控等領(lǐng)域的深度利用。三是面向檔案業(yè)務(wù)的內(nèi)部應(yīng)用需求,如檔案鑒定、開放審核、利用服務(wù)、編研選題等環(huán)節(jié)的智能輔助。在此基礎(chǔ)上,圍繞不同應(yīng)用場景,開展系統(tǒng)化的數(shù)據(jù)規(guī)劃設(shè)計(jì),界定所需檔案數(shù)據(jù)的來源、屬性與范圍,并制定涵蓋全流程的實(shí)施計(jì)劃,明確數(shù)據(jù)采集、預(yù)處理、標(biāo)注、模型驗(yàn)證等環(huán)節(jié)的責(zé)任分工、時(shí)間安排與質(zhì)量控制要求,形成可執(zhí)行的路線圖。

為提高高質(zhì)量檔案數(shù)據(jù)集的建設(shè)效率,建議在數(shù)據(jù)集規(guī)劃設(shè)計(jì)階段統(tǒng)籌考慮既有檔案數(shù)字化成果、檔案數(shù)據(jù)庫,有效整合分散資源,避免重復(fù)采集與處理。因此,高質(zhì)量檔案數(shù)據(jù)集對檔案信息化建設(shè)也提出了更高要求。例如,在檔案數(shù)據(jù)化階段,應(yīng)同步考慮樣本切分、語義標(biāo)注和脫敏處理等需求,使數(shù)據(jù)化成果成為數(shù)據(jù)集建設(shè)的前期基礎(chǔ)。在檔案數(shù)據(jù)庫建模時(shí),既要滿足管理需要,也要盡量保留有助于數(shù)據(jù)集構(gòu)建的結(jié)構(gòu)信息與語義線索,避免因過度簡化而削弱后續(xù)數(shù)據(jù)集建設(shè)空間。

統(tǒng)籌推進(jìn)數(shù)據(jù)采集與預(yù)處理

對既有檔案數(shù)據(jù)庫和數(shù)字化成果開展資源盤點(diǎn)和可用性評(píng)估,識(shí)別其中可通過格式轉(zhuǎn)換、字段映射、批量抽取等方式直接轉(zhuǎn)化為訓(xùn)練樣本的部分,將其作為數(shù)據(jù)集建設(shè)的“優(yōu)先利用層”;對尚未數(shù)字化或數(shù)字化質(zhì)量難以滿足要求的檔案,則納入增量采集范圍,通過補(bǔ)掃、重掃、補(bǔ)錄等方式完善數(shù)據(jù)來源。在此基礎(chǔ)上,對檔案數(shù)據(jù)進(jìn)行預(yù)處理。針對掃描件、版式文件、結(jié)構(gòu)化元數(shù)據(jù)和自由文本等不同形態(tài)的檔案數(shù)據(jù),通過版面分析、OCR、版式還原、字段解析等過程,完成結(jié)構(gòu)轉(zhuǎn)換。進(jìn)而根據(jù)不同任務(wù)需求,將文本拆分為文件級(jí)、段落級(jí)、句子級(jí)或字段級(jí)等多粒度樣本,并繼承保留全宗號(hào)、案卷號(hào)、時(shí)間節(jié)點(diǎn)、責(zé)任主體等既有元數(shù)據(jù)字段,維持必要的上下文關(guān)聯(lián),使模型既能學(xué)習(xí)局部特征,又能把握檔案形成過程和業(yè)務(wù)邏輯。

圍繞完整性、準(zhǔn)確性、一致性等關(guān)鍵質(zhì)量特征,構(gòu)建自動(dòng)檢測與人工抽查相結(jié)合的質(zhì)檢機(jī)制,重點(diǎn)識(shí)別并修正OCR誤識(shí)、字段錯(cuò)位、時(shí)間格式混亂、重復(fù)記錄、缺頁漏頁等問題,對嚴(yán)重影響使用的數(shù)據(jù)予以標(biāo)記或剔除,避免“臟數(shù)據(jù)”在下游應(yīng)用環(huán)節(jié)被放大。針對含有個(gè)人隱私、國家秘密等敏感信息的檔案數(shù)據(jù),按照相關(guān)法律法規(guī)要求,采用匿名化、去標(biāo)識(shí)化、模糊化、分級(jí)展示等方式進(jìn)行脫敏,并明確可用范圍和使用限制,確保在不損害檔案真實(shí)性和研究價(jià)值的前提下,將數(shù)據(jù)使用風(fēng)險(xiǎn)控制在可接受水平。

構(gòu)建面向語義的數(shù)據(jù)標(biāo)注體系

數(shù)據(jù)標(biāo)注是對初級(jí)數(shù)據(jù)進(jìn)行加工處理,并轉(zhuǎn)換為機(jī)器可識(shí)別信息的過程。在數(shù)據(jù)預(yù)處理階段保留的全宗號(hào)等基礎(chǔ)管理元數(shù)據(jù)主要服務(wù)于檔案管理,對檔案內(nèi)容所包含的事件結(jié)構(gòu)、語義關(guān)系和制度語境缺乏刻畫能力,難以滿足人工智能模型在實(shí)體識(shí)別、關(guān)系抽取、因果推理等方面的訓(xùn)練需求。因此,有必要在現(xiàn)有元數(shù)據(jù)之上疊加一層面向語義的數(shù)據(jù)標(biāo)注體系,將檔案知識(shí)結(jié)構(gòu)和業(yè)務(wù)規(guī)則顯性化為模型可學(xué)習(xí)的目標(biāo)變量。

以應(yīng)用場景和任務(wù)需求為牽引,形成場景任務(wù)標(biāo)簽。例如,對于醫(yī)療健康等專業(yè)檔案,可增加疾病分類、診療過程節(jié)點(diǎn)、干預(yù)措施與結(jié)果指標(biāo)等標(biāo)簽;在開放審核場景中則增加涉密信息類型、個(gè)人隱私敏感度、公開風(fēng)險(xiǎn)等級(jí)等標(biāo)簽。

在具體標(biāo)注過程中,根據(jù)不同任務(wù)的復(fù)雜程度和專業(yè)要求,合理配置領(lǐng)域?qū)<?、檔案工作人員和數(shù)據(jù)標(biāo)注人員,將業(yè)務(wù)規(guī)章和專業(yè)經(jīng)驗(yàn)固化為標(biāo)注指南,通過試標(biāo)、示例庫建設(shè)和標(biāo)注培訓(xùn),減少標(biāo)注者之間的理解差異。在流程設(shè)計(jì)上,可采用“初標(biāo)—復(fù)核—抽檢”相結(jié)合的方式,對關(guān)鍵任務(wù)或高風(fēng)險(xiǎn)標(biāo)簽(如開放屬性、風(fēng)險(xiǎn)類別等)實(shí)施更高強(qiáng)度的復(fù)核比例。同時(shí),運(yùn)用一致性指標(biāo)和錯(cuò)誤分析報(bào)告,對易混淆標(biāo)簽、模糊規(guī)則進(jìn)行針對性修訂,使標(biāo)簽體系和標(biāo)注規(guī)程在實(shí)踐中不斷迭代。

建立閉環(huán)反饋的模型驗(yàn)證機(jī)制

數(shù)據(jù)標(biāo)注完成后,需通過模型驗(yàn)證環(huán)節(jié)檢驗(yàn)高質(zhì)量數(shù)據(jù)集對人工智能任務(wù)的支持能力。模型驗(yàn)證的核心目標(biāo),在于判斷數(shù)據(jù)集是否具備支撐語義理解與知識(shí)推理等任務(wù)的能力、是否能夠有效提升下游模型性能。為此,應(yīng)圍繞具體應(yīng)用場景,設(shè)定具有代表性的基準(zhǔn)任務(wù)和評(píng)估指標(biāo),對結(jié)構(gòu)識(shí)別、術(shù)語抽取、情境判斷等典型任務(wù)進(jìn)行系統(tǒng)測試,以綜合判斷數(shù)據(jù)集的訓(xùn)練有效性與場景適配性。

當(dāng)模型在相應(yīng)任務(wù)上的表現(xiàn)達(dá)到預(yù)期,說明數(shù)據(jù)集在樣本覆蓋、標(biāo)簽體系與語義深度等方面具備較高的匹配度;反之,則需啟動(dòng)“診斷—反饋—優(yōu)化”的閉環(huán)機(jī)制。具體而言,一方面,要首先厘清問題是否主要源于數(shù)據(jù)質(zhì)量,而非算法設(shè)計(jì);另一方面,應(yīng)對訓(xùn)練與驗(yàn)證過程中暴露出的錯(cuò)誤樣本和系統(tǒng)性偏差進(jìn)行歸納,據(jù)此優(yōu)化樣本構(gòu)成、調(diào)整結(jié)構(gòu)轉(zhuǎn)換規(guī)則、細(xì)化標(biāo)注規(guī)范或修訂標(biāo)簽體系。

綜上,推動(dòng)檔案高質(zhì)量數(shù)據(jù)集建設(shè),關(guān)鍵在于打破組織與資源壁壘,實(shí)現(xiàn)跨領(lǐng)域的系統(tǒng)規(guī)劃與多元協(xié)同。一方面,應(yīng)堅(jiān)持試點(diǎn)先行、示范帶動(dòng)的推進(jìn)思路,依托國家高水平數(shù)字檔案館(室)、重點(diǎn)科研項(xiàng)目或區(qū)域性平臺(tái)率先布局?jǐn)?shù)據(jù)集建設(shè)與模型測試任務(wù),探索形成可復(fù)制、可推廣的技術(shù)方案和經(jīng)驗(yàn)?zāi)J?。另一方面,要推?dòng)協(xié)同共建,構(gòu)建良好生態(tài)。既要鼓勵(lì)檔案館、高校、科研機(jī)構(gòu)與技術(shù)企業(yè)等多元主體深度參與,在檔案本體構(gòu)建、語義標(biāo)注與模型評(píng)估等關(guān)鍵環(huán)節(jié)協(xié)同攻關(guān),也要秉持長期主義理念,推動(dòng)檔案數(shù)據(jù)的持續(xù)治理與動(dòng)態(tài)更新,構(gòu)建可滾動(dòng)優(yōu)化的檔案數(shù)據(jù)資產(chǎn)體系。

檔案高質(zhì)量數(shù)據(jù)集的建設(shè)是一項(xiàng)復(fù)雜的系統(tǒng)工程,涉及法規(guī)標(biāo)準(zhǔn)、數(shù)據(jù)治理、技術(shù)研發(fā)、平臺(tái)建設(shè)與場景應(yīng)用等多個(gè)環(huán)節(jié),需要多方共建、協(xié)同推進(jìn),以充分釋放檔案作為數(shù)據(jù)要素的潛力,將靜態(tài)資源轉(zhuǎn)化為驅(qū)動(dòng)人工智能創(chuàng)新的智慧動(dòng)能。

文章來源:《中國檔案》

微信編輯:張菁菁


人大國發(fā)院是中國人民大學(xué)集全校之力重點(diǎn)打造的中國特色新型高校智庫,現(xiàn)任理事長為學(xué)校黨委書記張東剛,現(xiàn)任院長為林尚立教授。2015年入選全國首批“國家高端智庫”建設(shè)試點(diǎn)單位,并入選全球智庫百強(qiáng),2018年初在“中國大學(xué)智庫機(jī)構(gòu)百強(qiáng)排行榜”中名列第一。2019年在國家高端智庫綜合評(píng)估中入選第一檔次梯隊(duì),是唯一入選第一檔次梯隊(duì)的高校智庫。

人大國發(fā)院積極打造“新平臺(tái)、大網(wǎng)絡(luò),跨學(xué)科、重交叉,促創(chuàng)新、高產(chǎn)出”的高端智庫平臺(tái)。圍繞經(jīng)濟(jì)治理與經(jīng)濟(jì)發(fā)展、政治治理與法治建設(shè)、社會(huì)治理與社會(huì)創(chuàng)新、公共外交與國際關(guān)系四大研究領(lǐng)域,匯聚全校一流學(xué)科優(yōu)質(zhì)資源,在基礎(chǔ)建設(shè)、決策咨詢、公共外交、理論創(chuàng)新、輿論引導(dǎo)和內(nèi)部治理等方面取得了顯著成效。人大國發(fā)院以“中國特色新型高校智庫的引領(lǐng)者”為目標(biāo),扎根中國大地,堅(jiān)守國家戰(zhàn)略,秉承時(shí)代使命,致力于建設(shè)成為具有全球影響力的世界一流大學(xué)智庫。

微信二維碼

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
5月8日24時(shí),國內(nèi)成品油價(jià)格將迎調(diào)整

5月8日24時(shí),國內(nèi)成品油價(jià)格將迎調(diào)整

大象新聞
2026-05-01 20:42:11
粵超肇慶隊(duì)美女隊(duì)醫(yī)回應(yīng)走紅:我會(huì)努力做好本職工作

粵超肇慶隊(duì)美女隊(duì)醫(yī)回應(yīng)走紅:我會(huì)努力做好本職工作

懂球帝
2026-05-01 15:32:26
“郴州1歲男童被人入室搶走”案:和孩子朝夕相處的奶奶,一度被家人冤枉是拐走孩子的共犯

“郴州1歲男童被人入室搶走”案:和孩子朝夕相處的奶奶,一度被家人冤枉是拐走孩子的共犯

極目新聞
2026-05-01 10:47:56
受權(quán)發(fā)布|全國人民代表大會(huì)常務(wù)委員會(huì)決定任免的名單

受權(quán)發(fā)布|全國人民代表大會(huì)常務(wù)委員會(huì)決定任免的名單

新華社
2026-04-30 18:47:02
演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

大眼妹妹
2025-12-15 10:39:19
剛看到湖南的一紙通報(bào),荒誕到連編劇都不敢這么寫

剛看到湖南的一紙通報(bào),荒誕到連編劇都不敢這么寫

小陸搞笑日常
2026-05-01 15:31:33
.離世前3天還發(fā)動(dòng)態(tài),4月27日慘烈車禍,帶走了新疆這位傳奇大佬

.離世前3天還發(fā)動(dòng)態(tài),4月27日慘烈車禍,帶走了新疆這位傳奇大佬

荷蘭豆愛健康
2026-05-02 01:04:05
成都“牽手門”事件女主現(xiàn)今狀況曝光,太慘了......

成都“牽手門”事件女主現(xiàn)今狀況曝光,太慘了......

許三歲
2026-03-17 07:34:05
北京首鋼21分大勝!趙睿正式復(fù)出,威廉姆斯表現(xiàn)出色,沖擊總冠軍

北京首鋼21分大勝!趙睿正式復(fù)出,威廉姆斯表現(xiàn)出色,沖擊總冠軍

體壇瞎白話
2026-05-01 08:38:58
天賦上的不足肉眼可見!掘金會(huì)考慮留下這位3D鋒線新星嗎?

天賦上的不足肉眼可見!掘金會(huì)考慮留下這位3D鋒線新星嗎?

稻谷與小麥
2026-05-02 01:04:25
1799元!蘋果剛發(fā)布的新品,售罄了

1799元!蘋果剛發(fā)布的新品,售罄了

全是技能
2026-04-30 15:40:51
“觀音回到了故鄉(xiāng)”,82歲演員左大玢現(xiàn)身河南香山寺,該寺被稱為“觀音祖庭”,大批游客偶遇合影,景區(qū)回應(yīng)

“觀音回到了故鄉(xiāng)”,82歲演員左大玢現(xiàn)身河南香山寺,該寺被稱為“觀音祖庭”,大批游客偶遇合影,景區(qū)回應(yīng)

極目新聞
2026-05-01 16:12:53
5月1日,央視八套、北京衛(wèi)視排播,7部大劇強(qiáng)勢播出, 你想追哪部

5月1日,央視八套、北京衛(wèi)視排播,7部大劇強(qiáng)勢播出, 你想追哪部

鄉(xiāng)野小珥
2026-05-02 00:53:34
男子酷似毛主席,毛新宇見了情緒失控?毛新宇:這種情形不止一次

男子酷似毛主席,毛新宇見了情緒失控?毛新宇:這種情形不止一次

覃仕勇說史
2026-04-29 16:57:15
朝鮮在俄陣亡2300人,烏軍卻未找到一具尸體!這才是烏軍厲害之處

朝鮮在俄陣亡2300人,烏軍卻未找到一具尸體!這才是烏軍厲害之處

阿訊說天下
2026-05-01 09:47:47
5月起廣電巨變!機(jī)頂盒全面取消,老電視不換也能免費(fèi)看高清臺(tái)

5月起廣電巨變!機(jī)頂盒全面取消,老電視不換也能免費(fèi)看高清臺(tái)

時(shí)尚的弄潮
2026-05-02 01:58:53
超級(jí)殘陣+裁判施壓,5戰(zhàn)4勝以下克上!季后賽最強(qiáng)硬黑馬出現(xiàn)了

超級(jí)殘陣+裁判施壓,5戰(zhàn)4勝以下克上!季后賽最強(qiáng)硬黑馬出現(xiàn)了

老梁體育漫談
2026-05-02 00:55:30
離譜!曼聯(lián)賽季最佳引援竟被列入清洗名單,球迷集體看不懂

離譜!曼聯(lián)賽季最佳引援竟被列入清洗名單,球迷集體看不懂

奶蓋熊本熊
2026-05-02 02:23:08
“富人才不會(huì)把女兒養(yǎng)這么胖”,家長曬女兒喝60元礦泉水,被群嘲

“富人才不會(huì)把女兒養(yǎng)這么胖”,家長曬女兒喝60元礦泉水,被群嘲

番外行
2026-04-22 14:51:19
輸山東16分!揪出1個(gè)表現(xiàn)最差之人,坑慘了遼寧隊(duì)

輸山東16分!揪出1個(gè)表現(xiàn)最差之人,坑慘了遼寧隊(duì)

體育哲人
2026-05-01 21:51:12
2026-05-02 04:15:00
人大國發(fā)院 incentive-icons
人大國發(fā)院
首批25家國家高端智庫
4179文章數(shù) 1835關(guān)注度
往期回顧 全部

科技要聞

DeepSeek發(fā)布多模態(tài)論文又連夜刪除

頭條要聞

伊朗未爆彈藥爆炸 致革命衛(wèi)隊(duì)14人死亡

頭條要聞

伊朗未爆彈藥爆炸 致革命衛(wèi)隊(duì)14人死亡

體育要聞

無奈!約基奇:這要在塞爾維亞 全隊(duì)早被炒了

娛樂要聞

馬筱梅產(chǎn)后身材恢復(fù)超好 現(xiàn)身戶外直播

財(cái)經(jīng)要聞

GPU神話松動(dòng),AI真正的戰(zhàn)場變了

汽車要聞

限時(shí)9.67萬起 吉利星越L/星瑞i-HEV智擎混動(dòng)上市

態(tài)度原創(chuàng)

親子
游戲
旅游
藝術(shù)
手機(jī)

親子要聞

教孩子預(yù)防侵犯,分辨危險(xiǎn)身體觸碰并且拒絕!

PS玩家團(tuán)結(jié)起來!請?jiān)笍?fù)活第一方3A 耗時(shí)7年卻被取消

旅游要聞

一張票根全年玩轉(zhuǎn)寶山!今日起,持郵輪登船證享全城超值優(yōu)惠

藝術(shù)要聞

畫畫的你絕不能錯(cuò)過!色塊與筆觸的激情之旅!

手機(jī)要聞

曝iPhone18Pro相機(jī)史詩級(jí)升級(jí),這次你期待嗎?

無障礙瀏覽 進(jìn)入關(guān)懷版