許春明段明赫：人工智能訓(xùn)練數(shù)據(jù)的著作權(quán)延伸性集體管理合理性分析 | 電子知識產(chǎn)權(quán)202508

2025-12-12 17:38:20　來源: 北大法律信息網(wǎng)

北京舉報

分享至

【作者】許春明（同濟大學(xué)上海國際知識產(chǎn)權(quán)學(xué)院教授，管理學(xué)博士）；段明赫（同濟大學(xué)上海國際知識產(chǎn)權(quán)學(xué)院）

【來源】北大法寶法學(xué)期刊庫《電子知識產(chǎn)權(quán)》2025年第8期（文末附本期期刊目錄）。因篇幅較長，已略去原文注釋。

內(nèi)容提要：隨著人工智能技術(shù)的發(fā)展，數(shù)據(jù)在訓(xùn)練過程中的重要性和數(shù)據(jù)利用情況的復(fù)雜性不斷增加，數(shù)據(jù)訓(xùn)練正面臨著作權(quán)困境。將數(shù)據(jù)訓(xùn)練納入合理使用的法定情形存在違反“三步檢驗法”的風險。在數(shù)據(jù)訓(xùn)練情形，合理使用的司法實踐規(guī)則也難以適用。法定許可不能充分降低數(shù)據(jù)訓(xùn)練領(lǐng)域的交易成本。針對上述困境，可以引入延伸性集體管理制度作為解決方案。延伸性集體管理通過“選擇—退出”機制，大幅降低交易成本，在處理海量訓(xùn)練數(shù)據(jù)和存疑數(shù)據(jù)許可時具有顯著優(yōu)勢。同時，該制度相較于合理使用和法定許可，更好地實現(xiàn)了人工智能企業(yè)和著作權(quán)人之間的利益平衡。最后，應(yīng)當建立具有廣泛代表性的數(shù)據(jù)集體管理組織，并完善其監(jiān)督與管理機制，以確保延伸性集體管理的實施能夠在促進人工智能行業(yè)發(fā)展的同時，保障著作權(quán)人的合法權(quán)益。

關(guān)鍵詞：人工智能；延伸性集體管理；合理使用；法定許可

目次一、數(shù)據(jù)訓(xùn)練涉及的作品使用行為二、數(shù)據(jù)訓(xùn)練面臨超額交易成本與著作權(quán)人方利益失衡的雙重困境三、數(shù)據(jù)訓(xùn)練的合理使用“不合理” 四、法定許可適用局限性：交易成本和行業(yè)壟斷視角五、訓(xùn)練數(shù)據(jù)延伸性集體管理的合理性分析六、構(gòu)建具有廣泛代表性的AI訓(xùn)練數(shù)據(jù)集體管理組織七、總結(jié)

一

數(shù)據(jù)訓(xùn)練涉及的作品使用行為

人工智能經(jīng)歷了“機械學(xué)習(xí)”，到狹義機器學(xué)習(xí)再到深度學(xué)習(xí)的發(fā)展過程。人的勞動在其中占比越來越少，數(shù)據(jù)訓(xùn)練的重要性以及數(shù)據(jù)利用的復(fù)雜程度在不斷增加。明確數(shù)據(jù)訓(xùn)練的法律性質(zhì)，確認數(shù)據(jù)訓(xùn)練的合規(guī)風險對于人工智能發(fā)展已是迫在眉睫。

為了便于進行作品使用行為分析，本文將抽象的數(shù)據(jù)訓(xùn)練過程拆解為以下幾部分（詳見圖1），在具體的行為層面分析數(shù)據(jù)訓(xùn)練可能造成的著作權(quán)侵權(quán)風險。

圖1　數(shù)據(jù)訓(xùn)練過程

（一）數(shù)據(jù)挖掘階段存在對作品的復(fù)制

數(shù)據(jù)挖掘包含爬取、預(yù)處理與存儲。其著作權(quán)法核心爭議在于復(fù)制和演繹行為的認定。

數(shù)據(jù)爬取不涉及對作品的使用。數(shù)據(jù)爬取將來自互聯(lián)網(wǎng)的公開數(shù)據(jù)按照需求轉(zhuǎn)移到人工智能的臨時數(shù)據(jù)庫之中，并迅速經(jīng)歷數(shù)據(jù)的預(yù)處理，不存在長期存儲。數(shù)據(jù)爬取對數(shù)據(jù)的復(fù)制屬于臨時復(fù)制，客觀上“復(fù)制件”沒有被持久固定，不符合傳統(tǒng)著作權(quán)法對復(fù)制行為的定義，不會侵犯著作權(quán)人的著作權(quán)。

預(yù)處理是技術(shù)性轉(zhuǎn)換，所做的主要工作是對數(shù)據(jù)的向量化以及剔除。在這類技術(shù)性處理特征過程中，作品與機器可讀的向量的數(shù)值具有固定的、單一的對應(yīng)關(guān)系。算法以及編輯者并沒有進行任何的創(chuàng)造性勞動，因此不會涉及改編權(quán)等著作演繹權(quán)利侵權(quán)。

數(shù)據(jù)存儲將預(yù)處理過后的數(shù)據(jù)存儲到計算機的存儲庫。該部分數(shù)據(jù)以機器可讀的形式保留了原作品的基本表達，是受到著作權(quán)法保護的作品。存儲將數(shù)據(jù)從臨時的緩存庫中轉(zhuǎn)移到存儲庫中，涉及作品在不同的載體之間的轉(zhuǎn)移。而且被轉(zhuǎn)移的數(shù)據(jù)需要在存儲庫中較長時間的停留，以滿足后續(xù)的模型構(gòu)建中迭代的需求，事實上已被穩(wěn)定地、持久地固定在新的載體中，滿足《著作權(quán)法》對復(fù)制行為的定義。

（二）特征提取不涉及對作品的使用

特征提取，是由人工手動或機器自動識別并標記訓(xùn)練數(shù)據(jù)中可以作為算法變量特征的過程。從著作權(quán)層面上的作品使用行為分析，特征提取對數(shù)據(jù)進行標記本身不涉及任何的更改，無法構(gòu)成改編等演繹行為；同時對數(shù)據(jù)的標記發(fā)生在存儲庫中，也不涉及載體之間的轉(zhuǎn)移，無法構(gòu)成復(fù)制行為。因此，特征提取不涉及對作品的使用。

（三）模型構(gòu)建以及模型評價可能構(gòu)成作品改編行為

模型構(gòu)建以及模型評價是一個交互的過程，本文一并進行分析。模型構(gòu)建包括輸出和修正。輸出是由輸入端經(jīng)由隱藏層到達輸出端的正向傳播，獲得輸出結(jié)果。修正是由輸出端到輸入端的反向傳播，調(diào)整模型參數(shù)。通過正向傳播和反向傳播的迭代，模型精度逐漸逼近真實決策。

輸出是算法模型模仿人類決策的過程。以生成式人工智能為例：生成式人工智能模型提取訓(xùn)練數(shù)據(jù)中的作品特征，并基于上述特征嘗試模仿作品產(chǎn)出相同的結(jié)果。輸出過程是否侵權(quán)取決于輸出結(jié)果是否屬于“表達性使用”。在訓(xùn)練過程中，作品整體被鑲嵌至算法模型中。部分人工智能生成內(nèi)容調(diào)用作品的表達，并在此基礎(chǔ)上進行排列組合。這類創(chuàng)作物的創(chuàng)作目的即模仿原作者的風格、特色。其在創(chuàng)作內(nèi)容上因為保留了原作品的特征，與原作存在極高的相似性，并未脫離原作品的實質(zhì)性內(nèi)容；并且生成式人工智能的創(chuàng)作物與原作品存在潛在的競爭，損害原作者的利益，可能構(gòu)成對原作品的改編。而另一部分人工智能生成內(nèi)容調(diào)用作品的創(chuàng)作思想，不構(gòu)成著作權(quán)法意義上的改編。

修正通過梯度下降等方法調(diào)整模型的參數(shù)。修正主要涉及對梯度的計算以及對參數(shù)的修改，并沒有將作品作為調(diào)整的對象，不涉及對作品的使用。

模型評價包括利用驗證集對參數(shù)進行調(diào)整以及對訓(xùn)練完成的模型精度進行檢驗，是特殊的輸出過程，可能存在著作權(quán)法意義上的改編行為。

綜合對于四個階段的系統(tǒng)分析，在不考慮著作權(quán)例外規(guī)則的情況下，人工智能的訓(xùn)練過程涉及對作品的復(fù)制與改編。而后續(xù)對輸出結(jié)果的使用有可能涉及更多的對作品的使用行為。

二

數(shù)據(jù)訓(xùn)練面臨超額交易成本與著作權(quán)人方利益失衡的雙重困境

未經(jīng)著作權(quán)人許可利用受著作權(quán)保護的數(shù)據(jù)進行訓(xùn)練的行為構(gòu)成著作權(quán)侵權(quán)。然而，數(shù)據(jù)訓(xùn)練因其特殊性質(zhì)，如訓(xùn)練數(shù)據(jù)的龐大數(shù)量和高額的許可獲取成本，以及數(shù)據(jù)訓(xùn)練侵權(quán)行為的隱蔽性和侵權(quán)發(fā)現(xiàn)的困難，面臨獨特的挑戰(zhàn)。法律尚缺乏對數(shù)據(jù)訓(xùn)練的特別制度安排，導(dǎo)致現(xiàn)實中出現(xiàn)數(shù)據(jù)訓(xùn)練難題。

（一）數(shù)據(jù)使用方的超額許可成本問題

合法獲得訓(xùn)練數(shù)據(jù)許可的巨大交易成本導(dǎo)致企業(yè)輕視合規(guī)冒險實施可能侵權(quán)行為。在目前的法律體系下，原則上企業(yè)在進行數(shù)據(jù)訓(xùn)練前需要征得著作權(quán)人的同意，向著作權(quán)人支付費用后才能夠合法地利用作品進行數(shù)據(jù)訓(xùn)練。復(fù)雜的許可環(huán)節(jié)帶來巨額的交易成本。訓(xùn)練數(shù)據(jù)數(shù)量太過龐大，人工智能企業(yè)不可能確定每條數(shù)據(jù)是否受著作權(quán)保護的作品，更不可能追溯到每條數(shù)據(jù)的源頭征得著作權(quán)人的同意。交易成本的困境導(dǎo)致著作權(quán)制度在數(shù)據(jù)訓(xùn)練領(lǐng)域形同虛設(shè)，違法使用訓(xùn)練數(shù)據(jù)的案例頻發(fā)。OpenAI正同時面臨著來自出版行業(yè)、程序員、社會群體等多方面訴訟。據(jù)報道，OpenAI未經(jīng)作者的許可，擅自使用他人的新聞報道、程序代碼、文字繪畫等作品，訓(xùn)練數(shù)據(jù)來源受到質(zhì)疑。Facebook母公司Meta Platforms、谷歌母公司Alphabet、蘋果、亞馬遜和微軟等科技巨頭近年來也面臨著大量此類訴訟。受著作權(quán)保護的訓(xùn)練數(shù)據(jù)被濫用已經(jīng)成為嚴重的現(xiàn)實問題。

（二）著作權(quán)人方的利益失衡問題

數(shù)據(jù)訓(xùn)練行為的隱蔽性導(dǎo)致侵權(quán)發(fā)現(xiàn)難，著作權(quán)人利益受到侵蝕。從著作權(quán)人的角度出發(fā)，人工智能的發(fā)展嚴重威脅作品原創(chuàng)者的生存空間，原創(chuàng)者卻不能從人工智能產(chǎn)業(yè)的繁榮中獲得合理的補償，發(fā)生嚴重的利益失衡。數(shù)據(jù)訓(xùn)練本身是個高度概括且抽象的過程，侵權(quán)行為具有隱蔽性。復(fù)制行為發(fā)生在人工智能企業(yè)自己的服務(wù)器中，并且以向量等形式存儲，著作權(quán)人沒有訪問人工智能企業(yè)服務(wù)器的權(quán)限，無法獲悉自己的作品是否被用于數(shù)據(jù)訓(xùn)練過程；人工智能模型針對用戶進行結(jié)果輸出，輸出結(jié)果不一定被公開，著作權(quán)人無法確定輸出結(jié)果是否保留自己作品的獨創(chuàng)性特征。即便著作權(quán)人能夠識別出人工智能輸出結(jié)果具有自己作品的獨創(chuàng)性特征，也面臨著訴訟力量懸殊、舉證難等問題。著作權(quán)人利益得不到保障，利益失衡嚴重。

（三）現(xiàn)有限制與例外機制

學(xué)者以及司法界給出“合理使用”以及“法定許可”兩種著作權(quán)的限制與例外制度作為數(shù)據(jù)訓(xùn)練的解決方案。下文將從立法現(xiàn)狀、法律原理、制度目的幾個層面進行分析，論證合理使用與法定許可制度在數(shù)據(jù)訓(xùn)練領(lǐng)域的制度失靈及其原因，并嘗試從集體管理角度提出化解人工智能訓(xùn)練數(shù)據(jù)困境的新方案。

三

數(shù)據(jù)訓(xùn)練的合理使用“不合理”

合理使用旨在平衡著作權(quán)人利益與社會公共利益。本文將從現(xiàn)行法律規(guī)定和司法實踐規(guī)則兩個層面，分析將人工智能數(shù)據(jù)訓(xùn)練納入合理使用范圍所面臨的障礙。

（一）數(shù)據(jù)訓(xùn)練納入合理使用的法定困境

我國合理使用的立法模式借鑒了《伯爾尼公約》中的三步檢驗法。數(shù)據(jù)訓(xùn)練的合理使用不能夠完全滿足“三步檢驗法”的要求，難以被納入合理使用情形。

第一，數(shù)據(jù)訓(xùn)練涉及的復(fù)制與改編行為超出合理使用的范圍。從合理使用的十二種法定情形中可以抽象出其兩種制度目的：其一是為了保障公民基本權(quán)利，主要涉及合理使用的（三）（四）（五）（十一）（十二）款；上述條款對公民的知情權(quán)與受教育權(quán)等基本權(quán)利做出妥協(xié)，著作經(jīng)濟權(quán)利無法與基本權(quán)利相比，因此受到限制。基于該目的的合理使用，要求著作權(quán)利益相較于作品使用行為帶來的社會福利極小。而數(shù)據(jù)訓(xùn)練不涉及公民的基本權(quán)利，亦無法衡量算法模型優(yōu)化帶來的人工智能發(fā)展利益與著作權(quán)人受損的利益孰重孰輕。其二是為了私人以及公共生活領(lǐng)域方便而不得已做出的妥協(xié)，主要涉及合理使用的（一）（二）（六）（七）（八）（九）（十）款。數(shù)據(jù)訓(xùn)練脫離私人與公共生活領(lǐng)域，不可能因其在合理使用中的缺位造成私人與公共生活不便。綜上所述，將數(shù)據(jù)訓(xùn)練納入合理使用范圍，可能超出立法設(shè)定的制度目的邊界。

第二，將數(shù)據(jù)訓(xùn)練納入合理使用不滿足“三步檢驗法”不與作品正常使用相沖突的要求。通常認為，只有對作品的使用不損害著作權(quán)人利益或使用能夠總體上增加著作權(quán)人的利益時屬于“不與作品正常使用相沖突”。世界貿(mào)易組織認為只要該項限制妨礙了著作權(quán)人的“顯著”或“有形”的經(jīng)濟收益權(quán)，就與作品的正常使用相沖突。數(shù)據(jù)訓(xùn)練結(jié)果可能生成與受訓(xùn)作品存在市場競爭關(guān)系的輸出物。這種使用方式對著作權(quán)人現(xiàn)有及潛在市場利益構(gòu)成影響的風險，難以滿足“不與作品正常利用相沖突”的要求。

第三，“三步檢驗法”的最后一步要求“不得不合理地損害著作權(quán)人的合法權(quán)益”?！昂侠怼钡氖褂脩?yīng)當在理性的范圍內(nèi)，符合公平、正義等價值觀念。訓(xùn)練數(shù)據(jù)的合理使用制度建構(gòu)不能實現(xiàn)公平正義。將數(shù)據(jù)訓(xùn)練行為納入合理使用的例外，是著作權(quán)人和人工智能企業(yè)權(quán)利義務(wù)的“不公平”：著作權(quán)人需單方面容忍其作品被大規(guī)模商業(yè)使用，而利用方則免除了征求許可和付費的義務(wù)。

第四，我國對于合理使用的規(guī)定創(chuàng)設(shè)地要求“應(yīng)當指明作者姓名或者名稱、作品名稱”。在數(shù)據(jù)訓(xùn)練場景中，面對海量且來源復(fù)雜的訓(xùn)練素材，要求企業(yè)準確指明每一份受版權(quán)保護數(shù)據(jù)的作者及作品名稱，存在顯著的實踐困難。

綜上所述，基于目前的著作權(quán)法規(guī)定，將商業(yè)性數(shù)據(jù)訓(xùn)練行為納入合理使用法定情形存在多重法律障礙。

（二）數(shù)據(jù)訓(xùn)練納入合理使用超出司法實踐規(guī)則

在司法實踐中，最高人民法院肯定了美國“四要素”在裁判合理使用中的輔助性作用，并常參考“轉(zhuǎn)換性使用”原則來輔助判斷合理使用。從這些規(guī)則視角審視數(shù)據(jù)訓(xùn)練，亦面臨挑戰(zhàn)。

1.基于“四要素”的分析

“四要素”法包含使用的目的和性質(zhì)、作品的性質(zhì)、使用的數(shù)量和實質(zhì)性、對潛在市場或價值的影響。有觀點認為“四要素”下數(shù)據(jù)訓(xùn)練適用合理使用的兩個假設(shè)前提是：機器學(xué)習(xí)屬非表達性使用，且不影響作品市場。然而，現(xiàn)實情況更為復(fù)雜。

首先，數(shù)據(jù)訓(xùn)練能夠在作者的表達中攫取有價值的信息，從表達層面獲取收益。“機器學(xué)習(xí)”應(yīng)該區(qū)別于往日的“機器”學(xué)習(xí)，作為訓(xùn)練數(shù)據(jù)的作品表達可能會在生成式人工智能的輸出結(jié)果中復(fù)現(xiàn)。人工智能對作品的使用不再局限于不構(gòu)成侵權(quán)的非表達層面。其次，人工智能的輸出結(jié)果以全新的方式威脅到作品市場。人工智能創(chuàng)作物具有低成本、短周期、大數(shù)量的特點，與人類作者的作品之間存在強競爭關(guān)系，壓縮作者生存空間，對原有作品市場產(chǎn)生實質(zhì)性影響。

從“四要素”角度看，數(shù)據(jù)訓(xùn)練在作品使用的性質(zhì)與目的，對潛在市場影響兩個最關(guān)鍵要素上難以充分滿足合理使用的要求。

2.數(shù)據(jù)訓(xùn)練難以構(gòu)成轉(zhuǎn)換性使用

轉(zhuǎn)換性使用原則是對四要素中“（1）使用的目的與性質(zhì)”的重述和具體化。數(shù)據(jù)訓(xùn)練因為目的與性質(zhì)同合理使用制度初衷偏離而難以構(gòu)成轉(zhuǎn)換性使用。

數(shù)據(jù)訓(xùn)練中的復(fù)制行為難以構(gòu)成轉(zhuǎn)換性使用。在Authors Guild v. Google案中，谷歌圖書搜索的復(fù)制行為被認定為轉(zhuǎn)換性使用。紐約州法院認為，“圖書館計劃”為讀者和研究者提供了一種高效檢索圖書的方式，拓寬了作品獲取途徑，促進作品傳播，整體上對作者和出版商有益。該案中，法院強調(diào)其復(fù)制目的嚴格限定于文獻保存，且此種特定目的的實施最終對權(quán)利人具有積極意義。這種“有益性”特征在數(shù)據(jù)訓(xùn)練的復(fù)制中無法復(fù)現(xiàn)，因為人工智能在作品市場同原作者處于競爭對立地位，數(shù)據(jù)訓(xùn)練轉(zhuǎn)換性目的弱。

其次，數(shù)據(jù)訓(xùn)練執(zhí)行過程對作品的改編行為，也難以構(gòu)成轉(zhuǎn)換性使用。轉(zhuǎn)換性使用可分為目的性轉(zhuǎn)換性和內(nèi)容性轉(zhuǎn)換性使用。數(shù)據(jù)訓(xùn)練過程對作品的改編主要服務(wù)于模型內(nèi)部功能優(yōu)化，通常不服務(wù)于非欣賞目的獲取、評論或檢索等目的，目的轉(zhuǎn)換性不足。而訓(xùn)練過程將作品有價值的表達特征加以提取，并重組再次進行表達，并未為作品添加新的具有審美意義的內(nèi)容，也沒有從另一個全新的角度對作品進行解讀，其輸出的創(chuàng)作物的價值仍然依賴于原作品的創(chuàng)造性表達，也難以達到內(nèi)容性的轉(zhuǎn)換要求。

值得注意的是，美國聯(lián)邦最高法院在Andy Warhol Foundation v. Goldsmith案中收緊了轉(zhuǎn)換性使用的認定標準，否定“任何為原作品添加美學(xué)內(nèi)容或新的表達方式都能夠構(gòu)成轉(zhuǎn)換性使用”的觀點。在這樣的背景下，即便人工智能發(fā)展到足以重組原作品的表達、進行內(nèi)容上的創(chuàng)新，是否能構(gòu)成轉(zhuǎn)換性使用也高度存疑。

3.功利主義再審視

“四要素”和“轉(zhuǎn)換性使用”承載功利主義思想，即通過有限限制版權(quán)以促進知識傳播和整體社會福利最大化。表面上會侵犯著作權(quán)的行為，如果背后承載了更大的公共利益，可能會被納入合理使用。

邊沁認為：“功利主義贊成能夠增大利益相關(guān)者幸福的行為，來促進這種幸福的傾向；非難減少利益相關(guān)者幸福的行為，來妨礙這種幸福的傾向?！睂?shù)據(jù)訓(xùn)練納入合理使用范圍會極大程度上損害著作權(quán)人的利益，降低作者的創(chuàng)作積極性，長遠來看不利于文化行業(yè)繁榮，整體上來看是導(dǎo)致社會福利減少的，不符合功利主義內(nèi)核。

四

法定許可適用局限性：交易成本和行業(yè)壟斷視角

法定許可制度的設(shè)計為了解決存在于版權(quán)領(lǐng)域的兩個問題。一是超額的交易成本；二是因為版權(quán)行業(yè)壟斷導(dǎo)致的市場失靈。上述制度目的在數(shù)據(jù)訓(xùn)練領(lǐng)域無法實現(xiàn)。

（一）法定許可不能充分降低數(shù)據(jù)訓(xùn)練領(lǐng)域交易成本

交易成本理論視角下，法定許可降低了權(quán)利人與潛在使用者之間的磋商成本，但并沒有減輕人工智能企業(yè)的付費義務(wù)要求。企業(yè)使用訓(xùn)練數(shù)據(jù)必須要找到作者，并向作者支付費用，仍存在很高的搜尋成本和實施成本。

這種模式之下，對于明確享有版權(quán)且作者信息明確的作品，企業(yè)向其支付作品使用費用難度不大，不存在過高的交易成本。但有相當數(shù)量的訓(xùn)練數(shù)據(jù)，不能夠確定其是否屬于受著作權(quán)保護的作品，或難以找到權(quán)利人信息，企業(yè)確定這種存疑的訓(xùn)練數(shù)據(jù)是否屬于作品、搜尋作品權(quán)利人信息、支付許可費用的搜尋成本、實施成本極大。

這種情況下交易成本已經(jīng)超過了單條數(shù)據(jù)價值。理性的企業(yè)會選擇忽視法定許可的規(guī)定，不向著作權(quán)人支付費用，而是放任侵權(quán)行為的發(fā)生，訴訟發(fā)生時再予以補救。此時法定許可發(fā)生制度失靈，淪為一紙空談。

（二）法定許可解決行業(yè)壟斷作用無用武之地

法定許可制度第二個目的是解決版權(quán)行業(yè)的壟斷問題。錄音制品的法定許可的立法宗旨是為了防止音樂市場的壟斷。二十世紀初期，音樂作品的著作權(quán)往往由音樂出版商通過和著作權(quán)人簽訂協(xié)議取得。而大型唱片公司與音樂出版商簽訂專有許可協(xié)議，壟斷了利用音樂作品制作錄音制品的權(quán)利。為了避免少數(shù)大型公司壟斷音樂市場，美國國會在1908年《版權(quán)法修正案》率先對“制作錄音制品法定許可”作出了規(guī)定。

從錄音制品法定許可的制定淵源可以看出，該類法定許可是為了防止著作權(quán)利壟斷版權(quán)市場。但是在人工智能領(lǐng)域，著作權(quán)人不僅不具有壟斷地位，甚至不占有市場份額，處于顯著弱勢地位；反而，該領(lǐng)域享有市場支配地位，需要進行權(quán)利限制的正是要求使用作品的人工智能企業(yè)。法定許可解決行業(yè)壟斷的目的在人工智能的訓(xùn)練領(lǐng)域不具有現(xiàn)實意義。

（三）從法定許可到延伸性集體管理

法定許可制度建立以來，因為缺乏程序上的保障飽受詬病。以我國的錄音制品法定許可為例，首先是許可費收取難—著作權(quán)人和錄音制品使用者之間存在高度的信息不對稱性，許可使用費往往依賴于使用者自覺繳納；其次是許可費定價難—法定許可制度省略了協(xié)商過程以減少協(xié)商交易成本，取而代之的是行政機關(guān)確立許可價格。這種方式剝奪了著作權(quán)人的議價權(quán)，同時缺乏合理性、代表性、及時性。因此，在缺乏足夠的程序性保障機制的情況下，法定許可制度目的難以實現(xiàn)。即便是在建立法定許可制度較早的美國，產(chǎn)業(yè)上的實施也已完全依賴于集體管理組織，實際上構(gòu)成了具有延伸性效果的集體管理，最終完成了集體許可模式對法定許可替代。

五

訓(xùn)練數(shù)據(jù)延伸性集體管理的合理性分析

相較于合理使用、法定許可，延伸性集體管理重點關(guān)注縮減交易成本，符合數(shù)據(jù)訓(xùn)練過程特點，能夠更好地實現(xiàn)利益平衡。

（一）訓(xùn)練數(shù)據(jù)的延伸性集體管理

延伸性著作權(quán)集體管理最早為了解決集體管理組織獲取作者授權(quán)的困境。通過限制“非代表會員”的權(quán)利，延伸性集體管理將集體管理組織的權(quán)利擴展到非會員作品，給予集體管理組織一項“法律推定權(quán)”，管理非會員的作品。

延伸性集體管理實際上是一種以“選擇—退出（opt-out）”為基本構(gòu)造的默示許可。集體管理組織對進行延伸性管理的作品進行公告即推定獲得來自著作權(quán)人的默示許可，著作權(quán)人可以隨時通過通知集體管理組織拒絕管理的方式退出集體管理。集體管理組織以公告作品的方式進行了要約，而作者不對管理進行拒絕實際上構(gòu)成了默示承諾。延伸性集體許可重構(gòu)作品許可過程，解決特殊情形下信息不對稱，實現(xiàn)了效率與公平的統(tǒng)一。

延伸性著作權(quán)集體管理是針對特殊情況，交易成本過于巨大，乃至于普通的集體管理不能起到理想的效果，所做出的特殊制度安排。數(shù)據(jù)訓(xùn)練領(lǐng)域正符合延伸性集體管理的應(yīng)用場景：海量的數(shù)據(jù)以及單條數(shù)據(jù)的低廉使用價格導(dǎo)致人工智能訓(xùn)練數(shù)據(jù)交易成本大于作品本身許可價格，交易不能順利進行。此時考慮引入延伸性集體管理，并將適用范圍嚴格限制在訓(xùn)練數(shù)據(jù)的許可之上，在最小化“選擇—退出”對著作權(quán)人權(quán)利限制的同時解決訓(xùn)練數(shù)據(jù)領(lǐng)域的許可問題。

（二）延伸性集體管理的交易成本分析

訓(xùn)練數(shù)據(jù)特性致使其著作權(quán)保護構(gòu)成復(fù)雜議題，具體表現(xiàn)在以下三個方面。

第一，訓(xùn)練數(shù)據(jù)來源的復(fù)雜性。訓(xùn)練數(shù)據(jù)包含處于公共領(lǐng)域的知識、受著作權(quán)保護的作品以及權(quán)屬不確定的存疑數(shù)據(jù)。企業(yè)在獲取訓(xùn)練數(shù)據(jù)時面臨區(qū)分成本、來源尋找成本以及協(xié)商成本。即使找到著作權(quán)人并就作品的使用達成一致，企業(yè)仍面臨支付費用的實施成本。訓(xùn)練數(shù)據(jù)來源的復(fù)雜性決定了單條訓(xùn)練數(shù)據(jù)獲得許可的高額成本。

第二，訓(xùn)練數(shù)據(jù)的數(shù)量極其龐大。以生成式人工智能常用的訓(xùn)練語料數(shù)據(jù)庫COMMON CRAWL為例，其在2023年累計爬取的網(wǎng)頁已達到百億的量級。單條訓(xùn)練數(shù)據(jù)的交易成本乘以如此巨大的數(shù)據(jù)量級，進行人工智能數(shù)據(jù)訓(xùn)練的交易成本達到天文數(shù)字。

第三，單條訓(xùn)練數(shù)據(jù)的價值極低。在交易成本巨大的領(lǐng)域，如果商品本身價值遠高于交易成本，上述交易成本也應(yīng)該被容忍。但是，模型訓(xùn)練建立在數(shù)以百億的訓(xùn)練數(shù)據(jù)的統(tǒng)計基礎(chǔ)之上。平均下來，單一的訓(xùn)練數(shù)據(jù)的價值可以忽略不計。在這種情況之下，交易成本遠大于商品價格，交易無法進行。

以上巨大的交易成本導(dǎo)致傳統(tǒng)的許可模式不能很好地應(yīng)用于數(shù)據(jù)訓(xùn)練，而延伸性集體管理最直接的作用就是降低交易成本。延伸性集體許可從以下幾個方面降低交易成本，解決訓(xùn)練數(shù)據(jù)管理困難的著作權(quán)問題。

1.一攬子許可，降低協(xié)商成本、人工智能企業(yè)方搜尋成本和實施成本

延伸性集體管理本質(zhì)上仍屬于集體管理，享有集體管理本身降低成本的制度優(yōu)勢。

首先，集體管理組織實施一攬子許可，省略了著作權(quán)人與被許可人的協(xié)商環(huán)節(jié)。集體管理在交易過程中充當著作權(quán)人與人工智能企業(yè)之間的橋梁，將“多對多”談判轉(zhuǎn)變?yōu)椤耙粚Χ唷?，降低協(xié)商成本。其次，一攬子許可能夠降低搜尋成本。集體管理組織將管理的訓(xùn)練數(shù)據(jù)制作為目錄，并進行公示，省略了數(shù)據(jù)搜尋以及來源確認過程。最后，集體管理組織的自治性保證了組織的運行不依賴于其他主體。集體管理組織可以進行自主決策，作為獨立的主體向著作權(quán)人支付費用，降低實施成本。

2.延伸至非會員，降低集體管理組織方搜尋成本，進一步降低協(xié)商成本

延伸性集體管理相較于普通集體管理的優(yōu)勢在于，特殊情況下其將管理范圍延伸至非會員，進一步降低交易成本。

第一，延伸性集體管理在集體管理模式下進一步降低搜尋成本。延伸性集體管理模式采取“選擇—退出”機制的默示許可，只有著作權(quán)人采取措施通知集體管理組織時，集體管理組織才取消對其作品的管理，簡化許可程序。簡化后的作品許可程序很好地契合了訓(xùn)練數(shù)據(jù)“來源模糊”的特性：集體管理組織無需再搜尋著作權(quán)人聯(lián)系方式以征求著作權(quán)人同意，而是通過“公示數(shù)據(jù)及其來源”的方式將退出權(quán)移交到著作權(quán)人手中。

第二，延伸性集體管理避免協(xié)商成本。傳統(tǒng)集體管理模式下，著作權(quán)人與集體管理組織的談判環(huán)節(jié)是獲得許可的必經(jīng)程序之一，而在延伸性集體管理模式下，談判過程被省略。取而代之的是集體管理組織的單方面“許可通知”與著作權(quán)人的單方面“選擇退出”，協(xié)商成本接近為0。

3.借鑒孤兒作品許可方式，解決存疑訓(xùn)練數(shù)據(jù)

延伸性集體許可被用于解決孤兒作品許可問題。集體管理組織不需要做出努力尋找孤兒作品的作者，只需要將所使用的作品進行公示即可獲得使用作品的許可。除非該作品的權(quán)利人通知集體管理組織拒絕其管理，集體管理組織代行許可權(quán)利。這種“選擇—退出”模式避免了繁瑣的作品來源確定環(huán)節(jié)，降低搜尋成本，促進作品傳播。

上述處理孤兒作品的思路可以應(yīng)用于解決存疑訓(xùn)練數(shù)據(jù)的許可成本問題：集體管理組織在收集訓(xùn)練數(shù)據(jù)保護的第一步時，就要確定其是否享有著作權(quán)。并據(jù)此將作為訓(xùn)練源的數(shù)據(jù)區(qū)分為：（1）明確享有版權(quán)的數(shù)據(jù)；（2）明確不享有版權(quán)的數(shù)據(jù)；（3）存疑的訓(xùn)練數(shù)據(jù)。

針對確定受到版權(quán)保護的作品。在延伸性集體管理模式之下，集體管理組織采取公告等方式對作者進行通知，即可將其作為訓(xùn)練數(shù)據(jù)源對人工智能企業(yè)許可。第一種作品的作者信息明確，集體管理組織可以較小的交易成本向作者分配費用；針對明確不享有版權(quán)的數(shù)據(jù)，它們存在于公共領(lǐng)域，集體管理組織可以將其作為訓(xùn)練數(shù)據(jù)。這類數(shù)據(jù)處于公共領(lǐng)域，不需要進行許可費用支付；針對存疑的數(shù)據(jù)，借鑒延伸性集體管理組織對孤兒作品的處理方法，利用“選擇—退出”機制通過官網(wǎng)公示數(shù)據(jù)管理情況、暫不支付費用，待作者主動要求退出或分配費用時再行處置，有效規(guī)避因作者不明導(dǎo)致的搜尋成本，同時降低集體管理組織的實施成本與分配成本。

采取這類對孤兒作品的處理方法解決存疑訓(xùn)練數(shù)據(jù)交易成本難題主要存在兩個優(yōu)勢：（1）作品的權(quán)利人本身對作品狀態(tài)更為了解，容易確定是否受著作權(quán)保護。相較于集體管理組織耗時更短、成本更低、準確度更高。（2）集體管理組織通過“選擇—退出”機制將巨大的權(quán)利人信息搜尋成本均勻地分配到每個作品權(quán)利人身上，避免交易成本積聚在單一主體。

4.規(guī)模優(yōu)勢：統(tǒng)一標簽，降低邊際成本

人工智能的模型質(zhì)量依賴于高質(zhì)量的訓(xùn)練數(shù)據(jù)。高質(zhì)量的訓(xùn)練數(shù)據(jù)不僅需要具有強時效性，還需要良好的標簽。在實踐之中，很多人工智能企業(yè)將數(shù)據(jù)標簽外包，但面臨著隱私信息泄露、標簽質(zhì)量差問題。

集體管理組織統(tǒng)一標簽保證數(shù)據(jù)的安全性，發(fā)揮規(guī)模優(yōu)勢。集體管理組織受到國務(wù)院主管部門的密切監(jiān)管，隱私信息泄露概率低；此外集體管理組織通過集中培訓(xùn)加批量處理的方式，保證訓(xùn)練數(shù)據(jù)質(zhì)量，降低標簽邊際成本。

（三）延伸性集體管理能夠更好地實現(xiàn)利益平衡

知識產(chǎn)權(quán)法律制度的核心在于利益平衡，評判一項知識產(chǎn)權(quán)制度的好壞，利益平衡是核心。延伸性集體管理更好地實現(xiàn)了數(shù)據(jù)訓(xùn)練中的利益平衡。

一是延伸性集體管理相比于合理使用制度，能夠更好地保護著作權(quán)人利益。合理使用模式是對著作權(quán)人的權(quán)利做出的極大限制，著作權(quán)人無法享受人工智能發(fā)展帶來的高新科技就業(yè)紅利，卻要承受與人工智能競爭就業(yè)的風險。延伸性集體管理為著作權(quán)人保留了選擇權(quán)，雖然增設(shè)了注意義務(wù)，但著作權(quán)人仍可以自主決定是否允許集體管理組織對其作品進行管理；其次，著作權(quán)人可以得到經(jīng)濟層面的補償，相較于合理使用模式下的無償使用，延伸性集體管理能夠更好地實現(xiàn)利益平衡。

二是延伸性集體管理相比于法定許可制度，能夠更好地促進人工智能行業(yè)發(fā)展。法定許可沒有解決存疑訓(xùn)練數(shù)據(jù)交易成本問題。這部分訓(xùn)練數(shù)據(jù)數(shù)量不容小覷，高額的交易成本設(shè)置了極高的行業(yè)壁壘，加劇了行業(yè)壟斷，限制競爭。即便大型公司面對如此交易成本，創(chuàng)新的動機也會下降，阻礙行業(yè)科技發(fā)展。延伸性集體管理于降低交易成本優(yōu)于法定許可，其模式可破除法定許可交易成本障礙，助力人工智能行業(yè)迭代發(fā)展。

六

構(gòu)建具有廣泛代表性的AI訓(xùn)練數(shù)據(jù)集體管理組織

訓(xùn)練數(shù)據(jù)的集體管理需要做出全新的立法設(shè)計，既建立于現(xiàn)有著作權(quán)集體管理的基礎(chǔ)之上，又是對現(xiàn)有的集體管理制度的批判性改造。廣泛的代表性是集體管理制度能夠良好運行的必要條件，也是延伸性集體管理制度成立的基礎(chǔ)。歐盟對代表性的要求主要涵蓋會員覆蓋面、建立許可途徑及權(quán)利人通知機制三個層面。本文將從集體管理組織代表性的角度，提出對訓(xùn)練數(shù)據(jù)的著作權(quán)延伸性集體管理模式的基本構(gòu)建。

（一）提高集體管理組織公信力，降低入會門檻，吸引權(quán)利人加入

集體管理組織的法定壟斷地位是成立廣泛代表性的前提，多個集體管理組織同時存在分割市場，無法保證集體管理組織能夠代表市場上所有潛在的權(quán)利人。然而，法定壟斷地位也可能引發(fā)權(quán)利人對管理動機和效率的疑慮，阻礙其加入。如何在保證集體管理組織的法定壟斷地位的同時，消除公眾信任危機，確保數(shù)據(jù)集體管理組織的成員能夠代表市場上所有潛在權(quán)利人的利益成為數(shù)據(jù)集體管理組織制度構(gòu)建應(yīng)當考慮的核心問題。

首先，應(yīng)當建立數(shù)據(jù)集體管理全過程透明的制度。數(shù)據(jù)集體管理制度建立應(yīng)當吸取著作權(quán)集體管理組織弱公信力的經(jīng)驗，就組織的成員、管理數(shù)據(jù)、具體權(quán)利、許可價格、協(xié)商過程等流程事項進行全面地公示，消除公眾信任危機。其次，應(yīng)當設(shè)立數(shù)據(jù)集體管理組織入會的零門檻。采取“先入會，后篩選”的模式，即著作權(quán)人選擇加入集體管理組織時不對其資格進行評審，在出現(xiàn)分配費用糾紛時再進行審查，簡化集體管理組織的入會評估過程。

（二）建立完善的數(shù)據(jù)集體管理組織會員代表制度，保證許可協(xié)議的代表性、合法性

延伸性集體管理因為具有廣泛的代表性，被認為能夠充分代表非會員的權(quán)利，因此具有合法性。具有高度代表性的會員代表保障非會員的權(quán)利，消除非會員對延伸性集體管理制度的顧慮。

首先，會員選任程序要做到公平、公正。會員代表選任需要兼顧程序公正和結(jié)果的代表性，投票過程設(shè)置合理的投票比重，結(jié)果上應(yīng)能代表特定行業(yè)的主流利益。其次，會員代表同數(shù)據(jù)集體管理組織的協(xié)商過程應(yīng)當保證其余會員以及非會員的參與權(quán)，允許非代表會員以及非會員通過提出意見、旁聽等方式參與協(xié)商。最后，會員代表同集體管理組織討論得到的許可協(xié)議成文應(yīng)當具有合理性。許可協(xié)議內(nèi)容不能對某個利益群體具有不合常理地偏好或者不合常理地損害某個群體的利益。

（三）成立數(shù)據(jù)集體管理信息平臺

在延伸性集體管理“選擇—退出”模式之下，集體管理組織受到通知義務(wù)的限制，集體管理組織必須以恰當?shù)姆绞酵ㄖ獧?quán)利人被管理的作品以及被管理的權(quán)利。考慮訓(xùn)練數(shù)據(jù)的特點，成立數(shù)據(jù)集體管理信息平臺是履行通知義務(wù)、進行管理信息公示的最佳途徑。

理想的數(shù)據(jù)集體管理平臺需要滿足三個功能：（1）管理信息公示公告；（2）作品信息檢索；（3）管理過程公開。反思現(xiàn)有五大著作權(quán)集體管理組織網(wǎng)站的不足，借鑒專利開放許可交易平臺的經(jīng)驗，本文為數(shù)據(jù)集體管理信息平臺的構(gòu)建提出如下建議：

第一，建立全面的信息公示制度。延伸性集體管理對信息公示的全面性、準確性有極高要求。平臺須全面公示作品及權(quán)利人信息（如可獲得），對存疑數(shù)據(jù)需注明獲取源，確保權(quán)利人便捷獲知作品管理狀態(tài)。

第二，建立完善的信息檢索系統(tǒng)。借鑒專利平臺經(jīng)驗，提供多種檢索方式（如單一、組合、批量），并支持按權(quán)利人名稱、領(lǐng)域、時間及關(guān)鍵特征如數(shù)據(jù)來源等進行精準篩選。

第三，建立透明的管理過程公示環(huán)節(jié)。數(shù)據(jù)集體管理組織信息公示平臺應(yīng)當注重代表選任、許可商議過程、管理費用明細三個方面管理過程透明公示。避免選舉舞弊和內(nèi)部貪腐情況的發(fā)生，同時增強非會員參與感，提高管理組織公信度。

值得注意的是，具有廣泛代表性的數(shù)據(jù)集體管理組織能夠為數(shù)據(jù)的延伸性集體管理提供會員與數(shù)據(jù)的數(shù)量基礎(chǔ)，但進一步加深了集體管理組織的壟斷地位，應(yīng)當警惕數(shù)據(jù)集體管理組織的壟斷行為。目前立法框架對五大著作權(quán)集體管理組織的壟斷監(jiān)督僅限于國務(wù)院著作權(quán)管理部門內(nèi)部，監(jiān)管力度遠不能滿足現(xiàn)實需求。新增的數(shù)據(jù)集體管理組織應(yīng)當接受來自國家數(shù)據(jù)局、國務(wù)院反壟斷執(zhí)法機關(guān)、紀委監(jiān)委三方面的監(jiān)督。其中，國家數(shù)據(jù)局負責對數(shù)據(jù)集體管理組織的數(shù)據(jù)利用情況進行監(jiān)督，聚焦于平臺的信息公示、管理流程、許可協(xié)議是否符合法律規(guī)定；國務(wù)院反壟斷執(zhí)法機關(guān)規(guī)制數(shù)據(jù)集體管理組織濫用市場支配地位的競爭層面行為，重點關(guān)注數(shù)據(jù)集體管理組織可能出現(xiàn)的損害作品許可市場競爭的行為；紀委監(jiān)委監(jiān)察數(shù)據(jù)集體管理組織可能出現(xiàn)的腐敗現(xiàn)象，以及可能存在收取過高管理費用、管理人員因嚴重不盡職導(dǎo)致管理不力等問題。

七

總結(jié)

人工智能技術(shù)被認為是第四次工業(yè)革命的開端，中國穩(wěn)定的制度環(huán)境為人工智能提供了發(fā)展的土壤，能夠保證中國企業(yè)在前沿科技領(lǐng)域的競爭優(yōu)勢?！渡墒饺斯ぶ悄芊?wù)管理暫行辦法》要求數(shù)據(jù)訓(xùn)練尊重他人知識產(chǎn)權(quán)，但合法的數(shù)據(jù)訓(xùn)練意味著巨大的交易成本，企業(yè)數(shù)據(jù)訓(xùn)練侵權(quán)頻發(fā)；同時數(shù)據(jù)訓(xùn)練侵權(quán)具有隱蔽性，著作權(quán)人利益得不到充分保護，發(fā)生嚴重利益失衡。傳統(tǒng)的合理使用以及法定許可在數(shù)據(jù)訓(xùn)練情景下并不能充分發(fā)揮作用：將數(shù)據(jù)訓(xùn)練納入合理使用存在違反“三步檢驗法”風險；法定許可降低交易成本以及解決行業(yè)壟斷的目的在數(shù)據(jù)訓(xùn)練領(lǐng)域不能充分實現(xiàn)。因此，本文針對數(shù)據(jù)訓(xùn)練領(lǐng)域的特性，提出引入延伸性集體管理作為解決方案。延伸性集體管理采取“選擇—退出”的機制，能夠充分降低交易成本；同時相較于合理使用以及法定許可，能夠更好地實現(xiàn)人工智能企業(yè)與著作權(quán)人之間的利益平衡，解決數(shù)據(jù)訓(xùn)練領(lǐng)域面臨的兩大困境。

-向上滑動，查看完整目錄-

《電子知識產(chǎn)權(quán)》2025年第8期目錄

【學(xué)術(shù)研究】

1.生成式人工智能侵權(quán)歸責原則的比選與使用

吳太軒、鄧朝輝

2.職務(wù)發(fā)明創(chuàng)造專利共有權(quán)利行使問題研究

劉強

3.群體隱私下基因信息保護的制度虛化和因應(yīng)研究

陳佳舉

【熱點聚焦】

4.數(shù)智時代版權(quán)過濾義務(wù)：內(nèi)在機理、現(xiàn)實問題及其紓解路徑

鄧社民、管濤

5.人工智能訓(xùn)練數(shù)據(jù)的著作權(quán)延伸性集體管理合理性分析

許春明、段明赫

6.標準必要專利訴訟中禁訴令制度的適用規(guī)則研究

呂昭詩

【法苑】

7.網(wǎng)絡(luò)平臺知識產(chǎn)權(quán)侵權(quán)的規(guī)制研究

——基于《民法典》“避風港”原則的適用分析

陳輝、王昊

【域外法制】

8.英國人工智能法律監(jiān)管框架、困境及啟示

廖詩評、陳九州

《電子知識產(chǎn)權(quán)》（月刊）創(chuàng)刊于1991年，由工業(yè)和信息化部主管，國家工業(yè)信息安全發(fā)展研究中心主辦，工業(yè)和信息化部電子知識產(chǎn)權(quán)中心承辦。本刊集理論性和實踐性為一體，探討解決理論界和實務(wù)界中最新的知識產(chǎn)權(quán)問題，交流國內(nèi)外最新知識產(chǎn)權(quán)理論研究成果及司法實踐經(jīng)驗，是國內(nèi)外工業(yè)行業(yè)領(lǐng)域唯一的知識產(chǎn)權(quán)學(xué)術(shù)期刊。

點擊進入下方小程序

獲取專屬解決方案~

責任編輯 | 王睿??????

審核人員 | 張文碩韓爽

本文聲明 | 本文章僅限學(xué)習(xí)交流使用，如遇侵權(quán)，我們會及時刪除。本文章不代表北大法律信息網(wǎng)（北大法寶）和北京北大英華科技有限公司的法律意見或?qū)ο嚓P(guān)法規(guī)/案件/事件等的解讀。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.