大英百科全書的反擊：一場被低估的AI版權(quán)戰(zhàn)

2026-03-19 15:37:42　來源: 硅嶼手記

北京舉報

分享至

當ChatGPT能流暢回答"什么是黑洞"時，你有沒有想過——這些答案是從哪來的？

2025年3月，兩個名字突然聯(lián)手把OpenAI告上法庭：大英百科全書（Encyclopedia Britannica）和韋氏詞典（Merriam-Webster）。不是科技公司，不是媒體集團，而是兩家加起來超過400歲的"知識老字號"。

它們指控ChatGPT在訓練中使用了近10萬篇受版權(quán)保護的文章，且未獲授權(quán)。這場訴訟的微妙之處在于：原告不是追著要錢的版權(quán)流氓，而是本身就代表"權(quán)威知識"的建制派。它們的出手，可能預示著AI內(nèi)容戰(zhàn)爭進入了新階段。

為什么是這兩家？時間線里的信號

要理解這場訴訟的分量，得先看清原告的特殊身份。

大英百科全書創(chuàng)立于1768年，紙質(zhì)時代的人類知識圖騰。2012年停止印刷版后，它成功轉(zhuǎn)型為數(shù)字訂閱服務，靠高質(zhì)量內(nèi)容和教育機構(gòu)授權(quán)活著。韋氏詞典更老，1828年創(chuàng)刊，至今仍是美國最權(quán)威的英語詞典品牌，其在線版每月有數(shù)千萬訪問量。

這兩家的共同點：它們的內(nèi)容不是新聞，是"結(jié)構(gòu)化知識"——經(jīng)過專業(yè)編輯整理、事實核查、持續(xù)更新的條目。這種內(nèi)容的制作成本極高，但一旦被AI模型消化，就變成了ChatGPT回答用戶提問的"原材料"。

訴訟文件的核心指控很具體：OpenAI在訓練大語言模型（Large Language Model，一種通過海量文本學習語言規(guī)律的AI系統(tǒng)）時，抓取了它們網(wǎng)站上的條目內(nèi)容。更麻煩的是，ChatGPT生成的回答有時會"復述"這些條目的獨特表述，甚至包含只有原文才有的錯誤——這成了"實質(zhì)性相似"的證據(jù)。

原告的訴求也很實際：經(jīng)濟賠償，外加禁令阻止進一步侵權(quán)。但它們真正在意的，恐怕是更深層的問題——當用戶直接問AI就能得到答案，誰還會去訂閱百科全書？

2023-2025：AI版權(quán)訴訟的升級曲線

這場訴訟不是孤立事件。把時間線拉長，能看到一條清晰的升級軌跡。

2023年，第一波訴訟潮針對的是"訓練數(shù)據(jù)"本身。美國作家Sarah Silverman、Michael Chabon等起訴OpenAI，指控其用盜版書庫訓練模型。《紐約時報》同年11月的訴訟更轟動，聲稱ChatGPT能生成與其文章幾乎一致的段落。

這些案件的共同點是：原告多為內(nèi)容生產(chǎn)者，訴求集中在"訓練階段"的侵權(quán)。但法律爭議極大——"合理使用"（Fair Use）原則是否覆蓋AI訓練？業(yè)界爭論至今沒有定論。

2024年，戰(zhàn)場開始轉(zhuǎn)移。一些出版商選擇與AI公司達成授權(quán)協(xié)議——美聯(lián)社、Axel Springer、新聞集團（News Corp）先后與OpenAI簽約，換取現(xiàn)金和流量分成。這被部分人解讀為"妥協(xié)模式"：既然攔不住，不如收點錢。

但大英百科全書和韋氏詞典選擇了另一條路。它們的訴訟發(fā)生在2025年3月，時機耐人尋味：此時OpenAI已與多家出版商達成協(xié)議，但顯然沒有覆蓋所有"知識型"內(nèi)容提供者。這兩家的聯(lián)手，暗示著"授權(quán)談判"并非萬能解藥。

更關(guān)鍵的是訴訟策略的變化。它們不僅指控訓練階段的抓取，還強調(diào)"輸出階段"的損害——ChatGPT的回答直接替代了用戶訪問原網(wǎng)站的需求。這種"市場替代"論證，比單純的版權(quán)侵權(quán)更難辯護，也更貼近商業(yè)現(xiàn)實。

技術(shù)細節(jié)：AI如何"吃掉"百科全書

要理解原告的憤怒，需要拆解大語言模型的工作方式。

這類模型的核心能力是"預測下一個詞"。通過分析海量文本中的統(tǒng)計規(guī)律，它學會什么詞通常跟在什么詞后面。當你問"黑洞是什么"，模型并非去"查資料"，而是基于訓練時見過的無數(shù)相關(guān)文本，生成最可能的回答序列。

問題在于，這種生成有時會越過"學習"的邊界，進入"復制"的領(lǐng)地。如果訓練數(shù)據(jù)中某段文本出現(xiàn)頻率極高、結(jié)構(gòu)獨特，模型可能將其"記住"并在特定提示下原樣輸出。

大英百科全書的條目恰好是這種"高風險內(nèi)容"：表述精確、結(jié)構(gòu)固定、在訓練數(shù)據(jù)中被大量引用。原告聲稱發(fā)現(xiàn)ChatGPT的回答包含其條目的"獨特措辭和錯誤"——這是版權(quán)訴訟中的經(jīng)典證據(jù)，證明被告接觸并復制了原告作品。

另一個技術(shù)細節(jié)是"檢索增強生成"（Retrieval-Augmented Generation，一種讓AI在回答時實時查詢外部數(shù)據(jù)庫的技術(shù)）的缺席。OpenAI的GPT-4等模型主要依賴預訓練知識，而非實時檢索權(quán)威來源。這意味著它們的回答可能基于過時的訓練數(shù)據(jù)，卻無法指向原始出處——對依賴準確性和可溯源性的百科全書業(yè)務，這是雙重打擊。

商業(yè)模式的生死局

這場訴訟的真正賭注，不是賠償金額，而是兩種知識分發(fā)模式的未來。

大英百科全書的商業(yè)模式很清晰：專業(yè)團隊生產(chǎn)高質(zhì)量內(nèi)容→用戶付費訂閱→機構(gòu)客戶（學校、圖書館）購買授權(quán)。它的護城河是"權(quán)威性"和"可信賴性"，代價是高昂的生產(chǎn)成本和相對封閉的訪問。

ChatGPT的模式完全相反：用爬蟲抓取公開內(nèi)容訓練模型→免費或低價向終端用戶提供答案→通過API和企業(yè)服務變現(xiàn)。它的護城河是"便利性"和"覆蓋廣度"，代價是內(nèi)容來源不透明、事實準確性不穩(wěn)定。

原告的核心論點是：OpenAI的模式是寄生性的。它用別人的內(nèi)容訓練模型，再用模型輸出搶走別人的用戶。更微妙的是，ChatGPT的回答往往不注明來源，切斷了用戶回溯原始內(nèi)容的路徑——這對依賴品牌認知和直接流量的出版商是致命傷。

數(shù)據(jù)支撐這一焦慮。2023年以來，多個研究顯示"零點擊搜索"（用戶直接在搜索結(jié)果頁獲得答案，無需訪問網(wǎng)站）的比例持續(xù)上升。AI聊天機器人將這種趨勢推向極致：用戶甚至不需要看到搜索結(jié)果的鏈接列表，直接獲得整合后的答案。

對于大英百科全書這類垂直內(nèi)容提供者，這意味著它們精心維護的"權(quán)威入口"地位正在被架空。一個中學生寫論文時，更可能直接問ChatGPT"解釋量子糾纏"，而非去 Britannica.com 查閱條目。

OpenAI的防御困境

面對訴訟，OpenAI的標準辯護策略有三層，但在這起案件中都可能遭遇挑戰(zhàn)。

第一層是"合理使用"。美國版權(quán)法允許為"轉(zhuǎn)化性目的"（如評論、研究、教學）有限使用受保護作品。OpenAI主張AI訓練屬于"轉(zhuǎn)化性學習"，模型提取的是統(tǒng)計規(guī)律而非表達形式。但大英百科全書案的微妙在于：原告的內(nèi)容是"事實性"的（詞典定義、百科條目），而版權(quán)法對"事實"的保護本就弱于創(chuàng)造性表達。如果法院認定AI復制的是"事實的組織方式"而非事實本身，合理使用的天平可能傾斜。

第二層是"技術(shù)中立"。OpenAI可能辯稱，模型只是工具，具體輸出取決于用戶提示。但原告已經(jīng)展示了ChatGPT主動生成與其條目高度相似的回答，這削弱了"工具中立"的論證。

第三層是"市場替代不成立"——即AI回答并未真正替代原始內(nèi)容，因為用戶需求不同。但大英百科全書和韋氏詞典的內(nèi)容屬性讓這一辯護尤為困難：用戶查詢"某個詞的定義"或"某個概念的解釋"，ChatGPT的回答與原始條目的功能完全重疊。

更深層的問題是：如果OpenAI選擇和解或賠償，會開創(chuàng)什么先例？目前它與新聞集團的授權(quán)協(xié)議金額未公開，但據(jù)行業(yè)傳聞在數(shù)千萬美元級別。大英百科全書的內(nèi)容體量雖小于大型新聞機構(gòu)，但其"知識基礎設施"的獨特地位可能讓要價更高。

而如果OpenAI選擇硬抗訴訟，風險在于法院可能做出不利判決，不僅影響本案，還會為其他AI公司的類似訴訟樹立判例。美國版權(quán)局目前正在研究AI訓練的法律地位，任何司法判決都可能影響最終的立法走向。

行業(yè)連鎖反應：誰會是下一個？

這起訴訟的漣漪效應，可能遠超案件本身。

首先是對"知識型"內(nèi)容行業(yè)的喚醒。維基百科（Wikipedia）雖然采用開放授權(quán)，但其內(nèi)容被商業(yè)AI大量使用卻從未獲得補償，社區(qū)內(nèi)部早有不滿。專業(yè)數(shù)據(jù)庫如JSTOR、LexisNexis，醫(yī)學資源如UpToDate，都可能重新評估與AI公司的關(guān)系。

其次是授權(quán)模式的復雜化。目前已有的出版商-AI協(xié)議多針對"新聞內(nèi)容"，即時效性強、更新頻繁的文字。但大英百科全書代表的是"常青內(nèi)容"——經(jīng)過時間檢驗、持續(xù)維護的知識條目。這類內(nèi)容的授權(quán)談判需要不同的定價邏輯：不是按文章數(shù)量，而是按"知識單元"的價值和替代風險。

第三是對AI產(chǎn)品設計的倒逼。如果法院要求AI公司披露訓練數(shù)據(jù)來源，或強制在輸出中標注引用來源，現(xiàn)有的大語言模型架構(gòu)將面臨重構(gòu)。OpenAI已經(jīng)在測試"瀏覽"功能（讓模型實時檢索網(wǎng)頁并引用），但這會增加延遲和成本，與"即時回答"的核心賣點沖突。

最深遠的影響可能是對"開放網(wǎng)絡"的重新定義。過去三十年，互聯(lián)網(wǎng)的精神是信息自由流動、搜索引擎索引一切。但AI時代，內(nèi)容生產(chǎn)者開始質(zhì)疑這種"流動"的公平性——如果我的內(nèi)容被用來訓練替代我的機器，我是否應該有權(quán)拒絕？

判決之前：我們能觀察什么

這起案件目前處于早期階段，關(guān)鍵時間節(jié)點值得追蹤。

首先是"證據(jù)開示"（Discovery）階段，雙方將就訓練數(shù)據(jù)來源展開博弈。OpenAI是否會披露完整的爬蟲日志和訓練數(shù)據(jù)集？這將揭示AI公司實際使用了哪些內(nèi)容，以及這些內(nèi)容在模型中的權(quán)重。

其次是"集體訴訟"的可能性。如果法院認定原告的主張成立，其他百科全書、詞典、專業(yè)數(shù)據(jù)庫可能加入訴訟，形成針對AI訓練數(shù)據(jù)的集體行動。這將大幅增加OpenAI的法律風險和和解壓力。

第三是立法動態(tài)。美國國會正在審議多項AI相關(guān)法案，包括要求透明度報告和建立內(nèi)容使用補償機制。司法判決與立法進程的互動，將塑造未來十年的AI內(nèi)容生態(tài)。

對于科技從業(yè)者，這起案件提供了一個觀察窗口：技術(shù)能力與法律框架的摩擦點在哪里？當"學習"與"復制"的邊界被技術(shù)模糊，社會如何重新協(xié)商知識產(chǎn)權(quán)的規(guī)則？

大英百科全書和韋氏詞典的聯(lián)手，或許標志著AI內(nèi)容戰(zhàn)爭從"創(chuàng)意產(chǎn)業(yè)"向"知識基礎設施"的蔓延。它們的特殊身份——既是內(nèi)容生產(chǎn)者，也是"權(quán)威"的象征——讓這場訴訟超越了單純的商業(yè)糾紛，觸及更深層的命題：在AI時代，誰擁有定義"知識"的權(quán)力？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.