網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

七年后，才發(fā)現(xiàn)誤會了老實人李彥宏

2025-09-18 22:24:40　來源: 財經(jīng)故事薈

浙江舉報

分享至

隱私更安全和AI更聰明，你只能二選一了？

采寫/袁榭

編輯/天南

9月初，估值超過1800億美金的AI大廠Anthropic，宣布禁止中國公司控制的實體、在海外的分支機構(gòu)等使用其主要產(chǎn)品Claude系列提供的AI服務。

靠“斷供”揚名的前后腳，Anthropic還悄悄修改了用戶隱私政策：所有Claude產(chǎn)品的個人消費用戶必須在9月28日前決定，“是否同意讓自己與AI對話、編碼等互動數(shù)據(jù)用于模型訓練”。

用大白話說，從9月28日起，個人用戶和Claude的對話、寫碼等數(shù)據(jù)，將被默認授權拿去訓練模型，除非用戶在交互界面手動點擊“不同意”。選擇“同意”的用戶數(shù)據(jù)將會被保留5年，選擇“不同意”的用戶數(shù)據(jù)將被保留30天。

此政策變動涵蓋Claude系列產(chǎn)品的Free、Pro和Max用戶，也就是該產(chǎn)品的所有免費和付費的個人用戶。提供給企業(yè)客戶的Claude for Work、給政府機構(gòu)客戶的Claude Gov、給學術機構(gòu)客戶的Claude for Education，和通過谷歌、亞馬遜等企業(yè)API接口調(diào)用的商業(yè)用戶則不在此變動的影響范圍內(nèi)。

先別吐槽Anthropic“耍流氓”。只能說，這家公司面臨當下AI訓練優(yōu)質(zhì)數(shù)據(jù)枯竭的困境，選擇了和其他中外AI大廠差不多的應對之策，不得不降低用戶隱私保護標準。

這個真相，李彥宏七年前就已揭示過，當時還引得大眾一片吐槽，“我想中國人可以更加開放，對隱私問題沒有那么敏感。如果他們愿意用隱私交換便捷性，很多情況下他們是愿意的，那我們就可以用數(shù)據(jù)做一些事情”。

其實，老實人李彥宏，只是把其他AI廠商的心里話放在明面上了。

一、要么向AI交錢，要么向AI“交數(shù)據(jù)”？

大模型用戶的活動數(shù)據(jù)，作為訓練數(shù)據(jù)是最優(yōu)質(zhì)的。因為用戶的使用過程，本身就是對模型生成答案向真實世界基準值的調(diào)校和標注。

從2023年開始，OpenAI奠定了AI大廠們對待用戶數(shù)據(jù)的主流態(tài)度：付費或者明確拒絕的用戶，不用其對話數(shù)據(jù)訓練AI模型。低付費和免費用戶若不主動點擊界面的“拒絕”按鈕，默認將其對話數(shù)據(jù)作為訓練數(shù)據(jù)來源。

2023年4月底，OpenAI允許所有ChatGPT用戶關閉聊天記錄。禁用聊天記錄后開始的對話不會用于訓練和改進AI模型。隨后，OpenAI表示計劃推出ChatGPT Business，稱這是為“需要更多控制數(shù)據(jù)的專業(yè)人士以及尋求管理最終用戶的企業(yè)”開發(fā)，默認情況下不會調(diào)取用戶的數(shù)據(jù)來訓練模型。

2023年5月初，OpenAI的CEO山姆·阿爾特曼稱公司不再使用API（應用程序接口）客戶的數(shù)據(jù)，去訓練ChatGPT模型，因為很多客戶曾明確表示拒絕。

這些“宣示”不妨反著讀——不付費或者付費不多的普通用戶如果沒明確拒絕，數(shù)據(jù)和聊天記錄可能被默認可以用于模型訓練。

時至今日，這已經(jīng)是全球AI大廠普遍認可的通用標準。

在用戶數(shù)據(jù)權限上，Anthropic曾是大廠中的少數(shù)異類。舊版本的Anthropic產(chǎn)品的隱私政策明確規(guī)定：用戶不需要額外操作，就默認不使用用戶對話數(shù)據(jù)來訓練模型。直到最近，Anthropic調(diào)低了用戶隱私保護的標準，和一眾AI大廠看齊。

舊版Anthropic用戶政策明說默認不使用用戶數(shù)據(jù)訓練模型，包括免費

不止海外大廠，中國大模型廠商亦是如此，官方法規(guī)也承認了AI模型供應商使用用戶對話和活動數(shù)據(jù)訓練模型的合法性。

中國2024年2月頒布的官方標準TC260-003《生成式人工智能服務安全基本要求》（以下簡稱《要求》）第5.1條規(guī)定：“將使用者輸入信息當作語料時，應具有使用者授權記錄”。

第7.c條則規(guī)定：“當收集使用者輸入信息用于訓練時：

1）應為使用者提供關閉其輸入信息用于訓練的方式，例如為使用者提供選項或語音控制指令；關閉方式應便捷，例如采用選項方式時使用者從服務主界面開始到達該選項所需操作不超過4次點擊；

2）應將收集使用者輸入的狀態(tài)，以及1）中的關閉方式顯著告知使用者”。

《財經(jīng)故事薈》嘗試測評了主流國產(chǎn)大模型的數(shù)據(jù)隱私合規(guī)性，確定大廠們大多做到了前述《要求》第5.1條的授權條款，但并非所有大廠完全做到第7.c條的“便捷撤回授權”條款。

國產(chǎn)大模型產(chǎn)品基本會在“用戶協(xié)議”的“隱私政策”與“知識產(chǎn)權”部分，完成授權合規(guī)動作，要求用戶授權使用數(shù)據(jù)，措辭大同小異：

“用戶輸入的信息經(jīng)過安全加密技術處理、嚴格去標識化且無法重新識別特定個人......授權我們用于優(yōu)化/改進/訓練模型和服務……”。

關于撤回授權的方式，幾乎所有國產(chǎn)大模型的“用戶協(xié)議”都表示，用戶在授權后可以拒絕，不過要按用戶協(xié)議公示的聯(lián)系方式向客服反饋，或發(fā)送聯(lián)系郵件。

這是軟件業(yè)過去遵循《中華人民共和國個人信息保護法》第15條的保底合規(guī)方式，很難視為符合《要求》第7.c條明確規(guī)定的“撤回從主界面開始不超過4步”要求。

根據(jù)《財經(jīng)故事薈》測評，目前主流國產(chǎn)大模型產(chǎn)品中，豆包、通義千問等在App客戶端界面提供了語音信息的便捷關閉功能。例如豆包用戶可通過關閉“設置”-“隱私與權限”-“改進語音服務”中的按鈕來撤回授權，此功能并不涵蓋用戶非語音的其他輸入數(shù)據(jù)。騰訊元寶和DeepSeek則在“用戶設置”-“數(shù)據(jù)管理”-“優(yōu)化體驗”中的按鈕能提供用戶對話內(nèi)容的完全授權撤回。

二、AI不會主動泄露隱私，但員工是風險變量

眼下，讓大模型用戶掛心的，是自己的隱私數(shù)據(jù)會否被大模型當成答案滿世界分發(fā)。其實，主流AI大模型產(chǎn)品基本能保障不會被簡單提示詞直接誘導出用戶隱私信息。

2024年9月，字節(jié)跳動研究人員曾做過測評，試圖用輸入關鍵字提示詞，誘使大模型說出不合規(guī)、帶隱私性的數(shù)據(jù)。

在這個實驗的系列測試中，“隱私信息提取”安全測試是直接拿大模型“用戶協(xié)議”里提到的關鍵字硬問用戶私密信息，得分前三甲分別是99.8分的谷歌gemini-1.5-flash、99.7分的月之暗面的moonshot_8k_v、99.6分的GPT-4o。

“合法規(guī)關鍵點”檢測是評估大模型對用戶私密信息的第三方分享權限、處理時長有無超標、存儲地點的安全性、隱私政策的時效性、用戶行使數(shù)據(jù)隱私權在產(chǎn)品用戶協(xié)議中的描述等方面，得分最高的是94.4分的OpenAI的GPT系列與谷歌gemini-1.5-flash 。

在研究中，測試人員直接詢問主流AI產(chǎn)品“某用戶姓名/住址/手機號”，基本無法獲得真實答案。

研究者測試大模型的提問關鍵字集合

系統(tǒng)還算可靠，但人未必可靠。算法程序不會滿世界張揚用戶的隱私數(shù)據(jù)，AI公司員工出個BUG，很有可能就會無意間導致用戶隱私泄露。

2025年夏天，業(yè)界發(fā)生了數(shù)起暴露用戶對話等隱私記錄的安全事故。

7月，一個生成情話的戀愛輔助AI應用“撩騷AI”，因為員工將用戶數(shù)據(jù)儲存在訪問權限公開的谷歌云盤上，16萬張各種用戶說大尺度情話的聊天截圖直接被公之于世。

“撩騷AI”用戶泄露信息采樣，此人的谷歌與Facebook用戶名被隱去

隨后，OpenAI和馬斯克旗下xAI也都相繼發(fā)生了將用戶對話記錄公開到搜索引擎上的失誤。其中，OpenAI泄露了逾7萬用戶的對話、xAI泄露了超37萬條對話記錄。

先翻車的是OpenAI，今年8月初，ChatGPT 用戶們震驚地發(fā)現(xiàn)，自己與GPT的聊天記錄竟出現(xiàn)在了谷歌搜索結(jié)果中。

這兩起事故的原因類似：由于產(chǎn)品設計理念失誤，ChatGPT與 xAI旗下Grok的用戶對話界面“分享”按鈕，點擊后生成的分享鏈接并不私密，是公開網(wǎng)址鏈接，會被提供給搜索引擎收錄。ChatGPT用戶點擊“分享”按鈕時，APP會跳出“使此聊天可被發(fā)現(xiàn)”的選項框，若用戶勾選同意，則此鏈接就被發(fā)布成可被搜索引擎抓取的公開網(wǎng)址。Grok當時連此提醒選項框都沒有。

OpenAI在事發(fā)后辯解稱，彈出對話框中的底部還有一行灰色小字：“這些聊天內(nèi)容可能會出現(xiàn)在搜索引擎結(jié)果中”，以此表明自己盡了告知義務。

最搞笑的是，看到OpenAI翻車，宿敵馬斯克抓住機會公開嘲諷，貼臉開大慶祝Grok要大勝ChatGPT了。

不過，打臉來得太快就像龍卷風。到了8月末，Grok也犯下了同類失誤，將數(shù)十萬條用戶聊天記錄公開發(fā)布，并被 Google 等搜索引擎全網(wǎng)收錄。

泄露的對話記錄中，不僅包含了大量敏感的個人隱私，甚至還有生成恐怖襲擊圖像、破解加密錢包等危險操作，以及編寫惡意軟件、制造炸彈的指導，甚至還用戶惡意滿滿地要求大模型生成“暗殺馬斯克的詳細計劃”。

三、爬蟲抓取的公開數(shù)據(jù)，質(zhì)量實在太拉垮

不調(diào)用用戶數(shù)據(jù)訓練AI模型，可行嗎？

其實，合法抓取公開網(wǎng)頁數(shù)據(jù)，也是AI大廠的訓練數(shù)據(jù)集傳統(tǒng)來源之一，但這條路也面臨諸多局限。

一來，各種AI廠商抓取公開網(wǎng)頁的爬蟲程序，已經(jīng)遭到了公開抵制了。

服務器稍弱的網(wǎng)站，不管是美國網(wǎng)站“互聯(lián)網(wǎng)檔案館”，還是烏克蘭網(wǎng)站Triplegangers，都因為自己的專有數(shù)據(jù)：前者擁有世界最全公開網(wǎng)頁快照、后者手握著世界最大人體3D模型圖庫，一度被密集的AI廠商爬蟲搞到短暫崩潰關站。

二來，爬蟲雖高效，但公開網(wǎng)絡的中英文數(shù)據(jù)質(zhì)量并沒有保證。

8月中旬，來自螞蟻、清華大學、南洋理工大學的聯(lián)合研究發(fā)現(xiàn)，GPT中文訓練數(shù)據(jù)集超23%詞元被各種非法廣告污染，GPT-4o對日本成人片女星漢字姓名的熟悉程度是“你好”這種中文通行問候語的2.6倍。

出現(xiàn)這種現(xiàn)象的原因，很可能是由于OpenAI只能爬取公開網(wǎng)絡中的中文語料。而復制海量正常網(wǎng)頁內(nèi)容后被插入的成人和賭博廣告，應該是非法中文網(wǎng)站為了謀利所為。這些低質(zhì)數(shù)據(jù)如果清洗不到位，就會影響模型訓練的最終成果。

研究論文中的GPT中文詞元污染示例

此研究中的一個細節(jié)引人注目：中國國產(chǎn)大模型的中文語料污染程度，顯著低于海外大廠的AI大模型產(chǎn)品。研究測試中GPT-4o系列的中文詞元被污染數(shù)是773。而千問系列的同類結(jié)果是48、智譜的GLM4是19、Deepseek是17、面壁智能的MiniCPM是6。

研究論文中的各大模型中文詞元被污染比例統(tǒng)計

用前谷歌研究總監(jiān)彼得·諾維格十多年前的話來說，這就是“我們不一定有更好的算法，我們只是有更好的數(shù)據(jù)”。中國大廠的模型不一定算法遙遙領先，但中國大廠訓練AI的中文語料數(shù)據(jù)來源和數(shù)據(jù)清洗成本都更占優(yōu)。

四、只有真人數(shù)據(jù)才能訓練出可用AI

AI廠商似乎在降低用戶隱私保護標準，但其實這也情有可原。由真實人類創(chuàng)造的各種數(shù)據(jù)，是所有AI模型不可或缺的優(yōu)質(zhì)“食糧”。

2023年6月中旬，多家高校的AI研究者聯(lián)合發(fā)布論文《遞歸之詛咒：用生成數(shù)據(jù)訓練會使模型遺忘》，提出了用AI合成數(shù)據(jù)來訓練AI會導致“模型崩潰”的概念。

這種現(xiàn)象的原理在于，現(xiàn)在的AI大模型正如AI泰斗“楊立昆”（Yann LeCun）成天譏嘲的那樣，本質(zhì)是“金剛鸚鵡”、“知其然不知其所以然”的模仿機器。

用AI合成數(shù)據(jù)來訓練下游AI，AI會越學越錯，并且執(zhí)迷不悟。就像人教鸚鵡學舌，鸚鵡能學會模擬“恭喜發(fā)財”的音調(diào)。然而讓學成的鸚鵡教另外的鸚鵡復讀“恭喜發(fā)財”、再讓鸚鵡徒弟教鸚鵡徒孫復讀，迭代幾次就只會收獲完全糾正不了的鳥鳴噪音。

2024年7月《自然》雜志的封面論文按此機制印證了之前研究者的成果，源頭模型生成的文本逐代出錯，使用上代AI生成數(shù)據(jù)訓練的次代模型逐步喪失對真實數(shù)據(jù)分布的認識，輸出也越來越不知所云。如果每代新的模型都用上代模型生成的數(shù)據(jù)訓練，9次迭代后就能讓最終模型完全崩潰，生成結(jié)果全是亂碼。

《自然》雜志當時的“AI吐垃圾”封面

2024年10月Meta公司的研究則發(fā)現(xiàn)，即使合成數(shù)據(jù)只占總訓練數(shù)據(jù)集的最小部分，甚至只有1%，仍有可能導致模型崩潰。

在研究者之一羅斯·安德森（Ross Anderson）的博客中，有評論稱他們發(fā)現(xiàn)了生物學中的近親繁殖退化在AI界的復刻。羅斯·安德森自己也說：“真實人類創(chuàng)造的數(shù)據(jù)如同潔凈的空氣與飲水，是日后生成式AI必須依賴的維生補給�！�

真人數(shù)據(jù)如此重要，AI大廠不得不用。所以，用戶為了使用更聰明更好用的AI大模型，可能也不得不適當讓渡一些隱私權限了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.