国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

開發(fā)者如何通過AI,合法抓取數(shù)據(jù)?

0
分享至


本文來自微信公眾號:星夜律途,作者:王帥賓lawyer,原文標題:《技術無罪,但“姿勢”得對:開發(fā)者如何通過AI合法抓取數(shù)據(jù)?》,頭圖來自:AI生成

最近在圈子里流傳著一句話:“爬蟲寫得好,牢飯吃到飽?!彪m然是玩笑,但也反映了當下數(shù)據(jù)采集面臨的嚴峻法律環(huán)境。AI的出現(xiàn)讓數(shù)據(jù)抓取變得前所未有的簡單——利用LLM解析復雜網(wǎng)頁、自動繞過反爬、甚至模擬人類行為。

但技術手段的升級,并不代表法律底線的后退。今天,我們從刑事律師的角度,聊聊AI時代抓取數(shù)據(jù)的“安全準則”。

一、懸在頭頂?shù)娜选胺芍畡Α?/h5>

在動代碼之前,你得先知道哪幾個地方是“雷區(qū)”:

1.《刑法》第285條(非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪):簡單說,如果你突破了對方的技術防護措施(比如暴力破解、強行繞過驗證碼),不管你抓什么,都可能涉嫌此罪。

在司法實踐中,司法機關聚焦于技術手段的非法性、數(shù)據(jù)性質及數(shù)量認定。

(1)技術手段的非法性是定罪關鍵:法院在裁判中明確指出,采用SQL注入漏洞、編寫特定爬蟲腳本入侵系統(tǒng)、進行“撞庫”攻擊等方式獲取數(shù)據(jù),均屬于“采用其他技術手段”的非法獲取行為。例如,在(2019)魯0213刑初144號中,被告人辯稱其使用SQL注入漏洞及爬蟲腳本獲取的是網(wǎng)站頁面公開信息,但法院認為其行為是侵入計算機信息系統(tǒng)獲取內部存儲的大量數(shù)據(jù),其中包含約1500萬余條個人信息,故構成非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪,且情節(jié)特別嚴重。二審法院在(2020)魯02刑終108號中進一步強調,即使數(shù)據(jù)本身可能部分公開,但通過入侵特定網(wǎng)站漏洞的方式批量獲取,該技術手段本身具有非法性,不影響犯罪的成立。

(2)數(shù)據(jù)性質與數(shù)量認定的司法立場:對于獲取的數(shù)據(jù)是否屬于“身份認證信息”或其他計算機信息系統(tǒng)數(shù)據(jù),以及數(shù)量的計算,法院有明確的認定規(guī)則。在(2014)昌刑初字第844號中,法院認定非法獲取企業(yè)用戶通訊錄16000余組構成“情節(jié)特別嚴重”,駁回了辯護人關于該信息不屬于身份認證信息、應認定為“情節(jié)嚴重”的辯護意見。這表明,司法實踐中對“計算機信息系統(tǒng)數(shù)據(jù)”作廣義理解,不限于嚴格意義上的身份認證信息。同時,對于數(shù)量的認定,除非有證據(jù)證明信息不真實或重復,否則一般根據(jù)查獲的數(shù)量直接認定。

2.《刑法》第二百五十三條之一第三款(侵犯公民個人信息罪):抓取的數(shù)據(jù)里如果包含身份證號、手機號、家庭住址等,且你沒有合法授權,這就是在懸崖邊跳舞。

相關司法解釋詳細規(guī)定了該罪的入罪標準,例如,非法獲取行蹤軌跡信息、通信內容、征信信息、財產信息五十條以上;非法獲取住宿信息、通信記錄、健康生理信息、交易信息等其他可能影響人身、財產安全的公民個人信息五百條以上;非法獲取上述兩類以外的公民個人信息五千條以上;或者違法所得五千元以上,均構成“情節(jié)嚴重”。達到上述數(shù)量標準十倍以上的,構成“情節(jié)特別嚴重”。

在司法實踐中該類案件嚴格適用數(shù)量標準,并關注信息的敏感性與用途。

相關司法判決普遍嚴格適用司法解釋的數(shù)量標準來認定是否構成犯罪及情節(jié)嚴重程度。例如,在(2018)冀0425刑初283號中,被告人非法獲取公民個人信息94506條,被法院認定為“情節(jié)特別嚴重”。在(2021)鄂0105刑初22號中,被告人購買公民個人信息492,582條,同樣被認定為“情節(jié)特別嚴重”。這顯示,一旦通過技術手段批量抓取個人信息并達到法定數(shù)量,刑事風險極高。

3.《反不正當競爭法》:如果你抓取的數(shù)據(jù)是對方的核心商業(yè)資源(比如大眾點評的評論、攜程的酒店價格),且你的產品和對方存在競爭關系,對方分分鐘能告到你傾家蕩產。

在此我們用幾個經典案例來辨析不正當競爭的法律邊界。

(1)平臺對數(shù)據(jù)集合享有競爭法上的合法權益。

平臺經營者對其投入資源形成的數(shù)據(jù)集合享有受法律保護的競爭利益。在《(2017)京0108民初24512號》中,法院認為,微夢公司為運營新浪微博、維護數(shù)據(jù)安全付出了成本,涉案數(shù)據(jù)(明星動態(tài))是新浪微博產品的重要基礎,微夢公司可基于其對涉案數(shù)據(jù)享有的經營利益,依據(jù)反不正當競爭法提出主張。

法院指出,數(shù)據(jù)已成為經營者競爭的基礎性資源,當經營者為收集、整理、維護數(shù)據(jù)付出成本,且數(shù)據(jù)整體可為其帶來經營利益時,其他經營者未經許可擅自抓取且使用平臺數(shù)據(jù)的行為,可受反不正當競爭法調整。類似地,在《(2021)浙0110民初2914號》中,法院認定微播公司作為抖音運營者,就直播數(shù)據(jù)整體投入了運營成本,該數(shù)據(jù)整體能夠為其帶來競爭優(yōu)勢,享有競爭法上的合法權益。

(2)構成不正當競爭的關鍵考量因素:實質性替代與損害。

司法實踐強調,判斷抓取行為是否構成不正當競爭,需綜合評估是否對原平臺造成實質性替代或損害。在《(2017)京0108民初24512號》中,法院從多個方面論證了云智聯(lián)公司行為的損害性,包括:破壞微夢公司設定的訪問和展示規(guī)則;部分版本直接、完整展示數(shù)據(jù),使得用戶無需回到新浪微博,構成實質性替代;分流潛在用戶流量,影響廣告等商業(yè)收益;增加微夢公司服務器壓力和運營維護成本;可能導致用戶個人信息泄露,破壞數(shù)據(jù)安全。這些因素共同構成了對微夢公司合法權益的損害。

相反,在《(2019)京0108民初33822號》中,法院認為江蘇斑馬公司雖然抓取了文章,但文章存在于網(wǎng)站前端,原告未采取反爬蟲機制,被告也未破壞技術措施,且被告未對抓取的文章進行同質化利用,未攫取原告競爭優(yōu)勢或造成損害,故不構成不正當競爭。該案表明,單純的抓取行為若未造成損害后果,可能不被認定為不正當競爭,但前提是手段正當且未進行競爭性使用。

(3)對公開數(shù)據(jù)抓取的合理容忍與限制。

平臺對公開數(shù)據(jù)的抓取負有一定容忍義務,但該容忍并非無限制。在《(2017)京0108民初24512號》中,法院指出,基于互聯(lián)網(wǎng)互聯(lián)互通精神,平臺經營者應當在一定程度上容忍他人合法收集或利用其平臺中已公開的數(shù)據(jù)。但是,如果抓取公開數(shù)據(jù)的手段不正當(如破壞展示規(guī)則、偽裝用戶、違反Robots協(xié)議),或抓取規(guī)模大、后續(xù)使用造成實質性替代,則該抓取行為仍可能被認定為不正當。法院強調,對于公開數(shù)據(jù),需結合數(shù)據(jù)數(shù)量、規(guī)模、價值以及是否造成實質性替代等因素綜合判斷。

二、AI抓取的“合規(guī)操作指南”

利用AI抓取數(shù)據(jù)時,請務必遵守以下“不翻車”原則:

1.尊重robots.txt:這是“君子協(xié)定”的底線

雖然robots.txt在法律上不具備強制性,但在司法實踐中,它常被視為判斷“主觀惡意”的重要依據(jù)。如果對方明確禁止抓取,而你利用AI偽裝成正常用戶強行進入,這在法官眼里就是明顯的“非法侵入”。

2.嚴禁“暴力抓取”,控制AI的頻率

AI腳本可以做到極高的并發(fā)量,但請記?。喝绻愕淖ト⌒袨閷е聦Ψ椒掌麇礄C或響應緩慢,這可能構成“破壞計算機信息系統(tǒng)罪”。

建議:在AI爬蟲邏輯中加入隨機延時,模擬人類瀏覽頻率。

3. “去標識化”處理:數(shù)據(jù)的二次清洗

AI在解析抓取到的非結構化數(shù)據(jù)時,應自動過濾掉敏感個人隱私。

律師提醒:抓取公開信息(如微博公開言論)相對安全,但如果涉及大量用戶畫像、私密社交關系,必須立即停止。

4.避開“實質性替代”原則

這是最容易被忽視的一點。你可以抓取數(shù)據(jù)做研究、做訓練,但如果你的AI產品直接展示了對方的數(shù)據(jù),導致用戶不再去原網(wǎng)站,這就構成了“不正當競爭”。

三、面對“違約”風險:ToS真的有效嗎?

很多網(wǎng)站的《用戶協(xié)議》(ToS)里寫著“嚴禁任何形式的爬蟲”。

  • 民事層面:如果你注冊了賬號并勾選了協(xié)議,那么抓取行為就屬于違約。

  • 規(guī)避方案:AI抓取時應盡量在未登錄狀態(tài)下訪問公開頁面。一旦登錄,你就在法律上承認了對方的“家法”。

四、避坑CheckList(建議收藏)

在你的AI抓取項目上線前,請對照以下列表自測:


結語

作為律師,我常說:技術是為了解決問題,而不是制造問題。AI讓數(shù)據(jù)獲取變得輕而易舉,但法律對“邊界”的定義從未改變。

抓取數(shù)據(jù)前,先問自己三個問題:

  1. 我拿了誰的東西?

  2. 我是怎么拿的?

  3. 我拿來做了什么?

如果這三個問題的答案都能經得起法庭的推敲,那么你的AI之路才會走得更遠。

本文來自微信公眾號:星夜律途,作者:王帥賓lawyer

本內容由作者授權發(fā)布,觀點僅代表作者本人,不代表虎嗅立場。如對本稿件有異議或投訴,請聯(lián)系 tougao@huxiu.com。

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4838943.html?f=wyxwapp

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
全國人大代表雷茂端建議:70 歲以上農民養(yǎng)老金每月500元!

全國人大代表雷茂端建議:70 歲以上農民養(yǎng)老金每月500元!

閃電新聞
2026-03-04 18:38:51
員工過年值班8天索要3倍工資 法院:每天打完卡玩手機 不支持 律師:其不符合“加班”的法定特征

員工過年值班8天索要3倍工資 法院:每天打完卡玩手機 不支持 律師:其不符合“加班”的法定特征

閃電新聞
2026-03-03 17:36:04
拉里賈尼稱已有超過500名美國軍人喪生

拉里賈尼稱已有超過500名美國軍人喪生

新華社
2026-03-04 23:36:03
水貨專家開噴伊朗戰(zhàn)爭,稱美國熱衷斬首是衰退表現(xiàn),誤導公眾對戰(zhàn)爭認知

水貨專家開噴伊朗戰(zhàn)爭,稱美國熱衷斬首是衰退表現(xiàn),誤導公眾對戰(zhàn)爭認知

回旋鏢
2026-03-04 18:07:39
越扒越深!去世母親和舅舅"結婚",河南魯山離奇事件劍指當?shù)馗邔?>
    </a>
        <h3>
      <a href=派大星紀錄片
2026-03-04 15:24:28
環(huán)時深度觀察:特朗普會向伊朗派地面部隊嗎?

環(huán)時深度觀察:特朗普會向伊朗派地面部隊嗎?

環(huán)球網(wǎng)資訊
2026-03-04 17:48:12
特朗普大怒欲斷西貿易,話音剛落,西班牙反手一擊:立即退出北約

特朗普大怒欲斷西貿易,話音剛落,西班牙反手一擊:立即退出北約

墨印齋
2026-03-04 20:43:50
約旦宣布重新開放領空

約旦宣布重新開放領空

新華社
2026-03-03 23:48:02
開戰(zhàn)4天,中國衛(wèi)星看到的美以損失情況如何?美國還能堅持多久?

開戰(zhàn)4天,中國衛(wèi)星看到的美以損失情況如何?美國還能堅持多久?

羅富強說
2026-03-04 14:46:02
800萬進去虧了200多萬!一江蘇投資客哭訴,開盤滿腦子亢奮翻本…

800萬進去虧了200多萬!一江蘇投資客哭訴,開盤滿腦子亢奮翻本…

火山詩話
2026-03-04 16:36:03
美軍打擊伊朗到底多耗錢?開戰(zhàn)5天已耗資超23億美元,每秒2546美元!

美軍打擊伊朗到底多耗錢?開戰(zhàn)5天已耗資超23億美元,每秒2546美元!

互聯(lián)網(wǎng)大觀
2026-03-04 18:46:49
深夜突發(fā)!美國徹底慌了,緊急大逃亡開始了!

深夜突發(fā)!美國徹底慌了,緊急大逃亡開始了!

大嘴說天下
2026-03-04 19:02:31
美軍自二戰(zhàn)以來遭受的最大恥辱:“林肯”號航母甲板被炸穿!

美軍自二戰(zhàn)以來遭受的最大恥辱:“林肯”號航母甲板被炸穿!

我心縱橫天地間
2026-03-04 13:20:53
不是王思雨!不是張子宇!巴西主帥盛贊中國2位小將,未來成核心

不是王思雨!不是張子宇!巴西主帥盛贊中國2位小將,未來成核心

老吳說體育
2026-03-05 01:25:53
活久見!網(wǎng)傳上海一小區(qū)貼出溫馨提示,哀求鄰居孩子不要制造噪音

活久見!網(wǎng)傳上海一小區(qū)貼出溫馨提示,哀求鄰居孩子不要制造噪音

火山詩話
2026-03-04 19:01:52
大反轉!張云鵬海外生活照曝光,穿名牌彈吉他性格開朗,判若兩人

大反轉!張云鵬海外生活照曝光,穿名牌彈吉他性格開朗,判若兩人

潮鹿逐夢
2026-03-04 21:11:28
吃相難看!迪麗熱巴被困迪拜事件升級!猛料曝光,楊冪體面被撕碎

吃相難看!迪麗熱巴被困迪拜事件升級!猛料曝光,楊冪體面被撕碎

大中國
2026-03-04 20:47:04
原來劉燁當初沒撒謊,多方曝謝娜夫婦猛料,網(wǎng)友擔憂的事還是發(fā)生

原來劉燁當初沒撒謊,多方曝謝娜夫婦猛料,網(wǎng)友擔憂的事還是發(fā)生

白面書誏
2026-03-04 13:59:52
美媒:衛(wèi)星圖像等顯示,伊朗襲擊對至少7座美軍基地通信雷達系統(tǒng)造成破壞

美媒:衛(wèi)星圖像等顯示,伊朗襲擊對至少7座美軍基地通信雷達系統(tǒng)造成破壞

環(huán)球網(wǎng)資訊
2026-03-04 20:22:43
委員建議,取消在居民身份證上印刷“住址”信息

委員建議,取消在居民身份證上印刷“住址”信息

中國新聞周刊
2026-03-04 14:03:06
2026-03-05 04:48:49
虎嗅APP incentive-icons
虎嗅APP
個性化商業(yè)資訊與觀點交流平臺
25820文章數(shù) 687533關注度
往期回顧 全部

科技要聞

多位核心離職,阿里親手廢掉最強AI天團?

頭條要聞

外媒稱伊朗封鎖霍爾木茲海峽只讓中俄船通行 中方回應

頭條要聞

外媒稱伊朗封鎖霍爾木茲海峽只讓中俄船通行 中方回應

體育要聞

2026年中超,為什么值得你多看一眼?

娛樂要聞

謝謝謝娜 貢獻出26年內娛的第一個笑話

財經要聞

人大代表建議:將農民養(yǎng)老金提到500元

汽車要聞

鴻蒙智行首款獵裝車 尚界Z7/Z7T首發(fā)

態(tài)度原創(chuàng)

旅游
本地
家居
教育
軍事航空

旅游要聞

一夜爆火!淮安元宵燈光秀,解鎖運河新玩法

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

家居要聞

極簡無界 靜居自安然

教育要聞

活人感作文你會寫嗎?南京把它列入作文題

軍事要聞

伊朗為遭到美以空襲小學遇難者舉行葬禮

無障礙瀏覽 進入關懷版