国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

開發(fā)者如何通過AI,合法抓取數(shù)據(jù)?

0
分享至


本文來自微信公眾號:星夜律途,作者:王帥賓lawyer,原文標(biāo)題:《技術(shù)無罪,但“姿勢”得對:開發(fā)者如何通過AI合法抓取數(shù)據(jù)?》,頭圖來自:AI生成

最近在圈子里流傳著一句話:“爬蟲寫得好,牢飯吃到飽?!彪m然是玩笑,但也反映了當(dāng)下數(shù)據(jù)采集面臨的嚴(yán)峻法律環(huán)境。AI的出現(xiàn)讓數(shù)據(jù)抓取變得前所未有的簡單——利用LLM解析復(fù)雜網(wǎng)頁、自動繞過反爬、甚至模擬人類行為。

但技術(shù)手段的升級,并不代表法律底線的后退。今天,我們從刑事律師的角度,聊聊AI時代抓取數(shù)據(jù)的“安全準(zhǔn)則”。

一、懸在頭頂?shù)娜选胺芍畡Α?/h5>

在動代碼之前,你得先知道哪幾個地方是“雷區(qū)”:

1.《刑法》第285條(非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪):簡單說,如果你突破了對方的技術(shù)防護措施(比如暴力破解、強行繞過驗證碼),不管你抓什么,都可能涉嫌此罪。

在司法實踐中,司法機關(guān)聚焦于技術(shù)手段的非法性、數(shù)據(jù)性質(zhì)及數(shù)量認(rèn)定。

(1)技術(shù)手段的非法性是定罪關(guān)鍵:法院在裁判中明確指出,采用SQL注入漏洞、編寫特定爬蟲腳本入侵系統(tǒng)、進行“撞庫”攻擊等方式獲取數(shù)據(jù),均屬于“采用其他技術(shù)手段”的非法獲取行為。例如,在(2019)魯0213刑初144號中,被告人辯稱其使用SQL注入漏洞及爬蟲腳本獲取的是網(wǎng)站頁面公開信息,但法院認(rèn)為其行為是侵入計算機信息系統(tǒng)獲取內(nèi)部存儲的大量數(shù)據(jù),其中包含約1500萬余條個人信息,故構(gòu)成非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪,且情節(jié)特別嚴(yán)重。二審法院在(2020)魯02刑終108號中進一步強調(diào),即使數(shù)據(jù)本身可能部分公開,但通過入侵特定網(wǎng)站漏洞的方式批量獲取,該技術(shù)手段本身具有非法性,不影響犯罪的成立。

(2)數(shù)據(jù)性質(zhì)與數(shù)量認(rèn)定的司法立場:對于獲取的數(shù)據(jù)是否屬于“身份認(rèn)證信息”或其他計算機信息系統(tǒng)數(shù)據(jù),以及數(shù)量的計算,法院有明確的認(rèn)定規(guī)則。在(2014)昌刑初字第844號中,法院認(rèn)定非法獲取企業(yè)用戶通訊錄16000余組構(gòu)成“情節(jié)特別嚴(yán)重”,駁回了辯護人關(guān)于該信息不屬于身份認(rèn)證信息、應(yīng)認(rèn)定為“情節(jié)嚴(yán)重”的辯護意見。這表明,司法實踐中對“計算機信息系統(tǒng)數(shù)據(jù)”作廣義理解,不限于嚴(yán)格意義上的身份認(rèn)證信息。同時,對于數(shù)量的認(rèn)定,除非有證據(jù)證明信息不真實或重復(fù),否則一般根據(jù)查獲的數(shù)量直接認(rèn)定。

2.《刑法》第二百五十三條之一第三款(侵犯公民個人信息罪):抓取的數(shù)據(jù)里如果包含身份證號、手機號、家庭住址等,且你沒有合法授權(quán),這就是在懸崖邊跳舞。

相關(guān)司法解釋詳細規(guī)定了該罪的入罪標(biāo)準(zhǔn),例如,非法獲取行蹤軌跡信息、通信內(nèi)容、征信信息、財產(chǎn)信息五十條以上;非法獲取住宿信息、通信記錄、健康生理信息、交易信息等其他可能影響人身、財產(chǎn)安全的公民個人信息五百條以上;非法獲取上述兩類以外的公民個人信息五千條以上;或者違法所得五千元以上,均構(gòu)成“情節(jié)嚴(yán)重”。達到上述數(shù)量標(biāo)準(zhǔn)十倍以上的,構(gòu)成“情節(jié)特別嚴(yán)重”。

在司法實踐中該類案件嚴(yán)格適用數(shù)量標(biāo)準(zhǔn),并關(guān)注信息的敏感性與用途。

相關(guān)司法判決普遍嚴(yán)格適用司法解釋的數(shù)量標(biāo)準(zhǔn)來認(rèn)定是否構(gòu)成犯罪及情節(jié)嚴(yán)重程度。例如,在(2018)冀0425刑初283號中,被告人非法獲取公民個人信息94506條,被法院認(rèn)定為“情節(jié)特別嚴(yán)重”。在(2021)鄂0105刑初22號中,被告人購買公民個人信息492,582條,同樣被認(rèn)定為“情節(jié)特別嚴(yán)重”。這顯示,一旦通過技術(shù)手段批量抓取個人信息并達到法定數(shù)量,刑事風(fēng)險極高。

3.《反不正當(dāng)競爭法》:如果你抓取的數(shù)據(jù)是對方的核心商業(yè)資源(比如大眾點評的評論、攜程的酒店價格),且你的產(chǎn)品和對方存在競爭關(guān)系,對方分分鐘能告到你傾家蕩產(chǎn)。

在此我們用幾個經(jīng)典案例來辨析不正當(dāng)競爭的法律邊界。

(1)平臺對數(shù)據(jù)集合享有競爭法上的合法權(quán)益。

平臺經(jīng)營者對其投入資源形成的數(shù)據(jù)集合享有受法律保護的競爭利益。在《(2017)京0108民初24512號》中,法院認(rèn)為,微夢公司為運營新浪微博、維護數(shù)據(jù)安全付出了成本,涉案數(shù)據(jù)(明星動態(tài))是新浪微博產(chǎn)品的重要基礎(chǔ),微夢公司可基于其對涉案數(shù)據(jù)享有的經(jīng)營利益,依據(jù)反不正當(dāng)競爭法提出主張。

法院指出,數(shù)據(jù)已成為經(jīng)營者競爭的基礎(chǔ)性資源,當(dāng)經(jīng)營者為收集、整理、維護數(shù)據(jù)付出成本,且數(shù)據(jù)整體可為其帶來經(jīng)營利益時,其他經(jīng)營者未經(jīng)許可擅自抓取且使用平臺數(shù)據(jù)的行為,可受反不正當(dāng)競爭法調(diào)整。類似地,在《(2021)浙0110民初2914號》中,法院認(rèn)定微播公司作為抖音運營者,就直播數(shù)據(jù)整體投入了運營成本,該數(shù)據(jù)整體能夠為其帶來競爭優(yōu)勢,享有競爭法上的合法權(quán)益。

(2)構(gòu)成不正當(dāng)競爭的關(guān)鍵考量因素:實質(zhì)性替代與損害。

司法實踐強調(diào),判斷抓取行為是否構(gòu)成不正當(dāng)競爭,需綜合評估是否對原平臺造成實質(zhì)性替代或損害。在《(2017)京0108民初24512號》中,法院從多個方面論證了云智聯(lián)公司行為的損害性,包括:破壞微夢公司設(shè)定的訪問和展示規(guī)則;部分版本直接、完整展示數(shù)據(jù),使得用戶無需回到新浪微博,構(gòu)成實質(zhì)性替代;分流潛在用戶流量,影響廣告等商業(yè)收益;增加微夢公司服務(wù)器壓力和運營維護成本;可能導(dǎo)致用戶個人信息泄露,破壞數(shù)據(jù)安全。這些因素共同構(gòu)成了對微夢公司合法權(quán)益的損害。

相反,在《(2019)京0108民初33822號》中,法院認(rèn)為江蘇斑馬公司雖然抓取了文章,但文章存在于網(wǎng)站前端,原告未采取反爬蟲機制,被告也未破壞技術(shù)措施,且被告未對抓取的文章進行同質(zhì)化利用,未攫取原告競爭優(yōu)勢或造成損害,故不構(gòu)成不正當(dāng)競爭。該案表明,單純的抓取行為若未造成損害后果,可能不被認(rèn)定為不正當(dāng)競爭,但前提是手段正當(dāng)且未進行競爭性使用。

(3)對公開數(shù)據(jù)抓取的合理容忍與限制。

平臺對公開數(shù)據(jù)的抓取負(fù)有一定容忍義務(wù),但該容忍并非無限制。在《(2017)京0108民初24512號》中,法院指出,基于互聯(lián)網(wǎng)互聯(lián)互通精神,平臺經(jīng)營者應(yīng)當(dāng)在一定程度上容忍他人合法收集或利用其平臺中已公開的數(shù)據(jù)。但是,如果抓取公開數(shù)據(jù)的手段不正當(dāng)(如破壞展示規(guī)則、偽裝用戶、違反Robots協(xié)議),或抓取規(guī)模大、后續(xù)使用造成實質(zhì)性替代,則該抓取行為仍可能被認(rèn)定為不正當(dāng)。法院強調(diào),對于公開數(shù)據(jù),需結(jié)合數(shù)據(jù)數(shù)量、規(guī)模、價值以及是否造成實質(zhì)性替代等因素綜合判斷。

二、AI抓取的“合規(guī)操作指南”

利用AI抓取數(shù)據(jù)時,請務(wù)必遵守以下“不翻車”原則:

1.尊重robots.txt:這是“君子協(xié)定”的底線

雖然robots.txt在法律上不具備強制性,但在司法實踐中,它常被視為判斷“主觀惡意”的重要依據(jù)。如果對方明確禁止抓取,而你利用AI偽裝成正常用戶強行進入,這在法官眼里就是明顯的“非法侵入”。

2.嚴(yán)禁“暴力抓取”,控制AI的頻率

AI腳本可以做到極高的并發(fā)量,但請記?。喝绻愕淖ト⌒袨閷?dǎo)致對方服務(wù)器宕機或響應(yīng)緩慢,這可能構(gòu)成“破壞計算機信息系統(tǒng)罪”。

建議:在AI爬蟲邏輯中加入隨機延時,模擬人類瀏覽頻率。

3. “去標(biāo)識化”處理:數(shù)據(jù)的二次清洗

AI在解析抓取到的非結(jié)構(gòu)化數(shù)據(jù)時,應(yīng)自動過濾掉敏感個人隱私。

律師提醒:抓取公開信息(如微博公開言論)相對安全,但如果涉及大量用戶畫像、私密社交關(guān)系,必須立即停止。

4.避開“實質(zhì)性替代”原則

這是最容易被忽視的一點。你可以抓取數(shù)據(jù)做研究、做訓(xùn)練,但如果你的AI產(chǎn)品直接展示了對方的數(shù)據(jù),導(dǎo)致用戶不再去原網(wǎng)站,這就構(gòu)成了“不正當(dāng)競爭”。

三、面對“違約”風(fēng)險:ToS真的有效嗎?

很多網(wǎng)站的《用戶協(xié)議》(ToS)里寫著“嚴(yán)禁任何形式的爬蟲”。

  • 民事層面:如果你注冊了賬號并勾選了協(xié)議,那么抓取行為就屬于違約。

  • 規(guī)避方案:AI抓取時應(yīng)盡量在未登錄狀態(tài)下訪問公開頁面。一旦登錄,你就在法律上承認(rèn)了對方的“家法”。

四、避坑CheckList(建議收藏)

在你的AI抓取項目上線前,請對照以下列表自測:


結(jié)語

作為律師,我常說:技術(shù)是為了解決問題,而不是制造問題。AI讓數(shù)據(jù)獲取變得輕而易舉,但法律對“邊界”的定義從未改變。

抓取數(shù)據(jù)前,先問自己三個問題:

  1. 我拿了誰的東西?

  2. 我是怎么拿的?

  3. 我拿來做了什么?

如果這三個問題的答案都能經(jīng)得起法庭的推敲,那么你的AI之路才會走得更遠。

本文來自微信公眾號:星夜律途,作者:王帥賓lawyer

本內(nèi)容由作者授權(quán)發(fā)布,觀點僅代表作者本人,不代表虎嗅立場。如對本稿件有異議或投訴,請聯(lián)系 tougao@huxiu.com。

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4838943.html?f=wyxwapp

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
借基地遭拒后,特朗普決定對西班牙制裁,話音剛落,歐盟亮出底牌

借基地遭拒后,特朗普決定對西班牙制裁,話音剛落,歐盟亮出底牌

少女心盜夢賊
2026-03-04 22:43:29
中超外援確定參加世界杯:中超母隊有望獲23萬美元參賽補償!

中超外援確定參加世界杯:中超母隊有望獲23萬美元參賽補償!

邱澤云
2026-03-04 15:51:58
俄羅斯在烏克蘭遭遇2023年11月以來最慘單月

俄羅斯在烏克蘭遭遇2023年11月以來最慘單月

刀刀觀察
2026-03-04 00:12:07
長在懸崖超900年!浙江父子徒手挖了兩天,挖到3.5米長巨型夜交藤

長在懸崖超900年!浙江父子徒手挖了兩天,挖到3.5米長巨型夜交藤

雪靈谷
2026-03-03 18:18:48
明天要反彈了!關(guān)注這兩條主線

明天要反彈了!關(guān)注這兩條主線

錢眼
2026-03-04 19:41:14
女人最吃5種肢體觸摸,第三種一摸就心動,超管用

女人最吃5種肢體觸摸,第三種一摸就心動,超管用

王二哥老搞笑
2026-03-05 00:54:28
突然發(fā)現(xiàn)廣東人講話也很喜歡用倒裝句。廣東人:漏了什么后面補上

突然發(fā)現(xiàn)廣東人講話也很喜歡用倒裝句。廣東人:漏了什么后面補上

另子維愛讀史
2026-03-04 21:14:58
贅婿被賭王三太趕出門了

贅婿被賭王三太趕出門了

毒舌扒姨太
2026-03-04 22:44:00
我真的越看宋軼越想不通,這人也太會長了吧!

我真的越看宋軼越想不通,這人也太會長了吧!

小光侃娛樂
2026-02-11 11:35:10
皇馬3名球員被禁賽,呂迪格膝擊仍未被處罰,韋洛亞面臨傷病挑戰(zhàn)

皇馬3名球員被禁賽,呂迪格膝擊仍未被處罰,韋洛亞面臨傷病挑戰(zhàn)

夏侯看英超
2026-03-05 01:59:39
特朗普怎么都沒想到:哈梅死前留下25字遺言,中國不許三件事發(fā)生

特朗普怎么都沒想到:哈梅死前留下25字遺言,中國不許三件事發(fā)生

小濤叨叨
2026-03-02 18:05:02
5天滅一國海軍!17艘艦艇沉沒,指揮中樞癱瘓,伊朗海軍灰飛煙滅

5天滅一國海軍!17艘艦艇沉沒,指揮中樞癱瘓,伊朗海軍灰飛煙滅

咣當(dāng)?shù)厍?/span>
2026-03-05 04:25:47
上海影院現(xiàn)場意外捉奸,女子露面身材姣好,丈夫目睹后聲音都變了

上海影院現(xiàn)場意外捉奸,女子露面身材姣好,丈夫目睹后聲音都變了

讓我的世界更加精彩
2026-03-02 17:28:58
美伊打仗亞太買單?不到72小時,韓國股市熔斷,美媒:下一個中國

美伊打仗亞太買單?不到72小時,韓國股市熔斷,美媒:下一個中國

好賢觀史記
2026-03-04 16:37:48
美伊激戰(zhàn)5天,美軍已遭反噬,少將反手通知國會,盯上中國核潛艇

美伊激戰(zhàn)5天,美軍已遭反噬,少將反手通知國會,盯上中國核潛艇

舊窗老街
2026-03-05 03:42:34
全網(wǎng)怒贊!廣西代表兩會前打響反擊第一槍,徹底撕開上億人的體面

全網(wǎng)怒贊!廣西代表兩會前打響反擊第一槍,徹底撕開上億人的體面

離離言幾許
2026-03-04 17:36:26
人到中年,還在朋友圈曬這三樣?xùn)|西,情商很低,層次也很低

人到中年,還在朋友圈曬這三樣?xùn)|西,情商很低,層次也很低

唯晨說
2026-03-03 11:30:03
幾百名癌癥科專家已證實:吸煙和肺癌的關(guān)系,最好花點時間看看

幾百名癌癥科專家已證實:吸煙和肺癌的關(guān)系,最好花點時間看看

九哥聊軍事
2026-02-03 19:49:59
回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

就一點
2025-10-09 12:19:42
錢再多有什么用?79歲身家525億的特朗普,給全部中老年人提了醒

錢再多有什么用?79歲身家525億的特朗普,給全部中老年人提了醒

阿器談史
2026-01-19 19:33:57
2026-03-05 04:59:04
虎嗅APP incentive-icons
虎嗅APP
個性化商業(yè)資訊與觀點交流平臺
25820文章數(shù) 687533關(guān)注度
往期回顧 全部

科技要聞

多位核心離職,阿里親手廢掉最強AI天團?

頭條要聞

外媒稱伊朗封鎖霍爾木茲海峽只讓中俄船通行 中方回應(yīng)

頭條要聞

外媒稱伊朗封鎖霍爾木茲海峽只讓中俄船通行 中方回應(yīng)

體育要聞

2026年中超,為什么值得你多看一眼?

娛樂要聞

謝謝謝娜 貢獻出26年內(nèi)娛的第一個笑話

財經(jīng)要聞

人大代表建議:將農(nóng)民養(yǎng)老金提到500元

汽車要聞

鴻蒙智行首款獵裝車 尚界Z7/Z7T首發(fā)

態(tài)度原創(chuàng)

藝術(shù)
教育
游戲
親子
時尚

藝術(shù)要聞

驚艷!她的雙眸與微笑讓人無法移開視線!

教育要聞

活人感作文你會寫嗎?南京把它列入作文題

《LOL》凌晨停機維護!一次性更新兩個版本內(nèi)容

親子要聞

罕見七胞胎超市排隊看海鮮

女人不管多大年紀(jì),都要準(zhǔn)備一條黑裙子,百搭舒適又顯氣質(zhì)

無障礙瀏覽 進入關(guān)懷版