国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

你點擊我不是機器人的時候,都是在幫Google免費訓(xùn)練無人駕駛車

0
分享至

你大概做過無數(shù)次這件事:在登錄銀行賬戶、注冊郵箱或者提交一個表單時,屏幕上彈出一組模糊的街景照片,要求你“點擊所有包含紅綠燈的圖片”或者“選出每一個人行橫道”,反復(fù)證明自己“不是機器人”。幾秒鐘后,驗證通過,你繼續(xù)你的操作,不會再多想一秒。

但你有沒有想過,你點擊的那些紅綠燈和人行橫道的圖片,來自哪里?又去了哪里?

最近,一篇博文把這個問題再次推到了聚光燈下。用戶 @sharbel 撰寫了一篇長文,詳細(xì)梳理了 reCAPTCHA(re-Completely Automated Public Turing test to tell Computers and Humans Apart)從誕生到今天的演變,并提出了一個尖銳的論點:過去十幾年里,數(shù)以億計的互聯(lián)網(wǎng)用戶在不知情的情況下,免費為 Google 標(biāo)注了海量圖像數(shù)據(jù),而這些數(shù)據(jù)最終流入了 Google Maps 和 Waymo 自動駕駛系統(tǒng)的訓(xùn)練管線。

這不是什么新近泄露的秘密。reCAPTCHA 作為數(shù)據(jù)采集工具的雙重身份,在技術(shù)圈里已經(jīng)是公開的常識。Google 甚至在自己的 reCAPTCHA 開發(fā)者網(wǎng)站上寫得很清楚:reCAPTCHA 會“將用戶解決驗證碼所花費的時間積極用于文本數(shù)字化、圖像標(biāo)注和構(gòu)建機器學(xué)習(xí)數(shù)據(jù)集”。但對絕大多數(shù)普通用戶來說,他們從未讀過這行字。隨著如今 AI 數(shù)據(jù)的價值愈發(fā)重要,這個問題隨著這條博文再度進入公眾視野。

故事要從 2000 年講起。那時候的互聯(lián)網(wǎng)正被垃圾郵件和自動注冊機器人搞得一團糟??▋?nèi)基梅隆大學(xué)的危地馬拉裔計算機科學(xué)家 Luis von Ahn 和他的團隊提出了一種區(qū)分人類和機器的方法,后來被命名為 CAPTCHA。原理很直觀:給用戶展示一段扭曲變形的文字,人類能看懂,機器識別不了。


圖丨Luis von Ahn(來源:MIT News)

Von Ahn 很快意識到,全世界每天有幾億人在做這件事,每次花大約十秒鐘。這些認(rèn)知勞動加在一起是一個驚人的數(shù)字,全部被浪費了。2007 年,他推出了 reCAPTCHA。核心改動很簡單:驗證碼里展示的不再是隨機生成的亂碼,而是兩個詞。一個是系統(tǒng)已知的答案,用來驗證你是不是人;另一個則來自掃描的舊書籍和報紙,是光學(xué)字符識別(OCR)軟件無法辨認(rèn)的文本。你輸入答案的同時,也在幫助把這些紙質(zhì)文字轉(zhuǎn)化成數(shù)字文本。

這個設(shè)計確實稱得上一石二鳥。reCAPTCHA 被部署到超過十萬個網(wǎng)站上,到 2011 年,它已經(jīng)完成了整個 Google Books 檔案的數(shù)字化,還幫助轉(zhuǎn)錄了《紐約時報》從 1851 年至今超過 1,300 萬篇文章。Von Ahn 后來在接受 NPR 采訪時說,他把 CAPTCHA 的創(chuàng)意免費送了出去,而 reCAPTCHA 被 Google 在 2009 年收購,價格據(jù)他本人透露是“數(shù)千萬美元級別”。收購之后,Von Ahn 又去做了另一件事:創(chuàng)辦多鄰國,繼續(xù)用眾包的邏輯做語言教育。

Google 拿到 reCAPTCHA 之后,事情開始轉(zhuǎn)向。

大約在 2012 年,扭曲文字時代結(jié)束了。Google 當(dāng)時面對的新挑戰(zhàn)是:Street View 拍攝車已經(jīng)在全球幾乎每條道路上跑過了,積累了海量街景照片。但照片本身只是原始像素,要讓這些數(shù)據(jù)對導(dǎo)航和地圖服務(wù)有用,系統(tǒng)需要知道照片里有什么,哪個是門牌號,哪個是路標(biāo),哪個是店面招牌。于是 reCAPTCHA v2 出現(xiàn)了。用戶不再輸入文字,取而代之的是圖片網(wǎng)格?!包c擊所有包含交通信號燈的方塊”“選出每個人行橫道”“識別所有店面”。

這些圖片來自 Google Street View。用戶每一次點擊都在告訴 Google 的計算機視覺模型:這塊像素區(qū)域是紅綠燈,這個形狀是斑馬線。Google 以免費安全服務(wù)的名義,將這個工具嵌入了銀行、政府網(wǎng)站、電商平臺和幾乎所有需要登錄驗證的網(wǎng)頁。你別無選擇。想訪問你的賬戶?先幫我標(biāo)注幾張圖片。

規(guī)模有多大?據(jù)多個來源估計,reCAPTCHA 在高峰期每天被解答約 2 億次。加州大學(xué)爾灣分校(UC Irvine)2023 年發(fā)表的一篇論文《Dazed & Confused: A Large-Scale Real-World User Study of reCAPTCHAv2》給出了更系統(tǒng)的計算:從部署至今的 13 年多時間里,人類總共花費了約 8.19 億小時在 reCAPTCHA 上,按工資折算至少相當(dāng)于 61 億美元。

研究團隊還估算,reCAPTCHAv2 產(chǎn)生的追蹤 Cookie 數(shù)據(jù),終身價值高達(dá) 8,880 億美元。論文的主要作者 Andrew Searles 在接受 The Register 采訪時直言:他認(rèn)為 reCAPTCHA 的真正目的是收集用戶信息和免費勞動。


圖丨相關(guān)論文(來源:arXiv)

這些標(biāo)注數(shù)據(jù)去了哪里?最顯而易見的方向是 Google Maps。它今天能自動識別路標(biāo)、讀取門牌號、理解城市地理結(jié)構(gòu),背后依賴的計算機視覺能力,有一部分基礎(chǔ)就來自 reCAPTCHA 用戶年復(fù)一年的標(biāo)注積累。

更受爭議的方向是 Waymo。Waymo 的前身是 Google 在 2009 年啟動的自動駕駛項目,2016 年獨立為 Alphabet 旗下子公司。一輛自動駕駛汽車要安全運行,必須以接近完美的準(zhǔn)確率識別交通燈、人行橫道、行人、停車標(biāo)志等成千上萬種視覺模式。

而 reCAPTCHA 要求用戶識別的,恰恰就是這些元素。有人推測 reCAPTCHA 數(shù)據(jù)被用于訓(xùn)練 Waymo 的自動駕駛系統(tǒng),但一位未具名的 Google 代表否認(rèn)了這一點,聲稱截至 2021 年中,這些數(shù)據(jù)僅用于改進 Google Maps。UC Irvine 的研究者在論文中則認(rèn)為,reCAPTCHA 提出的圖像識別任務(wù),如辨認(rèn)紅綠燈和自行車,看起來非常像是在為自動駕駛收集訓(xùn)練數(shù)據(jù)。

Google 從未正式確認(rèn) reCAPTCHA 數(shù)據(jù)直接進入了 Waymo 的訓(xùn)練流程。這一點需要說清楚。不過從外部來看,質(zhì)疑并非沒有道理。reCAPTCHA v2 讓用戶標(biāo)注的物體類別,與自動駕駛感知系統(tǒng)需要識別的物體類別高度重合。而 Google/Alphabet 同時擁有 reCAPTCHA 和 Waymo,內(nèi)部數(shù)據(jù)管線是否有交叉使用,外界無從審計。

Waymo 如今的體量讓這個問題變得更加敏感。截至 2026 年 2 月,Waymo 已完成超過 2,000 萬次付費載客,自主駕駛里程超過 2 億英里。僅 2025 年一年,它的年度載客量就增長了兩倍,達(dá)到 1,500 萬次。

2026 年 2 月,Waymo 完成了一輪 160 億美元的融資,估值達(dá)到約 1,260 億美元,超過了大多數(shù)全球主流車企。它計劃在 2026 年進入包括倫敦和東京在內(nèi)的 20 多個新城市。從一個 Google 內(nèi)部的研究項目,到一家估值千億美元的獨立公司,Waymo 走了不過十多年。


圖丨 Waymo 無人駕駛出租車(來源:Waymo)

與此同時,職業(yè)數(shù)據(jù)標(biāo)注是一個相當(dāng)昂貴的行業(yè)。Scale AI、Appen、Labelbox 等公司雇傭了大量工人來完成圖像標(biāo)注工作,每小時的報酬從幾美元到幾十美元不等。Google 通過 reCAPTCHA 做到了同樣的事,只是標(biāo)注者不是被雇傭的工人,而是想登錄自己銀行賬戶的普通人。

沒有報酬,沒有合同,甚至不需要征得同意。reCAPTCHA 的服務(wù)條款當(dāng)然存在,但絕大多數(shù)用戶既沒有閱讀過,也無法選擇拒絕,因為它不是 Google 的產(chǎn)品頁面上的可選項,而是橫亙在你和你想訪問的任何網(wǎng)站之間的一道必經(jīng)關(guān)卡。

2018 年,Google 推出了 reCAPTCHA v3。這一版本不再給用戶展示任何驗證挑戰(zhàn)。它在后臺默默運行,通過監(jiān)測你的鼠標(biāo)軌跡、滾動模式、懸停時長和瀏覽器環(huán)境來判斷你是不是人類。

UC Irvine 的研究發(fā)現(xiàn),reCAPTCHA 廣泛監(jiān)控用戶的 Cookie、瀏覽歷史和瀏覽器環(huán)境信息,包括畫布渲染、屏幕分辨率、鼠標(biāo)移動和用戶代理數(shù)據(jù),所有這些都可以被用于廣告和追蹤。Google 堅稱這些數(shù)據(jù)不會被用于個性化廣告。但 2020 年,Cloudflare 出于隱私擔(dān)憂從 reCAPTCHA 切換到了競爭對手 hCaptcha,也說明業(yè)界并非所有人都對 Google 的說法買賬。

更有意思的是,UC Irvine 的研究發(fā)現(xiàn),早在 2016 年就有研究者能以 70% 的準(zhǔn)確率擊敗 reCAPTCHA v2 的圖像驗證,而 v2 的復(fù)選框驗證更是可以被 100% 破解。

換句話說,reCAPTCHA 作為安全工具的有效性在持續(xù)下降,但它作為數(shù)據(jù)采集和用戶追蹤工具的功能卻一直在運轉(zhuǎn)。研究者的結(jié)論相當(dāng)犀利:reCAPTCHA 本質(zhì)上是一個偽裝成安全服務(wù)的免費圖像標(biāo)注勞動力來源和追蹤 Cookie 農(nóng)場。

需要指出的是,這個結(jié)論不代表學(xué)術(shù)界的共識。也有人認(rèn)為,reCAPTCHA 確實在防御層面提供了一定價值,至少增加了機器人的攻擊成本,不應(yīng)該完全否定它的安全功能。Google 自身的立場也一直是,reCAPTCHA 首先是一個安全產(chǎn)品。

但爭論的核心不在于 reCAPTCHA 有沒有安全價值。核心問題是:當(dāng)一個安全工具同時也是數(shù)據(jù)采集工具時,用戶是否應(yīng)該被告知?是否應(yīng)該有選擇權(quán)?

Luis von Ahn 最初發(fā)明 reCAPTCHA 的想法其實很漂亮:既然人們已經(jīng)在做驗證了,為什么不順便把這些認(rèn)知勞動用在有益的事情上?幫助數(shù)字化全世界的書籍,這是一個能讓人心生敬意的目標(biāo)。但從 Google 收購 reCAPTCHA 之后的演變來看,“有益”的定義被悄悄替換了。數(shù)字化公共圖書館的藏書是公益,訓(xùn)練價值千億美元的商業(yè)產(chǎn)品則是另一回事。

奧地利的聯(lián)邦法院已經(jīng)裁定 reCAPTCHA 違反了 GDPR,因為它在未經(jīng)充分知情同意的情況下向 Google 傳輸用戶數(shù)據(jù)。歐洲的監(jiān)管壓力在上升,但在全球范圍內(nèi),reCAPTCHA 仍然部署在數(shù)百萬個網(wǎng)站上,每天默默地運行著。

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
巴薩舊將:當(dāng)時赫萊布知道自己要離隊,他往功能飲料里兌酒喝

巴薩舊將:當(dāng)時赫萊布知道自己要離隊,他往功能飲料里兌酒喝

懂球帝
2026-03-26 06:43:09
蠱惑人心 結(jié)局:留下懸念

蠱惑人心 結(jié)局:留下懸念

金昔說故事
2026-03-26 19:50:53
炸鍋!利物浦 1.25 億標(biāo)王主動申請離隊,首選下家完全出乎意料

炸鍋!利物浦 1.25 億標(biāo)王主動申請離隊,首選下家完全出乎意料

瀾歸序
2026-03-26 06:08:07
生死皆是命數(shù)!網(wǎng)友:注定你要活,就會用各種方式把你拉離危險

生死皆是命數(shù)!網(wǎng)友:注定你要活,就會用各種方式把你拉離危險

夜深愛雜談
2026-03-26 20:25:44
連續(xù)9場遭雪藏!失意神射離開遼寧仍未受重用 還能翻身嗎?

連續(xù)9場遭雪藏!失意神射離開遼寧仍未受重用 還能翻身嗎?

體娛天下
2026-03-26 15:27:26
又不缺土地,為什么全世界只有中國,在瘋狂地修建高層住宅?

又不缺土地,為什么全世界只有中國,在瘋狂地修建高層住宅?

張黿鹵說體育
2026-02-07 12:45:26
一覺醒來天塌了!美國突然發(fā)現(xiàn),命脈被中國控制,這仗還怎么打?

一覺醒來天塌了!美國突然發(fā)現(xiàn),命脈被中國控制,這仗還怎么打?

谷盟a
2026-03-24 13:43:01
3月26日人民幣對美元中間價調(diào)貶145個基點

3月26日人民幣對美元中間價調(diào)貶145個基點

證券時報
2026-03-26 09:34:06
曼聯(lián)5出3進,中場推倒重來!2人合同到期 2人鐵心想走 3天才鎖定

曼聯(lián)5出3進,中場推倒重來!2人合同到期 2人鐵心想走 3天才鎖定

萬花筒體育球球
2026-03-25 19:02:23
這4種魚,可能含有甲醛和重金屬,建議:還是少吃比較好!

這4種魚,可能含有甲醛和重金屬,建議:還是少吃比較好!

阿龍美食記
2026-03-24 21:52:23
忍了9年,中國終于對歐美航空霸權(quán)掀桌子!C919用硬實力殺出重圍

忍了9年,中國終于對歐美航空霸權(quán)掀桌子!C919用硬實力殺出重圍

朝子亥
2026-03-26 23:35:03
稀土貿(mào)易戰(zhàn):WTO判中國輸,美西方終成輸家

稀土貿(mào)易戰(zhàn):WTO判中國輸,美西方終成輸家

遁走的兩輪
2026-03-15 03:13:32
巴基斯坦外長說美伊正進行間接談判

巴基斯坦外長說美伊正進行間接談判

新華社
2026-03-26 18:55:07
金智媛現(xiàn)身寶格麗米蘭大秀站C位,劉亦菲慘淪配角,尷尬表情曝光

金智媛現(xiàn)身寶格麗米蘭大秀站C位,劉亦菲慘淪配角,尷尬表情曝光

流云隨風(fēng)去遠(yuǎn)方
2026-03-26 18:36:05
郜林:來銘途一個月沒開過會;當(dāng)總經(jīng)理和踢球不同

郜林:來銘途一個月沒開過會;當(dāng)總經(jīng)理和踢球不同

懂球帝
2026-03-26 22:00:56
我談了5個對象都被我爸?jǐn)圏S,直到他住進ICU,我才明白誰是外人

我談了5個對象都被我爸?jǐn)圏S,直到他住進ICU,我才明白誰是外人

木子言故事
2026-03-26 09:35:08
華為、商湯等873家機構(gòu)遭AI頂會“封殺”,中國學(xué)界怒了

華為、商湯等873家機構(gòu)遭AI頂會“封殺”,中國學(xué)界怒了

智東西
2026-03-26 20:49:23
伊朗的第一次回球:以攻代守,極限反拉

伊朗的第一次回球:以攻代守,極限反拉

西樓飲月
2026-03-26 21:28:25
已被禁賽4年 俄羅斯不后悔未加入亞足聯(lián) 主帥:就5隊能打難獲進步

已被禁賽4年 俄羅斯不后悔未加入亞足聯(lián) 主帥:就5隊能打難獲進步

我愛英超
2026-03-26 18:25:55
美方就伊朗將領(lǐng)遇襲事件發(fā)聲 公開呼吁伊方人員撤離崗位

美方就伊朗將領(lǐng)遇襲事件發(fā)聲 公開呼吁伊方人員撤離崗位

老馬拉車莫少裝
2026-03-27 00:00:56
2026-03-27 01:03:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16491文章數(shù) 514798關(guān)注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

本地
手機
游戲
健康
公開課

本地新聞

救命,這只醬板鴨已經(jīng)在我手機復(fù)仇了一萬遍

手機要聞

1499 iQOO Z11系列發(fā)布丨9020mAh電池 165Hz高刷

PS1大IP游戲藏私貨!成人手繪與盜版馬里奧ROM塞滿

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版