国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

AI公司狂囤真人數據:75%網頁已變"合成垃圾"

0
分享至


一個數據點正在硅谷流傳:75%的網頁內容已被AI生成。Scale AI CEO Alexandr Wang 在最新訪談中拋出這個數字時,整個行業(yè)的焦慮被徹底點燃——當機器開始用機器產出的內容訓練自己,這套循環(huán)還能轉多久?

數據饑荒:真人內容正在變成戰(zhàn)略物資

Scale AI 的核心業(yè)務是為AI公司提供訓練數據。Wang 描述了一個微妙的轉折點:2023年前,企業(yè)客戶問的是"能不能搞到更多數據";現在問的是"能不能搞到更多真人數據"。兩個字的差異,折射出整個行業(yè)的信任危機。

這種轉變有跡可循。Google 的搜索查詢、reCAPTCHA 的點擊驗證、DoorDash 的配送路線反饋——這些曾被視作副產品的人類行為痕跡,如今被重新定價。Niantic 更典型:《寶可夢Go》玩家隨手拍的街景照片,成了其AI子公司 Niantic Spatial 的地理空間數據庫核心資產。

Wang 的觀察很直接:「企業(yè)意識到,合成數據(synthetic data)在特定場景有用,但無法替代人類在真實環(huán)境中的決策痕跡?!顾目蛻裘麊伟?OpenAI、Meta 和一眾自動駕駛公司,這些買家正在用真金白銀投票。

合成數據的悖論:越用越像,越像越錯

AI 公司并非沒有嘗試過"自我喂養(yǎng)"。用模型A的輸出訓練模型B,再用模型B的輸出訓練模型C——這套邏輯在數學上成立,在實踐中卻陷入退化循環(huán)。

研究人員給這種現象起了個名字:模型崩潰(model collapse)。就像復印機復印復印件,每一代都會丟失一些細節(jié),最終變成無法辨認的噪點。2023年《自然》子刊的一項研究顯示,經過多代合成數據訓練后,模型對 minority groups 的表征會出現系統性扭曲——不是偏見放大,而是事實層面的扭曲。


Wang 對此的比喻更尖銳:「讓AI只學AI寫的東西,相當于讓一個人只和鏡子里的自己對話?!顾墓疽虼搜鹤?人類在環(huán)"(human-in-the-loop)模式,用真人標注員介入關鍵決策節(jié)點,打斷純合成的死亡螺旋。

數據市場的分層:誰在賣,誰在買

真人數據的獲取渠道正在分化成三個層級。

第一層是科技巨頭的"內部油田"。Google 擁有搜索和 YouTube 的獨家開采權;Meta 坐擁數十億用戶的社交圖譜;亞馬遜的物流網絡實時生成物理世界的交互數據。這些公司很少外售核心資產,但會用數據合作換取模型訓練算力。

第二層是專業(yè)數據供應商。Scale AI 屬于這一層,雇傭全球約50萬標注員處理圖像、文本和語音。類似玩家還有 Appen、Telus International,它們的商業(yè)模式很像石油精煉廠——從各種渠道采購"原油",加工成AI公司需要的標注數據集。

第三層最隱蔽:普通用戶的無意識貢獻。點擊"我不是機器人"時勾選的圖片、語音助手的誤喚醒錄音、甚至智能馬桶的健康數據——這些碎片被聚合、脫敏、再出售。Wang 透露,某些醫(yī)療AI公司的訓練數據中,超過30%來自可穿戴設備的"被動采集"。

定價權的轉移:從算力到數據

2022年的AI敘事是"算力即權力",英偉達的GPU決定一切。Wang 認為這個框架正在過時:「前沿模型的差距不在芯片,在數據質量?!顾目蛻糁校行┕居猛瑯拥乃懔︻A算訓練,效果差異可達40%——差距完全來自訓練數據的清洗標準和人類反饋的介入深度。


這種變化正在重塑投資邏輯。紅杉資本2024年的AI報告中,"數據護城河"首次與"模型架構"并列評估維度。更激進的信號來自 OpenAI:2023年底與 Axel Springer 簽訂的內容授權協議,本質是用現金換取高質量人類文本的獨家開采權。

但數據交易的市場化也帶來新問題。Reddit 2024年修改API條款,對第三方數據抓取收費,直接導致多個學術研究項目中斷。當人類內容變成可囤積的商品,公共知識庫的開放性正在收縮。

75%之后的懸念

Wang 沒有解釋"75%網頁為AI生成"的具體測算方法,但這個數字本身已經成為行業(yè)隱喻。它暗示的不僅是內容質量的稀釋,更是一種結構性焦慮:當合成數據占比越過某個閾值,整個互聯網的"信噪比"可能發(fā)生不可逆的惡化。

一些公司正在嘗試技術解決方案。C2PA 內容溯源標準試圖給數字內容貼上"出生證明",追蹤其創(chuàng)作鏈條;Kaggle 等平臺的真人競賽數據被重新評估價值;甚至有初創(chuàng)公司專門提供"前2023年互聯網"的歸檔數據,作為"純凈訓練集"出售。

Wang 的立場很明確:合成數據不會消失,但必須與人類數據混合使用,比例和介入方式取決于具體場景。他的公司正在測試一種"動態(tài)配比"系統,根據模型在特定任務上的表現,實時調整合成與真人數據的比例。

采訪結束前,記者問了最后一個問題:如果五年后真人數據真的耗盡,Scale AI 的業(yè)務怎么辦?Wang 停頓了兩秒:「那我們可能需要重新定義'人類'——不是生物學意義上的,而是指那些能做出不可預測選擇的智能體?!?/p>

這個回答沒有出現在新聞稿里,但被在場的人記了下來。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
戲都沒演明白還當評委,自己都沒拿過獎,坐在評審團位置不心虛嗎

戲都沒演明白還當評委,自己都沒拿過獎,坐在評審團位置不心虛嗎

娛樂圈筆娛君
2026-03-25 10:46:06
人社部:職稱評審將重大調整??!

人社部:職稱評審將重大調整!!

新浪財經
2026-03-25 21:42:36
6歲男童被棄酒店半個月,媽媽終于現身!孩子緊緊抱住不愿松手,網友:這孩子懂事得讓人心疼

6歲男童被棄酒店半個月,媽媽終于現身!孩子緊緊抱住不愿松手,網友:這孩子懂事得讓人心疼

大風新聞
2026-03-25 15:43:11
這4種魚,可能含有甲醛和重金屬,建議:還是少吃比較好!

這4種魚,可能含有甲醛和重金屬,建議:還是少吃比較好!

阿龍美食記
2026-03-24 21:52:23
又是1-3、又是輸在決賽!向鵬淘汰溫瑞博,獲世乒賽參賽資格

又是1-3、又是輸在決賽!向鵬淘汰溫瑞博,獲世乒賽參賽資格

十點街球體育
2026-03-25 20:08:11
以色列人哭了:這不是該發(fā)生在劣等民族身上的嗎?

以色列人哭了:這不是該發(fā)生在劣等民族身上的嗎?

李榮茂
2026-03-23 18:59:00
張雪峰的病,速效救心丸能救嗎?

張雪峰的病,速效救心丸能救嗎?

中國新聞周刊
2026-03-25 16:23:30
周杰倫的INS被網友沖爆,新歌MV里手表調到“83”,疑用舊戀情炒作賣新唱片

周杰倫的INS被網友沖爆,新歌MV里手表調到“83”,疑用舊戀情炒作賣新唱片

回旋鏢
2026-03-25 20:38:44
3月25日俄烏最新:最慘烈的一天

3月25日俄烏最新:最慘烈的一天

西樓飲月
2026-03-25 20:43:34
伊朗愿意與“主和派”萬斯談!特朗普一邊宣稱勝利一邊增兵中東:我和魯比奧也要參與

伊朗愿意與“主和派”萬斯談!特朗普一邊宣稱勝利一邊增兵中東:我和魯比奧也要參與

紅星新聞
2026-03-25 17:17:14
以色列人痛哭流涕,伊朗導彈實力被嚴重低估,以色列陷入存亡危機

以色列人痛哭流涕,伊朗導彈實力被嚴重低估,以色列陷入存亡危機

揭秘歷史的真相
2026-03-25 21:14:04
退役體操冠軍,直播“擦邊”之后

退役體操冠軍,直播“擦邊”之后

中國新聞周刊
2026-03-25 21:34:08
張雪峰離世!北京蘇州房產不在名下,1400名員工等安撫,好友停工

張雪峰離世!北京蘇州房產不在名下,1400名員工等安撫,好友停工

阿纂看事
2026-03-25 21:31:59
空姐的跪式服務

空姐的跪式服務

微微熱評
2026-03-25 23:58:37
伊朗稱正在搜捕逃亡美軍

伊朗稱正在搜捕逃亡美軍

界面新聞
2026-03-25 23:21:14
烏克蘭四百架無人機摧毀俄最大的烏斯季盧加港!擊沉軍艦

烏克蘭四百架無人機摧毀俄最大的烏斯季盧加港!擊沉軍艦

項鵬飛
2026-03-25 21:28:02
“中園石化”被立案調查

“中園石化”被立案調查

每日經濟新聞
2026-03-25 11:13:18
聯大通過決議 宣布奴隸制行為為最嚴重反人類罪

聯大通過決議 宣布奴隸制行為為最嚴重反人類罪

財聯社
2026-03-26 01:24:06
白人女性與黑人女性的體味差異,網友真實分享引發(fā)熱議

白人女性與黑人女性的體味差異,網友真實分享引發(fā)熱議

特約前排觀眾
2025-12-22 00:20:06
1000億背后的陽謀:拼多多利用中國制造的優(yōu)勢,要狂掃國外市場

1000億背后的陽謀:拼多多利用中國制造的優(yōu)勢,要狂掃國外市場

風向觀察
2026-03-25 20:46:14
2026-03-26 04:51:00
灰度測試中
灰度測試中
生活正在重構,目前還在灰度測試階段,暫不全量發(fā)布。
58文章數 0關注度
往期回顧 全部

科技要聞

紅極一時卻草草收場,Sora宣布正式關停

頭條要聞

伊朗:正在搜捕逃亡美軍

頭條要聞

伊朗:正在搜捕逃亡美軍

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰遺產分割復雜!是否立遺囑成關鍵

財經要聞

管濤:中東局勢如何影響人民幣匯率走勢?

汽車要聞

智己LS8放大招 30萬內8系旗艦+全線控底盤秀實力

態(tài)度原創(chuàng)

教育
游戲
藝術
本地
公開課

教育要聞

那些躺平的孩子,其實是看透了父母的偽裝

PS6升級動力遭質疑!玩家或當“PS5釘子戶”

藝術要聞

張雪峰走了,他公司所在的這棟樓高177.8米,耗資超10億!

本地新聞

來永泰同安 赴一場春天的約會

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版