国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

哈布斯堡AI的詛咒:合成數(shù)據(jù)遞歸下的模型坍縮

0
分享至

枯竭的數(shù)字富礦

過去十年,AI大模型之所以能大力出奇跡,是依托于互聯(lián)網(wǎng)上幾十年來全人類積累的、充滿粗糙生命力的高質量原始語料(百科、學術文獻、甚至論壇里人類互噴的黑話)。AI像一臺貪婪的采礦機,迅速榨干了這些富礦。

到了今天,大模型研發(fā)最尷尬的現(xiàn)狀是:人類攢了幾千年的高質量語料,已經(jīng)被這幾年的 Scaling Laws 翻來覆去吃了個干凈。高質量的原始數(shù)據(jù)很快成了稀缺資源。為了讓模型性能繼續(xù)提升,研發(fā)者們不得不嘗試一件以前覺得荒唐的事,用 AI 生成的數(shù)據(jù),去喂養(yǎng)下一代 AI。


隨之而來的,是一場被稱為模型崩潰的賽博瘟疫。

合成數(shù)據(jù)在AI界的興起

在 AI 還沒這么火之前,合成數(shù)據(jù)(Synthetic Data)在業(yè)界其實早就扮演起了高級數(shù)字替身的角色。

它的本質是統(tǒng)計學中的分布采樣。最早,它是為了解決那些想用數(shù)據(jù)卻不敢用或根本沒數(shù)據(jù)的尷尬場景,在醫(yī)療與金融領域尤其突顯:銀行和醫(yī)院想訓練算法,但原始數(shù)據(jù)涉及用戶隱私,無法直接用患者的數(shù)據(jù)訓練模型。于是統(tǒng)計學家用借助生成對抗網(wǎng)絡(GANs)或變分自編碼器(VAEs)捕捉原始數(shù)據(jù)的協(xié)方差矩陣和邊際分布,生成一套在統(tǒng)計學特性上幾乎真假難辨的模擬數(shù)據(jù)。


GAN的核心是對抗訓練,生成器從噪聲中偽造數(shù)據(jù),再讓判別器不斷分辨真假,二者反復博弈直到生成器能完美模仿真實分布;VAE則是通過編碼器將數(shù)據(jù)壓縮到 latent space,再由解碼器生成新樣本,強調概率建模。兩者都能在不泄露具體隱私的前提下,保留數(shù)據(jù)的統(tǒng)計學骨架(均值、方差、相關性等都與真實數(shù)據(jù)一致)。


▲ 圖 / GAN的核心對抗訓練機制

類似地, 合成數(shù)據(jù)在 自動駕駛與機器人領域也早已大顯身手 。 你不可能為了訓練避障讓真車實打實撞一萬次墻,于是工程師在CARLA、Unreal Engine等模擬器中生成海量合成數(shù)據(jù),先在虛擬世界完成訓練,再通過Sim-to-Real路徑遷移到現(xiàn)實。在計算機視覺任務中,合成數(shù)據(jù)還常被用于數(shù)據(jù)增強,幫助平衡那些樣本極少的罕見類別(如罕見病癥圖像)。


隨著大模型時代的到來,合成數(shù)據(jù)的角色發(fā)生了質的飛躍。它不再僅僅是原始數(shù)據(jù)的統(tǒng)計模擬,而是搖身一變,成了一種邏輯蒸餾的燃料。

最早吃到甜頭的是微軟。2023年,他們讓GPT-4這樣的頂級模型生成干凈、邏輯嚴密的合成教材,然后拿去訓練Phi系列小模型。結果意外地發(fā)現(xiàn),這些吃精糧的小模型表現(xiàn)竟然全面反超了那些靠互聯(lián)網(wǎng)臟數(shù)據(jù)長大的大模型。他們因此喊出了那句后來廣為流傳的口號:Textbooks Are All You Need!


事實上,合成數(shù)據(jù)已在AI多領域大放異彩:指令微調中,Self-Instruct方法讓模型自我生成高質量指令-響應對,催生了Alpaca等高效小模型;在代碼推理,合成問題+逐步思考(CoT)軌跡顯著提升了o1-like模型的鏈式推理能力;多模態(tài)AI中,合成圖像+精準標注用于訓練視覺-語言模型(如CLIP變體);強化學習與機器人中,合成軌跡數(shù)據(jù)加速了策略優(yōu)化,避免了真實世界的高昂試錯成本,……

這一連串成功仿佛印證了一種妄念:只要算力足夠,數(shù)據(jù)不再是瓶頸。合成數(shù)據(jù)又便宜、又干凈、還能無限量供應,那為什么還要繼續(xù)翻那些充滿口水話和邏輯漏洞的人類語料區(qū)呢?


然而,這種數(shù)字興奮劑帶來的短期紅利,很快就招致了統(tǒng)計學意義上的反噬。

模式坍縮:提純的反噬

當這種用AI訓練AI的模式從微調擴散到全量預訓練時,崩壞開始了。

2024 年,牛津與劍橋團隊在《Nature》上發(fā)表了一項重磅實驗,擊碎了把合成數(shù)據(jù)當永動機的幻想。 研究者做了一個遞歸實驗:先用真實人類數(shù)據(jù)訓練出第 0 代模型,然后讓它生成合成數(shù)據(jù),再去訓練下一代,以此類推。

他們特意選取了一個知識邊界清晰的主題:英國中世紀教堂建筑,作為測試案例,以觀察遞歸的內容的逐代變化過程。

第 0 代: 邏輯嚴密,能準確描述石材、拱頂和建筑風格。

第 5 代: 語義邊界開始模糊。開始把教堂的石材和周圍的自然風景搞混,描述變得模棱兩可。

第 9 代:開始整頁整頁地重復一段毫無意義的亂碼:“長耳大野兔(Jackrabbits)有黑色、白色的毛發(fā)……野兔的尾巴……”

真正的邏輯熔斷發(fā)生在第 9 代。此時模型已經(jīng)徹底放棄了關于建筑的討論,轉而開始整頁重復一段關于長耳大野兔毛色的亂碼。這種崩潰不是緩慢的性能下降,而是在某個臨界點突然發(fā)生的模式坍縮。


▲ 圖 / 《Nature》2024模型崩潰論文

在遞歸過程中,模型在每一代演進中都會丟失一點真實世界的復雜性,最終因為這種智力層面的近親繁殖,徹底陷入了自我重復的癲狂。

這種現(xiàn)象被戲稱為哈布斯堡 AI(Habsburg AI),正如歷史上那個因近親繁殖導致下巴畸形、家族絕嗣的歐洲皇室,當模型試圖在影子的影子里尋找規(guī)律時,原本人類語料中那些充滿起伏的噪聲:那些細膩的比喻、生僻的文化符號以及獨特的表達,被層層疊加的概率均值無情抹除。直到某個微小的隨機誤差在遞歸中被不斷放大,整個概率分布最終滑向一個極窄的死胡同里,也就是那段關于野兔的廢話。

消失的長尾

這種崩潰并非偶然,而是合成數(shù)據(jù)遞歸訓練的必然結果,它的根源隱藏在數(shù)據(jù)分布的逐步坍縮之中。


AI 模型本質上是一個概率擬合機。

當它在擬合人類數(shù)據(jù)分布時,為了最小化經(jīng)驗風險,總是優(yōu)先傾向于捕捉那些高頻出現(xiàn)的平均模式,而丟棄那些低頻的長尾分布,也就是那些罕見表達、獨特的比喻、甚至是一些口誤。

在單次生成中,這種去噪機制讓輸出顯得更流暢穩(wěn)健,更符合常識。但在多代遞歸訓練中成了致命傷。第一代合成數(shù)據(jù)可能只是抹除了人類語言中的瑕疵,到了第二代,第三代…… 每一代都在上一代的基礎上繼續(xù)趨于平庸化。


▲ 圖 /合成數(shù)據(jù)遞歸訓練下的方差坍縮

從核密度估計(KDE)的視角來看,每一次用近似分布去擬合上一個分布,尾部概率都會被進一步削平,這種對尾部的系統(tǒng)性低估像雪球般不斷累積,最終驅使整個數(shù)據(jù)分布的方差坍縮,分布越來越集中在均值附近,誤差棒逐漸收斂,直至長尾徹底消失。

模型就像一個患有數(shù)字潔癖的怪物,極度厭惡人類數(shù)據(jù)里的粗糙與不確定性,一心想要提純出一套完美規(guī)律,結果反而親手扼殺了智能賴以生存的多樣性。

這一遞歸過程可被精確建模為離散時間馬爾可夫鏈在token序列狀態(tài)空間上的演化。由于每一代合成數(shù)據(jù)都在系統(tǒng)性地壓縮分布的支撐集,生成分布的香農熵持續(xù)單調下降,最終概率質量不可逆地收斂至一個或少數(shù)幾個吸收態(tài)。一旦落入這些吸收態(tài),模型便徹底喪失進一步演化的可能性,只能永久鎖定在高度重復的固定模式中。就像那只實驗中反復出現(xiàn)的“長耳大野兔”,成為系統(tǒng)抵達這一數(shù)學終點的必然體現(xiàn)。

這也揭示了,過度的一致性正是退化的序幕。如果一個系統(tǒng)只允許最正確的信號存在,那么它最終只能通向虛無。

對抗虛無的解藥


在柏拉圖的寓言里,囚徒們背對著出口,通過觀察墻上的影子來理解現(xiàn)實。

AI時代的困境如出一轍。

當我們用投影去訓練下一代模型,AI 實際上是在觀察“影子的影子”。工程師厭惡的數(shù)據(jù)噪聲,同時也是寶貴的不確定性。沒有了來自物理世界的、臟兮兮的原生采樣,純數(shù)字的虛擬閉環(huán)最終只會走向熱寂。秩序往往只是概率的偶然,而那些粗糙的、充滿生命力的不完美,才是對抗數(shù)字虛無的唯一火種。

end

參考文獻:

Shumailov (2024). AI models collapse when trained on recursively generated data.

[2] Gunasekar, S. et al. (2023). Textbooks are all you need. arXiv:2306.11644.

[3] Goodfellow, I. et al. (2014).

NeurIPS 2014.

Generative adversarial nets. 2

[4] Gerstgrasser, M. et al. (2024). Is model collapse inevitable? Breaking the curse of recursion by accumulating real and synthetic data. arXiv:2404.01413.

來源:DataCafe

編輯:LogicMoriaty

轉載內容僅代表作者觀點

不代表中科院物理所立場

如需轉載請聯(lián)系原公眾號

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗媒體:伊美伊斯蘭堡談判結束

伊朗媒體:伊美伊斯蘭堡談判結束

新京報
2026-04-12 10:03:24
金寶拉只扣1顆扣子出門,評論區(qū)吵翻了

金寶拉只扣1顆扣子出門,評論區(qū)吵翻了

追星雷達站
2026-04-12 08:15:05
趙一鳴零食被造謠品牌涉日、店鋪是拐賣兒童窩點,抖音公告:處置謠言內容1500余條、清理違規(guī)評論8.8萬條

趙一鳴零食被造謠品牌涉日、店鋪是拐賣兒童窩點,抖音公告:處置謠言內容1500余條、清理違規(guī)評論8.8萬條

大象新聞
2026-04-11 18:45:03
暴漲超2600%!存儲巨頭,再迎利好

暴漲超2600%!存儲巨頭,再迎利好

數(shù)據(jù)寶
2026-04-12 07:52:20
總理去世,毛遠新問:誰當總理合適?毛主席說:還是他比較好一些

總理去世,毛遠新問:誰當總理合適?毛主席說:還是他比較好一些

鍋鍋愛歷史
2026-04-11 18:21:06
外交部公開發(fā)聲,10字定性鄭麗文訪問大陸,白巖松的話果真沒說錯

外交部公開發(fā)聲,10字定性鄭麗文訪問大陸,白巖松的話果真沒說錯

阿纂看事
2026-04-11 15:53:22
470億遺產爭奪戰(zhàn)打響,遲重瑞被陳麗華子女踢出局?

470億遺產爭奪戰(zhàn)打響,遲重瑞被陳麗華子女踢出局?

王一曉
2026-04-09 17:16:09
盧比奧沒說錯!翻遍中東亂局賬,根子全在伊朗

盧比奧沒說錯!翻遍中東亂局賬,根子全在伊朗

斯德哥爾摩的帕金森
2026-04-12 10:31:52
事實證明,姆巴佩+貝林厄姆+維尼修斯同場就是互相傷害!

事實證明,姆巴佩+貝林厄姆+維尼修斯同場就是互相傷害!

田先生籃球
2026-04-11 16:42:14
緊急提醒!家里有這款牙膏快停用,砷超標1.5倍,官方已通報下架

緊急提醒!家里有這款牙膏快停用,砷超標1.5倍,官方已通報下架

娛樂的硬糖吖
2026-04-12 03:25:48
奇怪!談判結束,美伊都表示不著急,萬斯打道回府了,談崩了?

奇怪!談判結束,美伊都表示不著急,萬斯打道回府了,談崩了?

老曁科普
2026-04-12 10:15:29
科學家首次見證“猩猩帝國內戰(zhàn)”:首領重傷身亡后群體分裂,兩大幫派血腥殘殺

科學家首次見證“猩猩帝國內戰(zhàn)”:首領重傷身亡后群體分裂,兩大幫派血腥殘殺

紅星新聞
2026-04-10 18:13:29
國青核心李沂澤年齡存疑引熱議!媒體人:去年有教練跟我說過這事

國青核心李沂澤年齡存疑引熱議!媒體人:去年有教練跟我說過這事

狼叔評論
2026-04-11 23:32:08
3-2!溫瑞博大爆發(fā),短短1個月兩進男單決賽,國乒女單遭全軍覆沒

3-2!溫瑞博大爆發(fā),短短1個月兩進男單決賽,國乒女單遭全軍覆沒

侃球熊弟
2026-04-11 19:12:22
太罕見!藍營集體為鄭麗文撐腰,10位縣市長表態(tài),蔣萬安瞞不住了

太罕見!藍營集體為鄭麗文撐腰,10位縣市長表態(tài),蔣萬安瞞不住了

深析古今
2026-04-12 02:29:27
特朗普一聲令下,大批F35進駐日本,解放軍當務之急只有一件事

特朗普一聲令下,大批F35進駐日本,解放軍當務之急只有一件事

別吵吵
2026-04-12 10:24:47
感覺鐘楚曦衣服都要掉了,但是一臉鎮(zhèn)定美的讓人忘記了旁邊是娜扎

感覺鐘楚曦衣服都要掉了,但是一臉鎮(zhèn)定美的讓人忘記了旁邊是娜扎

阿廢冷眼觀察所
2026-04-12 08:09:14
巴基斯坦外長:美伊雙方必須繼續(xù)恪守?;鸪兄Z

巴基斯坦外長:美伊雙方必須繼續(xù)恪守?;鸪兄Z

新京報
2026-04-12 11:28:09
李在明將以軍比作二戰(zhàn)日軍和納粹?以色列:韓國總統(tǒng)言論不可接受

李在明將以軍比作二戰(zhàn)日軍和納粹?以色列:韓國總統(tǒng)言論不可接受

諦聽骨語本尊
2026-04-12 00:20:37
亞錦賽出現(xiàn)3匹黑馬!國羽爭3冠韓國提前定2冠,混雙冠軍提前揭曉

亞錦賽出現(xiàn)3匹黑馬!國羽爭3冠韓國提前定2冠,混雙冠軍提前揭曉

排球黃金眼
2026-04-12 00:05:17
2026-04-12 11:44:49
中科院物理所 incentive-icons
中科院物理所
愛上物理,改變世界。
10056文章數(shù) 136519關注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風日產:尊重同行

頭條要聞

美國副總統(tǒng)萬斯:美伊談判未能達成協(xié)議 將返回美國

頭條要聞

美國副總統(tǒng)萬斯:美伊談判未能達成協(xié)議 將返回美國

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

46歲趙達官宣結婚!曾與殷桃談婚論嫁

財經(jīng)要聞

三輪磋商談至深夜 美伊談判三大議題仍待解

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

游戲
藝術
時尚
親子
軍事航空

PS3模擬器重磅進化!最接近原機體驗的更新來了

藝術要聞

2025殊相——中國油畫學會創(chuàng)作研修作品展 | 油畫選刊(六)

春季穿衣別死氣沉沉,看看這27套日常穿搭,活力時尚又減齡

親子要聞

孩子去醫(yī)院不配合檢查怎么辦?兒科醫(yī)生教你一招!

軍事要聞

伊朗議長帶四名遇難兒童照片赴美伊談判

無障礙瀏覽 進入關懷版