国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

合成數(shù)據(jù)≠生成模型:一文讀懂合成數(shù)據(jù)的全新范式

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】最新研究提出合成數(shù)據(jù)的全新分類框架,突破「生成模型=合成數(shù)據(jù)」的傳統(tǒng)認(rèn)知,涵蓋反演、仿真與數(shù)據(jù)增強(qiáng)等方法,并按應(yīng)用層次劃分為數(shù)據(jù)中心AI、模型中心AI、可信AI和具身AI。

隨著基礎(chǔ)模型規(guī)模不斷擴(kuò)大,真實(shí)數(shù)據(jù)在成本、隱私、質(zhì)量和可控性上的限制,正逐漸成為 AI 繼續(xù)發(fā)展的關(guān)鍵瓶頸。

尤其是在醫(yī)療等高價(jià)值場景中,真實(shí)數(shù)據(jù)本身難以獲取,「依賴數(shù)據(jù)自然產(chǎn)生」的范式正在失效。

在這樣的背景下,合成數(shù)據(jù)正在從「真實(shí)數(shù)據(jù)的補(bǔ)充」,轉(zhuǎn)變?yōu)椤爸鲃?dòng)構(gòu)造高質(zhì)量訓(xùn)練與評(píng)估數(shù)據(jù)的核心機(jī)制”。

基于對(duì)300+篇代表性文獻(xiàn)的系統(tǒng)梳理,南洋理工大學(xué)、清華大學(xué)、四川大學(xué)、中山大學(xué)的研究人員提出了一個(gè)統(tǒng)一的How / Why / Where框架,重新定義了合成數(shù)據(jù)的方法邊界,并從應(yīng)用層面給出了更完整的發(fā)展路徑。


論文鏈接:https://www.techrxiv.org/users/1016218/articles/1378802-synthetic-data-beyond-generative-models-a-comprehensive-survey-of-how-why-and-where

論文資源庫:https://github.com/Egg-Hu/Awesome-Synthetic-Data-Generation

首先,合成數(shù)據(jù)方法該如何分類?

很多工作默認(rèn)認(rèn)為「合成數(shù)據(jù) = 生成模型」,該綜述重新定義了「數(shù)據(jù)合成」的方法邊界,跳出「合成數(shù)據(jù) = 生成模型」的單一視角。也就是說,合成數(shù)據(jù)并不等同于“用生成模型造數(shù)據(jù)”,反演、仿真、增強(qiáng)等方式也都應(yīng)被納入合成數(shù)據(jù)的范疇。

下表給出了整體分類框架:


第二,成數(shù)據(jù)應(yīng)用在哪些核心場景?

不同于以往按具體任務(wù)或領(lǐng)域劃分的方式,本文從更高層次出發(fā),將合成數(shù)據(jù)的應(yīng)用組織為一條逐步演進(jìn)的能力路徑。

在這一框架下,最基礎(chǔ)的是數(shù)據(jù)中心人工智能(Data-centric AI),其核心目標(biāo)是解決真實(shí)數(shù)據(jù)稀缺、獲取成本高以及隱私受限等問題,通過合成數(shù)據(jù)擴(kuò)展訓(xùn)練集并提升數(shù)據(jù)質(zhì)量,為模型訓(xùn)練提供穩(wěn)定的數(shù)據(jù)基礎(chǔ)。

在此之上,隨著數(shù)據(jù)可獲得性的提升,研究重點(diǎn)逐漸轉(zhuǎn)向模型中心人工智能(Model-centric AI),此時(shí)合成數(shù)據(jù)不僅用于補(bǔ)充數(shù)據(jù),還被用于能力注入,例如提升模型的推理、編碼與對(duì)齊能力,并構(gòu)建可控的評(píng)測基準(zhǔn)。

進(jìn)一步地,隨著模型能力的增強(qiáng),對(duì)系統(tǒng)可靠性的需求不斷提高,催生了可信人工智能(Trustworthy AI),在這一階段,合成數(shù)據(jù)被廣泛用于隱私保護(hù)、安全防護(hù)、公平性提升以及模型可解釋性分析。

最后,合成數(shù)據(jù)的應(yīng)用從數(shù)字空間走向現(xiàn)實(shí)世界,對(duì)應(yīng)的是具身智能(Embodied AI),其目標(biāo)是支持感知、交互與泛化能力,使智能體能夠在復(fù)雜物理環(huán)境中進(jìn)行決策與行動(dòng)。下表給出了整體結(jié)構(gòu)(具體細(xì)節(jié)可參考原論文):


進(jìn)一步地,文章將上述四類應(yīng)用場景細(xì)化到了 30+ 個(gè)具體機(jī)器學(xué)習(xí)任務(wù)層級(jí),從而構(gòu)建起從宏觀分類到具體問題的系統(tǒng)化映射。

如下圖所示,每一類場景都被進(jìn)一步拆解為多個(gè)典型問題:例如,在數(shù)據(jù)中心人工智能中,涵蓋了零/少樣本學(xué)習(xí)、聯(lián)邦學(xué)習(xí)、無數(shù)據(jù)學(xué)習(xí)、數(shù)據(jù)蒸餾等任務(wù);在模型中心人工智能中,則進(jìn)一步細(xì)化為模型通用能力提升,以及推理、編碼、指令對(duì)齊等特定能力的增強(qiáng),同時(shí)也包括基于合成數(shù)據(jù)的模型評(píng)測任務(wù);

在可信人工智能中,主要聚焦于隱私保護(hù)、模型攻擊、安全防護(hù)、長尾學(xué)習(xí)與可解釋性等任務(wù);而在具身智能中,則進(jìn)一步延伸到感知、交互以及跨場景泛化等面向真實(shí)環(huán)境的任務(wù)。


最后,合成數(shù)據(jù)面臨哪些挑戰(zhàn)與機(jī)遇?

盡管在方法體系與應(yīng)用落地方面已經(jīng)取得了顯著進(jìn)展,但合成數(shù)據(jù)仍處于快速發(fā)展階段,仍然存在一系列關(guān)鍵挑戰(zhàn)有待解決。

  • 隨著模型越來越多地依賴自生成數(shù)據(jù)進(jìn)行訓(xùn)練,一個(gè)核心風(fēng)險(xiǎn)逐漸顯現(xiàn):模型坍塌(model collapse)。當(dāng)模型反復(fù)在自身生成的數(shù)據(jù)上迭代訓(xùn)練時(shí),可能導(dǎo)致分布逐漸收縮,數(shù)據(jù)多樣性下降,從而影響模型性能與泛化能力。

  • 在實(shí)際應(yīng)用中,如何在數(shù)據(jù)效用與隱私保護(hù)之間取得平衡,仍然是一個(gè)長期存在的問題,即所謂的數(shù)據(jù)效用與隱私保護(hù)的權(quán)衡(utility–privacy tradeoff)。過強(qiáng)的隱私約束可能降低數(shù)據(jù)可用性,而過高的數(shù)據(jù)保真度又可能帶來潛在的隱私泄露風(fēng)險(xiǎn)。

  • 當(dāng)合成數(shù)據(jù)被用于模型評(píng)測時(shí),還可能引入新的偏差來源。例如,生成-評(píng)測偏差(generation–evaluation bias)指的是模型在由相似生成機(jī)制產(chǎn)生的測試數(shù)據(jù)上表現(xiàn)更優(yōu),從而導(dǎo)致評(píng)估結(jié)果失真,影響對(duì)模型真實(shí)能力的判斷。

  • 在方法層面,多個(gè)前沿方向也仍有待探索。例如,主動(dòng)式數(shù)據(jù)合成(active data synthesis)強(qiáng)調(diào)根據(jù)模型需求動(dòng)態(tài)生成最有價(jià)值的數(shù)據(jù),以提升數(shù)據(jù)利用效率;而多模態(tài)數(shù)據(jù)合成(multi-modal data synthesis)則關(guān)注如何生成語義一致、跨模態(tài)對(duì)齊的高質(zhì)量數(shù)據(jù),這對(duì)于多模態(tài)模型的發(fā)展尤為關(guān)鍵。

  • 最后,一個(gè)基礎(chǔ)但尚未完全解決的問題是:如何系統(tǒng)性評(píng)估合成數(shù)據(jù)的質(zhì)量。這不僅包括數(shù)據(jù)的有效性(utility)與多樣性(diversity),還涉及隱私(privacy)與安全性(security)等多個(gè)維度,目前仍缺乏統(tǒng)一且標(biāo)準(zhǔn)化的評(píng)測體系。

下圖給出了該綜述的總體整理框架,具體細(xì)節(jié)可參考原文。


這篇綜述最值得關(guān)注的地方,不只是整理了現(xiàn)有方法,更重要的是它改變了我們理解合成數(shù)據(jù)的方式: 合成數(shù)據(jù)不再只是生成模型的一個(gè)應(yīng)用方向,而正在成為連接數(shù)據(jù)、模型、評(píng)測與真實(shí)世界交互的新型基礎(chǔ)設(shè)施。

如果說過去AI的競爭核心是「誰擁有更多真實(shí)數(shù)據(jù)」,那么未來很可能會(huì)變成「誰能更高效、更安全、更可控地生成高價(jià)值數(shù)據(jù)」。

參考資料:

https://www.techrxiv.org/users/1016218/articles/1378802-synthetic-data-beyond-generative-models-a-comprehensive-survey-of-how-why-and-where

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
爆冷!終結(jié)15連勝,郭士強(qiáng)見證:山東男籃止5連敗,高詩巖太尷尬

爆冷!終結(jié)15連勝,郭士強(qiáng)見證:山東男籃止5連敗,高詩巖太尷尬

話體壇
2026-04-19 22:20:17
并未觸發(fā)賽事BOP規(guī)則,張雪機(jī)車荷蘭站收獲第4

并未觸發(fā)賽事BOP規(guī)則,張雪機(jī)車荷蘭站收獲第4

揚(yáng)子晚報(bào)
2026-04-19 08:25:51
全球九成產(chǎn)能在日本,前2月中國一滴未買,若斷供,我們頂?shù)米?>
    </a>
        <h3>
      <a href=老瑗愛評(píng)論
2026-04-18 14:11:42
“給你女兒買件好內(nèi)衣吧!”中學(xué)女孩鍛煉視頻,網(wǎng)友都看不下去了

“給你女兒買件好內(nèi)衣吧!”中學(xué)女孩鍛煉視頻,網(wǎng)友都看不下去了

妍妍教育日記
2026-03-30 18:38:24
4-2!拜仁六分鐘三球上演驚天逆轉(zhuǎn),提前四輪奪得德甲聯(lián)賽冠軍

4-2!拜仁六分鐘三球上演驚天逆轉(zhuǎn),提前四輪奪得德甲聯(lián)賽冠軍

張辱鹵說體育
2026-04-20 02:22:42
黃霄云 ,油亮肉絲小白襪疊穿

黃霄云 ,油亮肉絲小白襪疊穿

阿廢冷眼觀察所
2026-04-19 21:54:37
Opta超級(jí)計(jì)算機(jī)統(tǒng)計(jì)英超最新奪冠概率:阿森納73%,曼城27%

Opta超級(jí)計(jì)算機(jī)統(tǒng)計(jì)英超最新奪冠概率:阿森納73%,曼城27%

懂球帝
2026-04-20 02:30:55
美國缺化肥了!救急只能找中國,如果中國說“不”,美國會(huì)怎樣?

美國缺化肥了!救急只能找中國,如果中國說“不”,美國會(huì)怎樣?

人間無味啊
2026-04-17 02:21:21
慘不忍睹!中東戰(zhàn)事加速日本衰落,日系車損失慘重,噩夢(mèng)才剛開始

慘不忍睹!中東戰(zhàn)事加速日本衰落,日系車損失慘重,噩夢(mèng)才剛開始

人類的關(guān)注
2026-04-13 22:06:10
歷經(jīng)27年艱難談判,中國最終做出讓步,中吉烏鐵路為何非修不可?

歷經(jīng)27年艱難談判,中國最終做出讓步,中吉烏鐵路為何非修不可?

霽寒飄雪
2026-04-18 09:35:22
革命衛(wèi)隊(duì)與伊朗政府矛盾公開化,伊朗內(nèi)部分裂愈演愈烈

革命衛(wèi)隊(duì)與伊朗政府矛盾公開化,伊朗內(nèi)部分裂愈演愈烈

修明札記
2026-04-19 11:47:24
張婉婷直播對(duì)齊溪開火那幾句話信息量炸了!齊溪七年不生另有隱情

張婉婷直播對(duì)齊溪開火那幾句話信息量炸了!齊溪七年不生另有隱情

小娛樂悠悠
2026-04-17 11:38:27
曝孫楊強(qiáng)勢逼妻子道歉,妻子崩潰大哭,朱丹吐槽,孫丞瀟被嚇傻

曝孫楊強(qiáng)勢逼妻子道歉,妻子崩潰大哭,朱丹吐槽,孫丞瀟被嚇傻

王觪曉
2026-04-17 15:01:17
上海連續(xù)5天雨!140年來最強(qiáng)厄爾尼諾,今年沖擊高溫極限?權(quán)威回應(yīng)

上海連續(xù)5天雨!140年來最強(qiáng)厄爾尼諾,今年沖擊高溫極限?權(quán)威回應(yīng)

新民晚報(bào)
2026-04-19 19:55:16
鎖定降級(jí)!海牛剛看到一絲希望,就收到國際足聯(lián)處罰,保級(jí)懸了

鎖定降級(jí)!海牛剛看到一絲希望,就收到國際足聯(lián)處罰,保級(jí)懸了

體壇風(fēng)之子
2026-04-19 17:43:12
麥當(dāng)娜的風(fēng)流往事:他的欲望太強(qiáng),讓她疲憊不堪又欲罷不能

麥當(dāng)娜的風(fēng)流往事:他的欲望太強(qiáng),讓她疲憊不堪又欲罷不能

錢小刀娛樂
2026-04-17 11:24:32
湖南省綏寧縣副縣長陵建華被查

湖南省綏寧縣副縣長陵建華被查

三湘都市報(bào)
2026-04-16 17:32:25
調(diào)查發(fā)現(xiàn):每天都走路的人,大多到了75歲后,身體或有5種變化

調(diào)查發(fā)現(xiàn):每天都走路的人,大多到了75歲后,身體或有5種變化

白話電影院
2026-04-07 13:28:35
破防!雷軍15小時(shí)京滬續(xù)航自證清白,懇求全網(wǎng)幫幫小米

破防!雷軍15小時(shí)京滬續(xù)航自證清白,懇求全網(wǎng)幫幫小米

雷科技
2026-04-18 12:38:28
伊朗確認(rèn)將參加2026年美加墨世界杯

伊朗確認(rèn)將參加2026年美加墨世界杯

界面新聞
2026-04-19 22:44:47
2026-04-20 07:08:51
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
15012文章數(shù) 66787關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

游戲
親子
健康
家居
軍事航空

"二次元GTA"直播爆了:疑似貼臉嘲諷其他二游!

親子要聞

孩子總打噴嚏、起疹子,時(shí)過敏嗎?

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

家居要聞

法式線條 時(shí)光靜淌

軍事要聞

伊朗逼退美掃雷艇:美方求給15分鐘撤退

無障礙瀏覽 進(jìn)入關(guān)懷版