国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

會(huì)「進(jìn)化」的合成數(shù)據(jù)!無(wú)需上傳隱私,也能生成高質(zhì)量垂域數(shù)據(jù)

0
分享至



張劍清是一名上海交通大學(xué)在讀博士生,獲中國(guó)人工智能學(xué)會(huì)「青托」、吳文俊人工智能榮譽(yù)博士及國(guó)家獎(jiǎng)學(xué)金。在代碼大模型、合成數(shù)據(jù)集進(jìn)化生成、聯(lián)邦學(xué)習(xí)與推薦系統(tǒng)方向取得系列成果,主要關(guān)注其中的垂域自適應(yīng)、模型融合、模型個(gè)性化主題,于JMLR、NeurIPS、ICML、CVPR、KDD、ICCV、AAAI等發(fā)表9篇CCF-A一作論文,主導(dǎo)并開(kāi)源了PFLlib、HtFLlib、EvolveGen等項(xiàng)目,曾在字節(jié)跳動(dòng)、清華AIR、KAUST、騰訊等機(jī)構(gòu)實(shí)習(xí)交流。

數(shù)據(jù)短缺問(wèn)題隨著大模型的高速發(fā)展,日益加劇。已經(jīng)有不少 Nature 論文指出,預(yù)計(jì)到 2028 年,公共數(shù)據(jù)的產(chǎn)生速度將因趕不上大模型訓(xùn)練的消耗速度而被耗盡。而在某些特殊領(lǐng)域,比如醫(yī)療、工業(yè)制造等,原本可用數(shù)據(jù)就非常少,數(shù)據(jù)短缺的問(wèn)題更嚴(yán)重。

為了解決這一困境,我們提出了合成數(shù)據(jù)自主進(jìn)化框架 PCEvolve:只需提供少量標(biāo)注樣本,就可在保護(hù)隱私同時(shí)進(jìn)化出一整個(gè)數(shù)據(jù)集。PCEvolve 的進(jìn)化過(guò)程類(lèi)似 DeepMind 提出的 FunSearch 和 AlphaEvolve。



  • 論文標(biāo)題:PCEvolve: Private Contrastive Evolution for Synthetic Dataset Generation via Few-Shot Private Data and Generative APIs
  • 論文鏈接:https://www.arxiv.org/abs/2506.05407
  • 開(kāi)源代碼:https://github.com/TsingZ0/PCEvolve
  • 進(jìn)化生成開(kāi)源平臺(tái):https://github.com/TsingZ0/EvolveGen

現(xiàn)有大模型 API 并不能拿來(lái)直接合成垂域數(shù)據(jù)

垂直領(lǐng)域的中小企業(yè)普遍不具備訓(xùn)練私有大模型的能力,而傾向于使用現(xiàn)成的大模型 API(下文簡(jiǎn)稱(chēng)「大模型」)。人造合成數(shù)據(jù)是目前解決數(shù)據(jù)短缺問(wèn)題所采用的主流方法:讓已有大模型生成數(shù)據(jù),再進(jìn)行篩選、標(biāo)注、清洗等步驟,得到高質(zhì)量訓(xùn)練數(shù)據(jù)。

然而,當(dāng)應(yīng)用到垂直領(lǐng)域,如醫(yī)療、工業(yè)制造等領(lǐng)域,大模型雖然能夠根據(jù) prompt 生成對(duì)應(yīng)的數(shù)據(jù),但滿足「語(yǔ)義匹配」的數(shù)據(jù),并不能直接拿來(lái)作為垂直領(lǐng)域數(shù)據(jù)使用。這是因?yàn)椋捍怪鳖I(lǐng)域的數(shù)據(jù)還有各種其他特性信息,比如光照、數(shù)據(jù)采樣設(shè)備型號(hào)、隱私信息、上下文等。

舉例來(lái)說(shuō),皮革在不同環(huán)境、材質(zhì)、磨損程度等方面,都具備太多細(xì)節(jié)信息,而提供給大模型的 prompt 很難完整描述;即便完整描述,大模型也不能完全生成符合 prompt 的數(shù)據(jù),因?yàn)榇竽P捅旧磉€無(wú)法完全模擬世界。

如下圖所示,大模型生成的數(shù)據(jù),和垂域攝像機(jī)拍攝的數(shù)據(jù),具有巨大的差距,雖然標(biāo)簽都是「帶有膠水殘留的皮革」。同樣的,在文本領(lǐng)域,讓現(xiàn)成的大模型生成的 code snippet 數(shù)據(jù),也無(wú)法與某公司內(nèi)部開(kāi)發(fā)人員的代碼習(xí)慣和代碼規(guī)范相匹配。而且,這一垂域數(shù)據(jù)特征分布差異的問(wèn)題,在任意模態(tài)都存在。



【圖 1】左邊為大模型生成,右邊為實(shí)際采集。在工業(yè)制造皮革領(lǐng)域,大模型生成圖片和實(shí)際采集圖片的對(duì)比

同時(shí),因?yàn)榇褂驍?shù)據(jù)可能因?yàn)橹R(shí)產(chǎn)權(quán)、隱私保護(hù)、行業(yè)規(guī)范等原因,本地?cái)?shù)據(jù)不允許上傳給大模型作 context,極大地增加了 prompt 工程的難度、降低了合成數(shù)據(jù)的質(zhì)量。比如,公司內(nèi)部的代碼不能上傳、醫(yī)院的病人數(shù)據(jù)不能上傳、企業(yè)的次品樣品數(shù)據(jù)不能上傳等等。

PCEvolve:保護(hù)隱私的合成數(shù)據(jù)進(jìn)化框架

垂域數(shù)據(jù)除了不能上傳之外,還具有本身就稀少的特性,導(dǎo)致帶標(biāo)注的垂域樣本原本就少。這使得其他要求提供大量標(biāo)注樣本的方法(如 PE 等),不再可用。因?yàn)?PE 等方法在垂域情況下,為了保護(hù)隱私所加的噪聲過(guò)大,使其方法退化為一種隨機(jī)方法。而我們的 PCEvolve 在進(jìn)化過(guò)程中設(shè)計(jì)了一種基于「指數(shù)機(jī)制」(Exponential Mechanism)的新的隱私保護(hù)方法,適配垂域場(chǎng)景的少樣本情況。

下圖是 PCEvolve 的架構(gòu)圖,左邊是迭代進(jìn)化框架:類(lèi)似達(dá)爾文進(jìn)化論,先讓大模型 API 生成較大數(shù)量的候選合成數(shù)據(jù)(種群),再經(jīng)過(guò)【選擇器】(自然選擇)進(jìn)行淘汰,最后將不帶隱私信息的優(yōu)質(zhì)合成數(shù)據(jù)返回給大模型進(jìn)行下一輪進(jìn)化。右邊則是進(jìn)化框架的「引擎」【選擇器】的詳細(xì)設(shè)計(jì):以隱私數(shù)據(jù)作為參考(verifier)給合成數(shù)據(jù)打分(reward),最后根據(jù)分?jǐn)?shù)優(yōu)勝劣汰;其中打分過(guò)程,因?yàn)橛玫搅穗[私數(shù)據(jù),需要作隱私保護(hù)。



【圖 2】PCEvolve 架構(gòu)圖

PCEvolve 選擇器詳細(xì)設(shè)計(jì)

首先我們先聲明:下面所有的操作都需要考慮隱私保護(hù),我們采用的是差分隱私(Differential Privacy, DP),并通過(guò)指數(shù)機(jī)制來(lái)實(shí)現(xiàn) DP,其中指數(shù)機(jī)制定義為:



















  • 執(zhí)行指數(shù)機(jī)制選擇存活樣本因?yàn)樵谖覀兊木脑O(shè)計(jì)下,使得指數(shù)機(jī)制得以滿足,DP 得以保證。所以這一步變得簡(jiǎn)單:我們只需要執(zhí)行指數(shù)機(jī)制定義的概率采樣,即可得到帶有隱私保護(hù)的高質(zhì)量合成數(shù)據(jù)選擇結(jié)果。

在醫(yī)療場(chǎng)景和工業(yè)制造場(chǎng)景的實(shí)驗(yàn)結(jié)果

我們主要通過(guò)兩種方式驗(yàn)證 PCEvolve 的效果:a) 合成的數(shù)據(jù)對(duì)于下游模型訓(xùn)練的增幅,b) 合成數(shù)據(jù)本身的質(zhì)量。

a) 合成的數(shù)據(jù)對(duì)于下游模型訓(xùn)練的增幅

我們?cè)u(píng)估了 PCEvolve 在COVIDx(COVID-19 胸部 X 線圖像)、Came17(乳腺癌轉(zhuǎn)移的腫瘤組織切片)、KVASIR-f(用于胃腸道異常檢測(cè)的內(nèi)鏡圖像)、MVAD-l(用于異常檢測(cè)的皮革表面)上的表現(xiàn),這里大模型方面我們只需提供 API 即可。



【表 1】在四個(gè)特殊領(lǐng)域數(shù)據(jù)集上的精度(%)

b) 合成數(shù)據(jù)本身的質(zhì)量

下圖是我們采樣的皮革表面數(shù)據(jù),這三行分別代表正常皮革、有切割缺陷的皮革、有膠水殘留缺陷的皮革?!窱nitial」表示大模型 API 合成的圖像(進(jìn)化之前);「Private」表示垂域場(chǎng)景真實(shí)采集的隱私皮革表面數(shù)據(jù)。



【圖 3】皮革表面圖像數(shù)據(jù)。

其他更多實(shí)驗(yàn)詳見(jiàn)論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1970年,謝富治阻撓少將升官,主席掐滅煙頭問(wèn)了一句,全場(chǎng)沒(méi)人敢接茬

1970年,謝富治阻撓少將升官,主席掐滅煙頭問(wèn)了一句,全場(chǎng)沒(méi)人敢接茬

史海殘?jiān)?/span>
2025-12-11 16:19:09
今晚開(kāi)播!又一30集黑馬大劇來(lái)襲,演員陣容不錯(cuò),想不火都難

今晚開(kāi)播!又一30集黑馬大劇來(lái)襲,演員陣容不錯(cuò),想不火都難

糖寶影視w
2025-12-20 13:22:14
廣東宏遠(yuǎn)VS青島男籃!杜鋒拒絕輸球,麥考爾上演首秀,央視直播

廣東宏遠(yuǎn)VS青島男籃!杜鋒拒絕輸球,麥考爾上演首秀,央視直播

體壇瞎白話
2025-12-20 11:10:45
41歲戚薇骨瘦如柴不長(zhǎng)肉!一家四口度假被偶遇,Lucky長(zhǎng)大變了樣

41歲戚薇骨瘦如柴不長(zhǎng)肉!一家四口度假被偶遇,Lucky長(zhǎng)大變了樣

文刀貳
2025-12-20 22:27:38
黑色幽默!電詐園區(qū)辦公室中文標(biāo)語(yǔ),簡(jiǎn)直是天大的諷刺

黑色幽默!電詐園區(qū)辦公室中文標(biāo)語(yǔ),簡(jiǎn)直是天大的諷刺

麥大人
2025-11-06 08:32:30
拿300萬(wàn)!0分2分+3場(chǎng)12犯規(guī),廣東揪出最大軟蛋,杜鋒自作自受?

拿300萬(wàn)!0分2分+3場(chǎng)12犯規(guī),廣東揪出最大軟蛋,杜鋒自作自受?

南海浪花
2025-12-20 08:09:59
倒反天罡!日本明治天皇玄孫發(fā)文稱(chēng)世界上最野蠻的國(guó)家是中國(guó)

倒反天罡!日本明治天皇玄孫發(fā)文稱(chēng)世界上最野蠻的國(guó)家是中國(guó)

我心縱橫天地間
2025-12-17 14:35:24
羅永浩炮轟上海電信后終于理解為何運(yùn)營(yíng)商要喜歡光貓撥號(hào)了

羅永浩炮轟上海電信后終于理解為何運(yùn)營(yíng)商要喜歡光貓撥號(hào)了

阿纂看事
2025-12-20 10:45:48
越南首條高鐵正式開(kāi)工,棄用中國(guó)技術(shù),選用德國(guó)方案引熱議

越南首條高鐵正式開(kāi)工,棄用中國(guó)技術(shù),選用德國(guó)方案引熱議

虎哥閑聊
2025-12-20 09:33:34
每日一笑:上班的時(shí)候不要看,容易被老板發(fā)現(xiàn),哈哈哈!

每日一笑:上班的時(shí)候不要看,容易被老板發(fā)現(xiàn),哈哈哈!

夜深?lèi)?ài)雜談
2025-12-20 16:58:46
房東被沒(méi)收財(cái)產(chǎn),柳州市河?xùn)|一套江景房拍賣(mài),被人撿漏117萬(wàn)競(jìng)得

房東被沒(méi)收財(cái)產(chǎn),柳州市河?xùn)|一套江景房拍賣(mài),被人撿漏117萬(wàn)競(jìng)得

天天話事
2025-12-19 16:42:33
哈佛大學(xué)驚人發(fā)現(xiàn):世界上最健康長(zhǎng)壽的運(yùn)動(dòng),竟然簡(jiǎn)單到一學(xué)就會(huì)

哈佛大學(xué)驚人發(fā)現(xiàn):世界上最健康長(zhǎng)壽的運(yùn)動(dòng),竟然簡(jiǎn)單到一學(xué)就會(huì)

原來(lái)仙女不講理
2025-12-17 17:16:38
拆遷款1700萬(wàn),我剛想辭職,老爸:財(cái)不外說(shuō),先上班再裝病離職

拆遷款1700萬(wàn),我剛想辭職,老爸:財(cái)不外說(shuō),先上班再裝病離職

罪案洞察者
2025-11-27 10:48:33
哪一刻意識(shí)到自己沒(méi)見(jiàn)過(guò)世面?網(wǎng)友:從此再?zèng)]喝過(guò)茶

哪一刻意識(shí)到自己沒(méi)見(jiàn)過(guò)世面?網(wǎng)友:從此再?zèng)]喝過(guò)茶

另子維愛(ài)讀史
2025-12-13 21:53:50
“跳梁小丑”李玉剛跌落神壇,不再被世界寬容,他究竟做了什么

“跳梁小丑”李玉剛跌落神壇,不再被世界寬容,他究竟做了什么

小熊侃史
2025-12-19 11:03:12
26歲妻子猥褻12歲侄子,丈夫:希望追究她的刑事責(zé)任

26歲妻子猥褻12歲侄子,丈夫:希望追究她的刑事責(zé)任

揚(yáng)子晚報(bào)
2025-12-20 10:17:28
連場(chǎng)轟20+!中國(guó)女籃26歲2米王牌閃耀:升聯(lián)盟第2,宮帥招她嗎?

連場(chǎng)轟20+!中國(guó)女籃26歲2米王牌閃耀:升聯(lián)盟第2,宮帥招她嗎?

李喜林籃球絕殺
2025-12-20 16:09:28
給《老舅》演技最好10位演員排個(gè)名:郭京飛僅第2,第1沒(méi)有爭(zhēng)議

給《老舅》演技最好10位演員排個(gè)名:郭京飛僅第2,第1沒(méi)有爭(zhēng)議

小丸子的娛樂(lè)圈
2025-12-20 17:25:37
童瑤胸貼露出來(lái)了

童瑤胸貼露出來(lái)了

手工制作阿殲
2025-12-15 12:20:21
每天散步能降血糖?哈工大發(fā)現(xiàn):控糖有7個(gè)"最好方法",不是散步

每天散步能降血糖?哈工大發(fā)現(xiàn):控糖有7個(gè)"最好方法",不是散步

健康之光
2025-12-19 15:50:06
2025-12-21 01:07:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
11957文章數(shù) 142515關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來(lái)

頭條要聞

印度官員:若"臺(tái)灣有事" 印度不太可能像西方那樣回應(yīng)

頭條要聞

印度官員:若"臺(tái)灣有事" 印度不太可能像西方那樣回應(yīng)

體育要聞

我開(kāi)了20年大巴,現(xiàn)在是一名西甲主帥

娛樂(lè)要聞

2026央視跨年晚會(huì)陣容曝光,豪華陣仗

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車(chē)要聞

嵐圖推進(jìn)L3量產(chǎn)測(cè)試 已完成11萬(wàn)公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

游戲
親子
時(shí)尚
公開(kāi)課
軍事航空

新勞拉·克勞馥演員回憶《完美黑暗》項(xiàng)目取消經(jīng)歷

親子要聞

邊牧和德牧帶娃在外面挖坑,三個(gè)小朋友加起來(lái)800個(gè)心眼子!

最顯腿細(xì)的騎士靴,誰(shuí)穿誰(shuí)是腿精

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

澤連斯基:前線局勢(shì)愈發(fā)艱難

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版