国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

10K數(shù)據(jù)打敗1M,北大開源LLM數(shù)據(jù)準(zhǔn)備系統(tǒng)DataFlow

0
分享至

“數(shù)據(jù)量越大,模型越好”這條鐵律,正在悄悄失效。

當(dāng) GPT-4 把 1.2 T token 啃到吐、當(dāng) MoE 模型把 20 萬億參數(shù)卷到飛起,大家突然發(fā)現(xiàn):真正卡脖子的不是算力,也不是參數(shù),而是——高質(zhì)量數(shù)據(jù)從哪兒來?

近期,北大聯(lián)合多個團隊給出一套新答案:DataFlow —— 一個把 LLM“數(shù)據(jù)準(zhǔn)備”做成流水線的系統(tǒng)。



論文標(biāo)題: DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI 論文鏈接:( of the Hugging Face daily paper) https://arxiv.org/abs/2512.16676 倉庫鏈接:(2k star) https://github.com/OpenDCAI/DataFlow/
一、研究動機:數(shù)據(jù)準(zhǔn)備的“三宗罪”
  1. 繁瑣腳本:做預(yù)訓(xùn)練要寫 20 個去重腳本,做 SFT 再寫 15 個清洗腳本,每條管線都要“重造輪子”。

  2. 復(fù)現(xiàn)黑洞:論文里一句“我們采用公開數(shù)據(jù)”背后,可能是 100 行未公開預(yù)處理代碼,別人永遠(yuǎn)跑不出那條曲線。

  3. 人力天花板:指令微調(diào)、思維鏈、工具調(diào)用……任務(wù)越精,越依賴昂貴的人類標(biāo)注。一旦場景冷門(如罕見病問診、多跳法律推理),直接“無標(biāo)可用”。

行業(yè)急需一套“像 PyTorch 搭模型一樣搭數(shù)據(jù)”的工業(yè)級框架——DataFlow 因此誕生。

二、方法:把“數(shù)據(jù)工程”拆成 200 塊積木 2.1 核心抽象:存儲 / 算子 / 模板 / 管線 四層 API

層級

類比 PyTorch

DataFlow 對應(yīng)

作用

存儲

tensor

DataFlowStorage

統(tǒng)一表格視圖,屏蔽 JSON/Parquet/SQL 差異

算子

nn.Module

BaseOperator

單步變換,支持 LLM 驅(qū)動或規(guī)則驅(qū)動

模板

nn.Parameter

PromptTemplate

把 prompt 做成可復(fù)用、可插拔的“零件”

管線

nn.Sequential

PipelineABC

用 PyTorch 風(fēng)格 forward() 組裝算子

任何數(shù)據(jù)準(zhǔn)備流程,都能被拆成“讀→transform→寫”三段,然后像搭積木一樣重新組合。

2.2 算子分類:近 200 個官方算子

功能

命名后綴

例子

典型用途

生成

Generator

MathProblemGenerator

從 0 到 1 合成新樣本

評估

Evaluator

CodeExecutionEvaluator

給樣本打質(zhì)量分

過濾

Filter

ToxicityFilter

按分?jǐn)?shù)/規(guī)則剪枝

精煉

Refiner

CoTRefiner

不改樣本數(shù),只改字段內(nèi)容

所有算子共享同一套“鍵值契約”,無需改代碼,就能把數(shù)學(xué)算子直接復(fù)用到代碼領(lǐng)域,只需換 prompt 模板。

2.3 DataFlow-Agent

不想寫代碼?直接甩給 Agent 一句話:

“我有一份 CSV 包含股票新聞,幫我生成 5 K 條 Text-to-SQL 樣本,要帶 CoT 推理,難度分三級?!?/blockquote>

Agent 內(nèi)部基于 LangGraph 多智能體協(xié)作:

① 意圖拆解 → ② 算子檢索 → ③ 缺失算子合成 → ④ 拓?fù)渑判?→ ⑤ 沙箱驗證 → ⑥ 輸出可執(zhí)行 Python 文件。

平均 80 s 產(chǎn)出一條可用管線,人類只需做最后 5% 的微調(diào)。

三、實驗:10 K 如何打贏 1 M?

DataFlow 在 文本、數(shù)學(xué)推理、代碼、Text-to-SQL、Agentic RAG、知識抽取 等關(guān)鍵場景中進行了系統(tǒng)實驗,結(jié)果一致表明:用 DataFlow 生成的數(shù)據(jù)訓(xùn)練模型,性能全面超越現(xiàn)有主流基線,包括人工標(biāo)注數(shù)據(jù)和大規(guī)模合成數(shù)據(jù)集。

3.1 數(shù)學(xué)推理:+3 分輕松拿捏

  • 在 MATH、GSM8K、AIME 等高難度數(shù)學(xué)基準(zhǔn)上,DataFlow 合成的 10K 數(shù)據(jù),比 Open-R1、Synthetic-1 等 SOTA 合成數(shù)據(jù)高出 1–3 個百分點。

  • 僅用 10K 樣本 fine-tune Qwen2.5-32B,2 個 epoch 就達到 55.7 平均分,超越所有對比方法。

3.2 代碼生成:平均提升 +7%
  • 在 HumanEval、LiveCodeBench 等四大代碼評測中,DataFlow 生成的指令數(shù)據(jù)帶來 7% 以上的平均性能提升。

  • 即使只用 1K 樣本,也已優(yōu)于 Code Alpaca 和帶執(zhí)行過濾的 Self-OSS 數(shù)據(jù)集。

3.3 Text-to-SQL:小數(shù)據(jù),大勝出
  • 用 不到 9 萬條 DataFlow 生成的 Text-to-SQL 數(shù)據(jù)訓(xùn)練 Qwen2.5-Coder-7B,在 EHRSQL 上執(zhí)行準(zhǔn)確率暴漲 31.8%(24.3 → 56.1)!

  • 僅用 5 萬條,就超越 SynSQL(50K);9 萬條性能媲美 SynSQL 的 250 萬條,數(shù)據(jù)效率提升近 30 倍!

3.4 多跳問答(Agentic RAG):合成數(shù)據(jù)干翻人工標(biāo)注
  • 在 HotpotQA、Musique 等多跳 QA 任務(wù)上,完全由 LLM 合成的 DataFlow-AgenticRAG-10K,在跨數(shù)據(jù)集泛化(OOD)上 全面匹敵甚至超越人工構(gòu)建的數(shù)據(jù)集。

  • 在 2Wiki 和 Musique 排除本域測試后,分別高出 2.6 和 1.2 個百分點。

3.5 醫(yī)療知識抽取:SFT > RAG + CoT
  • 在 PubMedQA、Covert 等醫(yī)療 QA 任務(wù)中,用 DataFlow 清洗+合成的醫(yī)學(xué) QA 對訓(xùn)練模型,比零樣本 CoT 提升 15–20 個點,比 RAG 提升 10–50 個點。

  • 證明:結(jié)構(gòu)化高質(zhì)量合成數(shù)據(jù) > 復(fù)雜推理提示 + 外部檢索。

四、結(jié)語:DataFlow 給社區(qū)留下了什么? 4.1 三大貢獻
  • 系統(tǒng)層面——首個把“數(shù)據(jù)準(zhǔn)備”抽象為可復(fù)用、可組合、可調(diào)試的通用框架,像搭模型一樣搭管線

  • 算法層面——提出“生成-評估-過濾-精煉”四段式范式,讓合成數(shù)據(jù)從‘能用’走向‘好用’

  • 社區(qū)層面——開源 200 算子 + 10 K 高質(zhì)量多域數(shù)據(jù)集 + CLI 腳手架,把“數(shù)據(jù)黑箱”變成人人可 PR 的玩具積木

4.2 未來展望
  • 模態(tài)擴充:DataFlow-Agent、DataFlex、DataFlow-MM等系列工具已在路上,下一站把表格、圖結(jié)構(gòu)、圖文混排一起“流水線”。

  • 領(lǐng)域深耕:DataFlow-AI4S(科學(xué)計算)、DataFlow-Industry(工業(yè)制造)預(yù)研啟動,讓合成數(shù)據(jù)走進反應(yīng)堆、走進晶圓廠

如果說過去三年,大模型的“摩爾定律”發(fā)生在參數(shù)維度;那么接下來的三年,“數(shù)據(jù)摩爾定律”將由 DataFlow 這樣的框架來書寫—— 更少的數(shù)據(jù)、更高的質(zhì)量、更快的迭代、人人可復(fù)現(xiàn)。

歡迎大家關(guān)注使用DCAI的開源項目并與我們進行技術(shù)交流,如果覺得好用也請幫GitHub倉庫點一個star~ 論文鏈接: https://arxiv.org/abs/2512.16676 ( of the Hugging Face daily paper) 倉庫鏈接: https://github.com/OpenDCAI/DataFlow/ (2k star)

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計劃


TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。


投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
經(jīng)濟日報發(fā)布!穩(wěn)住股市!A股,突破10年高點沒有懸念了

經(jīng)濟日報發(fā)布!穩(wěn)住股市!A股,突破10年高點沒有懸念了

郭小凡財經(jīng)
2026-03-13 11:23:09
天生一張娃娃臉都已經(jīng)46了,你敢想

天生一張娃娃臉都已經(jīng)46了,你敢想

天氣觀察站
2026-03-13 16:15:36
魯山舅舅偽造亡母結(jié)婚證侵吞遺產(chǎn)案最新進展:五大噩耗接踵而至

魯山舅舅偽造亡母結(jié)婚證侵吞遺產(chǎn)案最新進展:五大噩耗接踵而至

老貓觀點
2026-03-12 08:11:36
向佐踢主持人后續(xù)!百克力回應(yīng),確實有不爽,曝對方私下真實人品

向佐踢主持人后續(xù)!百克力回應(yīng),確實有不爽,曝對方私下真實人品

娛說瑜悅
2026-03-12 12:56:30
成都一對情侶吃完火鍋,掃碼付了280,到家發(fā)現(xiàn)沒扣,又回了店里

成都一對情侶吃完火鍋,掃碼付了280,到家發(fā)現(xiàn)沒扣,又回了店里

觀察鑒娛
2026-03-12 09:49:27
當(dāng)梅洛尼都認(rèn)為這是屠殺的時候

當(dāng)梅洛尼都認(rèn)為這是屠殺的時候

新民周刊
2026-03-13 09:08:44
重要賽事!3月13日晚19:00!中央5套CCTV5、CCTV5+直播節(jié)目表

重要賽事!3月13日晚19:00!中央5套CCTV5、CCTV5+直播節(jié)目表

皮皮觀天下
2026-03-13 11:44:38
車主開蔚來ES6五年行駛里程一百萬公里!李斌回應(yīng):平均每天500公里 太牛了

車主開蔚來ES6五年行駛里程一百萬公里!李斌回應(yīng):平均每天500公里 太牛了

快科技
2026-03-12 09:27:24
東莞市公安局原黨委委員、副局長肖漢華嚴(yán)重違紀(jì)違法被開除黨籍和公職

東莞市公安局原黨委委員、副局長肖漢華嚴(yán)重違紀(jì)違法被開除黨籍和公職

瀟湘晨報
2026-03-13 15:38:10
北京銀行要甩的雷,可不止富力地產(chǎn)這一顆

北京銀行要甩的雷,可不止富力地產(chǎn)這一顆

源媒匯
2026-03-13 14:28:25
震驚!一網(wǎng)友稱到40多歲玩膩了,出去花錢也沒爽點,內(nèi)心一潭死水

震驚!一網(wǎng)友稱到40多歲玩膩了,出去花錢也沒爽點,內(nèi)心一潭死水

火山詩話
2026-03-12 07:06:51
悲哀!老兩口先后去世,兒女迅速賣房,鄰居感慨他們快速徹底消失

悲哀!老兩口先后去世,兒女迅速賣房,鄰居感慨他們快速徹底消失

火山詩話
2026-03-13 06:36:11
刷爆紀(jì)錄!約基奇31+20+12連續(xù)3場三雙 190次三雙歷史第二人

刷爆紀(jì)錄!約基奇31+20+12連續(xù)3場三雙 190次三雙歷史第二人

醉臥浮生
2026-03-13 11:36:44
70歲方青卓近況曝光!為報恩再婚嫁小4歲丈夫,如今生活很幸福

70歲方青卓近況曝光!為報恩再婚嫁小4歲丈夫,如今生活很幸福

代軍哥哥談娛樂
2026-03-12 10:59:13
杰倫格林轟36分取四連勝!火箭全明星中鋒成笑話,休媒狂噴烏度卡

杰倫格林轟36分取四連勝!火箭全明星中鋒成笑話,休媒狂噴烏度卡

籃球看比賽
2026-03-13 12:17:58
陪朱元璋打江山的34個人,朱元璋殺了30個,為何卻不敢動這4人?

陪朱元璋打江山的34個人,朱元璋殺了30個,為何卻不敢動這4人?

銘記歷史呀
2026-03-12 16:10:52
央視怒批!“絕望的文盲”丟臉到國外,馮遠(yuǎn)征的話終于有人信了

央視怒批!“絕望的文盲”丟臉到國外,馮遠(yuǎn)征的話終于有人信了

人間無味啊
2026-03-13 03:17:17
14年過去了,再看“癩蛤蟆吃到天鵝肉”的王大治,如今怎么樣了?

14年過去了,再看“癩蛤蟆吃到天鵝肉”的王大治,如今怎么樣了?

以茶帶書
2026-03-12 18:13:51
夢碎IPO,明星電商倒閉了

夢碎IPO,明星電商倒閉了

投資家
2026-03-12 21:21:34
今天18點,亞洲杯誕生首個4強!中國女足傳來2個好消息,晉級穩(wěn)了

今天18點,亞洲杯誕生首個4強!中國女足傳來2個好消息,晉級穩(wěn)了

侃球熊弟
2026-03-13 05:05:03
2026-03-13 19:12:49
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

龍蝦熱卷到AI硬件 “無腦”硬件或被淘汰

頭條要聞

47歲男子娶82歲老太 還硬塞1000元和20個雞蛋當(dāng)彩禮

頭條要聞

47歲男子娶82歲老太 還硬塞1000元和20個雞蛋當(dāng)彩禮

體育要聞

叕戰(zhàn)奧運,張雨霏要做回“小將”

娛樂要聞

小S復(fù)工錄制 感謝賈永婕陪大S走到最后

財經(jīng)要聞

2月M2同增9% 前兩個月存款增加9.26萬億

汽車要聞

大眾汽車與小鵬首款聯(lián)合開發(fā)車型與眾08正式量產(chǎn)

態(tài)度原創(chuàng)

教育
手機
親子
時尚
房產(chǎn)

教育要聞

軍校報考核心真相:別只看分?jǐn)?shù)!軍種選對,人生少走 10 年彎路!#軍校##志愿填報##新學(xué)期超給力#...

手機要聞

別吹“顛覆折疊屏”了!iPhone Fold藏著蘋果最狠的算計

親子要聞

萌娃考試得零分被叫家長,為何他的媽媽如此開心?

直播|| 最近超愛的兩只包,好用到天天背

房產(chǎn)要聞

不容易??!??诮K于又要賣地了!

無障礙瀏覽 進入關(guān)懷版