国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenDataArena升級版正式上線,四大核心模塊重構(gòu)數(shù)據(jù)價值評估

0
分享至



為破解長期以來學(xué)界與業(yè)界難以對數(shù)據(jù)進行價值量化的困局,上海人工智能實驗室(上海 AI 實驗室)OpenDataLab 團隊在今年 8 月正式開源了首個全面、公正的后訓(xùn)練數(shù)據(jù)價值評測平臺 ——OpenDataArena (ODA)。該項目致力于將數(shù)據(jù)選擇從「盲目試錯」的煉丹術(shù),轉(zhuǎn)變?yōu)橐婚T可復(fù)現(xiàn)、可分析、可累積的嚴(yán)謹科學(xué)。

在初版系統(tǒng)發(fā)布后的數(shù)月間,項目通過團隊內(nèi)部及小范圍社區(qū)用戶的深度使用,完成了高強度的技術(shù)驗證與功能打磨。伴隨著評測規(guī)模、工具鏈和分析能力的持續(xù)擴展,近期,我們終于迎來了ODA 的全面升級 —— 一個結(jié)論更系統(tǒng)、功能更完整、視角更多元的正式版本,該項目正式面向全體開發(fā)者開放。



  • 項目主頁: https://opendataarena.github.io/
  • 開源工具: https://github.com/OpenDataArena/OpenDataArena-Tool
  • 數(shù)據(jù)集: https://huggingface.co/OpenDataArena/datasets
  • 報告鏈接:https://arxiv.org/pdf/2512.14051

ODA 的核心理念非常明確:數(shù)據(jù)價值必須通過真實的訓(xùn)練來檢驗,而非主觀的臆測。為此,我們立足于全新發(fā)布的正式版本,對平臺進行了體系化的深度重構(gòu),由四個相互支撐的核心模塊組成了這套完整的數(shù)據(jù)評測基礎(chǔ)設(shè)施。這標(biāo)志著 ODA 已經(jīng)從最初的功能驗證階段,發(fā)展成為可以對數(shù)據(jù)價值進行系統(tǒng)化評測的重要平臺。



一、數(shù)據(jù)價值排行榜


首先,ODA 項目打造了數(shù)據(jù)價值排行榜。通過構(gòu)建一套統(tǒng)一的訓(xùn)練與評測流程,讓數(shù)據(jù)在固定的模型規(guī)模(如 Llama3、Qwen2/3 7-8B)和訓(xùn)練配置下,對來自不同領(lǐng)域的文本及多模態(tài)數(shù)據(jù)進行橫向評測。

評測覆蓋通用、數(shù)學(xué)、代碼、科學(xué)與長鏈推理等能力維度,這使得數(shù)據(jù)價值能直接通過下游任務(wù)(如數(shù)學(xué)、代碼、推理等)的實際表現(xiàn)來量化,而非主觀判斷。目前,ODA 平臺已經(jīng)從初版僅僅只有文本數(shù)據(jù)的評測,擴展到了多模態(tài)數(shù)據(jù)集的質(zhì)量評測,并以最先進的 Qwen3-VL 作為真實訓(xùn)練的基準(zhǔn)模型。



二、數(shù)據(jù)血緣探索器


其次,針對數(shù)據(jù)界常見的「近親繁殖」問題,ODA 全新發(fā)布「數(shù)據(jù)血緣探索器」。它像繪制族譜一樣,清晰地刻畫出數(shù)據(jù)集之間的繼承、混合與蒸餾關(guān)系。通過結(jié)構(gòu)化建模與可視化展示,研究者可以直觀地看到不同數(shù)據(jù)集之間的高度重疊與依賴關(guān)系,看到社區(qū)中被反復(fù)復(fù)用的核心數(shù)據(jù)源,以及更清晰的發(fā)現(xiàn)潛在的訓(xùn)練–測試污染與「近親繁殖」問題。這一能力讓「為什么某些數(shù)據(jù)集長期霸榜」不再是經(jīng)驗結(jié)論,而是可以被結(jié)構(gòu)性解釋的現(xiàn)象。



三、多維數(shù)據(jù)評分器


除了看模型結(jié)果,ODA 還從數(shù)據(jù)本體出發(fā),對數(shù)據(jù)質(zhì)量進行細粒度刻畫。ODA 提供了一個細粒度的評分框架,基于模型評估、LLM-as-a-Judge 與啟發(fā)式指標(biāo)等多種方法,從指令復(fù)雜度、響應(yīng)質(zhì)量、多樣性等維度對數(shù)據(jù)進行深度剖析,生成每份數(shù)據(jù)的專屬「體檢報告」,并已對千萬級樣本的評分結(jié)果進行開源。 這使得研究者不僅能判斷「哪份數(shù)據(jù)更有效」,還能進一步分析它為什么有效。值得一提的是,在初版的基礎(chǔ)上,ODA 多維數(shù)據(jù)評分器目前已經(jīng)擴展支持80+ 種多維度的評分器,支持用戶一鍵方便的對所需要的數(shù)據(jù)維度進行打分。



四、全開源評測工具箱




此外,為了促進社區(qū)共建,ODA 完全開源了其訓(xùn)練、評分和可視化工具,覆蓋從模型微調(diào)到結(jié)果復(fù)現(xiàn)的完整流程,以及上述精細化的數(shù)據(jù)評價打分器。ODA 工具支持用戶一鍵復(fù)現(xiàn)結(jié)果,或?qū)ψ约核接袛?shù)據(jù)進行標(biāo)準(zhǔn)化評測,實現(xiàn)真正意義上的橫向?qū)Ρ取?/p>

五、硬核發(fā)現(xiàn):那些被忽視的數(shù)據(jù)真相


在對 120 多個主流數(shù)據(jù)集進行超過 600 次訓(xùn)練和 4000 萬條數(shù)據(jù)的深度分析后,OpenDataLab 團隊得出了一系列具有指導(dǎo)意義的「硬核」結(jié)論,足以重塑業(yè)界對高質(zhì)量數(shù)據(jù)的認知 :

1. 解答質(zhì)量比問題復(fù)雜度更關(guān)鍵:實驗發(fā)現(xiàn),單純增加問題的復(fù)雜度并不能有效預(yù)測數(shù)據(jù)價值。相反,解答的長度(推理過程的充分性)與最終質(zhì)量呈強正相關(guān),這在數(shù)學(xué)和科學(xué)類任務(wù)中尤為突出。

2. 代碼數(shù)據(jù)的「異類」屬性:搞代碼模型不能照搬數(shù)學(xué)的邏輯。代碼講究簡潔精準(zhǔn),長篇大論反而會損害效果。這意味著通用的評分標(biāo)準(zhǔn)在代碼領(lǐng)域經(jīng)常失效,必須建立針對性的評估體系。

3. 開源數(shù)據(jù)「近親繁殖」嚴(yán)重:ODA 的數(shù)據(jù)血緣分析顯示,社區(qū)反復(fù)依賴的核心數(shù)據(jù)源比較有限(例如 GSM8K 被多次復(fù)用),由此造成了嚴(yán)重的數(shù)據(jù)同質(zhì)化。借助數(shù)據(jù)血緣分析,更極端的發(fā)現(xiàn)是,數(shù)據(jù)污染越來越嚴(yán)重:大量訓(xùn)練樣本直接與測試集發(fā)生重疊。

4.「少即是多」的局限性:盡管 LIMA 等研究曾宣稱少量精選數(shù)據(jù)即可成功,但 ODA 的實驗證明這極度依賴模型底座的先天能力。如果底座一般,過少的數(shù)據(jù)量會導(dǎo)致性能崩塌。真正穩(wěn)健的路徑是追求「高質(zhì)量且具規(guī)模(High-Density Volume)」 的數(shù)據(jù)配方。

5. 為什么有些數(shù)據(jù)集能霸榜?以 AM-Thinking-distilled 為代表的超大規(guī)模聚集型數(shù)據(jù)集,能夠同時在數(shù)學(xué)與代碼任務(wù)上取得明顯的優(yōu)勢,關(guān)鍵原因在于其跨領(lǐng)域融合能力。它通過遞歸方式整合了435 個數(shù)據(jù)節(jié)點,顯著提升了數(shù)據(jù)分布的多樣性與互補性。

6. 數(shù)據(jù)可以彌補底座差距:這是一個令人振奮的發(fā)現(xiàn)。即使 Llama 3.1 和 Qwen 2.5 之間存在顯著的底座分差,只要用上如 OpenThoughts3-1.2M 這樣的高質(zhì)量微調(diào)數(shù)據(jù),這個差距幾乎可以被抹平。可以說,好的數(shù)據(jù)配方真的能讓模型「逆天改命」。

未來展望


OpenDataArena 的遠景,絕不不滿足于僅僅建立一個排行榜,更致力于將數(shù)據(jù)研發(fā)從「玄學(xué)」推向可復(fù)現(xiàn)、可分析的「科學(xué)」。未來,ODA 將持續(xù)進化,探索智能體數(shù)據(jù),金融、醫(yī)療等垂直領(lǐng)域的深層價值。

在這個數(shù)據(jù)決定 AI 上限的時代,唯有手握科學(xué)的標(biāo)尺,才能精準(zhǔn)丈量每一份數(shù)據(jù)的真實「重量」。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
萊納德26+8快船逆轉(zhuǎn)活塞2連勝,科林斯25分哈登19+7+7

萊納德26+8快船逆轉(zhuǎn)活塞2連勝,科林斯25分哈登19+7+7

湖人崛起
2026-01-11 11:08:27
庫皮揚斯克俄兵投降,哈馬斯歷史翻篇

庫皮揚斯克俄兵投降,哈馬斯歷史翻篇

名人茍或
2026-01-11 17:14:51
雷軍放話:SU7已擊敗Model 3,YU7一直沒大力推廣,準(zhǔn)備發(fā)力……

雷軍放話:SU7已擊敗Model 3,YU7一直沒大力推廣,準(zhǔn)備發(fā)力……

柴狗夫斯基
2026-01-10 21:49:03
電詐“殺”到西半球:400美國人被騙2億美元,智利出動500探員抓捕,涉119家洗錢公司

電詐“殺”到西半球:400美國人被騙2億美元,智利出動500探員抓捕,涉119家洗錢公司

紅星新聞
2026-01-10 19:39:16
博主:落選U23亞洲杯大名單的朱鵬宇將在今日前往國家隊報到

博主:落選U23亞洲杯大名單的朱鵬宇將在今日前往國家隊報到

懂球帝
2026-01-11 14:13:08
特朗普:將不會再有石油或資金流入古巴

特朗普:將不會再有石油或資金流入古巴

財聯(lián)社
2026-01-11 20:50:05
劉燁的基因太強大了,兒子太像他了,諾一是中法混血兒,很帥

劉燁的基因太強大了,兒子太像他了,諾一是中法混血兒,很帥

手工制作阿殲
2026-01-11 03:00:48
中國向全球曝光美4400顆衛(wèi)星圍堵中國空間站

中國向全球曝光美4400顆衛(wèi)星圍堵中國空間站

花寒弦絮
2026-01-09 22:03:26
官方稱亞運“三金”得主舉報基本屬實,還有四個疑問待說清

官方稱亞運“三金”得主舉報基本屬實,還有四個疑問待說清

極目新聞
2026-01-11 14:13:44
表面是說車,實際是開車,哈哈哈哈哈

表面是說車,實際是開車,哈哈哈哈哈

深度報
2026-01-10 22:18:27
一顆老鼠屎壞一鍋粥!央8《小城大事》遭惡評,這戲混子擔(dān)大責(zé)任

一顆老鼠屎壞一鍋粥!央8《小城大事》遭惡評,這戲混子擔(dān)大責(zé)任

卷史
2026-01-11 14:18:31
你們可能被特朗普騙了,特朗普有可能真的是美國最偉大的總統(tǒng)

你們可能被特朗普騙了,特朗普有可能真的是美國最偉大的總統(tǒng)

流蘇晚晴
2026-01-10 16:24:45
閆學(xué)晶的拼搏:20歲嫁30歲小老板,給8歲小妹妹當(dāng)后媽

閆學(xué)晶的拼搏:20歲嫁30歲小老板,給8歲小妹妹當(dāng)后媽

小小河
2026-01-10 20:21:22
江蘇35歲男子被騙到柬埔寨!妻子接到遺言電話,不止詐騙這么簡單

江蘇35歲男子被騙到柬埔寨!妻子接到遺言電話,不止詐騙這么簡單

李健政觀察
2026-01-10 14:45:38
林詩棟心態(tài)崩盤,單局被打1-10!中國男乒全軍覆沒,王皓仰天長嘆

林詩棟心態(tài)崩盤,單局被打1-10!中國男乒全軍覆沒,王皓仰天長嘆

楊哥乒乓
2026-01-11 20:03:02
2025年NBA球員收入榜前10榜單發(fā)布:庫里11.20億元 詹姆斯9.66億

2025年NBA球員收入榜前10榜單發(fā)布:庫里11.20億元 詹姆斯9.66億

體壇八點半的那些事兒
2026-01-11 21:08:32
河南新蔡13歲學(xué)生死亡后續(xù):左胸部針孔和嘴角紅色液體解釋來了

河南新蔡13歲學(xué)生死亡后續(xù):左胸部針孔和嘴角紅色液體解釋來了

江山揮筆
2026-01-11 09:27:07
16GB+1TB!新機官宣:1月19日,新品正式發(fā)布!

16GB+1TB!新機官宣:1月19日,新品正式發(fā)布!

科技堡壘
2026-01-09 11:44:41
伊朗總統(tǒng)稱正全力通過根除腐敗來改善民生

伊朗總統(tǒng)稱正全力通過根除腐敗來改善民生

界面新聞
2026-01-11 07:01:41
1980年,王光美拿過追悼會名單,狠狠劃掉幾人,卻添上個正在挨整的將軍:他對咱家有恩

1980年,王光美拿過追悼會名單,狠狠劃掉幾人,卻添上個正在挨整的將軍:他對咱家有恩

源溯歷史
2026-01-07 19:28:08
2026-01-11 22:43:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142535關(guān)注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

4.5萬株草莓苗停止生長 果農(nóng)急求助1小時后獲專家回應(yīng)

頭條要聞

4.5萬株草莓苗停止生長 果農(nóng)急求助1小時后獲專家回應(yīng)

體育要聞

U23國足形勢:末輪不負泰國即確保晉級

娛樂要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財經(jīng)要聞

外賣平臺"燒錢搶存量市場"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補貼后9.98萬起

態(tài)度原創(chuàng)

親子
游戲
健康
教育
軍事航空

親子要聞

晨時評 | 新生兒疑被助產(chǎn)士剪斷手指,別用孩子亂動推卸責(zé)任

《堡壘之夜》聯(lián)動鬧誤會!老外竟不知VTuber老祖

這些新療法,讓化療不再那么痛苦

教育要聞

現(xiàn)在最雞娃的群體就是體制內(nèi)的成員!

軍事要聞

俄大使:馬杜羅夫婦被控制時身邊沒人

無障礙瀏覽 進入關(guān)懷版