国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

表格建模也能Scaling?樹(shù)模型的時(shí)代要改變了

0
分享至



一張 H100 相當(dāng)于多少個(gè) Hadoop 實(shí)例?

讓我們先從一個(gè)有趣的問(wèn)題開(kāi)始:站在 2026 年的當(dāng)下,一張 H100 GPU 的單卡算力(FP16)大約相當(dāng)于多少個(gè) Hadoop 實(shí)例?

答案是:約 200 個(gè)( 單卡 H100 vs 一臺(tái) 96 核 CPU 實(shí)例)。

這個(gè)數(shù)字背后隱藏著一個(gè)值得深思的現(xiàn)象:過(guò)去幾年中,AI 的快速發(fā)展極大推動(dòng)了算力的指數(shù)級(jí)增長(zhǎng)。然而在結(jié)構(gòu)化數(shù)據(jù)建模這一領(lǐng)域,行業(yè)主流方法仍然是以樹(shù)模型為核心的垂直場(chǎng)景化解決方案。

這就形成了一個(gè)有趣的 "反差":一邊是各大科技公司和大量初創(chuàng)企業(yè)正通過(guò)不斷升級(jí)的大語(yǔ)言模型推動(dòng) AI 生產(chǎn)力的躍遷,另一邊是在金融、醫(yī)療、電商、物流、工業(yè)制造等高價(jià)值行業(yè)中,真正承載智能化任務(wù)的,仍主要是以 XGBoost、隨機(jī)森林為代表的樹(shù)模型。這種反差讓我們不得不開(kāi)始思考:當(dāng)算力革命發(fā)生時(shí),結(jié)構(gòu)化數(shù)據(jù)建模的 "平衡點(diǎn)" 是否也該被重新定義?

"苦澀的教訓(xùn)" 與結(jié)構(gòu)化數(shù)據(jù)的困境

從更宏觀的角度看,大模型研發(fā)所遵循的核心思想,可以追溯到 Richard Sutton 提出的 “苦澀的教訓(xùn)”(The Bitter Lesson):在 AI 的長(zhǎng)期發(fā)展中,那些能夠隨著計(jì)算規(guī)模持續(xù)擴(kuò)展的通用學(xué)習(xí)方法,往往最終會(huì)超越依賴人類直覺(jué)與領(lǐng)域知識(shí)精心設(shè)計(jì)的系統(tǒng)。

大語(yǔ)言模型的成功正是這一規(guī)律的典型體現(xiàn) —— 通過(guò)統(tǒng)一架構(gòu)與大規(guī)模數(shù)據(jù)訓(xùn)練,LLM 在 NLP 領(lǐng)域?qū)崿F(xiàn)了跨任務(wù)、跨場(chǎng)景的能力遷移。然而,當(dāng)企業(yè)在實(shí)際業(yè)務(wù)中解決監(jiān)督學(xué)習(xí)問(wèn)題時(shí),情況卻呈現(xiàn)出明顯反差。即使在嘗試引入深度學(xué)習(xí)時(shí),也往往需要依賴復(fù)雜的數(shù)據(jù)流水線、特定架構(gòu)設(shè)計(jì)以及大量領(lǐng)域知識(shí)的引入。這相當(dāng)于用 "手工作坊" 的方式,去應(yīng)對(duì) "工業(yè)化生產(chǎn)" 的需求。于是出現(xiàn)了一個(gè)頗為有趣的現(xiàn)象:一方面,各大科技公司和大量初創(chuàng)企業(yè)正通過(guò)不斷擴(kuò)大的大語(yǔ)言模型推動(dòng) AI 生產(chǎn)力的躍遷;另一方面,在金融、醫(yī)療、電商、物流、工業(yè)制造、農(nóng)業(yè)等高價(jià)值行業(yè)的重要社會(huì)經(jīng)濟(jì)領(lǐng)域中,真正承載智能化場(chǎng)景任務(wù)的,仍主要是以 XGBoost、隨機(jī)森林為代表的基于樹(shù)的表格分類模型或垂域深度學(xué)習(xí)分類模型,這進(jìn)一步激發(fā)了我們探索結(jié)構(gòu)化數(shù)據(jù)模型 scaling 上限的興趣。

回顧歷史,XGBoost 在 2014 年被廣泛視為機(jī)器學(xué)習(xí)領(lǐng)域中算力、算法與數(shù)據(jù)三要素之間的一個(gè) “平衡點(diǎn)”。但十二年后的今天,隨著 GPU 算力的快速迭代并帶來(lái)數(shù)量級(jí)提升,這一平衡點(diǎn)是否已經(jīng)發(fā)生改變?結(jié)構(gòu)化數(shù)據(jù)建模是否也可能像 NLP 和 CV 一樣,通過(guò)新的計(jì)算范式實(shí)現(xiàn)突破?回到開(kāi)篇的問(wèn)題:當(dāng)單張 H100 與一臺(tái) 96 核 CPU 服務(wù)器之間已經(jīng)存在約 200 倍的 FP16 算力差距時(shí),一個(gè)自然的想法是 —— 是否可以將 GPU 的大規(guī)模并行算力真正引入結(jié)構(gòu)化數(shù)據(jù)建模,并通過(guò)預(yù)訓(xùn)練范式重新平衡算力、數(shù)據(jù)與算法這三大核心要素。

千億級(jí)樣本預(yù)訓(xùn)練實(shí)踐

本文將重點(diǎn)介紹浙大 X 螞蟻 AIforData 團(tuán)隊(duì)的探索:基于螞蟻集團(tuán)海量的異構(gòu)結(jié)構(gòu)化數(shù)據(jù)以及豐富的下游業(yè)務(wù)場(chǎng)景,實(shí)現(xiàn)了千卡 GPU 集群下百億級(jí)樣本規(guī)模的結(jié)構(gòu)化數(shù)據(jù)預(yù)訓(xùn)練,并系統(tǒng)評(píng)估了預(yù)訓(xùn)練模型在下游任務(wù)中的表現(xiàn),實(shí)驗(yàn)結(jié)果表明:

1. 在工業(yè)級(jí)表格數(shù)據(jù)集上,預(yù)訓(xùn)練模型的性能可以穩(wěn)定且顯著地超越傳統(tǒng)樹(shù)模型

2. 表格數(shù)據(jù)預(yù)訓(xùn)練模型呈現(xiàn)出明顯的 scaling law

3. 行為序列預(yù)訓(xùn)練模型同樣表現(xiàn)出良好的 scaling law

工作 1: 表格數(shù)據(jù)預(yù)訓(xùn)練與 Scaling Law

https://arxiv.org/abs/2602.22777

KMLP(Kolmogorov-Arnold Network with gated MLP)是面向互聯(lián)網(wǎng)超大規(guī)模表格數(shù)據(jù)的混合深度學(xué)習(xí)架構(gòu)(中稿 The Web Conference 2026)。面對(duì)工業(yè)場(chǎng)景中數(shù)十億樣本、數(shù)千異構(gòu)特征的建模挑戰(zhàn),KMLP 創(chuàng)新性地將淺層 KAN 作為前端特征工程構(gòu)造器,結(jié)合 gMLP 主干網(wǎng)絡(luò)捕獲高階交互,實(shí)現(xiàn)了端到端的自動(dòng)化特征表示學(xué)習(xí)。



在包含 20 億樣本的真實(shí)信貸評(píng)分?jǐn)?shù)據(jù)集上,KMLP 展現(xiàn)出顯著的規(guī)模優(yōu)勢(shì):隨著數(shù)據(jù)量級(jí)提升,其相對(duì)于傳統(tǒng) GBDT 模型的性能優(yōu)勢(shì)持續(xù)擴(kuò)大。這一發(fā)現(xiàn)驗(yàn)證了 KMLP 作為可擴(kuò)展深度學(xué)習(xí)范式的潛力,為大規(guī)模動(dòng)態(tài)互聯(lián)網(wǎng)表格數(shù)據(jù)建模提供了新路徑。



KMLP 的核心價(jià)值在于解決了傳統(tǒng)方法的雙重瓶頸:一方面克服了 GBDT 在超大規(guī)模數(shù)據(jù)集上分布式計(jì)算效率問(wèn)題,另一方面通過(guò)可學(xué)習(xí)激活函數(shù)擺脫了對(duì)人工特征工程的依賴,實(shí)現(xiàn)了特征異構(gòu)性與交互建模的統(tǒng)一。其相對(duì)于傳統(tǒng) GBDT 模型的性能優(yōu)勢(shì)持續(xù)擴(kuò)大;解決了 GBDT 分布式計(jì)算效率問(wèn)題和人工特征工程依賴。

工作 2: 行為序列預(yù)訓(xùn)練與 Scaling Law

https://arxiv.org/abs/2412.12468

用戶行為時(shí)序數(shù)據(jù),作為刻畫用戶的關(guān)鍵結(jié)構(gòu)化數(shù)據(jù)之一,對(duì)于用戶理解與建模起著重要作用。在用戶建模時(shí)如何利用以及如何利用好更多的用戶行為序列數(shù)據(jù),是一個(gè)重要的研究課題。

FOUND:時(shí)序數(shù)據(jù)的語(yǔ)義級(jí)應(yīng)用

FOUND(Transferable and Forecastable User Targeting Foundation Model)是 AIforData 團(tuán)隊(duì)發(fā)布在 The Web Conference 2025(WebConf 25)中的工作,面向互聯(lián)網(wǎng)平臺(tái)中多種來(lái)源的序列數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù),構(gòu)建了工業(yè)級(jí)、具有預(yù)測(cè)性的用戶表征框架。

當(dāng)前許多用戶理解方法面臨兩大顯著挑戰(zhàn):(i) 跨領(lǐng)域和跨場(chǎng)景的可遷移性及泛化能力較弱 (ii) 在實(shí)際應(yīng)用中的預(yù)測(cè)能力不足。為了增強(qiáng)跨領(lǐng)域遷移能力,F(xiàn)OUND 框架整合了多場(chǎng)景用戶數(shù)據(jù),并在用戶建模時(shí)創(chuàng)新性地通過(guò)對(duì)比學(xué)習(xí)預(yù)訓(xùn)練將其與根據(jù)序列語(yǔ)義整理得到的文本進(jìn)行對(duì)齊。為了提高預(yù)測(cè)性,每個(gè)用戶的文本描述基于用戶未來(lái)的行為推導(dǎo)得出,而用戶表征則由歷史信息構(gòu)建而成,使用過(guò)去 - 未來(lái)語(yǔ)義對(duì)齊的方式構(gòu)造訓(xùn)練樣本對(duì)。

由該框架產(chǎn)出的用戶表征在真實(shí)場(chǎng)景 benchmark 和業(yè)務(wù)上均獲得了增益。同時(shí)引入自然語(yǔ)言監(jiān)督的方式也使得模型天然支持人群圈選這一用戶理解任務(wù),該預(yù)訓(xùn)練框架支持的圈人能力在下游取得了大量收益,支持超過(guò) 50 個(gè)業(yè)務(wù)場(chǎng)景。



序列數(shù)據(jù)的 Scaling Law

在有了上述預(yù)訓(xùn)練框架后,我們思考如何將綜合互聯(lián)網(wǎng)平臺(tái)中更多更長(zhǎng)的用戶行為序列引入到模型中來(lái)。針對(duì)多種來(lái)源的序列數(shù)據(jù),各自設(shè)計(jì)編碼器會(huì)存在訓(xùn)練成本過(guò)高、表達(dá)空間不統(tǒng)一等缺陷,同時(shí)如何發(fā)揮更多輸入序列數(shù)據(jù)的最大性能也是一個(gè)問(wèn)題,即需要探索輸入序列本身存在的 Scaling Law 以及如何突破可能存在的 Scaling 瓶頸。

在實(shí)驗(yàn)探索過(guò)程中我們發(fā)現(xiàn),輸入序列長(zhǎng)度 / 用戶數(shù)目在數(shù)量級(jí)較少時(shí),性能隨著天數(shù) / 用戶數(shù)目(指數(shù))近似線性提升,Scaling 現(xiàn)象明顯;但在輸入序列增長(zhǎng)、用戶數(shù)目增加時(shí)增長(zhǎng)緩慢,出現(xiàn) Scaling 瓶頸。為解決該問(wèn)題,除了增加參數(shù)這種模型層面的 Scaling,提升輸入用戶數(shù)據(jù)的信息密度,即對(duì)用戶信息進(jìn)行壓縮,不失為一種節(jié)約成本且輕量的方案。在使用 RQ-VAE 方案進(jìn)行用戶序列數(shù)據(jù)壓縮后,我們觀測(cè)到出現(xiàn)數(shù)據(jù)增長(zhǎng)瓶頸得到延緩,說(shuō)明了壓縮帶來(lái)突破瓶頸的 Densing Law 現(xiàn)象。

核心結(jié)論:在輸入序列長(zhǎng)度 / 用戶數(shù)目在數(shù)量較少時(shí)性能隨著天數(shù)指數(shù)的 Scaling 現(xiàn)象明顯,輸入序列長(zhǎng)度和用戶數(shù)目增加至較大量級(jí)時(shí)出現(xiàn) Scaling 瓶頸,而壓縮數(shù)據(jù)可以通過(guò)提升信息密度帶來(lái)突破瓶頸的 Densing Law 現(xiàn)象。





基于以上原始和壓縮輸入的 Scaling Law,我們?cè)O(shè)計(jì)了基于統(tǒng)一用戶量化壓縮的用戶理解方案,將用戶的多源序列等數(shù)據(jù)使用設(shè)計(jì)的 MRQ-VAE 方案壓縮成語(yǔ)義 token ID 提升信息密度,并在此基礎(chǔ)之上 Scaling 得到了更佳性能的用戶模型。產(chǎn)出的通用用戶表征在 80% 以上真實(shí)場(chǎng)景 benchmark 中相比之前原始數(shù)據(jù)輸入版本均有提升,并在數(shù)字金融、支付安全、營(yíng)銷推薦、廣告等業(yè)務(wù)中全面應(yīng)用。

總結(jié)與展望

回到開(kāi)篇的問(wèn)題:當(dāng)算力已經(jīng)發(fā)生數(shù)量級(jí)變化時(shí),結(jié)構(gòu)化數(shù)據(jù)建模的范式是否也該隨之改變?

螞蟻 x 浙大 AIforData 團(tuán)隊(duì)的探索給出了肯定的答案。Scaling Law 正在從 NLP、CV 延伸到結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域—— 這或許意味著,那個(gè)依賴人工特征工程和場(chǎng)景化調(diào)參的時(shí)代,真的要過(guò)去了。

"當(dāng)算力天平已經(jīng)傾斜,平衡點(diǎn)也該重新定義。"

未來(lái),隨著算力的持續(xù)增長(zhǎng)和預(yù)訓(xùn)練范式的成熟,我們有理由相信:結(jié)構(gòu)化數(shù)據(jù)建模將迎來(lái)屬于自己的 "大模型時(shí)刻"。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
全國(guó)各地區(qū)人均居民存款排行:北京領(lǐng)跑,浙江亮眼,東北三省也很高

全國(guó)各地區(qū)人均居民存款排行:北京領(lǐng)跑,浙江亮眼,東北三省也很高

戶外釣魚(yú)哥阿旱
2026-04-18 12:49:37
下周預(yù)期要大漲方向!五大熱點(diǎn)題材周末不斷發(fā)酵  核心標(biāo)的已梳理

下周預(yù)期要大漲方向!五大熱點(diǎn)題材周末不斷發(fā)酵 核心標(biāo)的已梳理

元芳說(shuō)投資
2026-04-19 17:03:48
微信這個(gè)開(kāi)關(guān)不關(guān),你住哪、干啥,別人全知道!快關(guān)掉!

微信這個(gè)開(kāi)關(guān)不關(guān),你住哪、干啥,別人全知道!快關(guān)掉!

侃故事的阿慶
2026-04-18 17:54:13
亨利·卡維爾為胸毛據(jù)理力爭(zhēng):一個(gè)被忽視的超人設(shè)計(jì)細(xì)節(jié)

亨利·卡維爾為胸毛據(jù)理力爭(zhēng):一個(gè)被忽視的超人設(shè)計(jì)細(xì)節(jié)

熱搜摘要官
2026-04-19 00:06:49
進(jìn)去就沒(méi)命!四川黃泉路有去無(wú)回,政府封禁400年,至今無(wú)解!

進(jìn)去就沒(méi)命!四川黃泉路有去無(wú)回,政府封禁400年,至今無(wú)解!

網(wǎng)絡(luò)易不易
2026-04-19 14:59:01
山東乳山銀灘“195平米復(fù)式房”1萬(wàn)元起拍,已有多人競(jìng)價(jià),拍賣公司:產(chǎn)證面積97.94平米,另有贈(zèng)送面積,非法拍可隨時(shí)過(guò)戶

山東乳山銀灘“195平米復(fù)式房”1萬(wàn)元起拍,已有多人競(jìng)價(jià),拍賣公司:產(chǎn)證面積97.94平米,另有贈(zèng)送面積,非法拍可隨時(shí)過(guò)戶

極目新聞
2026-04-19 14:06:31
伊朗向中國(guó)通報(bào)內(nèi)幕!談判團(tuán)差點(diǎn)被美軍“團(tuán)滅”,連電話都不敢打

伊朗向中國(guó)通報(bào)內(nèi)幕!談判團(tuán)差點(diǎn)被美軍“團(tuán)滅”,連電話都不敢打

風(fēng)信子的花
2026-04-19 16:46:59
美國(guó)妹子崩潰大哭:借9.6萬(wàn)美元上大學(xué),已還16.5萬(wàn),還欠22萬(wàn)

美國(guó)妹子崩潰大哭:借9.6萬(wàn)美元上大學(xué),已還16.5萬(wàn),還欠22萬(wàn)

賤議你讀史
2026-04-19 04:30:07
局勢(shì)生變,全球接到消息,美軍全部撤離,所有軍事基地被敘國(guó)接管

局勢(shì)生變,全球接到消息,美軍全部撤離,所有軍事基地被敘國(guó)接管

聞識(shí)
2026-04-19 21:08:29
以軍:打死阿里·里達(dá)·阿巴斯

以軍:打死阿里·里達(dá)·阿巴斯

南方都市報(bào)
2026-04-19 21:17:31
世錦賽戰(zhàn)報(bào):4-10,賽會(huì)第23位冠軍出局,中國(guó)2位,16強(qiáng)決出3席了

世錦賽戰(zhàn)報(bào):4-10,賽會(huì)第23位冠軍出局,中國(guó)2位,16強(qiáng)決出3席了

求球不落諦
2026-04-19 23:35:24
世錦賽戰(zhàn)報(bào):丁俊暉王者歸來(lái)7-2領(lǐng)先,中國(guó)冠軍連輸6局6-10一輪游

世錦賽戰(zhàn)報(bào):丁俊暉王者歸來(lái)7-2領(lǐng)先,中國(guó)冠軍連輸6局6-10一輪游

球場(chǎng)沒(méi)跑道
2026-04-19 20:28:00
罕見(jiàn)!黃仁勛談芯片禁售突然情緒失控:你不是在和一個(gè)Loser說(shuō)話

罕見(jiàn)!黃仁勛談芯片禁售突然情緒失控:你不是在和一個(gè)Loser說(shuō)話

DeepAuto車探
2026-04-19 20:37:54
被豆包害慘了的大學(xué)生們!網(wǎng)友:豆包就是愚蠢且勤勞的老實(shí)人

被豆包害慘了的大學(xué)生們!網(wǎng)友:豆包就是愚蠢且勤勞的老實(shí)人

夜深愛(ài)雜談
2025-12-02 20:51:10
男演員宣布中止合作!知名品牌翻車,創(chuàng)始人深夜致歉:嚴(yán)重失責(zé),已開(kāi)除涉事主播

男演員宣布中止合作!知名品牌翻車,創(chuàng)始人深夜致歉:嚴(yán)重失責(zé),已開(kāi)除涉事主播

魯中晨報(bào)
2026-04-17 11:28:05
中俄關(guān)系比傳統(tǒng)“聯(lián)盟”更深厚、更可靠

中俄關(guān)系比傳統(tǒng)“聯(lián)盟”更深厚、更可靠

看看新聞Knews
2026-04-19 08:36:10
曼城2-1阿森納,賽后評(píng)分:不是哈蘭德第一,曼城10號(hào)第一

曼城2-1阿森納,賽后評(píng)分:不是哈蘭德第一,曼城10號(hào)第一

側(cè)身凌空斬
2026-04-20 01:26:44
胡錫進(jìn)以安全代言沃爾沃,是整個(gè)社會(huì)的恥辱

胡錫進(jìn)以安全代言沃爾沃,是整個(gè)社會(huì)的恥辱

黔有虎
2026-04-19 17:34:12
醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

芹姐說(shuō)生活
2026-04-19 15:52:53
小學(xué)生拒絕“借”車遭毆打還被搜家,8人未滿14歲不處罰、1人被處行拘免執(zhí)行,家長(zhǎng)稱看施暴視頻氣得吃救心丸

小學(xué)生拒絕“借”車遭毆打還被搜家,8人未滿14歲不處罰、1人被處行拘免執(zhí)行,家長(zhǎng)稱看施暴視頻氣得吃救心丸

極目新聞
2026-04-19 22:39:27
2026-04-20 02:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12795文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒(méi)法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒(méi)法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂(lè)要聞

何潤(rùn)東漲粉百萬(wàn)!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬(wàn) 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

健康
教育
家居
游戲
藝術(shù)

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

教育要聞

655家單位、1.29萬(wàn)個(gè)崗位,湖南用心幫大學(xué)生找工作

家居要聞

法式線條 時(shí)光靜淌

如何將ZH-1火力最大化?《戰(zhàn)艦世界》15.3版本造船廠加點(diǎn)攻略

藝術(shù)要聞

超模施特洛耶克寫真曝光,簡(jiǎn)直美到窒息,別錯(cuò)過(guò)!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版