国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

自然子刊:高維數(shù)據(jù)如何“看清”類簇?一種可伸縮流形學(xué)習(xí)的新范式

0
分享至


導(dǎo)語(yǔ)

高維數(shù)據(jù)往往蘊(yùn)含低維流形結(jié)構(gòu),如何在降維過(guò)程中同時(shí)保持類簇可分性、拓?fù)浣Y(jié)構(gòu)一致性與計(jì)算可伸縮性,是流形學(xué)習(xí)長(zhǎng)期面臨的核心挑戰(zhàn)。盡管 t-SNE、UMAP 等方法已在可視化與表示學(xué)習(xí)中得到廣泛應(yīng)用,但它們?cè)诖笠?guī)模數(shù)據(jù)場(chǎng)景下仍存在類簇?fù)頂D、拓?fù)涫д婕坝?jì)算成本高等局限。

2025年9月發(fā)表于 Nature Machine Intelligence 的這項(xiàng)研究提出了一種采樣驅(qū)動(dòng)的可伸縮流形學(xué)習(xí)方法 SUDE (Scalable manifold learning that enables Uniform and Discriminative Embedding)。該方法通過(guò)均勻地標(biāo)采樣構(gòu)建全局骨架,在低維空間中引入重尾概率分布以增強(qiáng)類簇分離,并結(jié)合約束局部線性嵌入實(shí)現(xiàn)非地標(biāo)點(diǎn)的高效映射。大量合成數(shù)據(jù)、真實(shí)高維數(shù)據(jù)、生物單細(xì)胞數(shù)據(jù)及心電信號(hào)實(shí)驗(yàn)表明,SUDE在類簇區(qū)分能力、結(jié)構(gòu)保留與計(jì)算效率之間實(shí)現(xiàn)了更優(yōu)平衡,為大規(guī)模流形數(shù)據(jù)分析提供了一種可擴(kuò)展的新范式。

關(guān)鍵詞:流形學(xué)習(xí)(Manifold Learning)、降維、可伸縮算法(Scalability)、地標(biāo)采樣(Landmark Sampling)、類簇結(jié)構(gòu)發(fā)現(xiàn)(Cluster Structure Discovery)、多維數(shù)據(jù)可視化、重尾概率分布(Heavy-tailed Probability Distribution)

珞珈時(shí)空計(jì)算丨來(lái)源


論文題目:Sampling-enabled scalable manifold learning unveils the discriminative cluster structure of high-dimensional data 論文鏈接:https://www.nature.com/articles/s42256-025-01112-9 發(fā)表時(shí)間:2025年9月10日 論文來(lái)源:nature machine intelligence

內(nèi)容概括

流形學(xué)習(xí) (Manifold Learning) 旨在揭示高維空間中復(fù)雜非線性流形的內(nèi)在低維結(jié)構(gòu),將數(shù)據(jù)嵌入到聚類友好的低維特征空間,緩解維度災(zāi)難帶來(lái)的負(fù)面影響。盡管現(xiàn)有技術(shù) (如t-SNE和UMAP) 已在諸多領(lǐng)域廣泛應(yīng)用,但對(duì)于類簇的區(qū)分能力相對(duì)有限,難以保留連續(xù)的拓?fù)浣Y(jié)構(gòu),且計(jì)算的可伸縮性存在不足,限制了其在大規(guī)模流形數(shù)據(jù)處理場(chǎng)景下的適用性。針對(duì)上述問(wèn)題,論文提出一種基于均勻地標(biāo)采樣與約束局部線性嵌入的可擴(kuò)展流形學(xué)習(xí)方法SUDE。它通過(guò)地標(biāo)采樣選取部分重要樣本作為地標(biāo)點(diǎn)進(jìn)行嵌入學(xué)習(xí),確定高維數(shù)據(jù)在低維空間的主要骨架,再根據(jù)非地標(biāo)點(diǎn)與地標(biāo)點(diǎn)的局部線性關(guān)系將其快速嵌入至低維空間,極大提升了流形學(xué)習(xí)的伸縮性。此外,論文提出一種重尾低維概率分布,增強(qiáng)了類簇之間的分離性,并通過(guò)對(duì)非地標(biāo)點(diǎn)嵌入施加最鄰近距離約束,緩解了欠采樣引發(fā)的臟簇問(wèn)題。

研究背景

維度

英國(guó)著名小說(shuō)家Edwin Abbott在他撰寫的《平面國(guó)》(Flat Land) 中構(gòu)想了一個(gè)由幾何形狀構(gòu)成的等級(jí)社會(huì),居民是各種幾何圖形,比如女性是簡(jiǎn)單的線段,士兵和底層勞動(dòng)者是等腰三角形,貴族是六邊形及以上,邊數(shù)越多,等級(jí)越高,他們通過(guò)觸摸、視覺(jué)來(lái)識(shí)別彼此。主人公正方形一次機(jī)緣巧合之下遇到了一位來(lái)自三維空間的使者,得以游歷三維世界,游歷歸來(lái)后,他因?yàn)閭鞑トS世界的真理被當(dāng)作瘋子關(guān)進(jìn)監(jiān)獄,可見(jiàn)低維生物依然是難以理解高維空間。我們以荷蘭畫家Maurits Cornelis Escher的經(jīng)典畫作《蜥蜴》為例,如圖1所示,假設(shè)在二維平面空間密鋪著無(wú)數(shù)只蜥蜴,這時(shí)候存在一只三維蜥蜴,它站在一個(gè)正十二面體上,那么它該如何給二維蜥蜴描述正十二面體的幾何形態(tài)呢?


圖1 蜥蜴 (來(lái)自紀(jì)錄片《維度:數(shù)學(xué)漫步》)

第一種方法,讓三維幾何體慢慢穿過(guò)二維平面,讓蜥蜴通過(guò)穿過(guò)的截面形狀來(lái)想象它的三維結(jié)構(gòu),但是隨著這個(gè)幾何體的面數(shù)不斷增加,二維的截面形狀也越來(lái)越復(fù)雜,對(duì)于三維結(jié)構(gòu)的理解變得愈加困難。


圖2 根據(jù)幾何體穿透二維平面的截面理解幾何形態(tài)

第二種方法,通過(guò)球極投影把三維幾何體的面投影到二維平面,并通過(guò)滾動(dòng)球體來(lái)觀察投影的變化,從而理解高維幾何體結(jié)構(gòu)。因此,投影是用于理解高維數(shù)據(jù)分布結(jié)構(gòu)的重要降維方法。


圖3 利用球極投影理解三維幾何體形態(tài)

維度災(zāi)難

降維除了用于高維數(shù)據(jù)可視化之外,還是解決維度災(zāi)難(Curse of Dimensionality) 問(wèn)題的主要途徑之一。維度災(zāi)難指的是模型的分類或聚類精度隨著數(shù)據(jù)維度的增加呈現(xiàn)先上升后下降的趨勢(shì) (圖4)。導(dǎo)致維度災(zāi)難的一個(gè)主要原因在于數(shù)據(jù)在高維特征空間的分布存在嚴(yán)重的稀疏性,這使得模型表征能力不足,而容易引發(fā)過(guò)擬合問(wèn)題。同時(shí),聚類與分類任務(wù)中常用的相似性度量存在距離趨同(Distance Concentration) 現(xiàn)象,即距離隨著維度增長(zhǎng)逐漸趨于相同取值,丟失了相似性度量的可區(qū)分性,使得相似性度量失效。此外,高維數(shù)據(jù)往往呈流形分布,流形效應(yīng)(Manifold Effect) 使得一些常見(jiàn)的聚類模式 (如邊界模式和內(nèi)部模式) 在高維空間失效,而且大量的冗余特征不僅影響聚類精度,也極大地增加存儲(chǔ)和計(jì)算成本。


圖4 維度災(zāi)難問(wèn)題

流形

高維數(shù)據(jù)往往呈現(xiàn)流形分布,即數(shù)據(jù)的內(nèi)在維度低于特征維度。在數(shù)學(xué)上,流形指的是局部同胚于歐式空間的豪斯多夫空間,局部具有歐氏幾何性質(zhì) (圖5)。同胚可以想象為“彈性變形”,允許空間被拉伸、彎曲或壓縮,但不允許切割或粘連。一卷衛(wèi)生紙就是一種流形,把它展開(kāi)可以平攤成一個(gè)二維平面空間,而不影響它原先的拓?fù)浣Y(jié)構(gòu)。對(duì)于高維數(shù)據(jù)點(diǎn)而言,它們往往分布在復(fù)雜的非線性流形上,彼此交織纏繞在一起,直接在高維空間對(duì)其進(jìn)行分類或者聚類難度較大。


圖5 流形示意圖

流形學(xué)習(xí)

為了實(shí)現(xiàn)降維,傳統(tǒng)線性降維方法如PCA通過(guò)對(duì)數(shù)據(jù)進(jìn)行線性變換提取主要特征,雖然計(jì)算高效但無(wú)法有效捕捉非線性結(jié)構(gòu)。流形學(xué)習(xí)通過(guò)保持?jǐn)?shù)據(jù)間的局部幾何關(guān)系 (如鄰接拓?fù)浣Y(jié)構(gòu)或測(cè)地距離) 實(shí)現(xiàn)非線性降維。2000年在《Science》上背靠背發(fā)表的等距特征映射Isomap和局部線性嵌入LLE兩種方法是流形學(xué)習(xí)的開(kāi)山之作。前者用測(cè)地距離替代歐氏距離進(jìn)行映射,后者通過(guò)局部線性重構(gòu)關(guān)系保留鄰域結(jié)構(gòu),但這兩種方法無(wú)法保證類簇間的分離性,造成低維嵌入的擁擠問(wèn)題


圖6 t-SNE原文及作者

Meta AI首席研究科學(xué)家Laurens van der Maaten與諾貝爾獎(jiǎng)物理學(xué)獎(jiǎng)獲得者Geoffrey Hinton教授在2008年共同提出了流形學(xué)習(xí)的革命性工作t-SNE (圖6),采用概率逼近策略來(lái)實(shí)現(xiàn)數(shù)據(jù)在原始空間和嵌入空間的結(jié)構(gòu)一致性,并通過(guò)兩種不同概率分布函數(shù)達(dá)到類簇分離的效果 (圖7)。由于t-SNE涉及到密集的矩陣運(yùn)算,計(jì)算開(kāi)銷巨大。Laurens van der Maaten將t-SNE的優(yōu)化問(wèn)題看作是多體 (N-body) 引力問(wèn)題,采用Barnes-Hut算法來(lái)實(shí)現(xiàn)快速梯度計(jì)算,但是Barnes-Hut-SNE (BH-t-SNE) 算法只能實(shí)現(xiàn)二維或三維的嵌入。2018年提出的均勻流形近似與投影UMAP是流形學(xué)習(xí)的又一里程碑式的方法,它采用交叉熵 (Cross Entropy, CE) 代替 KL 散度作為損失函數(shù),并通過(guò)隨機(jī)梯度下降法加速收斂過(guò)程。UMAP已成為近幾年最受歡迎的流形學(xué)習(xí)方法,在諸多領(lǐng)域取得成功。盡管如此,UMAP在處理復(fù)雜數(shù)據(jù)分布時(shí)依然存在擁擠問(wèn)題,且計(jì)算效率仍有提升空間。



圖7 t-SNE原理示意圖

方法介紹

概述

本文提出一種基于均勻地標(biāo)采樣與約束局部線性嵌入的可伸縮流形學(xué)習(xí)方法SUDE,如圖8所示,它主要由三個(gè)階段構(gòu)成,即地標(biāo)采樣 (Sampling)、嵌入學(xué)習(xí) (Learning) 和非地標(biāo)嵌入 (Incorporating)。在第一階段,SUDE從原始數(shù)據(jù)點(diǎn)中采樣部分關(guān)鍵點(diǎn)作為地標(biāo)點(diǎn),將這些地標(biāo)點(diǎn)輸入到嵌入學(xué)習(xí)階段,通過(guò)迭代優(yōu)化得到地標(biāo)點(diǎn)的低維嵌入。最后,利用約束局部線性嵌入確定非地標(biāo)點(diǎn)在低維空間的坐標(biāo),生成最終的低維嵌入。


圖8 SUDE總體流程圖

棗糕采樣

地標(biāo)采樣的核心在于如何保證采樣得到的地標(biāo)點(diǎn)與原始數(shù)據(jù)點(diǎn)的分布一致性,為此本文提出棗糕采樣 (Plum Pudding Sampling, PPS),其命名源于PPS采樣結(jié)果神似一塊棗糕,地標(biāo)點(diǎn)類似于“棗子”嵌入在原始數(shù)據(jù)的“蛋糕”當(dāng)中??紤]到局部高密度點(diǎn)具有重要的拓?fù)湫畔?,PPS先將所有數(shù)據(jù)點(diǎn)按照反向最近鄰 (Reverse Nearest Neighbors, RNN) 的大小降序排列,因?yàn)镽NN能夠度量樣本點(diǎn)局部密度,高RNN值的點(diǎn)往往是數(shù)據(jù)中的樞紐點(diǎn),包含重要的拓?fù)浣Y(jié)構(gòu)信息。如圖9所示,每次循環(huán)中,選擇RNN排序后隊(duì)列中第一個(gè)點(diǎn)作為地標(biāo)點(diǎn),新增到地標(biāo)點(diǎn)集合當(dāng)中,并將其 KNN對(duì)象從點(diǎn)隊(duì)列中移除,添加到非地標(biāo)點(diǎn)集。如此循環(huán)直至隊(duì)列中沒(méi)有任何剩余點(diǎn),則完成地標(biāo)采樣。PPS通過(guò)唯一參數(shù)k1控制采樣率,k1越大采樣率越低。


圖9 SUDE總體流程圖

本文采用RNN的原因在于它能夠描述節(jié)點(diǎn)在圖網(wǎng)絡(luò)中的中心性,如圖10a所示,隨著維度升高,RNN與網(wǎng)絡(luò)的介中心性Betweenness呈現(xiàn)更顯著的線性相關(guān)。而之所以按照RNN降序排列采樣地標(biāo)點(diǎn),是因?yàn)檫@樣得到的地標(biāo)點(diǎn)在RNN和Betweenness的分布上與原始數(shù)據(jù)更加一致 (圖10b,c,詳見(jiàn)原文附件Supplementary Note 7)。


圖10 優(yōu)先選擇樞紐點(diǎn)作為地標(biāo)的重要性

早期聚合

當(dāng)類簇之間的距離較近且采樣率較低時(shí),可能會(huì)出現(xiàn)欠采樣 (Undersampling) 問(wèn)題。如圖11所示,隨著地標(biāo)點(diǎn)變得稀疏,原始數(shù)據(jù)中類簇的凝聚性逐漸丟失,使得戴維森堡丁指數(shù)DBI上升且輪廓系數(shù)SC下降,意味著不同類簇的區(qū)分度下降。


圖11 欠采樣問(wèn)題

為了緩解欠采樣問(wèn)題,SUDE在構(gòu)建高維概率時(shí)通過(guò)早期聚合 (Early Aggregation, EA) 策略維持它們?cè)谠紨?shù)據(jù)中的強(qiáng)關(guān)聯(lián)性。EA利用地標(biāo)點(diǎn)在原始數(shù)據(jù)中的共享最近鄰 (Shared Nearest Neighbor, SNN) 來(lái)度量彼此的關(guān)聯(lián)程度,根據(jù)不同的關(guān)聯(lián)程度拉近它們?cè)诓蓸涌臻g的距離,以保留類簇在原始數(shù)據(jù)中的區(qū)分度。

對(duì)數(shù)低維概率分布

t-SNE和UMAP采用學(xué)生t分布構(gòu)建點(diǎn)對(duì)之間的低維空間相似度,但是對(duì)于類簇的分離能力有限。為此,本文提出一種對(duì)數(shù)概率分布

如圖12所示,相比學(xué)生t分布,它是一種更加重尾的分布,能夠使得在高維空間距離較近的點(diǎn)對(duì)在低維嵌入中離得更近,而使得高維空間距離較遠(yuǎn)的點(diǎn)對(duì)在低維空間被推得更遠(yuǎn),從而實(shí)現(xiàn)類簇的有效分離。通過(guò)構(gòu)建的高維低維概率分布,采用動(dòng)量梯度下降確定地標(biāo)點(diǎn)的低維坐標(biāo)。


圖12 對(duì)數(shù)低維概率分布

約束局部線性嵌入

在獲得地標(biāo)點(diǎn)的低維坐標(biāo)之后,需要將非地標(biāo)點(diǎn)快速嵌入至地標(biāo)點(diǎn)確定的低維空間。利用LLE計(jì)算非地標(biāo)點(diǎn)與最鄰近地標(biāo)點(diǎn)的局部線性關(guān)系可用于確定低維空間中非地標(biāo)點(diǎn)的合適位置。然而,對(duì)于一些類簇邊界點(diǎn),它們的最鄰近地標(biāo)點(diǎn)可能屬于不同的類簇,并且彼此相隔較遠(yuǎn),僅通過(guò)局部線性關(guān)系往往會(huì)被嵌入到類簇之間的間隙中,形成臟簇或噪聲,這種現(xiàn)象在采樣率較低時(shí)尤為顯著。因此,本文提出了約束局部線性嵌入 (Constrained Locally Linear Embedding, CLLE) 算法,它利用 LLE 重構(gòu)非地標(biāo)點(diǎn)與最鄰近地標(biāo)點(diǎn)線性權(quán)重的同時(shí),引入了與最鄰近地標(biāo)點(diǎn)的距離約束。

實(shí)驗(yàn)分析

地標(biāo)采樣有效性驗(yàn)證

為了驗(yàn)證PPS方法的有效性,本文在兩個(gè)人造數(shù)據(jù)集上與隨機(jī)采樣RS、剪枝生成樹(shù)PST和最大最小采樣MMS三種采樣基準(zhǔn)進(jìn)行對(duì)比實(shí)驗(yàn)。如圖13a所示,PPS能夠生成分布更均勻的地標(biāo)點(diǎn),而且在聚類中心偏移 (Offset Distance Of Centroids, ODOC)、聚類規(guī)模一致性 (Congruence of Cluster Size, CCS) 和計(jì)算伸縮性三個(gè)維度均優(yōu)于對(duì)比方法 (圖13b-d)。此外,本文還設(shè)計(jì)了一個(gè)五維數(shù)據(jù)集 (圖13e),它由三個(gè)彼此正交的圓環(huán)構(gòu)成,可以發(fā)現(xiàn)PPS對(duì)于數(shù)據(jù)的全局結(jié)構(gòu)保留得更好,能夠獲得更高的一致性系數(shù) (Congruence Coefficient, CC),且隨著采樣率降低 (k1增大) 更加魯棒 (圖13f)。從圖13g的嵌入可視化結(jié)果來(lái)看,SUDE更好地保留了圓環(huán)的形態(tài)結(jié)構(gòu)和彼此連接的拓?fù)潢P(guān)系。


圖13 在人造數(shù)據(jù)集驗(yàn)證PPS有效性

真實(shí)高維數(shù)據(jù)集有效性驗(yàn)證

本文在12個(gè)真實(shí)的高維數(shù)據(jù)集上對(duì)比了SUDE與三種傳統(tǒng)流形學(xué)習(xí)方法 (BH-t-SNE、UMAP和TriMap) 以及兩種深度學(xué)習(xí)方法 (TopoAE和P-UMAP) 的性能,采用五種評(píng)價(jià)指標(biāo):KNN分類精度 (knnACC)、SVM分類精度 (svmACC)、K-means聚類精度 (clusACC)、一致性系數(shù)CC和KNN召回率 (knnRec) 量化評(píng)估降維質(zhì)量。


圖14 在真實(shí)高維數(shù)據(jù)集驗(yàn)證SUDE有效性

如圖14a所示,SUDE在60項(xiàng)得分中獲得23項(xiàng)最高分,并且計(jì)算效率優(yōu)于五種對(duì)比方法 (圖14b)。從圖14c的雷達(dá)圖來(lái)看,SUDE在knnACC、svmACC、clusACC和Scalability均排名第一,表明它在類簇分離和計(jì)算效率方面具有顯著優(yōu)勢(shì)。TopoAE借助神經(jīng)網(wǎng)絡(luò)強(qiáng)大的擬合能力,CC得分排名第一,能夠獲得最優(yōu)的全局結(jié)構(gòu)保留效果,而B(niǎo)H-t-SNE在knnRec分?jǐn)?shù)排名第一,證明其能夠更好地恢復(fù)高維數(shù)據(jù)的局部結(jié)構(gòu)。圖14d,e表明SUDE隨著數(shù)據(jù)規(guī)模和嵌入維度的增大,計(jì)算伸縮性表現(xiàn)最優(yōu)。在圖14f中,本文將嵌入學(xué)習(xí)的方法分別替換為t-SNE和UMAP,聚類精度均低于SUDE。圖14g對(duì)比了SUDE集成三種不同低維概率分布的收斂情況,對(duì)數(shù)概率分布能夠在更少的epoch內(nèi)獲得更高的聚類精度。

單細(xì)胞生物數(shù)據(jù)集有效性驗(yàn)證

為了評(píng)估SUDE的適用性,本文將其應(yīng)用于小鼠視網(wǎng)膜scRNA-seq數(shù)據(jù)集。如圖15a所示,UMAP將視錐雙極細(xì)胞 (Cone Bipolar Cells) 和無(wú)長(zhǎng)突細(xì)胞 (Amacrine Cells)類簇過(guò)度拆分為若干子簇,而SUDE則更好地保持了兩種細(xì)胞類簇的完整性。采用CDC算法對(duì)低維嵌入進(jìn)行聚類,在SUDE嵌入上的聚類精度遠(yuǎn)優(yōu)于UMAP嵌入,證明SUDE嵌入比UMAP嵌入更適合細(xì)胞類型注釋任務(wù) (圖15b,c)。


圖15 在單細(xì)胞生物數(shù)據(jù)集驗(yàn)證SUDE有效性

本文在圖15d驗(yàn)證了SUDE在CyTOF生物數(shù)據(jù)集的性能,SUDE能夠更好地分離單核細(xì)胞 (Monocytes) 的細(xì)胞亞群CD11b+和CD11b-,細(xì)胞密度呈現(xiàn)明顯的雙峰結(jié)構(gòu) (圖15e)。圖15f顯示SUDE獲得最高的CC得分,具有更好的全局結(jié)構(gòu)保留能力,且它的計(jì)算效率分別是BH-t-SNE和UMAP的6.3倍和3.0倍。為了證明SUDE對(duì)于細(xì)胞表型相似性的保留能力,本文計(jì)算了每個(gè)細(xì)胞類簇最鄰近的細(xì)胞類型,這種細(xì)胞類型鄰近關(guān)系在SUDE嵌入中的保留精度達(dá)到78.57%,優(yōu)于其他兩種方法 (圖15g)。本文在圖15h-k利用SUDE嵌入來(lái)可視化B細(xì)胞的分化過(guò)程,從SUDE嵌入中推斷出來(lái)的偽時(shí)間更符合B細(xì)胞的分化過(guò)程。

心電圖數(shù)據(jù)集有效性驗(yàn)證

本文還將流形學(xué)習(xí)方法應(yīng)用在心電圖ECG信號(hào)的異常心跳檢測(cè)任務(wù)。圖16a是我們?cè)O(shè)計(jì)的端到端異常心跳檢測(cè)流程,先使用傅里葉同步壓縮變換來(lái)獲得信號(hào)中采樣點(diǎn)的時(shí)頻表示,然后將這些表示輸入到預(yù)訓(xùn)練的LSTM網(wǎng)絡(luò)中以識(shí)別每個(gè)心跳周期的P波、QRS波和T波 (圖16b),并從每次心跳中提取八個(gè)波形特征 (圖16c),最后將高維特征嵌入到低維空間,并利用KNN和SVM分類器來(lái)區(qū)分正常心跳和異常心跳。在MIT-BIH心電圖數(shù)據(jù)集的四個(gè)病例樣本上,SUDE在KNN和SVM兩個(gè)分類器精度均優(yōu)于PCA和UMAP,且隨著嵌入維度的變化表現(xiàn)出更高的穩(wěn)定性 (圖16d)。如圖16e所示,在線性降維PCA嵌入中,正常心跳和異常心跳混合在一起,難以區(qū)分;而UMAP則產(chǎn)生了過(guò)多的小型簇,破壞了類簇完整性。


圖16 在心電圖數(shù)據(jù)集驗(yàn)證SUDE有效性

降維是一個(gè)權(quán)衡的過(guò)程,將數(shù)據(jù)映射到低維空間必然會(huì)犧牲某些信息以保留其他重要特征。本文從分類精度、聚類精度、全局/局部結(jié)構(gòu)保留能力和計(jì)算伸縮性等方面評(píng)估了SUDE的性能。結(jié)果表明,SUDE在類簇分離和計(jì)算效率方面具有顯著優(yōu)勢(shì)。在小數(shù)據(jù)集上,SUDE在局部結(jié)構(gòu)保持方面表現(xiàn)相對(duì)較差,但在大多數(shù)大型數(shù)據(jù)集上,除BH-t-SNE外,其性能優(yōu)于其他方法。在全局結(jié)構(gòu)保留方面,基于神經(jīng)網(wǎng)絡(luò)的方法 (如TopoAE和P-UMAP) 在保持等距關(guān)系方面表現(xiàn)出色。用戶可以根據(jù)實(shí)際需求選擇合適的流形學(xué)習(xí)方法,當(dāng)優(yōu)先考慮聚類分離度和計(jì)算效率時(shí),SUDE會(huì)是一個(gè)合適的選擇。

此外,論文附錄 (Supplementary Information) 中還包含更多討論和推導(dǎo),歡迎感興趣的讀者下載閱讀:

* 為什么需要流形學(xué)習(xí)?(Supplementary Note 5)

* 為什么需要均勻采樣?(Supplementary Note 6)

* 為什么在PPS采樣中需要RNN降序排列?(Supplementary Note 7)

* 為什么對(duì)數(shù)低維概率分布是有效的?(Supplementary Note 8)

* 欠采樣會(huì)帶來(lái)哪些負(fù)面影響?(Supplementary Note 9)

* 為什么早期聚合能夠緩解欠采樣問(wèn)題?(Supplementary Note 10)

* CLLE是如何規(guī)避臟簇的產(chǎn)生?(Supplementary Note 11)

作者介紹


彭德華:武漢大學(xué)遙感信息工程學(xué)院弘毅博士后,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)與地理空間智能。


桂志鵬:武漢大學(xué)遙感信息工程學(xué)院教授、副院長(zhǎng),主要研究方時(shí)空數(shù)據(jù)挖掘及地理信息系統(tǒng)的理論與應(yīng)用研究。


衛(wèi)文章:武漢大學(xué)遙感信息工程學(xué)院25級(jí)博士生,主要研究方向?yàn)閳D文匹配與多模態(tài)大模型。


栗法:德州大學(xué)奧斯汀分校助理教授,主要研究方向?yàn)橐盎鸨O(jiān)測(cè)與可解釋AI。


桂杰:東南大學(xué)網(wǎng)絡(luò)空間安全學(xué)院教授,研究方向?yàn)闄C(jī)器學(xué)習(xí)、模式識(shí)別與大模型。


吳華意:武漢大學(xué)測(cè)繪遙感信息工程全國(guó)重點(diǎn)實(shí)驗(yàn)室教授,主要研究方向?yàn)榈乩硇畔⒎?wù)與地學(xué)大模型。


龔健雅:中國(guó)科學(xué)院院士、武漢大學(xué)遙感信息工程學(xué)院和測(cè)繪遙感信息工程全國(guó)重點(diǎn)實(shí)驗(yàn)室教授,主要研究方向?yàn)榈乩硇畔⒗碚摵蛶缀芜b感基礎(chǔ)研究。

論文鏈接https://www.nature.com/articles/s42256-025-01112-9 代碼鏈接https://github.com/ZPGuiGroupWhu/sude

拓?fù)鋵W(xué)課程:從空間直覺(jué)到系統(tǒng)科學(xué)

你是否曾思考過(guò):為什么咖啡杯在數(shù)學(xué)上可以變成甜甜圈?為什么混沌系統(tǒng)中會(huì)出現(xiàn)周期軌、可約化結(jié)構(gòu)和“奇怪吸引子”模式?為什么神經(jīng)網(wǎng)絡(luò)、量子物理甚至心理結(jié)構(gòu),都可以從“拓?fù)洹苯嵌壤斫猓?/p>

拓?fù)鋵W(xué)不僅是數(shù)學(xué)的抽象分支,更提供了系統(tǒng)的思維方式,讓我們理解連續(xù)性、結(jié)構(gòu)不變性乃至復(fù)雜系統(tǒng)的整體規(guī)律。從歐拉七橋問(wèn)題到DNA的纏結(jié),從量子場(chǎng)論到思維科學(xué)與腦科學(xué),拓?fù)鋵W(xué)思想正在各學(xué)科中普遍而深刻地重塑著我們的認(rèn)知方式。

集智學(xué)園聯(lián)合北京大學(xué)博士金威老師開(kāi)設(shè),課程于11月23日開(kāi)啟,歡迎感興趣的讀者加入。


詳情請(qǐng)見(jiàn):

1.

2.

3.

4.

5.

6.

7.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
官媒曝光68歲閻維文處境,李雙江預(yù)言成真

官媒曝光68歲閻維文處境,李雙江預(yù)言成真

余塩搞笑段子
2026-01-14 13:04:37
網(wǎng)傳甘肅一中學(xué)超長(zhǎng)作息表:早5點(diǎn)35讀書,晚11點(diǎn)20放學(xué),早晚餐25分鐘;當(dāng)?shù)亟逃郑簠⒖纪獾刂朴?,未?zhí)行

網(wǎng)傳甘肅一中學(xué)超長(zhǎng)作息表:早5點(diǎn)35讀書,晚11點(diǎn)20放學(xué),早晚餐25分鐘;當(dāng)?shù)亟逃郑簠⒖纪獾刂朴?,未?zhí)行

大風(fēng)新聞
2026-02-25 19:49:04
秦朝竹簡(jiǎn)破譯,歷史再無(wú)秘密!秦始皇被黑2000年,這下“大白”了

秦朝竹簡(jiǎn)破譯,歷史再無(wú)秘密!秦始皇被黑2000年,這下“大白”了

銘記歷史呀
2026-01-16 14:13:16
NBA積分榜又亂了!雷霆3連勝穩(wěn)居第1,哈登20+4騎士15分大勝

NBA積分榜又亂了!雷霆3連勝穩(wěn)居第1,哈登20+4騎士15分大勝

薇說(shuō)體育
2026-02-25 11:47:15
按照川普在國(guó)會(huì)說(shuō)的,即使伊朗在核方面滿足要求,也還是可以打

按照川普在國(guó)會(huì)說(shuō)的,即使伊朗在核方面滿足要求,也還是可以打

邵旭峰域
2026-02-26 10:30:08
《鏢人》逆跌,4人零差評(píng),4人升咖,2人翻紅,只有他被罵慘!

《鏢人》逆跌,4人零差評(píng),4人升咖,2人翻紅,只有他被罵慘!

白日追夢(mèng)人
2026-02-24 04:04:34
她18歲為人母,25歲四登春晚,跟枕邊人睡4年才知對(duì)方是“逃犯”

她18歲為人母,25歲四登春晚,跟枕邊人睡4年才知對(duì)方是“逃犯”

墨印齋
2026-02-26 04:51:25
四川26歲男子離世:初三去奶奶墳前,遺體距家不遠(yuǎn),手機(jī)留著遺言

四川26歲男子離世:初三去奶奶墳前,遺體距家不遠(yuǎn),手機(jī)留著遺言

墨印齋
2026-02-26 04:11:04
1960年,毛主席在杭州聽(tīng)?wèi)?,演出結(jié)束,主席興猶未盡,想見(jiàn)一人

1960年,毛主席在杭州聽(tīng)?wèi)颍莩鼋Y(jié)束,主席興猶未盡,想見(jiàn)一人

輿圖看世界
2026-02-25 10:45:04
找茬!裁判判罰孫穎莎拖延時(shí)間出示黃牌一張,莎莎一臉錯(cuò)愕冷靜接受

找茬!裁判判罰孫穎莎拖延時(shí)間出示黃牌一張,莎莎一臉錯(cuò)愕冷靜接受

818體育
2026-02-25 23:07:06
短劇市場(chǎng)風(fēng)云突變!有人投100多萬(wàn)賠得精光,有人只回款幾百元!從業(yè)者:當(dāng)紅演員日薪5萬(wàn),請(qǐng)兩位片酬輕松破百萬(wàn)

短劇市場(chǎng)風(fēng)云突變!有人投100多萬(wàn)賠得精光,有人只回款幾百元!從業(yè)者:當(dāng)紅演員日薪5萬(wàn),請(qǐng)兩位片酬輕松破百萬(wàn)

每日經(jīng)濟(jì)新聞
2026-02-25 23:43:07
金字塔碳14檢測(cè)后,真相混亂到讓學(xué)界集體“瘋魔”

金字塔碳14檢測(cè)后,真相混亂到讓學(xué)界集體“瘋魔”

混沌錄
2026-02-25 22:30:19
不增反降!特斯拉Model Y換裝4680電池:續(xù)航銳減19公里

不增反降!特斯拉Model Y換裝4680電池:續(xù)航銳減19公里

快科技
2026-02-24 15:14:22
我為什么那么厭惡高市早苗

我為什么那么厭惡高市早苗

天真無(wú)牙
2026-02-23 11:06:20
濃眉交易撿寶!選秀力壓東契奇的天才,19分鐘砍22+5,才308萬(wàn)

濃眉交易撿寶!選秀力壓東契奇的天才,19分鐘砍22+5,才308萬(wàn)

你的籃球頻道
2026-02-25 11:52:18
突發(fā)!哈登骨折!帶傷出戰(zhàn)背靠背!太硬硬硬了!

突發(fā)!哈登骨折!帶傷出戰(zhàn)背靠背!太硬硬硬了!

貴圈真亂
2026-02-26 09:25:35
許家印身后,江蘇包工頭黃裕輝被恒大拖欠360億,82個(gè)項(xiàng)目停工

許家印身后,江蘇包工頭黃裕輝被恒大拖欠360億,82個(gè)項(xiàng)目停工

復(fù)轉(zhuǎn)小能手
2026-02-25 23:39:49
斯諾克戰(zhàn)報(bào)!6場(chǎng)4-2,巫師險(xiǎn)翻車,2大TOP16掉隊(duì),中國(guó)5人進(jìn)16強(qiáng)

斯諾克戰(zhàn)報(bào)!6場(chǎng)4-2,巫師險(xiǎn)翻車,2大TOP16掉隊(duì),中國(guó)5人進(jìn)16強(qiáng)

劉姚堯的文字城堡
2026-02-26 08:34:03
5-0,41歲C羅興奮揮手慶祝:一球一助,率隊(duì)10連勝+一夜升至榜首

5-0,41歲C羅興奮揮手慶祝:一球一助,率隊(duì)10連勝+一夜升至榜首

側(cè)身凌空斬
2026-02-26 04:54:34
C919首批訂單全部交付后,出現(xiàn)意想不到的情況

C919首批訂單全部交付后,出現(xiàn)意想不到的情況

米師傅安裝
2026-02-26 02:56:03
2026-02-26 11:44:49
集智俱樂(lè)部 incentive-icons
集智俱樂(lè)部
科普人工智能相關(guān)知識(shí)技能
5674文章數(shù) 4664關(guān)注度
往期回顧 全部

科技要聞

單季營(yíng)收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

"霍金與比基尼女性同游照"現(xiàn)愛(ài)潑斯坦檔案 曾被"辟謠"

頭條要聞

"霍金與比基尼女性同游照"現(xiàn)愛(ài)潑斯坦檔案 曾被"辟謠"

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂(lè)要聞

尼格買提撒貝寧滑雪被偶遇 17年老友情

財(cái)經(jīng)要聞

短劇市場(chǎng)風(fēng)云突變!有人投百萬(wàn)賠得精光

汽車要聞

第五代宏光MINIEV煥新 四門玩趣代步車來(lái)襲

態(tài)度原創(chuàng)

本地
藝術(shù)
游戲
健康
家居

本地新聞

津南好·四時(shí)總相宜

藝術(shù)要聞

2025年百家金陵畫展 | 油畫作品選刊

外媒給《生化9》打滿分:《生化》系列的終極之作

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

家居要聞

歸隱于都市 慢享自由

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版