国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

【金猿案例展】XSKY 星辰天合——前沿大模型AI數(shù)據(jù)湖實(shí)踐

0
分享至



XSKY 星辰天合案例

該AI Infra案例由XSKY 星辰天合投遞并參與金猿組委會(huì)×數(shù)據(jù)猿×上海大數(shù)據(jù)聯(lián)盟共同推出的《2025中國(guó)大數(shù)據(jù)產(chǎn)業(yè)年度AI Infra領(lǐng)先企業(yè)》榜單/獎(jiǎng)項(xiàng)評(píng)選。

隨著大語(yǔ)言模型(LLM)、多模態(tài)模型參數(shù)量與訓(xùn)練數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),AI 技術(shù)對(duì)數(shù)據(jù)存儲(chǔ)的“性能-成本-效率”提出三重極致要求:一方面,AI全工作流(數(shù)據(jù)采集→清洗預(yù)處理→GPU高并發(fā)訓(xùn)練→模型推理)需TB/s級(jí)帶寬與低延遲I/O,任何存儲(chǔ)瓶頸都會(huì)導(dǎo)致昂貴GPU算力閑置;另一方面,海量原始數(shù)據(jù)、中間數(shù)據(jù)、歸檔數(shù)據(jù)需長(zhǎng)期保存,單一存儲(chǔ)介質(zhì)難以平衡“高性能需求”與“成本控制”,“全閃存+混閃”的分層存儲(chǔ)已成為業(yè)界共識(shí)。

但傳統(tǒng)分層方案存在三大核心痛點(diǎn),嚴(yán)重制約AI效率:

?盲目流動(dòng)

基于數(shù)據(jù)創(chuàng)建時(shí)間(mtime)分層,高頻訪問(wèn)的訓(xùn)練集可能因“到期”被降級(jí)至慢速混閃池,導(dǎo)致訓(xùn)練性能驟降;

?割裂命名空間

數(shù)據(jù)在不同存儲(chǔ)層間流動(dòng)需手動(dòng)切換路徑/掛載點(diǎn),易因操作失誤導(dǎo)致訓(xùn)練失??;

?高昂隱性成本

為避免性能問(wèn)題,企業(yè)被迫將更多數(shù)據(jù)保留在全閃存層,或反復(fù)“搬運(yùn)”降級(jí)數(shù)據(jù)回?zé)釋樱聘呖倱碛谐杀荆═CO)。

某大型智算中心曾因開(kāi)源方案缺乏智能分層能力,數(shù)據(jù)預(yù)處理效率低下,GPU 等待時(shí)間過(guò)長(zhǎng),無(wú)法實(shí)現(xiàn)“熱數(shù)據(jù)高性能訓(xùn)練、冷數(shù)據(jù)自動(dòng)歸檔”的順暢流轉(zhuǎn)。為破解上述困境,北京星辰天合科技股份有限公司基于XEOS對(duì)象存儲(chǔ),推出“XEOS AI數(shù)據(jù)湖方案”,通過(guò)智能數(shù)據(jù)流動(dòng)機(jī)制,重塑AI分層存儲(chǔ)邏輯,為頭部AGI廠商、國(guó)家級(jí)AI實(shí)驗(yàn)室、大型智算中心提供高效數(shù)據(jù)底座。

時(shí)間周期:

開(kāi)始時(shí)間:2024年10月12日

中間重要時(shí)間節(jié)點(diǎn):

?項(xiàng)目第一批交付時(shí)間為2024年10月至12月,共交付不同地域機(jī)房的4個(gè)集群,總計(jì)約9PB容量;

?項(xiàng)目第二批交付時(shí)間為2025年2月至6月,新增2個(gè)地域機(jī)房的2個(gè)集群,同時(shí)擴(kuò)容原有的3個(gè)集群,共計(jì)約46PB。

完結(jié)時(shí)間:2025年6月

AI Infra應(yīng)用需求

隨著大語(yǔ)言模型(LLM)、多模態(tài)模型參數(shù)量與訓(xùn)練數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),AI 技術(shù)對(duì)數(shù)據(jù)存儲(chǔ)的“性能-成本-效率”提出三重極致要求。

一方面,AI全工作流(數(shù)據(jù)采集→清洗預(yù)處理→GPU高并發(fā)訓(xùn)練→模型推理)需TB/s級(jí)帶寬與低延遲I/O,任何存儲(chǔ)瓶頸都會(huì)導(dǎo)致昂貴GPU算力閑置。在數(shù)據(jù)采集階段,大量的原始數(shù)據(jù)需要快速地傳輸?shù)酱鎯?chǔ)系統(tǒng)中,這就要求存儲(chǔ)系統(tǒng)具備高帶寬的寫(xiě)入能力。例如,在一些大規(guī)模的圖像識(shí)別項(xiàng)目中,每天需要采集數(shù)百萬(wàn)張圖片,這些圖片的數(shù)據(jù)量可能達(dá)到數(shù)百GB甚至數(shù)TB,如果存儲(chǔ)系統(tǒng)的寫(xiě)入帶寬不足,就會(huì)導(dǎo)致數(shù)據(jù)采集的速度變慢,影響整個(gè)項(xiàng)目的進(jìn)度。

在清洗預(yù)處理階段,數(shù)據(jù)需要進(jìn)行各種處理和轉(zhuǎn)換,這就要求存儲(chǔ)系統(tǒng)具備高帶寬的讀取能力。例如,在一些自然語(yǔ)言處理項(xiàng)目中,需要對(duì)大量的文本數(shù)據(jù)進(jìn)行分詞、詞性標(biāo)注等處理,這些處理需要頻繁地讀取存儲(chǔ)系統(tǒng)中的數(shù)據(jù),如果存儲(chǔ)系統(tǒng)的讀取帶寬不足,就會(huì)導(dǎo)致處理速度變慢,影響整個(gè)項(xiàng)目的效率。

在GPU高并發(fā)訓(xùn)練階段,大量的GPU需要同時(shí)訪問(wèn)存儲(chǔ)系統(tǒng)中的數(shù)據(jù),這就要求存儲(chǔ)系統(tǒng)具備低延遲的I/O能力。例如,在一些深度學(xué)習(xí)項(xiàng)目中,需要使用數(shù)千個(gè)GPU進(jìn)行并行訓(xùn)練,如果存儲(chǔ)系統(tǒng)的I/O延遲過(guò)高,就會(huì)導(dǎo)致GPU等待數(shù)據(jù)的時(shí)間過(guò)長(zhǎng),影響整個(gè)訓(xùn)練的速度和效率。

另一方面,海量原始數(shù)據(jù)、中間數(shù)據(jù)、歸檔數(shù)據(jù)需長(zhǎng)期保存,單一存儲(chǔ)介質(zhì)難以平衡“高性能需求”與“成本控制”,“全閃存+混閃”的分層存儲(chǔ)已成為業(yè)界共識(shí)。全閃存存儲(chǔ)介質(zhì)具備高性能、低延遲的特點(diǎn),適合存儲(chǔ)熱點(diǎn)數(shù)據(jù)和頻繁訪問(wèn)的數(shù)據(jù);而混閃存儲(chǔ)介質(zhì)則具備大容量、低成本的特點(diǎn),適合存儲(chǔ)冷數(shù)據(jù)和長(zhǎng)期保存的數(shù)據(jù)。通過(guò)將不同類(lèi)型的數(shù)據(jù)存儲(chǔ)在不同的存儲(chǔ)介質(zhì)中,可以實(shí)現(xiàn)性能與成本的平衡,提高整個(gè)存儲(chǔ)系統(tǒng)的效率和性?xún)r(jià)比。

綜上所述,AI技術(shù)對(duì)數(shù)據(jù)存儲(chǔ)的“性能-成本-效率”提出了極高的要求,需要采用分層存儲(chǔ)等技術(shù)來(lái)滿(mǎn)足這些要求。

面臨挑戰(zhàn)

在當(dāng)今人工智能技術(shù)如日中天、飛速發(fā)展的時(shí)代,數(shù)據(jù)存儲(chǔ)對(duì)于AI效率的影響日益凸顯,已經(jīng)成為制約其進(jìn)一步發(fā)展的關(guān)鍵因素。然而,傳統(tǒng)分層方案卻存在著三大核心痛點(diǎn),如同三道難以逾越的關(guān)卡,嚴(yán)重制約著AI效率的提升。

首先是令人頭疼的“盲目流動(dòng)”問(wèn)題。傳統(tǒng)方案在進(jìn)行數(shù)據(jù)分層時(shí),往往機(jī)械地基于數(shù)據(jù)創(chuàng)建時(shí)間(mtime)來(lái)操作。這種簡(jiǎn)單粗暴的分層方式,會(huì)使得那些在AI訓(xùn)練過(guò)程中被高頻訪問(wèn)的訓(xùn)練集,僅僅因?yàn)闀r(shí)間限制“到期”,就被無(wú)情地降級(jí)至慢速混閃池。想象一下,一個(gè)正處于關(guān)鍵訓(xùn)練階段、被頻繁調(diào)用的數(shù)據(jù)集,就像一位在戰(zhàn)場(chǎng)上沖鋒陷陣的勇士,突然被剝奪了精良的裝備,被扔到了后方。這直接導(dǎo)致訓(xùn)練性能急劇下降,使得原本昂貴的GPU算力大量閑置,就如同將珍貴的資源白白浪費(fèi),嚴(yán)重阻礙了AI訓(xùn)練的正常進(jìn)程。

其次,“割裂命名空間”帶來(lái)的麻煩也不容小覷。當(dāng)數(shù)據(jù)需要在不同存儲(chǔ)層間流動(dòng)時(shí),數(shù)據(jù)科學(xué)家不得不手動(dòng)切換路徑或掛載點(diǎn)。這一過(guò)程就像是在一個(gè)錯(cuò)綜復(fù)雜的迷宮中摸索前行,不僅操作復(fù)雜繁瑣,而且極易因?yàn)槿藶榈氖韬龌蚴д`導(dǎo)致訓(xùn)練失敗。在大型AI項(xiàng)目中,數(shù)據(jù)量龐大且流動(dòng)頻繁,哪怕是一個(gè)細(xì)微的路徑輸入錯(cuò)誤,就如同在精密的機(jī)器中放入了一顆錯(cuò)誤的螺絲釘,都可能使得整個(gè)訓(xùn)練任務(wù)前功盡棄,讓之前投入的大量時(shí)間和資源付諸東流。

最后,“高昂隱性成本”成為了企業(yè)沉重的負(fù)擔(dān)。為了避免因數(shù)據(jù)存儲(chǔ)問(wèn)題導(dǎo)致的性能下降,企業(yè)無(wú)奈之下只能采取一些“無(wú)奈之舉”。要么將更多的數(shù)據(jù)保留在全閃存層,這無(wú)疑增加了存儲(chǔ)設(shè)備的采購(gòu)成本;要么反復(fù)將降級(jí)的數(shù)據(jù)“搬運(yùn)”回?zé)釋樱@不僅消耗了大量的人力,還浪費(fèi)了寶貴的時(shí)間。這些額外的成本不斷累積,極大地推高了總擁有成本(TCO)。長(zhǎng)此以往,企業(yè)在 AI投入上的經(jīng)濟(jì)壓力愈發(fā)沉重,就像背著沉重的包袱在前行,舉步維艱。

戰(zhàn)略目標(biāo)

構(gòu)建AI Infra所期望達(dá)成的頂層戰(zhàn)略目標(biāo),旨在為從數(shù)據(jù)預(yù)處理到模型訓(xùn)練、推理的全流程業(yè)務(wù)提供堅(jiān)實(shí)且高效的方案支撐。

在頭部AGI廠商場(chǎng)景中,該戰(zhàn)略目標(biāo)聚焦于應(yīng)對(duì)高負(fù)荷的數(shù)據(jù)讀寫(xiě)需求。要能夠穩(wěn)定承載周期性近2Tbps的寫(xiě)入,以及承受峰值5Tbps的突發(fā)讀取。更為關(guān)鍵的是,將數(shù)據(jù)處理的時(shí)延嚴(yán)格控制在8ms以?xún)?nèi)。如此一來(lái),便能確保在數(shù)據(jù)高速流轉(zhuǎn)的過(guò)程中,頭部AGI廠商的業(yè)務(wù)可以高效、穩(wěn)定地運(yùn)行,避免因數(shù)據(jù)處理不及時(shí)而導(dǎo)致的業(yè)務(wù)停滯或效率下降。

在大型智算中心場(chǎng)景方面,戰(zhàn)略目標(biāo)體現(xiàn)為在短時(shí)間內(nèi)實(shí)現(xiàn)數(shù)據(jù)的快速增長(zhǎng)與高效處理。要在4個(gè)月內(nèi)支撐超20PB的數(shù)據(jù)增長(zhǎng),并且達(dá)到149.34GB/s的讀取峰值。通過(guò)這樣的能力提升,能夠顯著提高數(shù)據(jù)預(yù)處理的效率,相較于原開(kāi)源方案可提升300%。這種效率的大幅提升意義重大,它可以徹底解決GPU算力閑置的問(wèn)題,讓GPU資源得到充分利用,從而提高整個(gè)智算中心的運(yùn)算效率,降低運(yùn)營(yíng)成本,推動(dòng)大型智算中心在人工智能領(lǐng)域發(fā)揮更大的作用,為AI技術(shù)的發(fā)展提供強(qiáng)大的基礎(chǔ)支撐。

實(shí)施與部署過(guò)程

在人工智能(AI)領(lǐng)域蓬勃發(fā)展的當(dāng)下,數(shù)據(jù)量呈現(xiàn)出“爆發(fā)式增長(zhǎng)”的態(tài)勢(shì),大模型訓(xùn)練對(duì)數(shù)據(jù)存儲(chǔ)的性能、可靠性和管理效率提出了前所未有的挑戰(zhàn)。傳統(tǒng)的數(shù)據(jù)存儲(chǔ)架構(gòu)在應(yīng)對(duì)這些挑戰(zhàn)時(shí)逐漸顯得力不從心,如多存儲(chǔ)層割裂導(dǎo)致的數(shù)據(jù)搬運(yùn)成本高、性能損耗大,按創(chuàng)建時(shí)間分層無(wú)法精準(zhǔn)適配數(shù)據(jù)實(shí)際訪問(wèn)模式等問(wèn)題。為了滿(mǎn)足AI數(shù)據(jù)存儲(chǔ)的“高并發(fā)、高帶寬”需求,提升數(shù)據(jù)管理的智能化水平,一套創(chuàng)新型的AI數(shù)據(jù)存儲(chǔ)解決方案應(yīng)運(yùn)而生。

1.技術(shù)創(chuàng)新:重構(gòu)AI數(shù)據(jù)分層邏輯

·基于訪問(wèn)時(shí)間(atime)的智能生命周期管理

傳統(tǒng)的數(shù)據(jù)分層方式往往是“按創(chuàng)建時(shí)間分層”,這種方式存在明顯的局限性,無(wú)法準(zhǔn)確反映數(shù)據(jù)的實(shí)際使用頻率。而本方案打破了這一局限,引入了基于訪問(wèn)時(shí)間(atime)的智能生命周期管理機(jī)制。系統(tǒng)具備實(shí)時(shí)感知數(shù)據(jù)訪問(wèn)行為的能力,能夠精準(zhǔn)捕獲如GetObject/HeadObject等操作。每一次數(shù)據(jù)訪問(wèn)都會(huì)自動(dòng)刷新atime,這意味著數(shù)據(jù)的分層計(jì)劃會(huì)根據(jù)其實(shí)際訪問(wèn)情況動(dòng)態(tài)調(diào)整。

對(duì)于高頻訓(xùn)練數(shù)據(jù)集,由于其訪問(wèn)頻繁,atime會(huì)不斷更新,從而可以長(zhǎng)期駐留在全閃熱層。全閃熱層具有高速讀寫(xiě)的特性,能夠?yàn)槟P陀?xùn)練和推理提供穩(wěn)定的高性能支持,保障訓(xùn)練性能的穩(wěn)定性。而那些“長(zhǎng)期無(wú)訪問(wèn)”的冷數(shù)據(jù),則會(huì)自動(dòng)流向低成本混閃池。混閃池采用“SSD+HDD”的架構(gòu),在保證一定性能的同時(shí),有效降低了存儲(chǔ)成本。這種智能的生命周期管理機(jī)制,使得數(shù)據(jù)存儲(chǔ)資源得到了更加合理的分配,提高了整體存儲(chǔ)系統(tǒng)的性?xún)r(jià)比。

2.分層數(shù)據(jù)訪問(wèn)增強(qiáng):透明化+自動(dòng)緩存

為了提升數(shù)據(jù)訪問(wèn)的效率和用戶(hù)體驗(yàn),本方案實(shí)現(xiàn)了“一次慢、次次快”的訪問(wèn)模式,主要通過(guò)透明化和自動(dòng)緩存機(jī)制來(lái)實(shí)現(xiàn)。

·透明訪問(wèn)

上層應(yīng)用無(wú)需關(guān)心數(shù)據(jù)具體存儲(chǔ)在哪一層,在統(tǒng)一命名空間下,數(shù)據(jù)的訪問(wèn)路徑保持不變。這避免了用戶(hù)手動(dòng)切換存儲(chǔ)層時(shí)可能出現(xiàn)的失誤,降低了使用門(mén)檻,提高了操作的便捷性。

·自動(dòng)緩存回?zé)?/strong>

當(dāng)首次訪問(wèn)冷層數(shù)據(jù)時(shí),系統(tǒng)會(huì)異步將數(shù)據(jù)緩存至熱層。后續(xù)對(duì)該數(shù)據(jù)的訪問(wèn)將直接從熱層讀取,大大提高了訪問(wèn)速度。這種機(jī)制使得冷層數(shù)據(jù)在被訪問(wèn)后能夠快速“回?zé)帷?,充分利用了熱層的高性能?yōu)勢(shì)。

·訪問(wèn)續(xù)期

每一次對(duì)緩存數(shù)據(jù)的訪問(wèn)都會(huì)刷新其過(guò)期時(shí)間,確保熱點(diǎn)數(shù)據(jù)能夠長(zhǎng)期駐留在高速層。這樣可以持續(xù)為高頻訪問(wèn)的數(shù)據(jù)提供快速響應(yīng),避免了因數(shù)據(jù)過(guò)期被清理而導(dǎo)致的性能下降。

·主動(dòng)預(yù)熱

系統(tǒng)支持通過(guò)批量HeadObject操作提前預(yù)熱數(shù)據(jù)集。這意味著用戶(hù)可以在需要使用某些數(shù)據(jù)之前,主動(dòng)將其加載到熱層,從而實(shí)現(xiàn)首次訪問(wèn)即達(dá)極致性能,進(jìn)一步提升了數(shù)據(jù)訪問(wèn)的效率。

2.架構(gòu)創(chuàng)新:統(tǒng)一命名空間下的高效分層架構(gòu)

傳統(tǒng)的存儲(chǔ)架構(gòu)存在“多存儲(chǔ)層割裂”的問(wèn)題,不同存儲(chǔ)層之間的數(shù)據(jù)搬運(yùn)操作成本高,且會(huì)導(dǎo)致性能損耗。本方案摒棄了這種傳統(tǒng)設(shè)計(jì),在統(tǒng)一命名空間內(nèi)整合了“高性能全閃熱層”與“大容量混閃溫冷層”。

·分層功能與職責(zé)

熱層采用全閃存介質(zhì),針對(duì)模型訓(xùn)練、推理等高頻訪問(wèn)場(chǎng)景進(jìn)行了優(yōu)化。它能夠提供低至毫秒級(jí)的時(shí)延和TB/s級(jí)的帶寬,滿(mǎn)足GPU集群高并發(fā)數(shù)據(jù)加載的需求,為AI模型的訓(xùn)練和推理提供了強(qiáng)大的性能支持。溫冷層則采用“SSD+HDD”的混閃架構(gòu),以較低的成本承載原始數(shù)據(jù)、中間結(jié)果、訓(xùn)練日志等低頻訪問(wèn)數(shù)據(jù)。同時(shí),溫冷層支持自動(dòng)歸檔與生命周期清理功能,能夠有效管理長(zhǎng)期存儲(chǔ)的數(shù)據(jù)。

·數(shù)據(jù)流動(dòng)優(yōu)勢(shì)

在數(shù)據(jù)在層間流動(dòng)時(shí),訪問(wèn)路徑和權(quán)限控制保持一致。這意味著用戶(hù)無(wú)需擔(dān)心數(shù)據(jù)遷移過(guò)程中出現(xiàn)的權(quán)限問(wèn)題和路徑變更問(wèn)題,徹底消除了“數(shù)據(jù)搬運(yùn)”的操作成本與性能損耗。數(shù)據(jù)可以在熱層和溫冷層之間智能流動(dòng),根據(jù)其實(shí)際使用情況動(dòng)態(tài)調(diào)整存儲(chǔ)位置,實(shí)現(xiàn)了數(shù)據(jù)的高效管理和利用。

3.性能創(chuàng)新:TB/s級(jí)帶寬與金融級(jí)可靠性

·分布式架構(gòu)與線性擴(kuò)展

本方案基于分布式架構(gòu)設(shè)計(jì),具有良好的擴(kuò)展性。單集群可承載EB級(jí)容量,能夠輕松應(yīng)對(duì)AI數(shù)據(jù)的“爆發(fā)式增長(zhǎng)”。隨著數(shù)據(jù)量的增加,系統(tǒng)可以通過(guò)線性擴(kuò)展的方式,添加更多的存儲(chǔ)節(jié)點(diǎn)來(lái)提升整體存儲(chǔ)容量和性能。這種擴(kuò)展性使得系統(tǒng)能夠適應(yīng)不斷變化的業(yè)務(wù)需求,為企業(yè)的長(zhǎng)期發(fā)展提供了有力保障。

·優(yōu)化I/O調(diào)度算法

為了在極限壓力下仍能保持低時(shí)延,方案對(duì)I/O調(diào)度算法進(jìn)行了優(yōu)化。在頭部AGI廠商場(chǎng)景中,系統(tǒng)的峰值讀取帶寬可達(dá)5Tbps,讀取時(shí)延≤8ms;在智算中心場(chǎng)景中,讀取峰值達(dá)149.34GB/s。這些數(shù)據(jù)表明,系統(tǒng)能夠滿(mǎn)足大模型“高并發(fā)、高帶寬”的訓(xùn)練需求,為AI模型的高效訓(xùn)練提供了堅(jiān)實(shí)的性能基礎(chǔ)。

·金融級(jí)可靠性

系統(tǒng)繼承了星辰天合企業(yè)級(jí)存儲(chǔ)的金融級(jí)可靠性,數(shù)據(jù)可用性達(dá) 99.9999%。這意味著在實(shí)際應(yīng)用中,數(shù)據(jù)能夠得到高度的保障,減少了因數(shù)據(jù)丟失或損壞而導(dǎo)致的業(yè)務(wù)中斷風(fēng)險(xiǎn)。對(duì)于金融、醫(yī)療等對(duì)數(shù)據(jù)可靠性要求極高的行業(yè),這種高可靠性的存儲(chǔ)系統(tǒng)具有重要的意義。

4.技術(shù)方案

架構(gòu)設(shè)計(jì):“一層兩面”智能數(shù)據(jù)湖架構(gòu)

·統(tǒng)一命名空間層

統(tǒng)一命名空間層是整個(gè)架構(gòu)的核心,它實(shí)現(xiàn)了“數(shù)據(jù)位置透明化”。無(wú)論數(shù)據(jù)存于全閃熱層還是混閃溫冷層,應(yīng)用均可以通過(guò)統(tǒng)一路徑訪問(wèn),無(wú)需修改代碼或切換掛載點(diǎn)。這大大簡(jiǎn)化了應(yīng)用開(kāi)發(fā)和運(yùn)維的難度,提高了系統(tǒng)的兼容性和可維護(hù)性。同時(shí),該層集成了權(quán)限管理和元數(shù)據(jù)索引功能,能夠有效保障數(shù)據(jù)安全,提高數(shù)據(jù)檢索效率。通過(guò)權(quán)限管理,企業(yè)可以對(duì)不同用戶(hù)或用戶(hù)組設(shè)置不同的訪問(wèn)權(quán)限,確保數(shù)據(jù)的安全性;元數(shù)據(jù)索引則可以快速定位數(shù)據(jù),提高數(shù)據(jù)查詢(xún)的速度。

作為架構(gòu)核心,實(shí)現(xiàn)“數(shù)據(jù)位置透明化”——無(wú)論數(shù)據(jù)存于全閃熱層還是混閃溫冷層,應(yīng)用均通過(guò)統(tǒng)一路徑訪問(wèn),無(wú)需修改代碼或切換掛載點(diǎn);同時(shí)集成權(quán)限管理、元數(shù)據(jù)索引功能,保障數(shù)據(jù)安全與檢索效率。

·熱層(高性能全閃)

熱層采用全閃存介質(zhì),針對(duì)模型訓(xùn)練、推理等高頻訪問(wèn)場(chǎng)景進(jìn)行了深度優(yōu)化。它能夠提供低至毫秒級(jí)的時(shí)延和TB/s級(jí)的帶寬,滿(mǎn)足GPU集群高并發(fā)數(shù)據(jù)加載需求。在實(shí)際應(yīng)用中,熱層可以為AI模型的訓(xùn)練和推理提供快速的數(shù)據(jù)支持,提高訓(xùn)練效率和模型性能。

·溫冷層(大容量混閃)

溫冷層采用“SSD+HDD”的混閃架構(gòu),以低成本承載原始數(shù)據(jù)、中間結(jié)果、訓(xùn)練日志等低頻訪問(wèn)數(shù)據(jù)。該層支持自動(dòng)歸檔與生命周期清理功能,能夠有效管理長(zhǎng)期存儲(chǔ)的數(shù)據(jù)。通過(guò)自動(dòng)歸檔,企業(yè)可以將不再頻繁使用的數(shù)據(jù)進(jìn)行長(zhǎng)期保存;生命周期清理則可以定期清理過(guò)期數(shù)據(jù),釋放存儲(chǔ)資源。

·智能流動(dòng)引擎

智能流動(dòng)引擎是實(shí)現(xiàn)數(shù)據(jù)智能管理的關(guān)鍵組件,它基于atime生命周期策略與自動(dòng)緩存機(jī)制,實(shí)現(xiàn)了“冷數(shù)據(jù)智能沉降”和“熱數(shù)據(jù)自動(dòng)回?zé)帷?。長(zhǎng)期無(wú)訪問(wèn)的數(shù)據(jù)會(huì)從熱層自動(dòng)遷移至溫冷層,實(shí)現(xiàn)冷數(shù)據(jù)的智能沉降;而當(dāng)冷層數(shù)據(jù)被訪問(wèn)時(shí),會(huì)自動(dòng)緩存至熱層,實(shí)現(xiàn)熱數(shù)據(jù)的自動(dòng)回?zé)帷U麄€(gè)過(guò)程無(wú)需人工干預(yù),大大提高了數(shù)據(jù)管理的效率和智能化水平。



關(guān)鍵技術(shù)實(shí)現(xiàn)

·atime精準(zhǔn)感知

通過(guò)內(nèi)核級(jí)優(yōu)化,系統(tǒng)能夠?qū)崟r(shí)捕獲每一次數(shù)據(jù)訪問(wèn)行為,確保atime更新延遲≤100ms。這避免了因“誤判熱點(diǎn)數(shù)據(jù)”而導(dǎo)致的性能降級(jí)。在實(shí)際應(yīng)用中,準(zhǔn)確的atime感知能夠保證數(shù)據(jù)生命周期管理的準(zhǔn)確性,使得數(shù)據(jù)能夠根據(jù)其實(shí)際使用情況進(jìn)行合理的分層和遷移。

·異步緩存調(diào)度

首次訪問(wèn)冷層數(shù)據(jù)時(shí),系統(tǒng)采用“同步返回?cái)?shù)據(jù)+異步緩存”的機(jī)制。這種機(jī)制既保障了業(yè)務(wù)的連續(xù)性,避免了額外的延遲,又實(shí)現(xiàn)了后續(xù)訪問(wèn)的加速。在實(shí)際操作中,用戶(hù)在首次訪問(wèn)冷層數(shù)據(jù)時(shí),能夠快速獲取數(shù)據(jù),同時(shí)系統(tǒng)會(huì)在后臺(tái)將數(shù)據(jù)緩存至熱層,為后續(xù)的快速訪問(wèn)做好準(zhǔn)備。

·彈性擴(kuò)容機(jī)制

系統(tǒng)支持在線擴(kuò)容,新增節(jié)點(diǎn)可以自動(dòng)加入集群并參與數(shù)據(jù)重平衡。在擴(kuò)容期間,業(yè)務(wù)不會(huì)中斷,保證了系統(tǒng)的穩(wěn)定性和可靠性。以某智算中心為例,在擴(kuò)容時(shí),訓(xùn)練任務(wù)仍能保持149.34GB/s的讀取峰值,無(wú)性能波動(dòng)。這種彈性擴(kuò)容機(jī)制使得系統(tǒng)能夠根據(jù)業(yè)務(wù)需求靈活調(diào)整存儲(chǔ)容量,適應(yīng)不斷變化的市場(chǎng)環(huán)境。

綜上所述,這套創(chuàng)新型的AI數(shù)據(jù)存儲(chǔ)解決方案通過(guò)技術(shù)創(chuàng)新、架構(gòu)創(chuàng)新和性能創(chuàng)新,為AI數(shù)據(jù)存儲(chǔ)提供了一套全面、高效、智能的解決方案。它解決了傳統(tǒng)存儲(chǔ)架構(gòu)存在的諸多問(wèn)題,能夠滿(mǎn)足AI領(lǐng)域?qū)?shù)據(jù)存儲(chǔ)的高性能、高可靠性和智能化管理的需求。隨著AI技術(shù)的不斷發(fā)展,相信這種創(chuàng)新型的存儲(chǔ)解決方案將在更多的領(lǐng)域得到廣泛應(yīng)用,為推動(dòng)AI產(chǎn)業(yè)的發(fā)展提供有力支持。

合作服務(wù)效果

1.經(jīng)濟(jì)效益

·降本

通過(guò)“智能分層+混閃架構(gòu)”,客戶(hù)存儲(chǔ)TCO平均降低30%-60%——某智算中心避免了全閃存過(guò)度配置,年節(jié)省存儲(chǔ)采購(gòu)成本超千萬(wàn)元;頭部AGI廠商通過(guò)冷數(shù)據(jù)自動(dòng)歸檔,減少30%全閃容量占用。

·增效

消除數(shù)據(jù)流動(dòng)的人工干預(yù)與性能損耗,數(shù)據(jù)預(yù)處理效率提升300%,GPU利用率提升25%-75%——某智算中心GPU等待時(shí)間從日均4小時(shí)縮短至1小時(shí),年增加模型訓(xùn)練迭代次數(shù)超50次。

·彈性擴(kuò)展

支持在線擴(kuò)容,無(wú)需停機(jī),滿(mǎn)足AI數(shù)據(jù)“爆發(fā)式增長(zhǎng)”需求——某客戶(hù)4個(gè)月內(nèi)完成20PB數(shù)據(jù)擴(kuò)容,未影響任何訓(xùn)練任務(wù),避免因擴(kuò)容中斷導(dǎo)致的研發(fā)延誤(日均損失超百萬(wàn)元)。

2.社會(huì)效益

·推動(dòng)AI技術(shù)創(chuàng)新

通過(guò)高效數(shù)據(jù)底座,釋放GPU算力,幫助頭部AGI廠商、國(guó)家級(jí)實(shí)驗(yàn)室突破模型訓(xùn)練效率瓶頸,加速SOTA模型研發(fā),助力我國(guó)AI技術(shù)在全球競(jìng)爭(zhēng)中保持領(lǐng)先。

·降低AI落地門(mén)檻

通過(guò)“高性能+低成本”的平衡方案,讓中小型AI企業(yè)無(wú)需承擔(dān)高昂全閃存成本即可獲得TB/s級(jí)存儲(chǔ)能力,推動(dòng)AI技術(shù)在制造、醫(yī)療、金融等行業(yè)的普及。

·綠色低碳

混閃架構(gòu)與智能分層減少了高能耗全閃存的使用量,某智算中心采用方案后,存儲(chǔ)系統(tǒng)年耗電量降低28%,符合“雙碳”目標(biāo),助力AI產(chǎn)業(yè)綠色發(fā)展。

關(guān)于企業(yè)

·XSKY 星辰天合

XSKY 星辰天合是面向AI時(shí)代的統(tǒng)一數(shù)據(jù)平臺(tái)提供商。十年專(zhuān)注分布式存儲(chǔ),長(zhǎng)期位列IDC市場(chǎng)報(bào)告“TOP 5”,且是唯一獨(dú)立存儲(chǔ)廠商,同時(shí)在對(duì)象存儲(chǔ)市場(chǎng)保持長(zhǎng)期領(lǐng)導(dǎo)者地位,公司產(chǎn)品已在3000+客戶(hù)的企業(yè)級(jí)生產(chǎn)環(huán)境經(jīng)受驗(yàn)證,為企業(yè)AI創(chuàng)新與數(shù)據(jù)基礎(chǔ)設(shè)施現(xiàn)代化提供可靠的數(shù)據(jù)底座。

·某通用人工智能科技公司

該企業(yè)是全球領(lǐng)先的通用人工智能(AGI)科技公司,以前沿研究持續(xù)推動(dòng)AI技術(shù)進(jìn)步,致力于實(shí)現(xiàn)通用人工智能的未來(lái)。公司自主研發(fā)了具有業(yè)界競(jìng)爭(zhēng)力的多模態(tài)通用大模型,在代碼生成、智能體(Agent)能力及超長(zhǎng)上下文處理等方面表現(xiàn)卓越,能夠深度融合并理解文本、音頻、視頻等多種信息模態(tài)。依托于核心自研模型,企業(yè)已推出一系列AI原生產(chǎn)品與開(kāi)放平臺(tái),服務(wù)范圍覆蓋全球超200個(gè)國(guó)家及地區(qū),累計(jì)觸達(dá)個(gè)人用戶(hù)突破一億,并為來(lái)自90余個(gè)國(guó)家及地區(qū)的超過(guò)5萬(wàn)家企業(yè)客戶(hù)與開(kāi)發(fā)者提供技術(shù)支持與解決方案。

以上由XSKY 星辰天合投遞申報(bào)的AI Infra案例,最終將會(huì)角逐由金猿組委會(huì)×數(shù)據(jù)猿×上海大數(shù)據(jù)聯(lián)盟聯(lián)合推出的《2025中國(guó)大數(shù)據(jù)產(chǎn)業(yè)年度AI Infra領(lǐng)先企業(yè)》榜單/獎(jiǎng)項(xiàng)。

該榜單最終將于1月上旬上海舉辦的“2025第八屆金猿大數(shù)據(jù)產(chǎn)業(yè)發(fā)展論壇——暨AI Infra & Data Agent趨勢(shì)論壇”現(xiàn)場(chǎng)首次揭曉榜單,并舉行頒獎(jiǎng)儀式,歡迎報(bào)名蒞臨現(xiàn)場(chǎng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美國(guó)童星泰勒·蔡斯流落街頭,粉絲眾籌遭拒,母親稱(chēng)兒子不需要錢(qián)

美國(guó)童星泰勒·蔡斯流落街頭,粉絲眾籌遭拒,母親稱(chēng)兒子不需要錢(qián)

瀟湘晨報(bào)
2025-12-22 12:57:16
美媒:32年來(lái)第一次,特朗普派出美軍特種部隊(duì),突襲中國(guó)遠(yuǎn)洋貨輪

美媒:32年來(lái)第一次,特朗普派出美軍特種部隊(duì),突襲中國(guó)遠(yuǎn)洋貨輪

墨印齋
2025-12-18 11:43:48
這幾個(gè)指標(biāo)正常,證明你的心臟基本沒(méi)啥大問(wèn)題,不要再亂檢查了

這幾個(gè)指標(biāo)正常,證明你的心臟基本沒(méi)啥大問(wèn)題,不要再亂檢查了

健康之光
2025-12-17 07:35:04
君島美緒:從查無(wú)此人到年拍200+部,她靠短發(fā)一刀封神鋼鐵女王!

君島美緒:從查無(wú)此人到年拍200+部,她靠短發(fā)一刀封神鋼鐵女王!

素然追光
2025-12-22 02:20:04
福原愛(ài)官宣懷孕僅一天,惡心事就發(fā)生,丈夫被扒,網(wǎng)友:生育機(jī)器

福原愛(ài)官宣懷孕僅一天,惡心事就發(fā)生,丈夫被扒,網(wǎng)友:生育機(jī)器

翰飛觀事
2025-12-22 14:19:05
88年陳偉文果斷亮劍,擊沉越軍三艘軍艦,拿下200萬(wàn)平方公里三沙市

88年陳偉文果斷亮劍,擊沉越軍三艘軍艦,拿下200萬(wàn)平方公里三沙市

睡前講故事
2025-12-21 16:02:50
扎心了!剛評(píng)上院士就被曝十余篇論文造假,已被撤回8篇高水平文章

扎心了!剛評(píng)上院士就被曝十余篇論文造假,已被撤回8篇高水平文章

TOP大學(xué)來(lái)了
2025-12-22 19:41:26
笑發(fā)財(cái)了!冬至外賣(mài)點(diǎn)水餃全靠外賣(mài)員搶?zhuān)覅s笑死在評(píng)論區(qū)!

笑發(fā)財(cái)了!冬至外賣(mài)點(diǎn)水餃全靠外賣(mài)員搶?zhuān)覅s笑死在評(píng)論區(qū)!

另子維愛(ài)讀史
2025-12-22 22:46:23
拿到了!瘋?cè)齩ffer!中國(guó)男籃的超級(jí)新星

拿到了!瘋?cè)齩ffer!中國(guó)男籃的超級(jí)新星

籃球?qū)崙?zhàn)寶典
2025-12-22 19:31:40
糖尿病的人最后是咋死的?醫(yī)生直言:大多數(shù)人會(huì)死于5個(gè)并發(fā)癥

糖尿病的人最后是咋死的?醫(yī)生直言:大多數(shù)人會(huì)死于5個(gè)并發(fā)癥

普陀動(dòng)物世界
2025-12-21 13:06:21
2026財(cái)運(yùn)最好的星座,是你嗎?

2026財(cái)運(yùn)最好的星座,是你嗎?

同道大叔
2025-12-22 22:43:29
海南封關(guān)120多萬(wàn)保時(shí)捷卡宴只賣(mài)60萬(wàn);原價(jià)60萬(wàn)寶馬X5只要35萬(wàn)!

海南封關(guān)120多萬(wàn)保時(shí)捷卡宴只賣(mài)60萬(wàn);原價(jià)60萬(wàn)寶馬X5只要35萬(wàn)!

荊楚寰宇文樞
2025-12-21 21:46:30
深圳樓市,一夜之間大翻轉(zhuǎn)。。

深圳樓市,一夜之間大翻轉(zhuǎn)。。

科學(xué)發(fā)掘
2025-12-22 15:34:46
北京工大附中體育老師去世,年僅39歲,常健身滿(mǎn)身肌肉,死因曝光

北京工大附中體育老師去世,年僅39歲,常健身滿(mǎn)身肌肉,死因曝光

法老不說(shuō)教
2025-12-22 19:19:42
突變!多哈冠軍賽已不再宣傳孫穎莎!王曼昱和張本智和成拉票靚點(diǎn)

突變!多哈冠軍賽已不再宣傳孫穎莎!王曼昱和張本智和成拉票靚點(diǎn)

好乒乓
2025-12-22 12:31:48
突發(fā)!伊薩克重傷恐賽季報(bào)銷(xiāo),利物浦急加速 6500 萬(wàn)簽鋒霸

突發(fā)!伊薩克重傷恐賽季報(bào)銷(xiāo),利物浦急加速 6500 萬(wàn)簽鋒霸

奶蓋熊本熊
2025-12-22 15:31:29
如果中國(guó)攔截美國(guó)售臺(tái)武器,天會(huì)塌下來(lái)嗎?會(huì),但那是美臺(tái)的天!

如果中國(guó)攔截美國(guó)售臺(tái)武器,天會(huì)塌下來(lái)嗎?會(huì),但那是美臺(tái)的天!

陳博世財(cái)經(jīng)
2025-12-22 10:54:48
太陽(yáng)女神去老公團(tuán)隊(duì)抓小三

太陽(yáng)女神去老公團(tuán)隊(duì)抓小三

毒舌扒姨太
2025-12-21 22:15:22
硬抗42天,日本走出了危險(xiǎn)一步,中方發(fā)出警告,條件已經(jīng)成熟

硬抗42天,日本走出了危險(xiǎn)一步,中方發(fā)出警告,條件已經(jīng)成熟

策略述
2025-12-22 15:09:07
性奴島新照片內(nèi)幕

性奴島新照片內(nèi)幕

哲空空
2025-12-21 19:05:12
2025-12-22 23:32:49
數(shù)據(jù)猿DataYuan incentive-icons
數(shù)據(jù)猿DataYuan
數(shù)據(jù)智能產(chǎn)業(yè)創(chuàng)新服務(wù)媒體
2494文章數(shù) 599關(guān)注度
往期回顧 全部

科技要聞

商湯聯(lián)創(chuàng)親自下場(chǎng) 痛批主流機(jī)器人技術(shù)大錯(cuò)

頭條要聞

韓媒:韓國(guó)四大集團(tuán)掌門(mén)人擬明年1月隨團(tuán)訪華

頭條要聞

韓媒:韓國(guó)四大集團(tuán)掌門(mén)人擬明年1月隨團(tuán)訪華

體育要聞

戴琳,中國(guó)足球的反向代言人

娛樂(lè)要聞

張柏芝不再隱瞞,三胎生父早有答案?

財(cái)經(jīng)要聞

央行信用新政:為失信者提供"糾錯(cuò)"通道

汽車(chē)要聞

可享88元抵2000元等多重權(quán)益 昊鉑A800開(kāi)啟盲訂

態(tài)度原創(chuàng)

手機(jī)
時(shí)尚
藝術(shù)
教育
旅游

手機(jī)要聞

iOS 26.2續(xù)航有沒(méi)有變化?7款iPhone測(cè)試成績(jī)參考

高能量唱跳歌手李斯丹妮的「12小時(shí)」,居然是這樣度過(guò)的?

藝術(shù)要聞

萬(wàn)年松樹(shù)開(kāi)花,震驚你的雙眼!

教育要聞

英國(guó)畢業(yè)生收入最低的大學(xué)top3!

旅游要聞

“冷資源”催生“新業(yè)態(tài)”

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版