国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

探討科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施的交付標(biāo)準(zhǔn)

0
分享至

在大模型訓(xùn)練與人工智能應(yīng)用全面普及的今天,人工智能基礎(chǔ)設(shè)施也逐漸走進(jìn)大眾視野。

“我們的模型是怎么被訓(xùn)練出來的?”“大量算力究竟跑在什么地方?”

這些原本只屬于技術(shù)團(tuán)隊(duì)的討論,如今正成為企業(yè)數(shù)字化轉(zhuǎn)型中的核心議題。

隨著算力需求以指數(shù)級(jí)增長(zhǎng),如何構(gòu)建、驗(yàn)證并交付一套穩(wěn)定、高效、可擴(kuò)展的科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施,正成為所有追求智能化競(jìng)爭(zhēng)力的組織無法回避的問題。

本篇將以此為切入點(diǎn),探討新一代科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施的交付標(biāo)準(zhǔn)與實(shí)施要點(diǎn)。

一、觀念重構(gòu):這不是服務(wù)器,是“算力生命體”

傳統(tǒng)IT基礎(chǔ)設(shè)施與科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施,到底有哪些區(qū)別呢?

在智算時(shí)代,僅僅把服務(wù)器堆在一起并配置好傳統(tǒng)網(wǎng)絡(luò)是無法完全跑通的,至少在應(yīng)用層面會(huì)遇到各種各樣的問題,最主要體現(xiàn)在兼容性、性能、可靠性等決定集群可用性的問題。

IBM在人工智能基礎(chǔ)設(shè)施報(bào)告內(nèi)指出:傳統(tǒng) IT 的核心是“穩(wěn)定與兼容”,而人工智能基礎(chǔ)設(shè)施的使命是“性能與效率”。

我們可以通過一個(gè)表格來直觀對(duì)比兩者的差異:



科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施的設(shè)計(jì)不再是單一服務(wù)器或集群的堆疊,而是一個(gè)“算力網(wǎng)絡(luò)”體系:



科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施真正的價(jià)值,在于讓算力像電力一樣可調(diào)用、像網(wǎng)絡(luò)一樣可擴(kuò)展、像系統(tǒng)一樣可自愈。

二、科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施交付標(biāo)準(zhǔn):從硬件一致到性能驗(yàn)收

在智算中心和人工智能集群的落地過程中,“交付”是質(zhì)量與可信度的分水嶺。

只有經(jīng)過嚴(yán)苛測(cè)試與標(biāo)準(zhǔn)化驗(yàn)證的系統(tǒng),才能在大模型訓(xùn)練中保持穩(wěn)定高效,來看看我們?cè)诮桓肚笆窃趺醋龅摹?/p>



數(shù)據(jù)中心基礎(chǔ)設(shè)施日益復(fù)雜,需要高效的解決方案來簡(jiǎn)化網(wǎng)絡(luò)運(yùn)營(yíng)。

NVIDIA Air 通過創(chuàng)建真實(shí)數(shù)據(jù)中心基礎(chǔ)設(shè)施部署的相同副本,提升云規(guī)模效率。

NVIDIA Air 允許用戶使用完整的軟件功能對(duì)數(shù)據(jù)中心部署進(jìn)行建模,從而創(chuàng)建數(shù)字孿生。通過仿真、驗(yàn)證以及自動(dòng)化變更和更新,轉(zhuǎn)變并加速人工智能落地時(shí)間。

基礎(chǔ)設(shè)施仿真:基于 Linux 的開放、云原生架構(gòu),可通過瀏覽器 GUI 或 CLI 表示基于NVIDIA的以太網(wǎng)交換機(jī)與通用服務(wù)器;

網(wǎng)絡(luò)即服務(wù):適用于 Cumulus Linux、SONiC 和 NetQ 等網(wǎng)絡(luò)軟件堆棧的、基于裸金屬的仿真;

主機(jī)支持:x86 服務(wù)器仿真(包含操作系統(tǒng)、應(yīng)用等);

預(yù)構(gòu)建網(wǎng)絡(luò)模板:配備完備的葉脊網(wǎng)絡(luò)架構(gòu),運(yùn)行多種 NOS 以進(jìn)行網(wǎng)絡(luò)功能測(cè)試,減少了在實(shí)際項(xiàng)目中遇到的網(wǎng)絡(luò)配置等其他突發(fā)情況而造成的問題,縮短了項(xiàng)目整體的構(gòu)建與交付時(shí)間。



①硬件一致性與健康性

CPU:在集群中,CPU不僅要關(guān)注單個(gè)核心的溫度與頻率,更需關(guān)注所有節(jié)點(diǎn)整體使用率的均衡性。

比如是否存在部分節(jié)點(diǎn)因軟件鎖或硬件瓶頸(如PCIe通道故障)而長(zhǎng)期降頻,影響性能導(dǎo)致利用率低等問題。

驗(yàn)收需要關(guān)注型號(hào)、物理核心數(shù)、邏輯核心數(shù)、主頻。

GPU:這是智算集群的絕對(duì)核心。

診斷需覆蓋每張GPU卡的核心溫度、顯存溫度、功耗、計(jì)算與顯存使用率。

尤其在高強(qiáng)度模型訓(xùn)練中,顯存的健康(如ECC糾錯(cuò)計(jì)數(shù))至關(guān)重要,頻繁的糾錯(cuò)可能預(yù)示顯存顆粒的物理老化。

更關(guān)鍵的是,需要檢測(cè)是否存在慢節(jié)點(diǎn)——即節(jié)點(diǎn)內(nèi)某張GPU故障或ECC錯(cuò)誤而導(dǎo)致訓(xùn)練中斷集群性能測(cè)試的問題,也就拖慢了交付的進(jìn)度。

驗(yàn)收時(shí)關(guān)注型號(hào)、數(shù)量、顯存、GPU驅(qū)動(dòng)版本、CUDA驅(qū)動(dòng)版本。


圖源:NVIDIA官網(wǎng)

存儲(chǔ):對(duì)于NVMe SSD,需監(jiān)控其讀寫帶寬、IOPS(每秒讀寫操作次數(shù))以及延遲。

更重要的是,通過SMART信息預(yù)測(cè)壽命,避免在訓(xùn)練中途因硬盤故障而導(dǎo)致的任務(wù)中斷。

InfiniBand(RDMA)/以太網(wǎng)(RoCE)網(wǎng)絡(luò):

需要在交付前進(jìn)行長(zhǎng)時(shí)間的性能壓力測(cè)試,以檢測(cè)交換機(jī)端口狀態(tài)、光模塊溫度與收發(fā)光功率。

光功率衰減是常見故障點(diǎn)。其次,需監(jiān)控鏈路帶寬利用率、誤碼率、丟包率與通信延遲。

通過運(yùn)行all-to-all測(cè)試。計(jì)算網(wǎng)卡(InfiniBand/以太網(wǎng))的型號(hào)、固件版本,同時(shí)網(wǎng)卡的版本與交換機(jī)的固件版本對(duì)應(yīng)。



②性能與穩(wěn)定性驗(yàn)證

通過系統(tǒng)化壓力測(cè)試,確保每個(gè)節(jié)點(diǎn)在高負(fù)載下仍能保持線性性能:

CPU/內(nèi)存壓力測(cè)試:Prime95或stress-ng持續(xù)運(yùn)行72小時(shí)無錯(cuò)誤;

GPU穩(wěn)定性測(cè)試:NVIDIA DCGM與GPU Burn監(jiān)控顯存、溫度與穩(wěn)定度;



存儲(chǔ)I/O性能測(cè)試:驗(yàn)證4K隨機(jī)讀寫及順序帶寬達(dá)到預(yù)測(cè)標(biāo)準(zhǔn);

RDMA集合通信網(wǎng)絡(luò)性能測(cè)試:

在做大模型訓(xùn)練、科學(xué)計(jì)算應(yīng)用時(shí),很多服務(wù)器不是各自干各自的活,而是要一起協(xié)同工作。為了讓它們能又快又穩(wěn)地交換數(shù)據(jù),我們一般會(huì)用到 RDMA 這種比普通網(wǎng)絡(luò)更快、更低延遲的通信方式。

但問題來了,這些服務(wù)器之間要經(jīng)常做“集合通信”,比如大家一起廣播一份參數(shù)、一起做 All-Reduce 聚合梯度。

如果網(wǎng)絡(luò)不穩(wěn)定、不夠快、延遲忽高忽低,就會(huì)拖慢整個(gè)訓(xùn)練進(jìn)度,甚至讓任務(wù)直接失敗。

所以在集群交付前整體測(cè)試一遍網(wǎng)絡(luò)性能是必須要做的事情,否則在交付后,很可能因?yàn)闊o法正常進(jìn)行通信,單點(diǎn)故障也可能導(dǎo)致無法正常訓(xùn)練、推理,從而導(dǎo)致集群無法交付。



③通信網(wǎng)絡(luò)健康與拓?fù)潋?yàn)證

人工智能集群性能瓶頸多源于通信層。

交付階段需要檢查交換機(jī)端口與光模塊狀態(tài);繪制“網(wǎng)絡(luò)心電圖”,提前排查慢鏈路;使用ibdiagnet與perftest工具進(jìn)行鏈路完整性驗(yàn)證。

唯有穩(wěn)定的通信底座,才能讓算力真正釋放,否則按照現(xiàn)有算力資源設(shè)計(jì),任何單節(jié)點(diǎn)的故障都可能導(dǎo)致集群的可用性降低,從而導(dǎo)致業(yè)務(wù)停滯。

三、人工智能未來的方向:智能化、綠色化、可觀測(cè)化

隨著人工智能應(yīng)用的規(guī)模化擴(kuò)展,科學(xué)計(jì)算/人工智能基礎(chǔ)設(shè)施的交付標(biāo)準(zhǔn)也在不斷演進(jìn):

①智能且高效的運(yùn)維算力基礎(chǔ)設(shè)施

通過GPU Telemetry、DCGM與IB監(jiān)控實(shí)現(xiàn)全??捎^測(cè),支持預(yù)測(cè)性維護(hù)與自動(dòng)修復(fù)。

②彈性算力池化

隨著GPU虛擬化與云原生調(diào)度技術(shù)成熟,人工智能集群正向算力池化架構(gòu)演進(jìn),支持多任務(wù)、多租戶、優(yōu)先級(jí)的靈活調(diào)度,讓算力可以按需使用。

借助 GPU 資源切分與彈性伸縮技術(shù),平臺(tái)能將 GPU 利用率從傳統(tǒng)的 10%~20% 提升至 50%~60%,部分場(chǎng)景可達(dá) 70%~80%,為算力高效利用提供了技術(shù)保障。

③綠色數(shù)據(jù)中心

液冷系統(tǒng)與動(dòng)態(tài)功耗管理技術(shù)讓人工智能集群能效顯著提升,PUE可降至1.2以下,打造低碳智算中心。

④標(biāo)準(zhǔn)化交付體系(重點(diǎn))

從硬件驗(yàn)收、性能基線到文檔化驗(yàn)證,人工智能集群交付正邁向體系化與可追溯標(biāo)準(zhǔn),為企業(yè)提供可靠、透明的交付保障。

以下是我們?cè)趯?shí)施過超萬卡GPU總結(jié)的驗(yàn)收標(biāo)準(zhǔn)項(xiàng):



四、人工智能基礎(chǔ)設(shè)施的建設(shè)與總結(jié)

現(xiàn)在的人工智能基礎(chǔ)設(shè)施,已經(jīng)遠(yuǎn)遠(yuǎn)不是“把服務(wù)器拼在一起”那么簡(jiǎn)單了。

隨著模型越來越大、業(yè)務(wù)越來越復(fù)雜,僅僅擁有算力并不能保證系統(tǒng)真正跑得快、跑得穩(wěn)。

企業(yè)需要一套標(biāo)準(zhǔn)化、智能化、可驗(yàn)證的建設(shè)與交付體系——

從機(jī)房規(guī)劃、硬件部署、網(wǎng)絡(luò)架構(gòu),到軟件環(huán)境、模型訓(xùn)練,再到性能驗(yàn)證、穩(wěn)定性測(cè)試,每一步都要做到可復(fù)現(xiàn)、可檢查、可追蹤。

只有這樣,企業(yè)才能真正實(shí)現(xiàn)從“堆算力”到“用好算力”的轉(zhuǎn)變,讓人工智能系統(tǒng)不僅能運(yùn)行,更能持續(xù)穩(wěn)定地輸出價(jià)值,加速智能應(yīng)用落地,最終完成從構(gòu)建算力基礎(chǔ)到釋放智能生產(chǎn)力的跨越。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
俄羅斯發(fā)動(dòng)大規(guī)模打擊 普京穿上軍裝: 已無興趣等待烏軍撤出

俄羅斯發(fā)動(dòng)大規(guī)模打擊 普京穿上軍裝: 已無興趣等待烏軍撤出

每日經(jīng)濟(jì)新聞
2025-12-28 11:49:18
戴佩妮成都站深情開唱,現(xiàn)場(chǎng)宣布取消北京、廣州兩站

戴佩妮成都站深情開唱,現(xiàn)場(chǎng)宣布取消北京、廣州兩站

封面新聞
2025-12-28 07:53:05
一聞就能“睡得香”的8種水果!床頭隨便擺一個(gè),家人都說好用

一聞就能“睡得香”的8種水果!床頭隨便擺一個(gè),家人都說好用

神奇故事
2025-12-28 22:55:13
南博事件后,知名博主爆料:江西博物館的《米芾三札》疑似被調(diào)包

南博事件后,知名博主爆料:江西博物館的《米芾三札》疑似被調(diào)包

奇思妙想生活家
2025-12-28 12:11:18
臺(tái)灣海域突發(fā)6.6級(jí)地震,多地震感強(qiáng)烈!有上海高層住戶感受到搖晃

臺(tái)灣海域突發(fā)6.6級(jí)地震,多地震感強(qiáng)烈!有上海高層住戶感受到搖晃

縱相新聞
2025-12-28 08:37:04
斬獲120萬獎(jiǎng)金!無解劈殺擊潰世界3,石宇奇2-0安東森問鼎天王杯

斬獲120萬獎(jiǎng)金!無解劈殺擊潰世界3,石宇奇2-0安東森問鼎天王杯

釘釘陌上花開
2025-12-28 20:24:29
河南網(wǎng)紅羅大美下葬,此前被害后遺體停放太平間近900天,妹妹發(fā)文:在一個(gè)小小的儀式里送了哥哥最后一程,讓他安靜入土,回歸自然

河南網(wǎng)紅羅大美下葬,此前被害后遺體停放太平間近900天,妹妹發(fā)文:在一個(gè)小小的儀式里送了哥哥最后一程,讓他安靜入土,回歸自然

揚(yáng)子晚報(bào)
2025-12-28 18:28:40
南博事件持續(xù)發(fā)酵!拍賣行也慌了,北京一20年老店突然停擺…

南博事件持續(xù)發(fā)酵!拍賣行也慌了,北京一20年老店突然停擺…

火山詩(shī)話
2025-12-28 16:51:31
中方下“逐客令”,直言:一粒大米也不要,直接叫停900萬噸訂單

中方下“逐客令”,直言:一粒大米也不要,直接叫停900萬噸訂單

愛吃醋的貓咪
2025-12-27 16:24:13
今冬最冷時(shí)間表出爐了,啥時(shí)候最冷?2026年春節(jié)冷不冷?早了解

今冬最冷時(shí)間表出爐了,啥時(shí)候最冷?2026年春節(jié)冷不冷?早了解

阿龍美食記
2025-12-27 18:45:06
南通一轎車沖入河中,當(dāng)?shù)兀很囕v已被打撈上岸,車內(nèi)一名38歲女子不幸身亡

南通一轎車沖入河中,當(dāng)?shù)兀很囕v已被打撈上岸,車內(nèi)一名38歲女子不幸身亡

極目新聞
2025-12-28 18:37:39
涉嫌在非洲綁架毆打同胞的網(wǎng)紅“非洲洋洋”被抓獲,抓捕人員稱他沒有反抗,受害人:心里踏實(shí)了,因腿被打斷至今無法下地

涉嫌在非洲綁架毆打同胞的網(wǎng)紅“非洲洋洋”被抓獲,抓捕人員稱他沒有反抗,受害人:心里踏實(shí)了,因腿被打斷至今無法下地

極目新聞
2025-12-28 18:53:49
自作孽!放走2大主力,迷信31歲老將,老牌勁旅,如今成CBA魚腩隊(duì)

自作孽!放走2大主力,迷信31歲老將,老牌勁旅,如今成CBA魚腩隊(duì)

金山話體育
2025-12-28 11:24:53
毛主席唯一嫡孫現(xiàn)身北京:大批軍方官兵陪同,高顏值妻女畫面流出

毛主席唯一嫡孫現(xiàn)身北京:大批軍方官兵陪同,高顏值妻女畫面流出

博士觀察
2025-12-28 21:13:55
小米副董事長(zhǎng)擬套現(xiàn)不超20億美元,知情人士:他想成立投資基金

小米副董事長(zhǎng)擬套現(xiàn)不超20億美元,知情人士:他想成立投資基金

證券時(shí)報(bào)e公司
2025-12-28 20:27:50
特朗普對(duì)中國(guó)說話算話,8艘滿載巨輪已放行,正連夜趕往中國(guó)

特朗普對(duì)中國(guó)說話算話,8艘滿載巨輪已放行,正連夜趕往中國(guó)

瞳哥視界
2025-12-28 21:04:47
百度為什么越來越垃圾了?廣告主吐槽:亂投關(guān)鍵詞,虧光10萬轉(zhuǎn)化率為0

百度為什么越來越垃圾了?廣告主吐槽:亂投關(guān)鍵詞,虧光10萬轉(zhuǎn)化率為0

回旋鏢
2025-12-28 21:27:25
沖上熱搜!黃子韜因腦淤血接受開顱手術(shù)縫了43針,本人回應(yīng)

沖上熱搜!黃子韜因腦淤血接受開顱手術(shù)縫了43針,本人回應(yīng)

半島晨報(bào)
2025-12-28 18:04:45
部分地區(qū)氣溫下降10℃以上,大雪大雨要來了!

部分地區(qū)氣溫下降10℃以上,大雪大雨要來了!

魯中晨報(bào)
2025-12-28 21:10:07
重磅:波三小邁出了第一步

重磅:波三小邁出了第一步

西樓飲月
2025-12-28 20:27:01
2025-12-29 05:08:49
AI全球總部
AI全球總部
全球最新、最酷AI解決方案
1099文章數(shù) 715關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

途經(jīng)俄羅斯航班墜機(jī)38人身亡 機(jī)身或被彈片擊中

頭條要聞

途經(jīng)俄羅斯航班墜機(jī)38人身亡 機(jī)身或被彈片擊中

體育要聞

MVP概率達(dá)82.5%!約基奇連超大鳥喬丹

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

健康
數(shù)碼
本地
家居
公開課

這些新療法,讓化療不再那么痛苦

數(shù)碼要聞

曝光的AirPods原型機(jī)顯示,蘋果曾計(jì)劃推出多彩配色方案!

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版