国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI持續(xù)擴(kuò)展的隱憂——靜默數(shù)據(jù)損壞

0
分享至

(本文編譯自Electronic Design)

隨著晶體管尺寸不斷縮小、系統(tǒng)復(fù)雜度持續(xù)提升,一個(gè)不容忽視的事實(shí)愈發(fā)清晰:靜默數(shù)據(jù)損壞的發(fā)生頻率和造成的影響,遠(yuǎn)超大多數(shù)系統(tǒng)架構(gòu)師的預(yù)期。這類錯(cuò)誤無(wú)跡可尋,極難識(shí)別,而單個(gè)錯(cuò)誤就可能篡改多個(gè)獨(dú)立節(jié)點(diǎn)的模型權(quán)重,悄然破壞一項(xiàng)可能持續(xù)數(shù)周、動(dòng)用超過(guò)2.5萬(wàn)個(gè)圖形處理器(GPU)、成本超1億美元的訓(xùn)練任務(wù)。

即便在驗(yàn)證與測(cè)試環(huán)節(jié)投入巨大成本,未被檢測(cè)到的故障仍存在于大規(guī)模人工智能部署場(chǎng)景中,對(duì)芯片可靠性構(gòu)成嚴(yán)峻挑戰(zhàn)。

若單個(gè)芯片在同步過(guò)程中引入靜默錯(cuò)誤,錯(cuò)誤可能會(huì)在整個(gè)集群中擴(kuò)散。電氣和電子工程師協(xié)會(huì)(IEEE)的研究顯示,軟錯(cuò)誤率已急劇上升——從65納米工藝下的每年一次故障,攀升至16納米工藝下的每1.5小時(shí)一次(如下圖所示)。


圖:靜默數(shù)據(jù)損壞(SDC)之類的軟錯(cuò)誤發(fā)生率顯著上升。

Meta和阿里巴巴分別報(bào)告稱,在其人工智能及云基礎(chǔ)設(shè)施中,每3小時(shí)就會(huì)出現(xiàn)一次硬件錯(cuò)誤,百萬(wàn)件缺陷率(DPPM)分別為361。雖然361的百萬(wàn)件缺陷率甚至數(shù)千的數(shù)值在小規(guī)模場(chǎng)景下可能不會(huì)引發(fā)警報(bào),但在擁有數(shù)百萬(wàn)臺(tái)設(shè)備的大規(guī)模集群中,情況會(huì)發(fā)生巨大變化,此時(shí)靜默數(shù)據(jù)損壞事件的發(fā)生頻率足以危及整個(gè)系統(tǒng)的可靠性。

人工智能規(guī)模擴(kuò)大,靜默數(shù)據(jù)損壞的威脅亦隨之加劇

對(duì)于不斷擴(kuò)展的生成式人工智能和機(jī)器學(xué)習(xí)(ML)工作負(fù)載(包括模型訓(xùn)練、推理及高性能人工智能應(yīng)用)而言,靜默數(shù)據(jù)損壞正成為日益嚴(yán)峻的可靠性威脅。這些流程往往將處理器推向性能極限,從而增加了靜默損壞的發(fā)生概率。

與通??赏ㄟ^(guò)糾錯(cuò)碼緩解的內(nèi)存位翻轉(zhuǎn)不同,靜默數(shù)據(jù)損壞源于細(xì)微的計(jì)算層面故障:時(shí)序違規(guī)、老化效應(yīng)或常規(guī)半導(dǎo)體測(cè)試中遺漏的邊緣缺陷。這些錯(cuò)誤會(huì)悄然扭曲整個(gè)計(jì)算過(guò)程,但往往不會(huì)觸發(fā)警報(bào),直到呈現(xiàn)為錯(cuò)誤輸出或潛在有缺陷的決策時(shí)才會(huì)被發(fā)現(xiàn)。人工智能系統(tǒng)規(guī)模越大、復(fù)雜度越高,此類故障發(fā)生的可能性就越大,造成的影響也越嚴(yán)重。

傳統(tǒng)冗余方法可保護(hù)內(nèi)存和通信路徑,但對(duì)執(zhí)行層面的故障幾乎無(wú)能為力,而執(zhí)行層面故障正是現(xiàn)代人工智能環(huán)境中靜默數(shù)據(jù)損壞的主要來(lái)源。現(xiàn)實(shí)中的后果輕則是幾乎難以察覺(jué)的計(jì)算誤差,重則是影響業(yè)務(wù)的嚴(yán)重故障。行業(yè)報(bào)告已記錄多起相關(guān)案例,包括因有缺陷的CPU的數(shù)學(xué)運(yùn)算錯(cuò)誤導(dǎo)致數(shù)據(jù)庫(kù)文件丟失,以及存儲(chǔ)應(yīng)用程序因缺陷CPU出現(xiàn)用戶數(shù)據(jù)校驗(yàn)和不匹配的情況。

遏制靜默數(shù)據(jù)損壞問(wèn)題的嘗試

隨著工藝節(jié)點(diǎn)不斷微縮、芯片架構(gòu)日益先進(jìn),掃描自動(dòng)測(cè)試圖形生成(ATPG)、內(nèi)置自測(cè)試(BIST)以及基礎(chǔ)功能測(cè)試等傳統(tǒng)測(cè)試方法已難以跟上步伐。這些方法雖足以檢測(cè)出離散的制造缺陷,卻往往無(wú)法識(shí)別導(dǎo)致靜默數(shù)據(jù)損壞的更細(xì)微的半導(dǎo)體工藝偏差。

這就形成了一個(gè)長(zhǎng)期存在的監(jiān)測(cè)盲區(qū),凸顯了現(xiàn)場(chǎng)監(jiān)測(cè)的必要性。據(jù)Meta稱,調(diào)試靜默數(shù)據(jù)損壞問(wèn)題可能需要數(shù)月時(shí)間。排查這類無(wú)跡可尋的故障不僅需要巧思,還通常要投入大量資源。更糟糕的是,盡管耗費(fèi)了巨額成本,許多靜默數(shù)據(jù)損壞的調(diào)查仍以無(wú)果告終,這實(shí)際上加劇了不確定性。

在2023年亞洲測(cè)試會(huì)議(ITC-Asia)的一場(chǎng)會(huì)議中,博通(Broadcom)報(bào)告稱,其高達(dá)50%的靜默數(shù)據(jù)損壞調(diào)查最終未能找到解決方案,被標(biāo)記為“未發(fā)現(xiàn)故障(No Trouble Found)”。這些挑戰(zhàn)凸顯了傳統(tǒng)測(cè)試方法的局限性,也迫切需要更先進(jìn)的解決方案。

現(xiàn)場(chǎng)測(cè)試同樣存在漏洞。使用預(yù)兆單元(canary circuits)的原位測(cè)試方法,往往無(wú)法監(jiān)測(cè)到實(shí)際的關(guān)鍵路徑時(shí)序裕量,該裕量可能會(huì)因芯片老化和工藝偏差而減小。正如《MRHIEP》中所提及的,隨著單芯片內(nèi)部差異的不斷增大,這一問(wèn)題已變得至關(guān)重要。

定期維護(hù)測(cè)試的靈敏度也可能不足,大多只能識(shí)別明顯的故障,卻忽略了與單錯(cuò)糾正(SEC)相關(guān)的更細(xì)微問(wèn)題。此外,由于測(cè)試設(shè)備會(huì)從集群中移除,這類測(cè)試缺乏原位監(jiān)測(cè)所具備的真實(shí)工作環(huán)境,導(dǎo)致那些可能引發(fā)靜默數(shù)據(jù)損壞的細(xì)微異常仍無(wú)法被檢測(cè)到。

一些機(jī)構(gòu)嘗試通過(guò)冗余計(jì)算方法克服這些局限,即在多個(gè)內(nèi)核上重復(fù)執(zhí)行計(jì)算,僅當(dāng)所有內(nèi)核都產(chǎn)生相同結(jié)果時(shí),才認(rèn)定計(jì)算正確。盡管這種方法可以防止靜默數(shù)據(jù)損壞的擴(kuò)散,但它對(duì)硬件要求極高、成本高昂,且在超大規(guī)模場(chǎng)景下不具備可擴(kuò)展性。

解決SDC的兩階段檢測(cè)方案

隨著數(shù)據(jù)中心規(guī)模不斷擴(kuò)大、能源需求持續(xù)攀升,投入大量工程時(shí)間追蹤數(shù)千臺(tái)服務(wù)器中難以察覺(jué)的故障已不再具備可持續(xù)性。一種具備可擴(kuò)展性的解決方案在于更先進(jìn)的測(cè)試方法,即基于人工智能的兩階段深度數(shù)據(jù)檢測(cè)技術(shù)。

在芯片制造和現(xiàn)場(chǎng)運(yùn)行兩個(gè)階段實(shí)施多階段檢測(cè),既能幫助芯片制造商重獲產(chǎn)品可靠性,也能讓集群運(yùn)營(yíng)商重新建立對(duì)硬件的信心。通過(guò)深度數(shù)據(jù)可視性對(duì)多個(gè)階段進(jìn)行監(jiān)測(cè),可大幅提高在易發(fā)生靜默數(shù)據(jù)損壞的組件失效前將其檢測(cè)出來(lái)的概率。

要實(shí)現(xiàn)有效檢測(cè),測(cè)試必須突破“合格/不合格”的二元分級(jí)模式。采用考慮工藝偏差和預(yù)測(cè)性能裕量的參數(shù)分級(jí)進(jìn)行更高粒度的芯片測(cè)試,即便某些設(shè)備在技術(shù)上通過(guò)了標(biāo)準(zhǔn)測(cè)試,也能標(biāo)記出異常設(shè)備。這可防止“勉強(qiáng)能用”的問(wèn)題芯片流入生產(chǎn)集群。

實(shí)現(xiàn)這一級(jí)別的檢測(cè)需要轉(zhuǎn)變芯片診斷思路:從邊界檢查轉(zhuǎn)向基于嵌入式人工智能的遙測(cè)技術(shù),對(duì)每臺(tái)設(shè)備的健康狀態(tài)進(jìn)行持續(xù)評(píng)估。通過(guò)在芯片中嵌入智能模塊,并將機(jī)器學(xué)習(xí)應(yīng)用于豐富的遙測(cè)數(shù)據(jù),能夠在制造階段和整個(gè)現(xiàn)場(chǎng)運(yùn)行周期內(nèi)實(shí)現(xiàn)持續(xù)的狀態(tài)可視性。

人工智能算法可以檢測(cè)到傳統(tǒng)測(cè)試方法所忽略的細(xì)微參數(shù)偏差,并預(yù)測(cè)故障模式,在潛在漏洞導(dǎo)致靜默故障的很早之前就將其識(shí)別出來(lái)。這種前瞻性的、數(shù)據(jù)驅(qū)動(dòng)的方法能夠及早發(fā)現(xiàn)漏洞,并為芯片分檔、部署以及集群級(jí)可靠性管理提供更明智的決策依據(jù),且無(wú)需增加大量成本或?qū)е卵诱`。

隨著人工智能規(guī)模持續(xù)擴(kuò)大,未被檢測(cè)到的故障所帶來(lái)的成本也將隨之上升。靜默數(shù)據(jù)損壞已不再是理論上的隱患,而是對(duì)性能、可靠性和業(yè)務(wù)構(gòu)成的實(shí)際風(fēng)險(xiǎn)。傳統(tǒng)測(cè)試方法并非為應(yīng)對(duì)這一挑戰(zhàn)而設(shè)計(jì),而融合深度數(shù)據(jù)、全生命周期監(jiān)測(cè)和人工智能驅(qū)動(dòng)分析的新解決方案則提供了一條清晰的前進(jìn)路徑。借助兩階段檢測(cè)方案,行業(yè)最終能夠在靜默數(shù)據(jù)損壞擾亂系統(tǒng)之前,搶占先機(jī),對(duì)其進(jìn)行有效遏制。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
好運(yùn)點(diǎn)名!月底財(cái)神爺緊跟3生肖,財(cái)氣聚集撥云見(jiàn)日,富足無(wú)憂

好運(yùn)點(diǎn)名!月底財(cái)神爺緊跟3生肖,財(cái)氣聚集撥云見(jiàn)日,富足無(wú)憂

毅談生肖
2025-12-23 13:27:29
64歲黃日華終走出喪妻陰霾?任達(dá)華驚爆黃日華戀上關(guān)寶慧 細(xì)數(shù)拍拖細(xì)節(jié) :快有結(jié)果

64歲黃日華終走出喪妻陰霾?任達(dá)華驚爆黃日華戀上關(guān)寶慧 細(xì)數(shù)拍拖細(xì)節(jié) :快有結(jié)果

TVB資訊臺(tái)
2025-12-23 22:10:25
“魔幻”接連發(fā)生,老百姓已經(jīng)麻木了!

“魔幻”接連發(fā)生,老百姓已經(jīng)麻木了!

胖胖說(shuō)他不胖
2025-12-22 11:00:13
美報(bào)告草案稱中國(guó)新部署一百余枚洲際導(dǎo)彈,外交部:美方炒作是其一貫伎倆

美報(bào)告草案稱中國(guó)新部署一百余枚洲際導(dǎo)彈,外交部:美方炒作是其一貫伎倆

澎湃新聞
2025-12-23 15:24:26
邱淑貞和昆凌坐一起看張學(xué)友演唱會(huì),邱淑貞扎高馬尾比昆凌漂亮!

邱淑貞和昆凌坐一起看張學(xué)友演唱會(huì),邱淑貞扎高馬尾比昆凌漂亮!

徐幫陽(yáng)
2025-12-14 13:39:47
人均消費(fèi)過(guò)萬(wàn)!如今誰(shuí)還在為KTV買(mǎi)單?老板們直呼“苦不堪言”

人均消費(fèi)過(guò)萬(wàn)!如今誰(shuí)還在為KTV買(mǎi)單?老板們直呼“苦不堪言”

音樂(lè)時(shí)光的娛樂(lè)
2025-12-14 00:12:34
開(kāi)了3天特斯拉Model Y,我終于懂它賣(mài)爆的真相:不是堆配置

開(kāi)了3天特斯拉Model Y,我終于懂它賣(mài)爆的真相:不是堆配置

芭比衣櫥
2025-12-18 10:24:13
不接受一國(guó)兩制?20萬(wàn)島內(nèi)武裝棄械?明確臺(tái)灣省最終結(jié)局?

不接受一國(guó)兩制?20萬(wàn)島內(nèi)武裝棄械?明確臺(tái)灣省最終結(jié)局?

老鵜愛(ài)說(shuō)事
2025-12-24 01:19:40
張新成李蘭迪分手風(fēng)波后首同框,兩人不敢看對(duì)方方向,表情好尷尬

張新成李蘭迪分手風(fēng)波后首同框,兩人不敢看對(duì)方方向,表情好尷尬

古希臘掌管月桂的神
2025-12-21 20:44:05
商務(wù)部:中方呼吁相關(guān)企業(yè)就控制權(quán)和恢復(fù)供應(yīng)鏈問(wèn)題進(jìn)行協(xié)商 切實(shí)恢復(fù)全球半導(dǎo)體產(chǎn)供鏈

商務(wù)部:中方呼吁相關(guān)企業(yè)就控制權(quán)和恢復(fù)供應(yīng)鏈問(wèn)題進(jìn)行協(xié)商 切實(shí)恢復(fù)全球半導(dǎo)體產(chǎn)供鏈

財(cái)聯(lián)社
2025-12-22 22:14:12
吉林省委:領(lǐng)導(dǎo)干部要用90%以上的時(shí)間調(diào)查研究,了解真情況、找準(zhǔn)真問(wèn)題、真解決問(wèn)題

吉林省委:領(lǐng)導(dǎo)干部要用90%以上的時(shí)間調(diào)查研究,了解真情況、找準(zhǔn)真問(wèn)題、真解決問(wèn)題

新京報(bào)政事兒
2025-12-23 14:17:40
中共中央:分類推進(jìn)高校改革

中共中央:分類推進(jìn)高校改革

麥可思研究
2025-12-23 18:50:53
杜江也沒(méi)想到,大他5歲的霍思燕會(huì)憑借一條狗,輕松實(shí)現(xiàn)口碑暴漲

杜江也沒(méi)想到,大他5歲的霍思燕會(huì)憑借一條狗,輕松實(shí)現(xiàn)口碑暴漲

小欣欣聊體育
2025-12-23 16:09:15
烏克蘭第聶伯省官員盜取8.6萬(wàn)美元戰(zhàn)損修復(fù)資金

烏克蘭第聶伯省官員盜取8.6萬(wàn)美元戰(zhàn)損修復(fù)資金

桂系007
2025-12-23 23:11:06
西方媒體譏笑:全球90%激光雷達(dá)來(lái)自中國(guó),結(jié)果中國(guó)每年虧上億元

西方媒體譏笑:全球90%激光雷達(dá)來(lái)自中國(guó),結(jié)果中國(guó)每年虧上億元

歷史求知所
2025-12-05 12:35:10
百萬(wàn)網(wǎng)紅全員惡人,妻子提出開(kāi)放性關(guān)系,丈夫出軌19歲女生懷孕

百萬(wàn)網(wǎng)紅全員惡人,妻子提出開(kāi)放性關(guān)系,丈夫出軌19歲女生懷孕

觀察鑒娛
2025-12-21 12:14:12
馬卡:C羅在紅海購(gòu)入兩棟豪華別墅,享受私密寧?kù)o的家庭時(shí)光

馬卡:C羅在紅海購(gòu)入兩棟豪華別墅,享受私密寧?kù)o的家庭時(shí)光

懂球帝
2025-12-23 21:16:16
南非世界冠軍來(lái)滬求醫(yī) 曾輾轉(zhuǎn)多國(guó)尋求希望

南非世界冠軍來(lái)滬求醫(yī) 曾輾轉(zhuǎn)多國(guó)尋求希望

中國(guó)青年報(bào)
2025-12-23 15:57:07
她也官宣離婚了,老公竟已出軌7年!靈魂伴侶都是假的

她也官宣離婚了,老公竟已出軌7年!靈魂伴侶都是假的

黎兜兜
2025-12-22 12:14:00
深夜淪陷!全站黃播瘋漲2小時(shí),快手這波“服務(wù)器繁忙”糊弄誰(shuí)?

深夜淪陷!全站黃播瘋漲2小時(shí),快手這波“服務(wù)器繁忙”糊弄誰(shuí)?

鋭娛之樂(lè)
2025-12-23 08:29:00
2025-12-24 04:07:00
TechSugar incentive-icons
TechSugar
做你身邊值得信賴的科技新媒體
4949文章數(shù) 12726關(guān)注度
往期回顧 全部

科技要聞

慘烈90分鐘!快手驚魂:遭遇最強(qiáng)黑產(chǎn)攻擊

頭條要聞

與多名女子在泳池大尺度照片披露 克林頓最新回應(yīng)

頭條要聞

與多名女子在泳池大尺度照片披露 克林頓最新回應(yīng)

體育要聞

楊瀚森連續(xù)5場(chǎng)DNP!開(kāi)拓者遭活塞雙殺

娛樂(lè)要聞

朱孝天回應(yīng)阿信感謝,自曝沒(méi)再收到邀約

財(cái)經(jīng)要聞

祥源系百億產(chǎn)品爆雷 浙金中心18人被拘

汽車(chē)要聞

四款新車(chē)集中發(fā)布 星途正式走進(jìn)3.0時(shí)代

態(tài)度原創(chuàng)

游戲
健康
家居
藝術(shù)
數(shù)碼

任天堂獨(dú)占!Bloober恐怖新作即將揭曉:生化粉肯定愛(ài)

這些新療法,讓化療不再那么痛苦

家居要聞

通透明亮 大氣輕奢風(fēng)

藝術(shù)要聞

朱總理的詩(shī)句驚艷眾人,張家界竟藏有這樣的美景!

數(shù)碼要聞

創(chuàng)新推出ACE SXFI藍(lán)牙耳機(jī),699元

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版