国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GTC 2024預(yù)習(xí)課:深入H100 GPU Hopper架構(gòu)

0
分享至

文:城主

明天就是萬眾矚目的NVidia GTC AI 2024大會(huì)。在AI時(shí)代,這成了科技圈一個(gè)必須參加的盛會(huì)。

顯然,所有人都在眼巴巴等著萬眾矚目的黃教主主旨演講。Nvidia也必然會(huì)在GTC2024上推出更加碾壓的AI芯片B100,B200以及更多。

作為這場(chǎng)大會(huì)的預(yù)習(xí),本城和大家分享來自GTC2022的內(nèi)容:深入H100 GPU Hopper架構(gòu)。讀者們可以對(duì)當(dāng)下最強(qiáng)悍的GPU有一個(gè)全面的理解,然后等待Nvidia的另一個(gè)大殺器來臨。

以下是這個(gè)關(guān)于H100 架構(gòu)官方分享的主要內(nèi)容,有興趣的同學(xué)可以研讀視頻完整版或者后附的書面全文:

NVIDIA在GTC2022大會(huì)上推出了全新的Hopper GPU架構(gòu)和基于該架構(gòu)的最新GPU NVIDIA H100。NVIDIA的GPU架構(gòu)師邁克爾·安德斯和格雷格·帕爾默在演講中詳細(xì)介紹了Hopper架構(gòu)的特點(diǎn)和H100的性能表現(xiàn)。

現(xiàn)代加速計(jì)算往往需要數(shù)百甚至數(shù)千個(gè)GPU協(xié)同工作,而每個(gè)GPU內(nèi)部又包含數(shù)百個(gè)獨(dú)立的處理器。Hopper架構(gòu)在性能、可擴(kuò)展性和安全性方面實(shí)現(xiàn)了全面提升。它引入了新的Hopper流多處理器、下一代Tensor核心,以及用于加速動(dòng)態(tài)編程的新指令集。

Hopper架構(gòu)采用了分層計(jì)算結(jié)構(gòu)和異步執(zhí)行的設(shè)計(jì)理念,從而使GPU能夠高效地處理各種規(guī)模的工作負(fù)載。Hopper還專為云端部署進(jìn)行了優(yōu)化,提供了增強(qiáng)的安全性和彈性功能。

H100的目標(biāo)是大幅加速當(dāng)前的人工智能和高性能計(jì)算應(yīng)用,并為下一代工作負(fù)載提供支持。相比當(dāng)時(shí)性能最強(qiáng)的A100 GPU,H100的性能提升了2到30倍。H100還引入了新的NVLink互連技術(shù),可以更高效地處理需要跨多個(gè)GPU服務(wù)器進(jìn)行模型并行的大規(guī)模計(jì)算任務(wù)。

基于Hopper架構(gòu)的全新GPU集群方案DGX H100 SuperPOD也在大會(huì)上亮相,它采用了新一代的GPU、CPU和互連設(shè)備。此外,NVIDIA還推出了集成了Hopper GPU和Grace CPU的全新SXM模塊NVIDIA Grace Hopper。

H100采用臺(tái)積電4nm工藝制造,集成了超過800億個(gè)晶體管,是當(dāng)前業(yè)界最先進(jìn)的單芯片設(shè)計(jì)。H100 GPU包含132個(gè)SM,每個(gè)SM的性能是A100的兩倍。H100還采用了全新的HBM3顯存方案和大容量二級(jí)緩存,實(shí)現(xiàn)了顯著的內(nèi)存帶寬提升。

Hopper SM架構(gòu)針對(duì)當(dāng)前快速發(fā)展的人工智能和高性能計(jì)算應(yīng)用進(jìn)行了專門優(yōu)化。新的Tensor核心實(shí)現(xiàn)了更高的速度和能效,并引入了對(duì)FP8數(shù)據(jù)類型的支持。Hopper還集成了創(chuàng)新的Transformer引擎技術(shù),可以利用FP8數(shù)據(jù)類型加速transformer網(wǎng)絡(luò)的訓(xùn)練和推理。

Hopper的FP8數(shù)據(jù)格式簡(jiǎn)化了低精度量化的流程,與INT8的性能相當(dāng),但無需量化和微調(diào)等繁瑣步驟。綜合H100在SM數(shù)量、Tensor核心性能、FP8支持、時(shí)鐘頻率等方面的提升,其峰值計(jì)算性能約為A100的6倍。

Hopper還對(duì)CUDA編程模型進(jìn)行了改進(jìn),引入了線程塊集群的概念,允許用戶更好地控制GPU內(nèi)部的數(shù)據(jù)局部性。SM之間新增的通信網(wǎng)絡(luò)可以顯著降低線程塊之間通信的延遲。Hopper還引入了異步事務(wù)屏障、用于異步內(nèi)存復(fù)制的張量?jī)?nèi)存加速器等新特性。

DGX H100服務(wù)器采用NVLink技術(shù)實(shí)現(xiàn)了GPU之間的高速互連,其雙向帶寬較A100提高了50%。DGX H100還支持SHARP技術(shù),可以進(jìn)一步提升集合通信操作的效率。NVLink互連技術(shù)還支持多達(dá)256個(gè)GPU的大規(guī)模集群搭建,可以顯著提升推薦系統(tǒng)等應(yīng)用的訓(xùn)練性能。

除了NVLink,Hopper平臺(tái)還采用了最新的InfiniBand互連技術(shù),包括NDR標(biāo)準(zhǔn)的ConnectX 7網(wǎng)卡和Quantum 2交換機(jī)。它們可以將帶寬提高一倍,并集成了先進(jìn)的集合通信加速引擎。

在安全方面,Hopper實(shí)現(xiàn)了端到端的機(jī)密計(jì)算,將保護(hù)邊界擴(kuò)展到了GPU。CPU和GPU之間的PCIe傳輸是全面加密的,GPU之間的NVLink通信也進(jìn)行了加密。Hopper還增強(qiáng)了MIG多實(shí)例GPU技術(shù),在提高隔離性的同時(shí),將計(jì)算能力和內(nèi)存帶寬大幅提升。

NVIDIA H100無疑是當(dāng)前最強(qiáng)大的AI加速芯片,Hopper架構(gòu)在性能、功能、互連、安全等各個(gè)方面都實(shí)現(xiàn)了全面升級(jí)。H100成為當(dāng)下人工智能基礎(chǔ)設(shè)施的核心引擎,為產(chǎn)業(yè)智能化變革提供強(qiáng)大的算力支持。

==以下是根據(jù)講座原意重寫的書面中文版==

歡迎各位參加本次 GTC 演講。我們是邁克爾·安德斯,格雷格·帕爾默, NVIDIA 的 GPU 架構(gòu)師。今天,我們有幸向您介紹我們最新的 GPU NVIDIA H100,并詳細(xì)解讀其背后的全新 Hopper GPU 架構(gòu)。

現(xiàn)代加速計(jì)算已經(jīng)不再僅僅是單個(gè) GPU 的問題。相反,當(dāng)今最苛刻的應(yīng)用程序需要數(shù)百甚至數(shù)千個(gè) GPU 來執(zhí)行。每個(gè) GPU 又可能包含數(shù)百個(gè)單獨(dú)的處理器。因此,設(shè)計(jì)這些分層系統(tǒng)并使程序員能夠利用其性能,需要我們?cè)跇?gòu)建這些機(jī)器和表達(dá)程序的方式上進(jìn)行根本性的轉(zhuǎn)變。

在今天的演示中,我們想讓您了解 Hopper 的設(shè)計(jì)如何在這個(gè)新世界中實(shí)現(xiàn)卓越的性能、可擴(kuò)展性和安全性。首先,我們將了解 H100 GPU 的核心,即新的 Hopper 流多處理器。這種新的 SM 包含許多新功能,包括采用稱為 Transformer Engine 的全新技術(shù)的下一代 Tensor 核心以及用于加速動(dòng)態(tài)編程的新指令集。

接下來,我們將向您介紹定義每個(gè)級(jí)別的 Hopper 架構(gòu)的兩個(gè)基本概念:分層計(jì)算結(jié)構(gòu)的概念和異步執(zhí)行的概念。然后,我們將了解 Hopper 架構(gòu)如何從 GPU 擴(kuò)展到系統(tǒng),以及 Hopper 的 SuperPOD 系統(tǒng)如何設(shè)計(jì)為有效加速各種規(guī)模的工作負(fù)載。

最后,Hopper 專為在云中部署而設(shè)計(jì),并包含大量安全性和彈性增強(qiáng)功能,使其成為基于云的計(jì)算的理想平臺(tái)。

當(dāng)然,正如名字所說,如果沒有加速,加速計(jì)算就毫無意義。換句話說,沒有表現(xiàn)。借助 H100,我們的目標(biāo)是大幅加速所有當(dāng)前的人工智能和高性能計(jì)算應(yīng)用程序,還可以支持下一代這些工作負(fù)載。

為了實(shí)現(xiàn)這一目標(biāo),我們知道我們必須實(shí)現(xiàn)超越當(dāng)前最快 GPU NVIDIA A100 的真正性能飛躍。在這張幻燈片中,您可以看到,對(duì)于當(dāng)今的主流 AI 和 HPC 模型(如許多視覺神經(jīng)網(wǎng)絡(luò)或較小的語言模型),當(dāng)兩者都使用 InfiniBand 互連時(shí),H100 的性能是 A100 的 2 到 30 倍。

此外,H100 還引入了新的 NVLink 網(wǎng)絡(luò)互連,針對(duì)當(dāng)今一些最大、最具挑戰(zhàn)性的計(jì)算工作負(fù)載,這些工作負(fù)載需要跨多個(gè) GPU 加速服務(wù)器的模型并行性才能適應(yīng)。正如您在此處所看到的,借助 NVLink 網(wǎng)絡(luò),這些工作負(fù)載獲得了又一代的性能飛躍,在某些情況下,性能比采用 InfiniBand 的 H100 再次提高了三倍。

為了實(shí)現(xiàn)這些加速,我們不僅必須在 GPU 內(nèi)部進(jìn)行創(chuàng)新,還必須在整個(gè)加速數(shù)據(jù)中心進(jìn)行創(chuàng)新。通過 Hopper,我們推出了下一代 GPU 集群:DGX H100 SuperPOD。這款新的 SuperPOD 更新了下一代 GPU、CPU 和互連?,F(xiàn)在,單個(gè) 256 GPU SuperPOD 可擴(kuò)展單元可提供超過 1 exflop 的 AI 計(jì)算吞吐量。進(jìn)一步來說,多個(gè)可擴(kuò)展單元可以組裝成擁有數(shù)千個(gè)GPU的更大型機(jī)器。

今天,我們非常榮幸地向您介紹NVIDIA Grace Hopper,這是一款新型的SXM模塊,它結(jié)合了Hopper GPU和Grace CPU。

Grace Hopper推出了一種新的硬件一致性CPU-GPU互連,能夠提供每秒900GB的總帶寬。這是Hopper中全新且已經(jīng)快速的PCIe Gen 5互連的七倍多。有了如此大的帶寬,GPU可以有效地訪問CPU的大內(nèi)存,作為其自身內(nèi)存的擴(kuò)展,從而大大增加GPU加速應(yīng)用程序可用的總內(nèi)存容量。我們還有很多關(guān)于Grace Hopper的信息要與您分享,我們將在未來繼續(xù)這樣做。

當(dāng)然,如果沒有新的H100 Tensor Core GPU,新的SuperPOD和Grace Hopper都是無法實(shí)現(xiàn)的,它們具有前所未有的性能以及自CUDA本身推出以來GPU計(jì)算的一些最大變化。首先,H100采用臺(tái)積電定制的四納米工藝構(gòu)建,包含超過800億個(gè)晶體管,這使其成為世界上最先進(jìn)的單片芯片。H100 GPU包含132個(gè)SM,每個(gè)SM的每個(gè)時(shí)鐘周期性能是A100 SM的兩倍,并引入了多項(xiàng)新功能。

H100還包括一個(gè)新的內(nèi)存系統(tǒng),該系統(tǒng)采用世界上第一個(gè)HBM3實(shí)現(xiàn)以及大型二級(jí)緩存,實(shí)現(xiàn)內(nèi)存帶寬真正的代際飛躍。最后,為了支持我們已經(jīng)提到的SuperPOD和云設(shè)計(jì),H100引入了多種新的系統(tǒng)架構(gòu)功能。例如,它包括第四代NVLink以及新的NVLink網(wǎng)絡(luò)功能。我們的第二代多實(shí)例GPU技術(shù)以及新的加速機(jī)密計(jì)算支持安全加速計(jì)算。

Hopper中的HBM3實(shí)施確實(shí)具有開創(chuàng)性。它在一個(gè)完整的芯片中具有六個(gè)站點(diǎn),H100中有5個(gè)站點(diǎn),總?cè)萘繛?0GB。這種新的內(nèi)存系統(tǒng)的設(shè)計(jì)不僅可以最大化峰值帶寬,而且提供了帶寬。為了實(shí)現(xiàn)這一目標(biāo),它對(duì)內(nèi)存本身以及GPU的內(nèi)存控制器進(jìn)行了改進(jìn),這些控制器經(jīng)過優(yōu)化,可在大幅提高的DRM頻率下運(yùn)行,并經(jīng)過重新設(shè)計(jì),每個(gè)HBM站點(diǎn)包含兩倍數(shù)量的獨(dú)立內(nèi)存通道,以保持相同的高效率,盡管頻率大幅增加。由于這些變化,H100達(dá)到每秒超過3TB,自將HBM引入GPU以來,它在內(nèi)存帶寬方面實(shí)現(xiàn)了最大的代際飛躍。

那么,讓我們從Hopper SM架構(gòu)開始詳細(xì)介紹Hopper。現(xiàn)代人工智能和高性能計(jì)算工作負(fù)載的蓬勃發(fā)展絕對(duì)依賴于計(jì)算能力。新款Hopper SM正是為了實(shí)現(xiàn)這一目標(biāo)而設(shè)計(jì)的。

這首先是一個(gè)新的Gen Tensor Core生成張量核心,它的速度提高了一倍,效率更高,我將在一分鐘內(nèi)更詳細(xì)地描述它。除了張量之外,Hopper還具有2X時(shí)鐘,用于提高時(shí)鐘和傳統(tǒng)IEEE FP32和FP64吞吐量。除此之外,Hopper SM還引入了一個(gè)新的動(dòng)態(tài)編程專用指令集,我們稱之為DPX。DPX為許多動(dòng)態(tài)編程算法(例如基因組學(xué)應(yīng)用)的內(nèi)循環(huán)提供了高級(jí)操作融合。然而,要實(shí)現(xiàn)數(shù)學(xué)吞吐量的全面增長(zhǎng)2倍并非易事。首先,要達(dá)到這樣的速度,數(shù)學(xué)單元必須以極高的帶寬輸入數(shù)據(jù)。其次,如果您希望以接近峰值的效率執(zhí)行,那么就必須盡可能減少執(zhí)行其他非數(shù)學(xué)指令所花費(fèi)的時(shí)鐘周期。

為了解決這個(gè)問題,Hopper SM引入了自CUDA誕生以來GPU計(jì)算的最大轉(zhuǎn)變,即我們稱之為線程塊簇的新層次結(jié)構(gòu),這是線程塊和網(wǎng)格的CUDA概念之間的新層次結(jié)構(gòu)。集群可以顯著提高協(xié)作SM組之間的數(shù)據(jù)移動(dòng)和同步效率。除了集群之外,Hopper SM還添加了新的張量?jī)?nèi)存移動(dòng)加速器,用于多維張量數(shù)據(jù)的移動(dòng)。Greg將在我們的下一部分演示中更詳細(xì)地介紹集群和異步數(shù)據(jù)移動(dòng)。

如果數(shù)據(jù)處理速度更快,您還需要能夠緩沖更多內(nèi)容。因此,我們將SM的L1緩存和共享內(nèi)存大小增加到每個(gè)SM 256 KB,比A100增加了33%。

新SM的核心是全新的第四代張量核心。這款新的張量核心的每個(gè)時(shí)鐘周期吞吐量是上一代設(shè)計(jì)的兩倍,同時(shí)繼續(xù)支持從64位浮點(diǎn)一直到8位整數(shù)的各種數(shù)據(jù)格式。操作數(shù)越小,吞吐量越高。此外,Hopper張量核心還支持全新的八位浮點(diǎn)格式,其吞吐量是FP16和bfloat16的兩倍,我將在一分鐘內(nèi)詳細(xì)介紹。

隨著吞吐量的增加,減少每次操作消耗的能源以控制GPU的總功率至關(guān)重要。Hopper的張量核心極大地提高了輸入數(shù)據(jù)管理的效率,導(dǎo)致操作數(shù)傳送邏輯的功耗降低30%以上。最后,Hopper的張量核心也繼承了A100的能力,當(dāng)輸入數(shù)據(jù)足夠稀疏時(shí),吞吐量再提高2倍。

接下來,我們來仔細(xì)看看新的八位浮點(diǎn)支持。在這張幻燈片的左側(cè),我向您展示了這種新數(shù)字格式的組成。浮點(diǎn)數(shù)由一個(gè)有符號(hào)位組成,確定可表示數(shù)字范圍的幾個(gè)指數(shù)位,以及我們稱為尾數(shù)的所有剩余位,它們確定所表示的數(shù)字的精度。正如您在這里所看到的,Hopper FP8不僅是一種格式,而且實(shí)際上是兩種格式,區(qū)別在于分配給任一附加精度的一位或擴(kuò)展范圍。

在右側(cè),您可以看到GPU如何使用張量核心處理FP8數(shù)據(jù)。給定兩個(gè)FP8輸入矩陣,這些都可以是我剛才提到的兩種FP8格式中的任何一種,張量核心將兩個(gè)矩陣相乘,然后將輸出累加為可由程序控制的FP16或FP32數(shù)字。一旦乘法累加完成,可以對(duì)數(shù)據(jù)執(zhí)行各種常見的神經(jīng)網(wǎng)絡(luò)操作,例如添加偏差或應(yīng)用激活函數(shù)。最后,在將結(jié)果存儲(chǔ)到內(nèi)存之前,會(huì)進(jìn)行從累加器格式到任何其他所需輸出格式的硬件加速轉(zhuǎn)換。

這種新的FP8格式可用于人工智能訓(xùn)練和推理,但如何做到這一點(diǎn)呢?為此,Hopper的張量核心配備了一種稱為Transformer引擎的新技術(shù),它管理使用FP8來加速世界上計(jì)算最密集的模型Transformer。這個(gè)新引擎在深度學(xué)習(xí)框架堆棧下透明地運(yùn)行,并且可以通過簡(jiǎn)單的切換來啟用或禁用。在底層,Transformer模型只是計(jì)算密集型神經(jīng)網(wǎng)絡(luò)層的圖。在每一層,Transformer引擎都會(huì)對(duì)張量核心產(chǎn)生的輸出值進(jìn)行統(tǒng)計(jì)分析。然后,根據(jù)這些統(tǒng)計(jì)數(shù)據(jù),推斷出表示張量中所有值所需的范圍。這些信息和知識(shí)關(guān)于接下來哪種類型的神經(jīng)網(wǎng)絡(luò)層以及它需要什么精度,使得Transformer引擎能夠決定在將張量存儲(chǔ)到內(nèi)存之前將其轉(zhuǎn)換為哪種目標(biāo)格式。

特別是對(duì)于FP8,一個(gè)挑戰(zhàn)是可表示的數(shù)字范圍僅限于很少的位。因此,為了最佳地利用可用范圍,Transformer引擎還能夠使用同樣根據(jù)張量統(tǒng)計(jì)數(shù)據(jù)計(jì)算的縮放因子將張量數(shù)據(jù)動(dòng)態(tài)縮放到該范圍。這樣,Transformer模型中的每一層都能按照其所需的精度運(yùn)行,并且也以最佳方式加速。

接下來,我將向您展示FP8的訓(xùn)練和推理在實(shí)踐中是如何進(jìn)行的。在這張幻燈片的左側(cè),我展示了適用于各種GPT-3語言模型的訓(xùn)練困惑度,從具有1.26億個(gè)參數(shù)的小型模型到具有220億個(gè)參數(shù)的大型模型。如果您不熟悉的話,困惑度只是衡量語言模型在遇到語言中的單詞時(shí)的困惑程度。因此,低困惑度表明神經(jīng)網(wǎng)絡(luò)已經(jīng)很好地學(xué)習(xí)了該語言。

對(duì)于每個(gè)模型,圖表中都有兩條線,一條實(shí)心線用于16位訓(xùn)練,以及使用Transformer引擎進(jìn)行FP8訓(xùn)練的虛線。從圖表中可以看出,在整個(gè)訓(xùn)練過程中使用FP8和FP16進(jìn)行訓(xùn)練。一旦模型經(jīng)過充分訓(xùn)練,我們還會(huì)測(cè)試下游任務(wù)(例如問答或翻譯)的性能,并發(fā)現(xiàn)這兩種精度之間也匹配。

Transformer模型一直是我們的重點(diǎn),因?yàn)樗鼈兪钱?dāng)今計(jì)算最密集的網(wǎng)絡(luò)之一。然而,事實(shí)證明,Transformer引擎訓(xùn)練方法也恰好適用于其他一些模型,例如,對(duì)于像ResNet這樣的許多視覺網(wǎng)絡(luò)。然而,我們也發(fā)現(xiàn)一些網(wǎng)絡(luò)使用這種方法會(huì)損失一些準(zhǔn)確性,例如,一些高參數(shù)效率的視覺模型,如MobileNets。這些模型可能需要額外的訓(xùn)練算法創(chuàng)新,我們邀請(qǐng)社區(qū)與我們一起探索。

最后,在FP8中進(jìn)行訓(xùn)練后,模型可以非常輕松地部署用于FP8推理。這將提供與INT8推理相當(dāng)?shù)男阅?,但它要?jiǎn)單得多,因?yàn)榕cINT8不同,F(xiàn)P8不需要量化或微調(diào)步驟。

現(xiàn)在,讓我總結(jié)一下H100中的計(jì)算改進(jìn)。首先,SM有132個(gè),比A100增加了22%。然后,由于新的第四代張量核心,每個(gè)SM的速度都提高了一倍。在每個(gè)張量核心內(nèi),添加新的FP8格式和Transformer引擎可提供另外2倍的性能。最后,H100時(shí)鐘頻率的改進(jìn)帶來了1.3倍的性能提升??偠灾?,這使H100的峰值計(jì)算吞吐量約為A100的六倍,對(duì)于世界上最需要計(jì)算的工作負(fù)載來說,這是一個(gè)重大飛躍。

我們已經(jīng)討論了計(jì)算?,F(xiàn)在讓我們看看Hopper如何保持這些令人難以置信的數(shù)學(xué)吞吐量水平以高效率運(yùn)行。

現(xiàn)在我們來談?wù)勔恍〤UDA編程模型的變化,這些變化將幫助用戶在單個(gè)GPU上實(shí)現(xiàn)峰值性能。實(shí)現(xiàn)高性能有兩個(gè)關(guān)鍵與并行程序。

首先是數(shù)據(jù)局部性。通過將程序數(shù)據(jù)移動(dòng)到盡可能靠近執(zhí)行單元的位置,程序員可以利用較低延遲帶來的性能以及對(duì)本地?cái)?shù)據(jù)的更高帶寬訪問。性能的第二個(gè)關(guān)鍵是異步執(zhí)行。這意味著我們需要找到那些可以與內(nèi)存?zhèn)鬏敽推渌幚砣蝿?wù)并行進(jìn)行的獨(dú)立任務(wù)。我們的目標(biāo)是充分利用圖形處理器(GPU)中的所有單元。

首先,我們來討論數(shù)據(jù)局部性和GPU的層次結(jié)構(gòu)。CUDA具有分層編程模型,這有助于我們利用數(shù)據(jù)局部性。在CUDA中,內(nèi)核的抽象是由線程塊組成的網(wǎng)格。如圖所示,網(wǎng)格始終在單個(gè)GPU上運(yùn)行,而網(wǎng)格的每個(gè)線程塊則被放置在單個(gè)流多處理器(SM)上。SM為線程塊中的線程提供協(xié)作執(zhí)行的資源,線程同時(shí)運(yùn)行并使用SM的本地內(nèi)存進(jìn)行通信和同步。線程塊是CUDA對(duì)數(shù)據(jù)局部性的主要抽象。

回顧歷史,當(dāng)15年前創(chuàng)建CUDA編程模型時(shí),每個(gè)GPU只有16個(gè)SM,因此,SM占據(jù)了GPU的相當(dāng)大的一部分。然而,如圖所示,在H100上,SM現(xiàn)在只占GPU的一小部分,不到1%。因此,我們需要擴(kuò)展CUDA編程模型,以便更好地控制GPU大部分區(qū)域上的數(shù)據(jù)局部性。

在硬件層次結(jié)構(gòu)中,自然的位置是GPC或GPU處理集群。GPC包含共享一些固定功能硬件的SM,但從CUDA的角度來看,一個(gè)GPC僅僅代表一組SM,它們?cè)谖锢砩峡偸强康煤芙?。因此,在Hopper上,我們?cè)贑UDA編程模型中引入了一個(gè)新的層次結(jié)構(gòu),稱為線程塊集群。集群是線程塊組,始終被調(diào)度到同一GPC內(nèi)的SM上。

現(xiàn)在,我們有四個(gè)可用的層次,每個(gè)層次都嵌套在下一個(gè)層次內(nèi)。在Hopper上,我們有一個(gè)網(wǎng)格,它是3D簇陣列,簇是線程塊的3D數(shù)組,線程塊是線程的3D數(shù)組。您可以將集群視為線程塊編程模型的擴(kuò)展,它覆蓋了芯片的較大部分。線程塊中的線程一起啟動(dòng),并被調(diào)度到稱為SM的芯片區(qū)域。同樣,集群中的線程被調(diào)度到GPC內(nèi)的一組SM。線程塊中的線程協(xié)同執(zhí)行,使用SM的本地共享內(nèi)存。同樣,集群中的線程使用所有共享內(nèi)存協(xié)同執(zhí)行,這些內(nèi)存來自集群中的所有塊。

接下來,我將在幾張幻燈片中介紹所有的集群功能,這些功能在右側(cè)列出。我將運(yùn)行一個(gè)動(dòng)畫,這樣您就可以看到有集群和沒有集群的網(wǎng)格之間的區(qū)別。左邊四個(gè)紫色盒子是普通網(wǎng)格中的線程塊,而右邊的四個(gè)紅框是集群內(nèi)的線程塊。正如您所看到的,紫色線程塊可以被調(diào)度到任何GPC上的SM,而且可能并不都是共存的。例如,塊三甚至可能不與塊零、塊一和塊二同時(shí)運(yùn)行。這是傳統(tǒng)CUDA編程模型的一個(gè)例子,它允許網(wǎng)格包含數(shù)千個(gè)線程塊,遠(yuǎn)遠(yuǎn)超過GPU可以同時(shí)容納的數(shù)量。

對(duì)于集群,其所有四個(gè)紅色線程塊一起啟動(dòng)并調(diào)度到同一個(gè)GPC上。默認(rèn)情況下,它們被安排到單獨(dú)的SM上,以最大化總互連帶寬,供集群使用。如果沒有足夠的免費(fèi)資源來啟動(dòng)所有四個(gè),在任何塊啟動(dòng)之前,必須等待同一GPC(圖形處理集群)上的四個(gè)SM(流多處理器)中的空間釋放。然后,整個(gè)集群將一起啟動(dòng)。集群中的線程塊具有協(xié)同調(diào)度保證。由于集群中的所有塊必須共存于GPC上,因此集群的大小是有限的。在H100上,最多可以有16個(gè)線程塊。

在每個(gè)GPC中,我們還添加了一個(gè)新的SM到SM網(wǎng)絡(luò),用于集群內(nèi)所有線程之間的直接通信。在接下來的幾張幻燈片中,我們將了解如何使用該網(wǎng)絡(luò)。

通過集群,所有線程都可以直接讀寫集群中所有線程塊的共享內(nèi)存。我們稱之為分布式共享內(nèi)存,或DSMEM,因?yàn)楣蚕韮?nèi)存的虛擬地址空間在邏輯上分布在集群中的所有塊上。

左邊顯示的是A100,線程塊之間共享內(nèi)存的唯一方法是使用全局內(nèi)存。然而,如右圖所示的Hopper H100,由于我們知道集群中的線程塊是共存的,我們可以直接進(jìn)行塊與塊之間的通信,通過本地共享內(nèi)存。新的SM到SM網(wǎng)絡(luò)可以降低延遲,而不是通過L2引用全局內(nèi)存。分布式共享內(nèi)存的主要優(yōu)點(diǎn)是允許更大的問題在集群中協(xié)作執(zhí)行。由于一個(gè)集群是由N個(gè)線程塊組成的,這意味著線程數(shù)量最多為N倍,和N倍的共享內(nèi)存可以用來合作解決問題。

集群的另一個(gè)功能允許塊到塊通信具有隱式同步。這速度快了七倍,比通過全局內(nèi)存進(jìn)行類似的通信具有顯式同步。如果你看到左邊,你可以看到我們進(jìn)行數(shù)據(jù)交換的傳統(tǒng)方式。生產(chǎn)者寫入共享數(shù)據(jù),然后進(jìn)行刷新以證明數(shù)據(jù)已到達(dá)內(nèi)存,然后在內(nèi)存中寫入一個(gè)標(biāo)志變量。消費(fèi)者必須輪詢共享數(shù)據(jù),然后讀取共享數(shù)據(jù)。所有這些都需要三到四次來回記憶。然而,如右圖所示的Hopper,使用集群中的共享內(nèi)存可以進(jìn)行單方面的數(shù)據(jù)交換。在這里,生產(chǎn)者執(zhí)行一個(gè)命令,自動(dòng)寫入數(shù)據(jù)并更新屏障,它們都位于消費(fèi)者的本地共享內(nèi)存中。消費(fèi)者只需在屏障上等待,然后可以直接從本地內(nèi)存讀取共享數(shù)據(jù)。所有這一切都建立在所謂的異步事務(wù)屏障之上,我們將在更多幻燈片中討論這一點(diǎn)。

現(xiàn)在我們已經(jīng)探索了針對(duì)數(shù)據(jù)局部性和利用GPU層次結(jié)構(gòu)的CUDA編程模型更改,讓我們跳轉(zhuǎn)到與異步執(zhí)行相關(guān)的改進(jìn)。正如我之前提到的,并行編程性能的關(guān)鍵之一是異步執(zhí)行,這基本上意味著允許內(nèi)存副本重疊進(jìn)行計(jì)算和其他獨(dú)立工作。Hopper H100在這方面添加了多項(xiàng)新功能。首先,一個(gè)新的異步事務(wù)屏障,隨著所有異步屏障的性能改進(jìn),以及一個(gè)用于執(zhí)行異步內(nèi)存復(fù)制的新單元,稱為TMA。我將在接下來的幾張幻燈片中描述所有這些改進(jìn)。

讓我們從異步屏障的回顧開始,這在A100上可用??紤]一個(gè)示例,其中一組線程正在生成數(shù)據(jù),這些數(shù)據(jù)將在屏障后全部消耗。如左圖所示,異步屏障將同步過程分為兩個(gè)步驟。首先,線程信號(hào)到達(dá)當(dāng)他們完成自己的共享數(shù)據(jù)部分時(shí)。此到達(dá)是無阻塞的,因此線程可以自由地執(zhí)行其他獨(dú)立的工作。最終,線程需要所有其他線程生成的數(shù)據(jù),此時(shí),他們等待,這會(huì)阻塞它們,直到每個(gè)線程都發(fā)出信號(hào)到達(dá)為止?,F(xiàn)在,異步屏障的優(yōu)點(diǎn)他們是否允許線程在等待之前執(zhí)行獨(dú)立的工作?這種重疊是額外性能的來源。H100的新功能是等待線程休眠的能力,直到所有其他線程到達(dá)。在以前的芯片上,等待線程將在共享內(nèi)存中的屏障對(duì)象上旋轉(zhuǎn)。雖然異步屏障仍然是編程模型的一部分,Hopper正在添加一種新形式的屏障,稱為異步事務(wù)屏障。

異步事務(wù)屏障也是一個(gè)分割屏障,但不僅僅計(jì)算到達(dá)的線程,它還對(duì)交易進(jìn)行計(jì)數(shù)。有一個(gè)用于寫入共享內(nèi)存的新命令,傳遞要寫入的數(shù)據(jù)和交易計(jì)數(shù)。將此事務(wù)計(jì)數(shù)視為字節(jié)計(jì)數(shù)。事務(wù)屏障將在等待命令處阻塞線程,直到所有生產(chǎn)者線程都完成到達(dá),以及所有交易計(jì)數(shù)的總和達(dá)到預(yù)期值。這個(gè)屏障是一個(gè)非常強(qiáng)大的新原語,它非常適合異步內(nèi)存復(fù)制和數(shù)據(jù)交換。

之前,我描述了集群如何進(jìn)行塊對(duì)塊通信存在單方面數(shù)據(jù)交換的障礙。該集群功能構(gòu)建在這些異步事務(wù)障礙之上。我有另一個(gè)交易障礙的例子,如左側(cè)所示。在此示例中,集群中有四個(gè)線程塊正在跨數(shù)組進(jìn)行計(jì)算。每個(gè)線程塊都被分配了一組要處理的元素,在算法的每次迭代結(jié)束時(shí),每個(gè)區(qū)塊必須交換其 Halo 數(shù)據(jù),以黃色突出顯示,與其他三個(gè)塊。

在右側(cè),我僅顯示了塊一、塊二和塊三更新塊零所需的存儲(chǔ)命令。這在塊零的共享內(nèi)存中使用單個(gè)事務(wù)屏障。三個(gè)生產(chǎn)者發(fā)送他們需要的任意數(shù)量的字節(jié),并且交易屏障保持塊零直到所有字節(jié)到達(dá)。事務(wù)屏障只需知道預(yù)期的字節(jié)總數(shù)。它不關(guān)心哪個(gè)生產(chǎn)者發(fā)送這些字節(jié),并且不需要它們都發(fā)送相同數(shù)量的字節(jié)。這是非常強(qiáng)大的。它允許與多個(gè)生產(chǎn)者進(jìn)行單方面的數(shù)據(jù)交換與單個(gè)消費(fèi)者進(jìn)行通信。

在 Hopper H100 上,執(zhí)行異步內(nèi)存復(fù)制的另一種方法是通過使用 SM 內(nèi)的新單元稱為張量?jī)?nèi)存加速器(TMA)。如上圖所示,TMA 可以復(fù)制張量的任何部分,最多五個(gè)維度。將張量視為基本上的多維數(shù)組。TMA 提供了更簡(jiǎn)單的編程模型,因?yàn)樗庸芰说刂飞傻娜蝿?wù),通過計(jì)算步幅、偏移和邊界條件復(fù)制張量的片段時(shí)。它可以處理任何尺寸的副本,最大為 SM 上共享內(nèi)存的完整大小。它還可以在全局內(nèi)存和共享內(nèi)存之間以任一方向進(jìn)行異步復(fù)制,而A100只能進(jìn)行異步復(fù)制進(jìn)入共享內(nèi)存。對(duì)于集群,它還可以從一個(gè)塊的共享內(nèi)存中進(jìn)行復(fù)制到另一個(gè)塊的共享內(nèi)存。

現(xiàn)在,TMA 的一個(gè)關(guān)鍵優(yōu)勢(shì)是它可以釋放線程來執(zhí)行其他獨(dú)立工作。在A100上,如果你看左下圖,在 A100 上,內(nèi)存副本是使用特殊的 load-global-store-shared 指令執(zhí)行的,所以線程本身負(fù)責(zé)生成所有地址并循環(huán)遍歷整個(gè)復(fù)制區(qū)域。在 H100 上,如右圖所示,TMA 負(fù)責(zé)處理一切。單個(gè)線程在啟動(dòng) TMA 之前創(chuàng)建一個(gè)副本描述符,從那時(shí)起,地址生成和數(shù)據(jù)移動(dòng)完全由硬件處理??傮w而言,TMA 是一個(gè)非常強(qiáng)大的 DMA 引擎,用于與共享內(nèi)存之間進(jìn)行異步內(nèi)存復(fù)制。

所以總結(jié)一下,異步執(zhí)行的目標(biāo)是讓GPU上的所有單元都得到充分利用,通過允許計(jì)算和數(shù)據(jù)移動(dòng)更多的重疊。A100引入異步操作以及編程模型的異步障礙。然而,在A100上,必須使用許多線程來生成復(fù)制地址。在循環(huán)中啟動(dòng)特殊加載指令。

Hopper H100引入了異步事務(wù)障礙,這對(duì)于具有同步的原子數(shù)據(jù)移動(dòng)來說是一種改進(jìn),它提高了等待障礙的效率。Hopper還推出了一種新的內(nèi)存副本片上加速器,名為TMA,這使得通用線程無需進(jìn)行內(nèi)存操作和地址計(jì)算,讓他們能夠?qū)W⒂讵?dú)立的處理任務(wù)。因此,盡管A100在編程模型中引入了異步,但Hopper H100是一款完全異步的GPU。

同樣,Hopper引入了新的層次結(jié)構(gòu),在CUDA編程模型中被稱為線程塊簇。這些集群的行為就像一個(gè)超大的線程塊,它們保證所有線程塊同時(shí)調(diào)度到SM上,并且可以訪問所有的分布式共享內(nèi)存,在集群中的任何塊上。集群使用事務(wù)屏障實(shí)現(xiàn)單向通信,以獲得最小的潛在記憶。集群還允許高頻數(shù)據(jù)交換。在右側(cè),您可以看到一些性能數(shù)據(jù),其中集群提供了2-3倍的性能優(yōu)勢(shì),超過非簇。集群提高了許多應(yīng)用程序的性能,允許程序員直接控制GPU的更大部分,而不僅僅是一個(gè)SM。集群允許協(xié)作執(zhí)行,有更多的線程可以訪問更大的共享內(nèi)存池,這比在一個(gè)SM上僅使用一個(gè)線程塊是可能的。

現(xiàn)在我們已經(jīng)介紹了Hopper GPU內(nèi)部的創(chuàng)新,讓我們來看看Hopper架構(gòu)如何將多個(gè)GPU擴(kuò)展到整個(gè)系統(tǒng),以及這些系統(tǒng)如何加速最苛刻的應(yīng)用程序。

現(xiàn)在,當(dāng)將應(yīng)用程序擴(kuò)展到單個(gè)GPU之外時(shí),每個(gè)GPU不再單獨(dú)運(yùn)行。相反,GPU必須在彼此之間同步和交換數(shù)據(jù)。正在執(zhí)行哪種算法以及該算法如何映射到機(jī)器上將決定GPU之間發(fā)生哪些通信模式。

在這張幻燈片上,我將向您展示兩種關(guān)鍵模式的示例,這兩種模式恰好是許多現(xiàn)代AI和HPC工作負(fù)載的核心。首先,在左側(cè),我們有一種模式,其中每個(gè)GPU同時(shí)向所有其他GPU發(fā)送唯一的數(shù)據(jù)。我們稱之為全方位交換。在平衡網(wǎng)絡(luò)中,整體性能由我們稱為網(wǎng)絡(luò)二分帶寬的屬性決定,這正是當(dāng)網(wǎng)絡(luò)中一半GPU向另一半發(fā)送數(shù)據(jù)時(shí)網(wǎng)絡(luò)可以維持的最小帶寬。

在幻燈片的右側(cè),我們?cè)跀?shù)據(jù)并行深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中有一種常見的模式,稱為all-reduce。當(dāng)每個(gè)GPU在某種分布式計(jì)算中產(chǎn)生部分結(jié)果時(shí),就會(huì)使用All-reduce。現(xiàn)在的目標(biāo)是將所有這些部分結(jié)果相加,然后將總和廣播到所有參與的GPU。因此,從簡(jiǎn)化的角度來看,all-reduce性能由每個(gè)rank中的IO帶寬決定。然而,因?yàn)檫@些值不僅通過鏈路發(fā)送,而且還需要減少,性能不僅取決于鏈路帶寬,還取決于執(zhí)行縮減計(jì)算的速度。

因此,讓我們開始將H100 GPU組裝到越來越大的系統(tǒng)中,并在每個(gè)級(jí)別上看看這兩種關(guān)鍵模式是如何加速的。首先,除了H100之外,我們還推出了一款名為DGX-H100的新服務(wù)器。正如您在此圖中看到的,這個(gè)新的DGX包含八個(gè)GPU,每個(gè)GPU通過PCIe Gen 5連接到CPU,以及NVIDIA ConnectX 7 InfiniBand網(wǎng)絡(luò)接口控制器。在GPU之間,第四代NVLink的每個(gè)鏈接帶寬與A100相同,但每個(gè)GPU的鏈接數(shù)量從12個(gè)增加到了18個(gè)。這使得每個(gè)GPU的總帶寬達(dá)到每秒900GB,比A100高出50%。GPU之間的NVLink連接是通過四個(gè)新的NVSwitch芯片建立的,每個(gè)芯片提供每秒高達(dá)1.7TB的二分帶寬,這足以維持所有GPU對(duì)之間的每個(gè)GPU NVLink帶寬。這個(gè)新的NVSwitch還增加了對(duì)SHARP技術(shù)的支持,這項(xiàng)技術(shù)以前僅在基于InfiniBand的網(wǎng)絡(luò)中可用。SHARP技術(shù)將還原操作的速度加快了兩倍,稍后我將解釋它是如何工作的。

下面的表格總結(jié)了DGX-H100相對(duì)于DGX-A100的改進(jìn)。在一、二等分帶寬軌道中,原始NVLink帶寬得到了改進(jìn),因此為1。速度是上一代的5倍。減少帶寬原則上遵循相同的1.5倍改進(jìn),但SHARP的存在將其翻倍至3倍。接下來,我將向您展示這是如何工作的。

首先,我們來看看A100。在我在這里展示的算法中,有兩個(gè)步驟,減少和廣播步驟。請(qǐng)記住,一開始,每個(gè)GPU都保存一些計(jì)算的部分結(jié)果,我們的目標(biāo)是將所有部分結(jié)果減少為最終結(jié)果,然后將該結(jié)果分配回到所有GPU。在圖中,我只會(huì)從一個(gè)GPU(頂部的GPU)的角度顯示流量,以減少視覺混亂,但實(shí)際上,請(qǐng)記住所有GPU都并行執(zhí)行所有這些步驟。

因此,在第一步中,每個(gè)GPU從所有其他GPU讀取其負(fù)責(zé)的數(shù)據(jù)塊的部分結(jié)果,并在其SM中減少它們。這意味著它正在從NGPU讀取數(shù)據(jù),它正在向NGPU發(fā)送數(shù)據(jù),因?yàn)樗衅渌鸊PU都在同時(shí)執(zhí)行此操作。在第二步中,每個(gè)GPU現(xiàn)在將為其數(shù)據(jù)塊計(jì)算的最終縮減結(jié)果廣播給所有其他GPU。因此,和以前一樣,它必須發(fā)送數(shù)據(jù)N次,一次發(fā)送給其他GPU,它將接收數(shù)據(jù)N次,一次來自其他GPU??偠灾?,這意味著價(jià)值4N的數(shù)據(jù)已通過該GPU的NVLink傳輸。

現(xiàn)在讓我們看看在SHARP H100上的情況有何變化。首先,SHARP增加了網(wǎng)絡(luò)內(nèi)計(jì)算。所以現(xiàn)在交換機(jī)本身可以執(zhí)行減少操作。這意味著在第一步中,GPU現(xiàn)在只需向交換機(jī)詢問一條數(shù)據(jù)的最終縮減結(jié)果,然后交換機(jī)獨(dú)立地從所有其他GPU讀取它需要的部分結(jié)果,計(jì)算歸約結(jié)果,并將其提供給請(qǐng)求的GPU。因此,雖然GPU仍然需要向交換機(jī)發(fā)送N次數(shù)據(jù),一次是為對(duì)方請(qǐng)求GPU發(fā)送的,它只會(huì)接收一次數(shù)據(jù)。作為獎(jiǎng)勵(lì),它也不必再計(jì)算任何東西,因?yàn)榻粨Q機(jī)已經(jīng)完成了它,這使得SM可以騰出時(shí)間來做其他工作。在第二步也是最后一步中,SHARP還增加了對(duì)通過NVLink寫入多播的支持。這使得圖形處理器(GPU)只能發(fā)送一次數(shù)據(jù),然后由交換機(jī)將其分發(fā)給所有其他的 GPU。同樣,這與第一步是對(duì)稱的,盡管我們?nèi)匀皇盏絹碜云渌?GPU 的 N 次寫入,但我們只需發(fā)送一次數(shù)據(jù)。因此,總的來說,這意味著通過 GPU NVLink 傳輸?shù)臄?shù)據(jù)量已經(jīng)從 4N 減少到 2N 加 2,有效地降低了帶寬,提高了大約兩倍的效率。因此,結(jié)合我們已經(jīng)看到的原始鏈路帶寬增加 50%,這為我們帶來了我們所看到的 3 倍的提升。

現(xiàn)在,盡管 3X 是帶寬的巨大飛躍,但自從我們?cè)?Pascal 中重新引入了 NVLink,它始終僅限于相當(dāng)少量的 GPU。因此,只有小到足以適合或在八個(gè) GPU 上運(yùn)行的計(jì)算問題才能從中受益。今天,我們將取消這個(gè)限制。

Hopper 的全新 NVLink 網(wǎng)絡(luò)架構(gòu)可以用于在 H100 中組裝效率顯著提高的大型系統(tǒng)。這種新的 NVLink 網(wǎng)絡(luò)互連由新的外部 NVLink 開關(guān)啟用,該開關(guān)基于與 DGX 內(nèi)部 NV 開關(guān)相同的芯片。有了這個(gè)新的外部開關(guān),現(xiàn)在可以通過 NVLink 連接多達(dá) 256 個(gè) GPU。

因此,相比上一代,這種規(guī)模的系統(tǒng)必須求助于 HDR InfiniBand,這無疑已經(jīng)是一種快速互連,并且還需要多級(jí)開關(guān),NVLink 網(wǎng)絡(luò)提供了一個(gè)數(shù)量級(jí)的二分帶寬增加,正如您在底部的表格中看到的,只有單層交換機(jī)。理解帶寬增加一個(gè)數(shù)量級(jí)的含義可能有些困難。舉個(gè)例子,讓我們看一下在二分帶寬、推薦系統(tǒng)上蓬勃發(fā)展的深度學(xué)習(xí)模型。

推薦器正在推動(dòng)我們今天在互聯(lián)網(wǎng)上看到的大部分內(nèi)容,從產(chǎn)品推薦到搜索結(jié)果。在左圖中,您可以看到推薦器由兩部分組成。首先,在底部,一組所謂的嵌入表,用于轉(zhuǎn)換分類輸入信息,例如該用戶購買了該商品,轉(zhuǎn)化為密集的數(shù)字表示。其次,一組線性層對(duì)這些表示進(jìn)行操作以提出建議,如頂部所示。

這些推薦模型的挑戰(zhàn)性和獨(dú)特性在于其龐大的規(guī)模。例如,這些嵌入表之一可能對(duì)網(wǎng)上商店中出售的每件商品都有一個(gè)條目。因此,它可以輕松擁有數(shù)百萬甚至數(shù)十億個(gè)條目,每個(gè)條目都是數(shù)字向量。這意味著推薦器中的嵌入通常不適合單個(gè) GPU,甚至單個(gè)服務(wù)器的內(nèi)存。因此我們需要使用模型并行性將它們分布在許多 GPU 上。例如,一次為每個(gè) GPU 提供一張表。

與嵌入不同,網(wǎng)絡(luò)頂部的線性層很小,并且通常在所有 GPU 之間復(fù)制,并通過數(shù)據(jù)并行性進(jìn)行有效訓(xùn)練。因此,當(dāng)數(shù)據(jù)流經(jīng)神經(jīng)網(wǎng)絡(luò)時(shí),無論是推理還是訓(xùn)練,它必須在底部模型并行部分和頂部數(shù)據(jù)并行部分的邊界處的 GPU 之間重新分配。這種重新分配實(shí)際上是一種全方位的交換。正如我們已經(jīng)展示的,NVLink 網(wǎng)絡(luò)可以顯著提高網(wǎng)絡(luò)平分橫幅的所有規(guī)模和平分帶寬。

在右側(cè),我向您展示了示例推薦模型的訓(xùn)練性能,嵌入 14 TB,甚至比單個(gè) DGX 服務(wù)器內(nèi)的平均 GPU 內(nèi)存容量還要大得多。你可以看到首先從A100移動(dòng)到H100,兩者都使用InfiniBand,性能提高了大約兩倍半。但有了 NVLink 網(wǎng)絡(luò),性能已經(jīng)再次提升,達(dá)到了A100的四倍以上,這一切都得益于更高的綜合性能。

接下來,我們將深入探討NVLink網(wǎng)絡(luò)的底層結(jié)構(gòu),以理解它如何幫助我們構(gòu)建更大的系統(tǒng)。在這張幻燈片中,我展示了兩個(gè)通過NVLink網(wǎng)絡(luò)交換機(jī)連接的GPU。當(dāng)左側(cè)的GPU(即源GPU)中的SM需要寫入右側(cè)目標(biāo)GPU中的內(nèi)存時(shí),它將使用源GPU的虛擬地址空間發(fā)送內(nèi)存請(qǐng)求。然后,GPU的內(nèi)存管理單元將其轉(zhuǎn)換為新的NVLink網(wǎng)絡(luò)地址空間。接著,請(qǐng)求在到達(dá)目標(biāo)GPU之前,通過該網(wǎng)絡(luò)地址在網(wǎng)絡(luò)中進(jìn)行路由。

新的硬件(包括新的鏈接TLB)確保請(qǐng)求合法,并且僅針對(duì)實(shí)際允許訪問的內(nèi)存。然后將其轉(zhuǎn)換為GPU HBM中的物理內(nèi)存地址。正如這個(gè)例子所示,與傳統(tǒng)的NVLink不同,NVLink網(wǎng)絡(luò)建立了地址空間隔離,即所有端點(diǎn)虛擬地址空間和新網(wǎng)絡(luò)地址空間之間的隔離。與傳統(tǒng)NVLink不同的是,NVLink網(wǎng)絡(luò)連接并非由系統(tǒng)在啟動(dòng)時(shí)自動(dòng)建立,而是必須在運(yùn)行時(shí)由應(yīng)用程序軟件通過一組新的CUDA API函數(shù)請(qǐng)求。當(dāng)然,最簡(jiǎn)單的方法是使用NVIDIA的通信庫,如Nickel或NVShmem,它們?cè)诤笈_(tái)自動(dòng)執(zhí)行此連接設(shè)置。

這些可擴(kuò)展性和安全性的改進(jìn)使我們能夠通過NVLink連接更多的GPU,從而使我們所看到的二分帶寬實(shí)現(xiàn)數(shù)量級(jí)的增加。當(dāng)然,我們這個(gè)時(shí)代最大、最具挑戰(zhàn)性的問題可能需要超過256個(gè)GPU才能運(yùn)行。因此,可以通過連接多個(gè)256 GPU SuperPOD來實(shí)現(xiàn)可擴(kuò)展的單元。

為此,我們推出了下一代InfiniBand互連技術(shù)、新的ConnectX 7 InfiniBand NIC和名為Quantum2的新InfiniBand交換機(jī)。兩者都支持下一代NDR InfiniBand標(biāo)準(zhǔn),該標(biāo)準(zhǔn)提供的帶寬是上一代HDR的兩倍,每個(gè)鏈路總共100GB。在DGX系統(tǒng)中,有8個(gè)這樣的NIC,系統(tǒng)總帶寬為每秒800GB。CX7還包括一個(gè)硬件加速器,用于小數(shù)據(jù)量的全面操作,因?yàn)檫@些操作通常發(fā)生在許多高度分布式的工作負(fù)載中。因此,CX7相對(duì)于CX6在全對(duì)全方面的優(yōu)勢(shì)可以超過2倍的原始帶寬增益并增長(zhǎng)至四倍。

在交換機(jī)方面,Quantum2比Quantum1具有更高的開關(guān)基數(shù)。它還包括第三代InfiniBand Sharp。我們已經(jīng)討論過Sharp如何通過NVLink加速縮減,這里的原理是完全相同的。然而,在大型系統(tǒng)中,例如通常使用InfiniBand的系統(tǒng),例如在全尺寸數(shù)據(jù)中心中,大多數(shù)時(shí)候,所有GPU上不僅僅運(yùn)行一種工作負(fù)載。當(dāng)處理非常具有挑戰(zhàn)性的工作負(fù)載時(shí),可能會(huì)發(fā)生這種情況。但在其他時(shí)候,多個(gè)獨(dú)立的工作負(fù)載將在機(jī)器的不同部分同時(shí)執(zhí)行。因此,對(duì)于這種情況,Sharp Generation 3包括新的硬件多租戶支持,最多可減少32個(gè)并發(fā)。在下一張幻燈片中,我將向您展示更多相關(guān)細(xì)節(jié)。

首先,我們來看左邊的上一代Sharp的A100。在這個(gè)系統(tǒng)中,每個(gè)Quantum1交換機(jī)都配備了一個(gè)我們稱為“聚合節(jié)點(diǎn)”的Sharp硬件資源。因此,一旦GPU在Sharp樹中被連接起來以加速它們之間的數(shù)據(jù)減少,其他工作就無法在同一組交換機(jī)上使用Sharp。這意味著,盡管系統(tǒng)上運(yùn)行著許多作業(yè),但Sharp的優(yōu)勢(shì)只能在所有活動(dòng)工作負(fù)載的一小部分中得到體現(xiàn)。

在右側(cè),我們看到的是H100上的Sharp V3。在這個(gè)新系統(tǒng)中,每臺(tái)交換機(jī)的Sharp資源增加了32倍。因此,即使系統(tǒng)上存在異構(gòu)工作負(fù)載組合,這些工作負(fù)載也可以從加速數(shù)據(jù)減少中受益。

接下來,我將向您展示如何將所有這些元素結(jié)合起來,構(gòu)建一臺(tái)完整的Hopper AI超級(jí)計(jì)算機(jī)。在左邊,您可以看到它的A100版本。128臺(tái)DGX A100服務(wù)器通過葉脊核心架構(gòu)中的三層HDR InfiniBand交換機(jī)連接,形成了一個(gè)包含1000個(gè)GPU的集群。我這里以1000個(gè)GPU為例,但實(shí)際上,只需添加更多的系統(tǒng)和交換機(jī),就可以擴(kuò)展到任意更多數(shù)量的GPU。

在右側(cè),您可以看到DGX H100等效系統(tǒng)。對(duì)于1000個(gè)GPU,我們將有四個(gè)通過Quantum 2和CX7的NDR InfiniBand相互連接的NVLink網(wǎng)絡(luò)子集群。因此,在全面的情況下,這個(gè)新的H100系統(tǒng)的計(jì)算失敗次數(shù)是原來的六倍,二等分帶寬的兩倍,以及全對(duì)全性能的四倍。在存在多個(gè)租戶的情況下,最多可以減少A100系統(tǒng)帶寬的四倍。當(dāng)然,還有一些應(yīng)用程序可以本地化到機(jī)器的較小部分,正如我們之前討論的,進(jìn)入NVLink網(wǎng)絡(luò)可以看到更高的速度。總的來說,計(jì)算和通信性能都有了巨大的提高。

現(xiàn)在我們已經(jīng)了解了Hopper如何擴(kuò)展到數(shù)據(jù)中心的數(shù)千個(gè)GPU,我想花幾分鐘時(shí)間談?wù)凬VIDIA的云計(jì)算技術(shù)。

首先,我想向您介紹一些有關(guān)機(jī)密計(jì)算的背景知識(shí)。今天,許多客戶的應(yīng)用程序都處理著高度敏感的信息,例如個(gè)人或財(cái)務(wù)數(shù)據(jù)、健康信息,或者是專有的人工智能模型和權(quán)重。在云中運(yùn)行這些應(yīng)用程序的關(guān)鍵在于數(shù)據(jù)安全,尤其是在許多客戶共享基礎(chǔ)設(shè)施的地方。具體來說,客戶希望防止在使用數(shù)據(jù)時(shí),其數(shù)據(jù)被未經(jīng)授權(quán)訪問??蛻魯?shù)據(jù)通常在靜態(tài)時(shí)進(jìn)行加密,比如在磁盤上,以及在傳輸過程中,比如通過網(wǎng)絡(luò)。但在使用它執(zhí)行計(jì)算時(shí),它必須在服務(wù)器上未加密。

機(jī)密計(jì)算是一種保護(hù)客戶數(shù)據(jù)在服務(wù)器上使用時(shí)的技術(shù)。它必須保護(hù)數(shù)據(jù)免受惡意行為者的侵害,例如云中的其他用戶和應(yīng)用程序。它必須保護(hù)數(shù)據(jù)免受內(nèi)部人員的侵害,例如云的系統(tǒng)管理員,他們可以物理訪問服務(wù)器。它必須保護(hù)數(shù)據(jù)免受控制云基礎(chǔ)設(shè)施本身的軟件的影響,例如主機(jī)操作系統(tǒng)或虛擬機(jī)管理程序??蛻粽娴牟幌胂嘈湃魏稳藭?huì)擁有他們的數(shù)據(jù),甚至云系統(tǒng)管理員或云基礎(chǔ)設(shè)施本身也不是。為了防范各種威脅,機(jī)密計(jì)算必須提供兩個(gè)關(guān)鍵要素:保密性和完整性。保密性是指保護(hù)所有客戶的代碼和數(shù)據(jù),防止被攻擊者讀取。完整性則是指攻擊者無法在不被發(fā)現(xiàn)的情況下破壞客戶的代碼或數(shù)據(jù),同時(shí)系統(tǒng)本身能夠證明其組件是安全的。

目前,機(jī)密計(jì)算解決方案主要基于CPU,這意味著它們的性能不足以應(yīng)對(duì)AI和HPC等計(jì)算密集型工作負(fù)載。通過Hopper H100,我們?cè)谟布用鏀U(kuò)展了機(jī)密計(jì)算的安全邊界,包括CPU和GPU。這個(gè)邊界被稱為可信執(zhí)行環(huán)境,如你在圖中所見,現(xiàn)在它包括了CPU上的機(jī)密虛擬機(jī)和GPU上的對(duì)應(yīng)虛擬機(jī)。

H100具有將GPU與外界隔離的硬件,這樣只有來自機(jī)密虛擬機(jī)內(nèi)部的交易才能被驗(yàn)證和執(zhí)行。所有通過PCIe的交易都在CPU和GPU之間進(jìn)行加密,而密鑰只能由在可信執(zhí)行環(huán)境中運(yùn)行的軟件訪問。這些密鑰對(duì)主機(jī)操作系統(tǒng)、虛擬機(jī)管理程序或任何惡意行為者都是不可見的,從而確保了數(shù)據(jù)的機(jī)密性和完整性。

H100在啟動(dòng)和配置系統(tǒng)時(shí)還提供了硬件信任根,使得機(jī)密虛擬機(jī)能夠確保在GPU上運(yùn)行的固件是真實(shí)且未被篡改的,它允許GPU安全地證明啟用了機(jī)密計(jì)算,這再次提供了完整性。

如圖所示,H100允許單個(gè)租戶在安全直通模式下設(shè)置具有單個(gè)GPU的機(jī)密虛擬機(jī),單個(gè)租戶也可以分配給多個(gè)GPU。我在這里展示了兩個(gè)。在此配置中,GPU之間NVLink上的流量也已加密。

最重要的是,所有針對(duì)安全性和機(jī)密性的更改,例如加密,都被GPU上的虛擬化硬件隱藏,以及在CPU上運(yùn)行的NVIDIA驅(qū)動(dòng)程序。這意味著無需更改CUDA應(yīng)用程序代碼就可以使用NVIDIA的機(jī)密計(jì)算技術(shù)。因此,Hopper H100現(xiàn)在是世界上第一個(gè)具有本機(jī)機(jī)密計(jì)算支持的GPU。

現(xiàn)在,讓我們換個(gè)話題,談?wù)勗朴?jì)算和配置。數(shù)據(jù)中心通常包含數(shù)百個(gè)GPU,云服務(wù)提供商必須在客戶之間配置這些GPU。每個(gè)客戶租用一組GPU,可以是一個(gè),也可以是多個(gè),具體取決于問題的大小和所需的解決時(shí)間。AI訓(xùn)練、HPC模擬等許多問題需要客戶能夠負(fù)擔(dān)得起的盡可能多的GPU。但對(duì)于某些問題來說,單個(gè)H100的威力太大了。AI推理和CUDA代碼開發(fā)可能就是這樣的例子。因此,云服務(wù)提供商希望為工作負(fù)載更簡(jiǎn)單的客戶提供部分GPU,基本上那些需要比完整的H100更少的馬力。

在A100上,NVIDIA引入了一項(xiàng)名為MIG的技術(shù),這使得云服務(wù)提供商能夠進(jìn)行此類部分配置。MIG或多實(shí)例GPU允許GPU細(xì)分,最多可分為七個(gè)GPU實(shí)例。正如您在右側(cè)看到的,每個(gè)GPU實(shí)例都有專用的處理資源,例如SM,每個(gè)資源都有專用的內(nèi)存分區(qū),具有到L2和DRAM的隔離數(shù)據(jù)路徑。這種物理隔離還提供性能隔離并保證服務(wù)質(zhì)量。

在Hopper H100上,我們對(duì)MIG技術(shù)進(jìn)行了多項(xiàng)改進(jìn)。首先,H100為每個(gè)MIG提供的計(jì)算能力是A100的大約三倍。每個(gè)MIG的內(nèi)存帶寬大約是A100的兩倍。

此外,我們?yōu)槊總€(gè)GPU實(shí)例增加了專門的圖像和視頻解碼器引擎。這對(duì)于經(jīng)常處理大量圖像或視頻的人工智能推理客戶來說至關(guān)重要。第三,我們?cè)贖100上,結(jié)合了MIG技術(shù),將GPU劃分為多個(gè)實(shí)例,并使用我們的機(jī)密計(jì)算技術(shù)進(jìn)行安全執(zhí)行。在這里,可信執(zhí)行環(huán)境封裝了一個(gè)運(yùn)行在CPU上的機(jī)密VM,同時(shí)在GPU上運(yùn)行MIG實(shí)例。我們利用了MIG已經(jīng)提供的單元物理隔離。

另外,我們添加了硬件防火墻來防止任何未經(jīng)授權(quán)的內(nèi)存訪問,這些訪問可能來自其可信執(zhí)行環(huán)境之外,包括來自其他MIG實(shí)例。在PCIe接口上,SROV用于為每個(gè)GPU實(shí)例創(chuàng)建一個(gè)虛擬功能。SROV虛擬化控制和編程每個(gè)GPU實(shí)例所需的所有寄存器。當(dāng)然,PCI上的所有傳輸仍然是加密的。每個(gè)GPU實(shí)例都有自己的密鑰,因此,虛擬機(jī)之間或GPU實(shí)例之間沒有數(shù)據(jù)共享。

因此,通過結(jié)合MIG和機(jī)密計(jì)算,Hopper H100現(xiàn)在是世界上第一個(gè)使用單個(gè)GPU的本機(jī)機(jī)密計(jì)算平臺(tái),也是第一個(gè)多租戶平臺(tái)。

看來我們的時(shí)間已經(jīng)用完了,希望您喜歡我們對(duì)Hopper H100內(nèi)部所有技術(shù)的快速了解。我們相信H100將成為驅(qū)動(dòng)世界人工智能基礎(chǔ)設(shè)施的新引擎。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
解放戰(zhàn)爭(zhēng)被捕的最高將領(lǐng):被敵人綁巨石沉入江底,死前大喊5個(gè)字

解放戰(zhàn)爭(zhēng)被捕的最高將領(lǐng):被敵人綁巨石沉入江底,死前大喊5個(gè)字

大運(yùn)河時(shí)空
2026-01-12 06:00:03
人前光鮮人后心酸,45歲"消失"的玲花,終是為曾毅的行為買了單

人前光鮮人后心酸,45歲"消失"的玲花,終是為曾毅的行為買了單

林雁飛
2026-01-11 14:50:02
俄羅斯榛樹導(dǎo)彈故意不裝彈頭,烏方承認(rèn):雷達(dá)完全失效,看不見

俄羅斯榛樹導(dǎo)彈故意不裝彈頭,烏方承認(rèn):雷達(dá)完全失效,看不見

科普100克克
2026-01-11 11:44:23
2026年新成語:惡意尋子!該警惕了,細(xì)節(jié)越挖越心寒!

2026年新成語:惡意尋子!該警惕了,細(xì)節(jié)越挖越心寒!

你食不食油餅
2026-01-11 06:41:42
“執(zhí)法車一走,馬上就亂!”滬上地鐵站外屢現(xiàn)“貓鼠游戲”,市民“很愁很揪心”

“執(zhí)法車一走,馬上就亂!”滬上地鐵站外屢現(xiàn)“貓鼠游戲”,市民“很愁很揪心”

新民晚報(bào)
2026-01-12 18:46:39
蔣介石的后人召開新聞發(fā)布會(huì),正式提出將 “兩蔣” 靈柩遷回故鄉(xiāng)的訴求,會(huì)上的三句發(fā)言,引得世人無不唏噓感慨

蔣介石的后人召開新聞發(fā)布會(huì),正式提出將 “兩蔣” 靈柩遷回故鄉(xiāng)的訴求,會(huì)上的三句發(fā)言,引得世人無不唏噓感慨

源溯歷史
2026-01-12 23:12:10
整整180天,那個(gè)敢炮轟以色列,彈打美國航母的男人再?zèng)]出現(xiàn)過。

整整180天,那個(gè)敢炮轟以色列,彈打美國航母的男人再?zèng)]出現(xiàn)過。

安安說
2026-01-12 14:15:45
女子不會(huì)殺豬網(wǎng)上求助,上千人開車到場(chǎng)幫忙,10萬人在線圍觀!村干部:宰了5頭豬吃流水席,比過年還熱鬧

女子不會(huì)殺豬網(wǎng)上求助,上千人開車到場(chǎng)幫忙,10萬人在線圍觀!村干部:宰了5頭豬吃流水席,比過年還熱鬧

大風(fēng)新聞
2026-01-12 16:12:28
這不是AI!是真正的人手:任天堂廣告模特回應(yīng)了

這不是AI!是真正的人手:任天堂廣告模特回應(yīng)了

游民星空
2026-01-12 20:52:04
再這么搞下去,中產(chǎn)家長(zhǎng)們的崩塌就是早晚的事

再這么搞下去,中產(chǎn)家長(zhǎng)們的崩塌就是早晚的事

重遠(yuǎn)投資觀
2026-01-10 20:55:25
合川千人殺豬飯后續(xù),一天宰豬五頭,女子漲粉20萬,文旅局忙瘋了

合川千人殺豬飯后續(xù),一天宰豬五頭,女子漲粉20萬,文旅局忙瘋了

天天熱點(diǎn)見聞
2026-01-12 05:51:53
終于來了!蘋果推送 iOS 26.3 新系統(tǒng)更新

終于來了!蘋果推送 iOS 26.3 新系統(tǒng)更新

XCiOS俱樂部
2026-01-13 04:31:13
婚外情最殘忍真相:窮人連出軌都透著窮酸氣

婚外情最殘忍真相:窮人連出軌都透著窮酸氣

衍月
2025-12-07 22:51:30
演員龔玥菲分享訂婚視頻,和龐麥郎各種秀恩愛

演員龔玥菲分享訂婚視頻,和龐麥郎各種秀恩愛

映射生活的身影
2026-01-10 11:18:08
2輪4分!亞洲冠軍比中國隊(duì)還危險(xiǎn):打平韓國=可能出局 3隊(duì)同積5分

2輪4分!亞洲冠軍比中國隊(duì)還危險(xiǎn):打平韓國=可能出局 3隊(duì)同積5分

侃球熊弟
2026-01-12 22:14:21
古代犯人發(fā)配需要衙役押送,往返幾千里路,衙役是不是也很遭罪?

古代犯人發(fā)配需要衙役押送,往返幾千里路,衙役是不是也很遭罪?

掠影后有感
2026-01-10 13:57:42
外交部介紹加拿大總理卡尼訪華有關(guān)安排

外交部介紹加拿大總理卡尼訪華有關(guān)安排

新華社
2026-01-12 16:46:03
特朗普稱“中俄只能在美方控制下購買委內(nèi)瑞拉石油”,外交部回應(yīng)

特朗普稱“中俄只能在美方控制下購買委內(nèi)瑞拉石油”,外交部回應(yīng)

新京報(bào)政事兒
2026-01-12 15:51:49
中國賺錢美國花?老戲骨祖孫3代在美奢華享樂 過上“人上人”生活

中國賺錢美國花?老戲骨祖孫3代在美奢華享樂 過上“人上人”生活

付老師種植技術(shù)團(tuán)隊(duì)
2026-01-12 20:11:27
特朗普:對(duì)伊朗貿(mào)易伙伴征收25%關(guān)稅

特朗普:對(duì)伊朗貿(mào)易伙伴征收25%關(guān)稅

財(cái)聯(lián)社
2026-01-13 06:20:40
2026-01-13 07:07:00
Web3天空之城 incentive-icons
Web3天空之城
美好,有趣的,值得銘記的
101文章數(shù) 86關(guān)注度
往期回顧 全部

數(shù)碼要聞

聯(lián)想Q4、全年都是冠軍,蘋果怎么排都是第四

頭條要聞

"搖人殺豬"女孩一天漲粉150萬:我捅了大婁子

頭條要聞

"搖人殺豬"女孩一天漲粉150萬:我捅了大婁子

體育要聞

一場(chǎng)安東尼奧式勝利,給中國足球帶來驚喜

娛樂要聞

蔡少芬結(jié)婚18周年,與張晉過二人世界

財(cái)經(jīng)要聞

倍輕松信披迷霧 實(shí)控人占用資金金額存疑

科技要聞

面對(duì)SpaceX瘋狂“下餃子” 中國正面接招

汽車要聞

增配不加價(jià) 北京現(xiàn)代 第五代 勝達(dá)2026款上市

態(tài)度原創(chuàng)

教育
家居
親子
時(shí)尚
公開課

教育要聞

孩子教會(huì)我們,失誤無需畏懼

家居要聞

包絡(luò)石木為生 野性舒適

親子要聞

原來生氣可以這么可愛的?傲嬌寶寶:那可不咋滴!

看了日本主婦的搭配才明白,年紀(jì)大了這么穿,優(yōu)雅又不油膩

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版