国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

英偉達(dá)的最大威脅:谷歌TPU憑啥?

0
分享至

公眾號(hào)記得加星標(biāo)??,第一時(shí)間看推送不會(huì)錯(cuò)過(guò)。

在科技世界,速度往往決定著可能與不可能的界限。

谷歌的 TPU 從最初的概念,到完整部署在數(shù)據(jù)中心,僅僅用了 15 個(gè)月。不到一年半的時(shí)間里,團(tuán)隊(duì)將架構(gòu)設(shè)想化為硅片,將計(jì)算理論落地為可量產(chǎn)硬件,將軟件工具與硬件緊密結(jié)合,使新加速器能夠承載現(xiàn)實(shí)工作負(fù)載。每一次脈動(dòng),每一次數(shù)據(jù)流動(dòng),都見證了工程與創(chuàng)新的極致協(xié)作。

TPU 并未止步于首次部署。隨后的每一年,團(tuán)隊(duì)都在不斷迭代:他們提升計(jì)算單元的性能,提高內(nèi)存帶寬以適應(yīng)日益增長(zhǎng)的模型規(guī)模;優(yōu)化能效,使每瓦功耗所能完成的計(jì)算量大幅增加;擴(kuò)展功能,讓 TPU 不僅能執(zhí)行矩陣乘加運(yùn)算,還能支持越來(lái)越復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu)和推理任務(wù)。每一次迭代都像為系統(tǒng)注入新的脈動(dòng),使其更加敏捷、可靠,并能承載更廣泛的工作負(fù)載。隨著 TPU 系列版本不斷更新,它逐步成為谷歌深度學(xué)習(xí)生態(tài)的核心基礎(chǔ)設(shè)施,從搜索和翻譯,到地圖、街景,再到 AlphaGo 等前沿 AI 項(xiàng)目,無(wú)一不依賴這一硬件加速器的力量。

這種持續(xù)、逐年的優(yōu)化不僅體現(xiàn)了硬件設(shè)計(jì)與工程執(zhí)行的極致協(xié)作,也展示了谷歌將實(shí)驗(yàn)室研究快速轉(zhuǎn)化為生產(chǎn)力的能力,使 TPU 在現(xiàn)實(shí)世界的應(yīng)用中愈發(fā)不可或缺。TPU的故事似乎證明了:

NVIDIA 的GPU也許是第一,但絕不是唯一。

在故事開始之前:一些與TPU(張量處理單元)有關(guān)的概念

  • TensorFlow:谷歌的機(jī)器學(xué)習(xí)框架

  • 谷歌張量處理單元(Tensor Processing Unit,TPU):谷歌的自定義數(shù)據(jù)中心加速器

  • Tensor Core:Nvidia 最新 GPU 中的一個(gè)執(zhí)行單元

  • 谷歌 Tensor:最新的 Pixel 智能手機(jī)中的基于 Arm 的系統(tǒng)級(jí)芯片


那么什么是張量呢?

在數(shù)學(xué)中,張量是一種代數(shù)對(duì)象,它描述了與向量空間相關(guān)的一組代數(shù)對(duì)象之間的多線性關(guān)系。張量可以映射不同對(duì)象之間的關(guān)系,如向量、標(biāo)量,甚至其他張量。

實(shí)際上,我們可以簡(jiǎn)化這一定義,幾乎完全依賴于張量的一種表現(xiàn)形式:張量可以表示為一個(gè)(可能是多維的)數(shù)組。

因此,根據(jù)張量的性質(zhì),它可以被表示為一個(gè) n 維數(shù)組,其中 n 是 0、1、2、3 等等。這些表示形式中的一些有更熟悉的名字:

  • 維度 0 - 標(biāo)量

  • 維度 1 - 向量

  • 維度 2 - 矩陣


為什么稱之為張量處理單元(TPU)?因?yàn)樗O(shè)計(jì)來(lái)加速涉及張量的操作。具體來(lái)說(shuō),是哪些操作呢?我們?cè)嫉木S基百科定義中提到的操作,將張量描述為“在不同對(duì)象之間的映射(多線性關(guān)系),如向量、標(biāo)量,甚至其他張量”。

讓我們舉個(gè)簡(jiǎn)單的例子。一個(gè)二維數(shù)組可以描述兩個(gè)一維數(shù)組之間的多線性關(guān)系。數(shù)學(xué)傾向的人會(huì)認(rèn)識(shí)到,這個(gè)過(guò)程是通過(guò)將一個(gè)向量乘以一個(gè)矩陣來(lái)得到另一個(gè)向量。

這可以推廣到表示更高維數(shù)組之間關(guān)系的張量。然而,盡管張量描述了任意高維數(shù)組之間的關(guān)系,實(shí)際上我們將考慮的 TPU 硬件是設(shè)計(jì)來(lái)執(zhí)行與一維和二維數(shù)組相關(guān)的計(jì)算?;蛘撸唧w地說(shuō),向量和矩陣操作。

谷歌TPU的起源:從機(jī)器學(xué)習(xí)到深度學(xué)習(xí)

要理解 TPU 的誕生,就必須回到谷歌在機(jī)器學(xué)習(xí)與深度學(xué)習(xí)領(lǐng)域的長(zhǎng)期積累。作為一家每天處理數(shù)百億次搜索請(qǐng)求、管理全球最大規(guī)模信息檢索系統(tǒng)的公司,谷歌自成立起就對(duì)機(jī)器學(xué)習(xí)保持高度依賴。其使命是“組織全球信息,使人人皆可訪問并從中受益”,而機(jī)器學(xué)習(xí)正是實(shí)現(xiàn)這一使命的核心技術(shù)途徑。

在 2000 年代中期,谷歌已經(jīng)在搜索排序(如 PageRank 的機(jī)器學(xué)習(xí)擴(kuò)展)、垃圾郵件過(guò)濾、推薦系統(tǒng)和廣告點(diǎn)擊率預(yù)測(cè)(CTR)中大規(guī)模應(yīng)用機(jī)器學(xué)習(xí)模型。


當(dāng)然,還有在谷歌每年賺取數(shù)十億美元的廣告業(yè)務(wù)中的眾多應(yīng)用。對(duì)谷歌來(lái)說(shuō),機(jī)器學(xué)習(xí)至關(guān)重要。因此,谷歌對(duì)機(jī)器學(xué)習(xí)的興趣始于 2000 年代初。隨著時(shí)間的推移,公司的關(guān)注點(diǎn)開始轉(zhuǎn)向深度學(xué)習(xí)。

在深度學(xué)習(xí)尚未全面興起的年代,谷歌已經(jīng)意識(shí)到大規(guī)模機(jī)器學(xué)習(xí)對(duì)算力的巨大需求。早期的研究顯示,用通用服務(wù)器集群即可支撐相當(dāng)復(fù)雜的模型訓(xùn)練。例如,在后來(lái)被廣泛引用的論文《Building High-level Features Using Large Scale Unsupervised Learning》中,作者記錄了他們?nèi)绾问褂靡粋€(gè)由 1,000 臺(tái)機(jī)器、共 16,000 個(gè) CPU 核心組成的大規(guī)模集群,連續(xù)運(yùn)行約三天來(lái)訓(xùn)練論文中的模型。換言之,當(dāng)時(shí)的模型規(guī)模尚可通過(guò)谷歌既有的數(shù)據(jù)中心算力“堆出來(lái)”,無(wú)需依賴任何專用加速芯片。



(論文地址:https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/unsupervised_icml2012.pdf?utm_source=chatgpt.com)

這一結(jié)果不僅反映了谷歌早期在機(jī)器學(xué)習(xí)領(lǐng)域投入的規(guī)模,也說(shuō)明在當(dāng)時(shí)的技術(shù)背景下,通用硬件依然能夠支撐實(shí)驗(yàn)級(jí)別的深度學(xué)習(xí)研究。然而,隨著模型急速擴(kuò)張、神經(jīng)網(wǎng)絡(luò)的計(jì)算密度不斷提升,這種依賴通用 CPU 集群的方式很快觸及性能與能耗的瓶頸,并最終促使谷歌在幾年后走向?qū)S脵C(jī)器學(xué)習(xí)加速器(TPU)路線。

到2011年,由 Jeff Dean、Greg Corrado 和 Andrew Ng 主導(dǎo)的深度學(xué)習(xí)研究項(xiàng)目 Google Brain 最初作為 Google X 內(nèi)部的探索性計(jì)劃啟動(dòng)。該項(xiàng)目旨在驗(yàn)證大規(guī)模分布式計(jì)算能否推動(dòng)深度神經(jīng)網(wǎng)絡(luò)獲得突破,并由此開啟了谷歌在深度學(xué)習(xí)方向的系統(tǒng)性研究。


Google Brain 的核心目標(biāo)是將深度神經(jīng)網(wǎng)絡(luò)與谷歌龐大的計(jì)算基礎(chǔ)設(shè)施 — 大規(guī)模分布式服務(wù)器 + 海量數(shù)據(jù) — 結(jié)合起來(lái),從而訓(xùn)練、部署此前規(guī)模難以企及的神經(jīng)網(wǎng)絡(luò)系統(tǒng)。這個(gè)思路的基礎(chǔ)是:與其用傳統(tǒng)、同步、單機(jī)/少量機(jī)器跑神經(jīng)網(wǎng)絡(luò),不如充分利用谷歌現(xiàn)成的云/服務(wù)器資源,構(gòu)建“分布式、可擴(kuò)展”的深度學(xué)習(xí)平臺(tái)。

為實(shí)現(xiàn)這一目標(biāo),團(tuán)隊(duì)構(gòu)建了一個(gè)名為 DistBelief 的系統(tǒng) —— 基于谷歌云基礎(chǔ)設(shè)施,支持將深度神經(jīng)網(wǎng)絡(luò)分布到成千上萬(wàn)臺(tái)機(jī)器上,并通過(guò)異步參數(shù)更新(asynchronous parameter update)的方式進(jìn)行訓(xùn)練。這種設(shè)計(jì)當(dāng)時(shí)顛覆了主流研究中“同步訓(xùn)練 + 少量機(jī)器 + 高性能單機(jī)/GPU”的做法。


使用 DistBelief 系統(tǒng),在 2012 年左右,Google Brain 曾用“數(shù)千臺(tái) CPU/成百上千臺(tái)服務(wù)器 + 數(shù)百萬(wàn)/數(shù)千萬(wàn)圖像/視頻數(shù)據(jù)”進(jìn)行訓(xùn)練。通過(guò)對(duì)來(lái)自 YouTube 的大量未標(biāo)注圖像 / 視頻進(jìn)行無(wú)監(jiān)督學(xué)習(xí),他們訓(xùn)練出的網(wǎng)絡(luò)“自發(fā)地”學(xué)會(huì)識(shí)別諸如貓、人臉等概念 — 這就是廣為人知的“貓實(shí)驗(yàn)”/“貓論文”(“cat paper”)。



(論文地址:https://arxiv.org/pdf/1112.6209)

使用這個(gè)大規(guī)模神經(jīng)網(wǎng)絡(luò),該團(tuán)隊(duì)還顯著提高了標(biāo)準(zhǔn)圖像分類測(cè)試的狀態(tài)——事實(shí)上,我們看到了 70% 的相對(duì)準(zhǔn)確性改進(jìn)。通過(guò)利用網(wǎng)絡(luò)上大量的未標(biāo)記數(shù)據(jù)來(lái)增強(qiáng)有限的標(biāo)記數(shù)據(jù)集來(lái)實(shí)現(xiàn)這一點(diǎn)。這是該團(tuán)隊(duì)非常關(guān)注的一個(gè)方向——如何開發(fā)能夠很好地?cái)U(kuò)展的機(jī)器學(xué)習(xí)系統(tǒng),以便可以利用大量的未標(biāo)記訓(xùn)練數(shù)據(jù)。

這一實(shí)驗(yàn)既證明了深度神經(jīng)網(wǎng)絡(luò) + 海量數(shù)據(jù) + 分布式訓(xùn)練在無(wú)監(jiān)督/半監(jiān)督學(xué)習(xí)上的潛力,也標(biāo)志著將深度學(xué)習(xí)從學(xué)術(shù)研究領(lǐng)域推進(jìn)到可以影響實(shí)際產(chǎn)品/服務(wù)的階段。

Google在這段深度學(xué)習(xí)奮力發(fā)展的路上,也逐漸暴露了一個(gè)巨大的技術(shù)問題:

全部技術(shù)都只基于CPU運(yùn)行。

Cade Metz 的書《天才制造者》回顧了當(dāng) Alex Krizhevsky(AlexNet 作者)在 2013 年來(lái)到谷歌時(shí),他發(fā)現(xiàn)他們現(xiàn)有的模型都在 CPU 上運(yùn)行。Krizhevsky 需要 GPU,所以他親自解決了這個(gè)問題:


在公司的最初幾天,他從當(dāng)?shù)氐碾娮由痰曩?gòu)買了一臺(tái) GPU 機(jī)器,把它放在離他的辦公桌不遠(yuǎn)的走廊的衣櫥里,將其接入網(wǎng)絡(luò),并開始在這臺(tái)獨(dú)立的硬件上訓(xùn)練他的神經(jīng)網(wǎng)絡(luò)。


最終,Krizhevsky 的新同事們意識(shí)到,他們需要 GPU,而且是很多 GPU。2014 年,谷歌決定購(gòu)買大約 40,000 個(gè) NVIDIA GPU,花費(fèi)約 1.3 億美元。這些 GPU 被用于訓(xùn)練谷歌業(yè)務(wù)中使用的深度學(xué)習(xí)模型。順便說(shuō)一句,像谷歌這樣的公司購(gòu)買 40,000 個(gè) GPU 并不會(huì)被忽視。如果 NVIDIA 需要一個(gè)信號(hào),說(shuō)明將 GPU 應(yīng)用于深度學(xué)習(xí)可能是一個(gè)規(guī)??捎^的業(yè)務(wù),那么谷歌幾乎可以肯定在 2014 年提供了這個(gè)信號(hào)。

然而,這些 GPU 并不一定能解決谷歌面臨的最大挑戰(zhàn)。GPU 非常適合訓(xùn)練谷歌正在開發(fā)的深度學(xué)習(xí)模型,但當(dāng)需要在全球范圍內(nèi)大規(guī)模部署這些模型時(shí),情況就不同了。比如,語(yǔ)音識(shí)別等深度學(xué)習(xí)應(yīng)用一旦投入使用,可能會(huì)迅速被大量用戶采用,這種潛在的高需求就帶來(lái)了巨大的計(jì)算壓力。類似地,谷歌的核心產(chǎn)品——搜索服務(wù)——每天處理數(shù)十億次請(qǐng)求,也面臨著相同的問題:如何以可接受的延遲和能耗水平,將訓(xùn)練好的模型在全球范圍內(nèi)高效運(yùn)行。

谷歌搜索對(duì)任何擁有網(wǎng)絡(luò)瀏覽器和互聯(lián)網(wǎng)連接的人來(lái)說(shuō)都是免費(fèi)的。這種搜索的質(zhì)量以及它的免費(fèi)性,是推動(dòng)其爆炸性增長(zhǎng)和迅速占主導(dǎo)地位的關(guān)鍵因素。據(jù)估計(jì),到 2023 年,谷歌提供了大約兩萬(wàn)億次搜索結(jié)果。要能夠以這種規(guī)模免費(fèi)提供搜索,谷歌需要能夠非常便宜地提供每一組搜索結(jié)果。

谷歌團(tuán)隊(duì)可以預(yù)見到使用這些新的深度學(xué)習(xí)技術(shù)構(gòu)建的一系列服務(wù)將會(huì)非常受歡迎。谷歌可以利用其品牌,以及將這些服務(wù)與其現(xiàn)有廣受歡迎的產(chǎn)品如搜索、Gmail 和 Android 集成,再次使這些服務(wù)占據(jù)主導(dǎo)地位。

然而,這帶來(lái)了一個(gè)重大問題。在如此大規(guī)模下,這些服務(wù)將需要大量額外硬件投入。谷歌團(tuán)隊(duì)在 2013 年設(shè)計(jì)了一個(gè)語(yǔ)音識(shí)別示例,用以說(shuō)明所需計(jì)算資源的規(guī)模:假設(shè)每位用戶每天在 Android 手機(jī)上僅使用三分鐘語(yǔ)音輸入,而這些語(yǔ)音又需要通過(guò)深度學(xué)習(xí)在 CPU 上轉(zhuǎn)換為文本,那么公司將不得不將服務(wù)器數(shù)量增加兩到三倍,而這些服務(wù)器本身已經(jīng)在處理現(xiàn)有工作負(fù)載。這種擴(kuò)張所需的成本將非常高昂。

一個(gè)可行的替代方案是擴(kuò)大 GPU 的使用,而 NVIDIA 的 GPU 顯然是首選。

到 2013 年,NVIDIA 的 GPU 及其成熟的軟件生態(tài)系統(tǒng)已經(jīng)成為機(jī)器學(xué)習(xí)研究的重要工具,既可用于訓(xùn)練,也可用于推理。NVIDIA 于 2006 年推出了首款支持通用計(jì)算任務(wù)的 GPU,而其 CUDA 框架則于 2007 年問世,使得在 GPU 上進(jìn)行通用計(jì)算編程成為可能。更關(guān)鍵的是,NVIDIA GPU 可直接購(gòu)買并部署,這為加速深度學(xué)習(xí)模型提供了即時(shí)可行的硬件選擇。

正如我們所看到的,谷歌確實(shí)采購(gòu)了NVIDIA GPU 并將其部署在數(shù)據(jù)中心中。然而,依賴 GPU 并不一定是技術(shù)上或戰(zhàn)略上的最佳選擇。雖然 GPU 在深度學(xué)習(xí)所需的矩陣運(yùn)算和并行計(jì)算方面比 CPU 更高效,但它們并非專門為深度學(xué)習(xí)設(shè)計(jì),因此存在潛在的效率損失。在谷歌這種規(guī)模下,這些效率損失意味著巨大的成本增加。此外,完全依賴單一供應(yīng)商提供對(duì)公司戰(zhàn)略至關(guān)重要的硬件,也會(huì)帶來(lái)顯著的戰(zhàn)略風(fēng)險(xiǎn)。

接下來(lái),谷歌來(lái)到了下一個(gè)叉路口:

有兩條可行路徑可供選擇。其一是使用 FPGA,這種可編程邏輯器件能夠執(zhí)行深度學(xué)習(xí)所需的專用計(jì)算。

其二是設(shè)計(jì)和構(gòu)建自家的定制硬件,即特定應(yīng)用集成電路(ASIC)。與 FPGA 或 GPU 相比,ASIC 可以針對(duì)深度學(xué)習(xí)任務(wù)進(jìn)行專門優(yōu)化,從而釋放更高的效率潛力,同時(shí)減少對(duì)單一供應(yīng)商的依賴。

盡管 FPGA 的性能在某些情況下仍有優(yōu)勢(shì),但在與 GPU 的對(duì)比中很快就顯示出局限性。FPGA 并未完全被淘汰:它們?nèi)栽诠雀璧臄?shù)據(jù)中心中使用,比 ASIC 提前約六個(gè)月投入生產(chǎn),承擔(dān)著一個(gè)“清潔管道”的角色,用于驗(yàn)證和支持所有新加速器在生產(chǎn)環(huán)境中的部署流程。

真正的重點(diǎn)是 ASIC。谷歌的目標(biāo)是開發(fā)一種定制芯片,在推理任務(wù)中相較 GPU 實(shí)現(xiàn)約 10 倍的成本性能優(yōu)勢(shì)。然而,定制硬件的開發(fā)需要時(shí)間,而時(shí)間對(duì)該項(xiàng)目至關(guān)重要。這不能是一個(gè)拖延多年的研究實(shí)驗(yàn);硬件必須快速交付至谷歌的數(shù)據(jù)中心,并能夠?qū)崿F(xiàn)大規(guī)模部署。為此,該項(xiàng)目必須充分利用谷歌現(xiàn)有的資源和技術(shù)積累,以確??焖匍_發(fā)和高效交付。

15個(gè)月的奇跡:TPU登場(chǎng)

一個(gè)關(guān)鍵問題是:在沒有現(xiàn)成內(nèi)部團(tuán)隊(duì)的情況下,谷歌如何能快速設(shè)計(jì)出復(fù)雜且具有創(chuàng)新性的硬件?令人驚訝的是,谷歌很快就組建起了一支高效團(tuán)隊(duì)。那么,他們是如何做到的呢?

谷歌本身已有為數(shù)據(jù)中心設(shè)計(jì)定制硬件的經(jīng)驗(yàn),因此可以從現(xiàn)有團(tuán)隊(duì)中召集部分成員,參與新項(xiàng)目。然而,公司此前從未自行開發(fā)過(guò)處理器芯片,因此必須引入擁有相關(guān)經(jīng)驗(yàn)的新成員。這些新成員大多來(lái)自芯片設(shè)計(jì)和半導(dǎo)體行業(yè),具備設(shè)計(jì)高性能 ASIC 的專業(yè)知識(shí)和實(shí)踐經(jīng)驗(yàn)。通過(guò)將內(nèi)部資源與外部專家相結(jié)合,谷歌能夠迅速組建一支既熟悉公司運(yùn)作,又具備尖端硬件設(shè)計(jì)能力的跨學(xué)科團(tuán)隊(duì),從而在短時(shí)間內(nèi)推動(dòng)定制深度學(xué)習(xí)加速器的研發(fā)。

其中一位新成員 Norm Jouppi 回憶道,他是在一次會(huì)議上與 Jeff Dean 交談后,被招募加入 TPU 團(tuán)隊(duì)的。他對(duì)這一創(chuàng)新的“greenfield”項(xiàng)目產(chǎn)生了濃厚興趣,決定參與其中。加入團(tuán)隊(duì)的其他知名成員還包括 David Patterson(圖靈獎(jiǎng)得主),他既是原始 Berkeley RISC 架構(gòu)的開發(fā)者,也是 RISC-V 指令集架構(gòu)的重要推動(dòng)者。這些高水平人才的加入,使團(tuán)隊(duì)在硬件設(shè)計(jì)、指令集架構(gòu)以及系統(tǒng)優(yōu)化等方面具備了強(qiáng)大的專業(yè)能力,為 TPU 的快速開發(fā)奠定了堅(jiān)實(shí)基礎(chǔ)。


谷歌很快組建了一支才華橫溢且經(jīng)驗(yàn)豐富的團(tuán)隊(duì)。然而,即便如此,如果他們從零開始設(shè)計(jì)全新的系統(tǒng)架構(gòu),也仍然可能難以在既定時(shí)間內(nèi)實(shí)現(xiàn)目標(biāo)。幸運(yùn)的是,谷歌能夠借鑒一種已有的架構(gòu)方法,這一方法早在 TPU 開發(fā)之前三十多年就已提出。

在 1978 年的論文 Systolic Arrays (for VLSI) 中,卡內(nèi)基梅隆大學(xué)的 H.T. Kung 和 Charles E. Leiserson 提出了他們所謂的“systolic system(脈動(dòng)系統(tǒng))”。這一設(shè)計(jì)理念為高吞吐量、可并行化的計(jì)算提供了理論基礎(chǔ),使其非常適合深度學(xué)習(xí)中大規(guī)模矩陣運(yùn)算的實(shí)現(xiàn),并最終為 TPU 架構(gòu)提供了重要啟發(fā)。


(論文地址:

https://www.eecs.harvard.edu/htk/static/files/1978-cmu-cs-report-kung-leiserson.pdf

Systolic system(脈動(dòng)系統(tǒng))是一種處理器網(wǎng)絡(luò),它以有節(jié)奏的方式執(zhí)行計(jì)算并在系統(tǒng)中傳遞數(shù)據(jù)。在這種脈動(dòng)計(jì)算機(jī)系統(tǒng)中,每個(gè)處理器的功能類似于心臟:它們周期性地接收輸入、進(jìn)行簡(jiǎn)短計(jì)算,然后輸出數(shù)據(jù),以確保網(wǎng)絡(luò)中的數(shù)據(jù)保持連續(xù)流動(dòng)。

Kung 和 Leiserson 隨后將 systolic system 的一個(gè)重要應(yīng)用定位于 矩陣計(jì)算。許多基本的矩陣運(yùn)算能夠在具有數(shù)組結(jié)構(gòu)的脈動(dòng)網(wǎng)絡(luò)上高效且優(yōu)雅地進(jìn)行流水線處理。例如,六邊形連接的處理器陣列可以在執(zhí)行矩陣計(jì)算時(shí)實(shí)現(xiàn)最優(yōu)性能。這些脈動(dòng)陣列具有通信路徑簡(jiǎn)單且規(guī)則的特點(diǎn),并且網(wǎng)絡(luò)中幾乎所有處理器都是同構(gòu)的。正因如此,基于脈動(dòng)陣列的專用硬件能夠利用 VLSI 技術(shù)以低成本構(gòu)建。

作為當(dāng)時(shí)技術(shù)環(huán)境的一個(gè)實(shí)例,Kung 和 Leiserson 展示了如何將脈動(dòng)系統(tǒng)作為 DEC PDP-11 小型計(jì)算機(jī)的附件來(lái)使用,表明這一理念不僅具有理論價(jià)值,也可應(yīng)用于實(shí)際硬件系統(tǒng)。


該論文描述了脈動(dòng)陣列的處理元素可能連接的替代方式。


其中一個(gè)提議的安排 - 正交連接 - 與 ILLIAC IV 超級(jí)計(jì)算機(jī)中處理元素的安排產(chǎn)生了共鳴,在 ILLIAC IV 超級(jí)計(jì)算機(jī):DARPA、SIMD、Fairchild 和 Stanley Kubrick 的'2001'中討論了這一點(diǎn))。

Kung 和 Leiserson 描述了如何使用六邊形連接的脈動(dòng)陣列來(lái)執(zhí)行矩陣乘法。


Kung 和 Leiserson 的這項(xiàng)開創(chuàng)性工作在隨后的十年里得到了廣泛研究,并催生了多篇論文,展示了如何使用脈動(dòng)陣列解決各種計(jì)算問題。

那么,脈動(dòng)陣列是如何工作的呢?基本思想是:數(shù)據(jù)從數(shù)組的一側(cè)或多側(cè)輸入系統(tǒng),并隨著每個(gè)“脈沖”沿處理器陣列流動(dòng),數(shù)據(jù)和中間結(jié)果在每一步被處理。經(jīng)過(guò)足夠的脈沖后,所需的計(jì)算完成,結(jié)果便從數(shù)組的一側(cè)或多側(cè)輸出。

到 2013 年,Kung 和 Leiserson 當(dāng)年提出脈動(dòng)陣列時(shí)針對(duì) 1970 年代制造技術(shù)的原始動(dòng)機(jī)已不再適用。然而,這種方法在矩陣乘法等任務(wù)上固有的高效性仍然顯著,尤其是在當(dāng)時(shí)相對(duì)較低功耗的前提下。因此,TPU 的設(shè)計(jì)選擇了采用脈動(dòng)陣列。

谷歌擁有工程師團(tuán)隊(duì)和成熟的架構(gòu)方法,但在將概念轉(zhuǎn)化為實(shí)際硅片的能力上仍存在差距。為此,他們與 LSI 公司(現(xiàn)為 Broadcom 的一部分)展開合作。乍看之下,Broadcom 可能并不是典型的機(jī)器學(xué)習(xí)硬件合作伙伴,但它們能夠與制造伙伴如 TSMC 合作,將谷歌的設(shè)計(jì)轉(zhuǎn)化為可量產(chǎn)、可大規(guī)模部署的芯片。

此外,要讓 TPU 支持實(shí)際工作負(fù)載,工作不僅限于制造大量芯片。還必須開發(fā)配套的軟件,使谷歌現(xiàn)有的深度學(xué)習(xí)工具能夠在新架構(gòu)上運(yùn)行。這意味著全新的指令集架構(gòu)需要被支持,而編譯器也必須為新架構(gòu)進(jìn)行適配——這本身就是一項(xiàng)巨大的工程挑戰(zhàn)。

因此,TPU團(tuán)隊(duì)的目標(biāo)就變成了:

  • 快速構(gòu)建硬件

  • 實(shí)現(xiàn)高性能

  • 在大規(guī)模環(huán)境下穩(wěn)定運(yùn)行

  • 對(duì)新工作負(fù)載開箱即用

  • 同時(shí)保持成本效益


他們確實(shí)實(shí)現(xiàn)了快速構(gòu)建:項(xiàng)目啟動(dòng)僅 15 個(gè)月后,第一款 TPU 就在 2015 年初部署到了谷歌的數(shù)據(jù)中心。

那么,他們是如何在短短 15 個(gè)月內(nèi)完成這一壯舉的呢?在論文 “In-Datacenter Performance Analysis of a Tensor Processing Unit” 中,總結(jié)了一些關(guān)鍵因素:


(論文地址:

https://arxiv.org/pdf/1704.04760

盡管我們有時(shí)會(huì)吹噓 TPU 從項(xiàng)目啟動(dòng)到部署到數(shù)據(jù)中心僅用了 15 個(gè)月,遠(yuǎn)遠(yuǎn)短于標(biāo)準(zhǔn)的生產(chǎn)芯片周期,實(shí)際情況是谷歌依賴后續(xù) TPU 的設(shè)計(jì)和優(yōu)化往往需要多年的迭代??焖偕鲜械某晒Φ靡嬗趫F(tuán)隊(duì)的單一日程焦點(diǎn)——不僅在架構(gòu)設(shè)計(jì)上,例如 700 MHz 的時(shí)鐘頻率便于實(shí)現(xiàn)時(shí)間閉環(huán),以及完全調(diào)試的 28nm 工藝,還在于數(shù)據(jù)中心部署團(tuán)隊(duì)的高效執(zhí)行和協(xié)調(diào)。

雖然使用成熟的 28nm 工藝和相對(duì)較低的時(shí)鐘速率確實(shí)幫助縮短了開發(fā)周期,但這一切的背后,更關(guān)鍵的是谷歌能夠調(diào)動(dòng)所需資源,全力支持這一項(xiàng)目,從而實(shí)現(xiàn)快速?gòu)母拍畹讲渴鸬霓D(zhuǎn)化。

TPU 很快就在谷歌內(nèi)部廣泛投入使用。其中一個(gè)引人注目的高調(diào)示例是 DeepMind 在 AlphaGo Zero 項(xiàng)目中的應(yīng)用。AlphaGo Zero 是在 2016 年 3 月?lián)魯∈澜鐕骞谲娎钍朗哪P汀?/p>

AlphaGo Zero 從自我對(duì)弈的強(qiáng)化學(xué)習(xí)中學(xué)習(xí),起始于隨機(jī)初始化的權(quán)重,不依賴人類棋譜指導(dǎo),也不使用搜索樹展開,僅使用原始棋盤狀態(tài)作為輸入特征。令人驚訝的是,它僅使用谷歌云中的一臺(tái)機(jī)器配備 4 個(gè) TPU,就完成了訓(xùn)練。

2016 年 AlphaGo Zero 的成功標(biāo)志著一個(gè)重要時(shí)刻:以如此有限的硬件實(shí)現(xiàn)如此高水平的人工智能成果,展示了 TPU 在大規(guī)模深度學(xué)習(xí)任務(wù)中高效、低功耗的潛力,也驗(yàn)證了谷歌定制加速器設(shè)計(jì)的實(shí)際價(jià)值。


像谷歌這樣的公司通常不會(huì)公開其數(shù)據(jù)中心的內(nèi)部運(yùn)作細(xì)節(jié)。因此,TPU 在 2015 年首次部署后一年的時(shí)間里仍然保持相對(duì)神秘。

直到 2016 年 5 月 18 日,谷歌 CEO Sundar Pichai 在 Google I/O 大會(huì)主題演講中首次正式公開宣布:

“我們?cè)跀?shù)據(jù)中心內(nèi)部署 TPUs 已超過(guò)一年,并發(fā)現(xiàn)它們?cè)跈C(jī)器學(xué)習(xí)任務(wù)中提供了每瓦性能的數(shù)量級(jí)提升?!?/p>

這一聲明不僅揭示了 TPU 的存在,也向業(yè)界展示了谷歌在定制加速器和深度學(xué)習(xí)硬件上的領(lǐng)先優(yōu)勢(shì)。


這一發(fā)布還伴隨著一篇簡(jiǎn)短的官方博客,介紹了谷歌如何使用 TPU 定制芯片來(lái)增強(qiáng)機(jī)器學(xué)習(xí)任務(wù)的計(jì)算能力。除了提供一些簡(jiǎn)要的技術(shù)細(xì)節(jié)外,博客還展示了 TPU 如何支持谷歌的實(shí)際服務(wù)。

TPU 已經(jīng)為谷歌的多項(xiàng)應(yīng)用提供了動(dòng)力,包括用于提升搜索結(jié)果相關(guān)性的 RankBrain,以及用于增強(qiáng)地圖和導(dǎo)航準(zhǔn)確性與質(zhì)量的 街景查看(Street View)。在 AlphaGo 與圍棋世界冠軍李世石的比賽中,TPU 為其提供了計(jì)算能力,使程序能夠“更快地思考”,并在棋局中規(guī)劃更遠(yuǎn)的移動(dòng)。

15個(gè)月后:TPU的架構(gòu)與迭代

正如我們所看到的,TPU v1 團(tuán)隊(duì)采用的方法源自 H.T. Kung 和 Charles E. Leiserson 在 1978 年論文 “Systolic Arrays (for VLSI)” 中首次提出的架構(gòu)理念。

脈動(dòng)系統(tǒng)(systolic system)是一種由處理器組成的網(wǎng)絡(luò),這些處理器有節(jié)奏地執(zhí)行計(jì)算并傳遞數(shù)據(jù)。在脈動(dòng)計(jì)算機(jī)系統(tǒng)中,每個(gè)處理器的功能類似于心臟:它周期性地接收輸入、進(jìn)行簡(jiǎn)短計(jì)算,然后輸出結(jié)果,從而保持網(wǎng)絡(luò)中數(shù)據(jù)的連續(xù)流動(dòng)。

那么,TPU v1 如何利用脈動(dòng)方法高效執(zhí)行矩陣乘法呢?我們可以用一個(gè) 2x2 矩陣乘法示例來(lái)說(shuō)明。

假設(shè)我們有一個(gè) 2x2 的乘法單元(MAC)陣列,這些單元在一個(gè)簡(jiǎn)單的網(wǎng)格中連接。如果我們按正確順序?qū)⒕仃囋剌斎氲骄W(wǎng)格中,那么矩陣乘法的結(jié)果便會(huì)自然從陣列中產(chǎn)生。每個(gè)角落的方塊代表一個(gè) 乘法累加單元(MAC),可以執(zhí)行乘法和加法操作,從而完成矩陣乘法的流水線處理。


在這張圖中,黃色的值是從頂部和左側(cè)輸入矩陣的輸入值。淺藍(lán)色的值是存儲(chǔ)的部分和。深藍(lán)色的值是最終結(jié)果。

讓我們一步步來(lái)分析。

第 1 步:值 a11 和 b11 被加載進(jìn)左上角的乘法/累加單元(MAC)。它們被相乘,結(jié)果被存儲(chǔ)。

第 2 步:值 a12 和 b21 被加載進(jìn)左上角的 MAC。它們被相乘,并加到之前計(jì)算的結(jié)果上。這給出了結(jié)果矩陣的左上角值。與此同時(shí),b11 被傳輸?shù)接疑辖堑?MAC,在那里它與新加載的值 a21 相乘,結(jié)果被存儲(chǔ)。同時(shí),a11 被傳輸?shù)阶笙陆堑?MAC,在那里它與新加載的值 b12 相乘,結(jié)果被存儲(chǔ)。

第 3 步:b21 被傳輸?shù)接疑辖堑?MAC,在那里它與新加載的值 a22 相乘,結(jié)果被加到之前存儲(chǔ)的結(jié)果上。同時(shí),a12 被傳輸?shù)阶笙陆堑?MAC,在那里它與新加載的值 b22 相乘,結(jié)果被加到之前存儲(chǔ)的結(jié)果上。在這一步中,我們計(jì)算了結(jié)果矩陣的右上角和左下角值。與此同時(shí),a12 和 b21 被傳輸?shù)接蚁陆堑?MAC,在那里它們被相乘,結(jié)果被存儲(chǔ)。

第 4 步:最后,a22 和 b22 被傳輸?shù)接蚁陆堑?MAC,在那里它們被相乘,結(jié)果被加到之前存儲(chǔ)的值上,給出了結(jié)果矩陣的右下角值。

因此,矩陣乘法的結(jié)果沿著 MAC 矩陣中移動(dòng)的“對(duì)角線”顯現(xiàn)出來(lái)。

在我們的示例中,進(jìn)行 2x2 矩陣乘法需要 4 個(gè)步驟,但這僅是因?yàn)樵谟?jì)算開始和結(jié)束時(shí)一些 MAC 沒有被利用。實(shí)際上,一旦 MAC 變?yōu)榭臻e,新的矩陣乘法就會(huì)從左上角開始。因此,該單元每?jī)蓚€(gè)周期就能完成一次新的矩陣乘法。

這是對(duì)脈動(dòng)陣列工作方式的簡(jiǎn)化表示,我們簡(jiǎn)要地介紹了 TPU v1 中脈動(dòng)陣列實(shí)現(xiàn)的一些細(xì)節(jié)。我希望這種架構(gòu)工作的原理已經(jīng)清楚。

這是最簡(jiǎn)單可能的矩陣乘法,但可以擴(kuò)展到更大的矩陣和更大的乘法單元陣列。

關(guān)鍵點(diǎn)是,如果數(shù)據(jù)以正確的順序輸入到脈動(dòng)陣列中,則通過(guò)系統(tǒng)的值和結(jié)果的流動(dòng)將確保所需結(jié)果隨時(shí)間從陣列中出現(xiàn)。沒有必要將中間結(jié)果存儲(chǔ)并從“主存儲(chǔ)”區(qū)域提取。由于矩陣乘法單元的結(jié)構(gòu)和輸入被輸入到單元的順序,中間結(jié)果在需要時(shí)自動(dòng)可用。

當(dāng)然,矩陣乘法單元不是孤立存在的,整個(gè)系統(tǒng)的最簡(jiǎn)單呈現(xiàn)如下:


首先要注意的是,TPUv1 依賴于通過(guò) PCIe(高速串行總線)接口與主機(jī)計(jì)算機(jī)的通信。它還可以直接訪問自己的 DDR3 動(dòng)態(tài) RAM 存儲(chǔ)。

我們可以將其擴(kuò)展為設(shè)計(jì)的更詳細(xì)展示:


讓我們從這個(gè)設(shè)計(jì)的展示中挑選一些關(guān)鍵元素,從頂部開始,大致順時(shí)針移動(dòng):

DDR3 DRAM / Weight FIFO:權(quán)重存儲(chǔ)在通過(guò) DDR3-2133 接口連接到 TPU v1 的 DDR3 RAM 芯片中。權(quán)重是從主計(jì)算機(jī)的內(nèi)存通過(guò) PCIe 預(yù)加載到這些芯片上的,然后可以轉(zhuǎn)移到“Weight FIFO”內(nèi)存中,為矩陣乘法單元的使用做好準(zhǔn)備。

矩陣乘法單元:這是一個(gè)“脈動(dòng)”陣列,擁有 256 x 256 的矩陣乘法/累加單元,由頂部的 256 個(gè)“權(quán)重”值和左側(cè)的 256 個(gè)數(shù)據(jù)輸入供給。

累加器:結(jié)果從脈動(dòng)矩陣單元的底部出現(xiàn),并存儲(chǔ)在“累加器”內(nèi)存存儲(chǔ)中。

激活:在此應(yīng)用上述神經(jīng)網(wǎng)絡(luò)中描述的激活函數(shù)。

統(tǒng)一緩沖區(qū)/脈動(dòng)數(shù)據(jù)設(shè)置:應(yīng)用激活函數(shù)的結(jié)果存儲(chǔ)在“統(tǒng)一緩沖區(qū)”內(nèi)存中,準(zhǔn)備作為輸入反饋到矩陣乘法單元以計(jì)算下一層所需的值。

乘法/累加單元(MACs)

到目前為止,我們還沒有具體說(shuō)明矩陣乘法單元執(zhí)行的乘法的性質(zhì)。TPU v1 執(zhí)行 8 位 x8 位整數(shù)乘法,利用量化來(lái)避免對(duì)更占用更多硅片面積的浮點(diǎn)計(jì)算的需求。

指令集

TPU v1 采用 CISC(復(fù)雜指令集計(jì)算機(jī))設(shè)計(jì),大約只有 20 條指令。值得注意的是,這些指令是由主計(jì)算機(jī)通過(guò) PCIe 接口發(fā)送給它的,而不是從內(nèi)存中獲取的。

五個(gè)關(guān)鍵指令如下:

Read_Host_Memory

通過(guò) PCIe 從主計(jì)算機(jī)的內(nèi)存讀取輸入值到統(tǒng)一緩沖區(qū)。

Read_Weights

從權(quán)重內(nèi)存讀取權(quán)重到 Weight FIFO。注意,權(quán)重內(nèi)存將已經(jīng)通過(guò) PCIe 從計(jì)算機(jī)的主內(nèi)存中讀取了權(quán)重。

Matrix_Multiply / Convolve

根據(jù)論文,這條指令:使矩陣單元執(zhí)行矩陣乘法或卷積,從統(tǒng)一緩沖區(qū)到累加器。矩陣操作接受一個(gè)變量大小的 B*256 輸入,將其與一個(gè) 256x256 的恒定權(quán)重輸入相乘,產(chǎn)生一個(gè) B*256 的輸出,完成 B 流水線周期。這是實(shí)現(xiàn)脈動(dòng)陣列矩陣乘法的指令。它還可以執(zhí)行卷積計(jì)算,這對(duì)卷積神經(jīng)網(wǎng)絡(luò)是必需的。

Activate

根據(jù)論文,這條指令:執(zhí)行人工神經(jīng)元的非線性函數(shù),有 ReLU、Sigmoid 等選項(xiàng)。它的輸入是累加器,輸出是統(tǒng)一緩沖區(qū)。如果我們回到我們簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)模型,隱藏層中的值是將“激活函數(shù)”應(yīng)用于輸入的權(quán)重乘以輸入的總和的結(jié)果。ReLU 和 Sigmoid 是兩種最受歡迎的激活函數(shù)。在硬件中實(shí)現(xiàn)這些將提供應(yīng)用激活函數(shù)的有用加速。

Write_Host_Memory

通過(guò) PCIe 將結(jié)果從統(tǒng)一緩沖區(qū)寫入主計(jì)算機(jī)的內(nèi)存。

值得暫停一刻,反思這五條指令在提供幾乎完整的 TPU v1 推理實(shí)現(xiàn)方面的優(yōu)雅。在偽代碼中,我們可以大致描述 TPU v1 的操作如下:

Read_Host_Memory

Read_Weights

Loop_Start

Matrix_Multiply

Activate

Loop_End

Write_Host_Memory

強(qiáng)調(diào)脈動(dòng)單元在使這成為可能和高效中的重要性也是有用的。正如 TPU v1 團(tuán)隊(duì)所描述:

矩陣單元使用脈動(dòng)執(zhí)行以節(jié)省能量,通過(guò)減少對(duì)統(tǒng)一緩沖區(qū)的讀寫....它依靠來(lái)自不同方向的數(shù)據(jù)在數(shù)組中的單元以規(guī)律間隔到達(dá)時(shí)被組合。數(shù)據(jù)從左側(cè)流入,權(quán)重從頂部加載。給定的 256 元素乘法-累加操作以對(duì)角線波前的形式通過(guò)矩陣移動(dòng)。

軟件

沒有軟件支持的 TPU v1 硬件將毫無(wú)用處。谷歌開發(fā)并使用了 Tensorflow,因此創(chuàng)建“驅(qū)動(dòng)程序”以使 Tensorflow 能夠與 TPU v1 協(xié)同工作是主要步驟。

TPU 軟件棧必須與為 CPU 和 GPU 開發(fā)的軟件棧兼容,以便應(yīng)用程序可以快速移植到 TPU。在 TPU 上運(yùn)行的應(yīng)用程序的部分通常用 TensorFlow 編寫,并編譯成可以在 GPU 或 TPUs 上運(yùn)行的 API。

與 GPUs 一樣,TPU 棧分為用戶空間驅(qū)動(dòng)程序和內(nèi)核驅(qū)動(dòng)程序。內(nèi)核驅(qū)動(dòng)程序很輕量級(jí),僅處理內(nèi)存管理和中斷。它設(shè)計(jì)用于長(zhǎng)期穩(wěn)定。用戶空間驅(qū)動(dòng)程序變化頻繁。它設(shè)置和控制 TPU 執(zhí)行,將數(shù)據(jù)重新格式化為 TPU 順序,將 API 調(diào)用轉(zhuǎn)換為 TPU 指令,并將它們轉(zhuǎn)換為應(yīng)用程序二進(jìn)制文件。

制造和模具

TPU v1 是由 TSMC 使用相對(duì)“成熟”的 28nm TSMC 工藝制造的。谷歌表示,與谷歌此時(shí)在其數(shù)據(jù)中心使用的更先進(jìn)工藝制造的 Intel Haswell CPU 和 NVIDIA 的 K80 GPU 芯片相比,模具面積不到一半。

我們已經(jīng)看到了 TPU v1 的指令集有多簡(jiǎn)單,只有 20 條 CISC 指令。ISA 的簡(jiǎn)單性導(dǎo)致 TPU v1 的模具中用于解碼和相關(guān)活動(dòng)的“開銷”非常低,僅占模具面積的 2%,標(biāo)記為“控制”。

相比之下,24%的模具面積專用于矩陣乘法單元,29%專用于存儲(chǔ)輸入和中間結(jié)果的“統(tǒng)一緩沖區(qū)”內(nèi)存。


性能

此時(shí),回顧一下 TPU v1 旨在使推理——即在谷歌規(guī)模的真實(shí)世界服務(wù)中使用已經(jīng)訓(xùn)練好的模型——更高效是有用的。它不旨在提高訓(xùn)練的速度或效率。盡管推理和訓(xùn)練有一些共同的特征,但在開發(fā)專用硬件時(shí),推理和訓(xùn)練提供了完全不同的挑戰(zhàn)。

那么 TPU v1 的表現(xiàn)如何呢?

2013 年,TPU v1 的關(guān)鍵比較是與 Intel 的 Haswell CPU 和 NVIDIA 的 K80 GPU。

TPU v1 擁有 K80 GPU 的 25 倍 MAC 和 3.5 倍的片上內(nèi)存。

TPU v1 在推理方面比 K80 GPU 和 Haswell CPU 快大約 15X - 30X。

并且關(guān)鍵的是 TPU v1 在能源效率方面遠(yuǎn)超 GPU:TPU v1 的相對(duì)增量性能/瓦特是 GPU 的 25 到 29 倍。

TPU v1 只是故事的開始。TPU v1 設(shè)計(jì)得很快,唯一的目標(biāo)是使推理更快和更節(jié)能。它有一些明顯的限制,不是為訓(xùn)練設(shè)計(jì)的。不僅谷歌內(nèi)部,外部公司很快就開始考慮如何改進(jìn) TPU v1。


2017年 TPUv2

Google的第二代TPU,定位是服務(wù)端AI推理和訓(xùn)練芯片。

硬件架構(gòu)









TPUv2的改變

單個(gè)向量存儲(chǔ)器,而不是固定功能單元之間的緩沖區(qū)。

通用向量單元,而不是固定功能激活管道。

連接矩陣單元作為向量單元的卸載。

將 DRAM 連接到內(nèi)存系統(tǒng)而不是直接連接到矩陣單元。

轉(zhuǎn)向 HBM 以獲得帶寬。

添加互連以實(shí)現(xiàn)高帶寬擴(kuò)展。

TPUv2 Core

超長(zhǎng)指令字架構(gòu):利用已知的編譯器技術(shù)。

線性代數(shù)ISA:標(biāo)量、向量和矩陣,為通用性而構(gòu)建。

TPU 核心:標(biāo)量單元

322b VLIW 捆綁包:

2 個(gè)標(biāo)量槽

4 個(gè)向量槽(2 個(gè)用于加載/存儲(chǔ))

2 個(gè)矩陣插槽(推入、彈出)、

1 個(gè)雜項(xiàng)插槽

6 個(gè)立即數(shù)

標(biāo)量單元執(zhí)行:

完整的 VLIW 捆綁獲取和解碼

標(biāo)量槽執(zhí)行

存儲(chǔ)系統(tǒng)

針對(duì) SRAM 暫存器進(jìn)行加載和存儲(chǔ)

在核心內(nèi)提供可預(yù)測(cè)的調(diào)度

可能會(huì)因同步標(biāo)志而停止

可通過(guò)異步 DMA 訪問

在同步標(biāo)志中指示完成

互連器

具有 4 個(gè)鏈路的片上路由器

每個(gè)鏈路 500 Gbps

組裝成2D環(huán)面

軟件視圖:使用 DMA,就像 HBM 一樣;限制推送 DMA;只需定位另一個(gè)芯片 ID

2018年:TPUv3


TPU3是對(duì)TPU2的溫和重新設(shè)計(jì),采用相同的技術(shù),MXU和HBM容量增加了兩倍,時(shí)鐘速率、內(nèi)存帶寬和ICI帶寬增加了1.3倍。TPU3超級(jí)計(jì)算機(jī)還可以擴(kuò)展到1024個(gè)芯片。它的算力進(jìn)一步提升至 420TFlops,內(nèi)存達(dá)到了 128GB(HBM) ,并且首次引入了分布式訓(xùn)練框架,這一創(chuàng)新使得多臺(tái) TPU 可以協(xié)同工作,大大提高了訓(xùn)練效率,能夠應(yīng)對(duì)大規(guī)模的深度學(xué)習(xí)任務(wù)。此外,TPU v3 還采用了當(dāng)時(shí)最新的液冷技術(shù),有效解決了芯片在高負(fù)載運(yùn)行時(shí)的散熱問題,確保了芯片的穩(wěn)定性能,為 AI 訓(xùn)練的大規(guī)模應(yīng)用提供了可能。


功能特性

協(xié)同設(shè)計(jì):具有軟件可預(yù)測(cè)性的簡(jiǎn)化硬件(例如,VLIW、暫存器)。

使用 bfloat16 脈動(dòng)陣列計(jì)算密度:HBM 為計(jì)算提供支持,XLA編譯器。

具有原則性線性代數(shù)框架的靈活大數(shù)據(jù)核心。

2020年: TPUv4i

TPUv4i:Google于2020年發(fā)布,定位是服務(wù)器端推理芯片.

硬件架構(gòu)




功能特性

1)單核TPUv4i 用于推理,雙核 TPUv4(可擴(kuò)展至 4096 個(gè)芯片)用于訓(xùn)練。

2)選擇編譯器兼容性,而不是二進(jìn)制兼容性。

3)通過(guò)通用內(nèi)存 (CMEM)增加了片上 SRAM 存儲(chǔ)。

4)四維張量 DMA 引擎充當(dāng)協(xié)處理器,可完全解碼和執(zhí)行 TensorCore DMA 指令。

5)添加了一個(gè)共享片上互連 (OCI),用于連接芯片上的所有組件。

6)引入了四輸入加法器運(yùn)算單元。

7)時(shí)鐘頻率達(dá)到 1.05 GHz。

8)2個(gè)ICI鏈路鏈接板端4 個(gè)芯片。

9)具有廣泛的跟蹤和性能計(jì)數(shù)器等硬件功能。

2021年:TPUv4

谷歌2020年發(fā)布,服務(wù)器推理和訓(xùn)練芯片,芯片數(shù)量是TPUv3的四倍。它用了更為先進(jìn)的 7nm 工藝,晶體管數(shù)大幅提升,峰值算力達(dá)到了 275TFLOPS ,性能表現(xiàn)全球領(lǐng)先。TPU v4 在內(nèi)存帶寬和能效比等方面也有了顯著的提升,并且進(jìn)一步優(yōu)化了分布式訓(xùn)練框架,使得其在大規(guī)模模型訓(xùn)練中的表現(xiàn)更加出色。

硬件架構(gòu)




功能特性

1)通過(guò)引入具有光學(xué)數(shù)據(jù)鏈路的光路交換機(jī)(OCS)來(lái)解決規(guī)模和可靠性障礙,允許 4K 節(jié)點(diǎn)超級(jí)計(jì)算機(jī)通過(guò)重新配置來(lái)容忍 1K CPU 主機(jī)在 0.1%–1.0% 的時(shí)間內(nèi)不可用。

2)公開了 DLRM(SparseCore 或 SC)中嵌入的硬件支持,DLRM 是自 TPU v2 以來(lái) TPU 的一部分。

3)結(jié)合了前兩種功能,為超級(jí)計(jì)算機(jī)規(guī)?;ミB的需求添加了全對(duì)全通信模式。

同時(shí),TPU v4 還支持 3D 堆疊封裝技術(shù),進(jìn)一步提高了芯片的集成度和性能,為 AI 芯片的發(fā)展開辟了新的道路。

2023年:TPU V5e

Google定制設(shè)計(jì)、構(gòu)建和部署 Cloud TPU v5e,以經(jīng)濟(jì)高效地滿足這些不斷增長(zhǎng)的計(jì)算需求。

  • 成本效益:與 TPU v4 相比,每美元性能提高高達(dá) 2.5 倍,推理(Inference)延遲降低高達(dá) 1.7 倍。

  • 可擴(kuò)展:八種 TPU 互連結(jié)構(gòu)支持全系列 LLM 和生成式 AI 模型大小,最多 2 萬(wàn)億個(gè)參數(shù)。

  • 多功能:強(qiáng)大的人工智能框架和編程支持。


Cloud TPU v5e 支持對(duì)各種模型大小進(jìn)行推理。單個(gè) v5e 芯片最多可以運(yùn)行具有 13B 參數(shù)的模型(16GB HBM)。可以基于數(shù)百個(gè)芯片運(yùn)行具有多達(dá) 2 萬(wàn)億(2000B)參數(shù)的模型,支持從BERT到GPT-4量級(jí)的不同模型。


在 TPU PodSlice 中,TPU 芯片使用高速互連。每個(gè) TPU 芯片直接與 TPU PodSlice 中的其他區(qū)域通信。TPU 軟件會(huì)自動(dòng)將數(shù)據(jù)分發(fā)到 PodSlice 中的每個(gè) TensorCore。這里借用v4的連接結(jié)構(gòu)作為圖示說(shuō)明。


這一結(jié)構(gòu)看起來(lái)有些像NVIDIA GPU的連接架構(gòu),但實(shí)際上比NVLINK的連接靈活度更高,使用了可重構(gòu)的MEMS光學(xué)連接,也可獲得更大的計(jì)算帶寬。

業(yè)界有一個(gè)傳說(shuō),就是本屆的TPU v5e是通過(guò)TPU v4,借助AI的力量設(shè)計(jì)出來(lái)的。根據(jù)業(yè)內(nèi)傳出的消息,大部分由AI(跑在TPU v4上)做的版圖擺放優(yōu)于人類專家(26 of 37),此項(xiàng)工作由Google Brain Team和TPU Team共同完成。再結(jié)合前段時(shí)間使用GPT大模型設(shè)計(jì)電路的工作看,機(jī)器設(shè)計(jì)機(jī)器的時(shí)代,似乎在逐漸開啟。



每個(gè) v5e 芯片包含一個(gè) TensorCore。每個(gè) TensorCore 有 4 個(gè)矩陣乘法單元 (MMU)、一個(gè)向量單元(VU)和一個(gè)標(biāo)量單元(SU),每個(gè)單元其實(shí)是大量計(jì)算電路組成的電路模塊??芍С諸raining和Inference。



與TPUv4相比,TPU v5e專為大模型和生成式 AI 模型打造,有專用的embedding電路模塊。與前代 TPU v4 相比,每美元訓(xùn)練性能提升高達(dá) 2 倍、每美元推理性能提升高達(dá) 2.5 倍。并且 TPU v5e 的成本不到 TPU v4 的一半??雌饋?lái)似乎是借助AI技術(shù),對(duì)微架構(gòu)和電路進(jìn)行了升級(jí),使得綜合的計(jì)算效率更高。

2023年:TPU v5P

以下是TPU v5p的主要功能和亮點(diǎn):

  • 高效能:TPU v5p采用了先進(jìn)的制程技術(shù)和硬件加速器,實(shí)現(xiàn)了更高的計(jì)算性能。它能夠更快地處理大規(guī)模的張量計(jì)算任務(wù),為機(jī)器學(xué)習(xí)和科學(xué)計(jì)算等領(lǐng)域提供了更強(qiáng)大的支持。TPU v5p 在浮點(diǎn)運(yùn)算次數(shù)和內(nèi)存帶寬方面分別提升了 2 倍和 3 倍。在大語(yǔ)言模型(LLM)訓(xùn)練速度上實(shí)現(xiàn)了 2.8 倍的代際提升,相較于 TPU v5e 還有約 50% 的進(jìn)步。

  • 低延遲:TPU v5p采用了低延遲的內(nèi)存訪問機(jī)制,減少了數(shù)據(jù)傳輸?shù)难舆t。這使得TPU v5p能夠更快地響應(yīng)用戶的請(qǐng)求,提高了整體系統(tǒng)的響應(yīng)速度。谷歌稱,TPU v5p是其迄今為止最強(qiáng)大的,能夠提供459 teraFLOPS(每秒可執(zhí)行459萬(wàn)億次浮點(diǎn)運(yùn)算)的bfloat16(16位浮點(diǎn)數(shù)格式)性能或918 teraOPS(每秒可執(zhí)行918萬(wàn)億次整數(shù)運(yùn)算)的Int8(執(zhí)行8位整數(shù))性能,支持95GB的高帶寬內(nèi)存,能夠以2.76 TB/s的速度傳輸數(shù)據(jù)。

  • 兼容性:TPU v5p與現(xiàn)有的硬件和軟件兼容良好。TPU v5p 提供了豐富的API和工具,能夠無(wú)縫集成到現(xiàn)有的計(jì)算系統(tǒng)中,減少了遷移和升級(jí)的成本。同時(shí),TPU v5p還方便開發(fā)者進(jìn)行開發(fā)和優(yōu)化??梢愿鶕?jù)不同的需求進(jìn)行升級(jí),滿足各種規(guī)模的 AI 應(yīng)用。每個(gè) TPU v5p Pod 由多達(dá) 8,960 個(gè)芯片組成,使用最高帶寬的芯片間連接(每芯片 4,800 Gbps)進(jìn)行互連,確保快速傳輸速度和最佳性能。

  • 擴(kuò)展性:TPU v5p支持橫向和縱向擴(kuò)展。這意味著用戶可以根據(jù)需求增加或減少TPU的數(shù)量,以適應(yīng)不同規(guī)模的計(jì)算任務(wù)。谷歌加強(qiáng)了對(duì)流行的機(jī)器學(xué)習(xí)框架(如 JAX、TensorFlow 和 PyTorch)的支持,并提供了開箱即用的功能。此外,TPU v5p 還采用了開放且獨(dú)特的多片訓(xùn)練和多主機(jī)推理軟件,使得擴(kuò)展、訓(xùn)練和服務(wù)工作負(fù)載變得簡(jiǎn)單且高效。

  • 安全性:TPU v5p具有先進(jìn)的安全特性。它采用了硬件級(jí)的加密和安全機(jī)制,保護(hù)了用戶的數(shù)據(jù)和隱私。這使得TPU v5p能夠在安全敏感的應(yīng)用場(chǎng)景中得到廣泛應(yīng)用。


2024年:TPUv6(Trillium)

TPUv6的主要的幾個(gè)優(yōu)化點(diǎn)是MXU更大頻率更高,浮點(diǎn)能力基本上到H100,HBM帶寬和容量翻倍換了HBM3,ICI帶寬也升級(jí)了。

以下是 Trillium 相對(duì)于上一代產(chǎn)品的一些主要改進(jìn):訓(xùn)練效果提高 4 倍以上推理吞吐量提高 3 倍能源效率提高67%每塊芯片的峰值計(jì)算性能顯著提升 4.7 倍高帶寬內(nèi)存 (HBM) 容量加倍芯片間互連 (ICI) 帶寬加倍單個(gè) Jupiter 網(wǎng)絡(luò)結(jié)構(gòu)中有 100K 個(gè) Trillium 芯片每美元可將訓(xùn)練性能提高 2.5 倍,每美元可將推理性能提高 1.4 倍

這些增強(qiáng)功能使 Trillium 能夠在各種 AI 工作負(fù)載中表現(xiàn)出色,其中包括:擴(kuò)展 AI 訓(xùn)練工作負(fù)載訓(xùn)練 LLM,包括密集模型和混合專家 (MoE) 模型推理性能和收集調(diào)度嵌入密集型模型提供訓(xùn)練和推理性價(jià)比讓我們看一下 Trillium 在每種工作負(fù)載下的表現(xiàn)。

訓(xùn)練像 Gemini 2.0 這樣的大型模型需要大量的數(shù)據(jù)和計(jì)算。Trillium的近線性擴(kuò)展能力可以有效地將工作負(fù)載分配到通過(guò) 256 芯片艙內(nèi)的高速芯片間互連和我們最先進(jìn)的Jupiter 數(shù)據(jù)中心網(wǎng)絡(luò)連接的大量 Trillium 主機(jī)上,從而使這些模型的訓(xùn)練速度顯著加快。這是通過(guò) TPU 多切片和用于大規(guī)模訓(xùn)練的全棧技術(shù)實(shí)現(xiàn)的,并通過(guò)Titanium進(jìn)一步優(yōu)化,Titanium 是一個(gè)動(dòng)態(tài)數(shù)據(jù)中心范圍的卸載系統(tǒng),范圍從主機(jī)適配器到網(wǎng)絡(luò)結(jié)構(gòu)。 Trillium 通過(guò)部署 12 個(gè)由 3072 個(gè)芯片組成的 pod 實(shí)現(xiàn)了 99% 的擴(kuò)展效率,并通過(guò) 24 個(gè) pod(包含 6144 個(gè)芯片)對(duì) gpt3-175b 進(jìn)行預(yù)訓(xùn)練實(shí)現(xiàn)了 94% 的擴(kuò)展效率,即使在跨數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)行以預(yù)訓(xùn)練 gpt3-175b 時(shí)也是如此。



與前幾代產(chǎn)品相比,Trillium TPU 的擴(kuò)展效率明顯更高。下圖中,我們的測(cè)試表明,與同等規(guī)模的 Cloud TPU v5p 集群相比,Trillium 在 12 個(gè) Pod 規(guī)模下的擴(kuò)展效率高達(dá) 99%(總峰值浮點(diǎn)運(yùn)算次數(shù))。


訓(xùn)練 LLM,包括密集模型和混合專家 (MoE) 模型像 Gemini 這樣的 LLM 本身就很強(qiáng)大且復(fù)雜,擁有數(shù)十億個(gè)參數(shù)。訓(xùn)練如此密集的 LLM 需要巨大的計(jì)算能力以及共同設(shè)計(jì)的軟件優(yōu)化。與上一代 Cloud TPU v5e 相比,Trillium 為 Llama-2-70b 和 gpt3-175b 等密集 LLM 提供了高達(dá) 4 倍的訓(xùn)練速度。


除了密集的 LLM,使用混合專家 (MoE) 架構(gòu)訓(xùn)練 LLM 是一種越來(lái)越流行的方法,它結(jié)合了多個(gè)“專家”神經(jīng)網(wǎng)絡(luò),每個(gè)網(wǎng)絡(luò)專門處理 AI 任務(wù)的不同方面。與訓(xùn)練單個(gè)整體模型相比,在訓(xùn)練期間管理和協(xié)調(diào)這些專家會(huì)增加復(fù)雜性。與上一代 Cloud TPU v5e 相比,Trillium 為 MoE 模型提供的訓(xùn)練速度提高了 3.8 倍。


此外,與 Cloud TPU v5e 相比,Trillium TPU 提供了 3 倍的主機(jī)動(dòng)態(tài)隨機(jī)存取內(nèi)存 (DRAM)。這將部分計(jì)算卸載到主機(jī),有助于在規(guī)模上最大限度地提高性能和Goodput。Trillium的主機(jī)卸載功能在訓(xùn)練 Llama-3.1-405B 模型時(shí)可將性能提高 50% 以上,以模型 FLOPs 利用率 (MFU) 衡量。

Trillium 代表了 Google Cloud 人工智能基礎(chǔ)架構(gòu)的重大飛躍,為各種人工智能工作負(fù)載提供了令人難以置信的性能、可擴(kuò)展性和效率。Trillium 能夠使用世界一流的共同設(shè)計(jì)軟件擴(kuò)展到數(shù)十萬(wàn)個(gè)芯片,讓您能夠更快地實(shí)現(xiàn)突破并提供卓越的人工智能解決方案。此外,Trillium 卓越的性價(jià)比使其成為尋求最大化人工智能投資價(jià)值的組織的經(jīng)濟(jì)實(shí)惠的選擇。

2025年:TPU v7(Ironwood)

Google TPU V7,作為 TPU 家族的最新成員,更是集歷代 TPU 技術(shù)之大成,實(shí)現(xiàn)了全方位的突破。它采用了 3nm 制程工藝,在芯片制造工藝上達(dá)到了行業(yè)領(lǐng)先水平,為更高的性能和更低的功耗奠定了基礎(chǔ)。在架構(gòu)設(shè)計(jì)上,TPU V7 進(jìn)行了大膽創(chuàng)新,引入了全新的計(jì)算核心和互聯(lián)技術(shù),使其在性能、內(nèi)存帶寬、芯片間通信等方面都取得了巨大的飛躍。例如,它支持 FP8 計(jì)算,這在 TPU 系列中尚屬首次,能夠在保證計(jì)算精度的同時(shí),大大提高計(jì)算效率;內(nèi)存帶寬提升至 7.2 TBps ,是上一代的 4.5 倍,能夠更快地讀取和處理數(shù)據(jù),滿足了現(xiàn)代 AI 應(yīng)用對(duì)內(nèi)存帶寬的高要求;芯片間通信帶寬也有了顯著提升,雙向帶寬達(dá)到 1.2 Tbps ,是上一代的 1.5 倍,實(shí)現(xiàn)了更快的芯片間通信,促進(jìn)了大規(guī)模高效分布式訓(xùn)練和推理。

在算力方面,TPU V7 的 FP8 峰值算力高達(dá) 4614TFlops ,這一數(shù)據(jù)相較于 2017 年的第二代 TPU,性能提升了 3600 倍,與 2023 年的第五代 TPU 相比,也有著 10 倍的巨大飛躍。從具體數(shù)據(jù)來(lái)看,第二代 TPU 的算力在當(dāng)時(shí)處于一個(gè)基礎(chǔ)水平,而 TPU V7 經(jīng)過(guò)多年的技術(shù)迭代,算力實(shí)現(xiàn)了指數(shù)級(jí)增長(zhǎng),成為了 AI 計(jì)算領(lǐng)域的強(qiáng)大動(dòng)力源。與英偉達(dá)的 B200 相比,TPU V7 的 FP8 算力為 4614TFlops ,略高于 B200 標(biāo)稱的 4.5PFlops(4500TFlops) ,在算力比拼中占據(jù)了上風(fēng),能夠?yàn)榇笠?guī)模的 AI 計(jì)算任務(wù)提供更強(qiáng)大的計(jì)算支持。

內(nèi)存方面,TPU V7 配備了 192GB 的 HBM3E 顯存 ,這一容量是上一代的 6 倍,如此巨大的顯存容量,使得它能夠輕松運(yùn)行萬(wàn)億參數(shù)級(jí)別的大模型。在當(dāng)今 AI 模型不斷向大規(guī)模、復(fù)雜化發(fā)展的趨勢(shì)下,大顯存能夠有效減少數(shù)據(jù)在內(nèi)存與存儲(chǔ)之間的頻繁交換,提高模型的運(yùn)行效率。例如,在訓(xùn)練一些參數(shù)規(guī)模龐大的語(yǔ)言模型時(shí),充足的顯存可以保證模型在運(yùn)行過(guò)程中能夠快速讀取和處理數(shù)據(jù),避免因顯存不足導(dǎo)致的性能瓶頸。與英偉達(dá) B200 的顯存容量相比,雖然具體數(shù)值可能因產(chǎn)品版本略有差異,但 TPU V7 的 192GB HBM3E 顯存也具備很強(qiáng)的競(jìng)爭(zhēng)力,能夠滿足大多數(shù)復(fù)雜 AI 任務(wù)對(duì)內(nèi)存的高需求。

內(nèi)存帶寬是衡量芯片性能的另一個(gè)重要指標(biāo),TPU V7 的單芯片內(nèi)存帶寬提升到了 7.2TBps ,是上一代的 4.5 倍,這意味著它能夠在單位時(shí)間內(nèi)傳輸更多的數(shù)據(jù)。形象地說(shuō),內(nèi)存帶寬就像是數(shù)據(jù)傳輸?shù)母咚俟?,帶寬越高,?shù)據(jù)傳輸?shù)乃俣染驮娇?。以每秒傳輸?shù)臄?shù)據(jù)量來(lái)計(jì)算,7.2TBps 的帶寬相當(dāng)于每秒可以傳輸 230 部 4K 電影的數(shù)據(jù)量,如此高的帶寬能夠確保芯片在處理內(nèi)存密集型工作負(fù)載時(shí),如深度學(xué)習(xí)中的大規(guī)模矩陣運(yùn)算,能夠快速獲取所需數(shù)據(jù),大大提高計(jì)算效率。相比之下,英偉達(dá) B200 的內(nèi)存帶寬為 8TBps ,TPU V7 雖然稍低一點(diǎn),但差距不大,二者基本處于可對(duì)標(biāo)水平,都代表了當(dāng)前 AI 芯片內(nèi)存帶寬的頂尖水平。


TPU V7 的卓越性能,離不開其獨(dú)特且創(chuàng)新的架構(gòu)設(shè)計(jì),這些設(shè)計(jì)在提升性能與能效方面發(fā)揮了關(guān)鍵作用。

首先是 3D 堆疊技術(shù)的應(yīng)用,TPU V7 通過(guò)混合鍵合(Hybrid Bonding)將邏輯層與內(nèi)存層以 10 微米間距堆疊 ,這種設(shè)計(jì)極大地減少了信號(hào)延遲和功耗。從物理層面來(lái)看,3D 堆疊使得芯片內(nèi)部的各個(gè)組件之間的距離更近,信號(hào)傳輸路徑縮短,從而有效降低了信號(hào)延遲。在實(shí)際應(yīng)用中,當(dāng)芯片需要頻繁讀取內(nèi)存中的數(shù)據(jù)進(jìn)行計(jì)算時(shí),較短的信號(hào)傳輸延遲可以讓數(shù)據(jù)更快地到達(dá)計(jì)算單元,提高計(jì)算效率。同時(shí),由于減少了芯片間的數(shù)據(jù)搬運(yùn),功耗也降低了 30% ,這在大規(guī)模數(shù)據(jù)中心部署中,能夠顯著降低能源消耗和運(yùn)營(yíng)成本。例如,在一個(gè)擁有大量 TPU V7 芯片的 AI 計(jì)算集群中,功耗的降低意味著可以減少散熱設(shè)備的投入和運(yùn)行成本,同時(shí)也更加符合綠色計(jì)算的理念。

新型計(jì)算核心 FlexCore 也是 TPU V7 架構(gòu)設(shè)計(jì)的一大亮點(diǎn)。每個(gè) FlexCore 包含 4096 個(gè) MAC(乘積累加單元) ,支持 FP32、FP16、BF16、FP8 混合精度計(jì)算。這種混合精度的支持,使得芯片能夠根據(jù)不同的計(jì)算任務(wù)需求,靈活選擇最合適的精度模式,在保證計(jì)算精度的同時(shí),提高計(jì)算效率。比如在一些對(duì)精度要求不高的快速推理任務(wù)中,可以選擇較低精度的計(jì)算模式,加快計(jì)算速度;而在對(duì)精度要求較高的科學(xué)計(jì)算或復(fù)雜模型訓(xùn)練中,則可以采用高精度模式。FlexCore 還采用了三級(jí)緩存結(jié)構(gòu)(L1/L2/L3) ,L3 緩存容量達(dá) 64MB / 核心 ,這一設(shè)計(jì)有效減少了外部?jī)?nèi)存訪問。緩存就像是一個(gè)高速的數(shù)據(jù)暫存區(qū),當(dāng)計(jì)算單元需要數(shù)據(jù)時(shí),首先會(huì)在緩存中查找,如果能夠找到,就可以避免從外部?jī)?nèi)存中讀取數(shù)據(jù),大大提高了數(shù)據(jù)訪問速度。此外,F(xiàn)lexCore 還集成了稀疏計(jì)算加速器,通過(guò)動(dòng)態(tài)稀疏化(Dynamic Sparsity)技術(shù),在訓(xùn)練中自動(dòng)屏蔽 80% 零值數(shù)據(jù) ,進(jìn)一步提升了計(jì)算效率。在深度學(xué)習(xí)模型中,很多參數(shù)在計(jì)算過(guò)程中實(shí)際上是零值,這些零值數(shù)據(jù)的計(jì)算會(huì)浪費(fèi)計(jì)算資源和時(shí)間,動(dòng)態(tài)稀疏化技術(shù)能夠自動(dòng)識(shí)別并跳過(guò)這些零值數(shù)據(jù)的計(jì)算,使得芯片能夠?qū)⒂?jì)算資源集中在有效數(shù)據(jù)上,從而提高整體計(jì)算效率。

在芯片間通信方面,TPU V7 采用了光互聯(lián)(Optical Interconnect)技術(shù),通過(guò)在芯片上直接集成激光器和光調(diào)制器,實(shí)現(xiàn)了硅光子集成 ,避免了傳統(tǒng)電纜延遲。同時(shí),利用波分復(fù)用(WDM)技術(shù),通過(guò)不同波長(zhǎng)光信號(hào)并行傳輸,單鏈路帶寬達(dá) 1.6TB/s ,大大提高了通信帶寬。這種光互聯(lián)技術(shù)使得芯片間通信延遲從第六代的 20 微秒降低到了 5 微秒 ,減少了 87.5%。在大規(guī)模分布式計(jì)算中,芯片間的通信效率至關(guān)重要,低延遲的通信能夠確保各個(gè)芯片之間的協(xié)同工作更加高效,避免因通信延遲導(dǎo)致的計(jì)算等待時(shí)間,從而提高整個(gè)集群的計(jì)算性能。例如,在訓(xùn)練超大規(guī)模的 AI 模型時(shí),需要多個(gè) TPU V7 芯片協(xié)同工作,光互聯(lián)技術(shù)能夠使得各個(gè)芯片之間的數(shù)據(jù)傳輸更加迅速,實(shí)現(xiàn)高效的分布式訓(xùn)練。


Google TPU V7 強(qiáng)大的硬件性能,離不開與之緊密配合的軟件層面優(yōu)化,這些優(yōu)化措施就像是為高性能硬件這把利刃配上了精致的劍鞘,使其能夠發(fā)揮出最大的威力 。

在編譯器方面,XLA(Accelerated Linear Algebra)編譯器得到了顯著改進(jìn)。XLA 編譯器專為 TPU 設(shè)計(jì),能夠?qū)C(jī)器學(xué)習(xí)模型的計(jì)算圖進(jìn)行優(yōu)化,從而更高效地在 TPU 上運(yùn)行。它通過(guò)一系列的優(yōu)化技術(shù),如常量折疊、循環(huán)不變代碼外提、死代碼消除等,減少了不必要的計(jì)算和內(nèi)存訪問,提高了計(jì)算效率。例如,在處理復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型時(shí),XLA 編譯器可以對(duì)計(jì)算圖進(jìn)行分析,將一些在編譯時(shí)就可以確定結(jié)果的計(jì)算提前完成,避免在運(yùn)行時(shí)重復(fù)計(jì)算,從而節(jié)省了計(jì)算資源和時(shí)間。在編譯一個(gè)包含大量卷積層和全連接層的圖像識(shí)別模型時(shí),XLA 編譯器能夠通過(guò)常量折疊優(yōu)化,將一些固定的卷積核參數(shù)在編譯階段就計(jì)算出結(jié)果,減少了運(yùn)行時(shí)的計(jì)算量,使得模型在 TPU V7 上的運(yùn)行速度提高了 30% 。

分布式訓(xùn)練框架也得到了升級(jí)。隨著 AI 模型規(guī)模的不斷增大,分布式訓(xùn)練變得越來(lái)越重要。TPU V7 的分布式訓(xùn)練框架針對(duì)大規(guī)模集群進(jìn)行了優(yōu)化,能夠?qū)崿F(xiàn)高效的多節(jié)點(diǎn)協(xié)同訓(xùn)練。它通過(guò)改進(jìn)的通信協(xié)議和同步機(jī)制,減少了節(jié)點(diǎn)之間的通信開銷和同步等待時(shí)間。在傳統(tǒng)的分布式訓(xùn)練中,節(jié)點(diǎn)之間在進(jìn)行參數(shù)更新時(shí),往往需要花費(fèi)大量時(shí)間進(jìn)行通信和同步,導(dǎo)致訓(xùn)練效率低下。而 TPU V7 的分布式訓(xùn)練框架采用了異步更新和高效的通信壓縮技術(shù),使得節(jié)點(diǎn)可以在本地進(jìn)行更多的計(jì)算,減少了與其他節(jié)點(diǎn)的通信頻率,同時(shí)通過(guò)壓縮通信數(shù)據(jù)的大小,進(jìn)一步提高了通信速度。在訓(xùn)練一個(gè)萬(wàn)億參數(shù)的語(yǔ)言模型時(shí),使用 TPU V7 的分布式訓(xùn)練框架,與上一代相比,訓(xùn)練時(shí)間縮短了 40% ,大大提高了訓(xùn)練效率,使得大規(guī)模模型的訓(xùn)練變得更加可行和高效。

TPU V7 配備了增強(qiáng)版 SparseCore,這是一款專為處理高級(jí)排序和推薦工作負(fù)載中常見的超大嵌入而設(shè)計(jì)的數(shù)據(jù)流處理器。SparseCore 最初是為加速推薦模型而設(shè)計(jì)的,它利用嵌入技術(shù)對(duì)不同類別的用戶進(jìn)行推薦。在實(shí)際應(yīng)用中,推薦系統(tǒng)需要處理海量的用戶數(shù)據(jù)和物品數(shù)據(jù),其中存在大量的稀疏矩陣,傳統(tǒng)的計(jì)算方式效率低下。SparseCore 通過(guò)硬件加速和優(yōu)化的算法,能夠快速處理這些稀疏矩陣,提高推薦系統(tǒng)的計(jì)算效率。例如,在一個(gè)擁有數(shù)億用戶和數(shù)千萬(wàn)商品的電商推薦系統(tǒng)中,使用 SparseCore 可以將推薦計(jì)算的時(shí)間從原來(lái)的幾分鐘縮短到幾秒鐘,大大提升了用戶體驗(yàn)和系統(tǒng)的響應(yīng)速度。此外,Ironwood 芯片中的第三代 SparseCore 還編碼了各種算法,用于加速金融和科學(xué)計(jì)算,雖然具體細(xì)節(jié)尚未透露,但這無(wú)疑為 TPU V7 在更多領(lǐng)域的應(yīng)用拓展了空間。

Pathways 是 Google DeepMind 開發(fā)的機(jī)器學(xué)習(xí)運(yùn)行時(shí),它在 TPU V7 的跨芯片計(jì)算中發(fā)揮著關(guān)鍵作用。Pathways 能夠跨多個(gè) TPU 芯片實(shí)現(xiàn)高效的分布式計(jì)算,它提供了一種統(tǒng)一的編程模型和運(yùn)行時(shí)環(huán)境,使得開發(fā)者可以輕松地利用數(shù)萬(wàn)個(gè) TPU 芯片的綜合計(jì)算能力。在訓(xùn)練超大規(guī)模的 AI 模型時(shí),需要多個(gè) TPU 芯片協(xié)同工作,Pathways 通過(guò)優(yōu)化的任務(wù)調(diào)度和資源分配算法,能夠?qū)⒂?jì)算任務(wù)合理地分配到各個(gè) TPU 芯片上,實(shí)現(xiàn)高效的并行計(jì)算。它還支持動(dòng)態(tài)資源分配,根據(jù)模型的計(jì)算需求和 TPU 芯片的負(fù)載情況,實(shí)時(shí)調(diào)整資源分配,確保每個(gè)芯片都能充分發(fā)揮其性能。在訓(xùn)練一個(gè)包含多個(gè) Transformer 模塊的大型語(yǔ)言模型時(shí),Pathways 可以將不同的 Transformer 模塊分配到不同的 TPU 芯片上進(jìn)行計(jì)算,同時(shí)協(xié)調(diào)各個(gè)芯片之間的數(shù)據(jù)傳輸和同步,使得整個(gè)訓(xùn)練過(guò)程更加高效和穩(wěn)定,與傳統(tǒng)的分布式計(jì)算框架相比,使用 Pathways 能夠?qū)⒂?xùn)練效率提高 50% 。

在超大規(guī)模模型訓(xùn)練領(lǐng)域,Google TPU V7 展現(xiàn)出了卓越的性能和顯著的優(yōu)勢(shì) 。隨著 AI 技術(shù)的不斷發(fā)展,模型規(guī)模呈現(xiàn)出爆發(fā)式增長(zhǎng),萬(wàn)億參數(shù)模型已逐漸成為研究和應(yīng)用的熱點(diǎn)。訓(xùn)練這些超大規(guī)模模型,對(duì)計(jì)算資源的需求堪稱巨大,不僅需要強(qiáng)大的算力來(lái)加速矩陣運(yùn)算和參數(shù)更新,還對(duì)內(nèi)存帶寬和存儲(chǔ)容量有著極高的要求,以確保能夠高效處理海量的數(shù)據(jù)。

TPU V7 的出現(xiàn),為超大規(guī)模模型訓(xùn)練帶來(lái)了新的曙光。其高達(dá) 4614TFlops 的 FP8 峰值算力 ,能夠在單位時(shí)間內(nèi)完成更多的計(jì)算任務(wù),大大縮短了模型訓(xùn)練的時(shí)間。例如,在訓(xùn)練一個(gè)萬(wàn)億參數(shù)的語(yǔ)言模型時(shí),使用 TPU V7 集群進(jìn)行訓(xùn)練,與上一代 TPU 相比,訓(xùn)練時(shí)間可以縮短數(shù)周甚至數(shù)月。這是因?yàn)?TPU V7 強(qiáng)大的算力可以更快地完成模型中的矩陣乘法、卷積運(yùn)算等核心計(jì)算任務(wù),使得參數(shù)更新的速度大幅提高,從而加速了整個(gè)訓(xùn)練過(guò)程。

除了算力,TPU V7 的大內(nèi)存和高帶寬也為超大規(guī)模模型訓(xùn)練提供了有力支持。192GB 的 HBM3E 顯存 ,使得模型可以一次性加載更多的參數(shù)和數(shù)據(jù),減少了數(shù)據(jù)在內(nèi)存與存儲(chǔ)之間的頻繁交換,提高了訓(xùn)練效率。同時(shí),7.2TBps 的單芯片內(nèi)存帶寬 ,確保了數(shù)據(jù)能夠快速地傳輸?shù)接?jì)算核心,避免了因數(shù)據(jù)傳輸瓶頸導(dǎo)致的計(jì)算等待時(shí)間。在訓(xùn)練圖像生成模型時(shí),大量的圖像數(shù)據(jù)需要快速讀取和處理,TPU V7 的高內(nèi)存帶寬可以保證圖像數(shù)據(jù)能夠及時(shí)傳輸?shù)接?jì)算單元進(jìn)行運(yùn)算,使得模型能夠更快地學(xué)習(xí)到圖像的特征,提升訓(xùn)練效果。

從成本角度來(lái)看,TPU V7 也具有明顯的優(yōu)勢(shì)。由于其高效的計(jì)算性能和較低的能耗,使用 TPU V7 進(jìn)行超大規(guī)模模型訓(xùn)練,可以降低對(duì)計(jì)算資源的需求,從而減少硬件采購(gòu)成本和數(shù)據(jù)中心的運(yùn)營(yíng)成本。與傳統(tǒng)的 GPU 集群相比,TPU V7 集群在完成相同規(guī)模的模型訓(xùn)練任務(wù)時(shí),所需的設(shè)備數(shù)量更少,能耗更低,這意味著可以節(jié)省大量的電力費(fèi)用和設(shè)備維護(hù)費(fèi)用。據(jù)估算,使用 TPU V7 進(jìn)行超大規(guī)模模型訓(xùn)練,成本可以降低 30% - 50% ,這對(duì)于大規(guī)模的 AI 研究和應(yīng)用來(lái)說(shuō),是一筆相當(dāng)可觀的節(jié)省。

在 AI 推理場(chǎng)景中,Google TPU V7 針對(duì)混合專家模型(MoE)推理進(jìn)行了專門優(yōu)化,展現(xiàn)出了出色的性能 。隨著 AI 應(yīng)用的不斷普及,推理任務(wù)在實(shí)際應(yīng)用中的需求日益增長(zhǎng),對(duì)推理速度和成本的要求也越來(lái)越高。混合專家模型(MoE)作為一種新興的 AI 模型架構(gòu),通過(guò)將多個(gè)專家模型組合在一起,能夠在處理復(fù)雜任務(wù)時(shí)表現(xiàn)出更高的性能和靈活性,但同時(shí)也對(duì)推理計(jì)算提出了更高的要求。

TPU V7 在執(zhí)行 MoE 推理時(shí),通過(guò)硬件和軟件的協(xié)同優(yōu)化,實(shí)現(xiàn)了低延遲和低成本的推理過(guò)程。從硬件層面來(lái)看,TPU V7 的新型計(jì)算核心 FlexCore 以及光互聯(lián)技術(shù),為 MoE 推理提供了強(qiáng)大的計(jì)算能力和高效的通信支持。FlexCore 的混合精度計(jì)算能力和稀疏計(jì)算加速器,能夠根據(jù) MoE 模型的特點(diǎn),快速處理大量的稀疏矩陣運(yùn)算,提高推理效率。光互聯(lián)技術(shù)則大大降低了芯片間的通信延遲,使得多個(gè) TPU 芯片在協(xié)同處理 MoE 推理任務(wù)時(shí),能夠?qū)崿F(xiàn)高效的數(shù)據(jù)傳輸和同步,減少了推理過(guò)程中的等待時(shí)間。

在軟件層面,TPU V7 的編譯器和分布式訓(xùn)練框架也進(jìn)行了針對(duì)性的優(yōu)化。XLA 編譯器針對(duì) MoE 模型的計(jì)算圖進(jìn)行了深度優(yōu)化,通過(guò)自動(dòng)并行化和混合精度自動(dòng)轉(zhuǎn)換等技術(shù),提高了模型在 TPU 上的運(yùn)行效率。分布式訓(xùn)練框架則通過(guò)優(yōu)化任務(wù)調(diào)度和資源分配算法,實(shí)現(xiàn)了 MoE 模型在多個(gè) TPU 芯片上的高效并行推理。在處理一個(gè)包含多個(gè)專家模型的 MoE 語(yǔ)言模型推理任務(wù)時(shí),TPU V7 的分布式訓(xùn)練框架可以將不同的專家模型分配到不同的 TPU 芯片上進(jìn)行計(jì)算,同時(shí)協(xié)調(diào)各個(gè)芯片之間的數(shù)據(jù)傳輸和同步,使得整個(gè)推理過(guò)程更加高效和穩(wěn)定,與傳統(tǒng)的推理框架相比,推理延遲降低了 50% 以上 。

這些優(yōu)化措施使得 TPU V7 在 AI 推理場(chǎng)景中能夠顯著降低推理延遲,提高響應(yīng)速度。對(duì)于實(shí)時(shí)性要求較高的 AI 應(yīng)用,如智能客服、智能駕駛等,低延遲的推理至關(guān)重要。在智能客服系統(tǒng)中,使用 TPU V7 進(jìn)行推理,可以快速響應(yīng)用戶的問題,提供準(zhǔn)確的回答,提升用戶體驗(yàn)。TPU V7 的高效推理性能還能夠降低推理成本。通過(guò)提高計(jì)算效率和減少硬件資源的浪費(fèi),TPU V7 在完成相同推理任務(wù)時(shí),所需的計(jì)算資源更少,從而降低了硬件采購(gòu)成本和運(yùn)行成本。據(jù)統(tǒng)計(jì),使用 TPU V7 進(jìn)行 MoE 推理,與傳統(tǒng)的推理方案相比,成本可以降低 40% 以上 ,這對(duì)于大規(guī)模部署 AI 推理應(yīng)用的企業(yè)來(lái)說(shuō),具有重要的經(jīng)濟(jì)意義。


TPU的快速推出與逐步迭代,似乎證明了:

NVIDIA的GPU也許是第一,但絕不是唯一。

(素材來(lái)源于公開文獻(xiàn)和網(wǎng)絡(luò),文章觀點(diǎn)僅供交流討論,不代表任何機(jī)構(gòu)或立場(chǎng))

(來(lái)源:轉(zhuǎn)自黃大年茶思屋科技網(wǎng)站,作者:齊涵宇,謝謝~)

*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4268期內(nèi)容,歡迎關(guān)注。

加星標(biāo)??第一時(shí)間看推送,小號(hào)防走丟



求推薦


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中山一商場(chǎng)展車撞入手機(jī)店,車企工作人員:小孩誤觸所致,無(wú)人受傷

中山一商場(chǎng)展車撞入手機(jī)店,車企工作人員:小孩誤觸所致,無(wú)人受傷

極目新聞
2025-12-28 13:48:03
這次,姜昆的"澄清"徹底淪為笑話,一份天氣預(yù)報(bào),把他們?nèi)鲑u了

這次,姜昆的"澄清"徹底淪為笑話,一份天氣預(yù)報(bào),把他們?nèi)鲑u了

千言?shī)蕵酚?/span>
2025-12-27 19:56:34
長(zhǎng)得丑、演戲爛,爹媽“強(qiáng)捧不紅”的4位星二代,注定走不遠(yuǎn)

長(zhǎng)得丑、演戲爛,爹媽“強(qiáng)捧不紅”的4位星二代,注定走不遠(yuǎn)

瓜汁橘長(zhǎng)Dr
2025-12-27 14:52:48
普京警告澤連斯基

普京警告澤連斯基

新京報(bào)政事兒
2025-12-28 07:17:38
“老錢”車主天塌了!被飯盒扯下了遮羞布,新貴車主吃起了豪華餐

“老錢”車主天塌了!被飯盒扯下了遮羞布,新貴車主吃起了豪華餐

品牌觀察官
2025-12-27 19:26:29
《老舅》大結(jié)局:華為二公主果真帶資進(jìn)組了,觀眾:史上最強(qiáng)植入

《老舅》大結(jié)局:華為二公主果真帶資進(jìn)組了,觀眾:史上最強(qiáng)植入

娛樂故事
2025-12-28 11:28:10
杜蘭特30+7火箭最多領(lǐng)先31分大勝騎士 申京缺席謝潑德18+8

杜蘭特30+7火箭最多領(lǐng)先31分大勝騎士 申京缺席謝潑德18+8

醉臥浮生
2025-12-28 11:15:49
震驚!網(wǎng)傳山東一村通知,以后村里對(duì)白事統(tǒng)一安排,開銷壓到最低

震驚!網(wǎng)傳山東一村通知,以后村里對(duì)白事統(tǒng)一安排,開銷壓到最低

火山詩(shī)話
2025-12-28 08:19:02
南博事件又添猛將!封蕾被曝光,在私企離職進(jìn)入事業(yè)編,無(wú)縫對(duì)接

南博事件又添猛將!封蕾被曝光,在私企離職進(jìn)入事業(yè)編,無(wú)縫對(duì)接

火山詩(shī)話
2025-12-28 10:44:39
12月27日俄烏:澤連斯基赴美,特朗普憤怒回應(yīng)

12月27日俄烏:澤連斯基赴美,特朗普憤怒回應(yīng)

山河路口
2025-12-27 17:49:14
乒超女團(tuán):深圳大學(xué)3-1勝山東魯能奪冠!孫穎莎、王曼昱均未上場(chǎng)

乒超女團(tuán):深圳大學(xué)3-1勝山東魯能奪冠!孫穎莎、王曼昱均未上場(chǎng)

全言作品
2025-12-28 13:25:26
財(cái)政部:明年將推動(dòng)相關(guān)公共服務(wù)隨人走、可攜帶

財(cái)政部:明年將推動(dòng)相關(guān)公共服務(wù)隨人走、可攜帶

界面新聞
2025-12-28 12:14:19
小米yu7車主截肢后續(xù):喜提新車8天就車禍,女友因他殘疾選擇退婚

小米yu7車主截肢后續(xù):喜提新車8天就車禍,女友因他殘疾選擇退婚

漢史趣聞
2025-12-28 10:06:00
全軍覆沒!網(wǎng)貸公司盯上印度市場(chǎng),結(jié)果反被三哥收割得體無(wú)完膚!

全軍覆沒!網(wǎng)貸公司盯上印度市場(chǎng),結(jié)果反被三哥收割得體無(wú)完膚!

青青子衿
2025-12-26 04:42:30
國(guó)家重點(diǎn)建設(shè)項(xiàng)目造假!還有什么事,是他們不敢干的?

國(guó)家重點(diǎn)建設(shè)項(xiàng)目造假!還有什么事,是他們不敢干的?

劍鳴濤聲
2025-12-02 05:08:17
姜昆風(fēng)波再升級(jí)!拍攝者硬剛,視頻不是拼接也不在美國(guó),行程被扒

姜昆風(fēng)波再升級(jí)!拍攝者硬剛,視頻不是拼接也不在美國(guó),行程被扒

阿纂看事
2025-12-27 11:02:48
實(shí)錘了?《亞洲周刊》扒出徐湖平的父親身份,岳父疑似身份不簡(jiǎn)單

實(shí)錘了?《亞洲周刊》扒出徐湖平的父親身份,岳父疑似身份不簡(jiǎn)單

老寓雜談
2025-12-27 17:14:46
南京一別墅7489萬(wàn)余元法拍成交,僅物業(yè)費(fèi)就欠30余萬(wàn)元

南京一別墅7489萬(wàn)余元法拍成交,僅物業(yè)費(fèi)就欠30余萬(wàn)元

現(xiàn)代快報(bào)
2025-12-28 13:47:08
吃相太難看!美國(guó)圣誕風(fēng)波僅1天,姜昆出手回應(yīng),楊議慘遭打臉

吃相太難看!美國(guó)圣誕風(fēng)波僅1天,姜昆出手回應(yīng),楊議慘遭打臉

奇思妙想草葉君
2025-12-28 03:19:30
保定大量商戶突然關(guān)閉,整個(gè)街道冷冷清清

保定大量商戶突然關(guān)閉,整個(gè)街道冷冷清清

映射生活的身影
2025-12-27 18:09:05
2025-12-28 15:12:49
半導(dǎo)體行業(yè)觀察 incentive-icons
半導(dǎo)體行業(yè)觀察
專注觀察全球半導(dǎo)體行業(yè)資訊
12566文章數(shù) 34734關(guān)注度
往期回顧 全部

科技要聞

AR眼鏡第一案,究竟在爭(zhēng)什么?

頭條要聞

四川原副省長(zhǎng)葉寒冰被通報(bào):長(zhǎng)期出入私人會(huì)所聚餐飲酒

頭條要聞

四川原副省長(zhǎng)葉寒冰被通報(bào):長(zhǎng)期出入私人會(huì)所聚餐飲酒

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

姚晨打卡絕版機(jī)位 高崎機(jī)場(chǎng)背后的遺憾

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

房產(chǎn)
本地
游戲
手機(jī)
公開課

房產(chǎn)要聞

年銷20億+!中交·藍(lán)色港灣用好房子致敬好生活

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬(wàn)年史書

《街頭霸王6》春麗1/4比例雕像公布 肉腿很還原

手機(jī)要聞

紅米Turbo5系列再次被確認(rèn):補(bǔ)齊參數(shù)短板,配置規(guī)格很全!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版