網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

英偉達(dá)的最大威脅：谷歌TPU憑啥？

2025-12-26 09:58:29　來(lái)源: 半導(dǎo)體行業(yè)觀察

上海舉報(bào)

分享至

公眾號(hào)記得加星標(biāo)??，第一時(shí)間看推送不會(huì)錯(cuò)過(guò)。

在科技世界，速度往往決定著可能與不可能的界限。

谷歌的 TPU 從最初的概念，到完整部署在數(shù)據(jù)中心，僅僅用了 15 個(gè)月。不到一年半的時(shí)間里，團(tuán)隊(duì)將架構(gòu)設(shè)想化為硅片，將計(jì)算理論落地為可量產(chǎn)硬件，將軟件工具與硬件緊密結(jié)合，使新加速器能夠承載現(xiàn)實(shí)工作負(fù)載。每一次脈動(dòng)，每一次數(shù)據(jù)流動(dòng)，都見證了工程與創(chuàng)新的極致協(xié)作。

TPU 并未止步于首次部署。隨后的每一年，團(tuán)隊(duì)都在不斷迭代：他們提升計(jì)算單元的性能，提高內(nèi)存帶寬以適應(yīng)日益增長(zhǎng)的模型規(guī)模；優(yōu)化能效，使每瓦功耗所能完成的計(jì)算量大幅增加；擴(kuò)展功能，讓 TPU 不僅能執(zhí)行矩陣乘加運(yùn)算，還能支持越來(lái)越復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu)和推理任務(wù)。每一次迭代都像為系統(tǒng)注入新的脈動(dòng)，使其更加敏捷、可靠，并能承載更廣泛的工作負(fù)載。隨著 TPU 系列版本不斷更新，它逐步成為谷歌深度學(xué)習(xí)生態(tài)的核心基礎(chǔ)設(shè)施，從搜索和翻譯，到地圖、街景，再到 AlphaGo 等前沿 AI 項(xiàng)目，無(wú)一不依賴這一硬件加速器的力量。

這種持續(xù)、逐年的優(yōu)化不僅體現(xiàn)了硬件設(shè)計(jì)與工程執(zhí)行的極致協(xié)作，也展示了谷歌將實(shí)驗(yàn)室研究快速轉(zhuǎn)化為生產(chǎn)力的能力，使 TPU 在現(xiàn)實(shí)世界的應(yīng)用中愈發(fā)不可或缺。TPU的故事似乎證明了：

NVIDIA 的GPU也許是第一，但絕不是唯一。

在故事開始之前：一些與TPU（張量處理單元）有關(guān)的概念

TensorFlow：谷歌的機(jī)器學(xué)習(xí)框架
谷歌張量處理單元（Tensor Processing Unit，TPU）：谷歌的自定義數(shù)據(jù)中心加速器
Tensor Core：Nvidia 最新 GPU 中的一個(gè)執(zhí)行單元
谷歌 Tensor：最新的 Pixel 智能手機(jī)中的基于 Arm 的系統(tǒng)級(jí)芯片

那么什么是張量呢？

在數(shù)學(xué)中，張量是一種代數(shù)對(duì)象，它描述了與向量空間相關(guān)的一組代數(shù)對(duì)象之間的多線性關(guān)系。張量可以映射不同對(duì)象之間的關(guān)系，如向量、標(biāo)量，甚至其他張量。

實(shí)際上，我們可以簡(jiǎn)化這一定義，幾乎完全依賴于張量的一種表現(xiàn)形式：張量可以表示為一個(gè)（可能是多維的）數(shù)組。

因此，根據(jù)張量的性質(zhì)，它可以被表示為一個(gè) n 維數(shù)組，其中 n 是 0、1、2、3 等等。這些表示形式中的一些有更熟悉的名字：

維度 0 - 標(biāo)量
維度 1 - 向量
維度 2 - 矩陣

為什么稱之為張量處理單元（TPU）？因?yàn)樗O(shè)計(jì)來(lái)加速涉及張量的操作。具體來(lái)說(shuō)，是哪些操作呢？我們?cè)嫉木S基百科定義中提到的操作，將張量描述為“在不同對(duì)象之間的映射（多線性關(guān)系），如向量、標(biāo)量，甚至其他張量”。

讓我們舉個(gè)簡(jiǎn)單的例子。一個(gè)二維數(shù)組可以描述兩個(gè)一維數(shù)組之間的多線性關(guān)系。數(shù)學(xué)傾向的人會(huì)認(rèn)識(shí)到，這個(gè)過(guò)程是通過(guò)將一個(gè)向量乘以一個(gè)矩陣來(lái)得到另一個(gè)向量。

這可以推廣到表示更高維數(shù)組之間關(guān)系的張量。然而，盡管張量描述了任意高維數(shù)組之間的關(guān)系，實(shí)際上我們將考慮的 TPU 硬件是設(shè)計(jì)來(lái)執(zhí)行與一維和二維數(shù)組相關(guān)的計(jì)算?；蛘撸唧w地說(shuō)，向量和矩陣操作。

谷歌TPU的起源：從機(jī)器學(xué)習(xí)到深度學(xué)習(xí)

要理解 TPU 的誕生，就必須回到谷歌在機(jī)器學(xué)習(xí)與深度學(xué)習(xí)領(lǐng)域的長(zhǎng)期積累。作為一家每天處理數(shù)百億次搜索請(qǐng)求、管理全球最大規(guī)模信息檢索系統(tǒng)的公司，谷歌自成立起就對(duì)機(jī)器學(xué)習(xí)保持高度依賴。其使命是“組織全球信息，使人人皆可訪問并從中受益”，而機(jī)器學(xué)習(xí)正是實(shí)現(xiàn)這一使命的核心技術(shù)途徑。

在 2000 年代中期，谷歌已經(jīng)在搜索排序（如 PageRank 的機(jī)器學(xué)習(xí)擴(kuò)展）、垃圾郵件過(guò)濾、推薦系統(tǒng)和廣告點(diǎn)擊率預(yù)測(cè)（CTR）中大規(guī)模應(yīng)用機(jī)器學(xué)習(xí)模型。

當(dāng)然，還有在谷歌每年賺取數(shù)十億美元的廣告業(yè)務(wù)中的眾多應(yīng)用。對(duì)谷歌來(lái)說(shuō)，機(jī)器學(xué)習(xí)至關(guān)重要。因此，谷歌對(duì)機(jī)器學(xué)習(xí)的興趣始于 2000 年代初。隨著時(shí)間的推移，公司的關(guān)注點(diǎn)開始轉(zhuǎn)向深度學(xué)習(xí)。

在深度學(xué)習(xí)尚未全面興起的年代，谷歌已經(jīng)意識(shí)到大規(guī)模機(jī)器學(xué)習(xí)對(duì)算力的巨大需求。早期的研究顯示，用通用服務(wù)器集群即可支撐相當(dāng)復(fù)雜的模型訓(xùn)練。例如，在后來(lái)被廣泛引用的論文《Building High-level Features Using Large Scale Unsupervised Learning》中，作者記錄了他們?nèi)绾问褂靡粋€(gè)由 1,000 臺(tái)機(jī)器、共 16,000 個(gè) CPU 核心組成的大規(guī)模集群，連續(xù)運(yùn)行約三天來(lái)訓(xùn)練論文中的模型。換言之，當(dāng)時(shí)的模型規(guī)模尚可通過(guò)谷歌既有的數(shù)據(jù)中心算力“堆出來(lái)”，無(wú)需依賴任何專用加速芯片。

（論文地址：https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/unsupervised_icml2012.pdf?utm_source=chatgpt.com）

這一結(jié)果不僅反映了谷歌早期在機(jī)器學(xué)習(xí)領(lǐng)域投入的規(guī)模，也說(shuō)明在當(dāng)時(shí)的技術(shù)背景下，通用硬件依然能夠支撐實(shí)驗(yàn)級(jí)別的深度學(xué)習(xí)研究。然而，隨著模型急速擴(kuò)張、神經(jīng)網(wǎng)絡(luò)的計(jì)算密度不斷提升，這種依賴通用 CPU 集群的方式很快觸及性能與能耗的瓶頸，并最終促使谷歌在幾年后走向?qū)Ｓ脵C(jī)器學(xué)習(xí)加速器（TPU）路線。

到2011年，由 Jeff Dean、Greg Corrado 和 Andrew Ng 主導(dǎo)的深度學(xué)習(xí)研究項(xiàng)目 Google Brain 最初作為 Google X 內(nèi)部的探索性計(jì)劃啟動(dòng)。該項(xiàng)目旨在驗(yàn)證大規(guī)模分布式計(jì)算能否推動(dòng)深度神經(jīng)網(wǎng)絡(luò)獲得突破，并由此開啟了谷歌在深度學(xué)習(xí)方向的系統(tǒng)性研究。

Google Brain 的核心目標(biāo)是將深度神經(jīng)網(wǎng)絡(luò)與谷歌龐大的計(jì)算基礎(chǔ)設(shè)施 — 大規(guī)模分布式服務(wù)器 + 海量數(shù)據(jù) — 結(jié)合起來(lái)，從而訓(xùn)練、部署此前規(guī)模難以企及的神經(jīng)網(wǎng)絡(luò)系統(tǒng)。這個(gè)思路的基礎(chǔ)是：與其用傳統(tǒng)、同步、單機(jī)／少量機(jī)器跑神經(jīng)網(wǎng)絡(luò)，不如充分利用谷歌現(xiàn)成的云／服務(wù)器資源，構(gòu)建“分布式、可擴(kuò)展”的深度學(xué)習(xí)平臺(tái)。

為實(shí)現(xiàn)這一目標(biāo)，團(tuán)隊(duì)構(gòu)建了一個(gè)名為 DistBelief 的系統(tǒng) —— 基于谷歌云基礎(chǔ)設(shè)施，支持將深度神經(jīng)網(wǎng)絡(luò)分布到成千上萬(wàn)臺(tái)機(jī)器上，并通過(guò)異步參數(shù)更新（asynchronous parameter update）的方式進(jìn)行訓(xùn)練。這種設(shè)計(jì)當(dāng)時(shí)顛覆了主流研究中“同步訓(xùn)練 + 少量機(jī)器 + 高性能單機(jī)／GPU”的做法。

使用 DistBelief 系統(tǒng)，在 2012 年左右，Google Brain 曾用“數(shù)千臺(tái) CPU／成百上千臺(tái)服務(wù)器 + 數(shù)百萬(wàn)／數(shù)千萬(wàn)圖像／視頻數(shù)據(jù)”進(jìn)行訓(xùn)練。通過(guò)對(duì)來(lái)自 YouTube 的大量未標(biāo)注圖像 / 視頻進(jìn)行無(wú)監(jiān)督學(xué)習(xí)，他們訓(xùn)練出的網(wǎng)絡(luò)“自發(fā)地”學(xué)會(huì)識(shí)別諸如貓、人臉等概念 — 這就是廣為人知的“貓實(shí)驗(yàn)”／“貓論文”（“cat paper”）。

（論文地址：https://arxiv.org/pdf/1112.6209）

使用這個(gè)大規(guī)模神經(jīng)網(wǎng)絡(luò)，該團(tuán)隊(duì)還顯著提高了標(biāo)準(zhǔn)圖像分類測(cè)試的狀態(tài)——事實(shí)上，我們看到了 70% 的相對(duì)準(zhǔn)確性改進(jìn)。通過(guò)利用網(wǎng)絡(luò)上大量的未標(biāo)記數(shù)據(jù)來(lái)增強(qiáng)有限的標(biāo)記數(shù)據(jù)集來(lái)實(shí)現(xiàn)這一點(diǎn)。這是該團(tuán)隊(duì)非常關(guān)注的一個(gè)方向——如何開發(fā)能夠很好地?cái)U(kuò)展的機(jī)器學(xué)習(xí)系統(tǒng)，以便可以利用大量的未標(biāo)記訓(xùn)練數(shù)據(jù)。

這一實(shí)驗(yàn)既證明了深度神經(jīng)網(wǎng)絡(luò) + 海量數(shù)據(jù) + 分布式訓(xùn)練在無(wú)監(jiān)督／半監(jiān)督學(xué)習(xí)上的潛力，也標(biāo)志著將深度學(xué)習(xí)從學(xué)術(shù)研究領(lǐng)域推進(jìn)到可以影響實(shí)際產(chǎn)品／服務(wù)的階段。

Google在這段深度學(xué)習(xí)奮力發(fā)展的路上，也逐漸暴露了一個(gè)巨大的技術(shù)問題：

全部技術(shù)都只基于CPU運(yùn)行。

Cade Metz 的書《天才制造者》回顧了當(dāng) Alex Krizhevsky（AlexNet 作者）在 2013 年來(lái)到谷歌時(shí)，他發(fā)現(xiàn)他們現(xiàn)有的模型都在 CPU 上運(yùn)行。Krizhevsky 需要 GPU，所以他親自解決了這個(gè)問題：

在公司的最初幾天，他從當(dāng)?shù)氐碾娮由痰曩?gòu)買了一臺(tái) GPU 機(jī)器，把它放在離他的辦公桌不遠(yuǎn)的走廊的衣櫥里，將其接入網(wǎng)絡(luò)，并開始在這臺(tái)獨(dú)立的硬件上訓(xùn)練他的神經(jīng)網(wǎng)絡(luò)。

最終，Krizhevsky 的新同事們意識(shí)到，他們需要 GPU，而且是很多 GPU。2014 年，谷歌決定購(gòu)買大約 40,000 個(gè) NVIDIA GPU，花費(fèi)約 1.3 億美元。這些 GPU 被用于訓(xùn)練谷歌業(yè)務(wù)中使用的深度學(xué)習(xí)模型。順便說(shuō)一句，像谷歌這樣的公司購(gòu)買 40,000 個(gè) GPU 并不會(huì)被忽視。如果 NVIDIA 需要一個(gè)信號(hào)，說(shuō)明將 GPU 應(yīng)用于深度學(xué)習(xí)可能是一個(gè)規(guī)?？捎^的業(yè)務(wù)，那么谷歌幾乎可以肯定在 2014 年提供了這個(gè)信號(hào)。

然而，這些 GPU 并不一定能解決谷歌面臨的最大挑戰(zhàn)。GPU 非常適合訓(xùn)練谷歌正在開發(fā)的深度學(xué)習(xí)模型，但當(dāng)需要在全球范圍內(nèi)大規(guī)模部署這些模型時(shí)，情況就不同了。比如，語(yǔ)音識(shí)別等深度學(xué)習(xí)應(yīng)用一旦投入使用，可能會(huì)迅速被大量用戶采用，這種潛在的高需求就帶來(lái)了巨大的計(jì)算壓力。類似地，谷歌的核心產(chǎn)品——搜索服務(wù)——每天處理數(shù)十億次請(qǐng)求，也面臨著相同的問題：如何以可接受的延遲和能耗水平，將訓(xùn)練好的模型在全球范圍內(nèi)高效運(yùn)行。

谷歌搜索對(duì)任何擁有網(wǎng)絡(luò)瀏覽器和互聯(lián)網(wǎng)連接的人來(lái)說(shuō)都是免費(fèi)的。這種搜索的質(zhì)量以及它的免費(fèi)性，是推動(dòng)其爆炸性增長(zhǎng)和迅速占主導(dǎo)地位的關(guān)鍵因素。據(jù)估計(jì)，到 2023 年，谷歌提供了大約兩萬(wàn)億次搜索結(jié)果。要能夠以這種規(guī)模免費(fèi)提供搜索，谷歌需要能夠非常便宜地提供每一組搜索結(jié)果。

谷歌團(tuán)隊(duì)可以預(yù)見到使用這些新的深度學(xué)習(xí)技術(shù)構(gòu)建的一系列服務(wù)將會(huì)非常受歡迎。谷歌可以利用其品牌，以及將這些服務(wù)與其現(xiàn)有廣受歡迎的產(chǎn)品如搜索、Gmail 和 Android 集成，再次使這些服務(wù)占據(jù)主導(dǎo)地位。

然而，這帶來(lái)了一個(gè)重大問題。在如此大規(guī)模下，這些服務(wù)將需要大量額外硬件投入。谷歌團(tuán)隊(duì)在 2013 年設(shè)計(jì)了一個(gè)語(yǔ)音識(shí)別示例，用以說(shuō)明所需計(jì)算資源的規(guī)模：假設(shè)每位用戶每天在 Android 手機(jī)上僅使用三分鐘語(yǔ)音輸入，而這些語(yǔ)音又需要通過(guò)深度學(xué)習(xí)在 CPU 上轉(zhuǎn)換為文本，那么公司將不得不將服務(wù)器數(shù)量增加兩到三倍，而這些服務(wù)器本身已經(jīng)在處理現(xiàn)有工作負(fù)載。這種擴(kuò)張所需的成本將非常高昂。

一個(gè)可行的替代方案是擴(kuò)大 GPU 的使用，而 NVIDIA 的 GPU 顯然是首選。

到 2013 年，NVIDIA 的 GPU 及其成熟的軟件生態(tài)系統(tǒng)已經(jīng)成為機(jī)器學(xué)習(xí)研究的重要工具，既可用于訓(xùn)練，也可用于推理。NVIDIA 于 2006 年推出了首款支持通用計(jì)算任務(wù)的 GPU，而其 CUDA 框架則于 2007 年問世，使得在 GPU 上進(jìn)行通用計(jì)算編程成為可能。更關(guān)鍵的是，NVIDIA GPU 可直接購(gòu)買并部署，這為加速深度學(xué)習(xí)模型提供了即時(shí)可行的硬件選擇。

正如我們所看到的，谷歌確實(shí)采購(gòu)了NVIDIA GPU 并將其部署在數(shù)據(jù)中心中。然而，依賴 GPU 并不一定是技術(shù)上或戰(zhàn)略上的最佳選擇。雖然 GPU 在深度學(xué)習(xí)所需的矩陣運(yùn)算和并行計(jì)算方面比 CPU 更高效，但它們并非專門為深度學(xué)習(xí)設(shè)計(jì)，因此存在潛在的效率損失。在谷歌這種規(guī)模下，這些效率損失意味著巨大的成本增加。此外，完全依賴單一供應(yīng)商提供對(duì)公司戰(zhàn)略至關(guān)重要的硬件，也會(huì)帶來(lái)顯著的戰(zhàn)略風(fēng)險(xiǎn)。

接下來(lái)，谷歌來(lái)到了下一個(gè)叉路口：

有兩條可行路徑可供選擇。其一是使用 FPGA，這種可編程邏輯器件能夠執(zhí)行深度學(xué)習(xí)所需的專用計(jì)算。

其二是設(shè)計(jì)和構(gòu)建自家的定制硬件，即特定應(yīng)用集成電路（ASIC）。與 FPGA 或 GPU 相比，ASIC 可以針對(duì)深度學(xué)習(xí)任務(wù)進(jìn)行專門優(yōu)化，從而釋放更高的效率潛力，同時(shí)減少對(duì)單一供應(yīng)商的依賴。

盡管 FPGA 的性能在某些情況下仍有優(yōu)勢(shì)，但在與 GPU 的對(duì)比中很快就顯示出局限性。FPGA 并未完全被淘汰：它們?nèi)栽诠雀璧臄?shù)據(jù)中心中使用，比 ASIC 提前約六個(gè)月投入生產(chǎn)，承擔(dān)著一個(gè)“清潔管道”的角色，用于驗(yàn)證和支持所有新加速器在生產(chǎn)環(huán)境中的部署流程。

真正的重點(diǎn)是 ASIC。谷歌的目標(biāo)是開發(fā)一種定制芯片，在推理任務(wù)中相較 GPU 實(shí)現(xiàn)約 10 倍的成本性能優(yōu)勢(shì)。然而，定制硬件的開發(fā)需要時(shí)間，而時(shí)間對(duì)該項(xiàng)目至關(guān)重要。這不能是一個(gè)拖延多年的研究實(shí)驗(yàn)；硬件必須快速交付至谷歌的數(shù)據(jù)中心，并能夠?qū)崿F(xiàn)大規(guī)模部署。為此，該項(xiàng)目必須充分利用谷歌現(xiàn)有的資源和技術(shù)積累，以確?？焖匍_發(fā)和高效交付。

15個(gè)月的奇跡：TPU登場(chǎng)

一個(gè)關(guān)鍵問題是：在沒有現(xiàn)成內(nèi)部團(tuán)隊(duì)的情況下，谷歌如何能快速設(shè)計(jì)出復(fù)雜且具有創(chuàng)新性的硬件？令人驚訝的是，谷歌很快就組建起了一支高效團(tuán)隊(duì)。那么，他們是如何做到的呢？

谷歌本身已有為數(shù)據(jù)中心設(shè)計(jì)定制硬件的經(jīng)驗(yàn)，因此可以從現(xiàn)有團(tuán)隊(duì)中召集部分成員，參與新項(xiàng)目。然而，公司此前從未自行開發(fā)過(guò)處理器芯片，因此必須引入擁有相關(guān)經(jīng)驗(yàn)的新成員。這些新成員大多來(lái)自芯片設(shè)計(jì)和半導(dǎo)體行業(yè)，具備設(shè)計(jì)高性能 ASIC 的專業(yè)知識(shí)和實(shí)踐經(jīng)驗(yàn)。通過(guò)將內(nèi)部資源與外部專家相結(jié)合，谷歌能夠迅速組建一支既熟悉公司運(yùn)作，又具備尖端硬件設(shè)計(jì)能力的跨學(xué)科團(tuán)隊(duì)，從而在短時(shí)間內(nèi)推動(dòng)定制深度學(xué)習(xí)加速器的研發(fā)。

其中一位新成員 Norm Jouppi 回憶道，他是在一次會(huì)議上與 Jeff Dean 交談后，被招募加入 TPU 團(tuán)隊(duì)的。他對(duì)這一創(chuàng)新的“greenfield”項(xiàng)目產(chǎn)生了濃厚興趣，決定參與其中。加入團(tuán)隊(duì)的其他知名成員還包括 David Patterson（圖靈獎(jiǎng)得主），他既是原始 Berkeley RISC 架構(gòu)的開發(fā)者，也是 RISC-V 指令集架構(gòu)的重要推動(dòng)者。這些高水平人才的加入，使團(tuán)隊(duì)在硬件設(shè)計(jì)、指令集架構(gòu)以及系統(tǒng)優(yōu)化等方面具備了強(qiáng)大的專業(yè)能力，為 TPU 的快速開發(fā)奠定了堅(jiān)實(shí)基礎(chǔ)。

谷歌很快組建了一支才華橫溢且經(jīng)驗(yàn)豐富的團(tuán)隊(duì)。然而，即便如此，如果他們從零開始設(shè)計(jì)全新的系統(tǒng)架構(gòu)，也仍然可能難以在既定時(shí)間內(nèi)實(shí)現(xiàn)目標(biāo)。幸運(yùn)的是，谷歌能夠借鑒一種已有的架構(gòu)方法，這一方法早在 TPU 開發(fā)之前三十多年就已提出。

在 1978 年的論文 Systolic Arrays (for VLSI) 中，卡內(nèi)基梅隆大學(xué)的 H.T. Kung 和 Charles E. Leiserson 提出了他們所謂的“systolic system（脈動(dòng)系統(tǒng)）”。這一設(shè)計(jì)理念為高吞吐量、可并行化的計(jì)算提供了理論基礎(chǔ)，使其非常適合深度學(xué)習(xí)中大規(guī)模矩陣運(yùn)算的實(shí)現(xiàn)，并最終為 TPU 架構(gòu)提供了重要啟發(fā)。

（論文地址：

https://www.eecs.harvard.edu/htk/static/files/1978-cmu-cs-report-kung-leiserson.pdf

Systolic system（脈動(dòng)系統(tǒng)）是一種處理器網(wǎng)絡(luò)，它以有節(jié)奏的方式執(zhí)行計(jì)算并在系統(tǒng)中傳遞數(shù)據(jù)。在這種脈動(dòng)計(jì)算機(jī)系統(tǒng)中，每個(gè)處理器的功能類似于心臟：它們周期性地接收輸入、進(jìn)行簡(jiǎn)短計(jì)算，然后輸出數(shù)據(jù)，以確保網(wǎng)絡(luò)中的數(shù)據(jù)保持連續(xù)流動(dòng)。

Kung 和 Leiserson 隨后將 systolic system 的一個(gè)重要應(yīng)用定位于矩陣計(jì)算。許多基本的矩陣運(yùn)算能夠在具有數(shù)組結(jié)構(gòu)的脈動(dòng)網(wǎng)絡(luò)上高效且優(yōu)雅地進(jìn)行流水線處理。例如，六邊形連接的處理器陣列可以在執(zhí)行矩陣計(jì)算時(shí)實(shí)現(xiàn)最優(yōu)性能。這些脈動(dòng)陣列具有通信路徑簡(jiǎn)單且規(guī)則的特點(diǎn)，并且網(wǎng)絡(luò)中幾乎所有處理器都是同構(gòu)的。正因如此，基于脈動(dòng)陣列的專用硬件能夠利用 VLSI 技術(shù)以低成本構(gòu)建。

作為當(dāng)時(shí)技術(shù)環(huán)境的一個(gè)實(shí)例，Kung 和 Leiserson 展示了如何將脈動(dòng)系統(tǒng)作為 DEC PDP-11 小型計(jì)算機(jī)的附件來(lái)使用，表明這一理念不僅具有理論價(jià)值，也可應(yīng)用于實(shí)際硬件系統(tǒng)。

該論文描述了脈動(dòng)陣列的處理元素可能連接的替代方式。

其中一個(gè)提議的安排 - 正交連接 - 與 ILLIAC IV 超級(jí)計(jì)算機(jī)中處理元素的安排產(chǎn)生了共鳴，在 ILLIAC IV 超級(jí)計(jì)算機(jī)：DARPA、SIMD、Fairchild 和 Stanley Kubrick 的'2001'中討論了這一點(diǎn))。

Kung 和 Leiserson 描述了如何使用六邊形連接的脈動(dòng)陣列來(lái)執(zhí)行矩陣乘法。

Kung 和 Leiserson 的這項(xiàng)開創(chuàng)性工作在隨后的十年里得到了廣泛研究，并催生了多篇論文，展示了如何使用脈動(dòng)陣列解決各種計(jì)算問題。

那么，脈動(dòng)陣列是如何工作的呢？基本思想是：數(shù)據(jù)從數(shù)組的一側(cè)或多側(cè)輸入系統(tǒng)，并隨著每個(gè)“脈沖”沿處理器陣列流動(dòng)，數(shù)據(jù)和中間結(jié)果在每一步被處理。經(jīng)過(guò)足夠的脈沖后，所需的計(jì)算完成，結(jié)果便從數(shù)組的一側(cè)或多側(cè)輸出。

到 2013 年，Kung 和 Leiserson 當(dāng)年提出脈動(dòng)陣列時(shí)針對(duì) 1970 年代制造技術(shù)的原始動(dòng)機(jī)已不再適用。然而，這種方法在矩陣乘法等任務(wù)上固有的高效性仍然顯著，尤其是在當(dāng)時(shí)相對(duì)較低功耗的前提下。因此，TPU 的設(shè)計(jì)選擇了采用脈動(dòng)陣列。

谷歌擁有工程師團(tuán)隊(duì)和成熟的架構(gòu)方法，但在將概念轉(zhuǎn)化為實(shí)際硅片的能力上仍存在差距。為此，他們與 LSI 公司（現(xiàn)為 Broadcom 的一部分）展開合作。乍看之下，Broadcom 可能并不是典型的機(jī)器學(xué)習(xí)硬件合作伙伴，但它們能夠與制造伙伴如 TSMC 合作，將谷歌的設(shè)計(jì)轉(zhuǎn)化為可量產(chǎn)、可大規(guī)模部署的芯片。

此外，要讓 TPU 支持實(shí)際工作負(fù)載，工作不僅限于制造大量芯片。還必須開發(fā)配套的軟件，使谷歌現(xiàn)有的深度學(xué)習(xí)工具能夠在新架構(gòu)上運(yùn)行。這意味著全新的指令集架構(gòu)需要被支持，而編譯器也必須為新架構(gòu)進(jìn)行適配——這本身就是一項(xiàng)巨大的工程挑戰(zhàn)。

因此，TPU團(tuán)隊(duì)的目標(biāo)就變成了：

快速構(gòu)建硬件
實(shí)現(xiàn)高性能
在大規(guī)模環(huán)境下穩(wěn)定運(yùn)行
對(duì)新工作負(fù)載開箱即用
同時(shí)保持成本效益

他們確實(shí)實(shí)現(xiàn)了快速構(gòu)建：項(xiàng)目啟動(dòng)僅 15 個(gè)月后，第一款 TPU 就在 2015 年初部署到了谷歌的數(shù)據(jù)中心。

那么，他們是如何在短短 15 個(gè)月內(nèi)完成這一壯舉的呢？在論文 “In-Datacenter Performance Analysis of a Tensor Processing Unit” 中，總結(jié)了一些關(guān)鍵因素：

（論文地址：

https://arxiv.org/pdf/1704.04760

盡管我們有時(shí)會(huì)吹噓 TPU 從項(xiàng)目啟動(dòng)到部署到數(shù)據(jù)中心僅用了 15 個(gè)月，遠(yuǎn)遠(yuǎn)短于標(biāo)準(zhǔn)的生產(chǎn)芯片周期，實(shí)際情況是谷歌依賴后續(xù) TPU 的設(shè)計(jì)和優(yōu)化往往需要多年的迭代?？焖偕鲜械某晒Φ靡嬗趫F(tuán)隊(duì)的單一日程焦點(diǎn)——不僅在架構(gòu)設(shè)計(jì)上，例如 700 MHz 的時(shí)鐘頻率便于實(shí)現(xiàn)時(shí)間閉環(huán)，以及完全調(diào)試的 28nm 工藝，還在于數(shù)據(jù)中心部署團(tuán)隊(duì)的高效執(zhí)行和協(xié)調(diào)。

雖然使用成熟的 28nm 工藝和相對(duì)較低的時(shí)鐘速率確實(shí)幫助縮短了開發(fā)周期，但這一切的背后，更關(guān)鍵的是谷歌能夠調(diào)動(dòng)所需資源，全力支持這一項(xiàng)目，從而實(shí)現(xiàn)快速?gòu)母拍畹讲渴鸬霓D(zhuǎn)化。

TPU 很快就在谷歌內(nèi)部廣泛投入使用。其中一個(gè)引人注目的高調(diào)示例是 DeepMind 在 AlphaGo Zero 項(xiàng)目中的應(yīng)用。AlphaGo Zero 是在 2016 年 3 月?lián)魯∈澜鐕骞谲娎钍朗哪Ｐ汀?/p>

AlphaGo Zero 從自我對(duì)弈的強(qiáng)化學(xué)習(xí)中學(xué)習(xí)，起始于隨機(jī)初始化的權(quán)重，不依賴人類棋譜指導(dǎo)，也不使用搜索樹展開，僅使用原始棋盤狀態(tài)作為輸入特征。令人驚訝的是，它僅使用谷歌云中的一臺(tái)機(jī)器配備 4 個(gè) TPU，就完成了訓(xùn)練。

2016 年 AlphaGo Zero 的成功標(biāo)志著一個(gè)重要時(shí)刻：以如此有限的硬件實(shí)現(xiàn)如此高水平的人工智能成果，展示了 TPU 在大規(guī)模深度學(xué)習(xí)任務(wù)中高效、低功耗的潛力，也驗(yàn)證了谷歌定制加速器設(shè)計(jì)的實(shí)際價(jià)值。

像谷歌這樣的公司通常不會(huì)公開其數(shù)據(jù)中心的內(nèi)部運(yùn)作細(xì)節(jié)。因此，TPU 在 2015 年首次部署后一年的時(shí)間里仍然保持相對(duì)神秘。

直到 2016 年 5 月 18 日，谷歌 CEO Sundar Pichai 在 Google I/O 大會(huì)主題演講中首次正式公開宣布：

“我們?cè)跀?shù)據(jù)中心內(nèi)部署 TPUs 已超過(guò)一年，并發(fā)現(xiàn)它們?cè)跈C(jī)器學(xué)習(xí)任務(wù)中提供了每瓦性能的數(shù)量級(jí)提升?！?/p>

這一聲明不僅揭示了 TPU 的存在，也向業(yè)界展示了谷歌在定制加速器和深度學(xué)習(xí)硬件上的領(lǐng)先優(yōu)勢(shì)。

這一發(fā)布還伴隨著一篇簡(jiǎn)短的官方博客，介紹了谷歌如何使用 TPU 定制芯片來(lái)增強(qiáng)機(jī)器學(xué)習(xí)任務(wù)的計(jì)算能力。除了提供一些簡(jiǎn)要的技術(shù)細(xì)節(jié)外，博客還展示了 TPU 如何支持谷歌的實(shí)際服務(wù)。

TPU 已經(jīng)為谷歌的多項(xiàng)應(yīng)用提供了動(dòng)力，包括用于提升搜索結(jié)果相關(guān)性的 RankBrain，以及用于增強(qiáng)地圖和導(dǎo)航準(zhǔn)確性與質(zhì)量的街景查看（Street View）。在 AlphaGo 與圍棋世界冠軍李世石的比賽中，TPU 為其提供了計(jì)算能力，使程序能夠“更快地思考”，并在棋局中規(guī)劃更遠(yuǎn)的移動(dòng)。

15個(gè)月后：TPU的架構(gòu)與迭代

正如我們所看到的，TPU v1 團(tuán)隊(duì)采用的方法源自 H.T. Kung 和 Charles E. Leiserson 在 1978 年論文 “Systolic Arrays (for VLSI)” 中首次提出的架構(gòu)理念。

脈動(dòng)系統(tǒng)（systolic system）是一種由處理器組成的網(wǎng)絡(luò)，這些處理器有節(jié)奏地執(zhí)行計(jì)算并傳遞數(shù)據(jù)。在脈動(dòng)計(jì)算機(jī)系統(tǒng)中，每個(gè)處理器的功能類似于心臟：它周期性地接收輸入、進(jìn)行簡(jiǎn)短計(jì)算，然后輸出結(jié)果，從而保持網(wǎng)絡(luò)中數(shù)據(jù)的連續(xù)流動(dòng)。

那么，TPU v1 如何利用脈動(dòng)方法高效執(zhí)行矩陣乘法呢？我們可以用一個(gè) 2x2 矩陣乘法示例來(lái)說(shuō)明。

假設(shè)我們有一個(gè) 2x2 的乘法單元（MAC）陣列，這些單元在一個(gè)簡(jiǎn)單的網(wǎng)格中連接。如果我們按正確順序?qū)⒕仃囋剌斎氲骄W(wǎng)格中，那么矩陣乘法的結(jié)果便會(huì)自然從陣列中產(chǎn)生。每個(gè)角落的方塊代表一個(gè) 乘法累加單元（MAC），可以執(zhí)行乘法和加法操作，從而完成矩陣乘法的流水線處理。

在這張圖中，黃色的值是從頂部和左側(cè)輸入矩陣的輸入值。淺藍(lán)色的值是存儲(chǔ)的部分和。深藍(lán)色的值是最終結(jié)果。

讓我們一步步來(lái)分析。

第 1 步：值 a11 和 b11 被加載進(jìn)左上角的乘法/累加單元（MAC）。它們被相乘，結(jié)果被存儲(chǔ)。

第 2 步：值 a12 和 b21 被加載進(jìn)左上角的 MAC。它們被相乘，并加到之前計(jì)算的結(jié)果上。這給出了結(jié)果矩陣的左上角值。與此同時(shí)，b11 被傳輸?shù)接疑辖堑?MAC，在那里它與新加載的值 a21 相乘，結(jié)果被存儲(chǔ)。同時(shí)，a11 被傳輸?shù)阶笙陆堑?MAC，在那里它與新加載的值 b12 相乘，結(jié)果被存儲(chǔ)。

第 3 步：b21 被傳輸?shù)接疑辖堑?MAC，在那里它與新加載的值 a22 相乘，結(jié)果被加到之前存儲(chǔ)的結(jié)果上。同時(shí)，a12 被傳輸?shù)阶笙陆堑?MAC，在那里它與新加載的值 b22 相乘，結(jié)果被加到之前存儲(chǔ)的結(jié)果上。在這一步中，我們計(jì)算了結(jié)果矩陣的右上角和左下角值。與此同時(shí)，a12 和 b21 被傳輸?shù)接蚁陆堑?MAC，在那里它們被相乘，結(jié)果被存儲(chǔ)。

第 4 步：最后，a22 和 b22 被傳輸?shù)接蚁陆堑?MAC，在那里它們被相乘，結(jié)果被加到之前存儲(chǔ)的值上，給出了結(jié)果矩陣的右下角值。

因此，矩陣乘法的結(jié)果沿著 MAC 矩陣中移動(dòng)的“對(duì)角線”顯現(xiàn)出來(lái)。

在我們的示例中，進(jìn)行 2x2 矩陣乘法需要 4 個(gè)步驟，但這僅是因?yàn)樵谟?jì)算開始和結(jié)束時(shí)一些 MAC 沒有被利用。實(shí)際上，一旦 MAC 變?yōu)榭臻e，新的矩陣乘法就會(huì)從左上角開始。因此，該單元每?jī)蓚€(gè)周期就能完成一次新的矩陣乘法。

這是對(duì)脈動(dòng)陣列工作方式的簡(jiǎn)化表示，我們簡(jiǎn)要地介紹了 TPU v1 中脈動(dòng)陣列實(shí)現(xiàn)的一些細(xì)節(jié)。我希望這種架構(gòu)工作的原理已經(jīng)清楚。

這是最簡(jiǎn)單可能的矩陣乘法，但可以擴(kuò)展到更大的矩陣和更大的乘法單元陣列。

關(guān)鍵點(diǎn)是，如果數(shù)據(jù)以正確的順序輸入到脈動(dòng)陣列中，則通過(guò)系統(tǒng)的值和結(jié)果的流動(dòng)將確保所需結(jié)果隨時(shí)間從陣列中出現(xiàn)。沒有必要將中間結(jié)果存儲(chǔ)并從“主存儲(chǔ)”區(qū)域提取。由于矩陣乘法單元的結(jié)構(gòu)和輸入被輸入到單元的順序，中間結(jié)果在需要時(shí)自動(dòng)可用。

當(dāng)然，矩陣乘法單元不是孤立存在的，整個(gè)系統(tǒng)的最簡(jiǎn)單呈現(xiàn)如下：

首先要注意的是，TPUv1 依賴于通過(guò) PCIe（高速串行總線）接口與主機(jī)計(jì)算機(jī)的通信。它還可以直接訪問自己的 DDR3 動(dòng)態(tài) RAM 存儲(chǔ)。

我們可以將其擴(kuò)展為設(shè)計(jì)的更詳細(xì)展示：

讓我們從這個(gè)設(shè)計(jì)的展示中挑選一些關(guān)鍵元素，從頂部開始，大致順時(shí)針移動(dòng)：

DDR3 DRAM / Weight FIFO：權(quán)重存儲(chǔ)在通過(guò) DDR3-2133 接口連接到 TPU v1 的 DDR3 RAM 芯片中。權(quán)重是從主計(jì)算機(jī)的內(nèi)存通過(guò) PCIe 預(yù)加載到這些芯片上的，然后可以轉(zhuǎn)移到“Weight FIFO”內(nèi)存中，為矩陣乘法單元的使用做好準(zhǔn)備。

矩陣乘法單元：這是一個(gè)“脈動(dòng)”陣列，擁有 256 x 256 的矩陣乘法/累加單元，由頂部的 256 個(gè)“權(quán)重”值和左側(cè)的 256 個(gè)數(shù)據(jù)輸入供給。

累加器：結(jié)果從脈動(dòng)矩陣單元的底部出現(xiàn)，并存儲(chǔ)在“累加器”內(nèi)存存儲(chǔ)中。

激活：在此應(yīng)用上述神經(jīng)網(wǎng)絡(luò)中描述的激活函數(shù)。

統(tǒng)一緩沖區(qū)/脈動(dòng)數(shù)據(jù)設(shè)置：應(yīng)用激活函數(shù)的結(jié)果存儲(chǔ)在“統(tǒng)一緩沖區(qū)”內(nèi)存中，準(zhǔn)備作為輸入反饋到矩陣乘法單元以計(jì)算下一層所需的值。

乘法/累加單元（MACs）

到目前為止，我們還沒有具體說(shuō)明矩陣乘法單元執(zhí)行的乘法的性質(zhì)。TPU v1 執(zhí)行 8 位 x8 位整數(shù)乘法，利用量化來(lái)避免對(duì)更占用更多硅片面積的浮點(diǎn)計(jì)算的需求。

指令集

TPU v1 采用 CISC（復(fù)雜指令集計(jì)算機(jī)）設(shè)計(jì)，大約只有 20 條指令。值得注意的是，這些指令是由主計(jì)算機(jī)通過(guò) PCIe 接口發(fā)送給它的，而不是從內(nèi)存中獲取的。

五個(gè)關(guān)鍵指令如下：

Read_Host_Memory

通過(guò) PCIe 從主計(jì)算機(jī)的內(nèi)存讀取輸入值到統(tǒng)一緩沖區(qū)。

Read_Weights

從權(quán)重內(nèi)存讀取權(quán)重到 Weight FIFO。注意，權(quán)重內(nèi)存將已經(jīng)通過(guò) PCIe 從計(jì)算機(jī)的主內(nèi)存中讀取了權(quán)重。

Matrix_Multiply / Convolve

根據(jù)論文，這條指令：使矩陣單元執(zhí)行矩陣乘法或卷積，從統(tǒng)一緩沖區(qū)到累加器。矩陣操作接受一個(gè)變量大小的 B*256 輸入，將其與一個(gè) 256x256 的恒定權(quán)重輸入相乘，產(chǎn)生一個(gè) B*256 的輸出，完成 B 流水線周期。這是實(shí)現(xiàn)脈動(dòng)陣列矩陣乘法的指令。它還可以執(zhí)行卷積計(jì)算，這對(duì)卷積神經(jīng)網(wǎng)絡(luò)是必需的。

Activate

根據(jù)論文，這條指令：執(zhí)行人工神經(jīng)元的非線性函數(shù)，有 ReLU、Sigmoid 等選項(xiàng)。它的輸入是累加器，輸出是統(tǒng)一緩沖區(qū)。如果我們回到我們簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)模型，隱藏層中的值是將“激活函數(shù)”應(yīng)用于輸入的權(quán)重乘以輸入的總和的結(jié)果。ReLU 和 Sigmoid 是兩種最受歡迎的激活函數(shù)。在硬件中實(shí)現(xiàn)這些將提供應(yīng)用激活函數(shù)的有用加速。

Write_Host_Memory

通過(guò) PCIe 將結(jié)果從統(tǒng)一緩沖區(qū)寫入主計(jì)算機(jī)的內(nèi)存。

值得暫停一刻，反思這五條指令在提供幾乎完整的 TPU v1 推理實(shí)現(xiàn)方面的優(yōu)雅。在偽代碼中，我們可以大致描述 TPU v1 的操作如下：

Read_Host_Memory

Read_Weights

Loop_Start

Matrix_Multiply

Activate

Loop_End

Write_Host_Memory

強(qiáng)調(diào)脈動(dòng)單元在使這成為可能和高效中的重要性也是有用的。正如 TPU v1 團(tuán)隊(duì)所描述：

矩陣單元使用脈動(dòng)執(zhí)行以節(jié)省能量，通過(guò)減少對(duì)統(tǒng)一緩沖區(qū)的讀寫....它依靠來(lái)自不同方向的數(shù)據(jù)在數(shù)組中的單元以規(guī)律間隔到達(dá)時(shí)被組合。數(shù)據(jù)從左側(cè)流入，權(quán)重從頂部加載。給定的 256 元素乘法-累加操作以對(duì)角線波前的形式通過(guò)矩陣移動(dòng)。

軟件

沒有軟件支持的 TPU v1 硬件將毫無(wú)用處。谷歌開發(fā)并使用了 Tensorflow，因此創(chuàng)建“驅(qū)動(dòng)程序”以使 Tensorflow 能夠與 TPU v1 協(xié)同工作是主要步驟。

TPU 軟件棧必須與為 CPU 和 GPU 開發(fā)的軟件棧兼容，以便應(yīng)用程序可以快速移植到 TPU。在 TPU 上運(yùn)行的應(yīng)用程序的部分通常用 TensorFlow 編寫，并編譯成可以在 GPU 或 TPUs 上運(yùn)行的 API。

與 GPUs 一樣，TPU 棧分為用戶空間驅(qū)動(dòng)程序和內(nèi)核驅(qū)動(dòng)程序。內(nèi)核驅(qū)動(dòng)程序很輕量級(jí)，僅處理內(nèi)存管理和中斷。它設(shè)計(jì)用于長(zhǎng)期穩(wěn)定。用戶空間驅(qū)動(dòng)程序變化頻繁。它設(shè)置和控制 TPU 執(zhí)行，將數(shù)據(jù)重新格式化為 TPU 順序，將 API 調(diào)用轉(zhuǎn)換為 TPU 指令，并將它們轉(zhuǎn)換為應(yīng)用程序二進(jìn)制文件。

制造和模具

TPU v1 是由 TSMC 使用相對(duì)“成熟”的 28nm TSMC 工藝制造的。谷歌表示，與谷歌此時(shí)在其數(shù)據(jù)中心使用的更先進(jìn)工藝制造的 Intel Haswell CPU 和 NVIDIA 的 K80 GPU 芯片相比，模具面積不到一半。

我們已經(jīng)看到了 TPU v1 的指令集有多簡(jiǎn)單，只有 20 條 CISC 指令。ISA 的簡(jiǎn)單性導(dǎo)致 TPU v1 的模具中用于解碼和相關(guān)活動(dòng)的“開銷”非常低，僅占模具面積的 2%，標(biāo)記為“控制”。

相比之下，24%的模具面積專用于矩陣乘法單元，29%專用于存儲(chǔ)輸入和中間結(jié)果的“統(tǒng)一緩沖區(qū)”內(nèi)存。

性能

此時(shí)，回顧一下 TPU v1 旨在使推理——即在谷歌規(guī)模的真實(shí)世界服務(wù)中使用已經(jīng)訓(xùn)練好的模型——更高效是有用的。它不旨在提高訓(xùn)練的速度或效率。盡管推理和訓(xùn)練有一些共同的特征，但在開發(fā)專用硬件時(shí)，推理和訓(xùn)練提供了完全不同的挑戰(zhàn)。

那么 TPU v1 的表現(xiàn)如何呢？

2013 年，TPU v1 的關(guān)鍵比較是與 Intel 的 Haswell CPU 和 NVIDIA 的 K80 GPU。

TPU v1 擁有 K80 GPU 的 25 倍 MAC 和 3.5 倍的片上內(nèi)存。

TPU v1 在推理方面比 K80 GPU 和 Haswell CPU 快大約 15X - 30X。

并且關(guān)鍵的是 TPU v1 在能源效率方面遠(yuǎn)超 GPU：TPU v1 的相對(duì)增量性能/瓦特是 GPU 的 25 到 29 倍。

TPU v1 只是故事的開始。TPU v1 設(shè)計(jì)得很快，唯一的目標(biāo)是使推理更快和更節(jié)能。它有一些明顯的限制，不是為訓(xùn)練設(shè)計(jì)的。不僅谷歌內(nèi)部，外部公司很快就開始考慮如何改進(jìn) TPU v1。

2017年 TPUv2

Google的第二代TPU，定位是服務(wù)端AI推理和訓(xùn)練芯片。

硬件架構(gòu)

TPUv2的改變

單個(gè)向量存儲(chǔ)器，而不是固定功能單元之間的緩沖區(qū)。

通用向量單元，而不是固定功能激活管道。

連接矩陣單元作為向量單元的卸載。

將 DRAM 連接到內(nèi)存系統(tǒng)而不是直接連接到矩陣單元。

轉(zhuǎn)向 HBM 以獲得帶寬。

添加互連以實(shí)現(xiàn)高帶寬擴(kuò)展。

TPUv2 Core

超長(zhǎng)指令字架構(gòu)：利用已知的編譯器技術(shù)。

線性代數(shù)ISA：標(biāo)量、向量和矩陣，為通用性而構(gòu)建。

TPU 核心：標(biāo)量單元

322b VLIW 捆綁包：

2 個(gè)標(biāo)量槽

4 個(gè)向量槽（2 個(gè)用于加載/存儲(chǔ)）

2 個(gè)矩陣插槽（推入、彈出）、

1 個(gè)雜項(xiàng)插槽

6 個(gè)立即數(shù)

標(biāo)量單元執(zhí)行：

完整的 VLIW 捆綁獲取和解碼

標(biāo)量槽執(zhí)行

存儲(chǔ)系統(tǒng)

針對(duì) SRAM 暫存器進(jìn)行加載和存儲(chǔ)

在核心內(nèi)提供可預(yù)測(cè)的調(diào)度

可能會(huì)因同步標(biāo)志而停止

可通過(guò)異步 DMA 訪問

在同步標(biāo)志中指示完成

互連器

具有 4 個(gè)鏈路的片上路由器

每個(gè)鏈路 500 Gbps

組裝成2D環(huán)面

軟件視圖：使用 DMA，就像 HBM 一樣；限制推送 DMA；只需定位另一個(gè)芯片 ID

2018年：TPUv3

TPU3是對(duì)TPU2的溫和重新設(shè)計(jì)，采用相同的技術(shù)，MXU和HBM容量增加了兩倍，時(shí)鐘速率、內(nèi)存帶寬和ICI帶寬增加了1.3倍。TPU3超級(jí)計(jì)算機(jī)還可以擴(kuò)展到1024個(gè)芯片。它的算力進(jìn)一步提升至 420TFlops，內(nèi)存達(dá)到了 128GB（HBM），并且首次引入了分布式訓(xùn)練框架，這一創(chuàng)新使得多臺(tái) TPU 可以協(xié)同工作，大大提高了訓(xùn)練效率，能夠應(yīng)對(duì)大規(guī)模的深度學(xué)習(xí)任務(wù)。此外，TPU v3 還采用了當(dāng)時(shí)最新的液冷技術(shù)，有效解決了芯片在高負(fù)載運(yùn)行時(shí)的散熱問題，確保了芯片的穩(wěn)定性能，為 AI 訓(xùn)練的大規(guī)模應(yīng)用提供了可能。

功能特性

協(xié)同設(shè)計(jì)：具有軟件可預(yù)測(cè)性的簡(jiǎn)化硬件（例如，VLIW、暫存器）。

使用 bfloat16 脈動(dòng)陣列計(jì)算密度：HBM 為計(jì)算提供支持，XLA編譯器。

具有原則性線性代數(shù)框架的靈活大數(shù)據(jù)核心。

2020年： TPUv4i

TPUv4i：Google于2020年發(fā)布，定位是服務(wù)器端推理芯片.

硬件架構(gòu)

功能特性

1)單核TPUv4i 用于推理，雙核 TPUv4（可擴(kuò)展至 4096 個(gè)芯片）用于訓(xùn)練。

2)選擇編譯器兼容性，而不是二進(jìn)制兼容性。

3)通過(guò)通用內(nèi)存 (CMEM)增加了片上 SRAM 存儲(chǔ)。

4)四維張量 DMA 引擎充當(dāng)協(xié)處理器，可完全解碼和執(zhí)行 TensorCore DMA 指令。

5)添加了一個(gè)共享片上互連 (OCI)，用于連接芯片上的所有組件。

6)引入了四輸入加法器運(yùn)算單元。

7)時(shí)鐘頻率達(dá)到 1.05 GHz。

8)2個(gè)ICI鏈路鏈接板端4 個(gè)芯片。

9)具有廣泛的跟蹤和性能計(jì)數(shù)器等硬件功能。

2021年：TPUv4

谷歌2020年發(fā)布，服務(wù)器推理和訓(xùn)練芯片，芯片數(shù)量是TPUv3的四倍。它用了更為先進(jìn)的 7nm 工藝，晶體管數(shù)大幅提升，峰值算力達(dá)到了 275TFLOPS ，性能表現(xiàn)全球領(lǐng)先。TPU v4 在內(nèi)存帶寬和能效比等方面也有了顯著的提升，并且進(jìn)一步優(yōu)化了分布式訓(xùn)練框架，使得其在大規(guī)模模型訓(xùn)練中的表現(xiàn)更加出色。

硬件架構(gòu)

功能特性

1)通過(guò)引入具有光學(xué)數(shù)據(jù)鏈路的光路交換機(jī)（OCS）來(lái)解決規(guī)模和可靠性障礙，允許 4K 節(jié)點(diǎn)超級(jí)計(jì)算機(jī)通過(guò)重新配置來(lái)容忍 1K CPU 主機(jī)在 0.1%–1.0% 的時(shí)間內(nèi)不可用。

2)公開了 DLRM（SparseCore 或 SC）中嵌入的硬件支持，DLRM 是自 TPU v2 以來(lái) TPU 的一部分。

3)結(jié)合了前兩種功能，為超級(jí)計(jì)算機(jī)規(guī)?；ミB的需求添加了全對(duì)全通信模式。

同時(shí)，TPU v4 還支持 3D 堆疊封裝技術(shù)，進(jìn)一步提高了芯片的集成度和性能，為 AI 芯片的發(fā)展開辟了新的道路。

2023年：TPU V5e

Google定制設(shè)計(jì)、構(gòu)建和部署 Cloud TPU v5e，以經(jīng)濟(jì)高效地滿足這些不斷增長(zhǎng)的計(jì)算需求。

成本效益：與 TPU v4 相比，每美元性能提高高達(dá) 2.5 倍，推理（Inference）延遲降低高達(dá) 1.7 倍。
可擴(kuò)展：八種 TPU 互連結(jié)構(gòu)支持全系列 LLM 和生成式 AI 模型大小，最多 2 萬(wàn)億個(gè)參數(shù)。
多功能：強(qiáng)大的人工智能框架和編程支持。

Cloud TPU v5e 支持對(duì)各種模型大小進(jìn)行推理。單個(gè) v5e 芯片最多可以運(yùn)行具有 13B 參數(shù)的模型（16GB HBM）。可以基于數(shù)百個(gè)芯片運(yùn)行具有多達(dá) 2 萬(wàn)億（2000B）參數(shù)的模型，支持從BERT到GPT-4量級(jí)的不同模型。

在 TPU PodSlice 中，TPU 芯片使用高速互連。每個(gè) TPU 芯片直接與 TPU PodSlice 中的其他區(qū)域通信。TPU 軟件會(huì)自動(dòng)將數(shù)據(jù)分發(fā)到 PodSlice 中的每個(gè) TensorCore。這里借用v4的連接結(jié)構(gòu)作為圖示說(shuō)明。

這一結(jié)構(gòu)看起來(lái)有些像NVIDIA GPU的連接架構(gòu)，但實(shí)際上比NVLINK的連接靈活度更高，使用了可重構(gòu)的MEMS光學(xué)連接，也可獲得更大的計(jì)算帶寬。

業(yè)界有一個(gè)傳說(shuō)，就是本屆的TPU v5e是通過(guò)TPU v4，借助AI的力量設(shè)計(jì)出來(lái)的。根據(jù)業(yè)內(nèi)傳出的消息，大部分由AI（跑在TPU v4上）做的版圖擺放優(yōu)于人類專家（26 of 37），此項(xiàng)工作由Google Brain Team和TPU Team共同完成。再結(jié)合前段時(shí)間使用GPT大模型設(shè)計(jì)電路的工作看，機(jī)器設(shè)計(jì)機(jī)器的時(shí)代，似乎在逐漸開啟。

每個(gè) v5e 芯片包含一個(gè) TensorCore。每個(gè) TensorCore 有 4 個(gè)矩陣乘法單元 (MMU)、一個(gè)向量單元（VU）和一個(gè)標(biāo)量單元（SU），每個(gè)單元其實(shí)是大量計(jì)算電路組成的電路模塊?？芍С諸raining和Inference。

與TPUv4相比，TPU v5e專為大模型和生成式 AI 模型打造，有專用的embedding電路模塊。與前代 TPU v4 相比，每美元訓(xùn)練性能提升高達(dá) 2 倍、每美元推理性能提升高達(dá) 2.5 倍。并且 TPU v5e 的成本不到 TPU v4 的一半?？雌饋?lái)似乎是借助AI技術(shù)，對(duì)微架構(gòu)和電路進(jìn)行了升級(jí)，使得綜合的計(jì)算效率更高。

2023年：TPU v5P

以下是TPU v5p的主要功能和亮點(diǎn)：

高效能：TPU v5p采用了先進(jìn)的制程技術(shù)和硬件加速器，實(shí)現(xiàn)了更高的計(jì)算性能。它能夠更快地處理大規(guī)模的張量計(jì)算任務(wù)，為機(jī)器學(xué)習(xí)和科學(xué)計(jì)算等領(lǐng)域提供了更強(qiáng)大的支持。TPU v5p 在浮點(diǎn)運(yùn)算次數(shù)和內(nèi)存帶寬方面分別提升了 2 倍和 3 倍。在大語(yǔ)言模型（LLM）訓(xùn)練速度上實(shí)現(xiàn)了 2.8 倍的代際提升，相較于 TPU v5e 還有約 50% 的進(jìn)步。
低延遲：TPU v5p采用了低延遲的內(nèi)存訪問機(jī)制，減少了數(shù)據(jù)傳輸?shù)难舆t。這使得TPU v5p能夠更快地響應(yīng)用戶的請(qǐng)求，提高了整體系統(tǒng)的響應(yīng)速度。谷歌稱，TPU v5p是其迄今為止最強(qiáng)大的，能夠提供459 teraFLOPS（每秒可執(zhí)行459萬(wàn)億次浮點(diǎn)運(yùn)算）的bfloat16（16位浮點(diǎn)數(shù)格式）性能或918 teraOPS（每秒可執(zhí)行918萬(wàn)億次整數(shù)運(yùn)算）的Int8（執(zhí)行8位整數(shù)）性能，支持95GB的高帶寬內(nèi)存，能夠以2.76 TB/s的速度傳輸數(shù)據(jù)。
兼容性：TPU v5p與現(xiàn)有的硬件和軟件兼容良好。TPU v5p 提供了豐富的API和工具，能夠無(wú)縫集成到現(xiàn)有的計(jì)算系統(tǒng)中，減少了遷移和升級(jí)的成本。同時(shí)，TPU v5p還方便開發(fā)者進(jìn)行開發(fā)和優(yōu)化?？梢愿鶕?jù)不同的需求進(jìn)行升級(jí)，滿足各種規(guī)模的 AI 應(yīng)用。每個(gè) TPU v5p Pod 由多達(dá) 8,960 個(gè)芯片組成，使用最高帶寬的芯片間連接（每芯片 4,800 Gbps）進(jìn)行互連，確保快速傳輸速度和最佳性能。
擴(kuò)展性：TPU v5p支持橫向和縱向擴(kuò)展。這意味著用戶可以根據(jù)需求增加或減少TPU的數(shù)量，以適應(yīng)不同規(guī)模的計(jì)算任務(wù)。谷歌加強(qiáng)了對(duì)流行的機(jī)器學(xué)習(xí)框架（如 JAX、TensorFlow 和 PyTorch）的支持，并提供了開箱即用的功能。此外，TPU v5p 還采用了開放且獨(dú)特的多片訓(xùn)練和多主機(jī)推理軟件，使得擴(kuò)展、訓(xùn)練和服務(wù)工作負(fù)載變得簡(jiǎn)單且高效。
安全性：TPU v5p具有先進(jìn)的安全特性。它采用了硬件級(jí)的加密和安全機(jī)制，保護(hù)了用戶的數(shù)據(jù)和隱私。這使得TPU v5p能夠在安全敏感的應(yīng)用場(chǎng)景中得到廣泛應(yīng)用。

2024年：TPUv6（Trillium）

TPUv6的主要的幾個(gè)優(yōu)化點(diǎn)是MXU更大頻率更高，浮點(diǎn)能力基本上到H100，HBM帶寬和容量翻倍換了HBM3，ICI帶寬也升級(jí)了。

以下是 Trillium 相對(duì)于上一代產(chǎn)品的一些主要改進(jìn)：訓(xùn)練效果提高 4 倍以上推理吞吐量提高 3 倍能源效率提高67%每塊芯片的峰值計(jì)算性能顯著提升 4.7 倍高帶寬內(nèi)存 (HBM) 容量加倍芯片間互連 (ICI) 帶寬加倍單個(gè) Jupiter 網(wǎng)絡(luò)結(jié)構(gòu)中有 100K 個(gè) Trillium 芯片每美元可將訓(xùn)練性能提高 2.5 倍，每美元可將推理性能提高 1.4 倍

這些增強(qiáng)功能使 Trillium 能夠在各種 AI 工作負(fù)載中表現(xiàn)出色，其中包括：擴(kuò)展 AI 訓(xùn)練工作負(fù)載訓(xùn)練 LLM，包括密集模型和混合專家 (MoE) 模型推理性能和收集調(diào)度嵌入密集型模型提供訓(xùn)練和推理性價(jià)比讓我們看一下 Trillium 在每種工作負(fù)載下的表現(xiàn)。

訓(xùn)練像 Gemini 2.0 這樣的大型模型需要大量的數(shù)據(jù)和計(jì)算。Trillium的近線性擴(kuò)展能力可以有效地將工作負(fù)載分配到通過(guò) 256 芯片艙內(nèi)的高速芯片間互連和我們最先進(jìn)的Jupiter 數(shù)據(jù)中心網(wǎng)絡(luò)連接的大量 Trillium 主機(jī)上，從而使這些模型的訓(xùn)練速度顯著加快。這是通過(guò) TPU 多切片和用于大規(guī)模訓(xùn)練的全棧技術(shù)實(shí)現(xiàn)的，并通過(guò)Titanium進(jìn)一步優(yōu)化，Titanium 是一個(gè)動(dòng)態(tài)數(shù)據(jù)中心范圍的卸載系統(tǒng)，范圍從主機(jī)適配器到網(wǎng)絡(luò)結(jié)構(gòu)。 Trillium 通過(guò)部署 12 個(gè)由 3072 個(gè)芯片組成的 pod 實(shí)現(xiàn)了 99% 的擴(kuò)展效率，并通過(guò) 24 個(gè) pod（包含 6144 個(gè)芯片）對(duì) gpt3-175b 進(jìn)行預(yù)訓(xùn)練實(shí)現(xiàn)了 94% 的擴(kuò)展效率，即使在跨數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)行以預(yù)訓(xùn)練 gpt3-175b 時(shí)也是如此。

與前幾代產(chǎn)品相比，Trillium TPU 的擴(kuò)展效率明顯更高。下圖中，我們的測(cè)試表明，與同等規(guī)模的 Cloud TPU v5p 集群相比，Trillium 在 12 個(gè) Pod 規(guī)模下的擴(kuò)展效率高達(dá) 99%（總峰值浮點(diǎn)運(yùn)算次數(shù)）。

訓(xùn)練 LLM，包括密集模型和混合專家 (MoE) 模型像 Gemini 這樣的 LLM 本身就很強(qiáng)大且復(fù)雜，擁有數(shù)十億個(gè)參數(shù)。訓(xùn)練如此密集的 LLM 需要巨大的計(jì)算能力以及共同設(shè)計(jì)的軟件優(yōu)化。與上一代 Cloud TPU v5e 相比，Trillium 為 Llama-2-70b 和 gpt3-175b 等密集 LLM 提供了高達(dá) 4 倍的訓(xùn)練速度。

除了密集的 LLM，使用混合專家 (MoE) 架構(gòu)訓(xùn)練 LLM 是一種越來(lái)越流行的方法，它結(jié)合了多個(gè)“專家”神經(jīng)網(wǎng)絡(luò)，每個(gè)網(wǎng)絡(luò)專門處理 AI 任務(wù)的不同方面。與訓(xùn)練單個(gè)整體模型相比，在訓(xùn)練期間管理和協(xié)調(diào)這些專家會(huì)增加復(fù)雜性。與上一代 Cloud TPU v5e 相比，Trillium 為 MoE 模型提供的訓(xùn)練速度提高了 3.8 倍。

此外，與 Cloud TPU v5e 相比，Trillium TPU 提供了 3 倍的主機(jī)動(dòng)態(tài)隨機(jī)存取內(nèi)存 (DRAM)。這將部分計(jì)算卸載到主機(jī)，有助于在規(guī)模上最大限度地提高性能和Goodput。Trillium的主機(jī)卸載功能在訓(xùn)練 Llama-3.1-405B 模型時(shí)可將性能提高 50% 以上，以模型 FLOPs 利用率 (MFU) 衡量。

Trillium 代表了 Google Cloud 人工智能基礎(chǔ)架構(gòu)的重大飛躍，為各種人工智能工作負(fù)載提供了令人難以置信的性能、可擴(kuò)展性和效率。Trillium 能夠使用世界一流的共同設(shè)計(jì)軟件擴(kuò)展到數(shù)十萬(wàn)個(gè)芯片，讓您能夠更快地實(shí)現(xiàn)突破并提供卓越的人工智能解決方案。此外，Trillium 卓越的性價(jià)比使其成為尋求最大化人工智能投資價(jià)值的組織的經(jīng)濟(jì)實(shí)惠的選擇。

2025年：TPU v7（Ironwood）

Google TPU V7，作為 TPU 家族的最新成員，更是集歷代 TPU 技術(shù)之大成，實(shí)現(xiàn)了全方位的突破。它采用了 3nm 制程工藝，在芯片制造工藝上達(dá)到了行業(yè)領(lǐng)先水平，為更高的性能和更低的功耗奠定了基礎(chǔ)。在架構(gòu)設(shè)計(jì)上，TPU V7 進(jìn)行了大膽創(chuàng)新，引入了全新的計(jì)算核心和互聯(lián)技術(shù)，使其在性能、內(nèi)存帶寬、芯片間通信等方面都取得了巨大的飛躍。例如，它支持 FP8 計(jì)算，這在 TPU 系列中尚屬首次，能夠在保證計(jì)算精度的同時(shí)，大大提高計(jì)算效率；內(nèi)存帶寬提升至 7.2 TBps ，是上一代的 4.5 倍，能夠更快地讀取和處理數(shù)據(jù)，滿足了現(xiàn)代 AI 應(yīng)用對(duì)內(nèi)存帶寬的高要求；芯片間通信帶寬也有了顯著提升，雙向帶寬達(dá)到 1.2 Tbps ，是上一代的 1.5 倍，實(shí)現(xiàn)了更快的芯片間通信，促進(jìn)了大規(guī)模高效分布式訓(xùn)練和推理。

在算力方面，TPU V7 的 FP8 峰值算力高達(dá) 4614TFlops ，這一數(shù)據(jù)相較于 2017 年的第二代 TPU，性能提升了 3600 倍，與 2023 年的第五代 TPU 相比，也有著 10 倍的巨大飛躍。從具體數(shù)據(jù)來(lái)看，第二代 TPU 的算力在當(dāng)時(shí)處于一個(gè)基礎(chǔ)水平，而 TPU V7 經(jīng)過(guò)多年的技術(shù)迭代，算力實(shí)現(xiàn)了指數(shù)級(jí)增長(zhǎng)，成為了 AI 計(jì)算領(lǐng)域的強(qiáng)大動(dòng)力源。與英偉達(dá)的 B200 相比，TPU V7 的 FP8 算力為 4614TFlops ，略高于 B200 標(biāo)稱的 4.5PFlops（4500TFlops），在算力比拼中占據(jù)了上風(fēng)，能夠?yàn)榇笠?guī)模的 AI 計(jì)算任務(wù)提供更強(qiáng)大的計(jì)算支持。

內(nèi)存方面，TPU V7 配備了 192GB 的 HBM3E 顯存，這一容量是上一代的 6 倍，如此巨大的顯存容量，使得它能夠輕松運(yùn)行萬(wàn)億參數(shù)級(jí)別的大模型。在當(dāng)今 AI 模型不斷向大規(guī)模、復(fù)雜化發(fā)展的趨勢(shì)下，大顯存能夠有效減少數(shù)據(jù)在內(nèi)存與存儲(chǔ)之間的頻繁交換，提高模型的運(yùn)行效率。例如，在訓(xùn)練一些參數(shù)規(guī)模龐大的語(yǔ)言模型時(shí)，充足的顯存可以保證模型在運(yùn)行過(guò)程中能夠快速讀取和處理數(shù)據(jù)，避免因顯存不足導(dǎo)致的性能瓶頸。與英偉達(dá) B200 的顯存容量相比，雖然具體數(shù)值可能因產(chǎn)品版本略有差異，但 TPU V7 的 192GB HBM3E 顯存也具備很強(qiáng)的競(jìng)爭(zhēng)力，能夠滿足大多數(shù)復(fù)雜 AI 任務(wù)對(duì)內(nèi)存的高需求。

內(nèi)存帶寬是衡量芯片性能的另一個(gè)重要指標(biāo)，TPU V7 的單芯片內(nèi)存帶寬提升到了 7.2TBps ，是上一代的 4.5 倍，這意味著它能夠在單位時(shí)間內(nèi)傳輸更多的數(shù)據(jù)。形象地說(shuō)，內(nèi)存帶寬就像是數(shù)據(jù)傳輸?shù)母咚俟?，帶寬越高，?shù)據(jù)傳輸?shù)乃俣染驮娇?。以每秒傳輸?shù)臄?shù)據(jù)量來(lái)計(jì)算，7.2TBps 的帶寬相當(dāng)于每秒可以傳輸 230 部 4K 電影的數(shù)據(jù)量，如此高的帶寬能夠確保芯片在處理內(nèi)存密集型工作負(fù)載時(shí)，如深度學(xué)習(xí)中的大規(guī)模矩陣運(yùn)算，能夠快速獲取所需數(shù)據(jù)，大大提高計(jì)算效率。相比之下，英偉達(dá) B200 的內(nèi)存帶寬為 8TBps ，TPU V7 雖然稍低一點(diǎn)，但差距不大，二者基本處于可對(duì)標(biāo)水平，都代表了當(dāng)前 AI 芯片內(nèi)存帶寬的頂尖水平。

TPU V7 的卓越性能，離不開其獨(dú)特且創(chuàng)新的架構(gòu)設(shè)計(jì)，這些設(shè)計(jì)在提升性能與能效方面發(fā)揮了關(guān)鍵作用。

首先是 3D 堆疊技術(shù)的應(yīng)用，TPU V7 通過(guò)混合鍵合（Hybrid Bonding）將邏輯層與內(nèi)存層以 10 微米間距堆疊，這種設(shè)計(jì)極大地減少了信號(hào)延遲和功耗。從物理層面來(lái)看，3D 堆疊使得芯片內(nèi)部的各個(gè)組件之間的距離更近，信號(hào)傳輸路徑縮短，從而有效降低了信號(hào)延遲。在實(shí)際應(yīng)用中，當(dāng)芯片需要頻繁讀取內(nèi)存中的數(shù)據(jù)進(jìn)行計(jì)算時(shí)，較短的信號(hào)傳輸延遲可以讓數(shù)據(jù)更快地到達(dá)計(jì)算單元，提高計(jì)算效率。同時(shí)，由于減少了芯片間的數(shù)據(jù)搬運(yùn)，功耗也降低了 30% ，這在大規(guī)模數(shù)據(jù)中心部署中，能夠顯著降低能源消耗和運(yùn)營(yíng)成本。例如，在一個(gè)擁有大量 TPU V7 芯片的 AI 計(jì)算集群中，功耗的降低意味著可以減少散熱設(shè)備的投入和運(yùn)行成本，同時(shí)也更加符合綠色計(jì)算的理念。

新型計(jì)算核心 FlexCore 也是 TPU V7 架構(gòu)設(shè)計(jì)的一大亮點(diǎn)。每個(gè) FlexCore 包含 4096 個(gè) MAC（乘積累加單元），支持 FP32、FP16、BF16、FP8 混合精度計(jì)算。這種混合精度的支持，使得芯片能夠根據(jù)不同的計(jì)算任務(wù)需求，靈活選擇最合適的精度模式，在保證計(jì)算精度的同時(shí)，提高計(jì)算效率。比如在一些對(duì)精度要求不高的快速推理任務(wù)中，可以選擇較低精度的計(jì)算模式，加快計(jì)算速度；而在對(duì)精度要求較高的科學(xué)計(jì)算或復(fù)雜模型訓(xùn)練中，則可以采用高精度模式。FlexCore 還采用了三級(jí)緩存結(jié)構(gòu)（L1/L2/L3），L3 緩存容量達(dá) 64MB / 核心，這一設(shè)計(jì)有效減少了外部?jī)?nèi)存訪問。緩存就像是一個(gè)高速的數(shù)據(jù)暫存區(qū)，當(dāng)計(jì)算單元需要數(shù)據(jù)時(shí)，首先會(huì)在緩存中查找，如果能夠找到，就可以避免從外部?jī)?nèi)存中讀取數(shù)據(jù)，大大提高了數(shù)據(jù)訪問速度。此外，F(xiàn)lexCore 還集成了稀疏計(jì)算加速器，通過(guò)動(dòng)態(tài)稀疏化（Dynamic Sparsity）技術(shù)，在訓(xùn)練中自動(dòng)屏蔽 80% 零值數(shù)據(jù) ，進(jìn)一步提升了計(jì)算效率。在深度學(xué)習(xí)模型中，很多參數(shù)在計(jì)算過(guò)程中實(shí)際上是零值，這些零值數(shù)據(jù)的計(jì)算會(huì)浪費(fèi)計(jì)算資源和時(shí)間，動(dòng)態(tài)稀疏化技術(shù)能夠自動(dòng)識(shí)別并跳過(guò)這些零值數(shù)據(jù)的計(jì)算，使得芯片能夠?qū)⒂?jì)算資源集中在有效數(shù)據(jù)上，從而提高整體計(jì)算效率。

在芯片間通信方面，TPU V7 采用了光互聯(lián)（Optical Interconnect）技術(shù)，通過(guò)在芯片上直接集成激光器和光調(diào)制器，實(shí)現(xiàn)了硅光子集成，避免了傳統(tǒng)電纜延遲。同時(shí)，利用波分復(fù)用（WDM）技術(shù)，通過(guò)不同波長(zhǎng)光信號(hào)并行傳輸，單鏈路帶寬達(dá) 1.6TB/s ，大大提高了通信帶寬。這種光互聯(lián)技術(shù)使得芯片間通信延遲從第六代的 20 微秒降低到了 5 微秒，減少了 87.5%。在大規(guī)模分布式計(jì)算中，芯片間的通信效率至關(guān)重要，低延遲的通信能夠確保各個(gè)芯片之間的協(xié)同工作更加高效，避免因通信延遲導(dǎo)致的計(jì)算等待時(shí)間，從而提高整個(gè)集群的計(jì)算性能。例如，在訓(xùn)練超大規(guī)模的 AI 模型時(shí)，需要多個(gè) TPU V7 芯片協(xié)同工作，光互聯(lián)技術(shù)能夠使得各個(gè)芯片之間的數(shù)據(jù)傳輸更加迅速，實(shí)現(xiàn)高效的分布式訓(xùn)練。

Google TPU V7 強(qiáng)大的硬件性能，離不開與之緊密配合的軟件層面優(yōu)化，這些優(yōu)化措施就像是為高性能硬件這把利刃配上了精致的劍鞘，使其能夠發(fā)揮出最大的威力。

在編譯器方面，XLA（Accelerated Linear Algebra）編譯器得到了顯著改進(jìn)。XLA 編譯器專為 TPU 設(shè)計(jì)，能夠?qū)C(jī)器學(xué)習(xí)模型的計(jì)算圖進(jìn)行優(yōu)化，從而更高效地在 TPU 上運(yùn)行。它通過(guò)一系列的優(yōu)化技術(shù)，如常量折疊、循環(huán)不變代碼外提、死代碼消除等，減少了不必要的計(jì)算和內(nèi)存訪問，提高了計(jì)算效率。例如，在處理復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型時(shí)，XLA 編譯器可以對(duì)計(jì)算圖進(jìn)行分析，將一些在編譯時(shí)就可以確定結(jié)果的計(jì)算提前完成，避免在運(yùn)行時(shí)重復(fù)計(jì)算，從而節(jié)省了計(jì)算資源和時(shí)間。在編譯一個(gè)包含大量卷積層和全連接層的圖像識(shí)別模型時(shí)，XLA 編譯器能夠通過(guò)常量折疊優(yōu)化，將一些固定的卷積核參數(shù)在編譯階段就計(jì)算出結(jié)果，減少了運(yùn)行時(shí)的計(jì)算量，使得模型在 TPU V7 上的運(yùn)行速度提高了 30% 。

分布式訓(xùn)練框架也得到了升級(jí)。隨著 AI 模型規(guī)模的不斷增大，分布式訓(xùn)練變得越來(lái)越重要。TPU V7 的分布式訓(xùn)練框架針對(duì)大規(guī)模集群進(jìn)行了優(yōu)化，能夠?qū)崿F(xiàn)高效的多節(jié)點(diǎn)協(xié)同訓(xùn)練。它通過(guò)改進(jìn)的通信協(xié)議和同步機(jī)制，減少了節(jié)點(diǎn)之間的通信開銷和同步等待時(shí)間。在傳統(tǒng)的分布式訓(xùn)練中，節(jié)點(diǎn)之間在進(jìn)行參數(shù)更新時(shí)，往往需要花費(fèi)大量時(shí)間進(jìn)行通信和同步，導(dǎo)致訓(xùn)練效率低下。而 TPU V7 的分布式訓(xùn)練框架采用了異步更新和高效的通信壓縮技術(shù)，使得節(jié)點(diǎn)可以在本地進(jìn)行更多的計(jì)算，減少了與其他節(jié)點(diǎn)的通信頻率，同時(shí)通過(guò)壓縮通信數(shù)據(jù)的大小，進(jìn)一步提高了通信速度。在訓(xùn)練一個(gè)萬(wàn)億參數(shù)的語(yǔ)言模型時(shí)，使用 TPU V7 的分布式訓(xùn)練框架，與上一代相比，訓(xùn)練時(shí)間縮短了 40% ，大大提高了訓(xùn)練效率，使得大規(guī)模模型的訓(xùn)練變得更加可行和高效。

TPU V7 配備了增強(qiáng)版 SparseCore，這是一款專為處理高級(jí)排序和推薦工作負(fù)載中常見的超大嵌入而設(shè)計(jì)的數(shù)據(jù)流處理器。SparseCore 最初是為加速推薦模型而設(shè)計(jì)的，它利用嵌入技術(shù)對(duì)不同類別的用戶進(jìn)行推薦。在實(shí)際應(yīng)用中，推薦系統(tǒng)需要處理海量的用戶數(shù)據(jù)和物品數(shù)據(jù)，其中存在大量的稀疏矩陣，傳統(tǒng)的計(jì)算方式效率低下。SparseCore 通過(guò)硬件加速和優(yōu)化的算法，能夠快速處理這些稀疏矩陣，提高推薦系統(tǒng)的計(jì)算效率。例如，在一個(gè)擁有數(shù)億用戶和數(shù)千萬(wàn)商品的電商推薦系統(tǒng)中，使用 SparseCore 可以將推薦計(jì)算的時(shí)間從原來(lái)的幾分鐘縮短到幾秒鐘，大大提升了用戶體驗(yàn)和系統(tǒng)的響應(yīng)速度。此外，Ironwood 芯片中的第三代 SparseCore 還編碼了各種算法，用于加速金融和科學(xué)計(jì)算，雖然具體細(xì)節(jié)尚未透露，但這無(wú)疑為 TPU V7 在更多領(lǐng)域的應(yīng)用拓展了空間。

Pathways 是 Google DeepMind 開發(fā)的機(jī)器學(xué)習(xí)運(yùn)行時(shí)，它在 TPU V7 的跨芯片計(jì)算中發(fā)揮著關(guān)鍵作用。Pathways 能夠跨多個(gè) TPU 芯片實(shí)現(xiàn)高效的分布式計(jì)算，它提供了一種統(tǒng)一的編程模型和運(yùn)行時(shí)環(huán)境，使得開發(fā)者可以輕松地利用數(shù)萬(wàn)個(gè) TPU 芯片的綜合計(jì)算能力。在訓(xùn)練超大規(guī)模的 AI 模型時(shí)，需要多個(gè) TPU 芯片協(xié)同工作，Pathways 通過(guò)優(yōu)化的任務(wù)調(diào)度和資源分配算法，能夠?qū)⒂?jì)算任務(wù)合理地分配到各個(gè) TPU 芯片上，實(shí)現(xiàn)高效的并行計(jì)算。它還支持動(dòng)態(tài)資源分配，根據(jù)模型的計(jì)算需求和 TPU 芯片的負(fù)載情況，實(shí)時(shí)調(diào)整資源分配，確保每個(gè)芯片都能充分發(fā)揮其性能。在訓(xùn)練一個(gè)包含多個(gè) Transformer 模塊的大型語(yǔ)言模型時(shí)，Pathways 可以將不同的 Transformer 模塊分配到不同的 TPU 芯片上進(jìn)行計(jì)算，同時(shí)協(xié)調(diào)各個(gè)芯片之間的數(shù)據(jù)傳輸和同步，使得整個(gè)訓(xùn)練過(guò)程更加高效和穩(wěn)定，與傳統(tǒng)的分布式計(jì)算框架相比，使用 Pathways 能夠?qū)⒂?xùn)練效率提高 50% 。

在超大規(guī)模模型訓(xùn)練領(lǐng)域，Google TPU V7 展現(xiàn)出了卓越的性能和顯著的優(yōu)勢(shì) 。隨著 AI 技術(shù)的不斷發(fā)展，模型規(guī)模呈現(xiàn)出爆發(fā)式增長(zhǎng)，萬(wàn)億參數(shù)模型已逐漸成為研究和應(yīng)用的熱點(diǎn)。訓(xùn)練這些超大規(guī)模模型，對(duì)計(jì)算資源的需求堪稱巨大，不僅需要強(qiáng)大的算力來(lái)加速矩陣運(yùn)算和參數(shù)更新，還對(duì)內(nèi)存帶寬和存儲(chǔ)容量有著極高的要求，以確保能夠高效處理海量的數(shù)據(jù)。

TPU V7 的出現(xiàn)，為超大規(guī)模模型訓(xùn)練帶來(lái)了新的曙光。其高達(dá) 4614TFlops 的 FP8 峰值算力，能夠在單位時(shí)間內(nèi)完成更多的計(jì)算任務(wù)，大大縮短了模型訓(xùn)練的時(shí)間。例如，在訓(xùn)練一個(gè)萬(wàn)億參數(shù)的語(yǔ)言模型時(shí)，使用 TPU V7 集群進(jìn)行訓(xùn)練，與上一代 TPU 相比，訓(xùn)練時(shí)間可以縮短數(shù)周甚至數(shù)月。這是因?yàn)?TPU V7 強(qiáng)大的算力可以更快地完成模型中的矩陣乘法、卷積運(yùn)算等核心計(jì)算任務(wù)，使得參數(shù)更新的速度大幅提高，從而加速了整個(gè)訓(xùn)練過(guò)程。

除了算力，TPU V7 的大內(nèi)存和高帶寬也為超大規(guī)模模型訓(xùn)練提供了有力支持。192GB 的 HBM3E 顯存，使得模型可以一次性加載更多的參數(shù)和數(shù)據(jù)，減少了數(shù)據(jù)在內(nèi)存與存儲(chǔ)之間的頻繁交換，提高了訓(xùn)練效率。同時(shí)，7.2TBps 的單芯片內(nèi)存帶寬，確保了數(shù)據(jù)能夠快速地傳輸?shù)接?jì)算核心，避免了因數(shù)據(jù)傳輸瓶頸導(dǎo)致的計(jì)算等待時(shí)間。在訓(xùn)練圖像生成模型時(shí)，大量的圖像數(shù)據(jù)需要快速讀取和處理，TPU V7 的高內(nèi)存帶寬可以保證圖像數(shù)據(jù)能夠及時(shí)傳輸?shù)接?jì)算單元進(jìn)行運(yùn)算，使得模型能夠更快地學(xué)習(xí)到圖像的特征，提升訓(xùn)練效果。

從成本角度來(lái)看，TPU V7 也具有明顯的優(yōu)勢(shì)。由于其高效的計(jì)算性能和較低的能耗，使用 TPU V7 進(jìn)行超大規(guī)模模型訓(xùn)練，可以降低對(duì)計(jì)算資源的需求，從而減少硬件采購(gòu)成本和數(shù)據(jù)中心的運(yùn)營(yíng)成本。與傳統(tǒng)的 GPU 集群相比，TPU V7 集群在完成相同規(guī)模的模型訓(xùn)練任務(wù)時(shí)，所需的設(shè)備數(shù)量更少，能耗更低，這意味著可以節(jié)省大量的電力費(fèi)用和設(shè)備維護(hù)費(fèi)用。據(jù)估算，使用 TPU V7 進(jìn)行超大規(guī)模模型訓(xùn)練，成本可以降低 30% - 50% ，這對(duì)于大規(guī)模的 AI 研究和應(yīng)用來(lái)說(shuō)，是一筆相當(dāng)可觀的節(jié)省。

在 AI 推理場(chǎng)景中，Google TPU V7 針對(duì)混合專家模型（MoE）推理進(jìn)行了專門優(yōu)化，展現(xiàn)出了出色的性能。隨著 AI 應(yīng)用的不斷普及，推理任務(wù)在實(shí)際應(yīng)用中的需求日益增長(zhǎng)，對(duì)推理速度和成本的要求也越來(lái)越高。混合專家模型（MoE）作為一種新興的 AI 模型架構(gòu)，通過(guò)將多個(gè)專家模型組合在一起，能夠在處理復(fù)雜任務(wù)時(shí)表現(xiàn)出更高的性能和靈活性，但同時(shí)也對(duì)推理計(jì)算提出了更高的要求。

TPU V7 在執(zhí)行 MoE 推理時(shí)，通過(guò)硬件和軟件的協(xié)同優(yōu)化，實(shí)現(xiàn)了低延遲和低成本的推理過(guò)程。從硬件層面來(lái)看，TPU V7 的新型計(jì)算核心 FlexCore 以及光互聯(lián)技術(shù)，為 MoE 推理提供了強(qiáng)大的計(jì)算能力和高效的通信支持。FlexCore 的混合精度計(jì)算能力和稀疏計(jì)算加速器，能夠根據(jù) MoE 模型的特點(diǎn)，快速處理大量的稀疏矩陣運(yùn)算，提高推理效率。光互聯(lián)技術(shù)則大大降低了芯片間的通信延遲，使得多個(gè) TPU 芯片在協(xié)同處理 MoE 推理任務(wù)時(shí)，能夠?qū)崿F(xiàn)高效的數(shù)據(jù)傳輸和同步，減少了推理過(guò)程中的等待時(shí)間。

在軟件層面，TPU V7 的編譯器和分布式訓(xùn)練框架也進(jìn)行了針對(duì)性的優(yōu)化。XLA 編譯器針對(duì) MoE 模型的計(jì)算圖進(jìn)行了深度優(yōu)化，通過(guò)自動(dòng)并行化和混合精度自動(dòng)轉(zhuǎn)換等技術(shù)，提高了模型在 TPU 上的運(yùn)行效率。分布式訓(xùn)練框架則通過(guò)優(yōu)化任務(wù)調(diào)度和資源分配算法，實(shí)現(xiàn)了 MoE 模型在多個(gè) TPU 芯片上的高效并行推理。在處理一個(gè)包含多個(gè)專家模型的 MoE 語(yǔ)言模型推理任務(wù)時(shí)，TPU V7 的分布式訓(xùn)練框架可以將不同的專家模型分配到不同的 TPU 芯片上進(jìn)行計(jì)算，同時(shí)協(xié)調(diào)各個(gè)芯片之間的數(shù)據(jù)傳輸和同步，使得整個(gè)推理過(guò)程更加高效和穩(wěn)定，與傳統(tǒng)的推理框架相比，推理延遲降低了 50% 以上。

這些優(yōu)化措施使得 TPU V7 在 AI 推理場(chǎng)景中能夠顯著降低推理延遲，提高響應(yīng)速度。對(duì)于實(shí)時(shí)性要求較高的 AI 應(yīng)用，如智能客服、智能駕駛等，低延遲的推理至關(guān)重要。在智能客服系統(tǒng)中，使用 TPU V7 進(jìn)行推理，可以快速響應(yīng)用戶的問題，提供準(zhǔn)確的回答，提升用戶體驗(yàn)。TPU V7 的高效推理性能還能夠降低推理成本。通過(guò)提高計(jì)算效率和減少硬件資源的浪費(fèi)，TPU V7 在完成相同推理任務(wù)時(shí)，所需的計(jì)算資源更少，從而降低了硬件采購(gòu)成本和運(yùn)行成本。據(jù)統(tǒng)計(jì)，使用 TPU V7 進(jìn)行 MoE 推理，與傳統(tǒng)的推理方案相比，成本可以降低 40% 以上，這對(duì)于大規(guī)模部署 AI 推理應(yīng)用的企業(yè)來(lái)說(shuō)，具有重要的經(jīng)濟(jì)意義。

TPU的快速推出與逐步迭代，似乎證明了：

NVIDIA的GPU也許是第一，但絕不是唯一。

（素材來(lái)源于公開文獻(xiàn)和網(wǎng)絡(luò)，文章觀點(diǎn)僅供交流討論，不代表任何機(jī)構(gòu)或立場(chǎng)）

（來(lái)源：轉(zhuǎn)自黃大年茶思屋科技網(wǎng)站，作者：齊涵宇，謝謝~）

*免責(zé)聲明：本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn)，半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn)，不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持，如果有任何異議，歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4268期內(nèi)容，歡迎關(guān)注。

加星標(biāo)??第一時(shí)間看推送，小號(hào)防走丟

求推薦

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.