十年磨一劍！谷歌 TPU v7 掀翻 AI 算力格局，Meta 投懷送抱、英偉達急聲表態(tài)|【經(jīng)緯低調(diào)分享】

2025-12-01 19:56:12　來源: 經(jīng)緯創(chuàng)投

北京舉報

分享至

2025年，谷歌第七代TPU芯片Ironwood橫空出世，不僅在性能上與英偉達旗艦產(chǎn)品正面抗衡，更憑借超大規(guī)模系統(tǒng)優(yōu)勢重塑AI基礎(chǔ)設(shè)施競爭格局。

這顆誕生于十年前的“自救芯片”，最初只是為解決谷歌數(shù)據(jù)中心算力與功耗危機而設(shè)，如今已成長為公司的“經(jīng)濟支柱”，甚至吸引Meta等巨頭計劃部署。

從2016年TPU v1支撐谷歌翻譯，到2021年v4助力PaLM 540B模型訓練，再到v7實現(xiàn)9216顆芯片集群的超大規(guī)模擴展，谷歌用全棧整合思路走出差異化道路。其獨特的環(huán)面拓撲與光路交換技術(shù)，讓推理成本較GPU系統(tǒng)低30%-40%，徹底打破“英偉達稅”的壟斷。

在AI競爭從訓練轉(zhuǎn)向推理的關(guān)鍵節(jié)點，谷歌TPU正以系統(tǒng)級降維打擊，改寫全球AI算力的游戲規(guī)則。未來，芯片市場的風云再起，誰能撐起新的大旗？以下，Enjoy：

來源丨騰訊科技（ID:qqtech）

文丨無忌

編輯丨蘇揚

股價“跌跌不休”，英偉達都不得不站出來表態(tài)，“我們領(lǐng)先了全行業(yè)一代”。

事情要從巴菲特“謝幕之作”說起——伯克希爾·哈撒韋公司首次建倉谷歌母公司Alphabet股票，隨后更勁爆的是市場又傳出英偉達大客戶Meta考慮2027年在其數(shù)據(jù)中心部署谷歌TPU，并于2026年通過谷歌云租用TPU算力。

英偉達在緊急聲明中，強調(diào)GPU在性能、通用性和可移植性方面“遠優(yōu)于”ASIC（專用集成電路），并重申自研TPU無法替代 GPU的靈活性。谷歌發(fā)言人也表示繼續(xù)和英偉達保持合作關(guān)系，并強調(diào)公司致力于同時支持TPU和英偉達GPU。

TPU，從一個10年前為了解決AI計算效率瓶頸的“救命項目”，如今已經(jīng)發(fā)展成為谷歌的“經(jīng)濟支柱”。

作為自研ASIC芯片的代表，TPU已經(jīng)具備動搖英偉達根基的潛力，只不過谷歌的邏輯不是和英偉達比單卡性能，而是在用一套完全不同的超大規(guī)模系統(tǒng)哲學，重新定義AI基礎(chǔ)設(shè)施的未來。

一切都要從10年前，TPU誕生的那一刻說起。

01

TPU的前世今生

TPU v1

谷歌在2015年啟動TPU項目，這并非出于炫技，更不是為了彰顯技術(shù)實力，而是被逼入了一個“不自研將難以支撐未來業(yè)務(wù)規(guī)模”的現(xiàn)實。

隨著深度學習在谷歌內(nèi)部的應(yīng)用不斷擴散，谷歌工程團隊當時意識到一個關(guān)鍵問題正在逼近——包括搜索、廣告等谷歌核心服務(wù)都涉及巨量用戶請求，如果全面采用深度學習模型，那么谷歌全球數(shù)據(jù)中心的功耗將暴漲至難以承受的程度，即使采購再多GPU也無法滿足需求，更不用說成本上的激增。

彼時GPU更適合訓練大規(guī)模神經(jīng)網(wǎng)絡(luò)，但其能效并非針對實時在線推理設(shè)計。

谷歌內(nèi)部甚至出現(xiàn)過預(yù)測：如果未來所有核心業(yè)務(wù)上線深度模型，全球數(shù)據(jù)中心的電力成本會增長十倍。內(nèi)部高層意識到，繼續(xù)依賴 CPU和GPU的現(xiàn)有路線不可持續(xù)。

因此，谷歌決定自研ASIC加速器，目標不是造一個“最強通用芯片”，而是造一個“可大量部署在數(shù)據(jù)中心、用于特定矩陣運算的高能效芯片”。

最終，TPU v1在2016年正式投入使用，用于支持谷歌翻譯以及部分搜索功能，證明了ASIC方案具備可行性。

2017年Transformer論文發(fā)表后，谷歌幾乎在同一時間意識到：這個新架構(gòu)的計算模式高度規(guī)則、矩陣密度極高、并行度驚人，簡直是為TPU量身定做的。與其讓外部硬件廠商慢慢跟進，不如自己把軟件框架、編譯器、芯片架構(gòu)、網(wǎng)絡(luò)拓撲、散熱系統(tǒng)全部握在手里，形成全棧閉環(huán)。

于是，TPU不再是一個孤立的芯片，而升級為谷歌AI基礎(chǔ)設(shè)施的底座：既要訓練出世界最強的模型，也要讓AI以最低成本滲透到公司每一條產(chǎn)品線。

從v2、v3開始，谷歌逐步開放TPU給谷歌云客戶，正式進入商業(yè)化階段。

雖然早期生態(tài)和兼容性仍遜于GPU，但谷歌用XLA編譯器、高效Pod架構(gòu)、液冷數(shù)據(jù)中心、軟硬件深度共設(shè)計，硬生生蹚出一條差異化道路。

2021年，TPU v4橫空出世，第一次把4096顆芯片組成一個超節(jié)點，靠自研的環(huán)形拓撲網(wǎng)絡(luò)（2D/3D torus）實現(xiàn)近乎無損的跨芯片通信。這套系統(tǒng)讓數(shù)千顆加速器像一顆“巨型芯片”一樣協(xié)同工作，直接把谷歌帶入超大規(guī)模AI時代，PaLM 540B模型正是在v4 Pod上訓練完成的。

谷歌用實際行動證明：只要集群規(guī)模夠大、互聯(lián)效率夠高，模型性能就會隨著計算量近乎線性增長，而TPU的網(wǎng)絡(luò)拓撲和調(diào)度系統(tǒng)，正是實現(xiàn)這一規(guī)律的最關(guān)鍵硬件支撐。

2023到2024年，TPU v5p成為轉(zhuǎn)折點。

它首次大規(guī)模進入谷歌廣告系統(tǒng)、搜索核心排序、YouTube推薦、地圖實時預(yù)測等賺錢產(chǎn)品線，性能較v4翻倍，同時推出彈性節(jié)點架構(gòu)，讓企業(yè)客戶可以按需擴展到近9000顆芯片的規(guī)模。

Meta、Anthropic等頭部模型公司開始認真評估并采購TPU v5p，這標志著TPU終于從“內(nèi)部黑科技”成長為“生態(tài)可選項”。

2024年發(fā)布的第六代TPU v6（代號Trillium）則徹底亮明態(tài)度：谷歌未來的主戰(zhàn)場不再是訓練，而是推理。推理成本正在成為全球AI公司最大的單項支出，v6從架構(gòu)到指令集全部圍繞推理負載重新設(shè)計，F(xiàn)P8吞吐暴漲、片上SRAM容量翻倍、KV Cache訪問模式深度優(yōu)化、芯片間帶寬大幅提升，能效比上一代提升67%。

谷歌公開表示，這一代TPU的目標是成為“推理時代最省錢的商業(yè)引擎”。

從2015年為了解決AI計算的效率瓶頸被迫自研，到2025年即將把TPU部署到客戶自有數(shù)據(jù)中心，谷歌用十年時間，把一個“不得不做的救命項目”，一步步打造成可能撼動英偉達霸權(quán)的戰(zhàn)略級武器。

TPU從來不是為了和誰比性能，而是為了讓AI真正跑得起、賺得到錢。這正是谷歌與眾不同的打法，也是它最可怕的地方。

02

從“實驗項目”到“數(shù)據(jù)中心命脈”

TPU v7，代號Ironwood

2025年，谷歌推出的第七代TPU（TPU v7，代號Ironwood）成為全球AI基礎(chǔ)設(shè)施領(lǐng)域最受關(guān)注的硬件產(chǎn)品。

這一代在架構(gòu)、規(guī)模、可靠性、網(wǎng)絡(luò)與軟件系統(tǒng)上的一次全面重構(gòu)。

Ironwood的誕生，正式宣告TPU從“追趕者時代”邁入“進攻時代”，也標志著谷歌將推理時代視為未來十年的決戰(zhàn)主戰(zhàn)場。

Ironwood之所以特殊，首先在于它是TPU歷史上第一款專用推理芯片。與此前以訓練為主的v5p和以能效為主的v6e不同，Ironwood從第一天起就鎖定超大規(guī)模在線推理這一終極場景，并在多項關(guān)鍵指標上首次與英偉達Blackwell系列實現(xiàn)正面交鋒。

單芯片層面，Ironwood的FP8稠密算力達到4.6 petaFLOPS，略高于Nvidia B200的4.5 petaFLOPS，已躋身全球旗艦加速器第一梯隊。內(nèi)存配置為192GB HBM3e，帶寬7.4 TB/s，與B200的192GB/8 TB/s僅一步之遙。芯片間通信帶寬9.6 Tbps，雖數(shù)字上不及Blackwell的14.4 Tbps，但谷歌走的是一條完全不同的系統(tǒng)級道路，單純數(shù)值對比已失去意義。

真正讓Ironwood成為里程碑的，是其超大規(guī)模擴展能力。

一個Ironwood Pod可集成9216顆芯片，構(gòu)成一個超節(jié)點，F(xiàn)P8峰值性能超過42.5 exaFLOPS。谷歌在技術(shù)文檔中指出，在特定FP8負載下，該Pod性能相當于最接近競品系統(tǒng)的118倍。這不是單芯片差距，而是系統(tǒng)架構(gòu)與拓撲設(shè)計的碾壓。

支撐這一規(guī)模的核心，是谷歌十年磨一劍的2D/3D環(huán)面拓撲結(jié)合光路交換（OCS）網(wǎng)絡(luò)。

與英偉達依賴NVLink+高階交換機構(gòu)建的NVL72（僅72顆GPU）不同，谷歌從根本上放棄了傳統(tǒng)交換機為中心的設(shè)計，轉(zhuǎn)而用三維環(huán)面拓撲結(jié)構(gòu)直接連接所有芯片，并通過OCS實現(xiàn)動態(tài)光路重構(gòu)。

OCS本質(zhì)上是一套“光版人工電話交換臺”，利用MEMS微鏡在毫秒級完成光信號物理切換，幾乎不引入額外延遲，更重要的是，當集群內(nèi)出現(xiàn)芯片故障時，OCS能瞬間繞開壞點，保持整個計算域不中斷。

得益于此，谷歌液冷Ironwood系統(tǒng)的年可用性達到99.999%，即全年停機時間不到六分鐘。這一數(shù)字在超大規(guī)模AI集群中堪稱恐怖，遠超業(yè)界基于GPU的訓練集群常見水平。

谷歌已將TPU集群從“實驗玩具”徹底升級為“數(shù)據(jù)中心命脈”。

在推理場景下，Ironwood展現(xiàn)出系統(tǒng)級的降維打擊能力。整個節(jié)點提供1.77 PB高帶寬HBM，所有芯片均可近乎等距訪問，這對KV緩存管理至關(guān)重要。推理時代最貴的不是算力，而是內(nèi)存帶寬和緩存命中率，Ironwood通過共享巨量高速內(nèi)存和極低通信開銷，大幅減少重復計算。

內(nèi)部實測顯示，同等負載下Ironwood的推理成本較GPU旗艦系統(tǒng)低30%-40%，極端場景下更高。

軟件層面同樣火力全開。MaxText框架全面支持最新訓練與推理技術(shù)，GKE拓撲感知調(diào)度可根據(jù)Pod內(nèi)實時狀態(tài)智能分配任務(wù)，推理網(wǎng)關(guān)支持前綴緩存感知路由。綜合優(yōu)化后，首Token延遲最高下降96%，整體推理成本再降30%。

Ironwood不僅推動Gemini系列繼續(xù)領(lǐng)跑，也直接撬動外部生態(tài)。

Anthropic宣布未來Claude系列的訓練與部署將使用多達一百萬顆TPU。即使擁有AWS Trainium等備選方案的玩家，也無法忽視Ironwood在超大規(guī)模推理上的代際優(yōu)勢。

03

谷歌、英偉達、亞馬遜，站在“三岔路口”

CNBC在對AI芯片領(lǐng)域三大玩家——谷歌、英偉達和亞馬遜——進行分析后指出，三者都在大規(guī)模投入研發(fā)，但它們追求的目標、商業(yè)模式、生態(tài)構(gòu)建方式、硬件哲學均有顯著不同。

這些差異深刻影響了芯片的形態(tài)、性能側(cè)重點、客戶采用路徑以及市場地位。

英偉達的路線始終圍繞GPU推進，而GPU的核心價值在于通用性。

GPU具備海量并行計算單元，能夠支持從深度學習到圖形渲染再到科學計算等多種工作負載。更重要的是CUDA生態(tài)幾乎鎖死了全行業(yè)的開發(fā)路徑，一旦模型或框架為CUDA優(yōu)化，就很難切換到其他芯片架構(gòu)。

英偉達通過軟硬件深度捆綁實現(xiàn)了類似蘋果生態(tài)在消費品市場的壟斷能力，但GPU的缺陷也十分明顯。

首先，GPU并非為推理優(yōu)化，它的設(shè)計初衷是高速并行計算，而不是以最低成本執(zhí)行重復推理指令。其次，GPU的靈活性意味著其硬件資源在實際推理場景中可能并非最優(yōu)配置，導致單位能耗的效率不如ASIC。最后，英偉達的定價權(quán)極高，云廠商往往需要以遠高于制造成本的價格購入GPU，形成今天廣為人知的“英偉達稅”。

谷歌的路線與英偉達不同。谷歌并不追求硬件通用性，而是追求深度學習特別是Transformer負載的極致效率。TPU的核心是脈動陣列，這是一種專門為矩陣乘法設(shè)計的架構(gòu)，使其在深度學習計算中特別高效。

谷歌不是希望TPU成為行業(yè)通用芯片，而是成為全球AI推理和訓練最具效能的專用芯片，進而讓谷歌整個AI系統(tǒng)做到性能領(lǐng)先、成本最低、部署最廣。

谷歌的核心優(yōu)勢在于全棧整合能力。他們不僅控制芯片，還控制模型、框架、編譯器、分布式訓練系統(tǒng)與數(shù)據(jù)中心基礎(chǔ)設(shè)施。這讓谷歌可以做出許多GPU無法實現(xiàn)的系統(tǒng)級優(yōu)化。

例如數(shù)據(jù)中心網(wǎng)絡(luò)拓撲完全為TPU超節(jié)點服務(wù)，軟件層面的調(diào)度系統(tǒng)能根據(jù)模型特性自動調(diào)整硬件資源的使用方式。這種“系統(tǒng)級一體化”是英偉達無法做到的，因為英偉達只能控制GPU，而不能控制客戶的數(shù)據(jù)中心。

亞馬遜則走了第三條路線，其芯片戰(zhàn)略出發(fā)點是降低AWS的基礎(chǔ)設(shè)施成本，同時減少對外部供應(yīng)商尤其是英偉達的依賴，因此他們開發(fā)了Trainium和Inferentia。

作為云廠商，AWS關(guān)注的是規(guī)模效應(yīng)與經(jīng)濟性，而非像谷歌那樣構(gòu)建一個統(tǒng)一的AI算力體系。

Trainium的設(shè)計更靈活，在不少情況下接近GPU的適配能力，但性能針對訓練和推理分別做了優(yōu)化。Inferentia則聚焦推理，適合高吞吐部署場景。亞馬遜通過芯片降低內(nèi)部成本并將節(jié)省部分反饋給客戶，從而提升AWS的競爭力。

總體而言，英偉達的路線是通用、生態(tài)驅(qū)動、軟件鎖定；谷歌的路線是專用、垂直整合、系統(tǒng)統(tǒng)一；亞馬遜的路線是成本優(yōu)化、云驅(qū)動、兼容商業(yè)需求。三者的路線差異導致了AI芯片市場中出現(xiàn)了截然不同的產(chǎn)品形式、商業(yè)策略與競爭格局。

04

利用TPU，告別昂貴的“CUDA稅”

谷歌之所以能夠在推理時代獲得顯著優(yōu)勢，關(guān)鍵并不僅僅在于TPU的硬件性能，更在于其全棧垂直整合策略。

這種策略讓谷歌避免了昂貴的“CUDA稅”，并在成本結(jié)構(gòu)上相對于OpenAI和其他依賴GPU的企業(yè)形成了巨大優(yōu)勢。

所謂CUDA稅，是指GPU芯片從生產(chǎn)到銷售過程中所疊加的高額利潤。

英偉達的GPU成本大約僅幾千美元，但賣給云廠商時價格往往動輒數(shù)萬美元不等，毛利率高達八成以上。全球所有訓練大模型的科技公司幾乎都要支付這項成本，并且無法擺脫。

OpenAI依賴英偉達GPU進行訓練和推理，且由于GPT系列模型參數(shù)規(guī)模巨大、推理量龐大，其總體算力開支遠超大多數(shù)企業(yè)的總營收。

英偉達的定價模式使這些公司無論怎么優(yōu)化模型，都難以實現(xiàn)規(guī)模化商業(yè)利潤。

谷歌的策略完全不同。谷歌采用自研TPU進行訓練和推理，整個供應(yīng)鏈由谷歌控制，從芯片設(shè)計到制造、從網(wǎng)絡(luò)方案到軟件棧再到數(shù)據(jù)中心布局，全部由谷歌內(nèi)部優(yōu)化。

由于不需要支付英偉達稅，谷歌的算力成本結(jié)構(gòu)天生比OpenAI更具優(yōu)勢。

谷歌不僅在內(nèi)部獲得低成本，還將這種成本優(yōu)勢傳遞給谷歌云的客戶。通過TPU服務(wù)，谷歌可以為客戶提供更低價格的推理能力，從而吸引大量模型公司和企業(yè)遷移到谷歌平臺。

根據(jù)科技網(wǎng)站venturebeat.com的報道，谷歌在算力成本上的結(jié)構(gòu)性優(yōu)勢遠遠優(yōu)于OpenAI。這意味著，谷歌提供同等推理服務(wù)時，其底層成本可能僅為對手的兩成。如此大的成本差異在推理時代具有決定性意義。

當企業(yè)的推理成本占到其支出的大部分時，遷移到成本最低的平臺就成為必然選擇。例如，一個企業(yè)每年可能在推理上消耗數(shù)千萬美元甚至上億美元，如果遷移到TPU可以節(jié)省三到五成成本，那么遷移幾乎是一種不可回避的商業(yè)決策。

谷歌還推出了TPU@Premises計劃，將TPU直接部署在企業(yè)數(shù)據(jù)中心，使客戶可以在本地以最低延遲使用推理能力。這再次強化了谷歌的成本優(yōu)勢，進一步擴大TPU的商業(yè)輻射范圍。

在OpenAI的商業(yè)模式中，其最重要的成本來自算力，而在谷歌的商業(yè)模式中，其算力成本是自研產(chǎn)品體系的一部分，可以通過谷歌云收回投資。谷歌在硬件、軟件、網(wǎng)絡(luò)和云基礎(chǔ)設(shè)施上的深度融合，使其具備真正意義上的垂直整合能力。

這種整合不是簡單節(jié)省成本，而是在推動整個生態(tài)的重新配置。

隨著越來越多企業(yè)意識到推理成本的重要性，谷歌的成本優(yōu)勢將不斷被放大，TPU的市場份額也將在推理時代獲得更快增長。TPU的垂直整合策略最終不僅是谷歌的競爭策略，更是對整個行業(yè)競爭秩序的重塑力量。

05

谷歌的“經(jīng)濟支柱”

回顧TPU的發(fā)展史，可以看到一個典型的“追趕到領(lǐng)先”的演變軌跡。

早期TPU在生態(tài)成熟度、兼容性和訓練性能方面落后于GPU，外界普遍認為谷歌在AI大模型時代被OpenA 超越。然而這種外部印象忽略了谷歌在基礎(chǔ)設(shè)施層面的深度積累，也忽略了谷歌在全棧系統(tǒng)上的獨特優(yōu)勢。

隨著Gemini系列模型逐代升級，谷歌逐步證明自己仍然是全球少數(shù)可以實現(xiàn)訓練穩(wěn)定性、推理成本控制和全棧性能優(yōu)化的公司，TPU在其中扮演了關(guān)鍵角色。

Gemini 2.0多模態(tài)模型的訓練和推理都在TPU上完成，而TPU的高效能使谷歌能夠以相對低成本訓練大規(guī)模模型，使模型迭代周期更短、成本更低。

隨著公司進入推理時代，TPU的作用從支持谷歌內(nèi)部模型轉(zhuǎn)向支持全球企業(yè)客戶。谷歌云的AI收入隨之大幅增加，云部門的財報顯示全年化收入達到440億美元，并成為谷歌整體業(yè)績增長的重要驅(qū)動力。

谷歌在云市場的競爭地位長期落后于AWS和Azure，但在AI時代出現(xiàn)了新的賽道，在AI基礎(chǔ)設(shè)施方面實現(xiàn)領(lǐng)先。這一領(lǐng)先并非偶然，而是TPU多年積累后的自然結(jié)果。

在企業(yè)AI采用加速的大背景下，越來越多公司需要推理成本低、穩(wěn)定性高、性能強的模型部署方案。GPU雖然性能強，但成本和供貨都存在限制，而TPU提供了更具經(jīng)濟性和穩(wěn)定性的替代方案。尤其在大規(guī)模在線推理場景中，TPU的優(yōu)勢尤為明顯。

更重要的是，谷歌并非只以芯片作為賣點，而是以整體解決方案吸引企業(yè)。

例如谷歌提供從模型訓練、模型監(jiān)控、向量數(shù)據(jù)庫、推理服務(wù)到數(shù)據(jù)安全的一體化體系，TPU在其中作為最底層基礎(chǔ)設(shè)施發(fā)揮作用。谷歌將自己塑造為企業(yè)采用AI的完整平臺，使其與AWS和Azure在差異化競爭中獲得新的優(yōu)勢。

未來幾年，AI行業(yè)的競爭將從模型維度轉(zhuǎn)向成本維度，從訓練能力轉(zhuǎn)向推理規(guī)模，從生態(tài)構(gòu)建轉(zhuǎn)向基礎(chǔ)設(shè)施整合。谷歌憑借 TPU、全球數(shù)據(jù)中心布局、代際升級節(jié)奏和全棧能力，有望在這一新周期中構(gòu)建比過去十年更牢固的競爭壁壘。

谷歌從追趕者轉(zhuǎn)向領(lǐng)先者的過程并非一蹴而就，而是在十年時間里持續(xù)投入基礎(chǔ)設(shè)施、堅持自研、不斷調(diào)整模型路線的結(jié)果。TPU是谷歌在AI時代構(gòu)建的最長久、最深層、最具戰(zhàn)略意義的資產(chǎn)，而這一資產(chǎn)正在成為推動谷歌市值增長、云業(yè)務(wù)崛起和AI商業(yè)模式重塑的主力引擎。

本文作者無忌，首發(fā)于公眾號“騰訊科技”（ID:qqtech），歡迎關(guān)注。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.