国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

談?wù)凪eta的芯片路線圖

0
分享至

公眾號(hào)記得加星標(biāo)??,第一時(shí)間看推送不會(huì)錯(cuò)過(guò)。

除了顯而易見(jiàn)的“功能越多越好”之外,很難預(yù)測(cè)五年后的人工智能計(jì)算引擎會(huì)是什么樣子。而且,當(dāng)人工智能模型的更新速度超過(guò)芯片開(kāi)發(fā)周期時(shí),任何大型模型構(gòu)建商以及任何大規(guī)模運(yùn)行人工智能推理的機(jī)構(gòu)都必須采取多產(chǎn)品、多來(lái)源、多供應(yīng)商的策略,以應(yīng)對(duì)未來(lái)人工智能計(jì)算引擎可能出現(xiàn)的任何延遲或所需功能缺失。

如果你瞇起眼睛仔細(xì)觀察 Meta Platforms,你會(huì)發(fā)現(xiàn)它的業(yè)務(wù)是在龐大的社交網(wǎng)絡(luò)上運(yùn)行排名和推薦引擎,這些社交網(wǎng)絡(luò)包含海量的用戶自定義內(nèi)容。這些排名和推薦應(yīng)用最初是由運(yùn)行在大量 CPU 上的算法集合構(gòu)成,最終通過(guò)運(yùn)行在 GPU 加速器上的機(jī)器學(xué)習(xí)算法進(jìn)行了增強(qiáng)——也就是所謂的深度學(xué)習(xí)推薦模型(DRLM)。

這些數(shù)字線性模型(DLRM)與谷歌、OpenAI 和 Anthropic 開(kāi)發(fā)的大型語(yǔ)言模型截然不同,它們所需的硬件也大相徑庭。DLRM 與語(yǔ)言模型(LLM)一樣,將數(shù)據(jù)轉(zhuǎn)換為向量,但它們創(chuàng)建的是一個(gè)巨大的多維向量空間,可以用來(lái)展示事物之間的關(guān)聯(lián)——例如,F(xiàn)acebook 上喜歡貓咪視頻的用戶與 Instagram 上新發(fā)布的貓咪視頻之間的關(guān)聯(lián)——而無(wú)需使用圖算法將它們直接連接起來(lái)。從這個(gè)意義上講,它是預(yù)測(cè)性的,而非確定性的,而這對(duì)于全球最大的廣告商之一來(lái)說(shuō),無(wú)疑是一項(xiàng)非常強(qiáng)大的功能。

問(wèn)題在于,要?jiǎng)?chuàng)建一個(gè)足夠大的內(nèi)存空間,供數(shù)十億用戶進(jìn)行數(shù)萬(wàn)億甚至數(shù)千萬(wàn)億次操作,這本身就是一項(xiàng)艱巨的任務(wù)。即使將現(xiàn)實(shí)簡(jiǎn)化為一堆浮點(diǎn)向量,以便建立關(guān)聯(lián)并推斷關(guān)系,其規(guī)模仍然會(huì)迅速增長(zhǎng)。Meta Platforms 決定將這項(xiàng)任務(wù)分成兩部分:配備高速 HBM 的 GPU 存儲(chǔ)嵌入表中“熱門(mén)”的相關(guān)部分,其余部分則交給配備大容量 DRAM 的 CPU 存儲(chǔ)。早在 2022 年 10 月,我就詳細(xì)分析了 Meta Platforms 設(shè)計(jì)的“Zion”、“ZionEX”和“Grand Teton”混合 CPU-GPU 系統(tǒng),指出 DLRM 與當(dāng)時(shí)的 LLM 一樣,都需要大量的參數(shù)和浮點(diǎn)運(yùn)算。我還詳細(xì)介紹了 Meta Platforms 如何創(chuàng)建了一個(gè)名為“Neo”的內(nèi)存管理程序,該程序不僅可以在節(jié)點(diǎn)內(nèi)的 CPU 和 GPU 內(nèi)存層次結(jié)構(gòu)中,而且還可以在機(jī)器集群中對(duì)參數(shù)和嵌入進(jìn)行分級(jí)。

顯而易見(jiàn),Meta Platforms 非常擅長(zhǎng)構(gòu)建運(yùn)行 R&R 訓(xùn)練和 R&R 推理的 DLRM 系統(tǒng)架構(gòu),但在計(jì)算引擎的選擇上卻完全沒(méi)有掌控權(quán)。從某種意義上說(shuō),配備強(qiáng)大高速 NVLink 端口、能夠與 Nvidia “Hopper” H100 GPU 實(shí)現(xiàn)內(nèi)存一致性共享的“Grace” CG100 Arm 服務(wù)器 CPU 的出現(xiàn),正是 Nvidia 為了讓 Meta Platforms 留在其陣營(yíng)而做出的努力。DLRM 比 LLM 需要更多的 CPU 內(nèi)存,而 LLM 并沒(méi)有龐大的嵌入表。

最大的問(wèn)題在于,隨著計(jì)算資源的增加,DLRM 的性能提升并不會(huì)隨之提升,這意味著規(guī)模更大的 DLRM 并不總是意味著更好的 DLRM。然而,從 2024 年開(kāi)始,Meta Platforms 提出了一種新的 DLRM 方法,稱為生成式推薦器。該方法基于一種名為分層序列轉(zhuǎn)換單元 (HSTU)的技術(shù),借鑒了語(yǔ)言學(xué)習(xí)模型 (LLM) 的一些技術(shù),并將用戶行為視為一種語(yǔ)言,利用生成技術(shù)來(lái)預(yù)測(cè)用戶的下一步行為,就像 LLM 可以根據(jù)人類知識(shí)庫(kù)預(yù)測(cè)序列中的下一個(gè)詞元一樣。Meta Platforms 已在其所有應(yīng)用平臺(tái)上使用的 DLRM v3 模型中嵌入了這種 HTSU 方法。

我認(rèn)為,正是這種讓 DLRM 更像 LLM 的洞察,以及 HSTU 技術(shù)及其生成式推薦引擎背后的算法和數(shù)學(xué)原理,推動(dòng)了 Meta Platforms 的 MTIA AI 計(jì)算引擎項(xiàng)目。自主研發(fā) AI 計(jì)算引擎的唯一目的,就是進(jìn)行協(xié)同設(shè)計(jì),從而大幅提升性價(jià)比。(相比于在特定并行計(jì)算任務(wù)上表現(xiàn)更出色,降低成本或許更容易,因此這絕非易事。)

Meta Platforms 近期公布了其 MTIA 路線圖,駁斥了此前關(guān)于其發(fā)展受阻的傳言,并印證了其芯片合作伙伴博通的觀點(diǎn)。在仔細(xì)思考了 MTIA 路線圖之后,我終于有了一些值得記錄的想法。我們對(duì)未來(lái)的 MTIA 設(shè)備知之甚少,但可以肯定的是:它們將采用 HTSU 技術(shù)進(jìn)行協(xié)同設(shè)計(jì),從而降低 R&R 訓(xùn)練和推理的成本。我們還認(rèn)為,HTSU 方法意味著未來(lái)的 MTIA 設(shè)備在 GenAI 推理方面可能表現(xiàn)出色,這將幫助 Meta Platforms 實(shí)現(xiàn)架構(gòu)上的雙重目標(biāo),同時(shí)支持其 DLRM 和 LLM 項(xiàng)目。

讓我們深入了解一下它的構(gòu)造

顯而易見(jiàn)的是,未來(lái)的MTIA芯片看起來(lái)更像是GPU和其他XPU,而不是之前于2023年5月發(fā)布的MTIA v1和于2023年4月發(fā)布的MTIA v2。我們已將它們重新命名為MTIA 100和MTIA 200,Meta Platforms表示,他們已在其數(shù)據(jù)中心部署了數(shù)十萬(wàn)個(gè)MTIA 100和MTIA 200芯片,以及此前未曾提及的MTIA 300芯片。

未來(lái)的 MTIA 以及目前已部署用于 R&R 訓(xùn)練工作負(fù)載的 MTIA 300 之所以需要具備類似 GPU 和 AI XPU 的性能,是因?yàn)樗鼈冋趶幕谙蛄壳度肟臻g中用戶和活動(dòng)相關(guān)性的嵌入查找和比較的應(yīng)用,轉(zhuǎn)向類似于 LLM 中詞元預(yù)測(cè)的用戶活動(dòng)預(yù)測(cè)。因此,與 DLRM v2 中的機(jī)器學(xué)習(xí)技術(shù)相比,在 DLRM v3 中使用 HTSU 方法當(dāng)然需要極快的內(nèi)存速度以及更強(qiáng)大的計(jì)算能力。

Meta Platforms 自去年下半年開(kāi)始部署 MTIA 300 計(jì)算引擎。以下是 Meta Platforms 提供的簡(jiǎn)化框圖,所有框圖并排顯示,方便您一目了然:


MTIA 300 采用多芯片設(shè)計(jì),這與 MTIA 100 和 MTIA 200 不同,后者是單芯片設(shè)計(jì),計(jì)算、I/O 和內(nèi)存控制器都集成在同一塊硅片上。MTIA 擁有一個(gè)處理單元網(wǎng)格,這些單元連接到我認(rèn)為出于經(jīng)濟(jì)原因而采用的 HBM3(而非 HBM3E)堆疊式內(nèi)存組。Meta Platforms 公布的容量和帶寬數(shù)據(jù)也讓我確信這一點(diǎn)。

總之,正如你所見(jiàn),MTIA 芯片包含一個(gè)搭載 HBM3 控制器的計(jì)算芯片,以及兩個(gè) I/O 芯片(分別位于芯片頂部和底部),用于連接外部網(wǎng)絡(luò)。值得注意的是,這兩個(gè) I/O 芯片共提供了 12 條 800 Gb/s RoCE 以太網(wǎng)通道,帶寬相當(dāng)可觀。

我照例制作了一個(gè)表格,將六種不同的MTIA計(jì)算引擎并排展示,以便我們比較過(guò)去和未來(lái)的發(fā)展。請(qǐng)看一看,我們?cè)賮?lái)討論:


與The Next Platform 的慣例一樣,所有以普通黑色文本顯示的都是真實(shí)數(shù)據(jù),所有以粗體紅色斜體文本顯示的都是我的估計(jì)。

MTIA 300 標(biāo)志著 Meta Platforms 從 INT8 處理轉(zhuǎn)向 FP8 處理,這意味著不再需要將數(shù)據(jù)從浮點(diǎn)格式轉(zhuǎn)換為整數(shù)。MTIA 300 上的張量單元性能顯著提升,但耗電量也增加了 8.9 倍。我們推測(cè),其每 8 位或 16 位性能單位的成本更高,但這也在意料之中,因?yàn)?MTIA 300 專注于 R&R 訓(xùn)練,而非像 MTIA 100 和 MTIA 20 那樣專注于 R&R 推理。MTIA 300 也為更強(qiáng)大的 MTIA 計(jì)算引擎奠定了基礎(chǔ)。

我們目前尚不清楚MTIA 300及其后續(xù)產(chǎn)品在向量運(yùn)算方面究竟表現(xiàn)如何,但正如我們深入分析其架構(gòu)后發(fā)現(xiàn)的那樣,每個(gè)處理單元都包含兩個(gè)RISC-V向量核心。或許Meta Platforms能夠?yàn)槲覀兘獯疬@個(gè)問(wèn)題?

可以看到,MTIA 400 將插槽中的計(jì)算芯片數(shù)量翻了一番,并增加了一條芯片間鏈路,連接到一個(gè) SoC,該 SoC 充當(dāng)主機(jī)處理器和 MTIA 處理單元之間的橋梁。鑒于Meta Platforms 是Arm 的新型 AGI CPU-1的聯(lián)合設(shè)計(jì)者及其首位客戶,我們推測(cè)該主機(jī)處理器就是 Arm 的新型 AGI CPU-1。目前尚不清楚該 SoC 的具體功能,但我們預(yù)計(jì)它會(huì)像某種 DPU 一樣,嵌入在 MTIA 的計(jì)算芯片和 I/O 芯片之間。MTIA 400 將插入由 AMD 和 Meta Platforms 聯(lián)合開(kāi)發(fā)的“Helios”開(kāi)放式機(jī)架寬型 v3 機(jī)架,最多可將 72 個(gè)這樣的設(shè)備連接到共享內(nèi)存域中。

Meta Platforms公司表示,MTIA 400芯片已在其實(shí)驗(yàn)室完成測(cè)試,并準(zhǔn)備在其數(shù)據(jù)中心進(jìn)行部署。這令其芯片供應(yīng)商博通公司(Broadcom)——或許也是其機(jī)架式系統(tǒng)構(gòu)建商——非常高興。


MTIA 450 是 MTIA 400 的快速升級(jí)版,我們認(rèn)為其主要改進(jìn)在于將 MTIA 400 使用的 HBM3E 內(nèi)存升級(jí)到了 HBM4 內(nèi)存。這使得器件的內(nèi)存帶寬翻倍,達(dá)到了相當(dāng)可觀的 18.4 TB/s,同時(shí) MX4 峰值吞吐量也提升了 1.75 倍。值得注意的是,與 MTIA 400 相比,MTIA 450 的 MX8 和 FP16 性能僅提升了 16.7%。我猜測(cè),由于某種原因,這部分額外的性能可能隱藏在 MTIA 400 和 MTIA 450 芯片中,并未完全發(fā)揮出來(lái),這或許與臺(tái)積電 (TSMC) 3 納米工藝的良率有關(guān)。這種“暗硅”設(shè)計(jì)讓我感到困擾,尤其是在 Meta Platforms 并沒(méi)有任何商業(yè)理由讓芯片的某些部分保持“暗”狀態(tài)的情況下,除非這樣做有助于提高良率。

MTIA 500 的具體設(shè)計(jì)比較復(fù)雜,但顯然它包含四個(gè)用于處理單元計(jì)算的芯片。我認(rèn)為,明年年底采用四芯片封裝(chiplet)是對(duì)四芯片計(jì)算復(fù)合體的一次預(yù)演,為即將到來(lái)的高數(shù)值孔徑(High NA)工藝轉(zhuǎn)型做準(zhǔn)備。高數(shù)值孔徑工藝雖然可以在芯片上增加更多晶體管,但光刻面積會(huì)減半。如果是我來(lái)做,我會(huì)利用現(xiàn)有的 EUV 工藝和 2 納米節(jié)點(diǎn)的芯片互連技術(shù),完善四芯片封裝的良率,然后為高數(shù)值孔徑工藝的轉(zhuǎn)型做好準(zhǔn)備。這一點(diǎn)尤其值得關(guān)注,因?yàn)楦〉男酒悸矢?,這也是 AMD 兩年前轉(zhuǎn)向八芯片 GPU 復(fù)合體的原因。最好將芯片封裝技術(shù)與高數(shù)值孔徑工藝的轉(zhuǎn)型分開(kāi)學(xué)習(xí)。


你會(huì)注意到MTIA 500將有384GB和512GB兩種堆疊式內(nèi)存版本,根據(jù)規(guī)格推測(cè),它們將采用HBM4E顯存。384GB版本很可能是為了提高良率——誰(shuí)會(huì)舍得扔掉一塊只有25%內(nèi)存是次品的MTIA 500呢?博通想賣掉它,而Meta Platforms想買。順便一提,我認(rèn)為出于同樣的原因,還會(huì)推出256GB版本。

我們粗略估算了一下博通公司為 Meta Platforms 提供的 MTIA 計(jì)算引擎成品的成本,以此說(shuō)明技術(shù)和經(jīng)濟(jì)效益的變化速度有多快。從 2023 年到 2027 年,Meta Platforms 的 MTIA 設(shè)備有效吞吐量將提升 293 倍(其中一半來(lái)自向 MX4 4 位數(shù)據(jù)格式的遷移),據(jù)我估計(jì),其單位推理吞吐量(以峰值浮點(diǎn)運(yùn)算次數(shù)衡量)的成本將下降 9.1 倍。

(來(lái)源:編譯自nextplatform)

*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4371內(nèi)容,歡迎關(guān)注。

加星標(biāo)??第一時(shí)間看推送

求推薦

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
雷軍將全程參與新一代小米SU7京滬續(xù)航直播:15小時(shí),“1265公里中間只充一次電”

雷軍將全程參與新一代小米SU7京滬續(xù)航直播:15小時(shí),“1265公里中間只充一次電”

鳳凰網(wǎng)科技
2026-04-16 13:47:07
Lululemon“避孕門(mén)”曝光!3億中產(chǎn)天塌了!

Lululemon“避孕門(mén)”曝光!3億中產(chǎn)天塌了!

廣告案例精選
2026-04-16 08:28:23
英媒:趙心童是打破克魯斯堡魔咒最佳人選,很快就能世界排名第一

英媒:趙心童是打破克魯斯堡魔咒最佳人選,很快就能世界排名第一

楊華評(píng)論
2026-04-16 01:20:06
新《重案六組》最大雷點(diǎn):不是張一山太瘦,是“季潔”變成了甜妹

新《重案六組》最大雷點(diǎn):不是張一山太瘦,是“季潔”變成了甜妹

喵喵娛樂(lè)團(tuán)
2026-04-16 14:47:02
俄圖-454高調(diào)登場(chǎng),中C929穩(wěn)步前行,天空之爭(zhēng)誰(shuí)將勝出?

俄圖-454高調(diào)登場(chǎng),中C929穩(wěn)步前行,天空之爭(zhēng)誰(shuí)將勝出?

歲暮的歸南山
2026-04-17 06:49:43
零涂層電飯煲降價(jià)42%:松下這次押對(duì)了什么

零涂層電飯煲降價(jià)42%:松下這次押對(duì)了什么

我是一個(gè)粉刷匠2
2026-04-16 15:15:17
缺德到這種程度,已經(jīng)沒(méi)有半點(diǎn)“人性”了

缺德到這種程度,已經(jīng)沒(méi)有半點(diǎn)“人性”了

胖胖說(shuō)他不胖
2026-04-17 09:25:19
安心!海港外援加布里埃爾手術(shù)成功,妻子社媒發(fā)文報(bào)平安

安心!海港外援加布里埃爾手術(shù)成功,妻子社媒發(fā)文報(bào)平安

懂球帝
2026-04-16 19:39:06
第6艘船出事,美軍艦攔截成功,難題已拋給中國(guó),俄政府準(zhǔn)備救場(chǎng)

第6艘船出事,美軍艦攔截成功,難題已拋給中國(guó),俄政府準(zhǔn)備救場(chǎng)

萬(wàn)物知識(shí)圈
2026-04-17 07:17:13
收拾完伊朗,下一個(gè)輪到中國(guó)?中方送出5個(gè)字,斷了特朗普的念想

收拾完伊朗,下一個(gè)輪到中國(guó)?中方送出5個(gè)字,斷了特朗普的念想

春之寞陌
2026-04-17 02:52:21
浙金中心事件最新通報(bào):39人被抓捕,涉案金額高達(dá)229億

浙金中心事件最新通報(bào):39人被抓捕,涉案金額高達(dá)229億

資管裕道人
2026-04-15 21:21:04
華為回歸,小米“撤退”

華為回歸,小米“撤退”

鈦媒體APP
2026-04-16 19:17:33
每吃一次,血管就堵一截?醫(yī)生:這5種水果是腦?!凹铀倨鳌?>
    </a>
        <h3>
      <a href=荊醫(yī)生科普
2026-04-02 17:35:43
梅西升級(jí)梅老板!成功收購(gòu)科內(nèi)利亞,曾培養(yǎng)阿爾巴,李昊老東家

梅西升級(jí)梅老板!成功收購(gòu)科內(nèi)利亞,曾培養(yǎng)阿爾巴,李昊老東家

奧拜爾
2026-04-16 23:28:16
韓媒:180°反轉(zhuǎn),樊振東“最后時(shí)刻”回歸幫助中國(guó)男乒衛(wèi)冕?

韓媒:180°反轉(zhuǎn),樊振東“最后時(shí)刻”回歸幫助中國(guó)男乒衛(wèi)冕?

順靜自然
2026-04-16 18:51:41
歐爾班敗選后,克宮發(fā)言人佩斯科夫:我們和歐爾班從來(lái)不是朋友

歐爾班敗選后,克宮發(fā)言人佩斯科夫:我們和歐爾班從來(lái)不是朋友

古史青云啊
2026-04-16 09:57:10
以媒:從媒體上得知與黎?;?以色列高官又驚又怒

以媒:從媒體上得知與黎停火 以色列高官又驚又怒

環(huán)球網(wǎng)資訊
2026-04-17 06:28:16
1898 年,譚嗣同就義,他永遠(yuǎn)不知,自己的后人有多讓人心疼

1898 年,譚嗣同就義,他永遠(yuǎn)不知,自己的后人有多讓人心疼

小燕聊劇
2026-04-14 19:53:58
伊朗的通信設(shè)備突然集體“叛變”?真相令人脊背發(fā)涼

伊朗的通信設(shè)備突然集體“叛變”?真相令人脊背發(fā)涼

菁菁子衿
2026-04-15 20:21:08
四川內(nèi)江市資中縣發(fā)生4.4級(jí)地震 震源深度7千米

四川內(nèi)江市資中縣發(fā)生4.4級(jí)地震 震源深度7千米

極目新聞
2026-04-17 06:54:07
2026-04-17 10:20:49
半導(dǎo)體行業(yè)觀察 incentive-icons
半導(dǎo)體行業(yè)觀察
專注觀察全球半導(dǎo)體行業(yè)資訊
13426文章數(shù) 34877關(guān)注度
往期回顧 全部

科技要聞

Anthropic推出Opus 4.7,坦言依不及Mythos

頭條要聞

小伙曾花80萬(wàn)開(kāi)店失敗被離婚:妻子覺(jué)得我很難翻身

頭條要聞

小伙曾花80萬(wàn)開(kāi)店失敗被離婚:妻子覺(jué)得我很難翻身

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂(lè)要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財(cái)經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰(shuí)的生意?

汽車要聞

空間大五個(gè)乘客都滿意?體驗(yàn)嵐圖泰山X8

態(tài)度原創(chuàng)

親子
手機(jī)
健康
旅游
家居

親子要聞

6款寶寶營(yíng)養(yǎng)肉餅合集??補(bǔ)鐵補(bǔ)鈣 鮮嫩多汁

手機(jī)要聞

影像升級(jí):消息稱iPhone 18 Pro可變光圈致動(dòng)器已啟動(dòng)量產(chǎn)

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

旅游要聞

濰坊昌邑:牡丹真國(guó)色 花開(kāi)一城春

家居要聞

智能舒適 簡(jiǎn)約風(fēng)尚

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版