国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

英偉達(dá)新核彈,站在蘋果的肩膀上

0
分享至

2024GTC大會(huì)上,黃仁勛右手B200,左手H100,理所當(dāng)然地有了新人忘舊人: “我們需要更大的GPU,如果不能更大,就把更多GPU組合在一起,變成更大的虛擬GPU?!?/p>

英偉達(dá)公布的Blackwell架構(gòu)的B200 GPU,親手把網(wǎng)紅顯卡H100拍在了沙灘上。

按照黃仁勛的介紹,B200理論上的AI性能可達(dá)20PFLOPS,是H100的五倍。相比H100的800億晶體管規(guī)模,B200的晶體管規(guī)模高達(dá)2080億。

一般來說,芯片算力提升的最常用方法是采用先進(jìn)制程,用更高的密度在芯片里塞進(jìn)更多晶體管。如摩爾定律所說:

集成電路上可以容納的晶體管數(shù)目,大約每經(jīng)過18個(gè)月到24個(gè)月便會(huì)增加一倍。

比如采用7nm工藝的A100 GPU,芯片(Die)面積為826mm2,內(nèi)有542億晶體管;采用5nm(臺(tái)積電N4)工藝的H100,芯片面積縮小為814mm2,晶體管數(shù)量反而暴漲至800億。

然而,B200在晶體管數(shù)量提高近三倍的同時(shí),并沒有用更先進(jìn)的3nm工藝,而是采用了和H100一樣的5nm工藝。黃仁勛所說的“大”和“組合”,是字面意義上的:

從技術(shù)原理看,B200其實(shí)是把兩塊芯片“拼”成了一個(gè)大芯片。

在英偉達(dá)的PPT演示里,兩顆GPU從邊緣“無縫粘合”在一起,面積X2的同時(shí),算力翻倍。

1+1=2的方法看似簡單粗暴,背后卻是一場(chǎng)在物理學(xué)邊緣的沖鋒與冒險(xiǎn)。

1+1有時(shí)候不等于2

工廠提高生產(chǎn)力有兩種辦法:一是擴(kuò)建廠房,裝進(jìn)更多的生產(chǎn)線;二是升級(jí)生產(chǎn)線,在廠房面積不變的情況下,增加生產(chǎn)線數(shù)量。

芯片公司一直以來都在采用第二種方法:通過生產(chǎn)線創(chuàng)新(工藝制程),在有限的芯片面積里塞進(jìn)更多晶體管,避免擴(kuò)建廠房帶來的房租成本上漲。

但這種方式的局限性在于,生產(chǎn)線創(chuàng)新(工藝制程)對(duì)應(yīng)的研發(fā)成本越來越高,甚至有高過房租的趨勢(shì)。H100采用的5nm工藝,很可能就是GPU量產(chǎn)的極限制程,繼續(xù)下探到3nm,很可能成本上吃虧。

擴(kuò)建廠房的確是一個(gè)辦法,但放在芯片生產(chǎn)上,會(huì)遇到一個(gè)中國人很熟悉的問題:土地供應(yīng)有限。

每一顆芯片都是從12寸的硅晶圓(土地)上“切”下來的,那么芯片(廠房)面積越大,每塊晶圓能“切”出來的芯片就越少。

再考慮到良率和大面積芯片的散熱問題(施工事故),單個(gè)芯片成本會(huì)成倍提高。

由此衍生出了第三種思路:建一個(gè)一模一樣的廠房,讓兩個(gè)廠房同時(shí)生產(chǎn),既避開了成本問題,又提高了生產(chǎn)效率。

這種方法聽上去簡單,但實(shí)踐起來難于登天。

芯片在執(zhí)行計(jì)算任務(wù)時(shí)需要經(jīng)歷兩個(gè)階段:數(shù)據(jù)傳輸和計(jì)算,數(shù)據(jù)傳輸花費(fèi)時(shí)間過多,計(jì)算“空載”,就會(huì)造成算力的浪費(fèi)。就像兩間廠房需要一個(gè)工頭傳達(dá)指示,工頭在A廠房發(fā)表講話時(shí),B廠房的工人都在摸魚。

這就導(dǎo)致在一塊主板上封裝10顆芯片,性能非但不會(huì)提高10倍,反而很可能連兩倍都不到。

2011年,英偉達(dá)發(fā)布了GTX590顯卡,最大特點(diǎn)是在一個(gè)PCB板上裝了兩顆GPU芯片。

但在具體的游戲中,想同時(shí)調(diào)用兩顆GPU的算力,不僅需要專門的軟件支持,性能也只有單顆芯片的130%左右。

原因就在于,大量的算力被低效的數(shù)據(jù)傳輸浪費(fèi)了。

GTX590顯卡里有兩顆GPU芯片

為了解決產(chǎn)線工人趁著工頭不在消極怠工的問題,英偉達(dá)團(tuán)隊(duì)在2017年發(fā)表論文,提出了名為“可組合封裝GPU”的架構(gòu),核心在于將多顆GPU集成在同一個(gè)芯片封裝內(nèi)。

傳統(tǒng)的芯片封裝是“先封再拼”,即兩顆芯片封裝完畢,再用導(dǎo)線連接。英偉達(dá)的方案是“先拼再封”,先把兩顆芯片拼成一個(gè)大芯片,再封裝到一起。

把芯片(廠房)之間的物理距離縮減到0,工頭傳遞指示,兩邊的工人同時(shí)學(xué)習(xí)貫徹,降低數(shù)據(jù)傳輸時(shí)間,實(shí)現(xiàn)1+1=2。

幾個(gè)月后,老對(duì)手AMD表示論文誰不會(huì)寫,刊發(fā)論文展示了4顆GPU集成在同一封裝內(nèi)的設(shè)計(jì),宣稱其性能比當(dāng)時(shí)的最強(qiáng)GPU還要高45.5%,并且coming soon。

但無論是英偉達(dá)還是AMD,都沒能把這個(gè)方案真正“soon”出來。

第一個(gè)讓1+1=2的,是蘋果。

蘋果的超能力就是有錢

2022年,蘋果發(fā)布了M1 Ultra芯片,其最大特點(diǎn)是直接將兩顆M1 Max芯片“粘合”在一起,變成一張大芯片,業(yè)內(nèi)戲稱“膠水大法”。

1+1=2的意義正如蘋果在新聞稿中所說:


M1 Ultra 在工作時(shí)依然表現(xiàn)出一枚芯片的整體性,也會(huì)被所有軟件識(shí)別為一枚完整芯片,開發(fā)者無需重寫代碼就能直接運(yùn)用它的強(qiáng)大性能。這在史上從無先例。

M1 Ultra由兩顆一模一樣的M1 Max芯片拼接而成

蘋果之前,幾乎所有的“縫合”方案,都無法解決芯片在連接過程中產(chǎn)生的損耗,使得性能往往“1+1<2”。M1 Ultra的背后,是一個(gè)名為UltraFusion的“縫合技術(shù)”。

按照蘋果官方的說法,Ultra Fusion由蘋果與臺(tái)積電共同研發(fā)。但從經(jīng)驗(yàn)看,蘋果發(fā)揮的最大作用,是以“技術(shù)冠名費(fèi)”的方式,報(bào)銷了臺(tái)積電的研發(fā)開支。

兩顆芯片的縫合,核心是要解決芯片間的數(shù)據(jù)傳輸問題。

為了實(shí)現(xiàn)“無縫粘合”,蘋果用上了臺(tái)積電最昂貴、最先進(jìn)的封裝技術(shù)——第五代CoWoS-S。[2]

傳統(tǒng)的傳輸方式是將兩顆芯片封裝在一塊基板上,芯片之間的傳輸由引線解決。CoWoS方案在基板和芯片之間加了一層硅中介層,通過在硅中介層里布線,間接將兩顆小芯片連接起來,連接密度是現(xiàn)有技術(shù)的兩倍。

這個(gè)技術(shù)的關(guān)鍵就在于硅中介層,也是燒錢的根源。

硅中階層本質(zhì)上是一片硅晶圓,也就是“切”芯片的原材料。僅僅為了做連接,就要另加一層硅晶圓的費(fèi)用,這手筆恐怕只有蘋果做得出來。

后來,英偉達(dá)在H100上采用了更成熟的CoWoS,成本仍超過4000美元。蘋果作為最初的試錯(cuò)者,成本只會(huì)更高。

除了CoWoS,蘋果的錢還燒在了“縫合”技術(shù)上[2]。

芯片制造的本質(zhì),是在硅晶圓上刻畫復(fù)雜電路。但在實(shí)際制造過程中,電路不是直接刻在硅晶圓上的,而是先刻在一個(gè)掩膜版上,再通過光刻和刻蝕把電路“轉(zhuǎn)移”到硅晶圓上。

英偉達(dá)當(dāng)年遇到的問題是,GPU芯片本身面積就大,一旦兩顆GPU拼接,就會(huì)超過正常掩膜版的大小(H100的面積已經(jīng)接近臺(tái)積電5nm掩模版的極限),電路就無法被完整地刻畫。

蘋果提出的解決方案是,1個(gè)掩膜版不夠,咱直接上四個(gè)吧。

通過四個(gè)掩膜版“縫合”,將電路刻畫的面積增加到2500mm2,是英偉達(dá)同期GPU的3倍多(815mm2)。

在芯片制造中,很大一部分成本就來自掩膜版制作。

掩膜版生產(chǎn)需要Mask Writer(掩膜版寫入機(jī)),精密程度堪比光刻機(jī)。而且Mask Writer只在掩膜版制作時(shí)使用,每種芯片只做一次,難以攤薄成本。

除此之外,由于Ultra Fusion用到了大量新技術(shù),比如連接芯片的高縱橫比硅通孔(TSV)技術(shù),用于散熱的新型非凝膠型熱界面材料(TIM)等[2],臺(tái)積電都是拿著發(fā)票找蘋果報(bào)銷的。

M1 Ultra發(fā)布時(shí),業(yè)界都沒有準(zhǔn)確的成本推算。不是研究員水平不到位,實(shí)在是技術(shù)過于先進(jìn),算不出來。

高科技產(chǎn)業(yè)最關(guān)鍵的問題不是技術(shù)如何實(shí)現(xiàn),而是誰來掏錢把論文和實(shí)驗(yàn)室里的數(shù)據(jù)變成可以量產(chǎn)的產(chǎn)品。不知道看著M1 Ultra的拼接示意圖,會(huì)不會(huì)有久遠(yuǎn)的記憶攻擊黃仁勛。


技術(shù)狂人的商業(yè)冒險(xiǎn)

最早試圖解決的1+1<2問題的,既不是英偉達(dá)也不是蘋果,而是臺(tái)積電元老蔣尚義。

2009年,回歸臺(tái)積電的張忠謀請(qǐng)回已經(jīng)退休的蔣尚義。 在后者帶領(lǐng)下,臺(tái)積電以“后閘級(jí)”技術(shù)路線成功超越三星率先量產(chǎn)28nm工藝。 但在研發(fā)過程中,蔣尚義發(fā)現(xiàn)晶體管單位制造成本不降反升,制程升級(jí)提升性能的性價(jià)比開始降低。

拿著張忠謀批的1億美元預(yù)算和400多人的工程師團(tuán)隊(duì),蔣尚義帶隊(duì)開始了“超越摩爾計(jì)劃”。

傳統(tǒng)互聯(lián)技術(shù)下,傳輸速率已經(jīng)觸及天花板。蔣尚義開始嘗試一種新思路:

把兩顆芯片放到一起封裝,物理距離縮短了,傳輸速度自然提高。為了區(qū)別于傳統(tǒng)封裝,蔣尚義將其命名為“先進(jìn)封裝”。

2011年,臺(tái)積電得到FPGA大廠賽靈思訂單,憑借CoWoS以及共同開發(fā)的硅通孔(TSV)等技術(shù),成功將4個(gè)28nm FPGA芯片拼接在一起,推出了史上最大的FPGA芯片。

然而,大部分客戶對(duì)CoWoS興致寥寥,賽靈思的訂單杯水車薪。

不是臺(tái)積電技術(shù)不夠好,實(shí)在是先進(jìn)封裝太貴了。

老客戶高通的高管在與蔣尚義共進(jìn)午餐時(shí)直白表示,CoWoS技術(shù)很好,但“我只愿意為它花費(fèi)1美分/平方毫米”,而臺(tái)積電當(dāng)時(shí)的售價(jià)是7美分/平方毫米[3]。

據(jù)說英偉達(dá)也是臺(tái)積電CoWoS的第一批目標(biāo)客戶之一,因?yàn)閿?shù)據(jù)傳輸?shù)钠款i一直是困擾GPU計(jì)算的核心問題。但聽到臺(tái)積電的報(bào)價(jià)后,英偉達(dá)當(dāng)場(chǎng)表示,老技術(shù)還能再湊合幾年[3]。

另一方面,先進(jìn)制程還在穩(wěn)步推進(jìn),先進(jìn)封裝的理念顯得過于超前,畢竟領(lǐng)導(dǎo)還在開卡羅拉,你就別急著換寶馬了。

因此,先進(jìn)封裝團(tuán)隊(duì)在臺(tái)積電內(nèi)部的一度邊緣化,甚至被當(dāng)做老干部療養(yǎng)院。后來跳槽三星的梁孟松,就認(rèn)為自己被調(diào)往先進(jìn)封裝業(yè)務(wù)屬于“下放”。

隨后,臺(tái)積電開始給CoWoS做減法,掏出了替代方案“InFO”,將昂貴的硅中介層換成其他材料,犧牲了連接密度,但成本大幅下降。

緊接著,臺(tái)積電遇到了可以靠一己之力改變供應(yīng)商命運(yùn)的超級(jí)甲方:蘋果。

2013年前后,由于與三星在手機(jī)市場(chǎng)的競(jìng)爭(zhēng),蘋果開始將芯片代工交由臺(tái)積電。


憑借InFO方案,臺(tái)積電在16nm工藝的基礎(chǔ)上,制造出了比三星14nm性能更強(qiáng)的A10處理器,貢獻(xiàn)了歷代iPhone中第二輕薄的iPhone 7[5]。

有了蘋果的大單的,臺(tái)積電的先進(jìn)封裝業(yè)務(wù)迅速盤活,并在2022年拿出了震驚業(yè)界的M1 Ultra芯片。2024年開年,這個(gè)攻堅(jiān)十多年的“膠水大法”,又被用在了英偉達(dá)的新核彈B200上。英偉達(dá)順勢(shì)拿下冠名權(quán),將這項(xiàng)技術(shù)命名為“NV-HBI”。

先進(jìn)封裝方案依然昂貴,但對(duì)今天的英偉達(dá)來說,成本兩個(gè)字怎么寫,他們可能已經(jīng)忘了。

尾聲

除了CoWoS,另一個(gè)被生成式AI帶火的技術(shù)HBM,其探索同樣可以追溯到十年前。

CoWoS拿到賽靈思的第一筆訂單時(shí),蔣尚義大喜過望,但賽靈思的動(dòng)機(jī)卻讓他有些哭笑不得:把四個(gè)老芯片拼在一起,直接當(dāng)成新產(chǎn)品加價(jià)賣,就不用自己開發(fā)新產(chǎn)品了[3]。

在美國計(jì)算機(jī)歷史博物館的采訪中,蔣尚義回憶道[3]: “我開發(fā)技術(shù)的初衷是解決性能瓶頸問題,在我看來,我的創(chuàng)新并沒有被用在好的地方”。

科技革命很難推動(dòng)技術(shù)創(chuàng)新,反而是技術(shù)創(chuàng)新讓科技革命成為可能。創(chuàng)造歷史的人,永遠(yuǎn)無法預(yù)見自己在歷史進(jìn)程中的坐標(biāo)。

在我們不曾踏足的物理學(xué)的邊境,還有無數(shù)偉大的創(chuàng)新尚在不為人知的角落。

參考文章:

[1] NVIDIA Blackwell Architecture and B200/B100 Accelerators Announced: Going Bigger With Smaller Data,Anandtech

[2] 蘋果UltraFusion技術(shù),廈門云天半導(dǎo)體

[3] 蔣尚義萬字自述,披露臺(tái)積電的登頂之路,新芽

[4] 臺(tái)積電的先進(jìn)封裝是這樣煉成的,天下雜志

[5] 蘋果iPhone 7 A10處理器的新封裝在技術(shù)和商業(yè)上都產(chǎn)生了巨大的影響,Yole Development

[6] 蘋果M1 Ultra解密:業(yè)內(nèi)首個(gè)GPU裸片集成,如何實(shí)現(xiàn),集微網(wǎng)

[7] Apple Will Help TSMC to Be in the Leading Position in the Next Era,utmel

編輯:李墨天

視覺設(shè)計(jì):疏睿

責(zé)任編輯:李墨天

封面圖片來自ShotDeck

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
比亞迪下了盤大棋

比亞迪下了盤大棋

遠(yuǎn)川科技評(píng)論
2026-03-06 20:45:38
72小時(shí)內(nèi),王毅和六國通話,宣布一項(xiàng)重大決定,伊朗或?qū)⒂瓉硎锕?>
    </a>
        <h3>
      <a href=流史歲月
2026-03-07 12:30:06
炸穿七層防!伊朗反擊特拉維夫,以色列慌了,特朗普多管閑事

炸穿七層防!伊朗反擊特拉維夫,以色列慌了,特朗普多管閑事

林子說事
2026-03-07 15:51:27
汪小菲被喊話滾出麻六記,張?zhí)m不受影響去公司開會(huì),馬筱梅沉默了

汪小菲被喊話滾出麻六記,張?zhí)m不受影響去公司開會(huì),馬筱梅沉默了

笑飲孤鴻非
2026-03-07 03:41:13
速度滑冰世錦賽:寧忠?guī)r收獲短距離全能、男子1000米兩項(xiàng)季軍

速度滑冰世錦賽:寧忠?guī)r收獲短距離全能、男子1000米兩項(xiàng)季軍

懂球帝
2026-03-07 07:21:57
俄羅斯最嚴(yán)監(jiān)獄食人魔進(jìn)來乖成貓?廢除死刑27年,沒犯人活著離開

俄羅斯最嚴(yán)監(jiān)獄食人魔進(jìn)來乖成貓?廢除死刑27年,沒犯人活著離開

春風(fēng)秋雨
2026-03-06 19:15:06
時(shí)隔298天轟15+12+7!塔圖姆首秀登全美熱搜 美記:仿佛從未離開

時(shí)隔298天轟15+12+7!塔圖姆首秀登全美熱搜 美記:仿佛從未離開

顏小白的籃球夢(mèng)
2026-03-07 10:35:16
四架無人機(jī)突襲機(jī)場(chǎng),第十四國卷入戰(zhàn)爭(zhēng),伊朗強(qiáng)硬表態(tài)

四架無人機(jī)突襲機(jī)場(chǎng),第十四國卷入戰(zhàn)爭(zhēng),伊朗強(qiáng)硬表態(tài)

飄逸語人
2026-03-07 16:52:51
豪門皆贏球 皇馬2-1折射絕殺 利物浦3-1復(fù)仇晉級(jí) 拜仁4-1領(lǐng)先14分

豪門皆贏球 皇馬2-1折射絕殺 利物浦3-1復(fù)仇晉級(jí) 拜仁4-1領(lǐng)先14分

狍子歪解體壇
2026-03-07 06:17:00
癌癥“源頭”已發(fā)現(xiàn)?油炸食品沒上榜,第1名大家或天天都在吃!

癌癥“源頭”已發(fā)現(xiàn)?油炸食品沒上榜,第1名大家或天天都在吃!

垚垚分享健康
2026-03-03 13:22:06
伊朗多方最新表態(tài):決不投降 要戰(zhàn)斗到最后一顆子彈、最后一名士兵!

伊朗多方最新表態(tài):決不投降 要戰(zhàn)斗到最后一顆子彈、最后一名士兵!

閃電新聞
2026-03-07 13:15:57
710km續(xù)航與閃充加持 宋Ultra EV開啟預(yù)售

710km續(xù)航與閃充加持 宋Ultra EV開啟預(yù)售

阿芒娛樂說
2026-03-06 19:14:56
3-0,泰山隊(duì)完勝遼寧鐵人,謝文能克雷桑澤卡建功,遼寧多次中柱

3-0,泰山隊(duì)完勝遼寧鐵人,謝文能克雷桑澤卡建功,遼寧多次中柱

小金體壇大視野
2026-03-07 17:34:38
1332人遇難!中美罕見一致,內(nèi)塔尼亞胡或下臺(tái),特朗普開始找?guī)褪?>
    </a>
        <h3>
      <a href=軒逸阿II
2026-03-07 16:46:41
養(yǎng)老金公平性引熱議!四大群體的訴求,戳中制度痛點(diǎn),太扎心了

養(yǎng)老金公平性引熱議!四大群體的訴求,戳中制度痛點(diǎn),太扎心了

老特有話說
2026-03-06 15:46:13
中超-上海海港VS河南:開賽前就比蓉城少5分,還是奪冠熱門

中超-上海海港VS河南:開賽前就比蓉城少5分,還是奪冠熱門

體育世界
2026-03-07 16:55:49
全軍僅此一例:師長授中將軍銜,軍長和另外3名師長卻被授予少將

全軍僅此一例:師長授中將軍銜,軍長和另外3名師長卻被授予少將

史韻流轉(zhuǎn)
2026-03-07 09:20:08
1979年對(duì)越自衛(wèi)反擊戰(zhàn),許世友居功至偉,鄧公卻說:他太狠了

1979年對(duì)越自衛(wèi)反擊戰(zhàn),許世友居功至偉,鄧公卻說:他太狠了

歷史龍?jiān)w
2026-03-07 11:40:13
普京的意思已經(jīng)很清楚了,俄羅斯絕不可能出手救伊朗

普京的意思已經(jīng)很清楚了,俄羅斯絕不可能出手救伊朗

時(shí)光琉影8
2026-03-06 17:16:03
輝瑞體重管理新藥獲批,減重領(lǐng)域迎來最強(qiáng)競(jìng)爭(zhēng)者

輝瑞體重管理新藥獲批,減重領(lǐng)域迎來最強(qiáng)競(jìng)爭(zhēng)者

新民周刊
2026-03-06 15:15:22
2026-03-07 17:48:49
遠(yuǎn)川科技評(píng)論 incentive-icons
遠(yuǎn)川科技評(píng)論
用投資視角,扒巨頭秘史
377文章數(shù) 2281關(guān)注度
往期回顧 全部

數(shù)碼要聞

DDR5內(nèi)存套裝賣4000美元?電商平臺(tái)新蛋回應(yīng)稱定價(jià)系統(tǒng)出錯(cuò)

頭條要聞

中國貨船"鐵娘子"號(hào)通過霍爾木茲海峽 大量船舶仍滯留

頭條要聞

中國貨船"鐵娘子"號(hào)通過霍爾木茲海峽 大量船舶仍滯留

體育要聞

塔圖姆298天走完這段路 只用27分鐘征服這座城

娛樂要聞

周杰倫田馥甄的“JH戀” 被扒得底朝天

財(cái)經(jīng)要聞

針對(duì)"不敢休、不讓休"怪圈 國家出手了

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

時(shí)尚
數(shù)碼
健康
本地
公開課

這些才是適合普通人的穿搭!搭配腰帶、多穿牛仔褲,簡單舒適

數(shù)碼要聞

AI存儲(chǔ)需求進(jìn)一步增長,三星NAND閃存被曝Q2將繼續(xù)漲價(jià)

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版