国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

萬字精讀ISSCC:存儲(chǔ)、光電互聯(lián)、處理器和其他

0
分享至

公眾號(hào)記得加星標(biāo)??,第一時(shí)間看推送不會(huì)錯(cuò)過。

每年有三大半導(dǎo)體會(huì)議:IEDM 、VLSI和 ISSCC。過去幾年,我們對(duì)前兩個(gè)會(huì)議進(jìn)行了詳盡的報(bào)道。今天,我們將帶來 ISSCC 2026 的綜述,至此,我們將完成這三大會(huì)議的總結(jié)。

與IEDM和VLSI相比,ISSCC更側(cè)重于集成電路。幾乎每篇論文都包含電路圖,以及清晰的測(cè)量結(jié)果和數(shù)據(jù)。

往年,ISSCC 的研究成果對(duì)行業(yè)的影響力參差不齊。但今年情況有所不同,大量論文和演講都與市場(chǎng)趨勢(shì)直接相關(guān)。涵蓋的主題包括 HBM4、LPDDR6、GDDR7 和 NAND 的最新進(jìn)展,以及共封裝光學(xué)器件、先進(jìn)的芯片間接口,還有來自聯(lián)發(fā)科、AMD、英偉達(dá)和微軟等公司的先進(jìn)處理器。

本次綜述將涵蓋內(nèi)存、光網(wǎng)絡(luò)、高速電互連、處理器等主要類別。

存儲(chǔ)

今年ISSCC展會(huì)上,最吸引我們關(guān)注的一個(gè)主題是內(nèi)存,包括三星HBM4、三星和SK海力士LPDDR6以及SK海力士GDDR7。除了DRAM之外,基于邏輯的SRAM和MRAM也引起了我們的興趣。

三星 HBM4

在三大內(nèi)存廠商中,只有三星發(fā)表了關(guān)于HBM4的技術(shù)論文。在ISSCC大會(huì)之前,我們?cè)诩铀倨髋cHBM模型中就指出,三星的HBM4相比HBM3E有了顯著的改進(jìn)。ISSCC大會(huì)上公布的數(shù)據(jù)證實(shí)了我們的分析,三星的性能達(dá)到了同類最佳水平——幾個(gè)月前,我們也曾在模型更新報(bào)告中詳細(xì)介紹過這一進(jìn)展。

ISSCC大會(huì)上公布的技術(shù)細(xì)節(jié),結(jié)合我們收集到的行業(yè)信息,清晰地表明三星的HBM4在同級(jí)別產(chǎn)品中具有競(jìng)爭(zhēng)力。值得注意的是,它在滿足Rubin要求的引腳速度的同時(shí),還能將電壓保持在1V以下。雖然三星在可靠性和穩(wěn)定性方面仍然落后于SK海力士,但該公司在技術(shù)方面取得了顯著進(jìn)展,有望挑戰(zhàn)SK海力士在HBM領(lǐng)域的統(tǒng)治地位。他們基于1c架構(gòu)的HBM4搭配SF4邏輯芯片,似乎在引腳速度方面表現(xiàn)更佳。



三星展示了一款 36 GB、12 層高的 HBM4 堆疊,具有 2048 個(gè) IO 引腳和 3.3 TB/s 的帶寬,采用第六代 10nm 級(jí) (1c) DRAM 核心芯片與 SF4 邏輯基礎(chǔ)芯片相結(jié)合制成。

從 HBM3E 到 HBM4,最顯著的架構(gòu)變化在于核心 DRAM 芯片和基片芯片的工藝技術(shù)差異。HBM4 僅對(duì)核心芯片采用 DRAM 工藝節(jié)點(diǎn),而基片芯片則采用更先進(jìn)的邏輯節(jié)點(diǎn)制造,這與之前幾代 HBM 產(chǎn)品對(duì)核心芯片和基片芯片均采用相同工藝不同。

隨著人工智能工作負(fù)載對(duì)HBM帶寬和數(shù)據(jù)傳輸速率的需求不斷增長(zhǎng),架構(gòu)方面的關(guān)鍵挑戰(zhàn)也隨之而來。通過將基片工藝升級(jí)到SF4邏輯工藝,三星實(shí)現(xiàn)了更高的運(yùn)行速度和更低的功耗。工作電壓(VDDQ)降低了32%,從HBM3E的1.1V降至HBM4的0.75V。與采用DRAM工藝制造的基片相比,基于邏輯的基片由于晶體管尺寸更小、金屬層堆疊面積更大,因此能夠提供更高的晶體管密度、更小的器件尺寸和更高的面積效率。這使得三星的HBM4能夠達(dá)到甚至顯著超越JEDEC的HBM4標(biāo)準(zhǔn)。


結(jié)合自適應(yīng)體偏置(ABB:adaptive body-bias )控制技術(shù)(該技術(shù)可減輕堆疊核心芯片間的工藝偏差),翻倍的TSV數(shù)量進(jìn)一步提升了時(shí)序裕量。三星的論文指出,ABB技術(shù)和4倍增加的TSV數(shù)量共同作用,使其HBM4單引腳運(yùn)行速度高達(dá)13 Gb/s。

SF4 基片和 1c DRAM 核心芯片帶來的性能提升并非沒有代價(jià)。三星選擇SF4 作為邏輯基片,雖然三星晶圓代工廠可以為內(nèi)部基片使用提供折扣,但其成本仍然高于其他競(jìng)爭(zhēng)方案。SK 海力士在其 HBM4 基片中采用了臺(tái)積電的 N12 邏輯工藝,而美光則依賴于其自主研發(fā)的 CMOS 基片技術(shù)。即使考慮到垂直整合的成本優(yōu)勢(shì),這兩種方案的成本也低于接近領(lǐng)先的 SF4 工藝。

2025年,三星的1c前端制造工藝一直面臨挑戰(zhàn),尤其是在該公司跳過1b節(jié)點(diǎn),直接從基于1a的HBM3E過渡到1c世代的情況下。去年,1c節(jié)點(diǎn)的前端良率僅為50%左右,盡管近年來有所改善。較低的良率對(duì)其HBM4的利潤(rùn)率構(gòu)成風(fēng)險(xiǎn)。

從歷史數(shù)據(jù)來看,三星的HBM利潤(rùn)率一直低于其主要競(jìng)爭(zhēng)對(duì)手SK海力士,我們?cè)趦?nèi)存模型中對(duì)所有廠商的這一動(dòng)態(tài)進(jìn)行了全面建模。我們?cè)敿?xì)列出了各廠商在不同制程節(jié)點(diǎn)上的HBM、DDR和LPDDR的晶圓產(chǎn)量、良率、密度、成本等數(shù)據(jù)。

三星的策略似乎是積極采用更先進(jìn)的制程工藝來制造基礎(chǔ)芯片,以實(shí)現(xiàn)卓越的性能并超越競(jìng)爭(zhēng)對(duì)手,尤其是在NVIDIA等領(lǐng)先客戶對(duì)HBM的要求不斷提高的情況下。

HBM 中另一個(gè)需要解決的關(guān)鍵問題是 tCCDR,即跨越不同堆棧 ID (SID:stack ID) 發(fā)出的連續(xù) READ 命令之間的最小間隔。對(duì)于嚴(yán)重依賴跨多個(gè)通道并行內(nèi)存訪問的 AI 工作負(fù)載而言,tCCDR 直接影響可實(shí)現(xiàn)的內(nèi)存吞吐量。

在堆疊式DRAM架構(gòu)中,多個(gè)核心芯片垂直集成在一個(gè)基底芯片之上。這自然會(huì)在整個(gè)堆疊層中引入微小的延遲差異,其驅(qū)動(dòng)因素包括核心芯片和基底芯片之間的工藝偏差、TSV傳播差異以及局部溝道偏差。

堆疊高度和通道數(shù)(從 16 通道增加到 32 通道)的增加加劇了這一挑戰(zhàn)。隨著通道數(shù)和堆疊高度的增加,芯片間的差異會(huì)累積,導(dǎo)致通道和芯片間時(shí)序失配增大,從而影響可實(shí)現(xiàn)的 tCCDR 和整體 HBM 性能。


為了解決這個(gè)問題,三星引入了一種“單通道TSV RDQS時(shí)序自動(dòng)校準(zhǔn)方案”。上電后,系統(tǒng)使用一條與實(shí)際信號(hào)路徑時(shí)序行為相匹配的RDQS副本路徑來測(cè)量各通道間的延遲變化。時(shí)間數(shù)字轉(zhuǎn)換器(TDC)量化這些時(shí)序差異,然后使用每個(gè)通道的延遲補(bǔ)償電路(DCDL)進(jìn)行補(bǔ)償。

該校準(zhǔn)方案同時(shí)考慮了堆疊核心芯片之間的全局延遲差異和單個(gè)通道的局部延遲差異,從而實(shí)現(xiàn)了整個(gè)堆疊芯片時(shí)序的對(duì)齊。通過補(bǔ)償這些不匹配,三星顯著提高了有效時(shí)序裕量,并在滿足所需 tCCDR 約束的前提下,提升了最大可實(shí)現(xiàn)數(shù)據(jù)速率。僅此一項(xiàng)方案就將數(shù)據(jù)速率從 7.8 Gb/s 提升至 9.4 Gb/s。

一些精通內(nèi)存技術(shù)的讀者可能會(huì)問:芯片面積如何才能容納如此顯著增加的TSV數(shù)量?這就體現(xiàn)了1c工藝的重要性。與之前的1a工藝相比,1c工藝進(jìn)一步縮小了DRAM單元面積,從而釋放出更多的芯片空間,用于集成HBM4所需的更多TSV。



另一項(xiàng)由邏輯基片實(shí)現(xiàn)的關(guān)鍵創(chuàng)新是三星的可編程存儲(chǔ)器內(nèi)置自測(cè)試 (PMBIST:Programmable Memory Built-In Self-Test ) 架構(gòu)。PMBIST 使基礎(chǔ)die能夠生成完全可編程的存儲(chǔ)器測(cè)試模式,同時(shí)支持完整的 JEDEC 行和列命令集,這意味著測(cè)試引擎可以發(fā)出與實(shí)際系統(tǒng)相同的命令,并且可以在任何時(shí)鐘沿和全接口速度下執(zhí)行這些命令。實(shí)際上,這使得工程師能夠模擬復(fù)雜的真實(shí)世界存儲(chǔ)器訪問模式,并在實(shí)際運(yùn)行條件下對(duì) HBM 接口進(jìn)行壓力測(cè)試,而這對(duì)于傳統(tǒng)的固定模式測(cè)試引擎來說是難以實(shí)現(xiàn)的。

這種方法與HBM3E截然不同。如前所述,HBM3E的基礎(chǔ)die采用DRAM工藝制造,這給MBIST(Memory Built-In Self-Test)引擎帶來了嚴(yán)格的功耗和面積限制,并且由于DRAM本身在功耗和面積方面相對(duì)于邏輯芯片的劣勢(shì),測(cè)試只能局限于一小部分預(yù)定義的模式。通過將基礎(chǔ)芯片轉(zhuǎn)移到三星晶圓代工的SF4邏輯工藝,三星實(shí)現(xiàn)了完全可編程的測(cè)試框架,能夠運(yùn)行復(fù)雜的測(cè)試算法和靈活的訪問序列。

這使得HBM的調(diào)試更加穩(wěn)健,良率學(xué)習(xí)效果也更佳。工程師可以創(chuàng)建針對(duì)性的應(yīng)力模式來驗(yàn)證關(guān)鍵時(shí)序參數(shù),例如tCCDR和tCCDS,在制造早期識(shí)別極端情況下的故障,并加速芯片級(jí)(CoW)和系統(tǒng)級(jí)封裝(SiP)測(cè)試期間的特性分析。簡(jiǎn)而言之,隨著HBM堆疊結(jié)構(gòu)日益復(fù)雜且運(yùn)行速度不斷提高,PMBIST能夠提升測(cè)試覆蓋率、調(diào)試效率,并最終提高生產(chǎn)良率。


三星的HBM4顯存引腳速度也表現(xiàn)出色——在低于1V的內(nèi)核電壓(VDDC)下,其傳輸速率可達(dá)11Gb/s,在高電壓下更可達(dá)到13Gb/s。盡管三星的競(jìng)爭(zhēng)對(duì)手在可靠性和穩(wěn)定性方面更勝一籌,但我們尚未看到它們展現(xiàn)出與之匹敵的性能。

三星的實(shí)現(xiàn)方案顯著超越了官方 JEDEC HBM4 標(biāo)準(zhǔn) (JESD270-4) 的基準(zhǔn)規(guī)范,該標(biāo)準(zhǔn)規(guī)定每引腳最大數(shù)據(jù)傳輸速率為 6.4 Gb/s,帶寬約為 2 TB/s。三星的實(shí)現(xiàn)方案達(dá)到了 JEDEC 標(biāo)準(zhǔn)引腳速度的兩倍以上,每引腳可達(dá) 13 Gb/s,帶寬高達(dá) 3.3 TB/s。即使在 VDDC/VDDQ 分別為 1.05V 和 0.75V 的情況下,該器件仍能維持 11.8 Gb/s 的數(shù)據(jù)傳輸速率。

三星 LPDDR6

三星和SK海力士都展示了各自的LPDDR6芯片。我們將首先討論三星的芯片,稍后再討論SK海力士的芯片。


三星展示了其 LPDDR6 架構(gòu),并詳細(xì)介紹了所采用的節(jié)能技術(shù)。


LPDDR6 采用每芯片 2 個(gè)子通道的架構(gòu),每個(gè)子通道包含 16 個(gè)存儲(chǔ)體。它還具有兩種模式:普通模式和高效模式。在高效模式下,輔助子通道斷電,主子通道控制全部 32 個(gè)存儲(chǔ)體。但是,訪問輔助子通道中的數(shù)據(jù)會(huì)增加延遲。

雙子通道架構(gòu)也意味著外圍電路的數(shù)量翻倍,例如命令解碼器、串行化和控制電路。根據(jù)三星和SK海力士提供的芯片照片,這種架構(gòu)會(huì)使芯片總面積增加約5%,從而導(dǎo)致每片晶圓的總比特?cái)?shù)減少。


與采用 PAM3 信號(hào)的 GDDR7 不同,LPDDR6 將繼續(xù)使用 NRZ 編碼。然而,它并非采用標(biāo)準(zhǔn) NRZ 編碼,因?yàn)闃?biāo)準(zhǔn) NRZ 編碼會(huì)導(dǎo)致眼圖裕量不足。LPDDR6 采用寬 NRZ 編碼,每個(gè)子通道使用 12 個(gè)數(shù)據(jù) (DQ) 引腳,每次操作的突發(fā)長(zhǎng)度為 24。


如果你仔細(xì)計(jì)算過,12×24 等于 288,而不是 2 的冪。剩下的 32 位分為兩種用途:16 位用于元數(shù)據(jù)(例如 ECC),16 位用于數(shù)據(jù)總線反轉(zhuǎn) (DBI)。

DBI 是一種節(jié)能和信號(hào)完整性機(jī)制。在發(fā)送突發(fā)數(shù)據(jù)之前,控制器會(huì)檢查與前一次突發(fā)數(shù)據(jù)相比,是否有超過一半的比特會(huì)發(fā)生狀態(tài)翻轉(zhuǎn)。如果是,控制器會(huì)反轉(zhuǎn)所有比特并設(shè)置 DBI 標(biāo)志,以便接收器知道需要反轉(zhuǎn)這些比特才能獲得實(shí)際數(shù)據(jù)。這可以將同時(shí)切換的輸出數(shù)量限制在總線寬度的一半以內(nèi),從而降低功耗和電源噪聲。

要計(jì)算有效帶寬,必須考慮這些元數(shù)據(jù)和 DBI 位,公式如下:帶寬 = 數(shù)據(jù)速率 × 寬度 (24 位) × 數(shù)據(jù) (32 位) / 數(shù)據(jù)包 (36 位)。例如,12.8 Gb/s 時(shí),有效帶寬為 34.1 GB/s;14.4 Gb/s 時(shí),有效帶寬為 38.4 GB/s。


LPDDR6 具有兩個(gè)恒壓域,VDD2C 為 0.875V,VDD2D 為 1.0V。通過精心選擇哪些外設(shè)邏輯使用哪個(gè)電源域,讀取功耗降低了 27%,寫入功耗降低了 22%。



LPDDR 內(nèi)存主要用于空閑狀態(tài)下的低數(shù)據(jù)速率,例如 3.2 Gb/s 及以下。三星通過巧妙地利用電壓域,著重提升低數(shù)據(jù)速率下的功耗,從而降低待機(jī)和讀寫操作的功耗。


通過使用重分布層 (RDL),三星可以將相關(guān)電路在物理上更緊密地排列在一起。這縮短了關(guān)鍵延遲路徑,并降低了它們對(duì)電壓和溫度變化的敏感性。在 LPDDR6 的高頻應(yīng)用中,更嚴(yán)格的時(shí)序和更小的波動(dòng)至關(guān)重要。



三星的LPDDR6在0.97V電壓下可達(dá)到12.8 Gb/s的數(shù)據(jù)傳輸速率,在1.025V電壓下最高可達(dá)14.4 Gb/s。每個(gè)16Gb芯片的面積為44.5mm2,采用未知的10nm工藝制造,密度為0.360 Gb/mm2。這遠(yuǎn)低于LPDDR5X在1b工藝下的密度(0.447 Gb/mm2),僅略高于LPDDR5X在1a工藝下的密度(0.341 Gb/mm2)。雖然雙子通道架構(gòu)造成的面積損失是部分原因,但LPDDR6似乎還存在其他問題。根據(jù)上述內(nèi)存密度,我們推測(cè)這款LPDDR6原型芯片采用的是三星的1b工藝制造。

三星 SF2 LPDDR6 PHY


三星還發(fā)布了用于LPDDR6邏輯芯片接口的PHY芯片。這些PHY芯片采用三星最新的SF2工藝制造,支持高達(dá)14.4 Gb/s的傳輸速率。PHY芯片的海岸線長(zhǎng)度為2.32毫米,面積為0.695平方毫米,帶寬密度分別為16.6 Gb/s/mm和55.3 Gb/s/mm2。


PHY 還支持 LPDDR6 芯片實(shí)現(xiàn)的效率模式,該模式可降低 39% 的讀取功耗和 29% 的寫入功耗。

PHY 可以通過對(duì)非活動(dòng)輔助子通道的高速時(shí)鐘路徑進(jìn)行門控來增強(qiáng)效率模式。通過時(shí)鐘門控,讀寫功耗可降低近 50%,空閑功耗可降低 41%。

SK 海力士 1c LPDDR6


SK海力士發(fā)布了其首款1c DRAM產(chǎn)品,包括LPDDR6和GDDR7兩種封裝。其LPDDR6的數(shù)據(jù)傳輸速率最高可達(dá)14.4 Gb/s,比最快的LPDDR5X快35%,且功耗更低。

雖然 SK 海力士沒有說明 LPDDR6 芯片的面積或密度,但根據(jù)其 GDDR7 的相對(duì)密度增加,我們估計(jì)其位密度將達(dá)到 0.59 Gb/mm2。


SK海力士在其shmoo圖表中顯示,在1.025V電壓下,其芯片可達(dá)到14.4 Gb/s的數(shù)據(jù)傳輸速率,與三星相同。然而,在0.95V電壓下,SK海力士的芯片數(shù)據(jù)傳輸速率僅為10.9 Gb/s,而三星在0.97V電壓下則可達(dá)12.8 Gb/s。這表明,與三星相比,SK海力士在較低引腳速度下可能存在更高的能效問題,需要更高的電壓才能保證可靠性。



與三星的LPDDR6內(nèi)存類似,SK海力士的LPDDR6內(nèi)存也提供兩種模式:普通模式和節(jié)能模式。節(jié)能模式在單通道下以12.8 Gb/s的速率運(yùn)行,與普通模式相比,待機(jī)電流和運(yùn)行電流分別降低了12.7%和18.9%。

SK海力士1c GDDR7


雖然LPDDR6憑借其全新的內(nèi)存技術(shù)實(shí)現(xiàn)了代際飛躍,但SK海力士采用1c工藝生產(chǎn)的GDDR7內(nèi)存展現(xiàn)出更大的提升,在1.2V/1.2V電壓下最高頻率可達(dá)48Gb/s。即使在1.05V/0.9V電壓下,其頻率也能達(dá)到30.3Gb/s,高于RTX 5080顯卡中30Gb/s的顯存頻率。



該工藝實(shí)現(xiàn)的位密度為 0.412 Gb/mm2,而三星 1b 工藝的位密度為 0.309 Gb/mm2,三星較早的 1z 工藝的位密度為 0.192 Gb/mm2。


GDDR7 的位密度低于 LPDDR5X,通常約為后者的 70%。雖然它的數(shù)據(jù)傳輸速率更高,但這也帶來了更高的功耗和更大的面積。

GDDR7 密度較低是由于其外圍區(qū)域顯著增大,以實(shí)現(xiàn)更高的訪問速度。因此,實(shí)際的內(nèi)存陣列在芯片面積中所占的比例較小。GDDR7 中使用的 PAM3 和 QDR(每個(gè)時(shí)鐘周期 4 個(gè)符號(hào))信號(hào)需要更復(fù)雜的邏輯控制電路。

GDDR7 主要用于游戲 GPU 應(yīng)用,這類應(yīng)用需要比 HBM 更低的成本和容量,同時(shí)具備更高的內(nèi)存帶寬。NVIDIA 曾宣布將于 2025 年推出配備 128GB GDDR7 的 Rubin CPX 大型上下文 AI 處理器,但隨著 NVIDIA 將重心轉(zhuǎn)移到推出 Groq LPX 解決方案,該產(chǎn)品幾乎已從 2026 年的路線圖中消失。

三星 4F2 COP DRAM

在2025年VLSI大會(huì)上,SK海力士詳細(xì)介紹了其4F2 Peri-Under-Cell (PUC) DRAM 。在今年的ISSCC大會(huì)上,三星公開了其4F2 Cell-on-Peripheral (COP) DRAM的實(shí)現(xiàn)方案。PUC和COP是同一架構(gòu),只是名稱不同。


4F2 單元的架構(gòu)與 SK 海力士的相同,采用垂直溝道晶體管 (VCT),漏極上方有電容器。


三星提出的垂直架構(gòu)與SK海力士的架構(gòu)基本相同,都是將單元晶圓混合鍵合到外圍晶圓上。這種架構(gòu)允許單元晶圓采用DRAM節(jié)點(diǎn),而外圍晶圓則采用更先進(jìn)的邏輯節(jié)點(diǎn)。


三星指出,混合鍵合技術(shù)已應(yīng)用于COP閃存,并已應(yīng)用于NAND閃存。其他NAND閃存制造商也采用了這種技術(shù),但三星尚未將混合鍵合技術(shù)應(yīng)用于NAND閃存的大規(guī)模生產(chǎn),距離實(shí)現(xiàn)這一目標(biāo)仍需數(shù)年時(shí)間。

此外,DRAM的晶圓間互連數(shù)量比NAND高一個(gè)數(shù)量級(jí),并且需要更小的間距。為了減少晶圓間互連的數(shù)量,三星采用了兩種創(chuàng)新方法。



首先,他們將子詞線驅(qū)動(dòng)器 (SWD: sub-wordline drivers) 從每個(gè)單元格塊 128 個(gè)重新組織成 16 組,每組 8 個(gè)。這使得 SWD 所需的信號(hào)數(shù)量減少了 75%。

接下來,他們將列選擇信號(hào)分成偶數(shù)路徑和奇數(shù)路徑。這需要兩倍的多路復(fù)用器(MUX:multiplexers),但每個(gè)數(shù)據(jù)引腳的列選擇線(CSL: column select line )數(shù)量減半至32條。


通過混合鍵合技術(shù),可以將核心電路(即位線讀出放大器 (BLSA) 和 SWD)放置在單元陣列下方。其目標(biāo)是使核心電路與單元陣列占據(jù)相同的面積,從而提高整體密度。


三星采用了“三明治”結(jié)構(gòu),這使得他們能夠最大限度地提高核心電路的面積效率,并減少邊緣區(qū)域(不在任何單元下方)的面積。


核心電路所占面積從 17.0% 減少到僅 2.7%,這是一個(gè)顯著的改進(jìn),直接轉(zhuǎn)化為芯片整體尺寸的減小。

在傳統(tǒng)DRAM中,增加每條位線上的單元數(shù)量會(huì)導(dǎo)致芯片面積顯著增加,而對(duì)于VCT DRAM,由于核心電路都在單元下方,因此增加的面積幾乎可以忽略不計(jì)。


三星沒有提供該芯片的任何密度數(shù)據(jù),只表示它是一款采用 10nm DRAM 工藝的 16Gb 芯片。

三星指出,VCT DRAM存在浮體效應(yīng),會(huì)導(dǎo)致漏電加劇并降低數(shù)據(jù)保持時(shí)間。緩解這一效應(yīng)仍然是4F2技術(shù)普及應(yīng)用的關(guān)鍵挑戰(zhàn)。

盡管面臨這些挑戰(zhàn),我們?nèi)匀活A(yù)計(jì) 4F2 混合鍵合 DRAM 將在本十年后期,最早在 1d 之后的一代產(chǎn)品中問世。我們的內(nèi)存模型詳細(xì)跟蹤了每個(gè)節(jié)點(diǎn)的時(shí)序和產(chǎn)能爬坡。當(dāng)前的內(nèi)存定價(jià)格局在很大程度上激勵(lì)著廠商加快產(chǎn)能爬坡,并推出具有更高位密度的新節(jié)點(diǎn),以提高單晶圓廠的位輸出。另一方面,在許多應(yīng)用場(chǎng)景中,內(nèi)存的性能/價(jià)格比容量更為重要。

SanDisk/Kioxia BiCS10 NAND

SanDisk 和 Kioxia 展示了他們的 BiCS10 NAND 閃存,該閃存擁有 332 層和 3 個(gè)存儲(chǔ)層。這是目前報(bào)道的最高 NAND 閃存位密度,達(dá)到 37.6 Gb/mm2,超越了之前的冠軍SK 海力士的 321L V9 。


盡管SK海力士采用了類似的架構(gòu),擁有6個(gè)平面、3個(gè)層板和相近的層數(shù),但其比特密度卻低了30%。在QLC配置下,BiCS10的比特密度為37.6 Gb/mm2,而SK海力士的V9僅為28.8 Gb/mm2。在TLC配置下,二者的比特密度分別為29 Gb/mm2和21 Gb/mm2,這再次印證了SK海力士在該領(lǐng)域的落后地位。


此外,BiCS10采用6平面配置,I/O帶寬提升50%。6平面配置有兩種實(shí)現(xiàn)方式:1×6和2×3。SK海力士選擇采用2×3配置,而閃迪和鎧俠則選擇采用1×6配置。

1x6 配置的接地焊盤數(shù)量較少,面積減少了 2.1%。然而,較少的接地焊盤和垂直電源線限制了電源分配。


通過采用 CBA(Cell Bonded Array)架構(gòu),SanDisk 和 Kioxia 能夠定制 CMOS 晶圓工藝。通過在現(xiàn)有頂層金屬層的基礎(chǔ)上并聯(lián)添加另一層頂層金屬層,他們構(gòu)建了更強(qiáng)大的電源網(wǎng)絡(luò),并克服了電源分配方面的限制。


堆疊更多芯片是提高存儲(chǔ)密度的關(guān)鍵。然而,在多芯片架構(gòu)中,未選中芯片的空閑電流會(huì)接近已選中芯片的激活電流。SanDisk 采用了一種門控系統(tǒng),可以完全關(guān)閉未選中芯片的數(shù)據(jù)通路,從而將空閑電流降低了兩個(gè)數(shù)量級(jí)。

聯(lián)發(fā)科 xBIT Logic-based Bitcell



SRAM 微縮已死。盡管邏輯面積從 N5 到 N2 減少了 40%,但 8 晶體管高電流 SRAM 位單元的面積僅減少了 18%。6 晶體管高電流 (6T-HC) 位單元的情況更糟,面積僅減少了 2%。輔助電路的微縮效果更好,但這并非沒有代價(jià)。

眾所周知,N3E 的高密度位單元相比 N3B 有所退步,密度回落至 N5 的水平。本文中,聯(lián)發(fā)科闡述了高電流位單元的相關(guān)情況。N3E 的高電流位單元面積比 N5 增加了 1-2%,密度則從約 39.0 Mib/mm2 下降至約 38.5 Mib/mm2。需要注意的是,這些數(shù)據(jù)并未考慮輔助電路的開銷。



在現(xiàn)代邏輯節(jié)點(diǎn)中,6T 位單元包含 4 個(gè) NMOS 晶體管和 2 個(gè) PMOS 晶體管,而 8T 位單元?jiǎng)t分別包含 6 個(gè)和 2 個(gè) NMOS 晶體管。NMOS 晶體管和 PMOS 晶體管數(shù)量的不等需要特殊的布局規(guī)則,并且會(huì)降低布局效率。聯(lián)發(fā)科的新型位單元 xBIT 是一種包含 10 個(gè)晶體管的單元,它包含 4 個(gè) NMOS 晶體管和 6 個(gè) PMOS 晶體管,或者反過來。這兩種位單元可以組合成一個(gè)矩形塊,包含 20 個(gè)晶體管,可存儲(chǔ) 2 位數(shù)據(jù)。


與PDK的標(biāo)準(zhǔn)8T位單元相比,xBIT的密度提高了22%至63%,在字線寬度較小時(shí)提升最為顯著。功耗也大幅降低,平均讀寫功耗降低了30%以上,0.5V電壓下的漏電降低了29%。在0.9V電壓下,其性能與8T位單元相近;在0.5V電壓下,雖然比8T位單元慢16%,但速度仍然足夠快,不會(huì)成為處理器的瓶頸,而且電壓范圍足夠大,可以進(jìn)行電壓頻率縮放。


聯(lián)發(fā)科還展示了 xBIT 單元的 shmoo 圖表,從 0.35V 時(shí)的 100MHz 到 0.95V 時(shí)的 4GHz。

臺(tái)積電 N16 MRAM

臺(tái)積電在其 N16 節(jié)點(diǎn)上展示了更新的 STT-MRAM,這是基于他們?cè)?ISSCC 2023 上的先前工作。臺(tái)積電將 MRAM 定位為嵌入式非易失性存儲(chǔ)器 (eNVM),用于汽車、工業(yè)和邊緣應(yīng)用,這些應(yīng)用不需要最先進(jìn)的技術(shù),而是更注重可靠性。


MRAM 具有雙端口訪問功能,因此可以同時(shí)進(jìn)行讀取和寫入操作——這對(duì)于汽車領(lǐng)域的空中下載 (OTA) 更新至關(guān)重要,因?yàn)橄到y(tǒng)在寫入固件時(shí)不能停止讀取操作。


它采用跨模塊交錯(cuò)讀取的方式,每個(gè)模塊都有獨(dú)立的時(shí)鐘,在 200 MHz 頻率下,吞吐量可提升至 51.2 Gb/s。在硅芯片上,這款 84 Mb 宏芯片在 -40 °C 至 150 °C 的溫度范圍內(nèi),0.8V 電壓下可實(shí)現(xiàn) 7.5ns 的讀取訪問時(shí)間。


該架構(gòu)采用模塊化設(shè)計(jì),可配置為 16 MB、8 MB 和 2 MB 的模塊,這些模塊可以組合成 8 MB 到 128 MB 的宏。通過將 16 MB 的大容量模塊與少量 2 MB 和 8 MB 的小容量模塊組合,可以根據(jù)任何設(shè)計(jì)需求對(duì)容量進(jìn)行精細(xì)調(diào)整。例如,5 個(gè) 16 MB 模塊和 2 個(gè) 2 MB 模塊可以組成一個(gè) 84 MB 的宏。


如前所述,可靠性是嵌入式MRAM成敗的關(guān)鍵。在-40°C下經(jīng)過100萬次耐久性循環(huán)后,硬錯(cuò)誤率遠(yuǎn)低于0.01 ppm,完全在ECC糾錯(cuò)范圍內(nèi)。在150°C下,典型讀取電壓下的讀取干擾低于10?22 ppm,幾乎可以忽略不計(jì)。這款168 Mb測(cè)試芯片通過了回流焊,并在150°C下支持20年的數(shù)據(jù)保持,滿足嚴(yán)格的汽車行業(yè)要求。


與同一N16節(jié)點(diǎn)上的舊款MRAM相比,位單元尺寸縮小了25%,從0.033 μm2縮小到0.0249 μm2,宏密度提升至16.0 Mb/mm2等效容量。讀取速度從6 ns降至5.5 ns等效容量,雙端口訪問和交錯(cuò)讀取是全新的技術(shù)。

雖然三星晶圓代工今年也發(fā)布了 8LPP eMRAM 的相關(guān)成果,但臺(tái)積電的方案更有前景。它不僅滿足了所需的功能,性能也十分出色,而且采用的是成本更低的 N16 工藝。


臺(tái)積電已經(jīng)在計(jì)劃推出下一代“Flash-Plus”版本,其比特單元體積縮小25%,耐久性提高100倍。

光網(wǎng)絡(luò)

多家主要光學(xué)設(shè)備供應(yīng)商發(fā)表的論文探討了光互連技術(shù),該技術(shù)將在下一代 AI 加速器之間(包括數(shù)據(jù)中心內(nèi)部和數(shù)據(jù)中心之間)傳輸數(shù)據(jù)。

Nvidia DWDM

光信號(hào)格式的選擇將影響大規(guī)模共封裝光器件 (CPO) 的上市時(shí)間表。英偉達(dá)正在加緊生產(chǎn) COUPE 光引擎,該引擎支持每通道 200G PAM4,可在近期內(nèi)用于橫向擴(kuò)展交換。


然而,在ISSCC會(huì)議上,英偉達(dá)提出每個(gè)波長(zhǎng)使用32 Gb/s的傳輸速率,采用DWDM技術(shù)復(fù)用8個(gè)波長(zhǎng)。第9個(gè)波長(zhǎng)用于時(shí)鐘轉(zhuǎn)發(fā),速率減半,即16 Gb/s。

時(shí)鐘轉(zhuǎn)發(fā)意味著可以通過移除時(shí)鐘和數(shù)據(jù)恢復(fù) (CDR) 電路以及其他電路來簡(jiǎn)化 SerDes,從而提高能源效率和芯片海岸線效率。

3月初,就在OFC 2026之前,光計(jì)算互連MSA (OCI MSA)宣布成立,該協(xié)議將專注于200 Gb/s的雙向鏈路,發(fā)送和接收均使用4個(gè)波長(zhǎng)的50G NRZ,這些波長(zhǎng)將在同一根光纖上雙向傳輸。我好像聽到有人提到OCS?


有趣的是,OCI MSA 沒有使用額外的波長(zhǎng)進(jìn)行時(shí)鐘轉(zhuǎn)發(fā),看來將所有波長(zhǎng)保留用于實(shí)際數(shù)據(jù)傳輸才是首要任務(wù)。

英偉達(dá)已發(fā)表的關(guān)于縱向擴(kuò)展光網(wǎng)絡(luò)(CPO)的大部分研究都集中在密集波分復(fù)用(DWDM)技術(shù)上,但如今的CPO光引擎卻面向200G PAM4動(dòng)態(tài)范圍光網(wǎng)絡(luò)(DR Optics),后者更適用于橫向擴(kuò)展網(wǎng)絡(luò)。OCI MSA以DWDM為核心的縱向擴(kuò)展光網(wǎng)絡(luò)方案解決了這一明顯的矛盾,因?yàn)楝F(xiàn)在很明顯,英偉達(dá)和其他廠商將以DWDM為縱向擴(kuò)展核心,以動(dòng)態(tài)范圍光網(wǎng)絡(luò)為橫向擴(kuò)展核心。

OCI MSA 還展示了不同的實(shí)現(xiàn)方案,包括板載光模塊 (OBO)、通過 ASIC 封裝基板集成的 CPO 版本,以及光引擎直接集成在中介層上的版本。中間圖 (b) 所示的實(shí)現(xiàn)方案將在未來幾年內(nèi)成為 CPO 橫向擴(kuò)展和縱向擴(kuò)展應(yīng)用中最常用的方案,但它仍然需要某種形式的串行鏈路來穿過 ASIC 基板,并且仍然需要在兩端使用某種形式的 SerDes。例如,UCIe-S 可以用作此類傳輸?shù)膮f(xié)議。


現(xiàn)CPO的“最終目標(biāo)”在于將光引擎集成到中介層本身,并通過并行化的芯片間(D2D)連接與ASIC連接,如上圖(c)所示。這將顯著提高海岸線帶寬密度,實(shí)現(xiàn)更高的基數(shù),并提升能效。因此,這種實(shí)現(xiàn)方式能夠以其他實(shí)現(xiàn)方式無法企及的方式釋放CPO的優(yōu)勢(shì),但實(shí)現(xiàn)這一目標(biāo)仍需數(shù)年時(shí)間,并且需要先進(jìn)封裝技術(shù)的進(jìn)一步發(fā)展。

Marvell Coherent-Lite 收發(fā)器


Marvell公司推出了一款適用于輕型相干通信應(yīng)用的800G收發(fā)器。傳統(tǒng)收發(fā)器的傳輸距離有限,通常不足10公里。相干收發(fā)器雖然傳輸距離更遠(yuǎn),但結(jié)構(gòu)復(fù)雜、功耗更高、成本也更高。Marvell的輕型相干收發(fā)器在功耗、成本和傳輸距離之間尋求平衡,非常適合鏈路跨度在幾十公里以內(nèi)的大型數(shù)據(jù)中心園區(qū)。


相干收發(fā)器主要使用C波段波長(zhǎng),因?yàn)槠渌p低。然而,相干傳輸所應(yīng)用的長(zhǎng)距離鏈路通常具有非常高的色散,需要大量的數(shù)字信號(hào)處理(DSP)。對(duì)于建筑物間距僅為幾十公里的數(shù)據(jù)中心園區(qū)而言,傳統(tǒng)相干光器件的遠(yuǎn)距離傳輸能力往往過剩。

Coherent-Lite 收發(fā)器則使用 O 波段波長(zhǎng),這種波長(zhǎng)在數(shù)據(jù)中心園區(qū)相對(duì)較短的距離內(nèi)色散接近于零。這可以最大限度地減少 DSP 處理,從而節(jié)省功耗并降低延遲。


Coherent-lite 收發(fā)器是一個(gè)基于 DSP 的可插拔模塊,由兩個(gè) 400G 通道組成。每個(gè) 400G 通道運(yùn)行雙極化 QAM,并由兩個(gè)并行的調(diào)制流 X 和 Y 組成。


本次演示的關(guān)鍵在于重點(diǎn)介紹針對(duì)校園應(yīng)用優(yōu)化的其他信道帶寬擴(kuò)展方法。

采用高階調(diào)制結(jié)合X軸和Y軸雙極化技術(shù),可實(shí)現(xiàn)400G信道帶寬。如上所示,每個(gè)信道包含8比特,總共32個(gè)星座點(diǎn)。這8比特乘以62.5GBd的信號(hào)速率,等于約400G的總帶寬。

這種調(diào)制方案對(duì)于業(yè)界來說并非完全是新的,但現(xiàn)在它正被引入數(shù)據(jù)中心園區(qū)環(huán)境,用于較短的鏈路。


Marvell 的方法顯著降低了功耗,在不考慮硅光子學(xué)的情況下,功耗僅為 3.72 pJ/b,僅為其他成熟相干收發(fā)器的一半。他們的測(cè)量是在 40 公里的光纖長(zhǎng)度上進(jìn)行的,延遲小于 300 ns。

博通 6.4T 光學(xué)引擎


博通展示了其6.4T MZM光引擎(OE)的最新進(jìn)展,該光引擎采用PAM4調(diào)制,包含64條~100G通道。這些光引擎在Tomahawk 5 51.2T CPO系統(tǒng)中進(jìn)行了測(cè)試。一個(gè)CPO封裝包含八個(gè)6.4T光引擎,每個(gè)光引擎都包含一個(gè)光集成電路(PIC)和一個(gè)電子集成電路(EIC),采用臺(tái)積電N7工藝制造。


英偉達(dá)采用 COUPE 封裝技術(shù),而博通則為這款 OE 產(chǎn)品采用扇出型晶圓級(jí)封裝 (FWAP)。博通未來將轉(zhuǎn)向 COUPE 封裝技術(shù),但像這款 OE 這樣的老一代產(chǎn)品目前仍使用其他供應(yīng)鏈合作伙伴。以下是他們演示中取得的令人鼓舞的結(jié)果:


高速電氣互連

隨著多芯片設(shè)計(jì)成為主流,芯片間互連成為關(guān)鍵瓶頸。各大晶圓代工廠和芯片設(shè)計(jì)公司紛紛提出各種方案,旨在通過有機(jī)襯底和先進(jìn)封裝技術(shù)提升帶寬密度和能效。

英特爾 UCIe-S


英特爾發(fā)布了其兼容 UCIe-S 的芯片間 (D2D) 接口。該接口采用 UCIe-S 協(xié)議,單通道傳輸速率最高可達(dá) 48 Gb/s(16 通道),而采用定制協(xié)議時(shí),單通道傳輸速率最高可達(dá) 56 Gb/s。它采用標(biāo)準(zhǔn)有機(jī)封裝,傳輸距離最遠(yuǎn)可達(dá) 30 毫米。值得一提的是,該接口采用英特爾的 22 納米工藝制造。


在2025年VLSI大會(huì)上,Cadence展示了其基于N3E工藝的UCIe-S芯片間互連技術(shù)。盡管制程工藝處于劣勢(shì),英特爾在數(shù)據(jù)速率、通道長(zhǎng)度和海岸線帶寬方面仍然超越了Cadence的互連技術(shù),僅在能效方面略遜一籌。


英特爾展示的互連技術(shù)很可能是其Diamond Rapids Xeon CPU未來將采用的互連技術(shù)的原型。與這款22nm測(cè)試芯片相比,采用英特爾3工藝設(shè)計(jì)的互連技術(shù)效率應(yīng)該會(huì)更高,并有望取代Granite Rapids芯片上采用的EMIB等先進(jìn)封裝技術(shù)。Diamond Rapids由兩顆IMH芯片和四顆CBB芯片組成。由于每顆CBB芯片與兩顆IMH芯片之間都存在較長(zhǎng)的走線,我們認(rèn)為這種互連方式是連接芯片的理想選擇,無需使用EMIB,即可在標(biāo)準(zhǔn)封裝基板上實(shí)現(xiàn)芯片間的無縫連接。

臺(tái)積電有源LSI


臺(tái)積電先進(jìn)封裝事業(yè)部展示了其有源局部硅互連(aLSI)解決方案。與標(biāo)準(zhǔn)的CoWoS-L或EMIB相比,aLSI能夠提升信號(hào)完整性,并降低頂層芯片上PHY和SerDes的復(fù)雜性。


臺(tái)積電展示的器件采用了一款32 Gb/s的類UCIe收發(fā)器。由于大規(guī)模集成電路(aLSI)技術(shù)提高了信號(hào)完整性,收發(fā)器的面積得以縮小,凸點(diǎn)間距也從45 μm減小到38.8 μm。更小的間距以及曼哈頓網(wǎng)格的引入,使得物理層(PHY)深度從1043 μm減小到850 μm,節(jié)省的空間可用于計(jì)算、存儲(chǔ)或I/O,或進(jìn)一步縮小芯片尺寸。需要注意的是,該收發(fā)器只是類UCIe,并非真正的UCIe,因?yàn)閁CIe要求使用六邊形凸點(diǎn)布局,而非此處使用的曼哈頓網(wǎng)格。

隨著設(shè)計(jì)師們?yōu)橄乱淮斯ぶ悄芗铀倨鹘弑M所能地利用每一寸芯片空間,向 aLSI 的轉(zhuǎn)變勢(shì)在必行。

aLSI 的“有源”部分源于用有源晶體管取代橋接芯片中無源的長(zhǎng)距離金屬通道,從而構(gòu)成邊沿觸發(fā)收發(fā)器 (ETT) 電路,以在更長(zhǎng)的傳輸距離內(nèi)保持信號(hào)完整性。這還降低了頂層芯片發(fā)送/接收端口的信號(hào)驅(qū)動(dòng)要求。aLSI 中的 ETT 電路僅增加 0.07pJ/b 的能耗,最大限度地減少了在堆疊芯片中添加有源電路帶來的散熱問題。通過將信號(hào)調(diào)理電路移至橋接芯片,可以使用更小的預(yù)驅(qū)動(dòng)器和時(shí)鐘緩沖器來減小頂層芯片發(fā)送/接收端口的 PHY 面積,并消除接收端對(duì)信號(hào)放大的需求。

該ETT集成了驅(qū)動(dòng)器、交流耦合電容(Cac)、具有正負(fù)反饋的放大器以及輸出級(jí)。信號(hào)經(jīng)過Cac后,會(huì)在信號(hào)轉(zhuǎn)換邊沿引入峰值,這些峰值隨后會(huì)被雙環(huán)路放大器拾取,因此被稱為邊沿觸發(fā)式電路。放大器利用正負(fù)反饋環(huán)路來穩(wěn)定電壓電平。在本設(shè)計(jì)中,對(duì)于1.7 mm的通道長(zhǎng)度,Cac設(shè)置為180 fF,芯片A上的電阻為2 kΩ,芯片B上的電阻為3 kΩ。


這些aLSI橋接器還可以在前端集成嵌入式深溝槽電容(eDTC),以改善對(duì)PHY和D2D控制器的供電。與通過橋接芯片來影響電源網(wǎng)絡(luò)不同,采用eDTC的aLSI可以同時(shí)改善D2D接口的電源和信號(hào)路由。


僅需 388 μm 的海岸線即可滿足 64 條 TX 和 64 條 RX 數(shù)據(jù)通道的需求,總面積僅為 0.330 mm2。信號(hào)布線僅需最上面的兩層金屬層,其余金屬層可用于前端電路。


臺(tái)積電解釋了如何分多個(gè)階段測(cè)試有源LSI。第一階段是已知良好芯片(KGD),僅測(cè)試LSI本身,用于驗(yàn)證芯片性能。第二階段是已知良好堆棧(KGS),將SoC通過LSI連接起來,用于驗(yàn)證堆棧功能。最后階段是已知良好封裝(KGP),對(duì)整個(gè)封裝進(jìn)行全面驗(yàn)證,以驗(yàn)證其功能、性能和可靠性。

他們展示了 KGD 和 KGP 階段的 shmoo 圖,兩者均顯示互連在 0.75V 時(shí)達(dá)到 32 Gb/s,在 0.95V 時(shí)達(dá)到 38.4 Gb/s。


封裝圖顯示包含兩顆SoC芯片和兩顆I/O芯片。有趣的是,該測(cè)試芯片的設(shè)計(jì)似乎與AMD的MI450 GPU類似,包含兩顆相互連接的基礎(chǔ)芯片、12個(gè)HBM4顯存堆疊以及兩顆帶有主動(dòng)式LSI的I/O芯片。不同之處在于,MI450 GPU的每個(gè)HBM4顯存堆疊并非擁有獨(dú)立的主動(dòng)式LSI,而是兩顆HBM4顯存堆疊共用一個(gè)主動(dòng)式LSI。

至于功耗,在 0.75V 電壓下總功耗僅為 0.36 pJ/b,其中主動(dòng)式 LSI 中的 ETT 僅消耗 0.07 pJ/b。以下是與其他 D2D 解決方案的比較。


微軟D2D互連


微軟還詳細(xì)介紹了他們的芯片間互連(D2D)技術(shù)。他們的測(cè)試平臺(tái)包含兩顆芯片和兩對(duì)用于互連的D2D節(jié)點(diǎn)。此外,還搭建了完整的電源傳輸網(wǎng)絡(luò)和布線模型,以模擬時(shí)鐘門控和串?dāng)_。


測(cè)試芯片上的互連線占據(jù)了 532 μm 的海岸線,深度為 1350 μm。測(cè)試芯片采用臺(tái)積電的 N3P 節(jié)點(diǎn)制造,互連線在兩種數(shù)據(jù)速率下進(jìn)行了測(cè)試:0.65V 下的 20 Gb/s 和 0.75V 下的 24 Gb/s。


微軟公布了兩組功耗數(shù)據(jù),一組包含模擬和數(shù)字系統(tǒng)功耗,另一組僅包含模擬功耗。后者與大多數(shù)芯片間互連的功耗一致。在 24 Gb/s 速率下,系統(tǒng)功耗為 0.33 pJ/b,模擬功耗為 0.226 pJ/b;而在 20 Gb/s 速率下,系統(tǒng)功耗為 0.25 pJ/b,模擬功耗為 0.17 pJ/b??臻e狀態(tài)下的功耗為 0.05 pJ/b。


微軟還將他們的互連技術(shù)與臺(tái)積電之前針對(duì)其主動(dòng)式LSI所做的相同研究進(jìn)行了比較。

正如我們?cè)谥暗奈恼轮薪忉尩哪菢樱④浀?Cobalt 200 CPU 由兩個(gè)計(jì)算芯片組成,這兩個(gè)芯片通過定制的高帶寬互連線連接。我們認(rèn)為本次演示詳細(xì)介紹了這種互連線。

處理器

從小型移動(dòng)CPU到大型AI加速器,ISSCC首次全面展示了聯(lián)發(fā)科、英特爾、AMD、Rebellions和微軟等公司的架構(gòu)圖。許多產(chǎn)品甚至還展示了芯片實(shí)物圖。

聯(lián)發(fā)科天璣9500

每年,聯(lián)發(fā)科都會(huì)重點(diǎn)展示其旗艦移動(dòng)CPU的不同方面。今年也不例外,今年的移動(dòng)CPU發(fā)布會(huì)聚焦于睿頻加速和散熱管理。


臺(tái)積電為N3E和N3P工藝提供兩種不同的接觸柵間距(CGP)選項(xiàng):48nm和54nm。大多數(shù)芯片采用的是48nm的窄間距CGP,因?yàn)樗軐?shí)現(xiàn)更小的單元尺寸和更大的芯片尺寸縮小。然而,由于關(guān)鍵尺寸較小,它也面臨著漏電、布線和制造方面的挑戰(zhàn)。

聯(lián)發(fā)科在其天璣9500的C1 Ultra高性能核心上采用了更大的54nm CGP工藝,以提高能效。這使得他們?cè)诮档蜕岬耐瑫r(shí)實(shí)現(xiàn)了更高的性能,在漏電相同的情況下性能提升了4.6%,或在性能相同的情況下功耗降低了3%。

聯(lián)發(fā)科論文的其余部分重點(diǎn)介紹了如何利用未使用的老化預(yù)算和減少熱過沖來優(yōu)化動(dòng)態(tài)性能。最終,他們成功地將睿頻頻率從 4.21 GHz 提升至 4.4 GHz。

Intel 18A-on-Intel 3 混合鍵合


英特爾發(fā)布了其首款混合鍵合芯片 M3DProc。該芯片由一個(gè) Intel 3 下芯片和一個(gè) 18A 上芯片組成。每個(gè)芯片分別包含 56 個(gè)網(wǎng)格單元、核心單元和深度神經(jīng)網(wǎng)絡(luò)加速器單元。這兩個(gè)芯片采用 Foveros Direct 混合鍵合技術(shù),鍵距為 9μm。


網(wǎng)格單元排列成 14×4×2 的 3D 網(wǎng)格,兩個(gè)芯片共享 SRAM。


英特爾發(fā)現(xiàn),3D網(wǎng)格結(jié)構(gòu)可將延遲降低近40%,吞吐量提升近40%。他們還測(cè)試了數(shù)據(jù)傳輸?shù)哪苄?,其?D測(cè)試是在底部芯片的56個(gè)網(wǎng)格單元內(nèi)進(jìn)行的,而3D測(cè)試則是在兩個(gè)芯片上相鄰的28個(gè)網(wǎng)格單元內(nèi)進(jìn)行的。結(jié)果表明,混合鍵合互連(HBI)對(duì)能效的影響微乎其微。


每個(gè)Tile有 552 個(gè)焊盤,其中不到一半用于數(shù)據(jù)傳輸,不到四分之一用于供電。

在封裝方面,M3DProc 與 Clearwater Forest (CWF) 類似。CWF 采用 Intel 3 基本芯片,并通過 9μm Foveros Direct 連接到 18A 計(jì)算芯片。

M3DProc 的 3D 帶寬高達(dá) 875 GB/s,而每個(gè) CWF 計(jì)算芯片的帶寬僅為 210 GB/s。該芯片的 3D 片上網(wǎng)絡(luò) (NoC) 具有顯著更高的帶寬密度。CWF 使用 Foveros Direct 將 CPU 核心集群的 L2 緩存與基礎(chǔ) L3 緩存分離,每個(gè)頂層芯片包含 6 個(gè)集群,每個(gè)集群的帶寬為 35 GB/s,因此每個(gè)頂層芯片的總帶寬為 210 GB/s。M3DProc 的 875 GB/s 3D 帶寬通過 56 個(gè)垂直連接進(jìn)行聚合,每個(gè)連接僅需 15.6 GB/s,覆蓋面積卻小得多。

AMD MI355X


AMD 展示了其 MI355X GPU。在以往的會(huì)議演講中,AMD 通常會(huì)重復(fù)之前發(fā)布的消息,只引入一兩項(xiàng)新的信息。但這次的演講在這方面做得更好,詳細(xì)解釋了 MI355X 的 XCD 和 IOD 相較于 MI300X 有哪些改進(jìn)。


AMD詳細(xì)介紹了他們?nèi)绾卧诒3挚偯娣e不變且CU數(shù)量基本不變的情況下,將每個(gè)CU的矩陣吞吐量提高了一倍。首先,當(dāng)然是從N5到N3P的轉(zhuǎn)變;這帶來了晶體管密度提升的大部分。N3P提供的額外兩層金屬層優(yōu)化了布線,從而提高了單元利用率。AMD像之前在N5中那樣,設(shè)計(jì)了自己的標(biāo)準(zhǔn)單元,以針對(duì)其高性能計(jì)算(HPC)應(yīng)用場(chǎng)景優(yōu)化節(jié)點(diǎn)。

他們還采用了更密集的布局算法,類似于 EPYC Bergamo CPU 中使用的 Zen 4c 內(nèi)核比 EPYC Genoa CPU 中使用的 Zen 4 內(nèi)核小得多。

當(dāng)使用多種不同的數(shù)據(jù)格式(例如 FP16、FP8、MXFP4 等)執(zhí)行相同的計(jì)算時(shí),有兩種方法。第一種方法是使用共享硬件,即所有格式都通過相同的電路進(jìn)行處理。然而,這種方法會(huì)帶來額外的功耗,因?yàn)槊糠N格式的優(yōu)化程度都很低。第二種方法是為每種數(shù)據(jù)格式使用完全不同的電路集進(jìn)行計(jì)算。然而,這種方法會(huì)占用大量額外的空間。當(dāng)然,最佳方法介于兩者之間。這種優(yōu)化是 AMD 重點(diǎn)關(guān)注的領(lǐng)域。


作為采用改進(jìn)型晶體管的下一代工藝節(jié)點(diǎn),N3P本身就能帶來性能提升。然而,在工藝節(jié)點(diǎn)改進(jìn)之前,AMD就已經(jīng)能夠?qū)㈩l率等效功耗提升5%。他們還設(shè)計(jì)了多種具有不同功耗和性能特性的觸發(fā)器,并根據(jù)用途和架構(gòu)要求,將其部署在芯片的不同區(qū)域。


MI300X 擁有 4 個(gè) I/O 芯片,而 MI355X 則減少到兩個(gè)。通過這種方式,AMD 節(jié)省了芯片間互連的面積。更大的單芯片尺寸改善了延遲,并減少了 SerDes 和轉(zhuǎn)換次數(shù)。此外,通過增加互連寬度,HBM 的效率也得到了提升。節(jié)省下來的功耗可以重新分配給計(jì)算芯片,從而提高性能。


由于芯片面積較大,且芯片上任意兩個(gè)區(qū)域之間都有多種布線方案,AMD 必須投入大量精力來優(yōu)化線纜和互連。通過對(duì)線纜進(jìn)行定制設(shè)計(jì),AMD 成功將互連功耗降低了約 20%。

Rebellions Rebel100

Rebellions 是一家韓國(guó)初創(chuàng)公司,專注于人工智能加速器。在 ISSCC 大會(huì)上,他們首次公開了其新型加速器 Rebel100 的架構(gòu)圖。與其他通常由臺(tái)積電 (TSMC) 代工的加速器不同,Rebellions 選擇了三星晶圓代工的 SF4X 工藝節(jié)點(diǎn)。由于英偉達(dá) (Nvidia)、AMD、博通 (Broadcom) 等公司占據(jù)了臺(tái)積電的大部分產(chǎn)能,這為他們提供了更大的靈活性。


在2025年Hot Chips大會(huì)上,Rebellions展示了運(yùn)行Llama 3.3 70B固件的芯片。Hot Chips和ISSCC大會(huì)上的規(guī)格參數(shù)保持一致。值得注意的是,該芯片采用了三星的I-CubeS中介層技術(shù)。雖然Hot Chips大會(huì)的幻燈片中提到了臺(tái)積電的CoWoS-S技術(shù),但我們已澄清幻燈片上的錯(cuò)誤,實(shí)際使用的是I-CubeS技術(shù)。

我們最近提到過,CoWoS-S 的產(chǎn)能限制有所緩解。也就是說,三星可能為了將 I-CubeS 的先進(jìn)封裝技術(shù)與其前端工藝?yán)変N售,提供了大幅折扣,從而使這家初創(chuàng)公司免去了尋找和驗(yàn)證獨(dú)立先進(jìn)封裝供應(yīng)商的麻煩。三星可能還將 HBM的供應(yīng)與使用 I-CubeS 技術(shù)掛鉤。

I-CubeS尚未被任何主流AI加速器采用,這可能是三星試圖打入該市場(chǎng)的嘗試。目前已確認(rèn)的I-CubeS用戶僅有5家:eSilicon、百度、Nvidia、Rebellions和Preferred Networks。

首先是eSilicon采用三星14LPP工藝和HBM2顯存的網(wǎng)絡(luò)ASIC芯片。百度昆侖1加速器與之類似,同樣采用三星14LPP工藝和兩層HBM2顯存。2023年CoWoS-S產(chǎn)能緊張時(shí),英偉達(dá)曾將少量H200芯片的生產(chǎn)外包給I-CubeS。此外還有Rebel100,以及Preferred Networks計(jì)劃推出的基于SF2工藝的加速器。


Rebel100 采用 4 個(gè)計(jì)算芯片和 4 個(gè) HBM3E 內(nèi)存堆棧。每個(gè)芯片有 3 個(gè) UCIe-A 接口。但是,每個(gè)芯片上只使用了兩個(gè)接口,時(shí)鐘頻率為 16 Gb/s。


Rebellions 聲稱該設(shè)計(jì)可在封裝級(jí)別進(jìn)行重新配置,可以通過添加額外的 I/O 或內(nèi)存芯片來集成以太網(wǎng),從而實(shí)現(xiàn)規(guī)模擴(kuò)展。剩余的 UCIe-A 接口將用于此用途。

Rebellions公司表示,IO芯片將于2026年第一季度完成流片。但并未提供內(nèi)存芯片的流片時(shí)間表。



他們還在每個(gè) HBM3E 堆疊旁邊集成了硅電容器,以提高 HBM3E 和關(guān)鍵控制模塊的電源質(zhì)量。

微軟 Maia 200

微軟詳細(xì)介紹了他們的 Maia 200 AI 加速器。與其說這是一篇研究論文,不如說它更像是一份白皮書,其中只有一張圖片和一個(gè)規(guī)格表,將 Maia 200 與 Maia 100 進(jìn)行了比較??紤]到 Maia 200 的許多數(shù)據(jù)都值得懷疑,例如每平方毫米浮點(diǎn)運(yùn)算次數(shù) (flops/mm2) 和每瓦浮點(diǎn)運(yùn)算次數(shù) (flops/w),這樣的安排也合情合理。

Maia 100 的設(shè)計(jì)始于 GPT 出現(xiàn)之前,而 Maia 200 則面向當(dāng)前的模型時(shí)代,特別是推理領(lǐng)域。今年早些時(shí)候,Maia 200 節(jié)點(diǎn)已在 Azure 上正式發(fā)布。


Maia 200 是目前唯一堅(jiān)持光罩級(jí)單芯片設(shè)計(jì)的芯片。所有主流的配備 HBM 的訓(xùn)練和推理加速器都已轉(zhuǎn)向多芯片設(shè)計(jì),每個(gè)封裝包含 2 個(gè)、4 個(gè)甚至 8 個(gè)計(jì)算芯片。芯片上的每一平方毫米都針對(duì)特定用途進(jìn)行了高度優(yōu)化。與 Nvidia 或 AMD 的 GPU 不同,Maia 200 沒有用于媒體或向量運(yùn)算的傳統(tǒng)硬件。微軟在臺(tái)積電的 N3P 工藝上將光罩級(jí)單芯片設(shè)計(jì)發(fā)揮到了極致,集成了超過 10 PFLOPs 的 FP4 計(jì)算能力、6 個(gè) HBM3E 堆棧以及 28 條 400 Gb/s 全雙工 D2D 鏈路。


在封裝層面,Maia 200 非常標(biāo)準(zhǔn),模仿了 H100。它是一款 CoWoS-S 中介層芯片,包含 1 個(gè)主芯片和 6 個(gè) HBM3E 堆疊芯片。


芯片的長(zhǎng)邊各覆蓋 3 個(gè) HBM3E PHY,短邊各有 14 條 400 Gb/s D2D 鏈路(共 28 條)。芯片中心有 272 MB 的 SRAM,其中包含 80 MB 的 TSRAM(L1)和 192 MB 的 CSRAM(L2)。


Maia 200 具有兩種不同的鏈路:同一節(jié)點(diǎn)內(nèi)其他芯片之間的固定鏈路,以及芯片與交換機(jī)之間的交換鏈路。其中 21 條鏈路配置為固定鏈路,每 7 條鏈路連接到其他芯片;其余 7 條鏈路配置為交換鏈路,連接到四個(gè)機(jī)架式交換機(jī)之一。

其他亮點(diǎn)

三星SF2溫度傳感器



三星在SF2上展示了一款緊湊型溫度傳感器,用后端金屬電阻取代了傳統(tǒng)的雙極型晶體管(BJT)方案。這或許不如新一代內(nèi)存或處理器那樣引人注目,但對(duì)于芯片的正常工作而言卻至關(guān)重要。

這種金屬電阻器的薄層電阻比同等規(guī)格的布線金屬電阻器高 518 倍,而所需面積卻只有后者的約 1%。由于它位于上層金屬層,因此為下方的電路留出了充足的空間,并消除了前端工藝 (FEOL) 的面積開銷。雖然它的分辨率較低,但其優(yōu)勢(shì)足以彌補(bǔ)這一不足。


該傳感器采用全堆疊式電容-電阻電路結(jié)構(gòu),總面積僅為 625 μm2。作為特性明確的 PDK 元件,其特性已由代工廠建模并驗(yàn)證。它更適用于對(duì)工藝偏差控制要求嚴(yán)格的大規(guī)模生產(chǎn)。即使在單個(gè)芯片上,也可以在熱點(diǎn)附近使用數(shù)千個(gè)這樣的傳感器。

如前所述,金屬電阻的溫度系數(shù) (TCR) 較低,僅為布線金屬的 0.2 倍,這限制了傳感分辨率。三星通過增加基極電阻來彌補(bǔ)這一缺陷。然而,由于 RC 時(shí)間常數(shù)增大,這會(huì)延長(zhǎng)傳感時(shí)間。為了解決這個(gè)問題,三星采用了一種時(shí)間偏移壓縮技術(shù):利用低電阻 (0.1R) 快速充電路徑迅速為 RC 濾波器充電,然后在波形的溫度敏感部分,電路切換到全電阻。

對(duì)于時(shí)間數(shù)字轉(zhuǎn)換 (TDC),他們用緊湊的基于環(huán)形振蕩器 (RO) 的 TDC 取代了先前工作中使用的大型線性延遲發(fā)生器,將延遲發(fā)生器面積減少了 99.1%。RO 還兼作系統(tǒng)時(shí)鐘,相位交錯(cuò)計(jì)數(shù)可防止非單調(diào)性。



新型溫度傳感器的精度品質(zhì)因數(shù) (FoM) 為 0.017 nJ·%2,優(yōu)于之前基于三星 5LPE、臺(tái)積電 N3E 和英特爾 4 (JSSC 2025) 的同類產(chǎn)品。以往的溫度傳感器只能在面積或速度之間進(jìn)行二選一的優(yōu)化。例如,N3E 上的傳感器面積小巧(900 μm2),但響應(yīng)時(shí)間為 1 ms;而三星 5LPE 上的傳感器速度快(12 μs),但面積巨大(6356 μm2)。

*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4378內(nèi)容,歡迎關(guān)注。

加星標(biāo)??第一時(shí)間看推送



求推薦


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
細(xì)節(jié)披露!南京銀行原行長(zhǎng)束行農(nóng)挪用4.8億公款獲千萬暴利,14個(gè)月收益率達(dá)210%

細(xì)節(jié)披露!南京銀行原行長(zhǎng)束行農(nóng)挪用4.8億公款獲千萬暴利,14個(gè)月收益率達(dá)210%

政知新媒體
2026-04-16 23:00:20
許家印認(rèn)罪未滿24小時(shí),王健林傳來了“噩耗”,馬化騰當(dāng)年沒說錯(cuò)

許家印認(rèn)罪未滿24小時(shí),王健林傳來了“噩耗”,馬化騰當(dāng)年沒說錯(cuò)

大魚簡(jiǎn)科
2026-04-16 14:43:44
臉沒恢復(fù)就別出來拍劇了,頂著膨脹臉、說話嘴歪全是痘坑,太出戲

臉沒恢復(fù)就別出來拍劇了,頂著膨脹臉、說話嘴歪全是痘坑,太出戲

翰飛觀事
2026-04-16 17:03:30
保羅社媒嘲諷快船附加賽出局:他真的死透了

保羅社媒嘲諷快船附加賽出局:他真的死透了

懂球帝
2026-04-17 01:10:12
輸球不可怕!可怕的是皇馬主帥阿韋洛亞賽后這番話,裁判不公平!

輸球不可怕!可怕的是皇馬主帥阿韋洛亞賽后這番話,裁判不公平!

田先生籃球
2026-04-16 06:48:05
樂極生悲?奪冠僅1周,王楚欽傳來“噩耗”

樂極生悲?奪冠僅1周,王楚欽傳來“噩耗”

籃球看比賽
2026-04-16 09:55:21
法國(guó)全票通過“文物歸還法案” 接下來呢?

法國(guó)全票通過“文物歸還法案” 接下來呢?

看看新聞Knews
2026-04-15 22:44:05
馬刺隊(duì)史首人!文班亞馬斬獲魔術(shù)師約翰遜獎(jiǎng) 戰(zhàn)勝庫里字母哥等人

馬刺隊(duì)史首人!文班亞馬斬獲魔術(shù)師約翰遜獎(jiǎng) 戰(zhàn)勝庫里字母哥等人

羅說NBA
2026-04-17 06:18:28
單場(chǎng)狂賣10億!薇婭之后,直播圈終于迎來新一姐?

單場(chǎng)狂賣10億!薇婭之后,直播圈終于迎來新一姐?

雷科技
2026-04-14 11:36:15
船記:如果哈登沒有申請(qǐng)交易,快船雖不能奪冠但會(huì)是聯(lián)盟前五

船記:如果哈登沒有申請(qǐng)交易,快船雖不能奪冠但會(huì)是聯(lián)盟前五

懂球帝
2026-04-16 16:05:10
愛潑斯坦文件曝光!證人實(shí)錘了:愛潑斯坦把梅拉尼婭介紹給特朗普

愛潑斯坦文件曝光!證人實(shí)錘了:愛潑斯坦把梅拉尼婭介紹給特朗普

觸摸史跡
2026-04-17 05:08:32
國(guó)臺(tái)辦果然沒看錯(cuò),鄭麗文真面目被徹底揭露!小算盤到此為止了

國(guó)臺(tái)辦果然沒看錯(cuò),鄭麗文真面目被徹底揭露!小算盤到此為止了

比利
2026-01-23 12:41:53
廢掉一個(gè)人最快的方法:讓他學(xué)滿一肚子“無用的文化”

廢掉一個(gè)人最快的方法:讓他學(xué)滿一肚子“無用的文化”

青蘋果sht
2026-04-16 05:33:08
“芯片又不是濃縮鈾,賣給中國(guó)怎么了?”

“芯片又不是濃縮鈾,賣給中國(guó)怎么了?”

觀察者網(wǎng)
2026-04-16 12:07:05
你們都是什么時(shí)候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時(shí)候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
國(guó)民黨向立院申請(qǐng)鄭麗文480萬訪陸經(jīng)費(fèi),吳思瑤反對(duì),韓國(guó)瑜出手

國(guó)民黨向立院申請(qǐng)鄭麗文480萬訪陸經(jīng)費(fèi),吳思瑤反對(duì),韓國(guó)瑜出手

藍(lán)色海邊
2026-04-16 18:40:34
省委、市委決定:金寧任廣德市委書記

省委、市委決定:金寧任廣德市委書記

上觀新聞
2026-04-16 13:34:03
無法無天!從醫(yī)生到病人全是演員!網(wǎng)友:以后誰還敢信中醫(yī)?

無法無天!從醫(yī)生到病人全是演員!網(wǎng)友:以后誰還敢信中醫(yī)?

華人星光
2026-04-15 12:55:39
貝森特通告全球,將對(duì)中方二級(jí)制裁,話音剛落,中方減持美債

貝森特通告全球,將對(duì)中方二級(jí)制裁,話音剛落,中方減持美債

傲傲講歷史
2026-04-17 00:58:08
“天津突發(fā)8.8級(jí)地震”?警方通報(bào)

“天津突發(fā)8.8級(jí)地震”?警方通報(bào)

大象新聞
2026-04-16 17:41:08
2026-04-17 07:40:49
半導(dǎo)體行業(yè)觀察 incentive-icons
半導(dǎo)體行業(yè)觀察
專注觀察全球半導(dǎo)體行業(yè)資訊
13417文章數(shù) 34876關(guān)注度
往期回顧 全部

科技要聞

Anthropic推出Opus 4.7,坦言依不及Mythos

頭條要聞

以媒:從媒體上得知與黎巴嫩?;?以色列高官又驚又怒

頭條要聞

以媒:從媒體上得知與黎巴嫩停火 以色列高官又驚又怒

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財(cái)經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

汽車要聞

空間大五個(gè)乘客都滿意?體驗(yàn)嵐圖泰山X8

態(tài)度原創(chuàng)

游戲
房產(chǎn)
本地
藝術(shù)
公開課

魔獸世界:時(shí)光服爭(zhēng)議不斷,DPS要求大鍋飯,團(tuán)長(zhǎng)選擇發(fā)放補(bǔ)貼

房產(chǎn)要聞

人人人人!封關(guān)后首屆消博會(huì),擠爆了!

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

藝術(shù)要聞

這 4 個(gè)紅底黑字,藏著毛主席給一位普通母親的最高贊譽(yù),看完淚目

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版