網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

萬字精讀ISSCC：存儲(chǔ)、光電互聯(lián)、處理器和其他

2026-04-16 10:07:50　來源: 半導(dǎo)體行業(yè)觀察

上海舉報(bào)

分享至

公眾號(hào)記得加星標(biāo)??，第一時(shí)間看推送不會(huì)錯(cuò)過。

每年有三大半導(dǎo)體會(huì)議：IEDM 、VLSI和 ISSCC。過去幾年，我們對(duì)前兩個(gè)會(huì)議進(jìn)行了詳盡的報(bào)道。今天，我們將帶來 ISSCC 2026 的綜述，至此，我們將完成這三大會(huì)議的總結(jié)。

與IEDM和VLSI相比，ISSCC更側(cè)重于集成電路。幾乎每篇論文都包含電路圖，以及清晰的測(cè)量結(jié)果和數(shù)據(jù)。

往年，ISSCC 的研究成果對(duì)行業(yè)的影響力參差不齊。但今年情況有所不同，大量論文和演講都與市場(chǎng)趨勢(shì)直接相關(guān)。涵蓋的主題包括 HBM4、LPDDR6、GDDR7 和 NAND 的最新進(jìn)展，以及共封裝光學(xué)器件、先進(jìn)的芯片間接口，還有來自聯(lián)發(fā)科、AMD、英偉達(dá)和微軟等公司的先進(jìn)處理器。

本次綜述將涵蓋內(nèi)存、光網(wǎng)絡(luò)、高速電互連、處理器等主要類別。

存儲(chǔ)

今年ISSCC展會(huì)上，最吸引我們關(guān)注的一個(gè)主題是內(nèi)存，包括三星HBM4、三星和SK海力士LPDDR6以及SK海力士GDDR7。除了DRAM之外，基于邏輯的SRAM和MRAM也引起了我們的興趣。

三星 HBM4

在三大內(nèi)存廠商中，只有三星發(fā)表了關(guān)于HBM4的技術(shù)論文。在ISSCC大會(huì)之前，我們?cè)诩铀倨髋cHBM模型中就指出，三星的HBM4相比HBM3E有了顯著的改進(jìn)。ISSCC大會(huì)上公布的數(shù)據(jù)證實(shí)了我們的分析，三星的性能達(dá)到了同類最佳水平——幾個(gè)月前，我們也曾在模型更新報(bào)告中詳細(xì)介紹過這一進(jìn)展。

ISSCC大會(huì)上公布的技術(shù)細(xì)節(jié)，結(jié)合我們收集到的行業(yè)信息，清晰地表明三星的HBM4在同級(jí)別產(chǎn)品中具有競(jìng)爭(zhēng)力。值得注意的是，它在滿足Rubin要求的引腳速度的同時(shí)，還能將電壓保持在1V以下。雖然三星在可靠性和穩(wěn)定性方面仍然落后于SK海力士，但該公司在技術(shù)方面取得了顯著進(jìn)展，有望挑戰(zhàn)SK海力士在HBM領(lǐng)域的統(tǒng)治地位。他們基于1c架構(gòu)的HBM4搭配SF4邏輯芯片，似乎在引腳速度方面表現(xiàn)更佳。

三星展示了一款 36 GB、12 層高的 HBM4 堆疊，具有 2048 個(gè) IO 引腳和 3.3 TB/s 的帶寬，采用第六代 10nm 級(jí) (1c) DRAM 核心芯片與 SF4 邏輯基礎(chǔ)芯片相結(jié)合制成。

從 HBM3E 到 HBM4，最顯著的架構(gòu)變化在于核心 DRAM 芯片和基片芯片的工藝技術(shù)差異。HBM4 僅對(duì)核心芯片采用 DRAM 工藝節(jié)點(diǎn)，而基片芯片則采用更先進(jìn)的邏輯節(jié)點(diǎn)制造，這與之前幾代 HBM 產(chǎn)品對(duì)核心芯片和基片芯片均采用相同工藝不同。

隨著人工智能工作負(fù)載對(duì)HBM帶寬和數(shù)據(jù)傳輸速率的需求不斷增長(zhǎng)，架構(gòu)方面的關(guān)鍵挑戰(zhàn)也隨之而來。通過將基片工藝升級(jí)到SF4邏輯工藝，三星實(shí)現(xiàn)了更高的運(yùn)行速度和更低的功耗。工作電壓（VDDQ）降低了32%，從HBM3E的1.1V降至HBM4的0.75V。與采用DRAM工藝制造的基片相比，基于邏輯的基片由于晶體管尺寸更小、金屬層堆疊面積更大，因此能夠提供更高的晶體管密度、更小的器件尺寸和更高的面積效率。這使得三星的HBM4能夠達(dá)到甚至顯著超越JEDEC的HBM4標(biāo)準(zhǔn)。

結(jié)合自適應(yīng)體偏置（ABB：adaptive body-bias ）控制技術(shù)（該技術(shù)可減輕堆疊核心芯片間的工藝偏差），翻倍的TSV數(shù)量進(jìn)一步提升了時(shí)序裕量。三星的論文指出，ABB技術(shù)和4倍增加的TSV數(shù)量共同作用，使其HBM4單引腳運(yùn)行速度高達(dá)13 Gb/s。

SF4 基片和 1c DRAM 核心芯片帶來的性能提升并非沒有代價(jià)。三星選擇SF4 作為邏輯基片，雖然三星晶圓代工廠可以為內(nèi)部基片使用提供折扣，但其成本仍然高于其他競(jìng)爭(zhēng)方案。SK 海力士在其 HBM4 基片中采用了臺(tái)積電的 N12 邏輯工藝，而美光則依賴于其自主研發(fā)的 CMOS 基片技術(shù)。即使考慮到垂直整合的成本優(yōu)勢(shì)，這兩種方案的成本也低于接近領(lǐng)先的 SF4 工藝。

2025年，三星的1c前端制造工藝一直面臨挑戰(zhàn)，尤其是在該公司跳過1b節(jié)點(diǎn)，直接從基于1a的HBM3E過渡到1c世代的情況下。去年，1c節(jié)點(diǎn)的前端良率僅為50%左右，盡管近年來有所改善。較低的良率對(duì)其HBM4的利潤(rùn)率構(gòu)成風(fēng)險(xiǎn)。

從歷史數(shù)據(jù)來看，三星的HBM利潤(rùn)率一直低于其主要競(jìng)爭(zhēng)對(duì)手SK海力士，我們?cè)趦?nèi)存模型中對(duì)所有廠商的這一動(dòng)態(tài)進(jìn)行了全面建模。我們?cè)敿?xì)列出了各廠商在不同制程節(jié)點(diǎn)上的HBM、DDR和LPDDR的晶圓產(chǎn)量、良率、密度、成本等數(shù)據(jù)。

三星的策略似乎是積極采用更先進(jìn)的制程工藝來制造基礎(chǔ)芯片，以實(shí)現(xiàn)卓越的性能并超越競(jìng)爭(zhēng)對(duì)手，尤其是在NVIDIA等領(lǐng)先客戶對(duì)HBM的要求不斷提高的情況下。

HBM 中另一個(gè)需要解決的關(guān)鍵問題是 tCCDR，即跨越不同堆棧 ID (SID：stack ID) 發(fā)出的連續(xù) READ 命令之間的最小間隔。對(duì)于嚴(yán)重依賴跨多個(gè)通道并行內(nèi)存訪問的 AI 工作負(fù)載而言，tCCDR 直接影響可實(shí)現(xiàn)的內(nèi)存吞吐量。

在堆疊式DRAM架構(gòu)中，多個(gè)核心芯片垂直集成在一個(gè)基底芯片之上。這自然會(huì)在整個(gè)堆疊層中引入微小的延遲差異，其驅(qū)動(dòng)因素包括核心芯片和基底芯片之間的工藝偏差、TSV傳播差異以及局部溝道偏差。

堆疊高度和通道數(shù)（從 16 通道增加到 32 通道）的增加加劇了這一挑戰(zhàn)。隨著通道數(shù)和堆疊高度的增加，芯片間的差異會(huì)累積，導(dǎo)致通道和芯片間時(shí)序失配增大，從而影響可實(shí)現(xiàn)的 tCCDR 和整體 HBM 性能。

為了解決這個(gè)問題，三星引入了一種“單通道TSV RDQS時(shí)序自動(dòng)校準(zhǔn)方案”。上電后，系統(tǒng)使用一條與實(shí)際信號(hào)路徑時(shí)序行為相匹配的RDQS副本路徑來測(cè)量各通道間的延遲變化。時(shí)間數(shù)字轉(zhuǎn)換器（TDC）量化這些時(shí)序差異，然后使用每個(gè)通道的延遲補(bǔ)償電路（DCDL）進(jìn)行補(bǔ)償。

該校準(zhǔn)方案同時(shí)考慮了堆疊核心芯片之間的全局延遲差異和單個(gè)通道的局部延遲差異，從而實(shí)現(xiàn)了整個(gè)堆疊芯片時(shí)序的對(duì)齊。通過補(bǔ)償這些不匹配，三星顯著提高了有效時(shí)序裕量，并在滿足所需 tCCDR 約束的前提下，提升了最大可實(shí)現(xiàn)數(shù)據(jù)速率。僅此一項(xiàng)方案就將數(shù)據(jù)速率從 7.8 Gb/s 提升至 9.4 Gb/s。

一些精通內(nèi)存技術(shù)的讀者可能會(huì)問：芯片面積如何才能容納如此顯著增加的TSV數(shù)量？這就體現(xiàn)了1c工藝的重要性。與之前的1a工藝相比，1c工藝進(jìn)一步縮小了DRAM單元面積，從而釋放出更多的芯片空間，用于集成HBM4所需的更多TSV。

另一項(xiàng)由邏輯基片實(shí)現(xiàn)的關(guān)鍵創(chuàng)新是三星的可編程存儲(chǔ)器內(nèi)置自測(cè)試 (PMBIST：Programmable Memory Built-In Self-Test ) 架構(gòu)。PMBIST 使基礎(chǔ)die能夠生成完全可編程的存儲(chǔ)器測(cè)試模式，同時(shí)支持完整的 JEDEC 行和列命令集，這意味著測(cè)試引擎可以發(fā)出與實(shí)際系統(tǒng)相同的命令，并且可以在任何時(shí)鐘沿和全接口速度下執(zhí)行這些命令。實(shí)際上，這使得工程師能夠模擬復(fù)雜的真實(shí)世界存儲(chǔ)器訪問模式，并在實(shí)際運(yùn)行條件下對(duì) HBM 接口進(jìn)行壓力測(cè)試，而這對(duì)于傳統(tǒng)的固定模式測(cè)試引擎來說是難以實(shí)現(xiàn)的。

這種方法與HBM3E截然不同。如前所述，HBM3E的基礎(chǔ)die采用DRAM工藝制造，這給MBIST（Memory Built-In Self-Test）引擎帶來了嚴(yán)格的功耗和面積限制，并且由于DRAM本身在功耗和面積方面相對(duì)于邏輯芯片的劣勢(shì)，測(cè)試只能局限于一小部分預(yù)定義的模式。通過將基礎(chǔ)芯片轉(zhuǎn)移到三星晶圓代工的SF4邏輯工藝，三星實(shí)現(xiàn)了完全可編程的測(cè)試框架，能夠運(yùn)行復(fù)雜的測(cè)試算法和靈活的訪問序列。

這使得HBM的調(diào)試更加穩(wěn)健，良率學(xué)習(xí)效果也更佳。工程師可以創(chuàng)建針對(duì)性的應(yīng)力模式來驗(yàn)證關(guān)鍵時(shí)序參數(shù)，例如tCCDR和tCCDS，在制造早期識(shí)別極端情況下的故障，并加速芯片級(jí)（CoW）和系統(tǒng)級(jí)封裝（SiP）測(cè)試期間的特性分析。簡(jiǎn)而言之，隨著HBM堆疊結(jié)構(gòu)日益復(fù)雜且運(yùn)行速度不斷提高，PMBIST能夠提升測(cè)試覆蓋率、調(diào)試效率，并最終提高生產(chǎn)良率。

三星的HBM4顯存引腳速度也表現(xiàn)出色——在低于1V的內(nèi)核電壓（VDDC）下，其傳輸速率可達(dá)11Gb/s，在高電壓下更可達(dá)到13Gb/s。盡管三星的競(jìng)爭(zhēng)對(duì)手在可靠性和穩(wěn)定性方面更勝一籌，但我們尚未看到它們展現(xiàn)出與之匹敵的性能。

三星的實(shí)現(xiàn)方案顯著超越了官方 JEDEC HBM4 標(biāo)準(zhǔn) (JESD270-4) 的基準(zhǔn)規(guī)范，該標(biāo)準(zhǔn)規(guī)定每引腳最大數(shù)據(jù)傳輸速率為 6.4 Gb/s，帶寬約為 2 TB/s。三星的實(shí)現(xiàn)方案達(dá)到了 JEDEC 標(biāo)準(zhǔn)引腳速度的兩倍以上，每引腳可達(dá) 13 Gb/s，帶寬高達(dá) 3.3 TB/s。即使在 VDDC/VDDQ 分別為 1.05V 和 0.75V 的情況下，該器件仍能維持 11.8 Gb/s 的數(shù)據(jù)傳輸速率。

三星 LPDDR6

三星和SK海力士都展示了各自的LPDDR6芯片。我們將首先討論三星的芯片，稍后再討論SK海力士的芯片。

三星展示了其 LPDDR6 架構(gòu)，并詳細(xì)介紹了所采用的節(jié)能技術(shù)。

LPDDR6 采用每芯片 2 個(gè)子通道的架構(gòu)，每個(gè)子通道包含 16 個(gè)存儲(chǔ)體。它還具有兩種模式：普通模式和高效模式。在高效模式下，輔助子通道斷電，主子通道控制全部 32 個(gè)存儲(chǔ)體。但是，訪問輔助子通道中的數(shù)據(jù)會(huì)增加延遲。

雙子通道架構(gòu)也意味著外圍電路的數(shù)量翻倍，例如命令解碼器、串行化和控制電路。根據(jù)三星和SK海力士提供的芯片照片，這種架構(gòu)會(huì)使芯片總面積增加約5%，從而導(dǎo)致每片晶圓的總比特?cái)?shù)減少。

與采用 PAM3 信號(hào)的 GDDR7 不同，LPDDR6 將繼續(xù)使用 NRZ 編碼。然而，它并非采用標(biāo)準(zhǔn) NRZ 編碼，因?yàn)闃?biāo)準(zhǔn) NRZ 編碼會(huì)導(dǎo)致眼圖裕量不足。LPDDR6 采用寬 NRZ 編碼，每個(gè)子通道使用 12 個(gè)數(shù)據(jù) (DQ) 引腳，每次操作的突發(fā)長(zhǎng)度為 24。

如果你仔細(xì)計(jì)算過，12×24 等于 288，而不是 2 的冪。剩下的 32 位分為兩種用途：16 位用于元數(shù)據(jù)（例如 ECC），16 位用于數(shù)據(jù)總線反轉(zhuǎn) (DBI)。

DBI 是一種節(jié)能和信號(hào)完整性機(jī)制。在發(fā)送突發(fā)數(shù)據(jù)之前，控制器會(huì)檢查與前一次突發(fā)數(shù)據(jù)相比，是否有超過一半的比特會(huì)發(fā)生狀態(tài)翻轉(zhuǎn)。如果是，控制器會(huì)反轉(zhuǎn)所有比特并設(shè)置 DBI 標(biāo)志，以便接收器知道需要反轉(zhuǎn)這些比特才能獲得實(shí)際數(shù)據(jù)。這可以將同時(shí)切換的輸出數(shù)量限制在總線寬度的一半以內(nèi)，從而降低功耗和電源噪聲。

要計(jì)算有效帶寬，必須考慮這些元數(shù)據(jù)和 DBI 位，公式如下：帶寬 = 數(shù)據(jù)速率 × 寬度 (24 位) × 數(shù)據(jù) (32 位) / 數(shù)據(jù)包 (36 位)。例如，12.8 Gb/s 時(shí)，有效帶寬為 34.1 GB/s；14.4 Gb/s 時(shí)，有效帶寬為 38.4 GB/s。

LPDDR6 具有兩個(gè)恒壓域，VDD2C 為 0.875V，VDD2D 為 1.0V。通過精心選擇哪些外設(shè)邏輯使用哪個(gè)電源域，讀取功耗降低了 27%，寫入功耗降低了 22%。

LPDDR 內(nèi)存主要用于空閑狀態(tài)下的低數(shù)據(jù)速率，例如 3.2 Gb/s 及以下。三星通過巧妙地利用電壓域，著重提升低數(shù)據(jù)速率下的功耗，從而降低待機(jī)和讀寫操作的功耗。

通過使用重分布層 (RDL)，三星可以將相關(guān)電路在物理上更緊密地排列在一起。這縮短了關(guān)鍵延遲路徑，并降低了它們對(duì)電壓和溫度變化的敏感性。在 LPDDR6 的高頻應(yīng)用中，更嚴(yán)格的時(shí)序和更小的波動(dòng)至關(guān)重要。

三星的LPDDR6在0.97V電壓下可達(dá)到12.8 Gb/s的數(shù)據(jù)傳輸速率，在1.025V電壓下最高可達(dá)14.4 Gb/s。每個(gè)16Gb芯片的面積為44.5mm2，采用未知的10nm工藝制造，密度為0.360 Gb/mm2。這遠(yuǎn)低于LPDDR5X在1b工藝下的密度（0.447 Gb/mm2），僅略高于LPDDR5X在1a工藝下的密度（0.341 Gb/mm2）。雖然雙子通道架構(gòu)造成的面積損失是部分原因，但LPDDR6似乎還存在其他問題。根據(jù)上述內(nèi)存密度，我們推測(cè)這款LPDDR6原型芯片采用的是三星的1b工藝制造。

三星 SF2 LPDDR6 PHY

三星還發(fā)布了用于LPDDR6邏輯芯片接口的PHY芯片。這些PHY芯片采用三星最新的SF2工藝制造，支持高達(dá)14.4 Gb/s的傳輸速率。PHY芯片的海岸線長(zhǎng)度為2.32毫米，面積為0.695平方毫米，帶寬密度分別為16.6 Gb/s/mm和55.3 Gb/s/mm2。

PHY 還支持 LPDDR6 芯片實(shí)現(xiàn)的效率模式，該模式可降低 39% 的讀取功耗和 29% 的寫入功耗。

PHY 可以通過對(duì)非活動(dòng)輔助子通道的高速時(shí)鐘路徑進(jìn)行門控來增強(qiáng)效率模式。通過時(shí)鐘門控，讀寫功耗可降低近 50%，空閑功耗可降低 41%。

SK 海力士 1c LPDDR6

SK海力士發(fā)布了其首款1c DRAM產(chǎn)品，包括LPDDR6和GDDR7兩種封裝。其LPDDR6的數(shù)據(jù)傳輸速率最高可達(dá)14.4 Gb/s，比最快的LPDDR5X快35%，且功耗更低。

雖然 SK 海力士沒有說明 LPDDR6 芯片的面積或密度，但根據(jù)其 GDDR7 的相對(duì)密度增加，我們估計(jì)其位密度將達(dá)到 0.59 Gb/mm2。

SK海力士在其shmoo圖表中顯示，在1.025V電壓下，其芯片可達(dá)到14.4 Gb/s的數(shù)據(jù)傳輸速率，與三星相同。然而，在0.95V電壓下，SK海力士的芯片數(shù)據(jù)傳輸速率僅為10.9 Gb/s，而三星在0.97V電壓下則可達(dá)12.8 Gb/s。這表明，與三星相比，SK海力士在較低引腳速度下可能存在更高的能效問題，需要更高的電壓才能保證可靠性。

與三星的LPDDR6內(nèi)存類似，SK海力士的LPDDR6內(nèi)存也提供兩種模式：普通模式和節(jié)能模式。節(jié)能模式在單通道下以12.8 Gb/s的速率運(yùn)行，與普通模式相比，待機(jī)電流和運(yùn)行電流分別降低了12.7%和18.9%。

SK海力士1c GDDR7

雖然LPDDR6憑借其全新的內(nèi)存技術(shù)實(shí)現(xiàn)了代際飛躍，但SK海力士采用1c工藝生產(chǎn)的GDDR7內(nèi)存展現(xiàn)出更大的提升，在1.2V/1.2V電壓下最高頻率可達(dá)48Gb/s。即使在1.05V/0.9V電壓下，其頻率也能達(dá)到30.3Gb/s，高于RTX 5080顯卡中30Gb/s的顯存頻率。

該工藝實(shí)現(xiàn)的位密度為 0.412 Gb/mm2，而三星 1b 工藝的位密度為 0.309 Gb/mm2，三星較早的 1z 工藝的位密度為 0.192 Gb/mm2。

GDDR7 的位密度低于 LPDDR5X，通常約為后者的 70%。雖然它的數(shù)據(jù)傳輸速率更高，但這也帶來了更高的功耗和更大的面積。

GDDR7 密度較低是由于其外圍區(qū)域顯著增大，以實(shí)現(xiàn)更高的訪問速度。因此，實(shí)際的內(nèi)存陣列在芯片面積中所占的比例較小。GDDR7 中使用的 PAM3 和 QDR（每個(gè)時(shí)鐘周期 4 個(gè)符號(hào)）信號(hào)需要更復(fù)雜的邏輯控制電路。

GDDR7 主要用于游戲 GPU 應(yīng)用，這類應(yīng)用需要比 HBM 更低的成本和容量，同時(shí)具備更高的內(nèi)存帶寬。NVIDIA 曾宣布將于 2025 年推出配備 128GB GDDR7 的 Rubin CPX 大型上下文 AI 處理器，但隨著 NVIDIA 將重心轉(zhuǎn)移到推出 Groq LPX 解決方案，該產(chǎn)品幾乎已從 2026 年的路線圖中消失。

三星 4F2 COP DRAM

在2025年VLSI大會(huì)上，SK海力士詳細(xì)介紹了其4F2 Peri-Under-Cell (PUC) DRAM 。在今年的ISSCC大會(huì)上，三星公開了其4F2 Cell-on-Peripheral (COP) DRAM的實(shí)現(xiàn)方案。PUC和COP是同一架構(gòu)，只是名稱不同。

4F2 單元的架構(gòu)與 SK 海力士的相同，采用垂直溝道晶體管 (VCT)，漏極上方有電容器。

三星提出的垂直架構(gòu)與SK海力士的架構(gòu)基本相同，都是將單元晶圓混合鍵合到外圍晶圓上。這種架構(gòu)允許單元晶圓采用DRAM節(jié)點(diǎn)，而外圍晶圓則采用更先進(jìn)的邏輯節(jié)點(diǎn)。

三星指出，混合鍵合技術(shù)已應(yīng)用于COP閃存，并已應(yīng)用于NAND閃存。其他NAND閃存制造商也采用了這種技術(shù)，但三星尚未將混合鍵合技術(shù)應(yīng)用于NAND閃存的大規(guī)模生產(chǎn)，距離實(shí)現(xiàn)這一目標(biāo)仍需數(shù)年時(shí)間。

此外，DRAM的晶圓間互連數(shù)量比NAND高一個(gè)數(shù)量級(jí)，并且需要更小的間距。為了減少晶圓間互連的數(shù)量，三星采用了兩種創(chuàng)新方法。

首先，他們將子詞線驅(qū)動(dòng)器 (SWD： sub-wordline drivers) 從每個(gè)單元格塊 128 個(gè)重新組織成 16 組，每組 8 個(gè)。這使得 SWD 所需的信號(hào)數(shù)量減少了 75%。

接下來，他們將列選擇信號(hào)分成偶數(shù)路徑和奇數(shù)路徑。這需要兩倍的多路復(fù)用器（MUX：multiplexers），但每個(gè)數(shù)據(jù)引腳的列選擇線（CSL： column select line ）數(shù)量減半至32條。

通過混合鍵合技術(shù)，可以將核心電路（即位線讀出放大器 (BLSA) 和 SWD）放置在單元陣列下方。其目標(biāo)是使核心電路與單元陣列占據(jù)相同的面積，從而提高整體密度。

三星采用了“三明治”結(jié)構(gòu)，這使得他們能夠最大限度地提高核心電路的面積效率，并減少邊緣區(qū)域（不在任何單元下方）的面積。

核心電路所占面積從 17.0% 減少到僅 2.7%，這是一個(gè)顯著的改進(jìn)，直接轉(zhuǎn)化為芯片整體尺寸的減小。

在傳統(tǒng)DRAM中，增加每條位線上的單元數(shù)量會(huì)導(dǎo)致芯片面積顯著增加，而對(duì)于VCT DRAM，由于核心電路都在單元下方，因此增加的面積幾乎可以忽略不計(jì)。

三星沒有提供該芯片的任何密度數(shù)據(jù)，只表示它是一款采用 10nm DRAM 工藝的 16Gb 芯片。

三星指出，VCT DRAM存在浮體效應(yīng)，會(huì)導(dǎo)致漏電加劇并降低數(shù)據(jù)保持時(shí)間。緩解這一效應(yīng)仍然是4F2技術(shù)普及應(yīng)用的關(guān)鍵挑戰(zhàn)。

盡管面臨這些挑戰(zhàn)，我們?nèi)匀活A(yù)計(jì) 4F2 混合鍵合 DRAM 將在本十年后期，最早在 1d 之后的一代產(chǎn)品中問世。我們的內(nèi)存模型詳細(xì)跟蹤了每個(gè)節(jié)點(diǎn)的時(shí)序和產(chǎn)能爬坡。當(dāng)前的內(nèi)存定價(jià)格局在很大程度上激勵(lì)著廠商加快產(chǎn)能爬坡，并推出具有更高位密度的新節(jié)點(diǎn)，以提高單晶圓廠的位輸出。另一方面，在許多應(yīng)用場(chǎng)景中，內(nèi)存的性能/價(jià)格比容量更為重要。

SanDisk/Kioxia BiCS10 NAND

SanDisk 和 Kioxia 展示了他們的 BiCS10 NAND 閃存，該閃存擁有 332 層和 3 個(gè)存儲(chǔ)層。這是目前報(bào)道的最高 NAND 閃存位密度，達(dá)到 37.6 Gb/mm2，超越了之前的冠軍SK 海力士的 321L V9 。

盡管SK海力士采用了類似的架構(gòu)，擁有6個(gè)平面、3個(gè)層板和相近的層數(shù)，但其比特密度卻低了30%。在QLC配置下，BiCS10的比特密度為37.6 Gb/mm2，而SK海力士的V9僅為28.8 Gb/mm2。在TLC配置下，二者的比特密度分別為29 Gb/mm2和21 Gb/mm2，這再次印證了SK海力士在該領(lǐng)域的落后地位。

此外，BiCS10采用6平面配置，I/O帶寬提升50%。6平面配置有兩種實(shí)現(xiàn)方式：1×6和2×3。SK海力士選擇采用2×3配置，而閃迪和鎧俠則選擇采用1×6配置。

1x6 配置的接地焊盤數(shù)量較少，面積減少了 2.1%。然而，較少的接地焊盤和垂直電源線限制了電源分配。

通過采用 CBA（Cell Bonded Array）架構(gòu)，SanDisk 和 Kioxia 能夠定制 CMOS 晶圓工藝。通過在現(xiàn)有頂層金屬層的基礎(chǔ)上并聯(lián)添加另一層頂層金屬層，他們構(gòu)建了更強(qiáng)大的電源網(wǎng)絡(luò)，并克服了電源分配方面的限制。

堆疊更多芯片是提高存儲(chǔ)密度的關(guān)鍵。然而，在多芯片架構(gòu)中，未選中芯片的空閑電流會(huì)接近已選中芯片的激活電流。SanDisk 采用了一種門控系統(tǒng)，可以完全關(guān)閉未選中芯片的數(shù)據(jù)通路，從而將空閑電流降低了兩個(gè)數(shù)量級(jí)。

聯(lián)發(fā)科 xBIT Logic-based Bitcell

SRAM 微縮已死。盡管邏輯面積從 N5 到 N2 減少了 40%，但 8 晶體管高電流 SRAM 位單元的面積僅減少了 18%。6 晶體管高電流 (6T-HC) 位單元的情況更糟，面積僅減少了 2%。輔助電路的微縮效果更好，但這并非沒有代價(jià)。

眾所周知，N3E 的高密度位單元相比 N3B 有所退步，密度回落至 N5 的水平。本文中，聯(lián)發(fā)科闡述了高電流位單元的相關(guān)情況。N3E 的高電流位單元面積比 N5 增加了 1-2%，密度則從約 39.0 Mib/mm2 下降至約 38.5 Mib/mm2。需要注意的是，這些數(shù)據(jù)并未考慮輔助電路的開銷。

在現(xiàn)代邏輯節(jié)點(diǎn)中，6T 位單元包含 4 個(gè) NMOS 晶體管和 2 個(gè) PMOS 晶體管，而 8T 位單元?jiǎng)t分別包含 6 個(gè)和 2 個(gè) NMOS 晶體管。NMOS 晶體管和 PMOS 晶體管數(shù)量的不等需要特殊的布局規(guī)則，并且會(huì)降低布局效率。聯(lián)發(fā)科的新型位單元 xBIT 是一種包含 10 個(gè)晶體管的單元，它包含 4 個(gè) NMOS 晶體管和 6 個(gè) PMOS 晶體管，或者反過來。這兩種位單元可以組合成一個(gè)矩形塊，包含 20 個(gè)晶體管，可存儲(chǔ) 2 位數(shù)據(jù)。

與PDK的標(biāo)準(zhǔn)8T位單元相比，xBIT的密度提高了22%至63%，在字線寬度較小時(shí)提升最為顯著。功耗也大幅降低，平均讀寫功耗降低了30%以上，0.5V電壓下的漏電降低了29%。在0.9V電壓下，其性能與8T位單元相近；在0.5V電壓下，雖然比8T位單元慢16%，但速度仍然足夠快，不會(huì)成為處理器的瓶頸，而且電壓范圍足夠大，可以進(jìn)行電壓頻率縮放。

聯(lián)發(fā)科還展示了 xBIT 單元的 shmoo 圖表，從 0.35V 時(shí)的 100MHz 到 0.95V 時(shí)的 4GHz。

臺(tái)積電 N16 MRAM

臺(tái)積電在其 N16 節(jié)點(diǎn)上展示了更新的 STT-MRAM，這是基于他們?cè)?ISSCC 2023 上的先前工作。臺(tái)積電將 MRAM 定位為嵌入式非易失性存儲(chǔ)器 (eNVM)，用于汽車、工業(yè)和邊緣應(yīng)用，這些應(yīng)用不需要最先進(jìn)的技術(shù)，而是更注重可靠性。

MRAM 具有雙端口訪問功能，因此可以同時(shí)進(jìn)行讀取和寫入操作——這對(duì)于汽車領(lǐng)域的空中下載 (OTA) 更新至關(guān)重要，因?yàn)橄到y(tǒng)在寫入固件時(shí)不能停止讀取操作。

它采用跨模塊交錯(cuò)讀取的方式，每個(gè)模塊都有獨(dú)立的時(shí)鐘，在 200 MHz 頻率下，吞吐量可提升至 51.2 Gb/s。在硅芯片上，這款 84 Mb 宏芯片在 -40 °C 至 150 °C 的溫度范圍內(nèi)，0.8V 電壓下可實(shí)現(xiàn) 7.5ns 的讀取訪問時(shí)間。

該架構(gòu)采用模塊化設(shè)計(jì)，可配置為 16 MB、8 MB 和 2 MB 的模塊，這些模塊可以組合成 8 MB 到 128 MB 的宏。通過將 16 MB 的大容量模塊與少量 2 MB 和 8 MB 的小容量模塊組合，可以根據(jù)任何設(shè)計(jì)需求對(duì)容量進(jìn)行精細(xì)調(diào)整。例如，5 個(gè) 16 MB 模塊和 2 個(gè) 2 MB 模塊可以組成一個(gè) 84 MB 的宏。

如前所述，可靠性是嵌入式MRAM成敗的關(guān)鍵。在-40°C下經(jīng)過100萬次耐久性循環(huán)后，硬錯(cuò)誤率遠(yuǎn)低于0.01 ppm，完全在ECC糾錯(cuò)范圍內(nèi)。在150°C下，典型讀取電壓下的讀取干擾低于10?22 ppm，幾乎可以忽略不計(jì)。這款168 Mb測(cè)試芯片通過了回流焊，并在150°C下支持20年的數(shù)據(jù)保持，滿足嚴(yán)格的汽車行業(yè)要求。

與同一N16節(jié)點(diǎn)上的舊款MRAM相比，位單元尺寸縮小了25%，從0.033 μm2縮小到0.0249 μm2，宏密度提升至16.0 Mb/mm2等效容量。讀取速度從6 ns降至5.5 ns等效容量，雙端口訪問和交錯(cuò)讀取是全新的技術(shù)。

雖然三星晶圓代工今年也發(fā)布了 8LPP eMRAM 的相關(guān)成果，但臺(tái)積電的方案更有前景。它不僅滿足了所需的功能，性能也十分出色，而且采用的是成本更低的 N16 工藝。

臺(tái)積電已經(jīng)在計(jì)劃推出下一代“Flash-Plus”版本，其比特單元體積縮小25%，耐久性提高100倍。

光網(wǎng)絡(luò)

多家主要光學(xué)設(shè)備供應(yīng)商發(fā)表的論文探討了光互連技術(shù)，該技術(shù)將在下一代 AI 加速器之間（包括數(shù)據(jù)中心內(nèi)部和數(shù)據(jù)中心之間）傳輸數(shù)據(jù)。

Nvidia DWDM

光信號(hào)格式的選擇將影響大規(guī)模共封裝光器件 (CPO) 的上市時(shí)間表。英偉達(dá)正在加緊生產(chǎn) COUPE 光引擎，該引擎支持每通道 200G PAM4，可在近期內(nèi)用于橫向擴(kuò)展交換。

然而，在ISSCC會(huì)議上，英偉達(dá)提出每個(gè)波長(zhǎng)使用32 Gb/s的傳輸速率，采用DWDM技術(shù)復(fù)用8個(gè)波長(zhǎng)。第9個(gè)波長(zhǎng)用于時(shí)鐘轉(zhuǎn)發(fā)，速率減半，即16 Gb/s。

時(shí)鐘轉(zhuǎn)發(fā)意味著可以通過移除時(shí)鐘和數(shù)據(jù)恢復(fù) (CDR) 電路以及其他電路來簡(jiǎn)化 SerDes，從而提高能源效率和芯片海岸線效率。

3月初，就在OFC 2026之前，光計(jì)算互連MSA （OCI MSA）宣布成立，該協(xié)議將專注于200 Gb/s的雙向鏈路，發(fā)送和接收均使用4個(gè)波長(zhǎng)的50G NRZ，這些波長(zhǎng)將在同一根光纖上雙向傳輸。我好像聽到有人提到OCS？

有趣的是，OCI MSA 沒有使用額外的波長(zhǎng)進(jìn)行時(shí)鐘轉(zhuǎn)發(fā)，看來將所有波長(zhǎng)保留用于實(shí)際數(shù)據(jù)傳輸才是首要任務(wù)。

英偉達(dá)已發(fā)表的關(guān)于縱向擴(kuò)展光網(wǎng)絡(luò)（CPO）的大部分研究都集中在密集波分復(fù)用（DWDM）技術(shù)上，但如今的CPO光引擎卻面向200G PAM4動(dòng)態(tài)范圍光網(wǎng)絡(luò)（DR Optics），后者更適用于橫向擴(kuò)展網(wǎng)絡(luò)。OCI MSA以DWDM為核心的縱向擴(kuò)展光網(wǎng)絡(luò)方案解決了這一明顯的矛盾，因?yàn)楝F(xiàn)在很明顯，英偉達(dá)和其他廠商將以DWDM為縱向擴(kuò)展核心，以動(dòng)態(tài)范圍光網(wǎng)絡(luò)為橫向擴(kuò)展核心。

OCI MSA 還展示了不同的實(shí)現(xiàn)方案，包括板載光模塊 (OBO)、通過 ASIC 封裝基板集成的 CPO 版本，以及光引擎直接集成在中介層上的版本。中間圖 (b) 所示的實(shí)現(xiàn)方案將在未來幾年內(nèi)成為 CPO 橫向擴(kuò)展和縱向擴(kuò)展應(yīng)用中最常用的方案，但它仍然需要某種形式的串行鏈路來穿過 ASIC 基板，并且仍然需要在兩端使用某種形式的 SerDes。例如，UCIe-S 可以用作此類傳輸?shù)膮f(xié)議。

現(xiàn)CPO的“最終目標(biāo)”在于將光引擎集成到中介層本身，并通過并行化的芯片間（D2D）連接與ASIC連接，如上圖(c)所示。這將顯著提高海岸線帶寬密度，實(shí)現(xiàn)更高的基數(shù)，并提升能效。因此，這種實(shí)現(xiàn)方式能夠以其他實(shí)現(xiàn)方式無法企及的方式釋放CPO的優(yōu)勢(shì)，但實(shí)現(xiàn)這一目標(biāo)仍需數(shù)年時(shí)間，并且需要先進(jìn)封裝技術(shù)的進(jìn)一步發(fā)展。

Marvell Coherent-Lite 收發(fā)器

Marvell公司推出了一款適用于輕型相干通信應(yīng)用的800G收發(fā)器。傳統(tǒng)收發(fā)器的傳輸距離有限，通常不足10公里。相干收發(fā)器雖然傳輸距離更遠(yuǎn)，但結(jié)構(gòu)復(fù)雜、功耗更高、成本也更高。Marvell的輕型相干收發(fā)器在功耗、成本和傳輸距離之間尋求平衡，非常適合鏈路跨度在幾十公里以內(nèi)的大型數(shù)據(jù)中心園區(qū)。

相干收發(fā)器主要使用C波段波長(zhǎng)，因?yàn)槠渌p低。然而，相干傳輸所應(yīng)用的長(zhǎng)距離鏈路通常具有非常高的色散，需要大量的數(shù)字信號(hào)處理（DSP）。對(duì)于建筑物間距僅為幾十公里的數(shù)據(jù)中心園區(qū)而言，傳統(tǒng)相干光器件的遠(yuǎn)距離傳輸能力往往過剩。

Coherent-Lite 收發(fā)器則使用 O 波段波長(zhǎng)，這種波長(zhǎng)在數(shù)據(jù)中心園區(qū)相對(duì)較短的距離內(nèi)色散接近于零。這可以最大限度地減少 DSP 處理，從而節(jié)省功耗并降低延遲。

Coherent-lite 收發(fā)器是一個(gè)基于 DSP 的可插拔模塊，由兩個(gè) 400G 通道組成。每個(gè) 400G 通道運(yùn)行雙極化 QAM，并由兩個(gè)并行的調(diào)制流 X 和 Y 組成。

本次演示的關(guān)鍵在于重點(diǎn)介紹針對(duì)校園應(yīng)用優(yōu)化的其他信道帶寬擴(kuò)展方法。

采用高階調(diào)制結(jié)合X軸和Y軸雙極化技術(shù)，可實(shí)現(xiàn)400G信道帶寬。如上所示，每個(gè)信道包含8比特，總共32個(gè)星座點(diǎn)。這8比特乘以62.5GBd的信號(hào)速率，等于約400G的總帶寬。

這種調(diào)制方案對(duì)于業(yè)界來說并非完全是新的，但現(xiàn)在它正被引入數(shù)據(jù)中心園區(qū)環(huán)境，用于較短的鏈路。

Marvell 的方法顯著降低了功耗，在不考慮硅光子學(xué)的情況下，功耗僅為 3.72 pJ/b，僅為其他成熟相干收發(fā)器的一半。他們的測(cè)量是在 40 公里的光纖長(zhǎng)度上進(jìn)行的，延遲小于 300 ns。

博通 6.4T 光學(xué)引擎

博通展示了其6.4T MZM光引擎（OE）的最新進(jìn)展，該光引擎采用PAM4調(diào)制，包含64條~100G通道。這些光引擎在Tomahawk 5 51.2T CPO系統(tǒng)中進(jìn)行了測(cè)試。一個(gè)CPO封裝包含八個(gè)6.4T光引擎，每個(gè)光引擎都包含一個(gè)光集成電路（PIC）和一個(gè)電子集成電路（EIC），采用臺(tái)積電N7工藝制造。

英偉達(dá)采用 COUPE 封裝技術(shù)，而博通則為這款 OE 產(chǎn)品采用扇出型晶圓級(jí)封裝 (FWAP)。博通未來將轉(zhuǎn)向 COUPE 封裝技術(shù)，但像這款 OE 這樣的老一代產(chǎn)品目前仍使用其他供應(yīng)鏈合作伙伴。以下是他們演示中取得的令人鼓舞的結(jié)果：

高速電氣互連

隨著多芯片設(shè)計(jì)成為主流，芯片間互連成為關(guān)鍵瓶頸。各大晶圓代工廠和芯片設(shè)計(jì)公司紛紛提出各種方案，旨在通過有機(jī)襯底和先進(jìn)封裝技術(shù)提升帶寬密度和能效。

英特爾 UCIe-S

英特爾發(fā)布了其兼容 UCIe-S 的芯片間 (D2D) 接口。該接口采用 UCIe-S 協(xié)議，單通道傳輸速率最高可達(dá) 48 Gb/s（16 通道），而采用定制協(xié)議時(shí)，單通道傳輸速率最高可達(dá) 56 Gb/s。它采用標(biāo)準(zhǔn)有機(jī)封裝，傳輸距離最遠(yuǎn)可達(dá) 30 毫米。值得一提的是，該接口采用英特爾的 22 納米工藝制造。

在2025年VLSI大會(huì)上，Cadence展示了其基于N3E工藝的UCIe-S芯片間互連技術(shù)。盡管制程工藝處于劣勢(shì)，英特爾在數(shù)據(jù)速率、通道長(zhǎng)度和海岸線帶寬方面仍然超越了Cadence的互連技術(shù)，僅在能效方面略遜一籌。

英特爾展示的互連技術(shù)很可能是其Diamond Rapids Xeon CPU未來將采用的互連技術(shù)的原型。與這款22nm測(cè)試芯片相比，采用英特爾3工藝設(shè)計(jì)的互連技術(shù)效率應(yīng)該會(huì)更高，并有望取代Granite Rapids芯片上采用的EMIB等先進(jìn)封裝技術(shù)。Diamond Rapids由兩顆IMH芯片和四顆CBB芯片組成。由于每顆CBB芯片與兩顆IMH芯片之間都存在較長(zhǎng)的走線，我們認(rèn)為這種互連方式是連接芯片的理想選擇，無需使用EMIB，即可在標(biāo)準(zhǔn)封裝基板上實(shí)現(xiàn)芯片間的無縫連接。

臺(tái)積電有源LSI

臺(tái)積電先進(jìn)封裝事業(yè)部展示了其有源局部硅互連（aLSI）解決方案。與標(biāo)準(zhǔn)的CoWoS-L或EMIB相比，aLSI能夠提升信號(hào)完整性，并降低頂層芯片上PHY和SerDes的復(fù)雜性。

臺(tái)積電展示的器件采用了一款32 Gb/s的類UCIe收發(fā)器。由于大規(guī)模集成電路（aLSI）技術(shù)提高了信號(hào)完整性，收發(fā)器的面積得以縮小，凸點(diǎn)間距也從45 μm減小到38.8 μm。更小的間距以及曼哈頓網(wǎng)格的引入，使得物理層（PHY）深度從1043 μm減小到850 μm，節(jié)省的空間可用于計(jì)算、存儲(chǔ)或I/O，或進(jìn)一步縮小芯片尺寸。需要注意的是，該收發(fā)器只是類UCIe，并非真正的UCIe，因?yàn)閁CIe要求使用六邊形凸點(diǎn)布局，而非此處使用的曼哈頓網(wǎng)格。

隨著設(shè)計(jì)師們?yōu)橄乱淮斯ぶ悄芗铀倨鹘弑M所能地利用每一寸芯片空間，向 aLSI 的轉(zhuǎn)變勢(shì)在必行。

aLSI 的“有源”部分源于用有源晶體管取代橋接芯片中無源的長(zhǎng)距離金屬通道，從而構(gòu)成邊沿觸發(fā)收發(fā)器 (ETT) 電路，以在更長(zhǎng)的傳輸距離內(nèi)保持信號(hào)完整性。這還降低了頂層芯片發(fā)送/接收端口的信號(hào)驅(qū)動(dòng)要求。aLSI 中的 ETT 電路僅增加 0.07pJ/b 的能耗，最大限度地減少了在堆疊芯片中添加有源電路帶來的散熱問題。通過將信號(hào)調(diào)理電路移至橋接芯片，可以使用更小的預(yù)驅(qū)動(dòng)器和時(shí)鐘緩沖器來減小頂層芯片發(fā)送/接收端口的 PHY 面積，并消除接收端對(duì)信號(hào)放大的需求。

該ETT集成了驅(qū)動(dòng)器、交流耦合電容（Cac）、具有正負(fù)反饋的放大器以及輸出級(jí)。信號(hào)經(jīng)過Cac后，會(huì)在信號(hào)轉(zhuǎn)換邊沿引入峰值，這些峰值隨后會(huì)被雙環(huán)路放大器拾取，因此被稱為邊沿觸發(fā)式電路。放大器利用正負(fù)反饋環(huán)路來穩(wěn)定電壓電平。在本設(shè)計(jì)中，對(duì)于1.7 mm的通道長(zhǎng)度，Cac設(shè)置為180 fF，芯片A上的電阻為2 kΩ，芯片B上的電阻為3 kΩ。

這些aLSI橋接器還可以在前端集成嵌入式深溝槽電容（eDTC），以改善對(duì)PHY和D2D控制器的供電。與通過橋接芯片來影響電源網(wǎng)絡(luò)不同，采用eDTC的aLSI可以同時(shí)改善D2D接口的電源和信號(hào)路由。

僅需 388 μm 的海岸線即可滿足 64 條 TX 和 64 條 RX 數(shù)據(jù)通道的需求，總面積僅為 0.330 mm2。信號(hào)布線僅需最上面的兩層金屬層，其余金屬層可用于前端電路。

臺(tái)積電解釋了如何分多個(gè)階段測(cè)試有源LSI。第一階段是已知良好芯片（KGD），僅測(cè)試LSI本身，用于驗(yàn)證芯片性能。第二階段是已知良好堆棧（KGS），將SoC通過LSI連接起來，用于驗(yàn)證堆棧功能。最后階段是已知良好封裝（KGP），對(duì)整個(gè)封裝進(jìn)行全面驗(yàn)證，以驗(yàn)證其功能、性能和可靠性。

他們展示了 KGD 和 KGP 階段的 shmoo 圖，兩者均顯示互連在 0.75V 時(shí)達(dá)到 32 Gb/s，在 0.95V 時(shí)達(dá)到 38.4 Gb/s。

封裝圖顯示包含兩顆SoC芯片和兩顆I/O芯片。有趣的是，該測(cè)試芯片的設(shè)計(jì)似乎與AMD的MI450 GPU類似，包含兩顆相互連接的基礎(chǔ)芯片、12個(gè)HBM4顯存堆疊以及兩顆帶有主動(dòng)式LSI的I/O芯片。不同之處在于，MI450 GPU的每個(gè)HBM4顯存堆疊并非擁有獨(dú)立的主動(dòng)式LSI，而是兩顆HBM4顯存堆疊共用一個(gè)主動(dòng)式LSI。

至于功耗，在 0.75V 電壓下總功耗僅為 0.36 pJ/b，其中主動(dòng)式 LSI 中的 ETT 僅消耗 0.07 pJ/b。以下是與其他 D2D 解決方案的比較。

微軟D2D互連

微軟還詳細(xì)介紹了他們的芯片間互連（D2D）技術(shù)。他們的測(cè)試平臺(tái)包含兩顆芯片和兩對(duì)用于互連的D2D節(jié)點(diǎn)。此外，還搭建了完整的電源傳輸網(wǎng)絡(luò)和布線模型，以模擬時(shí)鐘門控和串?dāng)_。

測(cè)試芯片上的互連線占據(jù)了 532 μm 的海岸線，深度為 1350 μm。測(cè)試芯片采用臺(tái)積電的 N3P 節(jié)點(diǎn)制造，互連線在兩種數(shù)據(jù)速率下進(jìn)行了測(cè)試：0.65V 下的 20 Gb/s 和 0.75V 下的 24 Gb/s。

微軟公布了兩組功耗數(shù)據(jù)，一組包含模擬和數(shù)字系統(tǒng)功耗，另一組僅包含模擬功耗。后者與大多數(shù)芯片間互連的功耗一致。在 24 Gb/s 速率下，系統(tǒng)功耗為 0.33 pJ/b，模擬功耗為 0.226 pJ/b；而在 20 Gb/s 速率下，系統(tǒng)功耗為 0.25 pJ/b，模擬功耗為 0.17 pJ/b?？臻e狀態(tài)下的功耗為 0.05 pJ/b。

微軟還將他們的互連技術(shù)與臺(tái)積電之前針對(duì)其主動(dòng)式LSI所做的相同研究進(jìn)行了比較。

正如我們?cè)谥暗奈恼轮薪忉尩哪菢樱④浀?Cobalt 200 CPU 由兩個(gè)計(jì)算芯片組成，這兩個(gè)芯片通過定制的高帶寬互連線連接。我們認(rèn)為本次演示詳細(xì)介紹了這種互連線。

處理器

從小型移動(dòng)CPU到大型AI加速器，ISSCC首次全面展示了聯(lián)發(fā)科、英特爾、AMD、Rebellions和微軟等公司的架構(gòu)圖。許多產(chǎn)品甚至還展示了芯片實(shí)物圖。

聯(lián)發(fā)科天璣9500

每年，聯(lián)發(fā)科都會(huì)重點(diǎn)展示其旗艦移動(dòng)CPU的不同方面。今年也不例外，今年的移動(dòng)CPU發(fā)布會(huì)聚焦于睿頻加速和散熱管理。

臺(tái)積電為N3E和N3P工藝提供兩種不同的接觸柵間距（CGP）選項(xiàng)：48nm和54nm。大多數(shù)芯片采用的是48nm的窄間距CGP，因?yàn)樗軐?shí)現(xiàn)更小的單元尺寸和更大的芯片尺寸縮小。然而，由于關(guān)鍵尺寸較小，它也面臨著漏電、布線和制造方面的挑戰(zhàn)。

聯(lián)發(fā)科在其天璣9500的C1 Ultra高性能核心上采用了更大的54nm CGP工藝，以提高能效。這使得他們?cè)诮档蜕岬耐瑫r(shí)實(shí)現(xiàn)了更高的性能，在漏電相同的情況下性能提升了4.6%，或在性能相同的情況下功耗降低了3%。

聯(lián)發(fā)科論文的其余部分重點(diǎn)介紹了如何利用未使用的老化預(yù)算和減少熱過沖來優(yōu)化動(dòng)態(tài)性能。最終，他們成功地將睿頻頻率從 4.21 GHz 提升至 4.4 GHz。

Intel 18A-on-Intel 3 混合鍵合

英特爾發(fā)布了其首款混合鍵合芯片 M3DProc。該芯片由一個(gè) Intel 3 下芯片和一個(gè) 18A 上芯片組成。每個(gè)芯片分別包含 56 個(gè)網(wǎng)格單元、核心單元和深度神經(jīng)網(wǎng)絡(luò)加速器單元。這兩個(gè)芯片采用 Foveros Direct 混合鍵合技術(shù)，鍵距為 9μm。

網(wǎng)格單元排列成 14×4×2 的 3D 網(wǎng)格，兩個(gè)芯片共享 SRAM。

英特爾發(fā)現(xiàn)，3D網(wǎng)格結(jié)構(gòu)可將延遲降低近40%，吞吐量提升近40%。他們還測(cè)試了數(shù)據(jù)傳輸?shù)哪苄?，其?D測(cè)試是在底部芯片的56個(gè)網(wǎng)格單元內(nèi)進(jìn)行的，而3D測(cè)試則是在兩個(gè)芯片上相鄰的28個(gè)網(wǎng)格單元內(nèi)進(jìn)行的。結(jié)果表明，混合鍵合互連（HBI）對(duì)能效的影響微乎其微。

每個(gè)Tile有 552 個(gè)焊盤，其中不到一半用于數(shù)據(jù)傳輸，不到四分之一用于供電。

在封裝方面，M3DProc 與 Clearwater Forest (CWF) 類似。CWF 采用 Intel 3 基本芯片，并通過 9μm Foveros Direct 連接到 18A 計(jì)算芯片。

M3DProc 的 3D 帶寬高達(dá) 875 GB/s，而每個(gè) CWF 計(jì)算芯片的帶寬僅為 210 GB/s。該芯片的 3D 片上網(wǎng)絡(luò) (NoC) 具有顯著更高的帶寬密度。CWF 使用 Foveros Direct 將 CPU 核心集群的 L2 緩存與基礎(chǔ) L3 緩存分離，每個(gè)頂層芯片包含 6 個(gè)集群，每個(gè)集群的帶寬為 35 GB/s，因此每個(gè)頂層芯片的總帶寬為 210 GB/s。M3DProc 的 875 GB/s 3D 帶寬通過 56 個(gè)垂直連接進(jìn)行聚合，每個(gè)連接僅需 15.6 GB/s，覆蓋面積卻小得多。

AMD MI355X

AMD 展示了其 MI355X GPU。在以往的會(huì)議演講中，AMD 通常會(huì)重復(fù)之前發(fā)布的消息，只引入一兩項(xiàng)新的信息。但這次的演講在這方面做得更好，詳細(xì)解釋了 MI355X 的 XCD 和 IOD 相較于 MI300X 有哪些改進(jìn)。

AMD詳細(xì)介紹了他們?nèi)绾卧诒３挚偯娣e不變且CU數(shù)量基本不變的情況下，將每個(gè)CU的矩陣吞吐量提高了一倍。首先，當(dāng)然是從N5到N3P的轉(zhuǎn)變；這帶來了晶體管密度提升的大部分。N3P提供的額外兩層金屬層優(yōu)化了布線，從而提高了單元利用率。AMD像之前在N5中那樣，設(shè)計(jì)了自己的標(biāo)準(zhǔn)單元，以針對(duì)其高性能計(jì)算（HPC）應(yīng)用場(chǎng)景優(yōu)化節(jié)點(diǎn)。

他們還采用了更密集的布局算法，類似于 EPYC Bergamo CPU 中使用的 Zen 4c 內(nèi)核比 EPYC Genoa CPU 中使用的 Zen 4 內(nèi)核小得多。

當(dāng)使用多種不同的數(shù)據(jù)格式（例如 FP16、FP8、MXFP4 等）執(zhí)行相同的計(jì)算時(shí)，有兩種方法。第一種方法是使用共享硬件，即所有格式都通過相同的電路進(jìn)行處理。然而，這種方法會(huì)帶來額外的功耗，因?yàn)槊糠N格式的優(yōu)化程度都很低。第二種方法是為每種數(shù)據(jù)格式使用完全不同的電路集進(jìn)行計(jì)算。然而，這種方法會(huì)占用大量額外的空間。當(dāng)然，最佳方法介于兩者之間。這種優(yōu)化是 AMD 重點(diǎn)關(guān)注的領(lǐng)域。

作為采用改進(jìn)型晶體管的下一代工藝節(jié)點(diǎn)，N3P本身就能帶來性能提升。然而，在工藝節(jié)點(diǎn)改進(jìn)之前，AMD就已經(jīng)能夠?qū)㈩l率等效功耗提升5%。他們還設(shè)計(jì)了多種具有不同功耗和性能特性的觸發(fā)器，并根據(jù)用途和架構(gòu)要求，將其部署在芯片的不同區(qū)域。

MI300X 擁有 4 個(gè) I/O 芯片，而 MI355X 則減少到兩個(gè)。通過這種方式，AMD 節(jié)省了芯片間互連的面積。更大的單芯片尺寸改善了延遲，并減少了 SerDes 和轉(zhuǎn)換次數(shù)。此外，通過增加互連寬度，HBM 的效率也得到了提升。節(jié)省下來的功耗可以重新分配給計(jì)算芯片，從而提高性能。

由于芯片面積較大，且芯片上任意兩個(gè)區(qū)域之間都有多種布線方案，AMD 必須投入大量精力來優(yōu)化線纜和互連。通過對(duì)線纜進(jìn)行定制設(shè)計(jì)，AMD 成功將互連功耗降低了約 20%。

Rebellions Rebel100

Rebellions 是一家韓國(guó)初創(chuàng)公司，專注于人工智能加速器。在 ISSCC 大會(huì)上，他們首次公開了其新型加速器 Rebel100 的架構(gòu)圖。與其他通常由臺(tái)積電 (TSMC) 代工的加速器不同，Rebellions 選擇了三星晶圓代工的 SF4X 工藝節(jié)點(diǎn)。由于英偉達(dá) (Nvidia)、AMD、博通 (Broadcom) 等公司占據(jù)了臺(tái)積電的大部分產(chǎn)能，這為他們提供了更大的靈活性。

在2025年Hot Chips大會(huì)上，Rebellions展示了運(yùn)行Llama 3.3 70B固件的芯片。Hot Chips和ISSCC大會(huì)上的規(guī)格參數(shù)保持一致。值得注意的是，該芯片采用了三星的I-CubeS中介層技術(shù)。雖然Hot Chips大會(huì)的幻燈片中提到了臺(tái)積電的CoWoS-S技術(shù)，但我們已澄清幻燈片上的錯(cuò)誤，實(shí)際使用的是I-CubeS技術(shù)。

我們最近提到過，CoWoS-S 的產(chǎn)能限制有所緩解。也就是說，三星可能為了將 I-CubeS 的先進(jìn)封裝技術(shù)與其前端工藝?yán)変N售，提供了大幅折扣，從而使這家初創(chuàng)公司免去了尋找和驗(yàn)證獨(dú)立先進(jìn)封裝供應(yīng)商的麻煩。三星可能還將 HBM的供應(yīng)與使用 I-CubeS 技術(shù)掛鉤。

I-CubeS尚未被任何主流AI加速器采用，這可能是三星試圖打入該市場(chǎng)的嘗試。目前已確認(rèn)的I-CubeS用戶僅有5家：eSilicon、百度、Nvidia、Rebellions和Preferred Networks。

首先是eSilicon采用三星14LPP工藝和HBM2顯存的網(wǎng)絡(luò)ASIC芯片。百度昆侖1加速器與之類似，同樣采用三星14LPP工藝和兩層HBM2顯存。2023年CoWoS-S產(chǎn)能緊張時(shí)，英偉達(dá)曾將少量H200芯片的生產(chǎn)外包給I-CubeS。此外還有Rebel100，以及Preferred Networks計(jì)劃推出的基于SF2工藝的加速器。

Rebel100 采用 4 個(gè)計(jì)算芯片和 4 個(gè) HBM3E 內(nèi)存堆棧。每個(gè)芯片有 3 個(gè) UCIe-A 接口。但是，每個(gè)芯片上只使用了兩個(gè)接口，時(shí)鐘頻率為 16 Gb/s。

Rebellions 聲稱該設(shè)計(jì)可在封裝級(jí)別進(jìn)行重新配置，可以通過添加額外的 I/O 或內(nèi)存芯片來集成以太網(wǎng)，從而實(shí)現(xiàn)規(guī)模擴(kuò)展。剩余的 UCIe-A 接口將用于此用途。

Rebellions公司表示，IO芯片將于2026年第一季度完成流片。但并未提供內(nèi)存芯片的流片時(shí)間表。

他們還在每個(gè) HBM3E 堆疊旁邊集成了硅電容器，以提高 HBM3E 和關(guān)鍵控制模塊的電源質(zhì)量。

微軟 Maia 200

微軟詳細(xì)介紹了他們的 Maia 200 AI 加速器。與其說這是一篇研究論文，不如說它更像是一份白皮書，其中只有一張圖片和一個(gè)規(guī)格表，將 Maia 200 與 Maia 100 進(jìn)行了比較?？紤]到 Maia 200 的許多數(shù)據(jù)都值得懷疑，例如每平方毫米浮點(diǎn)運(yùn)算次數(shù) (flops/mm2) 和每瓦浮點(diǎn)運(yùn)算次數(shù) (flops/w)，這樣的安排也合情合理。

Maia 100 的設(shè)計(jì)始于 GPT 出現(xiàn)之前，而 Maia 200 則面向當(dāng)前的模型時(shí)代，特別是推理領(lǐng)域。今年早些時(shí)候，Maia 200 節(jié)點(diǎn)已在 Azure 上正式發(fā)布。

Maia 200 是目前唯一堅(jiān)持光罩級(jí)單芯片設(shè)計(jì)的芯片。所有主流的配備 HBM 的訓(xùn)練和推理加速器都已轉(zhuǎn)向多芯片設(shè)計(jì)，每個(gè)封裝包含 2 個(gè)、4 個(gè)甚至 8 個(gè)計(jì)算芯片。芯片上的每一平方毫米都針對(duì)特定用途進(jìn)行了高度優(yōu)化。與 Nvidia 或 AMD 的 GPU 不同，Maia 200 沒有用于媒體或向量運(yùn)算的傳統(tǒng)硬件。微軟在臺(tái)積電的 N3P 工藝上將光罩級(jí)單芯片設(shè)計(jì)發(fā)揮到了極致，集成了超過 10 PFLOPs 的 FP4 計(jì)算能力、6 個(gè) HBM3E 堆棧以及 28 條 400 Gb/s 全雙工 D2D 鏈路。

在封裝層面，Maia 200 非常標(biāo)準(zhǔn)，模仿了 H100。它是一款 CoWoS-S 中介層芯片，包含 1 個(gè)主芯片和 6 個(gè) HBM3E 堆疊芯片。

芯片的長(zhǎng)邊各覆蓋 3 個(gè) HBM3E PHY，短邊各有 14 條 400 Gb/s D2D 鏈路（共 28 條）。芯片中心有 272 MB 的 SRAM，其中包含 80 MB 的 TSRAM（L1）和 192 MB 的 CSRAM（L2）。

Maia 200 具有兩種不同的鏈路：同一節(jié)點(diǎn)內(nèi)其他芯片之間的固定鏈路，以及芯片與交換機(jī)之間的交換鏈路。其中 21 條鏈路配置為固定鏈路，每 7 條鏈路連接到其他芯片；其余 7 條鏈路配置為交換鏈路，連接到四個(gè)機(jī)架式交換機(jī)之一。

其他亮點(diǎn)

三星SF2溫度傳感器

三星在SF2上展示了一款緊湊型溫度傳感器，用后端金屬電阻取代了傳統(tǒng)的雙極型晶體管（BJT）方案。這或許不如新一代內(nèi)存或處理器那樣引人注目，但對(duì)于芯片的正常工作而言卻至關(guān)重要。

這種金屬電阻器的薄層電阻比同等規(guī)格的布線金屬電阻器高 518 倍，而所需面積卻只有后者的約 1%。由于它位于上層金屬層，因此為下方的電路留出了充足的空間，并消除了前端工藝 (FEOL) 的面積開銷。雖然它的分辨率較低，但其優(yōu)勢(shì)足以彌補(bǔ)這一不足。

該傳感器采用全堆疊式電容-電阻電路結(jié)構(gòu)，總面積僅為 625 μm2。作為特性明確的 PDK 元件，其特性已由代工廠建模并驗(yàn)證。它更適用于對(duì)工藝偏差控制要求嚴(yán)格的大規(guī)模生產(chǎn)。即使在單個(gè)芯片上，也可以在熱點(diǎn)附近使用數(shù)千個(gè)這樣的傳感器。

如前所述，金屬電阻的溫度系數(shù) (TCR) 較低，僅為布線金屬的 0.2 倍，這限制了傳感分辨率。三星通過增加基極電阻來彌補(bǔ)這一缺陷。然而，由于 RC 時(shí)間常數(shù)增大，這會(huì)延長(zhǎng)傳感時(shí)間。為了解決這個(gè)問題，三星采用了一種時(shí)間偏移壓縮技術(shù)：利用低電阻 (0.1R) 快速充電路徑迅速為 RC 濾波器充電，然后在波形的溫度敏感部分，電路切換到全電阻。

對(duì)于時(shí)間數(shù)字轉(zhuǎn)換 (TDC)，他們用緊湊的基于環(huán)形振蕩器 (RO) 的 TDC 取代了先前工作中使用的大型線性延遲發(fā)生器，將延遲發(fā)生器面積減少了 99.1%。RO 還兼作系統(tǒng)時(shí)鐘，相位交錯(cuò)計(jì)數(shù)可防止非單調(diào)性。

新型溫度傳感器的精度品質(zhì)因數(shù) (FoM) 為 0.017 nJ·%2，優(yōu)于之前基于三星 5LPE、臺(tái)積電 N3E 和英特爾 4 (JSSC 2025) 的同類產(chǎn)品。以往的溫度傳感器只能在面積或速度之間進(jìn)行二選一的優(yōu)化。例如，N3E 上的傳感器面積小巧（900 μm2），但響應(yīng)時(shí)間為 1 ms；而三星 5LPE 上的傳感器速度快（12 μs），但面積巨大（6356 μm2）。

*免責(zé)聲明：本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn)，半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn)，不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持，如果有任何異議，歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4378內(nèi)容，歡迎關(guān)注。

加星標(biāo)??第一時(shí)間看推送

求推薦

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.