原子級制造：AI大模型呼喚你

2025-12-18 10:13:40　來源: 中國物理學(xué)會期刊網(wǎng)

北京舉報

分享至

編者按：最近在南京大學(xué)召開的 Nature 原子制造國際會議上，結(jié)識了本科畢業(yè)于南京大學(xué)、盡情在北美游歷了一番后加入上海交大機(jī)械與動力工程學(xué)院的帥哥教授劉智崑。智崑給人總是一幅激情四射、敏銳激越的style，表達(dá)的觀點新潮而又接地氣。他大概是那種致力于變革性地強(qiáng)化學(xué)術(shù)界和工業(yè)界之間vdW聯(lián)接界面的后生代！

1.引言

人工智能 (Artificial Intelligence, AI) 作為一種特殊的產(chǎn)品與商品，人類對它的需求具有獨特性。這不僅表現(xiàn)在人類對更高智能的渴望是無止境的，且這種需求是極度苛刻的。人類身處相互競爭的社會中，每個人都希望擁有最強(qiáng)的智能工具，哪怕只是比其它工具強(qiáng)那么一點點。

更特別的是，人工智能 AI 具有一種“自催化”的能力。這是說，作為工具，它能加速自身的迭代進(jìn)化，很有一些人類大腦的那般模樣。這種迭代，表現(xiàn)為優(yōu)勢智能體呈現(xiàn)非線性爆發(fā)式發(fā)展，并快速淘汰稍顯落后的智能體。因此，人們對更強(qiáng)人工智能的需求是永不知足的。

然而，是什么在支撐這種爆發(fā)式增長呢？也即是說，在支撐與供給一側(cè)，是什么限制了人們獲得越來越好的人工智能呢？

其中一個重要的物理瓶頸，就是下面要介紹的“存儲墻困境”。

讀者很快就能看到，要掙脫這一困境，高端制造業(yè)，具體而言就是圍繞 AI 芯片系統(tǒng)的高端制造業(yè) (統(tǒng)稱芯片制造)，需要新的制造模式、新的賽道！

2. AI模型與存儲墻困境

2.1. AI模型面臨的困境

主流的 AI 大語言模型 (AI large language models, LLMs)，都是基于 Transformer 架構(gòu)。該架構(gòu)的運作方式，決定了其對硬件資源的特殊需求。觀察 Transformer 的結(jié)構(gòu)，如圖1所示，我們可以看到，它主要由編碼器(Encoder) 和解碼器 (Decoder) 組成。其核心組件包括：(a) 多頭自注意力機(jī)制(Multi-Head Attention) 和 (b) 前饋神經(jīng)網(wǎng)絡(luò) (Feed-Forward Networks) [1]。在數(shù)學(xué)本質(zhì)上，這些組件的運行，依賴于大規(guī)模的矩陣乘法運算。當(dāng)模型進(jìn)行推理或訓(xùn)練時，每一個輸入的 Token，都需要被轉(zhuǎn)換成高維向量，并與模型中數(shù)以千億計的參數(shù)權(quán)重進(jìn)行復(fù)雜的矩陣運算。特別是這個“注意力機(jī)制”，它要求模型在處理每一個詞時，都要回顧上下文中的其他詞，以計算相關(guān)性 (即 Query, Key, Value 的交互)。這意味著，為了生成哪怕一個簡單的字符，硬件都需要在極短的時間內(nèi)訪問并搬運海量的參數(shù)數(shù)據(jù)。

這種架構(gòu)，在算法層面解決了長距離依賴的問題，賦予了 AI 理解上下文的能力。但是，為了這兩個目的而付出的代價是巨大的：它將計算密集型任務(wù)，轉(zhuǎn)化為極度依賴內(nèi)存帶寬的數(shù)據(jù)密集型任務(wù)。這是典型的“芝麻西瓜”之矛盾。

圖 1. Transformer 架構(gòu)，作為一種基于自注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)。它是目前大語言模型的通用底層架構(gòu) [1]。

這種對資源的消耗，使得 Transformer 模型始終處于一種“饑渴”狀態(tài)。很多環(huán)節(jié)實際上是在白白“刷新”而耗費算力，以等待數(shù)據(jù)傳輸完成。

不過，AI 學(xué)界那些既極度勤奮又絕頂聰明的人們，開始試圖尋找新途徑。

隨著 Scaling Law 生效，這些 AI 人們發(fā)現(xiàn)，模型越大、參數(shù)越多，則智能涌現(xiàn) (intelligence emergence) 的效果越好。這，直接導(dǎo)致了模型參數(shù)量從早期的幾億，爆炸式地增長至萬億級別。而這個所謂的早期或晚期，無非是幾年時間而已。對于存儲容量而言，必須有足夠大的顯存，來一次性地裝載這些龐大的權(quán)重矩陣。否則，模型根本無法運行。

更為關(guān)鍵的，是帶寬。尤其是在生成式任務(wù) (如GPT系列) 中，模型是自回歸的，即每次生成一個新詞都需要重新調(diào)用整個模型的權(quán)重進(jìn)行計算。從這個意義上，系統(tǒng)似乎并不“智能”呢，至少不如自我感覺上的人腦智能^_^。得益于 Tensor Core 等專用計算單元的飛速發(fā)展，現(xiàn)代硬件在處理大規(guī)模算術(shù)運算時，速度已顯著提升。許多計算任務(wù)，僅需寥寥數(shù)個時鐘周期即可完成。然而，如果內(nèi)存帶寬不足，系統(tǒng)運行就猶如用一根細(xì)的吸管去吸干大海，無論 GPU 的計算核心 Tensor Core 有多快，它們都會因為等待數(shù)據(jù)從內(nèi)存?zhèn)鬏斶^來而處于空閑狀態(tài)。正如阿姆達(dá)爾定律 (一個關(guān)于提升程序運行速度的定量公式) 所述：系統(tǒng)的整體速度，不再取決于計算單元有多快，而是受限于最慢的那個環(huán)節(jié)——也就是內(nèi)存數(shù)據(jù)的傳輸速度。

圖 2. 硬件的峰值算力增長，顯著快于內(nèi)存帶寬的增長。如此，形成了算力與帶寬之間巨大的“剪刀差”[3]。

2.2. 所謂“存儲墻”

如此，就引出了著名的“存儲墻”(Memory Wall) 危機(jī)。這一概念，最早在 1995 年由 Wulf 和 McKee 提出[2]，如今已成為制約 AI 發(fā)展的核心痛點。

依據(jù) Gholami 等人的研究數(shù)據(jù)[3]，如圖 2 所示。在過去的二十年里，服務(wù)器硬件的峰值算力 (floating point operations per second, FLOPS)，以每兩年約 3 倍的速度狂飆，累計增長了驚人的 60,000 倍。相比之下，動態(tài)隨機(jī)存儲器 (dynamic random access memory, DRAM) 的內(nèi)存帶寬增長，卻步履蹣跚，每兩年僅增長 1.6 倍，同期總增長約 100 倍。而互連帶寬的增長，更為緩慢，約30倍，正如老牛拉磨，而旁邊卻是呼嘯而過的京滬高鐵。

這種算力與帶寬之間巨大的“剪刀差”，導(dǎo)致極度不平衡的系統(tǒng)瓶頸。更為嚴(yán)峻的是，AI 模型的需求增長速度，遠(yuǎn)超硬件摩爾定律。Transformer模型的訓(xùn)練算力需求，以每兩年 750 倍的速度爆炸式增長，模型參數(shù)量也以每兩年 410 倍的速度擴(kuò)張。摩爾定律所預(yù)言的、單 GPU 內(nèi)存容量的增長，卻僅為每兩年 2 倍左右。事實上，這些年，摩爾定律也不準(zhǔn)了，實際進(jìn)展已經(jīng)落后于摩爾定律的預(yù)言。

這種供需關(guān)系的極度錯配，使得“存儲墻”問題在大模型時代被急劇放大。再說一遍，對于依賴自回歸生成機(jī)制的 Decoder 模型 (如GPT系列)，其算術(shù)強(qiáng)度往往較低，意味著每次微小的計算都需要伴隨大量的數(shù)據(jù)搬運。這種架構(gòu)上的錯位，導(dǎo)致了嚴(yán)重的資源浪費。最新的統(tǒng)計數(shù)據(jù)[4] 使得問題更為嚴(yán)峻：在當(dāng)下的傳統(tǒng)架構(gòu)中，高性能處理器甚至可能有超過 60 % 的時間處于等待數(shù)據(jù)的“空轉(zhuǎn)”狀態(tài)，以等待那數(shù)據(jù)搬運過程。更糟糕的是，數(shù)據(jù)搬運不僅耗時，還極其耗能：將數(shù)據(jù)從內(nèi)存移動到計算單元的能耗，往往比執(zhí)行浮點運算本身的能耗高出“幾個數(shù)量級”。

這種因存儲系統(tǒng)無法匹配處理器數(shù)據(jù)吞吐需求而導(dǎo)致的性能瓶頸，不僅限制了計算速度，更成為制約當(dāng)前 AI 大語言模型能效比和規(guī)模拓展的關(guān)鍵物理障礙。

2.3. HBM 的極限拉扯

為克服這一困難，AI 相關(guān)的學(xué)界、業(yè)界，開始嘗試從架構(gòu)和封裝技術(shù)上尋找突破口。其中最核心的解決方案，便是高帶寬內(nèi)存 (high bandwidth memory, HBM) 技術(shù)。HBM 的設(shè)計初衷，是為解決傳統(tǒng) DDR 內(nèi)存 (double data rate memory) 帶寬不足的問題。它通過硅通孔(through silicon vias packaging, TSV) 技術(shù)，將多個 DDR 芯片垂直堆疊在一起，如圖 3 所示，從而在極小的物理空間內(nèi)實現(xiàn)巨大的存儲容量和帶寬。與傳統(tǒng)的 GDDR (graphics double data rate) 顯存相比，HBM 采用了極寬的接口設(shè)計(通常為 1024 位)。雖然單引腳的時鐘頻率較低，但通過并行傳輸海量數(shù)據(jù)，系統(tǒng)實現(xiàn)了極高的總帶寬。

這種架構(gòu)，不僅顯著提升了數(shù)據(jù)吞吐量，還通過降低工作電壓和縮短信號傳輸距離，有效提高了能效比，使其成為高性能計算和 AI 加速器的核心組件。

圖 3. 淺藍(lán)色部分就是高帶寬內(nèi)存(HBM) [5]。

為進(jìn)一步滿足未來萬億參數(shù)模型訓(xùn)練與推理對極致性能的渴望，HBM 技術(shù)正經(jīng)歷著從架構(gòu)到封裝工藝的深刻變革，旨在突破現(xiàn)有的帶寬與容量[6]。如下所列，乃筆者了解到的幾個層次之挑戰(zhàn)：

(1) 目前的 HBM3E (美光Micron公司為 AI 研發(fā)的第三代專用高端 HBM)，已能實現(xiàn)驚人的性能。單顆芯片帶寬超過1.18 TB/s，相較于前代提升顯著，且能在8層堆疊下提供 24 GB 容量、或在 12 層堆疊下實現(xiàn) 36 GB 的超大容量。

(2) 下一代 HBM4 (第四代 HBM)，則計劃引入更為激進(jìn)的變革。其接口位寬，預(yù)計將從目前的 1024 位翻倍至 2048 位，從而在降低單引腳頻率壓力的同時，將總帶寬推升至 1.65 TB/s、甚至 2 TB/s 以上。

(3) 封裝技術(shù)，則計劃從微凸塊(Micro-bump) 向混合鍵合(Hybrid Bonding) 跨越。傳統(tǒng)的微凸塊技術(shù)，在處理更小間距 (Pitch) 和更高層數(shù)時，面臨電阻升高和散熱困難的物理局限。而混合鍵合技術(shù)，通過銅-銅直接連接，消除了凸塊間的微小縫隙，不僅大幅降低垂直互連的電阻和寄生電容，還有效減小了芯片的堆疊高度。這些改進(jìn)，使得在嚴(yán)格的封裝厚度限制 (如 720 μm) 下，可以實現(xiàn) 16 層、甚至更高的 DRAM 晶粒堆疊，從而使得單顆HBM 容量有望達(dá)到 48 GB。

(4) 最后，為應(yīng)對隨之而來的功耗挑戰(zhàn)，未來的 HBM 基底裸片，將采用先進(jìn)的邏輯工藝制造。這一技術(shù)，能將核心電壓從 1.1 V 降低至 0.8 V 以下，從而抵消帶寬增加帶來的功耗上升，并顯著改善密集堆疊帶來的散熱問題。

然而，隨著 HBM 堆疊層數(shù)邁向 16 層以上，硅通孔 TSV 技術(shù)在晶圓減薄良率及穩(wěn)定性上面臨物理極限。在此背景下，單片 3D DRAM (Monolithic 3D DRAM) 作為一種顛覆性技術(shù)路徑，應(yīng)運而生。它一改傳統(tǒng) DRAM 單純依賴平面特征尺寸微縮的發(fā)展路徑，借鑒 3D NAND 閃存的成功理念，轉(zhuǎn)向垂直方向維度擴(kuò)展：在同一片晶圓上，連續(xù)制造多層存儲單元——概念上簡單粗暴，制造上崎嶇艱難！

這一路徑，與 HBM 存在本質(zhì)的區(qū)別。HBM 主要是一種系統(tǒng)級封裝技術(shù)。它依靠微凸塊和硅通孔 (TSV) 技術(shù)，將多個獨立的、已制造完成的 2D DRAM 裸片進(jìn)行物理堆疊。這一堆疊，受限于TSV 微米級尺寸限制和封裝總高度限制。而單片 3D DRAM，則是晶體管級的工藝集成。其中層與層之間的互連，采用光刻定義的納米級通孔，徹底摒棄了龐大的TSV 和復(fù)雜的鍵合工藝，從而實現(xiàn)極高的垂直互連密度和更優(yōu)的寄生參數(shù)控制。讀者不妨稍微去了解一下這些變革進(jìn)程，便能感覺到其中巨大的潛力！

圖 4. 單片 3D DRAM (Monolithic 3D DRAM)。(a) 垂直字線；(b) 垂直位線[7]。

在具體的技術(shù)實現(xiàn)方案中，水平1T1C (one-transistor, one-capacitor) 架構(gòu)被寄予厚望。如圖 4 所示，通過垂直字線 (vertical wordline, VWL) 或位線 (vertical bitline, VBL) 的微觀配置，該架構(gòu)在極小空間內(nèi)實現(xiàn)了高密度存儲。據(jù)文獻(xiàn)[7] 論述，以128 層堆疊為例，VWL 和 VBL 配置的存儲密度分別達(dá) 1.3 GB/mm2 和 1.05 GB/mm2，較先進(jìn)的 1b 節(jié)點 2D DRAM (約 0.455 GB/mm2) 提升約 2.3 至 2.8 倍。這種設(shè)計，不僅打破了傳統(tǒng)平面微縮的物理瓶頸，還通過 CUA (computer use agent) 異構(gòu)集成技術(shù)，將邏輯電路置于存儲陣列下方，大幅縮短數(shù)據(jù)路徑。相關(guān)模擬讀寫能耗僅為 3.37 - 3.54 pJ/bit，令人印象深刻。基于該文作者的假設(shè)性設(shè)計與模擬推導(dǎo)顯示，在 Llama2-7B [a transformer-based language model developed by Meta with 7 billion parameters, trained on 2 trillion tokens with a 4,096-token context length] 訓(xùn)練任務(wù)中，這種基于 H1T1C 的 AI 加速器較基準(zhǔn)系統(tǒng)，可實現(xiàn)超 2 倍、甚至近 2.5 倍的吞吐量提升。這一勢頭，為未來突破“內(nèi)存墻”和顯存容量瓶頸，提供了一條革命性的硬件演進(jìn)路徑。

這種深刻變革，必定且已經(jīng)給當(dāng)下芯片制造技術(shù)帶來難以逾越的技術(shù)壁壘。按照那些致力于在芯片產(chǎn)業(yè)摸爬滾打的人們之性情，尋求新的制造業(yè)舉措，范式也好、賽道也罷，只管向前！

其中之一大一點即燃的賽道，就是“原子級制造”。本公眾號號主Ising老師，最近才寫過一篇科普文字《》，其中亦從不同視角提到這一主題。

本文不打算將原子級制造渲染個遍，只是針對 AI 的呼喚，摘取兩段“滄海桑田”小片段，放在這里給讀者茶余飯后觀摩、把玩。

3.原子制造之混合鍵合

第一段小片段，即混合鍵合 (hybrid bonding)。

上文論及 HBM 封裝技術(shù)時，已提及混合鍵合這一概念?；旌湘I合是一種革命性的無凸塊 (Bumpless) 三維集成互連技術(shù)。它摒棄了傳統(tǒng)的焊料介質(zhì)，直接利用介質(zhì)層之間的分子引力來實現(xiàn)晶圓或芯片間的垂直堆疊。而電極間的連接，則借助銅金屬間的原子擴(kuò)散來實現(xiàn)。此所謂“混合”之鍵合！

該技術(shù)的核心，在于同時形成兩種界面的鍵合：

(1) 一是介質(zhì)層與介質(zhì)層之間的鍵合。主要在室溫下通過范德華力或氫鍵形成，以提供機(jī)械支撐和電氣隔離。利用極度原子級光滑的拋光平面，一些研發(fā)單位可以實現(xiàn)大晶圓級的介質(zhì)鍵合。

(2) 二是作為電極的銅與銅之間的金屬鍵合。借助后續(xù)熱退火工藝，促使銅原子擴(kuò)散融合，實現(xiàn)高效的電信號傳輸，如圖 5 所示。

這種獨特的“混合”連接方式，極大地縮短了互連路徑，降低了電阻和電感寄生效應(yīng)，并使得互連密度能突破傳統(tǒng)封裝的極限，成為高性能計算和異構(gòu)集成的關(guān)鍵賦能技術(shù)。

圖 5. 混合鍵合過程，包括了介質(zhì)層與介質(zhì)層之間的鍵合、銅- 銅金屬的鍵合[5]。

3.1. 精度、精度

在這一工藝中，化學(xué)機(jī)械拋光 (chemical mechanical polishing, CMP)，是至關(guān)重要的一環(huán)。界面原子鍵合，不僅需要實現(xiàn)表面的全局平坦化，還必須精確控制銅焊盤相對于介質(zhì)表面的凹陷以及整體的表面粗糙度。理想的混合鍵合界面，要求介質(zhì)表面極其平滑，而銅焊盤則通常需要微小的凹陷或略微的突出，以便在后續(xù)的熱退火過程中利用銅的熱膨脹特性實現(xiàn)緊密的金屬鍵合。

這是一對矛盾：既要平滑，又要凹陷，還都要原子級！這種對微觀形貌的極致控制，直接決定了鍵合的良率和電氣性能，構(gòu)成了混合鍵合工藝的核心挑戰(zhàn)。

在此背景下，隨著對 I/O 密度的需求呈指數(shù)級增長，互連間距 (pitch size) 正在從微米級向亞微米級迅速微縮。這一發(fā)展，對銅凹陷的控制提出了更為嚴(yán)苛的“原子級”要求。相關(guān)研究數(shù)據(jù)及圖表顯示，接觸面積與間距及凹陷深度之間，存在著緊密的制約關(guān)系。以當(dāng)前“混合鍵合”的一個典型標(biāo)準(zhǔn)為例：當(dāng)間距為5 微米時，通?？扇萑碳s 5 nm 的銅凹陷。此時，工藝窗口相對較寬。然而，當(dāng)間距進(jìn)一步縮小，銅焊盤體積隨之減小，熱膨脹帶來的突起量將不足以填補(bǔ)較大的凹陷。由簡單的計算可推估，當(dāng)間距縮小 10 倍時，為保證足夠的接觸面積，銅的凹陷深度須減小約 1 個數(shù)量級。這意味著在亞微米間距下，銅凹陷必須控制在很小的范圍內(nèi)(例如 2 nm 以內(nèi))，甚至是接近原子級的高度差。

為應(yīng)對這一挑戰(zhàn)，制造界在混合鍵合的原子級制造方面，已取得很大進(jìn)展。以相關(guān)研發(fā)機(jī)構(gòu) IMEC 為例 [8]，其發(fā)展的2 μm 間距Die-to-Wafer (D2W) 鍵合工藝，展示了卓越的表面控制能力。即便在經(jīng)歷了晶圓減薄和等離子切割等極具挑戰(zhàn)性的后續(xù)工藝步驟后，IMEC 依然能通過引入創(chuàng)新的無機(jī)表面保護(hù)層技術(shù)，成功避免銅表面的氧化和損傷，將銅凹陷穩(wěn)定保持在約 2 nm 水平。這一數(shù)值，與初始 CMP 工藝得到的 1.5 nm 相當(dāng)，證明通過先進(jìn)的工藝整合，可以在復(fù)雜的制造流程中維持鍵合表面的原子級質(zhì)量，展示了亞微米級互連的可能。

除了對銅焊盤形貌的精準(zhǔn)把控，表面粗糙度的控制同樣是決定鍵合質(zhì)量的關(guān)鍵因素，且已達(dá)到原子級水平。最新的綜述與實驗數(shù)據(jù)指出[9]，為確保無孔洞的高質(zhì)量鍵合，絕緣介質(zhì)層(如 SiO2 或 SiCN) 的表面粗糙度，通常需要嚴(yán)格限制在 0.5 nm 以下。在一些先進(jìn)制程探索中，通過優(yōu)化 CMP 工藝，甚至可實現(xiàn)小于 0.2 nm 至 0.3 nm 的表面粗糙度。例如，針對 SiCN 介質(zhì)層的 CMP 技術(shù)，在工藝優(yōu)化后，得到的樣品其表面粗糙度可穩(wěn)定在 0.4 nm左右。這種極致的平滑度，對于防止界面空洞的形成、確保氣密性、提高鍵合強(qiáng)度，至關(guān)重要。而這種極致的平滑度，令人驚嘆不已，畢竟一個原子也就 0.2 nm 的大小，標(biāo)志著半導(dǎo)體制造已全面進(jìn)入原子級精準(zhǔn)把控表面形貌時代。

3.2. 量測、量測

然而，面對這種逼近原子級制造精度的挑戰(zhàn)，傳統(tǒng)的量測手段已難以滿足大規(guī)模量產(chǎn)的需求。傳統(tǒng)的原子力顯微鏡 (atomic force microscopy, AFM) 雖然精度高，但掃描速度過慢，無法作為在線量測工具。另一方面，光學(xué)檢測手段，在垂直分辨率上又往往力不從心。

為解決這一瓶頸，Nearfield Instruments 推出的 QUADRA 系統(tǒng)，代表了未來的方向之一[10]。這是一種變革性的、高通量掃描探針量測系統(tǒng)。它創(chuàng)新性地采用了4 個微型AFM 探頭并行工作的架構(gòu)，如圖 6 所示。這種設(shè)計，使得QUADRA 能夠在保持原子級分辨率的同時，成倍地提高檢測速度。實驗證明，這一技術(shù)在用于混合鍵合量測 Cu 凹陷和表面粗糙度時，能將量測速度提升到每小時 10 片晶圓片的水平。

這一效率，雖然還有些差強(qiáng)人意，但作為半導(dǎo)體技術(shù)發(fā)展催生原子級制造設(shè)備的一典型案例，依然具有顯示度。誠然，僅僅是 QUADRA 系統(tǒng)顯然是不夠的，適合原子級制造的表征技術(shù)，任重而道遠(yuǎn)！

圖 6. Nearfield Instruments 的4 探頭 AFM 設(shè)備 QUADRA [10]。

4.原子制造之Monolithic 3D DRAM示例

第二段小片段，是存儲器制造。

原子級制造在 AI 芯片這一領(lǐng)域突飛猛進(jìn)之前，預(yù)計須克服動態(tài)隨機(jī)存取存儲器 DRAM 技術(shù)向三維垂直堆疊架構(gòu)演進(jìn)所遭遇的巨大壁壘。事實上，原子級制造技術(shù)，的確也展示出不錯的勢頭，正成為實現(xiàn)下一代高密度存儲的一大核心驅(qū)動力。

以 Monolithic 3D DRAM 中電容器的集成制造為例。這一復(fù)雜過程，涉及了極為精密的 12 步工藝流程 [11]，如圖 7 所示。

制造流程，始于 Si/SiGe 超晶格疊層的外延生長。隨后，通過對 SiGe 層的回蝕形成初始溝槽，并利用原子層沉積 (atomic-layer deposition, ALD) 填充 SiO2 作為支撐介質(zhì)。緊接著，通過原子層蝕刻 (atomic-layer etching, ALE)，回蝕 SiO2并在隨后的步驟中對 Si 層進(jìn)行回蝕，從而為電極形成創(chuàng)造空間。在形成 TiN 接觸后，工藝進(jìn)入更為精細(xì)的階段，包括 SiN 的 ALD 填充與 ALE 回蝕、SiO2 的再次 ALE 回蝕，以及 SiN 去除這關(guān)鍵一步。最終，在這一極度復(fù)雜的納米結(jié)構(gòu)中，依次通過 ALD 技術(shù)沉積 High-k 介質(zhì)層、TiN 電極層以及金屬鎢，完成電容器的構(gòu)建。

整個流程包含了 6 次 ALD 沉積和 6 次各向同性選擇性蝕刻。每一步，都要求極高的精度，以確保垂直堆疊結(jié)構(gòu)的完整性與電學(xué)性能。

以上制程步驟的關(guān)鍵，在于“保形性”與“選擇性”。這是 ALD 和 ALE 技術(shù)在 3D DRAM 制造中不可替代的原因。與此同時，隨著集成密度不斷攀升，器件結(jié)構(gòu)內(nèi)的空間越發(fā)狹小。越是這種極端的空間限制，就越需要依賴 ALD 和 ALE 技術(shù)。對此感興趣的讀者，可點擊御覽科普文《》，以作稍微詳細(xì)一些的了解。

圖 7. Monolithic 3D DRAM 中電容器制備的 12 步工藝流程 [11]，整個流程包含了 6 次原子層沉積和 3 次原子層刻蝕。

與之相比，傳統(tǒng)的沉積與蝕刻技術(shù)，在面對 3D 集成所需的側(cè)向加工時，已逼近物理極限、難以為繼。此情此景，原子級制造技術(shù)不可以再“猶抱琵琶半遮面”，必須走到前臺開始“朗朗式”的 (piano) 演出了^_^。

原子級制造工藝的成敗，除了取決于技術(shù)架構(gòu)外，也取決于基礎(chǔ)材料：即作為器件核心骨架的 Si/SiGe 超晶格結(jié)構(gòu)質(zhì)量與一致性。Si/SiGe 超晶格結(jié)構(gòu)，是一種通過精細(xì)的外延生長工藝、在晶圓上交替堆疊 Si 與 SiGe 納米薄膜而形成的“千層蛋糕”式多層結(jié)構(gòu)。它的核心作用是利用 SiGe 層作為“犧牲層”，在制造過程中將其選擇性腐蝕掏空，從而釋放出橫向懸空的Si 層作為導(dǎo)電通道。

依據(jù)關(guān)于 200 周期 Si/SiGe 超晶格生長的研究分析[12]，在 Si 襯底上構(gòu)筑總厚度達(dá) 8.9 微米的超多層結(jié)構(gòu)，是一項極具挑戰(zhàn)性的工程。實驗數(shù)據(jù)揭示出至少如下幾點對工藝精度的嚴(yán)苛要求：

(1) 為保障最終器件性能，Si 溝道層的厚度必須被精確鎖定在 36.7 ± 2.1 nm 之間，其厚度標(biāo)準(zhǔn)差需控制在 0.77 nm 。

(2) 作為犧牲層的 SiGe 層厚度則需維持在約 8.8 nm。

(3) 在組分控制上，盡管目標(biāo) Ge 濃度為 20 %，實際生長中仍需將波動控制在 19.1 ± 1.7 % 范圍內(nèi)。這種優(yōu)于 1 % 的濃度均勻性，是確保后續(xù)高選擇比蝕刻工藝窗口的關(guān)鍵。

(4) 整個制造過程中的熱預(yù)算管理，亦至關(guān)重要。長時間在 675 °C 高溫生長，會誘發(fā)超晶格中 Ge 原子偏析，導(dǎo)致底部界面寬度展寬至約 4.05 nm (頂部為 3.77 nm )。

綜上所述，這種對超晶格生長過程中原子級偏差的極限控制，構(gòu)成了后續(xù) 12 步復(fù)雜制造工藝得以實施的基石。

當(dāng)然，Monolithic 3D DRAM 在尺寸和材料品質(zhì)上要求如此高精，在立體結(jié)構(gòu)搭建上要求如此紛繁復(fù)雜，其制造過程對量測技術(shù)提出的更高的、顛覆性挑戰(zhàn)，迫使工業(yè)界必須放棄傳統(tǒng)的表面計量思維。根據(jù) ASML 的先進(jìn)量測技術(shù)報告分析[13]，傳統(tǒng)的 CD-SEM 和可見光光學(xué)量測，主要局限于表面成像。面對動輒數(shù)百層、厚度達(dá)數(shù)微米的 3D 堆疊結(jié)構(gòu)，這些技術(shù)無法觸及深埋于體內(nèi)的結(jié)構(gòu)特征。例如，側(cè)向凹槽的深度或隱藏的空洞表征鑒定，就是棘手問題。這里，不僅僅是精度的提升，更是探測物理模式的根本轉(zhuǎn)變。

為了“看穿”這些不透明的復(fù)雜結(jié)構(gòu)，整個芯片制造行業(yè)正在轉(zhuǎn)向高能物理手段：利用高著陸能量的掃描電子顯微鏡，通過背散射電子對材料原子序數(shù)的敏感性，實現(xiàn)深層內(nèi)部結(jié)構(gòu)(如金屬填充或空腔)的穿透式成像和量測，從而在不破壞樣品的前提下精準(zhǔn)監(jiān)控側(cè)向蝕刻的進(jìn)程。同時，軟X 射線散射測量，作為一種新興技術(shù)，利用其極短的波長 (10 – 20 nm) 穿透性(也就是 X 射線對穿越深度的敏感性)，能重建復(fù)雜的 3D 輪廓和層間對準(zhǔn)誤差。

此外，針對晶圓鍵合界面，也必須采用對硅透明的紅外 (IR) 顯微術(shù)，甚至利用聲波 (scanning acoustic microscopy, SAM) 來檢測深處的微小缺陷。量測技術(shù)，已從單純的“表面拍照”，進(jìn)化為對芯片內(nèi)部進(jìn)行“無損斷層掃描”般深度感知。

5.結(jié)語

作為這篇簡短而“匆忙”的短文結(jié)尾，筆者愿意和讀者們一起緬懷物理學(xué)家理查德·費曼。他六十多年前曾作出那句著名的預(yù)言“There's plenty of room at the bottom”，指出了微觀尺度下物理操控的無限可能。然而，與費曼那種以“技術(shù)可行性”為中心的視角不同，本文的鮮明特點在于，確立以“需求”為中心論述“原子級制造”的必然邏輯。

人類對“智能”永無止境的渴求，正推動著AI 大模型參數(shù)向萬億級狂奔。這種對算力與存力的極致貪婪，一方面可能讓一些讀者感覺是“傻大粗”式硬算，使得在傳統(tǒng)計算架構(gòu)中已岌岌可危的“存儲墻”危機(jī)更為嚴(yán)峻；另一方面，為了延續(xù)智能的進(jìn)化，半導(dǎo)體行業(yè)目前似乎又別無選擇，必須從二維平面微縮被迫轉(zhuǎn)向三維空間堆疊與原子尺度重構(gòu)。無論是未來 HBM 的混合鍵合，還是單片 3D DRAM 的精密原子層沉積，都不是為了探索技術(shù)的無限可能，而是因為只有逼近底部的原子世界，才能承載人類對人工智能日益膨脹的野心。

在這樣的大趨勢下，當(dāng)前產(chǎn)業(yè)界最急迫的需求，已不僅僅是制造工藝的突破，而是發(fā)展多種、不同能力的先進(jìn)量測技術(shù)。原子級精度與復(fù)雜的 3D 深孔結(jié)構(gòu)，給工業(yè)生產(chǎn)帶來了前所未有的良率挑戰(zhàn)。在實驗室里造出一顆芯片是一回事，在工廠里大規(guī)模、高良率地生產(chǎn)千萬顆芯片則完全是另一回事。很顯然，在生產(chǎn)流程中顯著增加量測的比重，用“火眼金睛”去透視那些深埋在多層堆疊下的原子級缺陷，將變成 AI 芯片制造難以繞過的萬水千山。前文提到的多探針 AFM 系統(tǒng)與高能電子束量測，代表著量測技術(shù)的范式轉(zhuǎn)變之初端。只有當(dāng)具備穿透力的高通量量測技術(shù)與原子級制造工藝并駕齊驅(qū)，才能確保每一顆流向市場的 AI 芯片都經(jīng)得起考驗，真正滿足智能時代對算力基座的龐大需求。

最后指出，本文描述可能多有夸張、不周之處，敬請讀者諒解。成熟芯片制造，就是大工程了，再來個極致算力的 AI 芯片制造，非極盡原子級制造之能事，大概難以承載。謹(jǐn)以此文，向“原子級制造”新賽道致敬！

6.參考文獻(xiàn)

[1] A. Vaswani et al., "Attention is all you need," in Advances in Neural Information Processing Systems (NIPS), pp. 5998–6008, 2017.

[2] W. A. Wulf and S. A. McKee, "Hitting the memory wall: Implications of the obvious," ACM SIGARCH Computer Architecture News, vol. 23, no. 1, pp. 20–24, 1995.

[3] A. Gholami et al., "AI and memory wall," IEEE Micro, vol. 44, no. 3, pp. 33–39, 2024.

[4] C. Wolters et al., "Memory is all you need: An overview of compute-in-memory architectures for accelerating large language model inference," arXiv preprint arXiv:2406.08413, 2024.

[5] C. Y. Lee et al., "3D integrated process and hybrid bonding of high bandwidth memory (HBM)," Electronic Materials Letters, vol. 21, no. 3, pp. 395–419, 2025.

[6] K. Kim and M. Park, "Present and future, challenges of high bandwidth memory (HBM)," in IEEE International Memory Workshop (IMW), Seoul, Korea, 2024.

[7] P. Hsu et al., "Monolithic 3D stackable DRAM," IEEE Nanotechnology Magazine, vol. 19, no. 2, pp. 7–16, 2025.

[8] Y. Lin et al., "2 μm pitch direct die-to-wafer hybrid bonding using surface protection during wafer thinning and die singulation," in IEEE Electronic Components and Technology Conference (ECTC), 2025.

[9] X. Li et al. “Mechanical planarization process in hybrid bonding technology,” ASME Journal of Electronic Packaging, vol.147, no.030801, pp. 1–16, 2025

[10] M. Van Reijzen et al., "Recent advancements in atomic force microscopy," in Proc. SPIE, vol. 11611, Art. no. 116112E, 2021.

[11] T. Lill and H. Singh, "Use of ALD and selective isotropic etch / ALE in the manufacturing of advanced logic and memory devices," presented at PPPL Summer School, 2025.

[12] X. Liu et al., "200 period Si/SiGe superlattice structure growth and characterization for vertical stacked DRAM," Appl. Phys. Lett., vol. 126, Art. no. 232101, 2025.

[13] E. De Poortere, "Advanced metrology for next generations of stacked devices and systems: Challenges and opportunities," in IEEE International Electron Devices Meeting (IEDM), 2024.

AI的呼喚

浪潮奔涌須強(qiáng)算

數(shù)海凝川賴記功

未有精工原子術(shù)

智能爭逐一場空

(1) 筆者劉智崑，任職于上海交通大學(xué)機(jī)械與動力工程學(xué)院和微納工程科學(xué)全國重點實驗室。課題組主頁見：https://me.sjtu.edu.cn/teacher_directory1/liuzhikun.html。

(2) 小文標(biāo)題“原子級制造：AI大模型呼喚你”乃宣傳式的言辭，不是物理上嚴(yán)謹(jǐn)?shù)恼f法。這里只是表達(dá) AI 大模型及其產(chǎn)業(yè)在未來產(chǎn)業(yè)中的強(qiáng)勢地位預(yù)期，給原子級芯片制造提出了不斷加速、不斷溢出的嚴(yán)苛要求。原子級制造，不得不發(fā)。

(3) 文底和封面圖片均來自美劇 foundation《基地》的截圖。文底小詞寫 AI 對原子級制造的渴望！

本文轉(zhuǎn)載自《量子材料QuantumMaterials》微信公眾號

《物理》50年精選文章

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.