RISC之父向AI芯片潑冷水：AI推理不需要更強(qiáng)GPU，需要另一種硬件

2026-03-13 19:15:19　來源: DeepTech深科技

北京舉報

分享至

近日，2017 年圖靈獎得主、被稱為“RISC 之父”的 David Patterson 最近與 Google DeepMind 高級工程師馬曉宇在 IEEE Computer 聯(lián)合發(fā)表了一篇論文——“關(guān)于大語言模型推理硬件的挑戰(zhàn)與研究方向”，引發(fā)了科技圈的關(guān)注與討論。

（來源：arXiv）

David Patterson，這位 RISC 架構(gòu)的奠基人、影響了全球 99% 微處理器設(shè)計的計算機(jī)科學(xué)家，在論文開篇就拋出了一個尖銳的判斷：當(dāng)前 AI 芯片的設(shè)計思路，即滿載的算力、堆疊的 HBM（High Bandwidth Memory，高帶寬內(nèi)存）、帶寬優(yōu)先的互聯(lián)，與大語言模型推理的實(shí)際需求嚴(yán)重錯配。

（來源：UC Berkeley）

在某種程度上，這可以說是對整個 AI 芯片產(chǎn)業(yè)的當(dāng)頭棒喝。Patterson 在文中直言，LLM 推理正處于危機(jī)之中，不是技術(shù)上的危機(jī)，而是經(jīng)濟(jì)上的。因?yàn)椋絹碓蕉嗟墓緜儼l(fā)現(xiàn)，即便擁有最先進(jìn)的 GPU 集群，為最先進(jìn)的模型提供推理服務(wù)依然在大把燒錢。

根據(jù)多家媒體報道，微軟、亞馬遜、谷歌、Meta 四大科技巨頭在 2026 年 AI 相關(guān)資本總開支預(yù)計達(dá)到約 6,000 億美元。這一規(guī)模相比 2025 年約 3,880 億美元，增長約 50% 以上。

盡管具體數(shù)字可能存在分歧，但行業(yè)共識是：推理成本正在吞噬 AI 公司的利潤空間。一邊是飆升的成本，一邊是爆炸式增長的需求，這個行業(yè)正在經(jīng)歷一場嚴(yán)峻的經(jīng)濟(jì)考驗(yàn)。

（來源：四家公司財報數(shù)據(jù)）

對于這個問題，Patterson 和馬曉宇在論文中指出，根源在于 LLM 推理的兩個階段有著截然不同的計算特性。

Prefill（預(yù)填充）階段處理輸入序列的所有 token，類似于訓(xùn)練過程，是計算密集型的，現(xiàn)有 GPU/TPU 可以較好地應(yīng)對。但 Decode（解碼）階段則完全不同。它是自回歸的，每一步只生成一個輸出 token，這使得它天然是內(nèi)存帶寬受限的。

現(xiàn)有的 AI 加速器，從設(shè)計之初就是為訓(xùn)練優(yōu)化的，推理只是被當(dāng)作訓(xùn)練系統(tǒng)的“縮小版”來對待。結(jié)果就是，最昂貴、最強(qiáng)大的芯片，在跑推理任務(wù)時可能只發(fā)揮了很小一部分能力。

而且讓情況雪上加霜的是，最近涌現(xiàn)的一系列 LLM 新趨勢正在進(jìn)一步加劇推理的難度。論文列舉了 6 大壓力源：

首先是 MoE（Mixture of Experts，混合專家）架構(gòu)的興起，以 DeepSeek V3 為例，它使用了 256 個路由專家，雖然每個 token 只激活其中 8 個，但整個模型的參數(shù)量達(dá)到了 6,710 億。MoE 雖然降低了訓(xùn)練成本，卻大幅擴(kuò)展了推理時的內(nèi)存占用和通信開銷。

其次是推理模型（Reasoning Models）的流行，它們在輸出最終答案前會生成大量思考 token，這不僅拉長了生成時間，還讓內(nèi)存中的 KV Cache（Key Value Cache，鍵值緩存）承受更大壓力。

此外還有多模態(tài)的擴(kuò)展：從純文本走向圖像、音頻、視頻生成，數(shù)據(jù)量急劇膨脹。長上下文（Long Context）需求的增長同樣帶來計算和內(nèi)存的雙重壓力；RAG（Retrieval-Augmented Generation，檢索增強(qiáng)生成）通過引入外部知識庫增加了推理的資源消耗；最后是 Diffusion 模型，雖然它與上述趨勢不同，只增加計算需求而非內(nèi)存，但也代表了推理復(fù)雜度提升的又一個方向。

面對這些挑戰(zhàn)，論文將問題歸結(jié)為兩堵“墻”：內(nèi)存墻與延遲墻。

內(nèi)存墻的本質(zhì)是硬件發(fā)展的不均衡。Patterson 引用了一組數(shù)據(jù)：從 2012 年到 2022 年，NVIDIA GPU 的 64 位浮點(diǎn)運(yùn)算能力提升了 80 倍，但內(nèi)存帶寬只增長了 17 倍。這個差距還在持續(xù)擴(kuò)大。

更麻煩的是，HBM 的成本不降反升。論文援引花旗銀行的研究數(shù)據(jù)指出，從 2023 年到 2025 年，HBM 的單位容量成本（/GB）和單位帶寬成本（/GB）和單位帶寬成本（/GB）和單位帶寬成本（/GBps）都上漲了約 35%。這與傳統(tǒng) DDR DRAM 形成了鮮明對比，后者的成本在同期下降了近一半。

（來源：論文）

造成這種分化的原因在于制造工藝：HBM 需要堆疊多層 DRAM die，封裝難度隨著堆疊層數(shù)和密度的增加而上升，良率問題愈發(fā)嚴(yán)峻。

（來源：論文）

與此同時，DRAM 密度增長正在減速。從 2014 年推出 8Gbit DRAM die 到實(shí)現(xiàn)四倍增長，將耗費(fèi)超過 10 年時間，而之前這一周期只需 3 到 6 年。

有些公司曾嘗試用純 SRAM 的方案繞開 DRAM 和 HBM 的限制，比如 Cerebras 用晶圓級集成堆滿 SRAM，Groq 也采用了類似策略。但 LLM 的參數(shù)規(guī)模很快就超出了片上 SRAM 的容量，兩家公司后來都不得不加入外部 DRAM 支持。

延遲墻的問題同樣棘手。與動輒數(shù)周的訓(xùn)練不同，推理是實(shí)時的。用戶發(fā)出請求，期望在幾秒甚至更短時間內(nèi)得到響應(yīng)。這意味著端到端延遲至關(guān)重要。論文區(qū)分了兩種延遲指標(biāo)：time-to-completion（完成時間）和 time-to-first-token（首 token 時間）。長輸出序列會拉長前者，長輸入序列和 RAG 會影響后者，而推理模型由于生成大量思考 token，會同時拖慢兩者。

過去，數(shù)據(jù)中心的推理通常在單芯片上完成，只有訓(xùn)練需要超級計算機(jī)級別的集群。因此，連接這些芯片的互聯(lián)網(wǎng)絡(luò)主要優(yōu)化帶寬而非延遲。但 LLM 改變了游戲規(guī)則：模型太大，推理也需要多芯片系統(tǒng)；軟件層面的分片（sharding）意味著頻繁通信；而 Decode 階段的小 batch size 導(dǎo)致網(wǎng)絡(luò)消息往往很小。對于這種“頻繁、小消息、大網(wǎng)絡(luò)”的場景，延遲比帶寬更重要。

基于這些分析，Patterson 和馬曉宇提出了四個值得研究的方向，試圖重新思考 LLM 推理硬件的設(shè)計邏輯。

第一個方向是高帶寬閃存（HBF，High Bandwidth Flash）。這個概念最早由 SanDisk 提出，SK Hynix 后來也加入了開發(fā)。它的思路是像 HBM 那樣堆疊閃存 die，從而獲得接近 HBM 的帶寬和 10 倍于 HBM 的容量。論文給出了一組對比數(shù)據(jù)：單個 HBF 堆?？梢蕴峁?512GB 容量和超過 1,600GB/s 的讀取帶寬，而單個 HBM4 堆棧只有 48GB 容量。

HBF 的弱點(diǎn)在于寫入耐久性有限和讀取延遲較高（微秒級），這意味著它無法替代所有 HBM，但非常適合存儲推理時幾乎不更新的模型權(quán)重，或者變化緩慢的上下文數(shù)據(jù)，比如用于 LLM 搜索的網(wǎng)頁語料庫、用于代碼助手的代碼庫，甚至研究論文庫。更重要的是，閃存容量還在以每三年翻倍的速度增長，這是 DRAM 已經(jīng)難以企及的節(jié)奏。

第二個方向是近內(nèi)存計算（PNM，Processing-Near-Memory），它與歷史上的 PIM（Processing-in-Memory，內(nèi)存內(nèi)計算）概念有所不同。PIM 將計算邏輯直接集成在 DRAM die 內(nèi)部，雖然帶寬極高，但面臨軟件分片復(fù)雜、計算能力受限于 DRAM 工藝的功耗和面積約束等問題。

DRAM 工藝節(jié)點(diǎn)并不適合高性能邏輯電路。PNM 則將計算邏輯放在內(nèi)存附近但仍是獨(dú)立 die，通過 3D 堆疊或高速互聯(lián)與內(nèi)存連接。

論文認(rèn)為，對于數(shù)據(jù)中心 LLM 推理而言，PNM 比 PIM 更實(shí)際：它的分片粒度可以大 1,000 倍（GB 級而非 MB 級），邏輯工藝可以獨(dú)立優(yōu)化，且不影響內(nèi)存密度和成本。不過論文也指出，對于移動設(shè)備上的 LLM，由于模型更小、批次更小、能耗約束更嚴(yán)格，PIM 的劣勢可能不那么明顯，反而值得探索。

第三個方向是 3D 計算-邏輯堆疊。與傳統(tǒng) 2D 芯片通過 die 邊緣連接內(nèi)存不同，3D 堆疊使用垂直的 TSV（Through Silicon Via，硅通孔）實(shí)現(xiàn)寬而密的內(nèi)存接口，可以在更低功耗下獲得更高帶寬。

這個方向有兩種實(shí)現(xiàn)路徑：一種是在 HBM 的 base die 上集成計算邏輯，復(fù)用現(xiàn)有 HBM 設(shè)計，帶寬與 HBM 相當(dāng)?shù)慕档?2 到 3 倍；另一種是定制化 3D 方案，通過更寬更密的接口和更先進(jìn)的封裝技術(shù)，實(shí)現(xiàn)超越 HBM 的帶寬和效率。挑戰(zhàn)在于散熱：3D 結(jié)構(gòu)的表面積更小，散熱更難，以及需要建立內(nèi)存-邏輯接口的行業(yè)標(biāo)準(zhǔn)。

第四個方向是低延遲互聯(lián)。論文建議重新審視網(wǎng)絡(luò)設(shè)計中延遲與帶寬的權(quán)衡。具體措施包括：采用高連接性拓?fù)洌ㄈ鐦湫?、蜻蜓、高維 Torus），減少跳數(shù)從而降低延遲；引入網(wǎng)絡(luò)內(nèi)處理（Processing-in-Network），讓 LLM 常用的通信原語（如 all-reduce、MoE 的 dispatch 和 collect）在交換機(jī)中加速；優(yōu)化芯片設(shè)計，讓小包數(shù)據(jù)直接存入片上 SRAM 而非外部 DRAM，或?qū)⒂嬎阋婵拷W(wǎng)絡(luò)接口以縮短傳輸時間；甚至在可靠性設(shè)計上做文章，部署本地備用節(jié)點(diǎn)減少故障遷移的延遲和吞吐影響，或者在 LLM 推理對完美通信要求不高時，用假數(shù)據(jù)或歷史結(jié)果替代超時消息，而非等待掉隊者。

Patterson 在論文中還不忘強(qiáng)調(diào)個人觀點(diǎn)：他批評了當(dāng)前學(xué)術(shù)界與產(chǎn)業(yè)界的脫節(jié)。1976 年他入行時，計算機(jī)架構(gòu)會議上約 40% 的論文來自工業(yè)界，而到 2025 年的 ISCA（International Symposium on Computer Architecture），這個比例已經(jīng)跌破 4%。

他呼吁學(xué)術(shù)研究者把握 LLM 推理這個"誘人的研究目標(biāo)"，并建議開發(fā)基于 Roofline 模型的性能模擬器，配合現(xiàn)代的性能/成本指標(biāo)（如 TCO、功耗、碳排放），為 AI 推理硬件創(chuàng)新提供更實(shí)用的評估框架。

當(dāng)前，全球正經(jīng)歷一場因 AI 引發(fā)的內(nèi)存供應(yīng)危機(jī)。由于 HBM 生產(chǎn)擠占了傳統(tǒng) DRAM 的晶圓產(chǎn)能，2026 年全球 DRAM 價格大幅上漲。三星、SK Hynix 等廠商正將更多資源轉(zhuǎn)向高利潤的 HBM 產(chǎn)品線，這雖然滿足了 AI 數(shù)據(jù)中心的需求，卻加劇了消費(fèi)級內(nèi)存的短缺。這種供應(yīng)緊張可能持續(xù)到 2027 年甚至更久。

在這種背景下，Patterson 提出的 HBF、PNM 等替代路徑，或許不僅是技術(shù)上的探索，也是產(chǎn)業(yè)尋找 Plan B 的現(xiàn)實(shí)需求。

當(dāng)然，論文也承認(rèn)這些方向并非可以一蹴而就的方案。每一個都涉及復(fù)雜的工程權(quán)衡：HBF 需要解決軟件如何處理有限寫入耐久性和高延遲讀取的問題；PNM 和 3D 堆疊需要新的軟件分片策略和內(nèi)存-邏輯接口標(biāo)準(zhǔn)；低延遲互聯(lián)可能需要犧牲部分帶寬。

論文鼓勵將這些方向組合使用，因?yàn)樗鼈冊诤艽蟪潭壬鲜腔パa(bǔ)的。更高的內(nèi)存帶寬可以縮短每次 Decode 迭代的延遲，更大的單節(jié)點(diǎn)內(nèi)存容量可以減少系統(tǒng)規(guī)模從而降低通信開銷。

作為 RISC 架構(gòu)的共同發(fā)明人、RAID 存儲系統(tǒng)的開創(chuàng)者，Patterson 的職業(yè)生涯幾乎就是"挑戰(zhàn)現(xiàn)有范式"的代名詞。40 多年前，他和 John Hennessy 提出的精簡指令集思想曾被工業(yè)界視為異端，如今 99% 的新芯片都采用 RISC 架構(gòu)。

Patterson 和馬曉宇選擇發(fā)表這篇論文的方式也很有意思，它不是一篇技術(shù)細(xì)節(jié)密集的頂會論文，而是發(fā)在 IEEE Computer 這本面向更廣泛讀者的雜志上，語氣像是在發(fā)布一封公開信。值得注意的是，他們在致謝中提到了 Martin Abadi、Jeff Dean、Norm Jouppi、Amin Vahdat 和 Cliff Young，這串名字幾乎覆蓋了 Google AI 基礎(chǔ)設(shè)施的核心架構(gòu)師。

1.https://arxiv.org/pdf/2601.05047

2.https://techcrunch.com/2026/02/28/billion-dollar-infrastructure-deals-ai-boom-data-centers-openai-oracle-nvidia-microsoft-google-meta/?utm_source=chatgpt.com

運(yùn)營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.