国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

RISC之父向AI芯片潑冷水:AI推理不需要更強(qiáng)GPU,需要另一種硬件

0
分享至

近日,2017 年圖靈獎得主、被稱為“RISC 之父”的 David Patterson 最近與 Google DeepMind 高級工程師馬曉宇在 IEEE Computer 聯(lián)合發(fā)表了一篇論文——“關(guān)于大語言模型推理硬件的挑戰(zhàn)與研究方向”,引發(fā)了科技圈的關(guān)注與討論。


(來源:arXiv)

David Patterson,這位 RISC 架構(gòu)的奠基人、影響了全球 99% 微處理器設(shè)計的計算機(jī)科學(xué)家,在論文開篇就拋出了一個尖銳的判斷:當(dāng)前 AI 芯片的設(shè)計思路,即滿載的算力、堆疊的 HBM(High Bandwidth Memory,高帶寬內(nèi)存)、帶寬優(yōu)先的互聯(lián),與大語言模型推理的實(shí)際需求嚴(yán)重錯配。


(來源:UC Berkeley)

在某種程度上,這可以說是對整個 AI 芯片產(chǎn)業(yè)的當(dāng)頭棒喝。Patterson 在文中直言,LLM 推理正處于危機(jī)之中,不是技術(shù)上的危機(jī),而是經(jīng)濟(jì)上的。因?yàn)椋絹碓蕉嗟墓緜儼l(fā)現(xiàn),即便擁有最先進(jìn)的 GPU 集群,為最先進(jìn)的模型提供推理服務(wù)依然在大把燒錢。

根據(jù)多家媒體報道,微軟、亞馬遜、谷歌、Meta 四大科技巨頭在 2026 年 AI 相關(guān)資本總開支預(yù)計達(dá)到約 6,000 億美元。這一規(guī)模相比 2025 年約 3,880 億美元,增長約 50% 以上。

盡管具體數(shù)字可能存在分歧,但行業(yè)共識是:推理成本正在吞噬 AI 公司的利潤空間。一邊是飆升的成本,一邊是爆炸式增長的需求,這個行業(yè)正在經(jīng)歷一場嚴(yán)峻的經(jīng)濟(jì)考驗(yàn)。


(來源:四家公司財報數(shù)據(jù))

對于這個問題,Patterson 和馬曉宇在論文中指出,根源在于 LLM 推理的兩個階段有著截然不同的計算特性。

Prefill(預(yù)填充)階段處理輸入序列的所有 token,類似于訓(xùn)練過程,是計算密集型的,現(xiàn)有 GPU/TPU 可以較好地應(yīng)對。但 Decode(解碼)階段則完全不同。它是自回歸的,每一步只生成一個輸出 token,這使得它天然是內(nèi)存帶寬受限的。

現(xiàn)有的 AI 加速器,從設(shè)計之初就是為訓(xùn)練優(yōu)化的,推理只是被當(dāng)作訓(xùn)練系統(tǒng)的“縮小版”來對待。結(jié)果就是,最昂貴、最強(qiáng)大的芯片,在跑推理任務(wù)時可能只發(fā)揮了很小一部分能力。

而且讓情況雪上加霜的是,最近涌現(xiàn)的一系列 LLM 新趨勢正在進(jìn)一步加劇推理的難度。論文列舉了 6 大壓力源:

首先是 MoE(Mixture of Experts,混合專家)架構(gòu)的興起,以 DeepSeek V3 為例,它使用了 256 個路由專家,雖然每個 token 只激活其中 8 個,但整個模型的參數(shù)量達(dá)到了 6,710 億。MoE 雖然降低了訓(xùn)練成本,卻大幅擴(kuò)展了推理時的內(nèi)存占用和通信開銷。

其次是推理模型(Reasoning Models)的流行,它們在輸出最終答案前會生成大量思考 token,這不僅拉長了生成時間,還讓內(nèi)存中的 KV Cache(Key Value Cache,鍵值緩存)承受更大壓力。

此外還有多模態(tài)的擴(kuò)展:從純文本走向圖像、音頻、視頻生成,數(shù)據(jù)量急劇膨脹。長上下文(Long Context)需求的增長同樣帶來計算和內(nèi)存的雙重壓力;RAG(Retrieval-Augmented Generation,檢索增強(qiáng)生成)通過引入外部知識庫增加了推理的資源消耗;最后是 Diffusion 模型,雖然它與上述趨勢不同,只增加計算需求而非內(nèi)存,但也代表了推理復(fù)雜度提升的又一個方向。

面對這些挑戰(zhàn),論文將問題歸結(jié)為兩堵“墻”:內(nèi)存墻與延遲墻。

內(nèi)存墻的本質(zhì)是硬件發(fā)展的不均衡。Patterson 引用了一組數(shù)據(jù):從 2012 年到 2022 年,NVIDIA GPU 的 64 位浮點(diǎn)運(yùn)算能力提升了 80 倍,但內(nèi)存帶寬只增長了 17 倍。這個差距還在持續(xù)擴(kuò)大。

更麻煩的是,HBM 的成本不降反升。論文援引花旗銀行的研究數(shù)據(jù)指出,從 2023 年到 2025 年,HBM 的單位容量成本(/GB)和單位帶寬成本(/GB)和單位帶寬成本(/GB)和單位帶寬成本(/GBps)都上漲了約 35%。這與傳統(tǒng) DDR DRAM 形成了鮮明對比,后者的成本在同期下降了近一半。




(來源:論文)

造成這種分化的原因在于制造工藝:HBM 需要堆疊多層 DRAM die,封裝難度隨著堆疊層數(shù)和密度的增加而上升,良率問題愈發(fā)嚴(yán)峻。


(來源:論文)

與此同時,DRAM 密度增長正在減速。從 2014 年推出 8Gbit DRAM die 到實(shí)現(xiàn)四倍增長,將耗費(fèi)超過 10 年時間,而之前這一周期只需 3 到 6 年。

有些公司曾嘗試用純 SRAM 的方案繞開 DRAM 和 HBM 的限制,比如 Cerebras 用晶圓級集成堆滿 SRAM,Groq 也采用了類似策略。但 LLM 的參數(shù)規(guī)模很快就超出了片上 SRAM 的容量,兩家公司后來都不得不加入外部 DRAM 支持。

延遲墻的問題同樣棘手。與動輒數(shù)周的訓(xùn)練不同,推理是實(shí)時的。用戶發(fā)出請求,期望在幾秒甚至更短時間內(nèi)得到響應(yīng)。這意味著端到端延遲至關(guān)重要。論文區(qū)分了兩種延遲指標(biāo):time-to-completion(完成時間)和 time-to-first-token(首 token 時間)。長輸出序列會拉長前者,長輸入序列和 RAG 會影響后者,而推理模型由于生成大量思考 token,會同時拖慢兩者。

過去,數(shù)據(jù)中心的推理通常在單芯片上完成,只有訓(xùn)練需要超級計算機(jī)級別的集群。因此,連接這些芯片的互聯(lián)網(wǎng)絡(luò)主要優(yōu)化帶寬而非延遲。但 LLM 改變了游戲規(guī)則:模型太大,推理也需要多芯片系統(tǒng);軟件層面的分片(sharding)意味著頻繁通信;而 Decode 階段的小 batch size 導(dǎo)致網(wǎng)絡(luò)消息往往很小。對于這種“頻繁、小消息、大網(wǎng)絡(luò)”的場景,延遲比帶寬更重要。

基于這些分析,Patterson 和馬曉宇提出了四個值得研究的方向,試圖重新思考 LLM 推理硬件的設(shè)計邏輯。

第一個方向是高帶寬閃存(HBF,High Bandwidth Flash)。這個概念最早由 SanDisk 提出,SK Hynix 后來也加入了開發(fā)。它的思路是像 HBM 那樣堆疊閃存 die,從而獲得接近 HBM 的帶寬和 10 倍于 HBM 的容量。論文給出了一組對比數(shù)據(jù):單個 HBF 堆??梢蕴峁?512GB 容量和超過 1,600GB/s 的讀取帶寬,而單個 HBM4 堆棧只有 48GB 容量。

HBF 的弱點(diǎn)在于寫入耐久性有限和讀取延遲較高(微秒級),這意味著它無法替代所有 HBM,但非常適合存儲推理時幾乎不更新的模型權(quán)重,或者變化緩慢的上下文數(shù)據(jù),比如用于 LLM 搜索的網(wǎng)頁語料庫、用于代碼助手的代碼庫,甚至研究論文庫。更重要的是,閃存容量還在以每三年翻倍的速度增長,這是 DRAM 已經(jīng)難以企及的節(jié)奏。

第二個方向是近內(nèi)存計算(PNM,Processing-Near-Memory),它與歷史上的 PIM(Processing-in-Memory,內(nèi)存內(nèi)計算)概念有所不同。PIM 將計算邏輯直接集成在 DRAM die 內(nèi)部,雖然帶寬極高,但面臨軟件分片復(fù)雜、計算能力受限于 DRAM 工藝的功耗和面積約束等問題。

DRAM 工藝節(jié)點(diǎn)并不適合高性能邏輯電路。PNM 則將計算邏輯放在內(nèi)存附近但仍是獨(dú)立 die,通過 3D 堆疊或高速互聯(lián)與內(nèi)存連接。

論文認(rèn)為,對于數(shù)據(jù)中心 LLM 推理而言,PNM 比 PIM 更實(shí)際:它的分片粒度可以大 1,000 倍(GB 級而非 MB 級),邏輯工藝可以獨(dú)立優(yōu)化,且不影響內(nèi)存密度和成本。不過論文也指出,對于移動設(shè)備上的 LLM,由于模型更小、批次更小、能耗約束更嚴(yán)格,PIM 的劣勢可能不那么明顯,反而值得探索。

第三個方向是 3D 計算-邏輯堆疊。與傳統(tǒng) 2D 芯片通過 die 邊緣連接內(nèi)存不同,3D 堆疊使用垂直的 TSV(Through Silicon Via,硅通孔)實(shí)現(xiàn)寬而密的內(nèi)存接口,可以在更低功耗下獲得更高帶寬。

這個方向有兩種實(shí)現(xiàn)路徑:一種是在 HBM 的 base die 上集成計算邏輯,復(fù)用現(xiàn)有 HBM 設(shè)計,帶寬與 HBM 相當(dāng)?shù)慕档?2 到 3 倍;另一種是定制化 3D 方案,通過更寬更密的接口和更先進(jìn)的封裝技術(shù),實(shí)現(xiàn)超越 HBM 的帶寬和效率。挑戰(zhàn)在于散熱:3D 結(jié)構(gòu)的表面積更小,散熱更難,以及需要建立內(nèi)存-邏輯接口的行業(yè)標(biāo)準(zhǔn)。

第四個方向是低延遲互聯(lián)。論文建議重新審視網(wǎng)絡(luò)設(shè)計中延遲與帶寬的權(quán)衡。具體措施包括:采用高連接性拓?fù)洌ㄈ鐦湫?、蜻蜓、高維 Torus),減少跳數(shù)從而降低延遲;引入網(wǎng)絡(luò)內(nèi)處理(Processing-in-Network),讓 LLM 常用的通信原語(如 all-reduce、MoE 的 dispatch 和 collect)在交換機(jī)中加速;優(yōu)化芯片設(shè)計,讓小包數(shù)據(jù)直接存入片上 SRAM 而非外部 DRAM,或?qū)⒂嬎阋婵拷W(wǎng)絡(luò)接口以縮短傳輸時間;甚至在可靠性設(shè)計上做文章,部署本地備用節(jié)點(diǎn)減少故障遷移的延遲和吞吐影響,或者在 LLM 推理對完美通信要求不高時,用假數(shù)據(jù)或歷史結(jié)果替代超時消息,而非等待掉隊者。

Patterson 在論文中還不忘強(qiáng)調(diào)個人觀點(diǎn):他批評了當(dāng)前學(xué)術(shù)界與產(chǎn)業(yè)界的脫節(jié)。1976 年他入行時,計算機(jī)架構(gòu)會議上約 40% 的論文來自工業(yè)界,而到 2025 年的 ISCA(International Symposium on Computer Architecture),這個比例已經(jīng)跌破 4%。

他呼吁學(xué)術(shù)研究者把握 LLM 推理這個"誘人的研究目標(biāo)",并建議開發(fā)基于 Roofline 模型的性能模擬器,配合現(xiàn)代的性能/成本指標(biāo)(如 TCO、功耗、碳排放),為 AI 推理硬件創(chuàng)新提供更實(shí)用的評估框架。

當(dāng)前,全球正經(jīng)歷一場因 AI 引發(fā)的內(nèi)存供應(yīng)危機(jī)。由于 HBM 生產(chǎn)擠占了傳統(tǒng) DRAM 的晶圓產(chǎn)能,2026 年全球 DRAM 價格大幅上漲。三星、SK Hynix 等廠商正將更多資源轉(zhuǎn)向高利潤的 HBM 產(chǎn)品線,這雖然滿足了 AI 數(shù)據(jù)中心的需求,卻加劇了消費(fèi)級內(nèi)存的短缺。這種供應(yīng)緊張可能持續(xù)到 2027 年甚至更久。

在這種背景下,Patterson 提出的 HBF、PNM 等替代路徑,或許不僅是技術(shù)上的探索,也是產(chǎn)業(yè)尋找 Plan B 的現(xiàn)實(shí)需求。

當(dāng)然,論文也承認(rèn)這些方向并非可以一蹴而就的方案。每一個都涉及復(fù)雜的工程權(quán)衡:HBF 需要解決軟件如何處理有限寫入耐久性和高延遲讀取的問題;PNM 和 3D 堆疊需要新的軟件分片策略和內(nèi)存-邏輯接口標(biāo)準(zhǔn);低延遲互聯(lián)可能需要犧牲部分帶寬。

論文鼓勵將這些方向組合使用,因?yàn)樗鼈冊诤艽蟪潭壬鲜腔パa(bǔ)的。更高的內(nèi)存帶寬可以縮短每次 Decode 迭代的延遲,更大的單節(jié)點(diǎn)內(nèi)存容量可以減少系統(tǒng)規(guī)模從而降低通信開銷。

作為 RISC 架構(gòu)的共同發(fā)明人、RAID 存儲系統(tǒng)的開創(chuàng)者,Patterson 的職業(yè)生涯幾乎就是"挑戰(zhàn)現(xiàn)有范式"的代名詞。40 多年前,他和 John Hennessy 提出的精簡指令集思想曾被工業(yè)界視為異端,如今 99% 的新芯片都采用 RISC 架構(gòu)。

Patterson 和馬曉宇選擇發(fā)表這篇論文的方式也很有意思,它不是一篇技術(shù)細(xì)節(jié)密集的頂會論文,而是發(fā)在 IEEE Computer 這本面向更廣泛讀者的雜志上,語氣像是在發(fā)布一封公開信。值得注意的是,他們在致謝中提到了 Martin Abadi、Jeff Dean、Norm Jouppi、Amin Vahdat 和 Cliff Young,這串名字幾乎覆蓋了 Google AI 基礎(chǔ)設(shè)施的核心架構(gòu)師。

1.https://arxiv.org/pdf/2601.05047

2.https://techcrunch.com/2026/02/28/billion-dollar-infrastructure-deals-ai-boom-data-centers-openai-oracle-nvidia-microsoft-google-meta/?utm_source=chatgpt.com

運(yùn)營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
古巴國家主席:正與美談判,旨在“讓我們遠(yuǎn)離對抗”

古巴國家主席:正與美談判,旨在“讓我們遠(yuǎn)離對抗”

參考消息
2026-03-14 14:33:05
新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

南權(quán)先生
2026-01-26 15:41:26
中東亂局越演越烈,美國非但沒栽坑,反手洗空全球三十萬億債務(wù)

中東亂局越演越烈,美國非但沒栽坑,反手洗空全球三十萬億債務(wù)

史襉的生活科普
2026-03-14 11:50:02
滿大街的藥店要“變天”了?兩會代表提了硬核建議,關(guān)乎每個家庭

滿大街的藥店要“變天”了?兩會代表提了硬核建議,關(guān)乎每個家庭

一杯濃茶
2026-03-14 11:10:05
全網(wǎng)炸鍋!李沁嫁頂級豪門!35歲逆風(fēng)翻盤,這才是大女主結(jié)局

全網(wǎng)炸鍋!李沁嫁頂級豪門!35歲逆風(fēng)翻盤,這才是大女主結(jié)局

小椰的奶奶
2026-03-14 20:39:54
360集團(tuán)創(chuàng)始人周鴻祎:“龍蝦”用兩三個月做到了我一兩年都沒做到的事

360集團(tuán)創(chuàng)始人周鴻祎:“龍蝦”用兩三個月做到了我一兩年都沒做到的事

中國經(jīng)營報
2026-03-13 17:38:11
伊朗:襲擊“林肯”號航母,已致其失去作戰(zhàn)能力返回美國!美方:擊中靠近航母的伊朗船只,“海軍多次炮擊不中,直升機(jī)射導(dǎo)彈命中”

伊朗:襲擊“林肯”號航母,已致其失去作戰(zhàn)能力返回美國!美方:擊中靠近航母的伊朗船只,“海軍多次炮擊不中,直升機(jī)射導(dǎo)彈命中”

每日經(jīng)濟(jì)新聞
2026-03-13 13:37:06
我見過最傻的父母,攥著大把的存款和退休金,卻等著給子女當(dāng)遺產(chǎn)

我見過最傻的父母,攥著大把的存款和退休金,卻等著給子女當(dāng)遺產(chǎn)

i書與房
2026-02-25 17:22:34
終于知道蘋果為啥要“抄”O(jiān)PPO了

終于知道蘋果為啥要“抄”O(jiān)PPO了

車情觀察
2026-03-13 20:51:40
巴黎現(xiàn)場太真實(shí)!Lisa三角區(qū)尷尬,全智賢狀態(tài)差,劉亦菲也翻車了

巴黎現(xiàn)場太真實(shí)!Lisa三角區(qū)尷尬,全智賢狀態(tài)差,劉亦菲也翻車了

一娛三分地
2026-03-12 19:11:45
為啥說絕經(jīng)是痛苦的開始?網(wǎng)友:更年期也是我們要面對的重大課題

為啥說絕經(jīng)是痛苦的開始?網(wǎng)友:更年期也是我們要面對的重大課題

帶你感受人間冷暖
2026-03-11 00:30:08
055大驅(qū)還有嚴(yán)重短板?暫不配備直-20不只是產(chǎn)能問題,也關(guān)系戰(zhàn)術(shù)

055大驅(qū)還有嚴(yán)重短板?暫不配備直-20不只是產(chǎn)能問題,也關(guān)系戰(zhàn)術(shù)

健身狂人
2026-03-15 03:19:37
狂賣1.06億假“港藥”!5年暴利生意被曝光,百年老字號竟是騙局

狂賣1.06億假“港藥”!5年暴利生意被曝光,百年老字號竟是騙局

素衣讀史
2026-03-10 16:56:25
放棄億元目標(biāo)轉(zhuǎn)攻英超“解圍王”,曼聯(lián)夏窗引援策略因一人改變

放棄億元目標(biāo)轉(zhuǎn)攻英超“解圍王”,曼聯(lián)夏窗引援策略因一人改變

凌晨四點(diǎn)馬德里
2026-03-14 16:55:32
中國女籃出線形勢:輕取南蘇丹2勝1負(fù) 最快下場贏球晉級世界杯

中國女籃出線形勢:輕取南蘇丹2勝1負(fù) 最快下場贏球晉級世界杯

醉臥浮生
2026-03-14 21:14:27
俄羅斯就布良斯克導(dǎo)彈襲擊向英法提抗議

俄羅斯就布良斯克導(dǎo)彈襲擊向英法提抗議

參考消息
2026-03-14 19:42:06
兩會定調(diào),2026年養(yǎng)老金調(diào)整方式或有變,取消工齡調(diào)整可行嗎?

兩會定調(diào),2026年養(yǎng)老金調(diào)整方式或有變,取消工齡調(diào)整可行嗎?

云鵬敘事
2026-03-13 19:23:06
王思雨:之前的女籃已經(jīng)過去了,希望大家給我們多一點(diǎn)理解和包容

王思雨:之前的女籃已經(jīng)過去了,希望大家給我們多一點(diǎn)理解和包容

懂球帝
2026-03-14 22:52:10
上海人有錢到令人發(fā)指!奢侈品商場斷崖式領(lǐng)先~

上海人有錢到令人發(fā)指!奢侈品商場斷崖式領(lǐng)先~

次元君情感
2026-03-14 19:05:05
各行各業(yè)都有秘密,沒有例外,網(wǎng)友:黑色的內(nèi)衣褲不要買!

各行各業(yè)都有秘密,沒有例外,網(wǎng)友:黑色的內(nèi)衣褲不要買!

另子維愛讀史
2026-02-07 18:55:06
2026-03-15 05:03:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
16417文章數(shù) 514744關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

伊朗船只迫近林肯號航母 美軍連開數(shù)炮全打空

頭條要聞

伊朗船只迫近林肯號航母 美軍連開數(shù)炮全打空

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

九成美曝田栩?qū)幵衅诔鲕?AI反轉(zhuǎn)引熱議

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

時尚
藝術(shù)
家居
手機(jī)
本地

伊姐周六熱推:電視劇《逐玉》;電視劇《江湖夜雨十年燈》......

藝術(shù)要聞

迪拜的房地產(chǎn)市場面臨嚴(yán)峻考驗(yàn)

家居要聞

藝術(shù)之家 法式優(yōu)雅

手機(jī)要聞

折痕沒了!OPPO Find N6登陸線下門店 網(wǎng)友:這才叫無印良品

本地新聞

坐標(biāo)北京,過敏季反向遷徒

無障礙瀏覽 進(jìn)入關(guān)懷版