網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

圖解AI算力新瓶頸：下一個(gè)主角是CPU？

2026-04-16 18:16:00　來(lái)源: 半導(dǎo)體產(chǎn)業(yè)縱橫

北京舉報(bào)

分享至

算力賽道要換主角，CPU重登舞臺(tái)中心。

過(guò)去數(shù)年，在 AI 大模型預(yù)訓(xùn)練的浪潮下，GPU 憑借并行計(jì)算能力的絕對(duì)優(yōu)勢(shì)，成為算力競(jìng)爭(zhēng)的核心壁壘，也因此成為科技巨頭與資本市場(chǎng)共同追逐的焦點(diǎn)。

彼時(shí)，NVIDIA H100 芯片一卡難求，硅谷巨頭們?yōu)閾寠Z GPU 資源，甚至將芯片庫(kù)存量列為財(cái)報(bào)會(huì)議上的核心競(jìng)爭(zhēng)力指標(biāo)。這段狂熱的歷史，在投資者與大眾心中刻下了一個(gè)根深蒂固的認(rèn)知：AI = GPU。

但時(shí)間來(lái)到 2026 年，當(dāng)你走進(jìn)最先進(jìn)的 AI 數(shù)據(jù)中心會(huì)發(fā)現(xiàn)，困擾行業(yè)的算力瓶頸早已不止 GPU—— 內(nèi)存告急、光模塊短缺、電力供應(yīng)緊張、散熱難題凸顯，算力缺口正從單點(diǎn)擴(kuò)散到整個(gè)基礎(chǔ)設(shè)施鏈條。

在這些被熱議的賽道之外，不禁想追問(wèn)：還有哪些被忽視的機(jī)會(huì)？答案，藏在那個(gè)曾被視作“無(wú)聊配角” 的硬件里：CPU（中央處理器）。

若你覺(jué)得“CPU 缺貨” 的說(shuō)法有違直覺(jué)，不妨看看近期產(chǎn)業(yè)巨頭的真實(shí)動(dòng)向：

AMD CEO 蘇姿豐（Lisa Su）在財(cái)報(bào)會(huì)議上直言，EPYC 服務(wù)器 CPU 需求 “遠(yuǎn)超預(yù)期”。在核心的數(shù)據(jù)中心領(lǐng)域，AMD 高端 CPU 已陷入嚴(yán)重供不應(yīng)求的境地，交貨周期拉長(zhǎng)至 6 個(gè)月以上，甚至手握 10%-15% 的漲價(jià)話語(yǔ)權(quán)。
一度陷入低谷的 Intel，在 2025 年底意外迎來(lái)服務(wù)器 CPU 庫(kù)存見(jiàn)底。公司不得不緊急調(diào)整產(chǎn)能，將原本預(yù)留給 PC 產(chǎn)線的晶圓，轉(zhuǎn)投服務(wù)器 CPU 生產(chǎn)以緩解缺口。
最具說(shuō)服力的信號(hào)，來(lái)自“GPU 霸主” NVIDIA—— 其 AI 基礎(chǔ)設(shè)施主管公開(kāi)承認(rèn)：“在擴(kuò)展 AI 與智能體（Agentic）工作流時(shí)，CPU 正成為我們的瓶頸?！?/li>

在這份深度報(bào)告中，將拆解 CPU 重回算力舞臺(tái)中央的完整邏輯：

CPU vs GPU—— 必須搞懂的底層邏輯

在探討2026 年超大規(guī)模數(shù)據(jù)中心為何大舉采購(gòu) CPU 之前，需要先打破一個(gè)過(guò)時(shí)的迷思：“AI = GPU，GPU 越強(qiáng) AI 越聰明”。要理解這一認(rèn)知的轉(zhuǎn)變，不妨回溯算力產(chǎn)業(yè)的三段歷史：為什么過(guò)去 40 年是 CPU 稱霸？為什么過(guò)去 10 年 GPU 逆襲上位？而現(xiàn)在，算力天平為何再次向 CPU 傾斜？

40 年 CPU 霸權(quán)，源于 “通用性” 基因

在個(gè)人電腦與早期服務(wù)器時(shí)代，CPU（中央處理器）是整臺(tái)設(shè)備的絕對(duì)核心。無(wú)論是 Intel 還是 AMD，其 CPU 設(shè)計(jì)的底層哲學(xué)只有一個(gè)：通用性（General-Purpose）。

電腦需要處理的任務(wù)繁雜且多變：開(kāi)機(jī)時(shí)加載操作系統(tǒng)、移動(dòng)鼠標(biāo)光標(biāo)、一邊播放 Spotify 音樂(lè)，一邊打開(kāi)數(shù)十個(gè) Chrome 瀏覽器標(biāo)簽頁(yè)，同時(shí)后臺(tái)還在下載文件。這些任務(wù)的共同特點(diǎn)是：充滿不確定性與復(fù)雜邏輯判斷。

“如果用戶點(diǎn)擊這個(gè)按鈕，就打開(kāi)新窗口”“如果網(wǎng)絡(luò)突然中斷，就彈出錯(cuò)誤提示”——CPU 正是為這種 “如果 A 發(fā)生，就執(zhí)行 B” 的分支邏輯而生。它就像一把瑞士軍刀，功能全面且切換任務(wù)的速度極快。在那個(gè)算力瓶頸聚焦于 “邏輯處理效率” 的年代，CPU 的運(yùn)算速度直接決定了設(shè)備的流暢度。

GPU 稱霸 AI 時(shí)代，贏在 “并行計(jì)算” 優(yōu)勢(shì)

GPU（圖形處理器）的誕生初衷與 AI 毫無(wú)關(guān)聯(lián) —— 它是為 “玩游戲” 而生的。

在 3D 游戲中，屏幕上數(shù)百萬(wàn)個(gè)像素的顏色、光影反射效果，需要每秒鐘重新計(jì)算 60 次。這類計(jì)算的特點(diǎn)鮮明：運(yùn)算邏輯簡(jiǎn)單、數(shù)據(jù)量龐大、且各像素的計(jì)算過(guò)程互不干擾。此時(shí)，主打通用性的 CPU 就顯得 “笨拙” 了。就像用一把精密的瑞士軍刀去切一萬(wàn)顆卷心菜，遠(yuǎn)不如一萬(wàn)把菜刀同時(shí)開(kāi)工高效。NVIDIA 正是抓住了這一痛點(diǎn)，設(shè)計(jì)出內(nèi)置成千上萬(wàn)個(gè) “微小、簡(jiǎn)單且可并行工作” 運(yùn)算核心的 GPU。

而 GPU 與 AI 的結(jié)緣，源于一場(chǎng) “技術(shù)巧合”。2012 年左右，科學(xué)家們發(fā)現(xiàn)：深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的底層數(shù)學(xué)邏輯，和 3D 游戲的像素渲染運(yùn)算，本質(zhì)上完全一致。訓(xùn)練一個(gè) AI 大模型（比如讓它 “讀完” 一座圖書館的書籍），對(duì)計(jì)算機(jī)而言就是將文字轉(zhuǎn)化為數(shù)字，再執(zhí)行數(shù)萬(wàn)億次的 “矩陣乘法”。這是一種標(biāo)準(zhǔn)化、規(guī)模化的算術(shù)運(yùn)算。

CPU 處理這類海量簡(jiǎn)單任務(wù)時(shí)，會(huì)因核心數(shù)量不足陷入 “算力擁堵”；而 GPU 的數(shù)千個(gè)并行核心可同時(shí)啟動(dòng)，運(yùn)算速度是 CPU 的幾十倍甚至上百倍。這正是 2024 年以前 “大模型預(yù)訓(xùn)練時(shí)代”，GPU 獨(dú)霸算力市場(chǎng)的核心原因 —— 彼時(shí)的 AI 就像一個(gè) “死記硬背的學(xué)生”，其核心需求就是純粹的并行數(shù)學(xué)運(yùn)算。

一萬(wàn)名士兵（GPU）vs 十位大學(xué)教授（CPU）

GPU：一萬(wàn)名整齊劃一的士兵。這支軍隊(duì)最擅長(zhǎng)“標(biāo)準(zhǔn)化并行算術(shù)”。若讓所有人同時(shí)計(jì)算 “1+1=2”，他們能瞬間完成任務(wù)。但他們的短板也很明顯 —— 應(yīng)變能力極差。一旦遇到邏輯分支變化或復(fù)雜任務(wù)，整支隊(duì)伍就會(huì)陷入混亂，需要重新整隊(duì)才能繼續(xù)。更重要的是，士兵們不具備獨(dú)立運(yùn)行操作系統(tǒng)和復(fù)雜軟件的能力。

CPU：十位頂尖的大學(xué)教授。教授的數(shù)量雖少，卻擁有極強(qiáng)的“復(fù)雜決策與邏輯判斷能力”。他們專精于處理 “如果…… 就……” 的條件分支，能瞬間切換策略，從容應(yīng)對(duì)不可預(yù)測(cè)的任務(wù)。更關(guān)鍵的是，教授們天生就是為操控各類軟件、網(wǎng)絡(luò)與數(shù)據(jù)庫(kù)而生的 —— 他們是整個(gè)算力系統(tǒng)的 “指揮官”。

2026 年，算力天平向 CPU 傾斜的底層邏輯

總結(jié)來(lái)說(shuō)，過(guò)去十年的 AI 突破，建立在 “將所有問(wèn)題轉(zhuǎn)化為并行數(shù)學(xué)運(yùn)算” 的基礎(chǔ)上，這造就了 GPU 的黃金時(shí)代。彼時(shí)的 AI，就像一個(gè)坐在圖書館里死記硬背的學(xué)生，只需要無(wú)窮無(wú)盡的 GPU “士兵” 幫忙翻書、做算術(shù)。但到了 2026 年，科技巨頭們發(fā)現(xiàn)了一個(gè)新命題：AI 已經(jīng) “背完了書”，背完了書”，現(xiàn)在需要走進(jìn)現(xiàn)實(shí)世界 “解決問(wèn)題”。

當(dāng) AI 的行為模式從 “靜態(tài)的文本生成” 轉(zhuǎn)向 “動(dòng)態(tài)的邏輯推理與工具操作”，僅靠一萬(wàn)名只會(huì)做算術(shù)的士兵已經(jīng)遠(yuǎn)遠(yuǎn)不夠。算力系統(tǒng)突然需要大量的 CPU “教授”—— 指揮 GPU 軍隊(duì)、操控各類軟件、為 AI 搭建復(fù)雜的虛擬訓(xùn)練環(huán)境。GPU 是 AI 的 “肌肉”，CPU 則是 “神經(jīng)系統(tǒng)”。當(dāng)肌肉已經(jīng)足夠強(qiáng)壯時(shí)，整個(gè) AI 產(chǎn)業(yè)的發(fā)展速度，開(kāi)始由能指揮肌肉的 “神經(jīng)系統(tǒng)” 決定。

2026 年，三股力量同時(shí)引爆 CPU 需求

2023-2024 年，全球科技巨頭瘋搶 GPU；2025 年，行業(yè)焦點(diǎn)轉(zhuǎn)向內(nèi)存（HBM）。而到了 2026 年，數(shù)據(jù)中心的最新算力瓶頸，悄然落在了曾經(jīng)的 “配角” CPU 身上。這一轉(zhuǎn)變的背后，是 AI 產(chǎn)業(yè)演進(jìn)跨過(guò)的關(guān)鍵分水嶺 —— 三股趨勢(shì)的交匯共振，其中前兩股發(fā)生在 GPU 機(jī)架 “內(nèi)部”，第三股則在機(jī)架 “外部” 開(kāi)辟了全新戰(zhàn)場(chǎng)。

推論時(shí)代來(lái)臨——AI 使用量的指數(shù)級(jí)爆炸

這是最容易被大眾忽視，卻體量最為龐大的一股力量。

在 2026 年 3 月的 GTC 大會(huì)上，NVIDIA CEO 黃仁勛（Jensen Huang）正式宣告“推論時(shí)代”（Age of Inference）全面降臨。這意味著，AI 算力的最大消耗端，已經(jīng)從實(shí)驗(yàn)室里的 “模型訓(xùn)練”，轉(zhuǎn)向現(xiàn)實(shí)世界中的 “用戶服務(wù)”。

背后的邏輯很簡(jiǎn)單：訓(xùn)練一個(gè)頂級(jí)大模型，可能需要數(shù)萬(wàn)張 GPU 連續(xù)運(yùn)算數(shù)月，這是一項(xiàng) “一次性工作”；但模型上線后，全球數(shù)億用戶每天用它搜索信息、編寫代碼、進(jìn)行醫(yī)療診斷與金融分析 —— 這種 “推論” 需求是持續(xù)不斷、永無(wú)止境的。

但推論不等于“只用 GPU”。

每一次用戶發(fā)起請(qǐng)求，CPU 都需要承擔(dān)大量繁瑣的 “前后端工作”：接收請(qǐng)求、任務(wù)排隊(duì)、分批處理、組裝提示詞（Prompt）、執(zhí)行 Tokenization（將人類語(yǔ)言轉(zhuǎn)化為模型可識(shí)別的碎片），最后將 GPU 的運(yùn)算結(jié)果格式化，反饋給用戶。

如果說(shuō)“模型訓(xùn)練” 是花幾個(gè)月建造一座高科技工廠，那么 “推論” 就是工廠 24 小時(shí)不間斷接收訂單。工廠運(yùn)轉(zhuǎn)時(shí)，不能只有負(fù)責(zé)生產(chǎn)的機(jī)器人（GPU），更需要大量調(diào)度員、包裝員和品管員（CPU）—— 確保每一張訂單精準(zhǔn)、準(zhǔn)時(shí)交付。

當(dāng)全球 AI 推論量從 “每天幾百萬(wàn)次” 飆升至 2026 年的 “每天幾十億次”，CPU 的工作量也隨之呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。即便單次請(qǐng)求的 CPU 工作量不變，僅 “訂單量” 的爆發(fā)，就足以讓 CPU 成為新的算力瓶頸。

這也正是 AMD CEO 蘇姿豐在 2026 年初強(qiáng)調(diào)的：“我們看到 CPU 需求顯著上升，這是推論需求大幅增長(zhǎng)的直接結(jié)果。” 據(jù)多家機(jī)構(gòu)預(yù)測(cè)，2026 年推論算力占 AI 總算力的比例將超過(guò) 60%-70%，且仍在加速攀升。

Agentic AI—— 單次請(qǐng)求的 CPU 工作量暴增 5-10 倍

如果說(shuō)推論時(shí)代帶來(lái)的是“量” 的爆炸，那么Agentic AI（智能體 AI）就是 “質(zhì)” 的顛覆 —— 它讓單次請(qǐng)求的 CPU 工作量直接提升 5-10 倍。在 ChatGPT 時(shí)代，用戶提出一個(gè)問(wèn)題，GPU 運(yùn)算一次就能給出答案。這是一條單向直線，CPU 僅需承擔(dān)少量輔助工作。

但 2026 年的 Agentic AI 完全不同。當(dāng)你對(duì) AI 說(shuō) “幫我規(guī)劃下周東京行程并預(yù)訂機(jī)票”，AI 不會(huì)直接輸出一段文字，而是啟動(dòng)一個(gè)多步驟的 “循環(huán)流程”：規(guī)劃行程（CPU）→ 打開(kāi)旅游網(wǎng)站比價(jià)（CPU 調(diào)用工具）→ 遇到網(wǎng)站報(bào)錯(cuò)，重新嘗試（CPU 邏輯判斷）→ 優(yōu)化行程方案（GPU 推理）→ 填寫機(jī)票訂單并驗(yàn)證（CPU）

在這個(gè)復(fù)雜循環(huán)中，GPU 僅負(fù)責(zé) “思考” 的短短幾毫秒，而50%-90% 的延遲與工作量，都?jí)涸诹?CPU 身上。CPU 需要承擔(dān)調(diào)用 API、查閱數(shù)據(jù)庫(kù)、執(zhí)行代碼、管理記憶狀態(tài)等核心任務(wù)。

再用一個(gè)比喻理解這一變化：過(guò)去，8 臺(tái)機(jī)器人（GPU）只需要 1 個(gè)領(lǐng)班（CPU）—— 機(jī)器人接到指令就能獨(dú)立完成工作；現(xiàn)在，每臺(tái)機(jī)器人做完一步，都要回頭詢問(wèn)領(lǐng)班：“下一步怎么做？”“網(wǎng)頁(yè)報(bào)錯(cuò)了怎么辦？”“幫我聯(lián)系航空公司確認(rèn)座位！”—— 結(jié)果就是領(lǐng)班忙到崩潰，而昂貴的機(jī)器人只能在一旁 “發(fā)呆” 等待指令。

為了減少 GPU 閑置，數(shù)據(jù)中心不得不持續(xù)增加 CPU 數(shù)量，這直接改變了 GPU 機(jī)架內(nèi)的 CPU:GPU 配比 —— 過(guò)去是 1:8，現(xiàn)在飆升至 1:2 甚至 1:1。以 NVIDIA 最新的 Vera Rubin NVL72 機(jī)架為例，其內(nèi)置 72 顆 GPU 的同時(shí)，配備了高達(dá) 36 顆 CPU。

這里需要明確一個(gè)關(guān)鍵區(qū)別：推論時(shí)代讓“請(qǐng)求數(shù)量變多”，Agentic AI 讓 “單次請(qǐng)求的 CPU 工作量變大”。兩者形成 “乘法效應(yīng)”，這正是 CPU 需求爆發(fā)遠(yuǎn)超華爾街分析師去年預(yù)測(cè)的核心原因。

RL 訓(xùn)練與合成數(shù)據(jù) ——AI 的 “練習(xí)場(chǎng)”，完全跑在 CPU 上

前兩股力量聚焦于 GPU 機(jī)架 “內(nèi)部” 的推論端，而第三股力量則在機(jī)架 “外部”—— 由純 CPU 組成的服務(wù)器農(nóng)場(chǎng)，開(kāi)辟了全新的算力戰(zhàn)場(chǎng)。

2025 年底，科技巨頭們遇到了一個(gè)新瓶頸：互聯(lián)網(wǎng)上的人類高質(zhì)量文本數(shù)據(jù)，幾乎已被 AI “讀完”。想要實(shí)現(xiàn) Agentic 模型的能力突破，AI 不能再依賴 “死記硬背”，必須學(xué)會(huì) “自己跟自己練習(xí)”—— 這就是強(qiáng)化學(xué)習(xí)（RL, Reinforcement Learning）與合成數(shù)據(jù)技術(shù)崛起的背景。

過(guò)去的大模型預(yù)訓(xùn)練，就像讓 AI “讀完一整座圖書館”。對(duì)計(jì)算機(jī)而言，這個(gè)過(guò)程的本質(zhì)是文字轉(zhuǎn)數(shù)字，再執(zhí)行超大規(guī)模的加減乘除 —— 這類純數(shù)學(xué)任務(wù)，是 GPU 的絕對(duì)主場(chǎng)。而現(xiàn)在的強(qiáng)化學(xué)習(xí)，更像教一個(gè)學(xué)徒修車或訂機(jī)票：AI 需要親自 “動(dòng)手操作”—— 點(diǎn)擊按鈕→驗(yàn)證結(jié)果→修正錯(cuò)誤→再次嘗試。

當(dāng) AI 練習(xí) “預(yù)訂機(jī)票” 時(shí)，我們需要為它搭建一個(gè)虛擬的航空公司網(wǎng)站（環(huán)境模擬器）。這個(gè)網(wǎng)站有菜單、按鈕、報(bào)錯(cuò)提示，是一個(gè)標(biāo)準(zhǔn)的 “通用軟件”。整個(gè)練習(xí)過(guò)程，充滿了 “如果…… 就……” 的邏輯分支：如果 AI 點(diǎn)錯(cuò)按鈕，網(wǎng)站要彈出警告；如果網(wǎng)絡(luò)中斷，要顯示錯(cuò)誤代碼。面對(duì)這種復(fù)雜的邏輯判斷，只會(huì)做算術(shù)的 GPU 運(yùn)轉(zhuǎn)起來(lái)慢如烏龜，而擅長(zhǎng) “運(yùn)行通用軟件” 的 CPU 則如魚得水。

為了讓 AI 快速迭代升級(jí)，前沿實(shí)驗(yàn)室不會(huì)只搭建一個(gè)模擬網(wǎng)站，而是同時(shí)開(kāi)啟 1 萬(wàn) - 10 萬(wàn)個(gè)平行的虛擬環(huán)境。這 10 萬(wàn)個(gè)虛擬世界，需要海量 CPU 核心充當(dāng) “考場(chǎng)管理員” 與 “裁判”—— 監(jiān)控 AI 的練習(xí)過(guò)程、評(píng)估任務(wù)完成度、生成 “成績(jī)單”，再將數(shù)據(jù)反饋給 GPU，讓 GPU 更新模型參數(shù)。

我們可以用“運(yùn)動(dòng)員與練習(xí)場(chǎng)” 的關(guān)系，理解當(dāng)下的算力分工：GPU 是運(yùn)動(dòng)員的 “肌肉”，負(fù)責(zé)最終的思考與發(fā)力；CPU 是 “練習(xí)場(chǎng)與教練”，負(fù)責(zé)搭建訓(xùn)練環(huán)境并提供反饋。

過(guò)去，運(yùn)動(dòng)員只需要看比賽錄像學(xué)習(xí)（GPU 讀取數(shù)據(jù)），CPU 需求極低；現(xiàn)在，運(yùn)動(dòng)員需要下場(chǎng)訓(xùn)練數(shù)百萬(wàn)次 —— 沒(méi)有足夠的 CPU 搭建練習(xí)場(chǎng)，運(yùn)動(dòng)員的能力就會(huì)停滯不前。這正是 2026 年 OpenAI、xAI、Anthropic 與 Meta 等前沿實(shí)驗(yàn)室，大舉采購(gòu)純 CPU 服務(wù)器搭建 RL 模擬農(nóng)場(chǎng)的原因。SemiAnalysis 在 2026 年 2 月的報(bào)告中直言：“前沿 AI 實(shí)驗(yàn)室的 CPU，已經(jīng)不足以支撐 RL 訓(xùn)練需求?！?而 NVIDIA 推出的 Vera CPU 機(jī)架（單機(jī)架搭載 256 顆 CPU），正是為了同時(shí)運(yùn)行超過(guò) 22500 個(gè)并行 RL 環(huán)境而生。

推論需求的指數(shù)級(jí)增長(zhǎng)、Agentic AI 帶來(lái)的單次請(qǐng)求工作量飆升、強(qiáng)化學(xué)習(xí)所需的海量虛擬練習(xí)場(chǎng) —— 這三股力量在 2026 年完美交匯，將 CPU 從幕后推向了算力舞臺(tái)的中央。

既然 CPU 已成算力剛需，那么市場(chǎng)上的主流玩家們，又是如何布局應(yīng)戰(zhàn)的？為什么 GPU 霸主 NVIDIA 要跨界做 CPU？

CPU 架構(gòu)戰(zhàn)爭(zhēng)——AMD EPYC vs Intel Xeon vs NVIDIA Grace/Vera

當(dāng)Agentic AI 與強(qiáng)化學(xué)習(xí)將 CPU 重新推上核心舞臺(tái)，你可能會(huì)問(wèn)：“隨便買哪一家的 CPU，不都一樣嗎？”答案是：完全不一樣。現(xiàn)代數(shù)據(jù)中心的 CPU，早已不是 “主頻越高，性能越強(qiáng)” 的單一維度比拼。AMD EPYC、Intel Xeon 與 NVIDIA Grace/Vera 三大產(chǎn)品線，在指令集、物理架構(gòu)、GPU 協(xié)同方式上，存在著根本性的設(shè)計(jì)哲學(xué)分歧。

要理解當(dāng)下的 CPU 戰(zhàn)爭(zhēng)，首先要回顧算力產(chǎn)業(yè)最古老的陣營(yíng)之爭(zhēng) ——x86 與 ARM 兩大指令集架構(gòu)的對(duì)決。

過(guò)去幾十年，無(wú)論是臺(tái)式機(jī)、筆記本還是服務(wù)器，搭載的幾乎都是 x86 架構(gòu) CPU（采用復(fù)雜指令集 CISC）。可以把它看作一把功能強(qiáng)大、兼容萬(wàn)物的超級(jí)瑞士刀。x86 的核心優(yōu)勢(shì)，在于無(wú)可匹敵的軟件兼容性。過(guò)去數(shù)十年間，全球企業(yè)開(kāi)發(fā)的操作系統(tǒng)、數(shù)據(jù)庫(kù)、監(jiān)控工具，幾乎都是基于 x86 架構(gòu)編寫的 —— 直接部署即可運(yùn)行，無(wú)需任何修改。但這份兼容性的代價(jià)，是背負(fù)了沉重的歷史包袱：x86 架構(gòu)內(nèi)部設(shè)計(jì)復(fù)雜，功耗相對(duì)較高。

ARM 架構(gòu)（采用精簡(jiǎn)指令集 RISC）的發(fā)展路徑，與 x86 截然不同。它最初是為手機(jī)、平板等移動(dòng)設(shè)備設(shè)計(jì)的，底層哲學(xué)是極致省電與高能效比。很長(zhǎng)一段時(shí)間里，科技圈對(duì) ARM 的認(rèn)知都是 “省電但性能弱”，認(rèn)為它只能用于移動(dòng)設(shè)備，登不上服務(wù)器的 “大雅之堂”。直到幾年前，蘋果將 Mac 電腦的 Intel x86 芯片，替換為自研的 ARM 架構(gòu) M 系列芯片 —— 這場(chǎng) “蘋果革命” 徹底顛覆了市場(chǎng)認(rèn)知：ARM 芯片不僅功耗極低，性能還顯著超越傳統(tǒng) x86 芯片。

蘋果的成功，讓云端巨頭們恍然大悟：ARM 架構(gòu)也能做到高性能。到 2026 年，ARM 已正式殺入數(shù)據(jù)中心市場(chǎng)。不僅 NVIDIA 的 Grace 與 Vera CPU 采用 ARM 架構(gòu)，AWS 的 Graviton、Google 的 Axion、微軟的 Cobalt 等云廠商自研 CPU，也全部基于 ARM 架構(gòu)打造。原因很簡(jiǎn)單：在動(dòng)輒消耗幾十兆瓦電力的 AI 數(shù)據(jù)中心里，ARM 的能效優(yōu)勢(shì)極具吸引力 —— 在部分 AI 任務(wù)中，NVIDIA Vera 的能效比是 x86 架構(gòu)的 1.5-2 倍。

這一趨勢(shì)對(duì)投資市場(chǎng)的影響深遠(yuǎn)：x86 架構(gòu) 40 年的絕對(duì)壟斷被打破。云端巨頭為降低能耗與成本，正加速導(dǎo)入 ARM 架構(gòu)。這也是專注于 “架構(gòu)授權(quán)” 的 ARM Holdings，能在這波浪潮中收獲長(zhǎng)期結(jié)構(gòu)性紅利的原因；而 AMD 與 Intel，則需要依靠深厚的 “軟件生態(tài)護(hù)城河” 與高核心數(shù)設(shè)計(jì)，捍衛(wèi)自己的市場(chǎng)份額。

架構(gòu)之外，芯片的物理設(shè)計(jì)方式，決定了 CPU 能集成多少核心，以及核心之間的協(xié)同效率。當(dāng)前市場(chǎng)上主要有三種設(shè)計(jì)路線：AMD 的 Chiplet（芯粒）架構(gòu)、NVIDIA 的 Monolithic（單片）架構(gòu)，以及 Intel 的混合微調(diào)方案。

AMD 的 EPYC 系列 CPU（如 2026 年主力型號(hào) Turin 與 Venice），采用的是 Chiplet 設(shè)計(jì)。它不追求單塊超大芯片，而是將 CPU 拆解為 8-16 塊 “小芯片（CCD）”，再通過(guò)中間的 I/O 芯片，像拼樂(lè)高一樣組裝成完整的處理器。其優(yōu)點(diǎn)是生產(chǎn)成本低、芯片良率高，且核心數(shù)可以無(wú)限堆疊。這也是 AMD 能輕松推出 192 核甚至 256 核超高核心數(shù)處理器的關(guān)鍵。對(duì)于需要同時(shí)運(yùn)行 10 萬(wàn)個(gè)虛擬環(huán)境的 RL 模擬農(nóng)場(chǎng)而言，這種 “人多力量大” 的架構(gòu)堪稱完美。其缺點(diǎn)是芯片之間的通信存在微小延遲，在對(duì)時(shí)延要求極高的場(chǎng)景下，性能會(huì)受到一定影響。

NVIDIA 的 Vera CPU 走了一條完全相反的路線。它是一塊巨大的單一芯片，將 88 個(gè)核心全部集成在同一塊晶圓上，沒(méi)有拆分也沒(méi)有組裝。其優(yōu)點(diǎn)是核心之間的通信幾乎沒(méi)有延遲。在 Agentic AI 的推論循環(huán)中，這種超低延遲的均勻網(wǎng)絡(luò)，能讓 CPU 與 GPU 的協(xié)同效率達(dá)到極致。其缺點(diǎn)是核心數(shù)受限于芯片面積，無(wú)法像 Chiplet 架構(gòu)那樣無(wú)限擴(kuò)展（Vera 僅 88 核）；且大尺寸芯片的生產(chǎn)難度高、成本昂貴。

Intel 新一代 Xeon 系列 CPU（如 Clearwater Forest，搭載 288 個(gè)能效核），則走了中間路線。它同樣采用多芯片拼接方案，但使用了先進(jìn)的 EMIB 封裝技術(shù) —— 通過(guò)高密度的互連線路，讓拼接后的芯片，在協(xié)同效率上無(wú)限接近 “一整塊大石頭”。這項(xiàng)技術(shù)的研發(fā)難度極高，也是 Intel 實(shí)現(xiàn)市場(chǎng)翻盤的關(guān)鍵賭注。

三種架構(gòu)的差異，直接決定了市場(chǎng)格局的分化：AMD 的 Chiplet 架構(gòu)，憑借高核心數(shù)與低成本優(yōu)勢(shì)，成為 “純 CPU 農(nóng)場(chǎng)” 的絕對(duì)霸主；NVIDIA 的 Monolithic 架構(gòu)，則憑借超低延遲的優(yōu)勢(shì)，鎖定 “GPU 機(jī)架內(nèi)部” 的核心控制節(jié)點(diǎn)。

NVIDIA 的獨(dú)門武器：NVLink-C2C

如果僅比拼核心數(shù)與能效，NVIDIA 很難說(shuō)服客戶放棄 AMD 與 Intel，轉(zhuǎn)而采購(gòu)自家 CPU。NVIDIA 真正的技術(shù)壁壘，是一項(xiàng)名為NVLink-C2C的硬件互連技術(shù)。在傳統(tǒng)的 AMD 或 Intel 服務(wù)器中，CPU 與 GPU 來(lái)自不同廠商，兩者通過(guò) PCIe 總線通信。這種連接方式雖然穩(wěn)定，但帶寬有限 —— 當(dāng) Agentic AI 需要 CPU 與 GPU 每毫秒都進(jìn)行高密度數(shù)據(jù)交換時(shí)，PCIe 總線就會(huì)變成 “擁堵的省道”。

NVIDIA 的解決方案極具顛覆性：將自家 Vera CPU 與 Rubin GPU，直接集成在同一塊基板上（稱為 Superchip 超級(jí)芯片），并通過(guò) NVLink-C2C 搭建一條 “私人高鐵”。

這條“高鐵” 的優(yōu)勢(shì)體現(xiàn)在兩個(gè)維度：

1、速度碾壓：2026 年的 Vera/Rubin 世代，NVLink-C2C 的雙向帶寬高達(dá) 1.8TB/s，是傳統(tǒng) PCIe 總線的 7 倍以上；

2、內(nèi)存共享：這是其核心競(jìng)爭(zhēng)力。通過(guò) NVLink-C2C，GPU 可以直接訪問(wèn) CPU 的內(nèi)存資源。AI 模型的龐大上下文數(shù)據(jù)（KV Cache），可以直接存儲(chǔ)在 CPU 的低成本大容量?jī)?nèi)存中，GPU 隨用隨取 —— 完全不需要軟件工程師編寫復(fù)雜的數(shù)據(jù)搬運(yùn)程序。

這是 NVIDIA 最深的硬件護(hù)城河。只要客戶的 AI 任務(wù)，需要 CPU 與 GPU 進(jìn)行高頻次、低延遲的協(xié)同（比如前沿的 Agentic AI 推論），就只能選擇 NVIDIA 的 Superchip 方案。在這個(gè) “緊密耦合” 的細(xì)分領(lǐng)域，AMD 與 Intel 目前尚無(wú)能力提供同級(jí)別的硬件支持。

為什么云端巨頭不全部換成 NVIDIA CPU？

讀到這里，可能會(huì)產(chǎn)生疑問(wèn)：“NVIDIA 的 Vera CPU 這么強(qiáng)，為什么云端巨頭不全部切換成 NVIDIA 方案？”

但實(shí)際的市場(chǎng)數(shù)據(jù)給出了相反的答案：2026 年，AMD 與 Intel 的服務(wù)器 CPU 持續(xù)缺貨；甚至連 NVIDIA 自家的旗艦 AI 服務(wù)器（DGX Rubin NVL8），官方默認(rèn)搭載的也是 Intel Xeon x86 CPU。

背后的原因，主要有四點(diǎn)：

1、核心數(shù)無(wú)法滿足需求：如前文所述，RL 模擬農(nóng)場(chǎng)需要的是 “海量并行處理能力”。AMD EPYC 單芯片最高可達(dá) 256 核，而 NVIDIA Vera 僅 88 核。對(duì)于無(wú)需與 GPU 緊密耦合的 “純 CPU 任務(wù)”，AMD 的性價(jià)比優(yōu)勢(shì)顯著。

2、軟件生態(tài)的“路徑依賴”：數(shù)據(jù)中心內(nèi)部，部署著成千上萬(wàn)的 x86 架構(gòu)軟件 —— 排程系統(tǒng)、數(shù)據(jù)庫(kù)、安全工具等。云端巨頭不可能為了一個(gè) AI 項(xiàng)目，將整個(gè)基礎(chǔ)設(shè)施的底層軟件全部重構(gòu)為 ARM 版本。

3、產(chǎn)能與供應(yīng)量限制：NVIDIA 的 CPU 產(chǎn)能，受限于臺(tái)積電的先進(jìn)封裝工藝，遠(yuǎn)低于 AMD 與 Intel 的規(guī)模。云端巨頭動(dòng)輒需要數(shù)十萬(wàn)顆 CPU，NVIDIA 的產(chǎn)能根本無(wú)法滿足如此龐大的需求。

4、混合部署才是最優(yōu)解：云端巨頭的策略非常清晰—— 將數(shù)據(jù)中心劃分為兩大板塊：

核心算力區(qū)（GPU 訓(xùn)練 / 推論機(jī)架）：采用 NVIDIA Superchip 方案（Vera CPU + GPU），享受 NVLink-C2C 的超低延遲協(xié)同優(yōu)勢(shì)；
外圍支援區(qū)（純 CPU 農(nóng)場(chǎng)）：大規(guī)模采購(gòu) AMD EPYC 與 Intel Xeon，承擔(dān) RL 模擬、合成數(shù)據(jù)生成、傳統(tǒng)軟件排程等任務(wù)。

這意味著，當(dāng)前的 CPU 市場(chǎng)并非 “零和博弈”，而是整體規(guī)模（TAM）持續(xù)擴(kuò)張的增量市場(chǎng)。

Agentic AI 創(chuàng)造了兩種截然不同的 CPU 需求：一種是 “與 GPU 緊密耦合的低延遲控制核心”（NVIDIA 主導(dǎo)），另一種是 “外圍支撐的高核心數(shù)并行算力”（AMD/Intel 主導(dǎo)）。這正是 NVIDIA 推出自研 CPU 后，AMD EPYC 依然能在 2026 年賣到缺貨并漲價(jià)的核心邏輯。

至此，已經(jīng)勾勒出清晰的 CPU 市場(chǎng)版圖：NVIDIA 的 Vera 憑借 NVLink-C2C 技術(shù)，鎖定 GPU 機(jī)架內(nèi)部的 “控制核心”；AMD 的 EPYC 依靠 Chiplet 架構(gòu)的高核心數(shù)優(yōu)勢(shì)，統(tǒng)治外圍的純 CPU 市場(chǎng)；Intel 的 Xeon 則憑借 x86 生態(tài)的深厚根基與七成的市場(chǎng)裝機(jī)量，在傳統(tǒng)企業(yè)級(jí)市場(chǎng)與混合部署場(chǎng)景中，扮演著不可替代的角色。

*聲明：本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀點(diǎn)，我方轉(zhuǎn)載僅為分享與討論，不代表我方贊成或認(rèn)同，如有異議，請(qǐng)聯(lián)系后臺(tái)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.