網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

硬核拆解：GPT-5、Claude和Gemini是如何訓(xùn)練和推理的？

2026-04-30 11:17:51　來源: 華爾街見聞官方

上海舉報(bào)

分享至

一塊黑板、幾個(gè)方程式，芯片工程師Reiner Pope用這些工具，拆解了GPT-5、Claude和Gemini背后的訓(xùn)練與推理邏輯，并從公開的API定價(jià)中，反推出大模型不愿公開的架構(gòu)細(xì)節(jié)。

近日，知名科技播客主持人Dwarkesh Patel與芯片創(chuàng)業(yè)公司MatX的CEO Reiner Pope進(jìn)行了一場(chǎng)罕見以黑板推演為形式的深度對(duì)話。Pope此前在谷歌負(fù)責(zé)TPU架構(gòu)與編譯器優(yōu)化，被認(rèn)為是少數(shù)真正貫通AI全?！獜男酒O(shè)計(jì)到模型架構(gòu)——的工程師之一。

Pope在黑板前用方程和圖表，系統(tǒng)拆解了前沿大模型從訓(xùn)練到推理的底層邏輯。在Dwarkesh看來，這些細(xì)節(jié)“一旦理解，AI為何是今天這個(gè)樣子——架構(gòu)、定價(jià)、進(jìn)步速度——就全都說得通了”。

核心結(jié)論包括：如果不批量處理用戶請(qǐng)求，單次推理成本可能高出1000倍。而GPT-5的預(yù)訓(xùn)練數(shù)據(jù)量，是理論最優(yōu)解的100倍。此外，DeepSeek V3擁有256個(gè)專家，每次推理只激活其中一小部分（32個(gè)）。MoE（混合專家）架構(gòu)被限制在一個(gè)機(jī)架72塊GPU以內(nèi)，這是制約模型規(guī)模擴(kuò)展的核心物理瓶頸之一。

一塊GPU機(jī)架，決定了模型有多大

要理解頂級(jí)大模型為何是現(xiàn)在這個(gè)樣子，得先從硬件說起。

現(xiàn)代大模型推理跑在GPU集群上。英偉達(dá)Blackwell NVL72是目前主流的部署形態(tài)——一個(gè)機(jī)架塞了72塊GPU，通過NVLink高速互聯(lián)，任意兩塊GPU之間只需兩跳（經(jīng)過中間交換機(jī)），通信帶寬極高。

但一旦跨出這個(gè)機(jī)架，通信速度就慢了8倍。

這個(gè)"8倍差距"，直接決定了MoE（混合專家模型）的部署上限。

DeepSeek V3擁有256個(gè)專家，每次推理只激活其中一小部分（32個(gè)）。Pope解釋，最自然的部署方式是"專家并行"——不同專家放在不同GPU上。任何GPU都可能向任何其他GPU發(fā)送token，這是一種"全對(duì)全"（all-to-all）通信模式，和機(jī)架內(nèi)NVLink的拓?fù)浣Y(jié)構(gòu)完美契合。

但一旦專家分布到兩個(gè)機(jī)架，問題就來了：跨機(jī)架的token有一半要走慢8倍的網(wǎng)絡(luò)，直接成為瓶頸。

"一個(gè)機(jī)架的大小，限制了你能做多大的專家層。" Pope說。

這就解釋了一個(gè)市場(chǎng)上長(zhǎng)期困惑的問題：為什么Gemini看起來比其他實(shí)驗(yàn)室更早取得大模型預(yù)訓(xùn)練的成功？Pope的推斷是，谷歌的TPU系統(tǒng)長(zhǎng)期擁有更大的scale-up域，能在更大范圍內(nèi)做全對(duì)全通信，這讓它可以部署更高稀疏度的MoE模型，同時(shí)維持推理效率。

批處理：省1000倍成本的秘密

訪談還提及一個(gè)市場(chǎng)常見現(xiàn)象：Claude、Codex等產(chǎn)品提供“快速模式”，價(jià)格高出6倍，速度卻只快2.5倍。為什么？能不能反過來，用“慢速模式”換取更低價(jià)格？

Pope的回答直接：核心變量是批處理規(guī)模（batch size）。他用一個(gè)"發(fā)車時(shí)刻表"的比喻解釋了背后的邏輯。

GPU每隔約20毫秒發(fā)出一班"列車"（執(zhí)行一次批處理推理）。每班列車能搭多少乘客，就是批處理大?。╞atch size）。

核心結(jié)論是：推理的單位成本，在批處理量小的時(shí)候極高，隨著批處理增大會(huì)急劇下降，最終趨于一個(gè)下限。

原因是權(quán)重加載成本的攤銷。每次推理都要把模型權(quán)重從內(nèi)存（HBM）讀入芯片。這個(gè)成本是固定的，不管服務(wù)1個(gè)用戶還是2000個(gè)用戶，權(quán)重只讀一次。如果只服務(wù)1個(gè)用戶，這個(gè)固定成本就全壓在他身上；服務(wù)2000個(gè)用戶，成本均攤后幾乎可以忽略不計(jì)。

Pope估算，如果不做批處理，成本可以高出1000倍。

那最優(yōu)批處理規(guī)模是多少？Pope給出了一個(gè)簡(jiǎn)潔的公式：約等于300乘以模型稀疏度。對(duì)DeepSeek這類激活1/8專家的模型，大約是2400個(gè)并發(fā)序列。這個(gè)數(shù)字與模型總參數(shù)量無關(guān)，只取決于硬件特性和稀疏度——這是一個(gè)"反直覺"的結(jié)論。

所以，"慢速模式"真的能便宜很多嗎？從數(shù)學(xué)上看，不太行。KV緩存（存儲(chǔ)每個(gè)用戶歷史對(duì)話的內(nèi)存）無法在不同用戶之間共享攤銷，因此讓用戶多等并不能顯著降低成本。Pope說："（慢速模式）節(jié)省不了太多，因?yàn)镵V緩存是每個(gè)用戶獨(dú)立的，計(jì)算量也是獨(dú)立的。"

從API定價(jià)，反推模型架構(gòu)

Pope展示了一個(gè)讓人印象深刻的推理過程：通過公開的API定價(jià)，可以反推出模型的內(nèi)部架構(gòu)參數(shù)。

線索一：Gemini在20萬 token處漲價(jià)50%，為什么恰好是50%？為什么恰好在20萬Token這個(gè)節(jié)點(diǎn)？

Gemini 3.1的定價(jià)在超過20萬 token后上漲50%。Pope解釋，這對(duì)應(yīng)著KV緩存的內(nèi)存帶寬成本超過權(quán)重矩陣計(jì)算成本的臨界點(diǎn)——也就是模型從"計(jì)算瓶頸"切換到"內(nèi)存帶寬瓶頸"的轉(zhuǎn)折點(diǎn)。

他進(jìn)一步用這個(gè)數(shù)字反算：假設(shè)激活參數(shù)約1000億，臨界點(diǎn)在20萬 token，可以推算出每個(gè)token的KV緩存大約占2KB。這與Character AI等公開論文中描述的注意力機(jī)制參數(shù)（8個(gè)KV頭，維度128）高度吻合。

"他們通過API定價(jià)泄露了相當(dāng)多的信息。" Pope說，"當(dāng)然，他們有動(dòng)力把價(jià)格定得接近成本，否則競(jìng)爭(zhēng)對(duì)手可以搶走用戶。"

線索二：輸出比輸入貴5倍

大多數(shù)模型的輸出token（decode）比輸入token（prefill）貴約3-5倍。原因在于：

Prefill階段：一次性并行處理大量輸入token，計(jì)算效率高，接近"計(jì)算瓶頸"
Decode階段：每次只生成一個(gè)token，要讀取全部模型權(quán)重和KV緩存，極度受內(nèi)存帶寬瓶頸制約

這個(gè)價(jià)格差，實(shí)際上量化了當(dāng)前頂級(jí)模型推理時(shí)的內(nèi)存帶寬瓶頸程度。

線索三：緩存命中為何便宜10倍

API通常對(duì)"緩存命中"的token大幅打折。Pope解釋，這對(duì)應(yīng)的是存儲(chǔ)KV緩存在不同內(nèi)存層級(jí)的成本差異：重新計(jì)算一次（從token ID從頭生成KV緩存）versus從HBM/DDR/閃存中直接讀取。

他進(jìn)一步推算，按照Gemini"5分鐘緩存"與"1小時(shí)緩存"的定價(jià)差異，可以推斷這兩個(gè)檔位對(duì)應(yīng)的存儲(chǔ)介質(zhì)分別是閃存和機(jī)械硬盤——后者讓Pope也感到驚訝："我沒想到機(jī)械硬盤會(huì)被用在這里。"

GPT-5過度訓(xùn)練了多少？答案是100倍

這是整場(chǎng)講座最具震撼性的推算。

Pope從一個(gè)經(jīng)濟(jì)學(xué)直覺出發(fā)：當(dāng)預(yù)訓(xùn)練成本、RL訓(xùn)練成本、推理成本三者大致相等時(shí)，整體效率最優(yōu)。

他把這三塊成本寫出來，發(fā)現(xiàn)激活參數(shù)量這個(gè)變量直接消掉了——也就是說，最優(yōu)訓(xùn)練量的推算與模型大小本身無關(guān)，只取決于推理流量。

然后他代入真實(shí)數(shù)字：

假設(shè)某前沿模型推理流量約5000萬token/秒（全部流量除以一個(gè)家族中的多個(gè)模型版本）
模型生命周期約2個(gè)月（在下一版本發(fā)布前）
合計(jì)推理token數(shù)約200萬億（2×101?）

Chinchilla最優(yōu)解（基于約1000億激活參數(shù)）大約是2萬億token。

兩者之比：100倍。

也就是說，當(dāng)前頂級(jí)模型的預(yù)訓(xùn)練數(shù)據(jù)量，約是從純訓(xùn)練效率角度出發(fā)所需數(shù)據(jù)量的100倍。

"我們知道這大概是對(duì)的，因?yàn)橛袀餮哉fGPT-5預(yù)訓(xùn)練了約150萬億token，和我們算出的200萬億很接近。" Patel說。

Pope補(bǔ)充說，這個(gè)推算的核心邏輯是：你花在服務(wù)用戶上的計(jì)算，應(yīng)該和你花在訓(xùn)練上的計(jì)算大體相當(dāng)。否則，就是在某一頭浪費(fèi)錢。

用Patel的話說："如果GPT-5要被最優(yōu)地訓(xùn)練，那么所有用戶使用它產(chǎn)生的token總量，應(yīng)該等于預(yù)訓(xùn)練消耗的token總量——而預(yù)訓(xùn)練數(shù)據(jù)，大約就是人類知識(shí)的總和。"

Pope對(duì)此回應(yīng)："大致如此。"

流水線并行：聽起來很美，但大多數(shù)時(shí)候用不上

關(guān)于流水線并行（把模型的不同層分散到不同機(jī)架上串行執(zhí)行），Pope的結(jié)論是：它能節(jié)省內(nèi)存容量，但解決不了KV緩存問題，因此在推理場(chǎng)景價(jià)值有限。

直覺上，流水線并行需要同時(shí)保持多個(gè)"在途"的batch，這讓全局batch大小隨流水線級(jí)數(shù)成比例增長(zhǎng)。雖然每個(gè)機(jī)架上的權(quán)重存儲(chǔ)減少了，但所有機(jī)架上的KV緩存總量并沒有減少——因?yàn)樾枰嗖l(fā)序列來填滿流水線。

"你無法跨pipeline階段攤銷KV緩存，就像你無法跨batch攤銷KV緩存一樣。" Pope總結(jié)道。

這也解釋了為什么Ilya Sutskever曾說"現(xiàn)在我們都知道，流水線并行是不明智的"——這句話在訪談中被Patel引用，而Pope的推演給出了工程層面的注解。

神經(jīng)網(wǎng)絡(luò)與密碼學(xué)的“趨同進(jìn)化”

訪談最后，Pope談到了他寫過的一篇博客觀點(diǎn)：神經(jīng)網(wǎng)絡(luò)的架構(gòu)與密碼學(xué)協(xié)議之間存在"趨同進(jìn)化"。

兩者都需要把輸入信息在整個(gè)系統(tǒng)中充分混合——密碼學(xué)是為了讓輸出看起來像隨機(jī)噪聲，神經(jīng)網(wǎng)絡(luò)是為了提取隱藏的高層結(jié)構(gòu)。但目標(biāo)恰好相反：密碼學(xué)努力破壞結(jié)構(gòu)，神經(jīng)網(wǎng)絡(luò)努力發(fā)現(xiàn)結(jié)構(gòu)。

Pope提到了一個(gè)具體的技術(shù)遷移案例：Feistel網(wǎng)絡(luò)——一種密碼學(xué)中用于讓不可逆函數(shù)變得可逆的構(gòu)造，在2017年被引入神經(jīng)網(wǎng)絡(luò)，形成了"RevNets"（可逆網(wǎng)絡(luò)）。RevNets允許在訓(xùn)練的反向傳播過程中，無需預(yù)先存儲(chǔ)所有層的激活值，而是邊反向傳播邊重新計(jì)算——用更多計(jì)算換取更少內(nèi)存。

這與KV緩存的邏輯恰好相反：KV緩存是用更多內(nèi)存換取更少計(jì)算。Pope說，"用內(nèi)存換計(jì)算，在當(dāng)前的硬件條件下通常是合算的。"

訪談全文如下：

GPT-5、Claude 和 Gemini 的訓(xùn)練與推理機(jī)制——Reiner Pope 主講
主持人：Dwarkesh Patel 嘉賓：Reiner Pope（MatX 首席執(zhí)行官）
節(jié)目說明： 本期采用了全新的黑板講座形式，由 Reiner Pope 系統(tǒng)講解前沿大語言模型的訓(xùn)練與推理原理。內(nèi)容涉及大量數(shù)據(jù)與數(shù)學(xué)推導(dǎo)，令人驚訝的是，僅憑幾個(gè)公式、公開的 API 價(jià)格和一支粉筆，就能推斷出各大實(shí)驗(yàn)室正在做什么。內(nèi)容略有技術(shù)性，但非常值得深入了解。
Reiner 是芯片創(chuàng)業(yè)公司 MatX 的 CEO（披露：主持人 Dwarkesh 是 MatX 的天使投資人）。他此前在 Google 從事軟件效率、編譯器和 TPU 架構(gòu)工作，是極少數(shù)能夠貫通從芯片設(shè)計(jì)到模型架構(gòu)整個(gè)技術(shù)棧的專家之一。

第一章：批量大小如何影響 Token 成本與速度Dwarkesh： 今天我采訪的是 Reiner Pope，他是新芯片創(chuàng)業(yè)公司 MatX 的 CEO。此前他在 Google 主導(dǎo)了 TPU 架構(gòu)等多項(xiàng)工作。本期采用黑板講座的全新形式，我們專門為此打造了新的錄制空間。今天要聊的話題涵蓋模型架構(gòu)、機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施等諸多方面。
我認(rèn)為這個(gè)話題非常重要。一旦你理解了訓(xùn)練和推理在集群中的運(yùn)作方式，很多問題就會(huì)豁然開朗——為什么 AI 是現(xiàn)在這個(gè)樣子，為什么 AI 架構(gòu)是現(xiàn)在這個(gè)樣子，為什么 API 價(jià)格是現(xiàn)在這個(gè)樣子，以及為什么 AI 進(jìn)步是現(xiàn)在這個(gè)節(jié)奏。要真正理解這些，你需要深入細(xì)節(jié)，而深入細(xì)節(jié)就需要一塊黑板。Reiner，非常感謝你來參加。
首先，我想請(qǐng)你解釋一個(gè)現(xiàn)象?，F(xiàn)在有幾家公司，比如 Claude、Codex 和 Cursor，都提供類似"快速模式"的選項(xiàng)——花費(fèi) 6 倍的價(jià)格，可以獲得 2.5 倍的 Token 輸出速度。我有幾個(gè)問題：
這背后的機(jī)制是什么？為什么付更多的錢就能獲得更低的延遲？
這種模式能一直延伸下去嗎？比如付 100 倍的價(jià)格，能獲得更快的速度嗎？
反過來是否也成立？比如推出"慢速模式"——如果用戶愿意等幾分鐘，能否獲得更低廉的價(jià)格？
Reiner： 直接說結(jié)論：最大的影響因素是批量大?。╞atch size）。接下來我們會(huì)精確量化這一點(diǎn)，分析它對(duì)延遲和成本的影響。另外還有一個(gè)效應(yīng)，叫做推測(cè)解碼（speculative decoding）或多 Token 預(yù)測(cè)（multi-token prediction），我們之后可以回頭討論，但首先要講的是批量大小。
我想引入兩個(gè)分析原則：
第一，屋頂線分析（roofline analysis）。 我們來分析如何在一個(gè)芯片集群上運(yùn)行 Transformer 模型。以 Blackwell NVL72 集群為例，也就是一個(gè) 72 塊 GPU 的機(jī)架。屋頂線分析關(guān)注的是內(nèi)存帶寬和計(jì)算性能這兩個(gè)維度。
第二，只關(guān)注模型的兩個(gè)簡(jiǎn)單因素： 操作權(quán)重的時(shí)間，以及操作上下文（即 KV 緩存）的時(shí)間。
我們嘗試估算運(yùn)行某種形狀的推理所需的時(shí)間。這不是精確預(yù)測(cè)，而是近似——我們會(huì)說"時(shí)間大于等于某個(gè)量"。我們考慮兩個(gè)方面：內(nèi)存讀取所需時(shí)間，以及計(jì)算所需時(shí)間。這個(gè)簡(jiǎn)單模型能給我們非常強(qiáng)的預(yù)測(cè)能力。
計(jì)算時(shí)間（t_compute）如何估算？
需要做兩件事：一是乘以所有活躍參數(shù)；二是做注意力計(jì)算。
對(duì)于權(quán)重矩陣乘法的計(jì)算時(shí)間，公式如下：
tcompute=B×NactiveFLOPstcompute=FLOPsB×Nactive
【注：B 為批量大小，N_active 為活躍參數(shù)數(shù)量，F(xiàn)LOPs 為芯片的浮點(diǎn)運(yùn)算吞吐量。注意力計(jì)算部分相對(duì)較小，可忽略?！?br/>
內(nèi)存時(shí)間（t_mem）如何估算？
需要取出所有權(quán)重，以及讀取 KV 緩存：
tmem=Ntotal內(nèi)存帶寬+B×Lcontext×bytes_per_token內(nèi)存帶寬tmem=內(nèi)存帶寬Ntotal+內(nèi)存帶寬B×Lcontext×bytes_per_token
【注：N_total 為總參數(shù)量（不只是活躍參數(shù)），第二項(xiàng)是 KV 緩存讀取時(shí)間，與批量大小和上下文長(zhǎng)度成正比?！?br/>
Dwarkesh： 批量指的是同時(shí)服務(wù)多個(gè)用戶，對(duì)吧？
Reiner： 對(duì)。批量的意義也正在于此——如果不把多個(gè)用戶合并成一批，成本和經(jīng)濟(jì)性可能比合并處理差一千倍。我們稍后會(huì)清楚地看到這一點(diǎn)。
以 DeepSeek V3 為例，它有約 370 億活躍參數(shù)，總參數(shù)約 7000 億。我們關(guān)注的是處理單個(gè) Token 時(shí)用到的活躍參數(shù)。
關(guān)于 KV 緩存，簡(jiǎn)單解釋一下：
在自回歸推理的解碼階段，已有一批文本 Token，模型要生成下一個(gè) Token。這一步需要對(duì)模型中所有層的權(quán)重矩陣做完整的前向傳播，同時(shí)通過注意力機(jī)制，讓當(dāng)前 Token 關(guān)注所有歷史 Token——它關(guān)注的是模型對(duì)歷史 Token 生成的內(nèi)部表示，這就是 KV 緩存。
這個(gè)"單 Token 關(guān)注全部歷史"的過程主要由內(nèi)存讀取主導(dǎo)，而非矩陣乘法。因此，內(nèi)存讀取時(shí)間由以下公式給出：
tmem=Ntotal+B×Lcontext×bytes_per_token內(nèi)存帶寬tmem=內(nèi)存帶寬Ntotal+B×Lcontext×bytes_per_token
而總時(shí)間為：
t=max?(tcompute, tmem)t=max(tcompute, tmem)
批量大小 vs. 延遲（latency）圖像分析：
我們先畫批量大小與時(shí)間的關(guān)系圖。
t_compute（計(jì)算時(shí)間）：與批量大小線性正比，無偏移量，是一條過原點(diǎn)的直線。
t_mem（內(nèi)存時(shí)間）：由兩部分組成。
權(quán)重讀?。菏且粋€(gè)與批量大小無關(guān)的常數(shù)（基礎(chǔ)偏移）。
KV 緩存讀?。号c批量大小近似線性正比。
兩者之和形成一條向上傾斜的曲線。
總時(shí)間 t = max(t_compute, t_mem)，取兩條曲線的上包絡(luò)線。
這意味著什么？ 這是一張延遲圖。隨著批量大小增大，最初延遲對(duì)批量大小的依賴較弱，存在一個(gè)延遲下界。這已經(jīng)部分回答了你的問題：對(duì)于給定的硬件配置，延遲存在下界，即把所有參數(shù)從內(nèi)存讀取到芯片所需的最短時(shí)間。即便利用全部?jī)?nèi)存帶寬，也無法比這更快。
Dwarkesh： 從你畫的斜率來看，如果計(jì)算時(shí)間的斜率始終高于 KV 緩存對(duì)內(nèi)存時(shí)間的貢獻(xiàn)斜率，是否意味著批量足夠大時(shí)，內(nèi)存永遠(yuǎn)不是瓶頸？
Reiner： 這對(duì)上下文長(zhǎng)度非常敏感。隨著上下文長(zhǎng)度增加，KV 緩存讀取時(shí)間會(huì)不斷上升，最終會(huì)從計(jì)算受限（compute-limited）切換到內(nèi)存受限（memory-limited）。當(dāng)兩條曲線斜率恰好相等時(shí)，意味著系統(tǒng)同時(shí)處于內(nèi)存受限和計(jì)算受限的平衡點(diǎn)，這是理想狀態(tài)。
以一個(gè)簡(jiǎn)單的代數(shù)例子說明：假設(shè)最優(yōu)上下文長(zhǎng)度是 10 萬 Token，如果切換到 20 萬 Token，MFU（模型浮點(diǎn)利用率）會(huì)降至約 50%。稍微偏離最優(yōu)區(qū)間，對(duì) MFU 的影響是顯著的。
Dwarkesh： 稀疏注意力（sparse attention）是否能解決這個(gè)問題？
Reiner： 我對(duì)稀疏注意力很感興趣。Dense（密集）注意力的內(nèi)存讀取時(shí)間與上下文長(zhǎng)度成線性關(guān)系，而稀疏注意力的擴(kuò)展性要好得多。DeepSeek 已經(jīng)發(fā)布了稀疏注意力機(jī)制的論文，在 KV 緩存這一項(xiàng)中引入了平方根關(guān)系，大幅改善了擴(kuò)展性。至于各大實(shí)驗(yàn)室在實(shí)踐中用的是什么，外部很難確定。
批量大小 vs. 成本（cost per token）圖像分析：
成本的含義是：運(yùn)行這次推理需要占用 GPU 若干毫秒，按小時(shí)租用費(fèi)（例如 2 美元/小時(shí)/GPU）換算成成本。而這次推理處理了多少 Token？就是批量大小 B。所以：
每 Token 成本=tB每 Token 成本=Bt
我們把前面三條曲線都除以 B：
計(jì)算時(shí)間曲線：原本與 B 線性正比，除以 B 后變?yōu)?strong>常數(shù)。
KV 緩存讀取曲線：原本與 B 線性正比，除以 B 后也變?yōu)?strong>常數(shù)。
權(quán)重讀取曲線：原本是常數(shù)，除以 B 后變?yōu)?strong>雙曲線（parabola），隨 B 增大而下降。
取最大值后，整體形狀如下：在批量大小為 1 時(shí)，成本極高（權(quán)重讀取無法被攤銷）；隨著批量增大，權(quán)重讀取成本被攤銷，趨近于下界，最終由計(jì)算時(shí)間主導(dǎo)，形成成本下界。
"慢速模式"（Slow Mode）有沒有用？ 基本沒有。因?yàn)?KV 緩存和計(jì)算對(duì)每個(gè)批次都是獨(dú)一無二的，無法通過更大的批量來攤銷這兩項(xiàng)成本。"慢速模式"只是讓請(qǐng)求在這條成本曲線上停留更久，無法突破那條下界。

最優(yōu)批量大小的計(jì)算：
我們關(guān)注的是權(quán)重讀取時(shí)間等于權(quán)重計(jì)算時(shí)間的那個(gè)點(diǎn)（忽略 KV 緩存項(xiàng)以簡(jiǎn)化分析）：
Ntotal內(nèi)存帶寬=B×NactiveFLOPs內(nèi)存帶寬Ntotal=FLOPsB×Nactive
整理后：
FLOPs / 內(nèi)存帶寬 = B × (N_active / N_total) 內(nèi)存帶寬FLOPs=B×NtotalNactive
左邊是一個(gè)硬件參數(shù)，稱為算術(shù)強(qiáng)度比。以 FP4 精度為例（每次乘法 0.5 字節(jié)），這個(gè)比值在大多數(shù) GPU 上約為 300（無量綱）。右邊的 NactiveNtotalNtotalNactive 是稀疏度參數(shù)。因此：
B≥300×NtotalNactive=300稀疏度B≥300×NactiveNtotal=稀疏度300
以 DeepSeek 為例，激活 256 個(gè)專家中的 32 個(gè)，稀疏度為 1/8，因此：
B≈300×8=2400B≈300×8=2400
這個(gè)估算與實(shí)踐中的數(shù)值非常接近。實(shí)踐中通常會(huì)取 2 到 3 倍的余量，因?yàn)閷?shí)際效率不如屋頂線分析理想。所以最優(yōu)批量大小大約是 2000 到 3000 個(gè) Token。
【注：這里的"Token"指的是并發(fā)推理序列數(shù)——大約 2000 條獨(dú)立的對(duì)話序列同時(shí)做單步解碼，而非一條長(zhǎng)序列中的 Token 數(shù)。】
Dwarkesh： 加入 KV 緩存后，最優(yōu)批量大小會(huì)有什么變化？
Reiner： 如果加入 KV 緩存，它會(huì)消耗更多內(nèi)存帶寬，權(quán)重加載可用的帶寬就減少了，因此需要更大的批量來補(bǔ)償，最優(yōu)批量大小會(huì)增大。
Dwarkesh： 這個(gè)數(shù)字和 GPU 個(gè)數(shù)是無關(guān)的？
Reiner： 對(duì)。結(jié)論非常有趣——最優(yōu)批量大小只取決于稀疏度，與模型規(guī)模本身無關(guān)（稀疏度本身蘊(yùn)含了模型規(guī)模的信息）。
每秒 Token 數(shù)（吞吐量）估算：
每秒 Token 數(shù)=BΔt=B×64≈2000×64=128,000 tokens/s每秒 Token 數(shù)=ΔtB=B×64≈2000×64=128,000 tokens/s
【注：Δt ≈ 15~20 毫秒，取倒數(shù)約為 64/s?！?br/>
Dwarkesh： Gemini 去年公布的全球流量是每秒數(shù)億 Token，這只是其千分之一左右。
Reiner： 是的。這說明一個(gè)系統(tǒng)至少需要達(dá)到 Gemini 千分之一的規(guī)模才能在市場(chǎng)上有競(jìng)爭(zhēng)力。這是一個(gè)有意思的下界。
關(guān)于稀疏度與模型質(zhì)量的權(quán)衡：
論文《Unified Scaling Laws for Routed Language Models》研究了在保持活躍參數(shù)量不變的情況下，增加稀疏度對(duì)模型質(zhì)量的影響。根據(jù)舊版 MoE 技術(shù)的實(shí)驗(yàn)結(jié)果，64 個(gè)專家、3.7 億活躍參數(shù)的模型，質(zhì)量與 13 億參數(shù)的 Dense 模型相當(dāng)。也就是說，總參數(shù)量擴(kuò)大了 64 倍，才換來了相當(dāng)于 4 倍活躍參數(shù)的效果——代價(jià)相當(dāng)大。
Dwarkesh： 稀疏度增大一倍，總參數(shù)量就要擴(kuò)大 8 倍，這到底是合算的嗎？
Reiner： 從我們的分析框架來看，這是純粹的凈收益——因?yàn)楦蟮目倕?shù)量可以通過更大的批量來攤銷，所以只要你有足夠多的用戶，就盡量增加稀疏度。唯一的限制是內(nèi)存容量：更多的總參數(shù)意味著需要更多的內(nèi)存來存儲(chǔ)權(quán)重。
Dwarkesh： 關(guān)鍵點(diǎn)是：稀疏度增加，需要的批量也更大，而更大的批量需要更大的內(nèi)存容量來存儲(chǔ) KV 緩存，這是內(nèi)存容量而非內(nèi)存帶寬的問題。
Reiner： 完全正確。這是個(gè)很好的切入點(diǎn)，下面我們可以來聊聊 MoE 層在 GPU 機(jī)架上的物理布局。
第二章：MoE 模型在 GPU 機(jī)架上的布局方式
Reiner： 我們先放大看 MoE（混合專家）層的結(jié)構(gòu)。一個(gè)典型的 MoE 層包括：
路由層（Router）：接收輸入 Token，決定將其路由到哪些專家。
多個(gè)專家（Experts）：路由層選擇一小部分專家，例如 256 個(gè)中選 1/32。每個(gè)專家本身是一個(gè)標(biāo)準(zhǔn) MLP，包含上投影（up projection）、非線性激活和下投影（down projection）。
匯聚與殘差連接：各專家的輸出匯聚求和后，加上輸入 Token 的殘差連接，輸出最終結(jié)果。
如何將 MoE 映射到 GPU 機(jī)架？標(biāo)準(zhǔn)做法是使用專家并行（expert parallelism）：不同的專家放在不同的 GPU 上。
以 DeepSeek 的 256 個(gè)專家為例，在 Blackwell 機(jī)架的 72 塊 GPU 上部署：為簡(jiǎn)化計(jì)算，只用其中 64 塊（忽略其余 8 塊），每塊 GPU 存放 4 個(gè)專家。
Token 需要從路由層分發(fā)到各個(gè)專家所在的 GPU，然后再匯集回來——這產(chǎn)生了全互聯(lián)（all-to-all）通信模式：任意 GPU 都可能向任意其他 GPU 發(fā)送數(shù)據(jù)。
Blackwell 機(jī)架內(nèi)的 NVLink 網(wǎng)絡(luò)天然支持全互聯(lián)通信——每塊 GPU 通過 NVLink 電纜連接到機(jī)架內(nèi)部的 NVSwitch，任意兩塊 GPU 只需兩跳即可通信（GPU → NVSwitch → GPU）。因此，單個(gè)機(jī)架是 MoE 專家并行的完美場(chǎng)景。
跨機(jī)架的問題：
當(dāng)我需要擴(kuò)展到兩個(gè)機(jī)架時(shí)，麻煩來了。機(jī)架間通信使用的是規(guī)模擴(kuò)展網(wǎng)絡(luò)（scale-out network），其帶寬約為機(jī)架內(nèi) NVLink（scale-up network）的 1/8。這意味著：跨機(jī)架部署 MoE 時(shí)，約有一半的 Token 需要走這條慢速通道，成為嚴(yán)重瓶頸。因此，單個(gè)機(jī)架限定了 MoE 專家層的規(guī)模上界。
這也正是行業(yè)一直在推動(dòng)更大互聯(lián)域（interconnect domain）的動(dòng)力。
機(jī)架的物理結(jié)構(gòu)簡(jiǎn)介：
機(jī)架是一個(gè)物理結(jié)構(gòu)，通常高約數(shù)米、寬約一到兩米，容納約 64 塊 GPU，受限于供電、重量和散熱能力。Nvidia 的 Blackwell 機(jī)架將 GPU 置于機(jī)架外側(cè)，NVSwitch 置于內(nèi)部，通過大量電纜連接。
機(jī)架內(nèi)（scale-up）： 全互聯(lián)，高帶寬，低延遲。
機(jī)架間（scale-out）： 通過數(shù)據(jù)中心交換機(jī)連接，帶寬約為機(jī)架內(nèi)的 1/8。
從 Hopper 到 Blackwell，scale-up 域的規(guī)模變化：
Hopper：8 塊 GPU 的 scale-up 域（NVLink 域）
Blackwell：72 塊 GPU（約 64）
Rubin（下一代）：約 500 塊 GPU
從 Hopper 到 Blackwell 主要是從"托盤"形態(tài)切換到"機(jī)架"形態(tài)的產(chǎn)品決策。從 64 到 500 則需要更復(fù)雜的物理機(jī)架設(shè)計(jì)，核心挑戰(zhàn)是電纜密度——隨著 GPU 數(shù)量翻倍，電纜密度也要翻倍，受限于機(jī)架內(nèi)的物理空間、電纜彎曲半徑、背板連接器密度以及重量和散熱等多方面約束。
為何不直接建一個(gè)超大交換機(jī)把所有 GPU 都互聯(lián)？ 主要原因是布線擁塞——需要鋪設(shè)的電纜數(shù)量極其龐大，物理上難以實(shí)現(xiàn)。
更大 scale-up 域?qū)?AI 進(jìn)展的影響：
GPT-4 據(jù)傳擁有超過一萬億參數(shù)，但直到近半年才有更大規(guī)模的模型發(fā)布——這是否因?yàn)槲覀円恢痹诘却銐虼蟮膬?nèi)存來容納一個(gè)五萬億參數(shù)模型？
Reiner： 是的，這正是關(guān)鍵所在。以 Hopper 為例，8 塊 H100 有約 640 GB 顯存（截至 2022 年）。而 Blackwell 的 scale-up 內(nèi)存終于達(dá)到 10~20 TB 量級(jí)，足以容納一個(gè)五萬億參數(shù)模型及其 KV 緩存。更大的 scale-up 域是一次重大解鎖。
Google 的 TPU 部署長(zhǎng)期擁有較大的 scale-up 域，這也解釋了為何 Gemini 似乎在預(yù)訓(xùn)練方面領(lǐng)先更早。活躍參數(shù)受計(jì)算成本限制，總參數(shù)受 scale-up 域規(guī)模限制——這兩者共同界定了可行的模型設(shè)計(jì)空間。
第三章：流水線并行如何跨機(jī)架分布模型層
Dwarkesh： 我們討論的單 scale-up 域內(nèi)操作，是特別適用于某種具體工作負(fù)載，還是普遍適用——無論是前向傳播還是后向傳播，無論是預(yù)填充（prefill）還是解碼（decode），無論是預(yù)訓(xùn)練、RL 生成還是用戶推理？
Reiner： 要回答這個(gè)問題，我們需要討論其他通信模式。除了專家并行（all-to-all），還有張量并行（tensor parallelism）和數(shù)據(jù)并行（data parallelism），以及流水線并行（pipeline parallelism）。隨著專家粒度越來越細(xì)，張量并行已不再那么重要，但流水線并行和數(shù)據(jù)并行非常適合跨多個(gè)機(jī)架使用。
流水線并行（Pipeline Parallelism）：
設(shè)想我們有一個(gè) MoE 層，上面還有一百多個(gè)這樣的層。我可以在某一層切換到另一個(gè)機(jī)架，讓不同機(jī)架負(fù)責(zé)不同的層。
關(guān)鍵問題：切換機(jī)架會(huì)成為通信瓶頸嗎？
我們比較 scale-out 帶寬需求與 scale-up 帶寬需求之比：
tscale-uptscale-out=18×Nactivated experts×2×Nlayers per stagetscale-outtscale-up=81×Nactivated experts×2×Nlayers per stage
【注：1/8 來自 scale-up 比 scale-out 快 8 倍；×2 來自 all-to-all 的雙向通信（上行和下行）；N_activated experts 是每個(gè) Token 激活的專家數(shù)；N_layers per stage 是每個(gè)流水線階段的層數(shù)?！?br/>
我們希望這個(gè)比值 ≥ 1，即 scale-up 時(shí)間 ≥ scale-out 時(shí)間——這意味著 scale-up 不是瓶頸（它速度更快，處理完數(shù)據(jù)時(shí) scale-out 尚未完成）。
需要克服的只是 8 倍的因子。由于激活專家數(shù)通常就在 8 左右，再適當(dāng)增加每流水線階段的層數(shù)，就能輕松滿足這一條件。
實(shí)踐含義： 可以構(gòu)建一條由多個(gè)機(jī)架組成的流水線，每個(gè)機(jī)架負(fù)責(zé)幾層，然后順序傳遞到下一個(gè)機(jī)架。這種切分方式天然地對(duì)應(yīng)模型架構(gòu)本身——專家切分在 GPU 之間，層切分在機(jī)架之間，非常直觀。
Dwarkesh： Ilya 曾說"眾所周知，流水線并不明智"，Horace He 也提到流水線會(huì)帶來架構(gòu)約束（比如 Kimi 那種跨層殘差連接就很難實(shí)現(xiàn)）。流水線的好處是什么？
Reiner： 流水線本身帶來很大的工程麻煩，但確實(shí)有好處：節(jié)省內(nèi)存容量。它不降低運(yùn)行時(shí)間或計(jì)算量——只是把一部分內(nèi)存壓力從一個(gè)機(jī)架轉(zhuǎn)移到另一個(gè)機(jī)架。如果單個(gè)機(jī)架的內(nèi)存成為瓶頸，流水線可以大幅緩解這個(gè)問題，讓模型參數(shù)分散在多個(gè)機(jī)架上存儲(chǔ)。
流水線氣泡（Pipeline Bubble）與微批次（Micro-batch）：
讓我們畫出推理時(shí)的流水線時(shí)序圖。假設(shè)有 4 個(gè)機(jī)架（流水線階段）：
時(shí)間 →機(jī)架 1: [批次0][批次1][批次2][批次3][批次0][批次1]...機(jī)架 2:    [批次0][批次1][批次2][批次3][批次0]...機(jī)架 3:       [批次0][批次1][批次2][批次3]...機(jī)架 4:          [批次0][批次1][批次2]...
在推理時(shí)，我們讓批次 0 一進(jìn)入機(jī)架 1，機(jī)架 1 就立刻開始處理批次 1——無需等待。這完全填滿了時(shí)間軸，沒有氣泡。此時(shí)"微批次"和"批次"的區(qū)別并無實(shí)質(zhì)意義，只是叫法不同。
在訓(xùn)練時(shí)，情況更復(fù)雜。需要先完成前向傳播，再做反向傳播，且反向傳播需要完整的全局批量才能做權(quán)重更新。為了避免氣泡，各種方案（如 Zero Bubble、One-Forward-One-Backward）會(huì)將前向和反向交織起來，但這帶來相當(dāng)?shù)墓こ虖?fù)雜性。
流水線對(duì)推理延遲有影響嗎？ 沒有。延遲與不使用流水線相同——只是把各機(jī)架的工作排列在一條時(shí)間線上，總時(shí)間不變。流水線唯一的好處是降低每個(gè)機(jī)架的內(nèi)存容量需求。
Dwarkesh： 那為什么推理時(shí)不常用流水線？
Reiner： 因?yàn)?Blackwell 機(jī)架已經(jīng)有幾十 TB 的內(nèi)存，而一個(gè)萬億參數(shù)的模型只需約 1 TB，內(nèi)存本來就相當(dāng)富裕，流水線降低的是已經(jīng)不大的數(shù)字，收益有限。
流水線與 KV 緩存的內(nèi)存分析：
系統(tǒng)內(nèi)存需求：
Ctotal=Ntotal+B×Lcontext×bytes_per_tokenCtotal=Ntotal+B×Lcontext×bytes_per_token
引入專家并行度 E（機(jī)架內(nèi) GPU 數(shù)，例如 64）和流水線并行度 P（機(jī)架數(shù)，例如 4），每 GPU 內(nèi)存需求為：
Cper GPU=NtotalE×P+Bglobal×Lcontext×bytes_per_tokenE×PCper GPU=E×PNtotal+E×PBglobal×Lcontext×bytes_per_token
但是，引入 P 級(jí)流水線時(shí)，全局批量 Bglobal=P×bmicroBglobal=P×bmicro（P 個(gè)微批次，每個(gè)大小為 b_micro）。代入后：
Cper GPU=NtotalE×P+bmicro×Lcontext×bytes_per_tokenECper GPU=E×PNtotal+Ebmicro×Lcontext×bytes_per_token
關(guān)鍵結(jié)論：流水線階段數(shù) P 只能減少權(quán)重占用的內(nèi)存，對(duì) KV 緩存占用的內(nèi)存沒有幫助！ P 的增大使全局批量增大，兩個(gè)效應(yīng)恰好抵消。
這類似于之前的結(jié)論：KV 緩存無法通過大批量來攤銷，現(xiàn)在又發(fā)現(xiàn)它也無法通過流水線分擔(dān)。
Dwarkesh： 所以前沿實(shí)驗(yàn)室做推理時(shí)，基本上都在單個(gè) scale-up 域內(nèi)？
Reiner： 是的。對(duì)于大多數(shù)模型，最優(yōu)策略是：盡可能多地使用專家并行（最多用滿整個(gè) scale-up 域），流水線并行只用極少的級(jí)數(shù)（0 到 2 級(jí)，主要是為了控制權(quán)重內(nèi)存）。張量并行由于專家越來越細(xì)，已不再適用。
如果模型極大、極稀疏，超出單個(gè)機(jī)架的內(nèi)存，則可以適當(dāng)增加流水線級(jí)數(shù)。
更大的 scale-up 域?yàn)楹沃匾?/strong>
有人會(huì)問：既然流水線能解決內(nèi)存容量問題，更大的 scale-up 域有什么額外價(jià)值？
關(guān)鍵在于內(nèi)存帶寬，而非內(nèi)存容量：
tmem（權(quán)重）=Ntotalscale-up 域內(nèi)所有 GPU 的總內(nèi)存帶寬=NtotalS×單 GPU 帶寬tmem（權(quán)重）=scale-up 域內(nèi)所有 GPU 的總內(nèi)存帶寬Ntotal=S×單 GPU 帶寬Ntotal
【注：S 為 scale-up 域內(nèi) GPU 數(shù)量。流水線中不同階段不能并行加載，但同一 scale-up 域內(nèi)的所有 GPU 可以并行加載各自負(fù)責(zé)的權(quán)重，總帶寬是單 GPU 的 S 倍。】
從 Hopper 到 Blackwell，單 GPU 內(nèi)存帶寬提升約 1.5~2 倍，但 scale-up 域大小提升了 8 倍（從 8 到 64），總帶寬因此大幅提升。這帶來的收益是：
更低的推理延遲；
支持更長(zhǎng)的上下文（因?yàn)?KV 緩存讀取速度更快）——這對(duì)日益強(qiáng)調(diào)智能體（agentic）能力的模型尤為重要。
第四章：Ilya 為何說"眾所周知，流水線并不明智"
Dwarkesh： 現(xiàn)在大家都在談?wù)?內(nèi)存墻"——內(nèi)存變得極其昂貴，供應(yīng)不足。據(jù)說超大規(guī)模數(shù)據(jù)中心今年有 50% 的資本開支花在內(nèi)存上，這意味著消費(fèi)類設(shè)備（手機(jī)、筆記本）也受到?jīng)_擊，產(chǎn)量下降。
但同時(shí)，你剛才說 Blackwell 機(jī)架內(nèi)存已經(jīng)相當(dāng)富裕。既然流水線能進(jìn)一步降低內(nèi)存需求，Jensen Huang 為什么還要把這么多內(nèi)存堆進(jìn)這些系統(tǒng)里？
Reiner： 讓我們來分析內(nèi)存容量的實(shí)際需求。
系統(tǒng)總內(nèi)存需求：
Ctotal=Ntotal+B×Lcontext×bytes_per_tokenCtotal=Ntotal+B×Lcontext×bytes_per_token
流水線可以減少權(quán)重部分的需求，但 KV 緩存部分無法被流水線分擔(dān)。這就是關(guān)鍵所在：當(dāng)流水線級(jí)數(shù) P 足夠大，權(quán)重項(xiàng)變得微不足道，KV 緩存成為內(nèi)存占用的主導(dǎo)項(xiàng)。
進(jìn)一步的分析表明：增加流水線級(jí)數(shù)會(huì)相應(yīng)增加同時(shí)在途的序列數(shù)（in-flight sequences），兩個(gè)效應(yīng)精確抵消，每 GPU 的 KV 緩存內(nèi)存并不減少。所以，流水線對(duì)于 KV 緩存根本沒有幫助。
Dwarkesh： 那推理時(shí)實(shí)際上用什么并行策略？
Reiner： DeepSeek 的論文里有記載：大量使用專家并行，極少甚至不用流水線（最多用 1~2 級(jí)來控制權(quán)重存儲(chǔ)，不再多了）。張量并行在專家越來越細(xì)的今天已幾乎沒有意義。
為什么超大 Scale-Up 域?qū)?AI 進(jìn)展如此重要：
總結(jié)一下，scale-up 域大小影響 AI 進(jìn)展的兩個(gè)核心路徑：
內(nèi)存帶寬：更大的 scale-up 域意味著更多 GPU 并行加載權(quán)重，總帶寬成倍提升，直接降低推理延遲，支持更長(zhǎng)上下文。
內(nèi)存容量：容納更多總參數(shù)、更多 KV 緩存，支持更大規(guī)模的模型部署。
流水線解決了內(nèi)存容量問題（至少對(duì)于模型權(quán)重），但只有更大的 scale-up 域才能解決內(nèi)存帶寬問題。
第五章：由于強(qiáng)化學(xué)習(xí)，模型可能比 Chinchilla 最優(yōu)訓(xùn)練量多 100 倍
Dwarkesh： 現(xiàn)在有了 Chinchilla 擴(kuò)展律（Chinchilla scaling laws），它告訴你模型大小相對(duì)于訓(xùn)練數(shù)據(jù)量應(yīng)當(dāng)如何匹配。但現(xiàn)在的目標(biāo)不只是用訓(xùn)練算力最大化模型質(zhì)量，而是最小化訓(xùn)練和推理的綜合成本，同時(shí)達(dá)到某個(gè)性能目標(biāo)。此外，有了強(qiáng)化學(xué)習(xí)（RL），還要考慮預(yù)訓(xùn)練、RL 生成和用戶推理這三者之間的計(jì)算分配。
具體問題是：現(xiàn)在的模型比 Chinchilla 最優(yōu)多訓(xùn)練了多少？RL 的引入是否改變了這個(gè)數(shù)字？
Reiner： 這需要一些推測(cè)，因?yàn)樽钚碌臄U(kuò)展律和模型流量數(shù)據(jù)并未公開。但我們可以用一個(gè)啟發(fā)式框架來估算。
基本思路：當(dāng)總成本是兩項(xiàng)成本之和時(shí)，最小化總成本的最優(yōu)點(diǎn)往往在兩項(xiàng)成本相等處。 這對(duì)形如 1/x 與 x 的函數(shù)對(duì)成立，對(duì)指數(shù)函數(shù)對(duì)也成立，對(duì)冪律函數(shù)通常也成立。因此，我們的啟發(fā)式假設(shè)是：預(yù)訓(xùn)練成本、RL 成本和推理成本應(yīng)當(dāng)大致相等。
成本公式：
預(yù)訓(xùn)練計(jì)算量（FLOPs）= 6×Nactive×Dpretrain6×Nactive×Dpretrain（著名的 6ND 公式，前向 + 反向 = 6 倍參數(shù)乘數(shù)據(jù)量）
【注：每個(gè)參數(shù)每個(gè) Token 的前向傳播約 2 FLOPs，反向傳播約 4 FLOPs，合計(jì)約 6 FLOPs。】
RL 計(jì)算量 = α×Nactive×DRLα×Nactive×DRL，其中 α 在 2~6 之間（2 表示只做生成不做反向傳播，6 表示每條軌跡都做完整的前向+反向；實(shí)際上還要扣除 decode 的 MFU 低于訓(xùn)練 MFU 的低效因子，約 30%，因此有效 α ≈ 1/10）
推理計(jì)算量（FLOPs）= 2×Nactive×Dinference2×Nactive×Dinference（只有前向傳播，系數(shù)為 2）
【注：前向傳播 = 2 × 參數(shù)量 × Token 數(shù)，這就是推理的 FLOPs 來源。】
令三者相等（系數(shù)約 1/10 和 1/10），活躍參數(shù)量可約去，得到：
Dpretrain≈Dinference≈DRL×110Dpretrain≈Dinference≈DRL×101
即：RL Token 數(shù)應(yīng)約為預(yù)訓(xùn)練 Token 數(shù)的 10 倍（因?yàn)?RL 每個(gè) Token 的成本更高，要花同樣多的錢就需要更少的 Token）。預(yù)訓(xùn)練 Token 數(shù)與推理 Token 數(shù)大致相當(dāng)。
實(shí)際數(shù)值估算：
推理 Token 總量：約 5000 萬 tokens/秒（假設(shè)某單一模型的流量） × 2 個(gè)月 ≈ 200 萬億 Token。
前沿模型的預(yù)訓(xùn)練 Token 數(shù)：據(jù)估算約 150 萬億 Token（與推理量大致相當(dāng)，符合我們的框架）。
活躍參數(shù)量：約 1000 億參數(shù)（估算）。
Chinchilla 最優(yōu) Token 數(shù) DChinchilla≈20×Nactive≈2DChinchilla≈20×Nactive≈2 萬億 Token。
【注：Chinchilla 規(guī)律建議訓(xùn)練 Token 數(shù)約為參數(shù)量的 20 倍?！?br/>
結(jié)論： 實(shí)際訓(xùn)練 Token 數(shù)（約 200 萬億）是 Chinchilla 最優(yōu)值（約 2 萬億）的 100 倍。即當(dāng)前前沿模型的過訓(xùn)練程度約為 Chinchilla 最優(yōu)的 100 倍。
Dwarkesh： 這意味著，為了優(yōu)化訓(xùn)練與推理的綜合成本，GPT-5 之類的模型接受用戶使用時(shí)產(chǎn)生的全部 Token 量，應(yīng)當(dāng)與預(yù)訓(xùn)練 Token 總量大致相當(dāng)——而預(yù)訓(xùn)練 Token 量大約等于人類知識(shí)的總和。
Reiner： 這就是這個(gè)框架給出的推論。當(dāng)然，如果你的模型預(yù)測(cè)能力不完美，或者模型最終被放棄而沒有部署，推理端的 Token 價(jià)值要打折扣，因此實(shí)際上可能會(huì)更傾向于多訓(xùn)練一些。
Dwarkesh： 僅憑公開信息就能首先原理地推算出這種量級(jí)的數(shù)字，確實(shí)令人嘆服。下面，我們可以從公開的 API 價(jià)格中再推斷一些有趣的信息。
第六章：從 API 定價(jià)推斷長(zhǎng)上下文的內(nèi)存成本
Dwarkesh： Gemini 3.1 Pro 的定價(jià)是：超過 20 萬 Token 的上下文比 20 萬以下貴 50%。為什么恰好是 50%？為什么恰好在 20 萬 Token 這個(gè)節(jié)點(diǎn)？
Reiner： 先回顧一下成本與上下文長(zhǎng)度的關(guān)系圖。以上下文長(zhǎng)度為橫軸，每 Token 成本為縱軸：
計(jì)算時(shí)間（compute time）：對(duì)上下文長(zhǎng)度幾乎無依賴，是一條水平線。（理論上存在二次項(xiàng)，但在百萬 Token 量級(jí)以下可以忽略。）
內(nèi)存讀取時(shí)間（mem time）：從權(quán)重基礎(chǔ)值出發(fā)，隨上下文長(zhǎng)度線性增加（因?yàn)?KV 緩存隨上下文增大）。
兩者取最大值，在某個(gè)臨界點(diǎn)會(huì)從"計(jì)算受限"切換到"內(nèi)存受限"，出現(xiàn)拐點(diǎn)。這個(gè)拐點(diǎn)大致對(duì)應(yīng)提價(jià)的 20 萬 Token 節(jié)點(diǎn)。 兩段式定價(jià)結(jié)構(gòu)（低于 20 萬一個(gè)價(jià)，高于 20 萬一個(gè)價(jià)）是應(yīng)對(duì)這一成本結(jié)構(gòu)的合理商業(yè)策略。
從定價(jià)推算 bytes_per_token（每 Token 的 KV 緩存大小）：
令內(nèi)存時(shí)間等于計(jì)算時(shí)間的斷點(diǎn)在 200K Token 處（忽略權(quán)重讀取項(xiàng)，僅考慮 KV 緩存讀取項(xiàng)）：
B×Lcontext×bytes_per_token內(nèi)存帶寬=NactiveFLOPs內(nèi)存帶寬B×Lcontext×bytes_per_token=FLOPsNactive
B 約去，整理得：
bytes_per_token=NactiveLcontext×內(nèi)存帶寬FLOPs=NactiveLcontext×1300bytes_per_token=LcontextNactive×FLOPs內(nèi)存帶寬=LcontextNactive×3001
代入 Nactive≈1000Nactive≈1000 億，Lcontext=200,000Lcontext=200,000：
bytes_per_token=10112×105×1300≈1066≈1667 字節(jié)≈2 KBbytes_per_token=2×1051011×3001≈6106≈1667 字節(jié)≈2 KB
2 KB/token 是否合理？ 完全合理?？梢酝ㄟ^以下兩條路徑實(shí)現(xiàn)：
密集注意力 + 跨層共享： 如 Character.AI 和 Gemma 模型中的架構(gòu)，全局 KV 緩存只有 1 層，共享給所有層使用。計(jì)算：1×2×dhead×NKV heads=1×2×128×8=20481×2×dhead×NKV heads=1×2×128×8=2048 字節(jié)。
其中 dhead=128dhead=128（注意力頭維度，典型值）；NKV headsNKV heads 通常在 1~8 之間。
KV 頭（存儲(chǔ)歷史 Token 表示，留在內(nèi)存中）與 Q 頭（只在當(dāng)前 Token 的注意力計(jì)算中臨時(shí)使用）不同。
稀疏注意力： 使用更多層和更多頭，但引入一個(gè)稀疏因子（1/sparsity）來降低等效的 bytes_per_token。
這進(jìn)一步說明，API 定價(jià)實(shí)際上泄露了大量模型架構(gòu)信息。
從輸出價(jià)格比輸入價(jià)格貴推斷 decode vs. prefill 的成本差異：
通常輸出（decode）的價(jià)格比輸入（prefill）貴約 5 倍。為什么？
我們畫"pass 長(zhǎng)度（len_pass）vs. 每 Token 成本"的關(guān)系圖：
decode 是 len_pass = 1 的特殊情況。
prefill 對(duì)應(yīng)較大的 len_pass。
每 Token 成本 = t / len_pass：
計(jì)算成本（t_compute / len_pass）： 計(jì)算時(shí)間本身不隨 len_pass 變化，除以 len_pass 后是一條常數(shù)線——這意味著 prefill 的每 Token 計(jì)算成本與 decode 相同。
內(nèi)存成本（t_mem / len_pass）： 內(nèi)存時(shí)間隨 len_pass 的增加而…其實(shí)幾乎不變（權(quán)重讀取是主要項(xiàng)，KV 緩存讀取在 flash attention 下幾乎是臨時(shí)的）。但除以 len_pass 之后，反而隨 len_pass 增大而降低。
這說明：prefill 實(shí)際上比 decode 便宜，因?yàn)?decode 極度受限于內(nèi)存帶寬，而 prefill 可以更高效地利用計(jì)算能力。 decode 是內(nèi)存帶寬受限的，prefill 是計(jì)算受限的。
從"output 比 input 貴 5 倍"這一定價(jià)，可以讀出：decode 時(shí)內(nèi)存帶寬利用率約是計(jì)算利用率的 5 倍——即系統(tǒng)極度受內(nèi)存帶寬瓶頸制約。
提示詞緩存（Prompt Cache）的定價(jià)分析：
以 Gemini 2.5 Pro 的定價(jià)為例（非精確）：
基礎(chǔ)輸入 Token：$5/百萬 Token（相當(dāng)于重新計(jì)算 KV 緩存的成本）
寫入緩存（5 分鐘）：略貴于基礎(chǔ)價(jià)格
寫入緩存（1 小時(shí)）：更貴
緩存的成本有兩個(gè)維度：
檢索成本（一次性）： 從存儲(chǔ)位置讀取 KV 緩存到 HBM 的帶寬成本。
持有成本（每秒）： 占用存儲(chǔ)空間的機(jī)會(huì)成本（若占滿該存儲(chǔ)，GPU 無法處理更多請(qǐng)求）。
不同內(nèi)存層級(jí)的"排空時(shí)間"（capacity / bandwidth）：
HBM：≈ 20 毫秒（排空時(shí)間極短，不適合長(zhǎng)時(shí)間持有）
DDR：≈ 秒級(jí)（1~10 秒）
Flash（NVMe SSD）：≈ 分鐘級(jí)（約 1 分鐘）
機(jī)械硬盤（HDD）：≈ 小時(shí)級(jí)（約 1 小時(shí)）
5 分鐘緩存 vs. 1 小時(shí)緩存恰好對(duì)應(yīng) Flash 和 HDD 兩個(gè)層級(jí)。 令人意外的是，機(jī)械硬盤這種古老技術(shù)仍在數(shù)據(jù)中心中被使用，其排空時(shí)間約為 1 小時(shí)，成本極低但速度極慢。
第七章：神經(jīng)網(wǎng)絡(luò)與密碼學(xué)的趨同演化
Dwarkesh： 你有一篇非常有趣的博文，討論了密碼協(xié)議的結(jié)構(gòu)與神經(jīng)網(wǎng)絡(luò)的相似性——兩者都需要將信息混合到所有輸入中（前者是為了防止哈希函數(shù)被預(yù)測(cè)，后者是為了建模輸入之間的相互影響），這是一種趨同演化。但從高層次看，它們其實(shí)在做相反的事情：密碼協(xié)議把有結(jié)構(gòu)的信息變得像隨機(jī)數(shù)，神經(jīng)網(wǎng)絡(luò)則從看似隨機(jī)的數(shù)據(jù)（蛋白質(zhì)序列、DNA、自然語言）中提取高層結(jié)構(gòu)。
Reiner： 是的，這個(gè)對(duì)比很有意思。相似機(jī)制用于相反目的。我們也能在其他地方看到"混合與擾亂"的模式，比如做蛋糕時(shí)攪拌面糊——先這個(gè)方向攪，再那個(gè)方向攪，確實(shí)是不錯(cuò)的混合策略。
不過，兩者有一個(gè)深刻的區(qū)別：神經(jīng)網(wǎng)絡(luò)是可微分的，而密碼算法努力避免可微分。
可微分性使神經(jīng)網(wǎng)絡(luò)可訓(xùn)練。 殘差連接和 LayerNorm 等設(shè)計(jì)都是為了保持梯度的簡(jiǎn)潔可計(jì)算性。
密碼分析中的差分密碼分析（differential cryptanalysis） 恰恰是通過對(duì)密碼算法"求導(dǎo)"來攻擊它：對(duì)輸入做微小擾動(dòng)，觀察輸出變化。一個(gè)好的密碼算法應(yīng)該使得輸入的微小差異導(dǎo)致輸出的巨大差異（雪崩效應(yīng)），而神經(jīng)網(wǎng)絡(luò)恰恰需要保持梯度的連續(xù)性來避免雪崩。
兩者的目標(biāo)在這一維度上截然相反。
Dwarkesh： 神經(jīng)網(wǎng)絡(luò)真的被用于密碼學(xué)了嗎？
Reiner： 用神經(jīng)網(wǎng)絡(luò)來做密碼算法是非常危險(xiǎn)的。99% 的新密碼算法都是被攻破的。
但反方向——密碼學(xué)的思想被引入神經(jīng)網(wǎng)絡(luò)——至少有一個(gè)非常成功的例子：Feistel 密碼（Feistel Cipher / Feistel Network）。
Feistel 網(wǎng)絡(luò)原理： 給定一個(gè)不可逆函數(shù) f，如何構(gòu)造一個(gè)可逆層？方法是使用兩個(gè)輸入：
輸入: (x,y)→輸出: (x, y+f(x))輸入: (x,y)→輸出: (x, y+f(x))
加密（前向）： 計(jì)算 z=y+f(x)z=y+f(x)，輸出 (x,z)(x,z)。
解密（逆向）： 已知 (x,z)(x,z)，恢復(fù) xx（直接讀取），恢復(fù) y=z?f(x)y=z?f(x)（已知 x，可以重新計(jì)算 f(x)）。
整個(gè)構(gòu)造是可逆的，即使 f 本身不可逆。這在密碼學(xué)中被廣泛用于構(gòu)建加密層，也是許多對(duì)稱加密算法的基礎(chǔ)。
被引入神經(jīng)網(wǎng)絡(luò)的應(yīng)用——可逆網(wǎng)絡(luò)（RevNets）：
2017 年的論文《Reversible Residual Networks》（RevNets）將 Feistel 思想引入 Transformer 等神經(jīng)網(wǎng)絡(luò)：
兩個(gè)輸入: (x, y)網(wǎng)絡(luò)層 f（例如 Transformer 層）前向: output_x = x output_y = y + f(x)逆向: x = output_x y = output_y - f(output_x)
這實(shí)際上是將殘差連接從 1 層變成了跨 2 層的連接（y 來自上一層的殘差）。
好處：徹底消除激活值內(nèi)存占用。
普通訓(xùn)練： 前向傳播時(shí)需要將每一層的激活值寫入 HBM，反向傳播時(shí)再讀出（內(nèi)存占用隨層數(shù)線性增加，往往是訓(xùn)練中最大的內(nèi)存開銷）。
RevNets 訓(xùn)練： 因?yàn)榫W(wǎng)絡(luò)可逆，前向傳播時(shí)可以不保存激活值；反向傳播時(shí)，同步地從前向傳播的最終狀態(tài)逆向重構(gòu)出所需的激活值（重算，rematerialization）。
代價(jià)是：需要額外的計(jì)算（重算一遍前向傳播），換來了大幅減少的內(nèi)存占用。
Dwarkesh： 有趣——這和 KV 緩存的邏輯正好相反：KV 緩存是用更多內(nèi)存來節(jié)省計(jì)算，而 RevNets 是用更多計(jì)算來節(jié)省內(nèi)存。
Reiner： 完全正確。鑒于當(dāng)前硬件的內(nèi)存與計(jì)算成本比，"花內(nèi)存省計(jì)算"（如 KV 緩存）通常是更合算的；但 RevNets 展示了反過來也可以有價(jià)值。
Dwarkesh： 太精彩了，Reiner，非常感謝你！這場(chǎng)黑板講座完全實(shí)現(xiàn)了我們建造這個(gè)新錄制空間的初衷。
Reiner： 非常感謝，很高興能來！
視頻地址：https://www.youtube.com/watch?v=xmkSf5IS-zw

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點(diǎn)推薦

平頭哥甩出首款智能網(wǎng)卡！400Gbps帶寬、發(fā)布即量產(chǎn)，存算網(wǎng)全棧拼圖就位

智東西 2026-04-29 18:13:41
13 跟貼 13

超節(jié)點(diǎn)三大特點(diǎn)打破通信墻，具備大帶寬、低時(shí)延、內(nèi)存統(tǒng)一編址

量子位 2026-02-05 16:43:10
0 跟貼 0

芯橋半導(dǎo)體張?chǎng)危簭膯吸c(diǎn)智能到群體協(xié)同，芯橋如何打造具身智能的“算力工廠”

智東西 2026-04-29 11:38:49
0 跟貼 0

伊朗戰(zhàn)爭(zhēng)點(diǎn)燃PGMEA供應(yīng)危機(jī)，全球AI芯片又一個(gè)“卡脖子”時(shí)刻？

華爾街見聞官方 2026-04-29 15:40:43
0 跟貼 0

不上云、不租卡，如何優(yōu)雅地在本地微調(diào)Qwen-VL-30B？

機(jī)器之心Pro 2026-01-13 12:57:27
30 跟貼 30

俄首富超級(jí)游艇穿越霍爾木茲海峽:6層甲板 25米長(zhǎng)泳池

每日經(jīng)濟(jì)新聞 2026-04-29 17:25:50
13176 跟貼 13176

想在開放都市二游里爭(zhēng)當(dāng)五星好市民，需要一套怎樣的配置？

3DM游戲 2026-04-28 17:34:23
2 跟貼 2

PS6最新爆料大匯總！性能飆三倍定價(jià)預(yù)測(cè)一次看懂

游民星空 2026-04-29 23:15:09
8 跟貼 8

昔日GPU霸主，今日CPU屠夫？黃仁勛亮大招

新智元 2026-04-29 16:00:23
5 跟貼 5

99美元先賣"空殼"：V社把沒內(nèi)存的遙控器拆出來單飛

碼上閑敘 2026-04-29 17:25:33
1 跟貼 1

微軟高管攤牌：AI搶內(nèi)存，Xbox新機(jī)可能要漲價(jià)

我是一個(gè)粉刷匠2 2026-04-28 15:24:58
1 跟貼 1

給光一個(gè)機(jī)會(huì)

飯統(tǒng)戴老板 2026-04-29 21:29:54
0 跟貼 0

“福特”號(hào)航母將于近日撤離中東返回美國(guó)，“梅森”號(hào)導(dǎo)彈驅(qū)逐艦加入“布什”號(hào)航母打擊群執(zhí)行任務(wù)

魯中晨報(bào) 2026-04-30 07:11:04
211 跟貼 211

深圳進(jìn)一步優(yōu)化調(diào)整房地產(chǎn)相關(guān)政策

財(cái)聯(lián)社 2026-04-29 18:35:55
11047 跟貼 11047

史上最強(qiáng)季度財(cái)報(bào)！三星Q1利潤(rùn)暴增八倍，超越2025全年，存儲(chǔ)業(yè)務(wù)成核心引擎

華爾街見聞官方 2026-04-30 12:01:49
0 跟貼 0

英偉達(dá)為何此時(shí)重回5萬億美元？

鈦媒體APP 2026-04-30 09:38:11
1 跟貼 1

《異環(huán)》測(cè)試：在二次元里過長(zhǎng)假，還得用上DLSS 4.5與路徑追蹤

愛極物 2026-04-30 11:15:44
0 跟貼 0

高通的「共享內(nèi)存架構(gòu)」，想讓 Win 本追上 MacBook Pro

愛范兒 2026-04-29 12:31:15
45 跟貼 45

量大管飽《黎明行者之血》主線戰(zhàn)役平均50小時(shí)

3DM游戲 2026-04-29 20:36:04
1 跟貼 1

南寧至上海南列車工作人員被指在站臺(tái)吸煙 12306回應(yīng)

大象新聞 2026-04-29 18:40:05
2898 跟貼 2898

李斌發(fā)布會(huì)展示樂道L80車載廚房，現(xiàn)場(chǎng)拉開前備箱切菜展示廚藝

南陽日?qǐng)?bào) 2026-04-29 18:48:22
220 跟貼 220

因“無需內(nèi)存”躲過缺貨潮，Steam新手柄定檔5月4日！Steam主機(jī)無奈繼續(xù)跳票

TechWeb 2026-04-29 17:25:11
0 跟貼 0

衛(wèi)冕冠軍趙心童10比13不敵墨菲止步八強(qiáng)，“克魯斯堡魔咒”仍在延續(xù)，吳宜澤闖進(jìn)四強(qiáng)，成為中國(guó)軍團(tuán)獨(dú)苗

魯中晨報(bào) 2026-04-30 09:07:20
258 跟貼 258

照片字節(jié)大于30kb，寬高像素大于220*320怎么調(diào)

橙初 2026-04-29 10:23:06
0 跟貼 0

不用再繞行羅沙路！深南東路東延全線貫通，新秀隧道正式運(yùn)營(yíng)

南方都市報(bào) 2026-04-29 22:40:27
78 跟貼 78

美國(guó)單周原油出口量升至創(chuàng)紀(jì)錄的600萬桶/日以上

財(cái)聯(lián)社 2026-04-29 22:40:21
734 跟貼 734

蘋果首款折疊屏iPhone Fold參數(shù)出爐，薄至4.7mm

快科技 2026-04-28 16:17:05
7 跟貼 7

深度解讀Deepseek-V4：注意力壓縮 /1M 上下文/ MoE架構(gòu)

盧菁老師 2026-04-27 02:14:19
0 跟貼 0

400萬臺(tái)Steam Deck斷貨背后：一場(chǎng)內(nèi)存戰(zhàn)爭(zhēng)

報(bào)錯(cuò)免疫體 2026-04-30 13:05:24
0 跟貼 0

文旅部集中整治景區(qū)擺渡車，點(diǎn)名龍虎山、長(zhǎng)白山、稻城亞丁等

南方都市報(bào) 2026-04-27 16:21:12
2136 跟貼 2136

找到了！伊朗真正的內(nèi)鬼，美以毫無底線根本不當(dāng)人，中國(guó)也要當(dāng)心

孤酒老巷QA 2026-04-28 08:06:16
1 跟貼 1

上海將建世界最高無軸摩天輪“上海之門”，預(yù)計(jì)今年年底開工

澎湃新聞 2026-04-29 22:34:28
4 跟貼 4

LCA：DeepSeek 長(zhǎng)文本加速神器90% KV 緩存縮減 + 2.5 倍推理提速

機(jī)器之心Pro 2026-04-29 10:56:51
0 跟貼 0

馬斯克最新KPI披露：要在火星建永久人類殖民地

紅星新聞 2026-04-29 16:32:43
193 跟貼 193

我國(guó)新發(fā)現(xiàn)13個(gè)億噸級(jí)油田

每日經(jīng)濟(jì)新聞 2026-04-29 18:04:15
423 跟貼 423

多家金店品牌金飾克價(jià)大幅回落

央視新聞客戶端 2026-04-29 17:51:08
270 跟貼 270

62歲天津大爺，“chua一下”就火了

中國(guó)新聞周刊 2026-04-30 11:20:55
0 跟貼 0

內(nèi)燃機(jī)榮光在長(zhǎng)城綻放！長(zhǎng)城汽車自研高性能動(dòng)力架構(gòu)亮相北京車展

座駕 2026-04-27 17:16:28
0 跟貼 0

索尼回應(yīng)PS5數(shù)字版游戲驗(yàn)證：只需聯(lián)網(wǎng)驗(yàn)證一次

電玩迷 2026-04-30 10:25:29
10 跟貼 10

按這算法，褲兜子都讓算沒了呀

夢(mèng)喋說影視 2026-04-28 15:10:09
1 跟貼 1

陳首富終究吞不下云南白藥 | 棱鏡
新浪財(cái)經(jīng)
2026-04-24 17:04:15

米體丨格雷茨卡即將點(diǎn)頭加盟，中場(chǎng)可能重組
米蘭圈
2026-04-30 08:57:39

最煩是自發(fā)免費(fèi)做“躺平”內(nèi)容的人
不主流講話
2026-04-28 23:10:32

拜仁球員單賽季進(jìn)球榜：蓋德-穆勒66球第1，凱恩本賽季54球第3
懂球帝
2026-04-30 07:11:04

快滅國(guó)了卻執(zhí)意和中國(guó)斷交，“抱大腿”無望又求援，中方：不慣著
黑翼天使
2026-03-30 13:23:53

美國(guó)防部稱伊朗戰(zhàn)事已耗資250億美元，美防長(zhǎng)赫格塞思自這場(chǎng)戰(zhàn)事開始以來首次接受國(guó)會(huì)質(zhì)詢
每日經(jīng)濟(jì)新聞
2026-04-30 10:11:22

田亮做夢(mèng)也沒想到，費(fèi)心養(yǎng)大的14歲兒子，如今竟“壓自己一頭”
以茶帶書
2026-04-23 16:11:50

“雙普”再度通話90分鐘，特朗普稱“烏克蘭軍事上已經(jīng)戰(zhàn)敗”
山河路口
2026-04-30 13:23:52

網(wǎng)友驚問：2026年的工作是不是更難就業(yè)了？你覺得呢？
慧翔百科
2026-04-30 08:59:27

陳華任中共成都市錦江區(qū)委副書記
環(huán)球網(wǎng)資訊
2026-04-30 13:11:33

公開曬結(jié)婚證！趙露思：我會(huì)一直一直保護(hù)你的幸福
黔鄉(xiāng)小姊妹
2026-04-28 08:16:52

濟(jì)南夏雨荷事件，原來文旅兩任領(lǐng)導(dǎo)都是滿族，公司名起得也很奇怪
魔都姐姐雜談
2026-04-30 13:02:58

北京17歲女學(xué)生教室產(chǎn)子，孩子生父身份曝光后，父母崩潰了
清茶淺談
2025-04-16 13:39:37

萬科再無豬場(chǎng)
大嘴説
2026-04-30 10:36:05

乘客反映一名鐵路工作人員在站臺(tái)吸煙 12306回應(yīng)
大象新聞
2026-04-29 18:40:05

浙江一女子有嚴(yán)重潔癖，婚后19年無法同房，夫妻倆渴望擁有孩子，就醫(yī)后發(fā)現(xiàn)妻子卵巢儲(chǔ)備功能下降，通過兩次人工授精才順利誕下一健康女寶
臺(tái)州交通廣播
2026-04-29 20:46:57

20年前大S臺(tái)北街頭舊照曝光！那股子意氣風(fēng)發(fā)，如今再難尋
木子娛你同行
2026-04-30 09:00:27

再次上演！跳水世界杯將開賽，陳芋汐突遭變數(shù)，全紅嬋事件重現(xiàn)
科學(xué)發(fā)掘
2026-04-30 11:29:38

朱楓直到犧牲都不知，她視若己出的繼女阿菊，其實(shí)是個(gè)國(guó)民黨特務(wù)
興趣知識(shí)
2026-04-28 00:56:13

女子婚戀網(wǎng)站結(jié)識(shí)“未婚”高管后發(fā)現(xiàn)被騙，找人多次向?qū)Ψ桨l(fā)短信被行拘5日雙方互訴均被判侵權(quán)
紅星新聞
2026-04-29 17:58:24

2026-04-30 15:04:49

華爾街見聞官方

中國(guó)領(lǐng)先的金融商業(yè)信息提供商

145457文章數(shù) 2653420關(guān)注度

往期回顧全部

科技要聞

四巨頭財(cái)報(bào)齊發(fā)：AI已經(jīng)不只是風(fēng)口

法庭對(duì)峙，誰背信棄義、誰輸不起？

“我簡(jiǎn)直是個(gè)冤大頭！”馬斯克舌戰(zhàn)OpenAI律師

今晨庭審紀(jì)實(shí)|馬斯克當(dāng)庭講述OpenAI被偷走

微軟剛“松綁”，OpenAI火速牽手亞馬遜！

頭條要聞

"上海最通透爸爸"去世女兒:他退休20多年這輩子不虧

牛彈琴:特朗普自以為找到妙計(jì)對(duì)伊放話伊朗估計(jì)氣懵了

馬斯克一個(gè)"無意之舉" 讓日本右翼丑態(tài)暴露了

兩名工人在電梯井拆除電梯時(shí)墜亡:從18樓直直摔到1樓

女生在遠(yuǎn)洋貨輪當(dāng)大副月入6.8萬:生理期也要做好工作

頭條要聞

"上海最通透爸爸"去世女兒:他退休20多年這輩子不虧

牛彈琴:特朗普自以為找到妙計(jì)對(duì)伊放話伊朗估計(jì)氣懵了

馬斯克一個(gè)"無意之舉" 讓日本右翼丑態(tài)暴露了

兩名工人在電梯井拆除電梯時(shí)墜亡:從18樓直直摔到1樓

女生在遠(yuǎn)洋貨輪當(dāng)大副月入6.8萬:生理期也要做好工作

體育要聞

騎士天王山：哈登、莫布里和……施羅德？

火箭再勝湖人2-3 詹姆斯三分6中0里夫斯復(fù)出22分史密斯22分

騎士逆轉(zhuǎn)險(xiǎn)勝3-2猛龍：哈登23+9季后賽破4000分莫布利23+9

活塞險(xiǎn)勝魔術(shù)追到2-3：坎寧安45分單節(jié)20分班凱羅45+9+7

里夫斯確認(rèn)G5復(fù)出：時(shí)隔27天回歸欲助湖人主場(chǎng)晉級(jí)次輪

娛樂要聞

孫楊媽媽被曝！過往言行被扒大開眼界

肖戰(zhàn)大影節(jié)加冕影帝，成90后首位影視雙帝

張雪峰公司內(nèi)斗開始了！最大贏家是付幸

香港知名女星剛官宣結(jié)婚，老公就被曝玩交友a(bǔ)pp

不到24小時(shí)，白冰再迎3大噩耗，個(gè)個(gè)戳他心窩

財(cái)經(jīng)要聞

醫(yī)美偷稅手法曝光借免稅優(yōu)惠來避稅被封堵

安世之亂，聞泰帝國(guó)近黃昏？

4月制造業(yè)PMI為50.3% 較上月下降0.1個(gè)百分點(diǎn)

在美涉嫌性侵？智度股份、國(guó)光電器前董事長(zhǎng)被抓

寒武紀(jì)漲停登頂A股“股王” 成交額近260億

汽車要聞

上汽一季報(bào)出爐在低增長(zhǎng)周期里守住基本盤

專訪捷途汪如生：捷途雙線作戰(zhàn) 全球化全面落地

605km續(xù)航/有快充吉利銀河星艦7 EV北京車展亮相

A級(jí)純電SUV冠軍又升級(jí)，第三代元PLUS靜態(tài)評(píng)測(cè)

博越十周年冠軍版亮相 10萬級(jí)燃油SUV王者慶生

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產(chǎn)

數(shù)碼

家居

公開課

軍事航空

房產(chǎn)要聞

熬了6年，漲了2億，三亞核心區(qū)這塊地再次上架

CBD+省名校+準(zhǔn)現(xiàn)房!國(guó)興絕版地段，驚現(xiàn)爆款新盤!

80億投資！浙商總部基地+海口北站，金沙灣這是要起飛啊！

紅利爆發(fā)！海南，沖到全國(guó)人口增量第4?。?/a>

數(shù)碼要聞

“120W”只是商品或型號(hào)名稱？央視曝光充電頭文字游戲套路

狼蛛HERO 68 MINI Air預(yù)約：全球首款雙8kHz三模矮磁軸鍵盤

洗衣機(jī)“雙標(biāo)”重磅升級(jí)！石頭HOPE Pro憑硬核科技重塑洗烘體驗(yàn)

追覓個(gè)護(hù)專訪：從高速馬達(dá)到全球領(lǐng)跑，以技術(shù)與用戶重構(gòu)個(gè)護(hù)新生態(tài)

家居要聞

靈動(dòng)實(shí)用生活藝術(shù)場(chǎng)

寂然無界簡(jiǎn)潔風(fēng)格

江景風(fēng)格流動(dòng)的秩序

自然肌理溫潤(rùn)美學(xué)

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會(huì)要降低老年人門檻

為什么人類有不同的膚色？

七個(gè)無法存下錢的壞習(xí)慣

李彥宏：百度離破產(chǎn)30天

軍事要聞

意大利議會(huì)批準(zhǔn)：捐贈(zèng)航母給印度尼西亞

8歲伊朗男孩斷聯(lián)42天后重返中國(guó)學(xué)堂全家戰(zhàn)爭(zhēng)前回伊

美媒稱特朗普將聽取打擊伊朗新方案

全球熱戰(zhàn)迎五大新趨勢(shì)："更打?qū)嵙Φ幕旌蠎?zhàn)爭(zhēng)"來了

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

硬核拆解：GPT-5、Claude和Gemini是如何訓(xùn)練和推理的？

四巨頭財(cái)報(bào)齊發(fā)：AI已經(jīng)不只是風(fēng)口

"上海最通透爸爸"去世 女兒:他退休20多年這輩子不虧

"上海最通透爸爸"去世 女兒:他退休20多年這輩子不虧

騎士天王山：哈登、莫布里和……施羅德？

孫楊媽媽被曝！過往言行被扒大開眼界

醫(yī)美偷稅手法曝光 借免稅優(yōu)惠來避稅被封堵

上汽一季報(bào)出爐 在低增長(zhǎng)周期里守住基本盤

態(tài)度原創(chuàng)

熬了6年，漲了2億，三亞核心區(qū)這塊地再次上架

“120W”只是商品或型號(hào)名稱？央視曝光充電頭文字游戲套路

靈動(dòng)實(shí)用 生活藝術(shù)場(chǎng)

意大利議會(huì)批準(zhǔn)：捐贈(zèng)航母給印度尼西亞

硬核拆解：GPT-5、Claude和Gemini是如何訓(xùn)練和推理的？

"上海最通透爸爸"去世女兒:他退休20多年這輩子不虧

"上海最通透爸爸"去世女兒:他退休20多年這輩子不虧

騎士天王山：哈登、莫布里和……施羅德？

孫楊媽媽被曝！過往言行被扒大開眼界

醫(yī)美偷稅手法曝光借免稅優(yōu)惠來避稅被封堵

上汽一季報(bào)出爐在低增長(zhǎng)周期里守住基本盤

熬了6年，漲了2億，三亞核心區(qū)這塊地再次上架

“120W”只是商品或型號(hào)名稱？央視曝光充電頭文字游戲套路

靈動(dòng)實(shí)用生活藝術(shù)場(chǎng)