網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

英偉達(dá)的旗艦大模型，吞吐量暴打Qwen3.5七倍，技術(shù)細(xì)節(jié)披露！

2026-04-18 15:44:11　來源: Ai學(xué)習(xí)的老章

北京舉報(bào)

分享至

英偉達(dá)的 Nemotron 3 Super 旗艦大模型，我之前詳細(xì)介紹過：

最近英偉達(dá)放出了技術(shù)報(bào)告（arxiv.org/abs/2604.12374），披露了很多細(xì)節(jié)

本文一起拆解之

簡(jiǎn)介

Nemotron 3 Super 是英偉達(dá) Nemotron 3 家族的旗艦?zāi)Ｐ?，總參?shù) 1206 億，每次前向傳播只激活 127 億參數(shù)（不含 embedding 是 121 億）

它融合了三種前沿技術(shù)：

Hybrid Mamba-Attention：用 Mamba-2 塊替代大部分注意力層，推理速度起飛
LatentMoE：全新的混合專家架構(gòu)，精度和效率雙提升
MTP（Multi-Token Prediction）：原生推測(cè)解碼，不需要外掛 draft model

Nemotron 3 Super 三大核心技術(shù)：LatentMoE + MTP + Hybrid Mamba-Attention

用 25 萬億 token 預(yù)訓(xùn)練，支持最長(zhǎng)100 萬 token上下文，在常見 benchmark 上和 GPT-OSS-120B、Qwen3.5-122B 打得有來有回，但推理吞吐量分別是它們的2.2 倍和 7.5 倍。

下圖是論文給的精度 - 吞吐量對(duì)比，一目了然：

Nemotron 3 Super 精度與吞吐量對(duì)比：和 GPT-OSS-120B、Qwen3.5-122B 精度持平，但吞吐量遙遙領(lǐng)先 LatentMoE：重新設(shè)計(jì) MoE 的底層邏輯

我覺得這篇論文最有意思的創(chuàng)新是LatentMoE

傳統(tǒng) MoE 的問題在哪？

大家都知道 MoE 靠"只激活部分專家"來省計(jì)算量。但英偉達(dá)指出一個(gè)被忽視的問題：現(xiàn)有 MoE 設(shè)計(jì)幾乎只優(yōu)化了每 FLOP 的精度，忽略了每參數(shù)的精度

什么意思呢？在實(shí)際部署中，你的成本不只是算力，還有：

內(nèi)存帶寬：每個(gè)專家權(quán)重矩陣是 d×m，讀取成本和隱藏維度 d 成正比
通信開銷：分布式推理時(shí) all-to-all 路由的流量和 d×K 成正比（K 是激活專家數(shù)）

所以英偉達(dá)的思路是：把隱藏維度 d 壓下來。

標(biāo)準(zhǔn) MoE vs LatentMoE 架構(gòu)對(duì)比

LatentMoE 的做法：

降維：先把 token 從隱藏維度 d 投影到更小的潛在空間 ?
在低維空間做路由和專家計(jì)算：內(nèi)存讀取和通信量直接降低 d/? 倍
擴(kuò)展專家數(shù)量：省下來的預(yù)算用來增加總專家數(shù) N 和激活專家數(shù) K，同比放大 d/? 倍
升維：計(jì)算完再投回原始維度

這個(gè) trade-off 非常精妙——維度降了，但專家數(shù)增了，總計(jì)算量基本不變，精度卻更好。因?yàn)楦鄬＜业慕M合空間是指數(shù)級(jí)增長(zhǎng)的

LatentMoE 降維擴(kuò)專家的核心思路：用 d/? 倍降維換來指數(shù)級(jí)專家組合空間

Nemotron 3 Super 的具體配置：512 個(gè)專家，每次激活 22 個(gè)，潛在維度 1024。做個(gè)對(duì)比：DeepSeek V3 是 256 個(gè)專家激活 8 個(gè)，Qwen3.5 是 128 個(gè)專家激活 8 個(gè)

Nemotron 的專家數(shù)和激活數(shù)都大幅領(lǐng)先

MTP：內(nèi)置的推測(cè)解碼加速器

MTP（Multi-Token Prediction）也是一大亮點(diǎn)。DeepSeek V3 也用了 MTP，但 Nemotron 3 Super 的實(shí)現(xiàn)有一個(gè)關(guān)鍵改進(jìn)：共享權(quán)重的 MTP head

傳統(tǒng)方式：訓(xùn)練 N 個(gè)獨(dú)立的預(yù)測(cè)頭，分別預(yù)測(cè) n+2, n+3, ..., n+N+1 位置的 token。問題是推理時(shí)只能生成最多 N 個(gè) draft token

Nemotron 的做法：多個(gè) MTP head共享參數(shù)，讓同一個(gè)頭在訓(xùn)練中見過多種偏移量。這樣推理時(shí)可以遞歸地用同一個(gè)頭生成更長(zhǎng)的 draft，接受率衰減更平緩

MTP 接受率對(duì)比：Nemotron 3 Super 在各個(gè) draft 位置都保持較高接受率

論文用 SPEED-Bench 測(cè)的結(jié)果：Nemotron 3 Super 平均接受長(zhǎng)度3.45，超過 DeepSeek-R1 的 2.70，和 Qwen3-Next 的 3.33 也有優(yōu)勢(shì)。在 Roleplay、RAG、Summarization 這些場(chǎng)景下優(yōu)勢(shì)尤其明顯

配合 Blackwell 硬件，開啟 MTP draft=3 后，在同等用戶延遲下，總吞吐量顯著提升：

MTP 關(guān)閉 vs 開啟（draft=1, draft=3）的吞吐量 - 延遲 Pareto 曲線 Hybrid Mamba-Attention：KV Cache 的終結(jié)者

Nemotron 3 Super 的 88 層中，大部分是 Mamba-2 塊，只有少量注意力層作為"全局錨點(diǎn)"插入。

Nemotron 3 Super 的層交替模式：Mamba 塊 + MoE 層為主，穿插少量 Attention 層

這么做的好處太明顯了：

Mamba 塊沒有 KV Cache，生成時(shí)狀態(tài)大小恒定，不隨上下文線性增長(zhǎng)
只在關(guān)鍵位置保留注意力層做長(zhǎng)程信息路由
注意力層用 GQA（32 query heads, 2 KV heads），進(jìn)一步壓縮

最終效果：支持 100 萬 token 上下文，RULER 1M 測(cè)試得分 91.64，Qwen3.5-122B 也是 91.33，而 GPT-OSS-120B 只有 22.30

這個(gè)差距太大了

NVFP4 預(yù)訓(xùn)練：全程 4-bit 精度訓(xùn)練

這是我覺得非常硬核的一點(diǎn)——Nemotron 3 Super 全程用 NVFP4（4-bit 浮點(diǎn)）訓(xùn)練了 25 萬億 token

大多數(shù)模型用 BF16 或 FP8 訓(xùn)練，用 FP4 預(yù)訓(xùn)練的幾乎沒有

英偉達(dá)在這里踩了不少坑：

層類型

精度

原因

大部分線性層

NVFP4

主力精度

網(wǎng)絡(luò)最后 15% 的層

BF16

保證訓(xùn)練穩(wěn)定性

QKV & Attention 投影

BF16

保持注意力層精度

Mamba 輸出投影

MXFP8

NVFP4 下溢太嚴(yán)重

MTP 層

BF16

保留多 token 預(yù)測(cè)能力

訓(xùn)練過程中觀察到 7% 的權(quán)重梯度變成零值，主要是因?yàn)?NVFP4 量化把 BF16 下本就很小的梯度（<1e-12）直接下溢為零

但英偉達(dá)發(fā)現(xiàn)這不影響最終精度——BF16 訓(xùn)練到 10T token 后也會(huì)出現(xiàn)類似的零值梯度模式

甚至他們?cè)囘^在 19T token 處從 NVFP4 切換到 MXFP8，loss 曲線改善了，但下游任務(wù)精度沒有任何提升

所以最終決定全程 NVFP4，不搞精度升級(jí)，這個(gè)結(jié)論很有價(jià)值。

后訓(xùn)練：21 個(gè) RL 環(huán)境，強(qiáng)化 Agent 能力

Nemotron 3 Super 的后訓(xùn)練流程分四步：

后訓(xùn)練流水線全景：SFT → RLVR → SWE-RL → RLHF → MTP Healing后訓(xùn)練流水線：SFT → RLVR → SWE-RL → RLHF → MTP Healing

SFT 階段：用了超過 700 萬樣本，大幅擴(kuò)充了 Agent 任務(wù)的數(shù)據(jù)量。亮點(diǎn)包括：

從 SWE-Gym、R2E-Gym 等數(shù)據(jù)集蒸餾 Qwen3-Coder-480B 的編程軌跡
專門生成了 2 萬條 Agentic CLI 任務(wù)（涵蓋 Claude Code、OpenCode、Codex 等多種 harness）
合成了 150 萬條通用工具調(diào)用軌跡
新增 CUDA 內(nèi)核編寫/修復(fù)/優(yōu)化數(shù)據(jù)（10 萬條）

RL 階段：在21 個(gè)環(huán)境、37 個(gè)數(shù)據(jù)集上同時(shí)訓(xùn)練。這個(gè)規(guī)模夠恐怖的。覆蓋數(shù)學(xué)、代碼、STEM、安全、指令遵循、長(zhǎng)上下文、Agent 工具使用等全方位能力

比較有意思的是PivotRL——一種新的 Agent 長(zhǎng)程 RL 方法。它復(fù)用 SFT 的專家軌跡，只在"策略不確定的關(guān)鍵 turn"上做 RL 訓(xùn)練。比端到端 RL 高效得多，又避免了 SFT 的域外退化問題

SWE-RL 階段：每個(gè) rollout 在 Apptainer 容器中啟動(dòng)完整的 GitHub 倉庫環(huán)境，跑 OpenHands agent 循環(huán)生成補(bǔ)丁，然后用真實(shí)測(cè)試驗(yàn)證。為了工具多樣性，他們?cè)?OpenHands 里實(shí)現(xiàn)了 OpenCode 和 Codex 的 agent class，匹配 Claude Code 和 Codex CLI 的工具格式。

量化推理：FP8 和 NVFP4 雙版本

英偉達(dá)提供了兩個(gè)量化版本：

FP8（W8A8）：面向 Hopper 架構(gòu) GPU
NVFP4（W4A4）：面向 Blackwell 架構(gòu) GPU，用 AutoQuantize 做混合精度搜索

NVFP4 量化的關(guān)鍵技巧：

權(quán)重用 MSE 最小化選擇縮放因子（離線校準(zhǔn)，不影響運(yùn)行時(shí)）
激活用 max-based 縮放（在線計(jì)算，追求效率）
敏感層自動(dòng)提升到 FP8 或 BF16

最終 NVFP4 模型達(dá)到 BF16 基線的99.8% 精度。整個(gè)量化過程在單臺(tái) B200 8 卡節(jié)點(diǎn)上不到 2 小時(shí)完成

還有一個(gè)很硬核的細(xì)節(jié)：Mamba 狀態(tài)緩存量化。直接從 FP32 轉(zhuǎn) FP16 會(huì)導(dǎo)致代碼生成任務(wù)的冗余度暴漲 40%（生成太多無用 token）。原因是 Mamba 的遞歸特性會(huì)讓量化誤差逐步累積。英偉達(dá)的解決方案是隨機(jī)舍入（Stochastic Rounding），用 Philox 偽隨機(jī)數(shù)生成器消除系統(tǒng)性偏差。Blackwell GPU 還提供了專用的 PTX 指令來加速這個(gè)操作。

Benchmark 成績(jī)單

先看 Base 模型（預(yù)訓(xùn)練后、后訓(xùn)練前）的成績(jī)：

任務(wù)

Nemotron 3 Super

Ling-flash-Base-2.0

GLM-4.5-Air-Base

MMLU (5-shot)

MMLU-Pro (5-shot)

MATH (4-shot)

HumanEval (0-shot)

RULER 128K

RULER 1M

Base 模型階段就已經(jīng)全面碾壓同級(jí)別競(jìng)品。

后訓(xùn)練版本 vs Qwen3.5-122B 和 GPT-OSS-120B：

任務(wù)

Nemotron 3 Super

Qwen3.5-122B

GPT-OSS-120B

AIME25

HMMT Feb25 (with tools)

SWE-Bench (OpenHands)

41.9

RULER 1M

Arena-Hard-V2

說實(shí)話，精度上 Nemotron 3 Super 和 Qwen3.5-122B 各有勝負(fù)。Qwen 在編程和推理上略強(qiáng)，但 Nemotron 在長(zhǎng)上下文和工具使用上更有優(yōu)勢(shì)。

真正拉開差距的是推理效率——在 8k 輸入 + 64k 輸出的設(shè)置下，Nemotron 3 Super 比 GPT-OSS-120B 快 2.2 倍，比 Qwen3.5-122B 快 7.5 倍。這才是實(shí)際部署時(shí)最關(guān)鍵的指標(biāo)。

總結(jié)

Nemotron 3 Super 是英偉達(dá)在"效率優(yōu)先"路線上的集大成之作

三個(gè)核心創(chuàng)新——LatentMoE、MTP、Hybrid Mamba-Attention——分別從參數(shù)效率、解碼效率、內(nèi)存效率三個(gè)維度做了優(yōu)化，加上 NVFP4 全程訓(xùn)練的探索，整體技術(shù)含量很高

優(yōu)點(diǎn)：

推理吞吐量確實(shí)是王炸級(jí)別，7.5 倍的差距太夸張
100 萬上下文長(zhǎng)度，且長(zhǎng)上下文表現(xiàn)極其穩(wěn)定
全部開源（模型權(quán)重 + 訓(xùn)練數(shù)據(jù) + 訓(xùn)練 recipe），真·業(yè)界良心
NVFP4 全程訓(xùn)練驗(yàn)證了低精度大規(guī)模訓(xùn)練的可行性
Agent 能力突出，21 個(gè) RL 環(huán)境訓(xùn)練的深度投入

不足：

在純推理任務(wù)（AIME、GPQA）上相比 Qwen3.5 稍有差距
SWE-Bench 分?jǐn)?shù)落后 Qwen3.5 約 6 個(gè)點(diǎn)
目前主要針對(duì) NVIDIA GPU 優(yōu)化（Hopper/Blackwell），其他硬件適配待觀察
512 個(gè)專家的 MoE 結(jié)構(gòu)對(duì)顯存要求不低，個(gè)人部署有門檻

適合誰用：如果你是做大規(guī)模 AI 推理服務(wù)的，需要在 NVIDIA 硬件上追求極致吞吐量，或者需要超長(zhǎng)上下文和 Agent 能力，Nemotron 3 Super 是一個(gè)非常值得考慮的選擇。

制作不易，如果這篇文章覺得對(duì)你有用，可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊：點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè)，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.