網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

V3→R1→V3.2｜一文看懂 DeepSeek 技術演進

2025-12-06 18:58:11　來源: 賽博禪心

北京舉報

分享至

DeepSeek，喜歡過節(jié)發(fā)模型

DeepSeek 發(fā)布時間線，紅色是主要版本

這點，老美也很抱怨
“去年感恩節(jié)發(fā) V3，今年后發(fā) V3.2”

但每個人，也深有期待
V3.2 的性能已經(jīng)追平 GPT-5 和 Gemini 3.0 Pro，而且開源

V3.2 和頂級閉源模型的 benchmark 對比，來自 DeepSeek V3.2 技術報告

接下來，讓我們一起完整看看 DeepSeek 從 V3 到 V3.2 的演進過程中，看看每個版本改了什么，為什么改，以及怎么實現(xiàn)的

內(nèi)容基于 Sebastian Raschka 的技術分析，也是用了大量來自于他的插圖；當然，更多的是我自己的補充

時間線

去年12月，DeepSeek-V3 發(fā)布
只用了 500 多萬美金的成本，帶來了不輸 Claude 3.5 的成績，并開源

今年 1 月的，DeepSeek R1 發(fā)布
這是個推理模型，對標 OpenAI 的 o1，價格只有 OpenAI 的幾十分之一

R1 和 V3 用的是同一個架構，區(qū)別在訓練方法

V3/R1 的架構圖

R1 之后，DeepSeek 沉寂了大半年

中間他們在處理從 NVIDIA 換到華為芯片的事，據(jù)公開信息，后來又換回了 NVIDIA

這一年也不是完全沒動靜，陸續(xù)發(fā)了 V3.1 和 V3.2

其中V3.2-Exp 發(fā)的benchmark 并不突出，關注度有限
但這個版本其實是在給 V3.2 的 DSA 鋪路，讓各種推理框架和部署工具支持起來

V3.2 前幾天正式發(fā)布，用的就是同樣的架構

到這里，再讓我們回顧下發(fā)布圖

DeepSeek 發(fā)布時間線，紅色是主要版本幾個概念

在講具體技術之前，先把幾個基礎概念說清楚

大模型訓練的兩個階段

預訓練
用海量文本訓練，產(chǎn)出 base model（基座模型）
base model 能續(xù)寫文本，但不太會對話，不太會按指令做事

后訓練
在 base model 基礎上繼續(xù)訓練，讓模型學會對話、遵循指令、拒絕有害請求
后訓練通常包含 SFT（監(jiān)督微調(diào)，用人工標注數(shù)據(jù)訓練）和 RL（強化學習，用獎勵信號優(yōu)化）

V3 和 R1 的關系

DeepSeek 當下的 base model 是 DeepSeek-V3-Base

DeepSeek V3、R1 都是經(jīng)過后訓練的，其中

? V3 走的是標準流程：預訓練 → SFT → RL
? R1 有兩個版本：
- ? R1-Zero ：拿 V3 的預訓練版本（V3-Base），跳過 SFT，直接用純 RL 訓練
- ? R1 ：先用幾千條高質(zhì)量數(shù)據(jù)做「冷啟動」微調(diào)，再做 RL，比 R1-Zero 更好

推理模型 vs 普通模型

普通模型（比如 ChatGPT 默認模式）收到問題后直接給答案

推理模型（比如 o1、R1）會先「思考」一段，把推理過程寫出來，再給最終答案

這個「思考」過程通常會用特殊標簽包起來，比如 ...

用戶能看到模型在想什么，而且這種逐步推理的方式在數(shù)學、代碼、邏輯題上效果更好

專用模型 vs 混合模型

今年行業(yè)里出現(xiàn)了兩種做法：

專用模型
推理是推理，聊天是聊天，分開訓練成兩個模型
用戶想做數(shù)學題就用推理模型，想閑聊就用聊天模型
好處是每個模型在自己的領域做到最好

混合模型
一個模型同時具備推理能力和普通聊天能力
用戶可以通過 prompt 或特殊 token 切換模式
比如加上標簽就進入推理模式，不加就是普通聊天

好處是一個模型搞定所有場景，用起來方便

今年推理模型和混合模型的發(fā)布時間線

Qwen3 一開始是混合模型，用標簽切換模式
后來發(fā)現(xiàn)分開訓練效果更好，又拆成了 instruct 和 reasoning 兩個版本

OpenAI 的 gpt-oss 是混合模型，用 system prompt 控制推理強度
GPT-5 和 GPT-5.1 應該也是類似的處理方式

DeepSeek 的路徑

根據(jù)已經(jīng)發(fā)布的信息，DeepSeek 的當前路徑為：

? V3：base model
? R1：專用推理模型（在 V3 基礎上 post-training）
? V3.1、V3.2：混合模型（同時支持推理和普通聊天）

R1 更多是研究性質(zhì)，用來探索推理訓練方法
V3.2 是面向各種場景的產(chǎn)品級模型

DeepSeek 團隊可能還在做專門的 R2

V3 的核心：MLA 機制

現(xiàn)在開始講具體技術
V3 架構有兩個重點：MoE 和 MLA

更為具體的介紹，可以看我之前的拆解

MoE 簡介

MoE 是 Mixture of Experts 的縮寫，中文叫「專家混合」,普通模型的每一層，所有參數(shù)都會參與計算

MoE 模型的每一層有多個「專家」（就是多組參數(shù)），每次只激活其中幾個
比如一個模型有 256 個專家，每次只用 8 個

這樣模型參數(shù)總量可以很大（能力強），但每次計算只用一部分（效率高）

DeepSeek V3 用的就是 MoE 架構

MLA 是什么

MLA 是 Multi-Head Latent Attention 的縮寫，中文叫「多頭潛在注意力」

這是 DeepSeek 自己設計的一種注意力機制，目的是省顯存

為什么要省顯存

大模型推理時有個東西叫 KV Cache

簡單說，模型生成每個新 token 時，需要用到之前所有 token 的信息

這些信息存在 key 和 value 兩個向量里

為了避免重復計算，通常會把這些向量緩存起來，這就是 KV Cache

問題是，序列越長，KV Cache 越大，顯存占用越高

長文本場景下，顯存很容易不夠用

MLA 怎么省顯存

正常做法是把完整的 key 和 value 向量存進 KV Cache

MLA 的做法是：
先把 key 和 value 壓縮到一個低維空間，存壓縮后的版本

推理的時候再解壓回來

MLA 原理圖，key 和 value 先壓縮再存儲

具體流程：

1. 輸入的 key 和 value 通過一個下投影矩陣（down-projection），從高維壓縮到低維
2. 壓縮后的向量存入 KV Cache
3. 推理時，從 KV Cache 取出壓縮向量
4. 通過上投影矩陣（up-projection）還原到原始維度
5. 用還原后的向量做正常的注意力計算

這個思路和 LoRA 類似：先降維再升維，中間存小的

代價是多了一次矩陣乘法（還原那一步），但顯存省了

query 也會壓縮，但只在訓練時，推理時不需要

MLA 不是 V3 才有的，DeepSeek V2 就引入了這個機制

R1 的核心：RLVR 訓練

R1 和 V3 架構完全一樣，區(qū)別在訓練方法

R1 用的是 RLVR（Reinforcement Learning with Verifiable Rewards，可驗證獎勵的強化學習）

更為具體的介紹，可以看我之前的拆解

什么是強化學習訓練

大模型的 post-training 階段通常會用強化學習

基本思路是：

1. 給模型一個問題
2. 模型生成一個回答
3. 用某種方式給這個回答打分（reward）
4. 根據(jù)分數(shù)調(diào)整模型參數(shù)，讓高分回答更容易出現(xiàn)

關鍵問題是：怎么給回答打分？

傳統(tǒng)做法：RLHF

ChatGPT 使用的便是 RLHF
全稱：Reinforcement Learning from Human Feedback

先收集人類對不同回答的偏好數(shù)據(jù)

然后訓練一個 reward model，讓它模擬人類的打分

最后用這個 reward model 給模型的回答打分

這里有一個問題
reward model 本身可能不準，人類標注成本也高

RLVR 的思路

RLVR 的想法是：
有些任務的答案，可以被程序自動驗證

數(shù)學題有標準答案，代碼能跑通就是對的

這類任務不需要人工標注，直接用程序判斷對錯

可驗證任務的例子

比如模型做一道數(shù)學題：

? 如果最終答案和標準答案一致，reward = 1
? 如果不一致，reward = 0

不需要 reward model，不需要人工標注

GRPO 算法

具體的強化學習算法，R1 用的是 GRPO
全稱：Group Relative Policy Optimization

這是 PPO 的簡化版

RLHF、GRPO、RLVR 的對比

三種方法的區(qū)別：

? 傳統(tǒng) RLHF + PPO ：需要一個 reward model（根據(jù)人類偏好訓練）和一個 critic model（估計價值的輔助模型）
? GRPO ：去掉了 critic model，只保留 reward model，簡化了訓練流程
? RLVR + GRPO ：連 reward model 也不要了，直接用程序驗證（計算器驗證數(shù)學答案、編譯器驗證代碼）

R1 的 reward 設計

R1 用了三種 reward：

? format reward ：檢查答案格式是否正確（比如推理過程是否用了指定的標簽）
? language consistency reward ：防止模型在回答過程中切換語言（比如問題是中文，回答一會中文一會英文）
? verifier reward ：最核心的，數(shù)學或代碼答案是否正確

V3.1：成為混合模型

V3.1 變成了混合模型，用戶可以通過 prompt template 切換推理模式和普通聊天模式

但這里的架構沒變，以及 V3.1 基于 DeepSeek V3.1-Base，后者在 V3 基礎上額外訓練了 840B tokens

V3.1 的具體發(fā)布，可以看這里：

R1-0528 版本升級

R1-0528 是 R1 的小版本升級，架構和 V3/R1 完全一樣

改進來自 post-training pipeline 的優(yōu)化

性能追上了當時的 OpenAI o3 和 Gemini 2.5 Pro

具體怎么做的沒有詳細披露，推測是在推理時使用了更多計算資源（讓模型「思考」更長時間）

V3.2-Exp：DSA 稀疏注意力

V3.2-Exp 是今年 9 月發(fā)的，架構上有實質(zhì)變化

核心創(chuàng)新是 DSA（DeepSeek Sparse Attention，DeepSeek 稀疏注意力）

問題：標準注意力太慢

標準的 causal attention（因果注意力），當前 token 需要關注所有之前的 token

計算復雜度是 O(L2)，L 是序列長度

意思是：
序列長度翻倍，計算量變成 4 倍

長文本場景下，這個計算量非常大

一種解決方案：Sliding Window Attention

Sliding Window Attention（滑動窗口注意力）是一種常見的優(yōu)化方法

當前 token 不關注所有之前的 token，只關注最近的 N 個

比如 N=4096，那每個 token 只關注前面 4096 個 token

Sliding window attention，只關注固定窗口

Gemma 3 和 Olmo 3 用的是這個方案

優(yōu)點是簡單，復雜度從 O(L2) 降到 O(L×N)

缺點是窗口大小固定，可能漏掉重要信息

DSA 的思路

DSA 不用固定窗口，讓模型自己學習應該關注哪些 token

每個 token 只關注之前的一部分 token，但這個「一部分」是模型學出來的，不是固定的

DSA，模型自己選擇要關注哪些 token

看上圖，關注的 token 位置不是連續(xù)的，是「跳著」選的

DSA 怎么實現(xiàn)

DSA 有兩個組件：Lightning Indexer 和 Token Selector

Lightning Indexer：計算相關性分數(shù)

對每個新的 query token，計算它和之前所有 token 的相關性

用的是 MLA 里壓縮后的向量（前面講過，MLA 會把 key 和 value 壓縮存儲），做點積然后過 ReLU

相關性分數(shù)的計算公式：

DSA 相關性分數(shù)公式

公式里的符號：

? w：學習到的每頭權重系數(shù)，決定每個 indexer head 對最終分數(shù)的貢獻
? q：query 向量
? k：key 向量
? t：當前 token 位置
? s：之前的 token 位置（0 ≤ s < t）
? j：indexer head 的索引（DSA 有多個 head，類似多頭注意力）

indexer 只處理 query，不處理 key

因為 key 已經(jīng)壓縮存在 KV Cache 里了，不需要再算

ReLU 函數(shù)會把負值變成 0，但因為有多個 head 的求和，最終分數(shù)通常不會是 0

真正的稀疏性來自下一步的 Token Selector

Token Selector：選擇 top-k

根據(jù) Lightning Indexer 算出的分數(shù)，選分數(shù)最高的 k 個 token

其他 token 被 mask 掉，不參與注意力計算

k 在 DeepSeek 公開的代碼里設的是 2048

DSA 的完整流程 DSA 的效果

復雜度從 O(L2) 降到 O(L×k)

k 是選擇的 token 數(shù)量（比如 2048），遠小于 L（序列長度可能是幾萬甚至幾十萬）

V3.2-Exp 的目標不是提升性能，是在保持性能的前提下提升效率

DeepSeekMath V2：自驗證和自改進

V3.2 發(fā)布前 4 天（11 月 27 日，美國感恩節(jié)），DeepSeek 發(fā)了 DeepSeekMath V2

這是一個數(shù)學專用模型，基于 V3.2-Exp-Base

在數(shù)學競賽上達到了金牌水平

更重要的是，它驗證了兩個關鍵技術：Self-Verification（自驗證）和 Self-Refinement（自改進）

這兩個技術后來用到了 V3.2 里

RLVR 的問題

前面講過，RLVR 用程序驗證答案對不對

但 DeepSeek 團隊指出了兩個問題：

問題一：correct answers don't guarantee correct reasoning

正確答案不等于正確推理

模型可能靠錯誤的邏輯或者運氣得到正確答案

比如做一道數(shù)學題，中間步驟全是錯的，但最后答案碰巧對了

按 RLVR 的邏輯，這個回答會得到正向 reward

模型會學到錯誤的推理方式

問題二：有些任務沒法只看最終答案

比如定理證明，要求嚴格的逐步推導

你不能只驗證結論對不對，中間每一步都要對

最終結論對了，但中間步驟錯了，這個證明就是無效的

自驗證怎么做

為了解決上面的問題，DeepSeek 訓練了三個模型：

LLM 1：證明生成器（Proof Generator）

生成數(shù)學證明

LLM 2：證明驗證器（Proof Verifier）

檢查證明是否正確

不只看最終答案，會檢查每一步推理

用一個評分標準打分：

? 1 分：完整嚴謹，所有邏輯步驟都有清晰理由
? 0.5 分：整體邏輯正確，但有小錯誤或遺漏細節(jié)
? 0 分：有根本性邏輯錯誤或關鍵缺失

證明生成器和驗證器的結構

LLM 3：元驗證器（Meta-Verifier）

驗證「驗證器」是否正確

驗證器可能會產(chǎn)生幻覺，錯誤地指出不存在的問題

元驗證器就是用來檢查驗證器的

Meta-verifier 檢查驗證器是否正確

這個設置有點 GAN（生成對抗網(wǎng)絡）的意思：

驗證器推動生成器進步，生成器生成更好的證明，又推動驗證器進步

訓練細節(jié)

證明驗證器（LLM 2）的訓練：

? 基于 DeepSeek V3.2-Exp-SFT（在 V3.2-Exp 上做了監(jiān)督微調(diào)的版本）
? 用強化學習訓練
? 兩種 reward：format reward（格式正確）+ score reward（預測分數(shù)和人工標注分數(shù)的接近程度）

元驗證器（LLM 3）的訓練方式類似

效果

使用 meta-verifier 后，驗證器的證明分析質(zhì)量從 0.85 提升到 0.96

同時保持了證明分數(shù)預測的準確率

meta-verifier 只在訓練時用，推理時不需要

自改進怎么做

Self-Refinement（自改進）是一種推理時的技術

讓模型根據(jù)驗證結果修改自己的答案

傳統(tǒng) Self-Refinement

用同一個 LLM 做三件事：

1. 生成初始答案
2. 評估這個答案有沒有問題
3. 根據(jù)評估結果改進答案

傳統(tǒng) self-refinement，同一個模型生成、評估、改進

DeepSeek 發(fā)現(xiàn)的問題

技術報告原文：

when prompted to both generate and analyze its own proof in one shot, the generator tends to claim correctness even when the external verifier easily identify flaws.

用同一個模型既生成又驗證，模型會自己騙自己

讓模型評估自己生成的東西，它傾向于說「沒問題」

但如果用外部驗證器，很容易發(fā)現(xiàn)問題

看起來應該用兩個模型

一個生成，一個驗證

用獨立驗證器的 self-refinement

但實際做法不同

技術報告說：

All experiments used a single model, our final proof generator, which performs both proof generation and verification.

最終版本還是用了同一個模型

關鍵在于：訓練時用了獨立的驗證器和元驗證器來「教」這個模型

模型學會了用同樣的評分標準評估自己的輸出

和 naive 的單模型 self-refinement 的區(qū)別是：這個模型被更強的驗證器「教過」了

推理時用 2-in-1 的模型，省資源

迭代次數(shù)

self-refinement 可以做多輪

生成初始答案 → 評估 → 改進 → 再評估 → 再改進...

DeepSeek 測到了 8 輪，效果還沒飽和

迭代次數(shù)和準確率的關系

更多迭代 = 更高準確率 = 更貴

這是推理時計算量和效果的 trade-off

V3.2：完整拆解

先放個 DeepSeek V3.2 的跑分

DeepSeek V3.2

我之前寫過一個技術報告拆解：

架構

和 V3.2-Exp 完全一樣：MoE + MLA + DSA

技術報告原文：

DeepSeek-V3.2 uses exactly the same architecture as DeepSeek-V3.2-Exp

V3.2 架構

訓練目標：

? 數(shù)學達到金牌水平
? 支持 tool-use（讓模型學會調(diào)用外部工具，比如搜索引擎、計算器、代碼解釋器）
? 代碼和 agent 任務表現(xiàn)好

同時保持計算效率

DSA 的效果
DSA 帶來的推理成本節(jié)省

這里，用了 H800

RL 訓練的變化

這個是 R1 的 reward 設計

? format reward：格式正確
? language consistency reward：語言一致
? verifier reward：答案正確

這個是 V3.2 的 reward 設計：

? rule-based outcome reward：基于規(guī)則的結果 reward
? length penalty：懲罰過長的輸出（控制 agent 任務的輸出長度）
? language consistency reward：語言一致

對于通用任務：

? generative reward model：用另一個 LLM 打分，每個 prompt 有自己的評分標準（rubric）

變化總結：

? 去掉了 format reward
? 加了 length penalty
? 通用任務用 LLM-as-a-judge（因為通用任務沒法用程序驗證）

數(shù)學領域用的是 DeepSeekMath V2 的數(shù)據(jù)和方法（前面講的自驗證、自改進）

所以：V3.2 不再是純 RLVR
應該是：RLVR + LLM-as-a-judge

GRPO 的改進

過去幾個月，業(yè)內(nèi)有很多 GRPO 的改進版本

比較知名的是 DAPO 和 Dr. GRPO

DAPO 的主要改進：

? 非對稱 clipping：上下界不一樣
? 動態(tài)采樣：保持 batch size
? token-level loss：用 token 數(shù)量而不是樣本數(shù)量歸一化 loss
? 顯式的基于長度的 reward shaping

Dr. GRPO 的主要改進：

? 去掉 GRPO 目標函數(shù)里的長度歸一化
? 去掉標準差歸一化

這兩個改進都認為原版 GRPO 有 bias，會偏向過長的錯誤答案，或者過度加權太難/太簡單的問題

Olmo 3 采用的改進（和 DAPO/Dr. GRPO 類似）：

? Zero Gradient Signal Filtering：去掉 reward 全相同的樣本組（這種樣本提供不了梯度信號）
? Active Sampling：維持 batch size
? Token-level loss：用 token 數(shù)量歸一化 loss
? No KL Loss：去掉 KL 損失（KL 損失是為了防止模型偏離原始模型太遠，但很多團隊發(fā)現(xiàn)去掉效果更好）
? Clip Higher：上界 clipping 比下界稍高
? Truncated Importance Sampling：調(diào)整 log probability 差異
? No standard deviation normalization：計算 advantage 時不除以標準差

V3.2 的改進比較保守，更接近原版 GRPO：

Domain-specific KL strengths
不同領域用不同的 KL 權重
數(shù)學領域可以很弱甚至為 0
但不是完全去掉 KL，而是把它變成超參數(shù)

Unbiased KL estimate
用 importance ratio 重新加權 KL term
讓 KL 梯度真正匹配「樣本來自舊策略」這個事實

Off-policy sequence masking
跨多個梯度步驟重用 rollout 數(shù)據(jù)時
測量當前策略和生成這些數(shù)據(jù)的舊策略的偏離程度
丟棄那些 advantage 為負且偏離太遠的序列
防止模型從過時或偏離的數(shù)據(jù)中學習

Keep routing for MoE
記錄 rollout 時激活了哪些 expert
訓練時強制用同樣的 routing pattern
讓梯度更新作用于真正產(chǎn)生了采樣答案的 expert

Keep sampling mask for top-p/top-k
如果 rollout 用了 top-p 或 top-k 采樣
存儲 selection mask
計算 GRPO loss 和 KL 時重新應用這個 mask
讓訓練時的 action space 和采樣時一致

Keep original GRPO advantage normalization
Dr. GRPO 認為 GRPO 的長度歸一化和標準差歸一化有問題
V3.2 保留了原版 GRPO 的歸一化，通過上面的其他修改來處理問題

V3.2-Speciale：極端推理模式

V3.2 還有一個 Speciale 版本
針對推理場景的極端優(yōu)化

訓練差異

? RL 階段只用推理數(shù)據(jù)（不用通用聊天數(shù)據(jù)）
? 減弱 length penalty，允許更長的輸出

這個是效果

Speciale 版本的 token 數(shù)量和準確率

更長的輸出 -> 更多推理步驟 -> 更高準確率 -> 更貴

這是個取舍

最后

總結一下，從 V3 到 V3.2 的技術演進：

V3：MoE + MLA
MoE 讓模型參數(shù)大但計算量小
MLA 通過壓縮 KV Cache 省顯存

R1：RLVR + GRPO
用可驗證的 reward（數(shù)學答案對不對、代碼能不能跑）訓練推理能力
GRPO 是 PPO 的簡化版

V3.1：變成混合模型
支持推理和普通聊天切換

V3.2-Exp：加入 DSA 稀疏注意力
不用固定窗口，讓模型學習應該關注哪些 token
復雜度從 O(L2) 降到 O(L×k)

DeepSeekMath V2：自驗證 + 自改進
訓練時用獨立驗證器檢查推理過程
推理時用同一個模型，因為已經(jīng)學會了驗證能力

V3.2：整合所有技術
架構：MoE + MLA + DSA
訓練：RLVR + LLM-as-a-judge 混合
GRPO 做了穩(wěn)定性改進
支持 Thinking in Tool-Use 這樣的工程內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.