網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek V4 重磅開(kāi)源！首次打通華為Ascend，也沒(méi)丟掉英偉達(dá)，百萬(wàn)上下文奪回國(guó)產(chǎn)模型話語(yǔ)權(quán)

2026-04-24 12:31:50　來(lái)源: AI前線

北京舉報(bào)

分享至

作者｜冬梅

剛剛，DeepSeek 在官方公眾號(hào)發(fā)文宣布，全新系列模型 DeepSeek-V4 的預(yù)覽版本正式上線，并同步開(kāi)源！

DeepSeek-V4 擁有百萬(wàn)字超長(zhǎng)上下文，在 Agent 能力、世界知識(shí)和推理性能三大維度上均實(shí)現(xiàn)了國(guó)內(nèi)與開(kāi)源領(lǐng)域的領(lǐng)先。

秉承 DeepSeek 一貫的開(kāi)放精神，本次發(fā)布的模型按大小分為兩個(gè)版本，歡迎開(kāi)發(fā)者、研究者和企業(yè)用戶前往體驗(yàn)和下載。

模型按大小分為兩個(gè)版本：

DeepSeek-V4 模型開(kāi)源鏈接：
https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

DeepSeek-V4 技術(shù)報(bào)告：
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

Pro 版本面向的是高性能，F(xiàn)lash 版本則主攻性價(jià)比。

API 服務(wù)已同步更新，通過(guò)修改 model_name 為 deepseek-v4-pro 或 deepseek-v4-flash 即可調(diào)用。

從技術(shù)報(bào)告來(lái)看，有一點(diǎn)特別值得注意，DeepSeek V4 并不是只在 NVIDIA 體系內(nèi)做優(yōu)化，而是明確將細(xì)粒度專家并行（EP）方案同時(shí)在 NVIDIA GPU 和華為 Ascend NPU 上完成驗(yàn)證，這說(shuō)明其推理路徑已經(jīng)具備跨算力平臺(tái)的適配能力。但在開(kāi)源層面，當(dāng)前釋放的仍主要是基于 CUDA 的 MegaMoE 和 DeepGEMM，底層實(shí)現(xiàn)深度綁定 NVIDIA 工具鏈。

另外，官方 API 頁(yè)面還提到，受限于高端算力，目前 V4-Pro 的服務(wù)吞吐仍有限，預(yù)計(jì)下半年昇騰 950 超節(jié)點(diǎn)批量上市后，Pro 價(jià)格會(huì)大幅下調(diào)。這意味著，DeepSeek 一邊在現(xiàn)有 CUDA 生態(tài)內(nèi)持續(xù)做極致優(yōu)化，一邊也在為華為 Ascend 等多算力環(huán)境預(yù)留空間，開(kāi)始嘗試把模型運(yùn)行時(shí)從單一硬件依賴中解耦出來(lái)。

DeepSeek-V4-Pro：性能比肩頂級(jí)閉源模型

Agent 能力大幅提高：相比前代模型，DeepSeek-V4-Pro 的 Agent 能力顯著增強(qiáng)。在 Agentic Coding 評(píng)測(cè)中，V4-Pro 已達(dá)到當(dāng)前開(kāi)源模型最佳水平，并在其他 Agent 相關(guān)評(píng)測(cè)中同樣表現(xiàn)優(yōu)異。目前 DeepSeek-V4 已成為公司內(nèi)部員工使用的 Agentic Coding 模型，據(jù)評(píng)測(cè)反饋使用體驗(yàn)優(yōu)于 Sonnet 4.5，交付質(zhì)量接近 Opus 4.6 非思考模式，但仍與 Opus 4.6 思考模式存在一定差距。

豐富的世界知識(shí)：DeepSeek-V4-Pro 在世界知識(shí)測(cè)評(píng)中，大幅領(lǐng)先其他開(kāi)源模型，僅稍遜于頂尖閉源模型 Gemini-Pro-3.1。

世界頂級(jí)推理性能：在數(shù)學(xué)、STEM、競(jìng)賽型代碼的測(cè)評(píng)中，DeepSeek-V4-Pro 超越當(dāng)前所有已公開(kāi)評(píng)測(cè)的開(kāi)源模型，取得了比肩世界頂級(jí)閉源模型的優(yōu)異成績(jī)。

DeepSeek-V4-Flash：主攻性價(jià)比

相比 DeepSeek-V4-Pro，DeepSeek-V4-Flash 在世界知識(shí)儲(chǔ)備方面稍遜一籌，但展現(xiàn)出了接近的推理能力。而由于模型參數(shù)和激活更小，相較之下 V4-Flash 能夠提供更加快捷、經(jīng)濟(jì)的 API 服務(wù)。

在 Agent 測(cè)評(píng)中，DeepSeek-V4-Flash 在簡(jiǎn)單任務(wù)上與 DeepSeek-V4-Pro 旗鼓相當(dāng)，但在高難度任務(wù)上仍有差距。

百萬(wàn)上下文已成標(biāo)配

官方公眾號(hào)文章中介紹，DeepSeek-V4 開(kāi)創(chuàng)了一種全新的注意力機(jī)制，在 token 維度進(jìn)行壓縮，結(jié)合 DSA 稀疏注意力（DeepSeek Sparse Attention），實(shí)現(xiàn)了全球領(lǐng)先的長(zhǎng)上下文能力，并且相比于傳統(tǒng)方法大幅降低了對(duì)計(jì)算和顯存的需求。

從現(xiàn)在開(kāi)始，1M（一百萬(wàn)）上下文將是 DeepSeek 所有官方服務(wù)的標(biāo)配。

DeepSeek-V4 和 DeepSeek-V3.2 的計(jì)算量和顯存容量隨上下文長(zhǎng)度的變化

值得注意的是，DeepSeek-V4 還針對(duì) Claude Code 、OpenClaw、OpenCode、CodeBuddy 等主流的 Agent 產(chǎn)品進(jìn)行了適配和優(yōu)化，在代碼任務(wù)、文檔生成任務(wù)等方面表現(xiàn)均有提升。下圖為 V4-Pro 在某 Agent 框架下生成的 PPT 內(nèi)頁(yè)示例：

目前，DeepSeek API 已同步上線 V4-Pro 與 V4-Flash，支持 OpenAI ChatCompletions 接口與 Anthropic 接口。訪問(wèn)新模型時(shí)，base_url 不變, model 參數(shù)需要改為 deepseek-v4-pro 或 deepseek-v4-flash。

V4-Pro 和 V4-Flash 均提供 1M 上下文長(zhǎng)度，并同時(shí)支持非思考模式與思考模式。后者可通過(guò) reasoning_effort 參數(shù)調(diào)節(jié)思考強(qiáng)度（可選 high 或 max）。對(duì)于復(fù)雜的 Agent 類任務(wù)，建議啟用思考模式并將強(qiáng)度設(shè)為 max。具體調(diào)用方式及參數(shù)設(shè)置請(qǐng)查閱 API 文檔。

需注意：舊接口中的 deepseek-chat 和 deepseek-reasoner 兩個(gè)模型名將于 2026 年 7 月 24 日停止使用。過(guò)渡期內(nèi)，它們分別指向 deepseek-v4-flash 的非思考模式與思考模式。

拆解關(guān)鍵技術(shù)創(chuàng)新

混合注意力機(jī)制

CSA 與 HCA 是關(guān)鍵創(chuàng)新是 V4 系列最關(guān)鍵的創(chuàng)新之一。傳統(tǒng)注意力機(jī)制處理長(zhǎng)序列時(shí)，每個(gè) token 都需要與所有歷史 token 計(jì)算注意力，導(dǎo)致計(jì)算量隨序列長(zhǎng)度平方增長(zhǎng)。V4 設(shè)計(jì)了兩種互補(bǔ)的壓縮注意力架構(gòu)：

壓縮稀疏注意力（CSA）：首先將每 m 個(gè) token 的 KV 緩存壓縮為 1 個(gè)條目（m=4），然后使用 DeepSeek 稀疏注意力，每個(gè)查詢 token 僅需關(guān)注 k 個(gè)壓縮后的 KV 條目（k=512~1024），引入 Lightning Indexer（輕量索引器）高效選出重要的壓縮塊，整體將序列長(zhǎng)度壓縮至 1/m。

高度壓縮注意力（HCA）：采用更激進(jìn)的壓縮率（m'=128），將每 128 個(gè) token 壓縮為 1 個(gè)，保持稠密注意力（不稀疏），適用于信息密度較低的場(chǎng)景，CSA 與 HCA 以交錯(cuò)方式堆疊，兼顧效率與表達(dá)力。

工程亮點(diǎn)：支持 RoPE 部分位置編碼（僅最后 64 維），維持相對(duì)位置信息；引入滑動(dòng)窗口注意力分支捕獲局部依賴；采用 Attention Sink 技術(shù)讓注意力得分總和可以不為 1。

此外，Engram 和 mHC 兩個(gè)版塊上的創(chuàng)新也同樣很關(guān)鍵。

Engram 記憶模塊

首先是 Engram (條件記憶模塊)：這是 DeepSeek 創(chuàng)始人梁文鋒署名論文中的核心概念。它試圖解決傳統(tǒng) Transformer 架構(gòu)將記憶與推理混為一談的根本問(wèn)題，模型既需要用注意力去“檢索”知識(shí)，又需要用注意力去“推理”。

工作原理是 Engram 將模型能力從連續(xù)的神經(jīng)計(jì)算轉(zhuǎn)移到確定性的哈希查找。它將那些固定的、需要記憶的模式（如實(shí)體名、固定搭配）存入一個(gè)類似“字典”的查找表中，使模型能以 O(1) 的復(fù)雜度快速調(diào)用，而無(wú)需消耗大量算力去“計(jì)算”記憶。

實(shí)際效果：這使得模型能將寶貴的注意力資源解放出來(lái)，專注于復(fù)雜的組合與推理任務(wù)。在實(shí)驗(yàn)階段，一個(gè)集成了 270 億參數(shù) Engram 的模型，在參數(shù)和浮點(diǎn)運(yùn)算次數(shù)（FLOPs）同等的情況下，性能超過(guò)了純 MoE 模型。

mHC 流形約束超連接

mHC (流形約束超連接，Manifold-Constrained Hyper-Connections)：這是一個(gè)旨在解決極深網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定性的創(chuàng)新。傳統(tǒng) Transformer 模型在堆疊到很深的時(shí)候，容易出現(xiàn)梯度爆炸或消失等信號(hào) degradation 問(wèn)題。

通過(guò)將連接矩陣約束在雙隨機(jī)矩陣流形上，mHC 確保了信號(hào)增益在每一層都保持穩(wěn)定（約 1.6 倍），從而讓深層表示得以保留。這使訓(xùn)練更深、更強(qiáng)的模型成為可能，將計(jì)算利用率從行業(yè)平均的約 60% 提升到了 85% 以上，同時(shí)減少了 30%+ 的原始計(jì)算依賴。

除了核心架構(gòu)的創(chuàng)新，V4 在訓(xùn)練和推理工程層面也進(jìn)行了大量?jī)?yōu)化。

Muon 優(yōu)化器：萬(wàn)億參數(shù)的新訓(xùn)練范式

V4 首次在萬(wàn)億參數(shù) MoE 模型上大規(guī)模采用 Muon 優(yōu)化器。

團(tuán)隊(duì)設(shè)計(jì)了一套混合 Newton-Schulz 迭代策略：前 8 步使用快速收斂系數(shù)，后 2 步切換為穩(wěn)定系數(shù)，在正交化精度與收斂速度間取得最優(yōu)。為解決 ZeRO 并行與 Muon 需要完整梯度矩陣的矛盾，團(tuán)隊(duì)設(shè)計(jì)了混合 ZeRO 分配策略——稠密參數(shù)限制并行度并用背包算法負(fù)載均衡，MoE 專家參數(shù)獨(dú)立展平后均勻分布。進(jìn)一步地，MoE 梯度在同步前以隨機(jī)舍入方式量化到 BF16，通信量減半；同時(shí)采用“all-to-all + 本地 FP32 求和”規(guī)避低精度加法器的累積誤差。

FP4 量化：無(wú)損壓縮與推理加速

V4 在 MoE 專家權(quán)重和 CSA 索引器的 QK 路徑上應(yīng)用了 FP4 量化感知訓(xùn)練。一個(gè)關(guān)鍵發(fā)現(xiàn)是：FP4 到 FP8 的解量化是無(wú)損的——因?yàn)?FP8 擁有更大的動(dòng)態(tài)范圍，F(xiàn)P4 子塊的細(xì)粒度尺度信息可以被完全吸收。這使得整個(gè)量化流程可以無(wú)縫復(fù)用現(xiàn)有的 FP8 訓(xùn)練框架。在推理和 RL rollout 階段，直接使用真實(shí) FP4 權(quán)重，實(shí)現(xiàn)實(shí)時(shí)的顯存節(jié)省和計(jì)算加速。對(duì)索引器分?jǐn)?shù)的 FP32→BF16 量化更是帶來(lái)了 2 倍加速，同時(shí)保持 99.7% 的召回率。

專家并行：通信 - 計(jì)算深度融合

MoE 模型的專家并行受限于跨節(jié)點(diǎn)通信。傳統(tǒng)方案中，Dispatch 和 Combine 階段是純通信瓶頸。V4 的創(chuàng)新是將專家切分為“波”——每個(gè)波包含一小部分專家。當(dāng)波內(nèi)專家的通信完成后，計(jì)算立即開(kāi)始，無(wú)需等待其他專家。穩(wěn)態(tài)下，當(dāng)前波的計(jì)算、下一波的 token 傳輸、已完成專家的結(jié)果發(fā)送三者同時(shí)進(jìn)行。這一細(xì)粒度流水線在 NVIDIA GPU 和華為昇騰 NPU 上實(shí)現(xiàn) 1.5~1.73 倍加速，在 RL rollout 等高敏感場(chǎng)景下可達(dá) 1.96 倍。

團(tuán)隊(duì)還提出了硬件設(shè)計(jì)建議：當(dāng)前每 GBps 互聯(lián)帶寬足以覆蓋 6.1 TFLOP/s 的計(jì)算需求，盲目增加帶寬會(huì)帶來(lái)收益遞減。這一洞察對(duì)未來(lái) AI 加速器設(shè)計(jì)具有指導(dǎo)意義。

確定性內(nèi)核：大規(guī)模訓(xùn)練的可復(fù)現(xiàn)性保障

訓(xùn)練萬(wàn)億參數(shù)模型時(shí)，非確定性行為可能導(dǎo)致難以調(diào)試的 loss 尖峰。V4 實(shí)現(xiàn)了全面的批量不變性和確定性：任何 token 的輸出不因 batch 內(nèi)位置而改變；每次運(yùn)行的梯度累積順序保持一致。技術(shù)難點(diǎn)包括：注意力反向傳播中放棄 split-KV 方案，改用雙核策略（滿波時(shí)單 SM 處理、部分波時(shí)多 SM 協(xié)作但保證累積順序）；MoE 反向傳播通過(guò) rank 內(nèi) token 順序預(yù)處理加 rank 間 buffer 隔離解決競(jìng)爭(zhēng)；mHC 中小矩陣乘法（輸出維度僅 24）被迫使用 split-k 時(shí)，先輸出各 split 部分再通過(guò)專用核確定性歸約。這些工程打磨使得大規(guī)模訓(xùn)練的可復(fù)現(xiàn)性達(dá)到新高度。

TileLang DSL：高性能內(nèi)核的高效開(kāi)發(fā)

為支撐數(shù)百個(gè)融合核的開(kāi)發(fā)，V4 團(tuán)隊(duì)采用 TileLang 領(lǐng)域特定語(yǔ)言，并實(shí)現(xiàn)了主機(jī)代碼生成——將數(shù)據(jù)類型、形狀約束等元數(shù)據(jù)嵌入生成的 launcher 中，運(yùn)行時(shí)驗(yàn)證開(kāi)銷從數(shù)十微秒降至 1 微秒以下。同時(shí)集成 Z3 SMT 求解器進(jìn)行形式整數(shù)分析，支持向量化優(yōu)化、屏障插入等高級(jí)編譯優(yōu)化。嚴(yán)格對(duì)齊數(shù)值精度與 CUDA 工具鏈，保證 bit 級(jí)可重現(xiàn)性。

訓(xùn)練穩(wěn)定性：預(yù)知路由與 SwiGLU 鉗位

萬(wàn)億 MoE 模型的訓(xùn)練穩(wěn)定性是一大挑戰(zhàn)。V4 識(shí)別出 loss 尖峰與 MoE 層異常值的強(qiáng)相關(guān)性，且路由機(jī)制會(huì)加劇異常值。為此設(shè)計(jì)了預(yù)知路由：在 step t 使用歷史參數(shù)θ_{t-Δt}計(jì)算路由索引，當(dāng)前參數(shù)僅做特征計(jì)算，通過(guò)管線執(zhí)行與通信重疊將額外開(kāi)銷控制在 20%，且僅在尖峰發(fā)生時(shí)動(dòng)態(tài)激活。

配合 SwiGLU 鉗位（線性分量鉗位到[-10,10]，門(mén)控分量上界鉗位到 10），有效消除了異常值，且不影響性能。

框架層優(yōu)化：長(zhǎng)上下文 RL 落地

V4 的框架優(yōu)化覆蓋了訓(xùn)練與推理全流程：

上下文并行適配：兩階段通信策略解決壓縮邊界跨 rank 的問(wèn)題，每個(gè) rank 發(fā)送最后 m 個(gè)未壓縮 KV，all-gather 后融合為完整序列。
張量級(jí)激活檢查點(diǎn)：擴(kuò)展自動(dòng)微分框架，支持對(duì)單個(gè)張量標(biāo)注重計(jì)算，框架自動(dòng)計(jì)算最小重計(jì)算子圖，釋放顯存并復(fù)用指針，開(kāi)發(fā)者無(wú)需關(guān)心底層內(nèi)存細(xì)節(jié)。
異構(gòu) KV 緩存管理：分離狀態(tài)緩存（SWA+ 未就緒壓縮 token）和經(jīng)典 KV 緩存，支持磁盤(pán)存儲(chǔ)以實(shí)現(xiàn)共享前綴請(qǐng)求的零重復(fù)預(yù)填充。

后訓(xùn)練范式：同策略蒸餾

V4 的后訓(xùn)練采用“獨(dú)立專家訓(xùn)練→同策略蒸餾”兩階段范式。首先針對(duì)數(shù)學(xué)、代碼、Agent、指令跟隨等領(lǐng)域獨(dú)立訓(xùn)練專家模型，每個(gè)專家經(jīng)過(guò) SFT 和 GRPO 強(qiáng)化學(xué)習(xí)，支持三種推理模式（Non-think/Think High/Think Max）。

特別地，使用了生成式獎(jiǎng)勵(lì)模型替代傳統(tǒng)標(biāo)量獎(jiǎng)勵(lì)模型，模型的 actor 與 judge 角色統(tǒng)一，將推理能力內(nèi)化到評(píng)估中。

然后通過(guò)同策略蒸餾將十多個(gè)專家融合到一個(gè)統(tǒng)一模型。采用逆向 KL 散度作為目標(biāo)，并使用全詞表 logit 蒸餾（而非 token 級(jí) KL 估計(jì)），梯度估計(jì)更穩(wěn)定。工程上，教師權(quán)重 offload 到分布式存儲(chǔ)，僅緩存最后一層 hidden states，訓(xùn)練樣本按教師索引排序確保每個(gè)教師頭只加載一次，使得在萬(wàn)億參數(shù)級(jí)別進(jìn)行多教師蒸餾成為現(xiàn)實(shí)。

不得不說(shuō)，DeepSeek-V4-Pro-Max（最大推理強(qiáng)度模式）在多項(xiàng)基準(zhǔn)上重新定義了開(kāi)源模型的天花板：

知識(shí)：SimpleQA-Verified 達(dá)到 57.9%，遠(yuǎn)超前代開(kāi)源模型（約 30%）；
編程：Codeforces Elo 3206 分，排名人類第 23，首次有開(kāi)源模型在該任務(wù)上追平 GPT-5.4；
Agent：SWE-Verified 80.6%，接近 Claude Opus 4.6 的 80.8%；Terminal Bench 2.0 67.9%，與 GPT-5.4 的 68.5% 持平；
中文任務(wù)：功能性寫(xiě)作以 62.7% 的勝率優(yōu)于 Gemini 3.1 Pro，創(chuàng)意寫(xiě)作在寫(xiě)作質(zhì)量維度達(dá)到 77.5% 勝率。

V4-Flash-Max 則以極低成本實(shí)現(xiàn)了與 GPT-5.2 和 Gemini 3.0 Pro 相當(dāng)?shù)耐评硇阅?，證明了高效架構(gòu)的可行性。

過(guò)去一年 DeepSeek 重要發(fā)布回顧

2025 年除夕夜，當(dāng)大多數(shù)用戶還沉浸在年味中時(shí)，DeepSeek 低調(diào)發(fā)布了DeepSeek-R1。沒(méi)有發(fā)布會(huì)、沒(méi)有鋪天蓋地的宣發(fā)，但幾天之內(nèi)，這個(gè)模型迅速在技術(shù)社區(qū)、研究圈與開(kāi)發(fā)者社群中擴(kuò)散開(kāi)來(lái)。事后來(lái)看，R1 更像是一個(gè)信號(hào)：推理模型，開(kāi)始從“研究話題”走向“工程現(xiàn)實(shí)”。

DeepSeek 發(fā)布了在數(shù)學(xué)、代碼編寫(xiě)和邏輯推理方面表現(xiàn)卓越的 DeepSeek-R1 模型。其性能直追 OpenAI o1，并能夠展示詳盡的思維鏈。該模型通過(guò) MIT 協(xié)議開(kāi)源了相關(guān)權(quán)重和代碼，不僅產(chǎn)生了深遠(yuǎn)的技術(shù)影響，更直接重塑了全球開(kāi)源與商業(yè)大模型，乃至中美大模型的技術(shù)競(jìng)爭(zhēng)格局。

R1 之后：持續(xù)迭代，而非“一次性爆款”。

3 月 25 日，DeepSeek V3 模型已完成小版本升級(jí)，歡迎前往官方網(wǎng)頁(yè)、APP、小程序試用體驗(yàn)（關(guān)閉深度思考），API 接口和使用方式保持不變。

DeepSeek 反饋稱此次 DeepSeek-V3 的小版本升級(jí)，版本號(hào)為 V3-0324，主要聚焦于體驗(yàn)優(yōu)化和性能提升。在官方網(wǎng)頁(yè)、App 和小程序中，用戶關(guān)閉“深度思考”功能，可獲取更快的響應(yīng)速度，適合對(duì)實(shí)時(shí)性要求高的場(chǎng)景（如簡(jiǎn)單問(wèn)答、代碼片段生成）。

5 月 28 日，DeepSeek R1 模型已完成小版本升級(jí)，版本為 DeepSeek-R1-0528。這款開(kāi)源大模型支持 128K 超長(zhǎng)上下文，中文能力超越 GPT-4-Turbo 登頂 SuperCLUE 榜首，代碼性能媲美頂級(jí)閉源模型。亮點(diǎn)包括：處理整本小說(shuō) / 超長(zhǎng)文檔的"大海撈針"能力、MIT 開(kāi)源協(xié)議支持商用、免費(fèi)開(kāi)放使用。適用場(chǎng)景涵蓋企業(yè)文檔分析、教育科研、編程輔助等。

8 月 21 日，DeepSeek-V3.1 正式發(fā)布。本次升級(jí)包含以下主要變化：

混合推理架構(gòu)：一個(gè)模型同時(shí)支持思考模式與非思考模式；
更高的思考效率：相比 DeepSeek-R1-0528，DeepSeek-V3.1-Think 能在更短時(shí)間內(nèi)給出答案；
更強(qiáng)的 Agent 能力：通過(guò) Post-Training 優(yōu)化，新模型在工具使用與智能體任務(wù)中的表現(xiàn)有較大提升。

官方 App 與網(wǎng)頁(yè)端模型已同步升級(jí)為 DeepSeek-V3.1。用戶可以通過(guò)“深度思考”按鈕，實(shí)現(xiàn)思考模式與非思考模式的自由切換。

DeepSeek-V3.1 上下文已擴(kuò)展為 128K。同時(shí)，API Beta 接口支持了 strict 模式的 Function Calling，以確保輸出的 Function 滿足 schema 定義。

9 月 22 日，DeepSeek-V3.1 已更新至 DeepSeek-V3.1-Terminus 版本。據(jù) DeepSeek 介紹，此次更新在保持模型原有能力的基礎(chǔ)上，針對(duì)用戶反饋的問(wèn)題進(jìn)行了改進(jìn)，包括：語(yǔ)言一致性：緩解中英文混雜、偶發(fā)異常字符等情況。在 Agent（智能體）能力方面，進(jìn)一步優(yōu)化 Code Agent 與 Search Agent 的表現(xiàn)，DeepSeek-V3.1-Terminus 的輸出效果相比前一版本更加穩(wěn)定。

9 月 29 日，DeepSeek 發(fā)布 DeepSeek-V3.2-Exp 模型，這是一個(gè)實(shí)驗(yàn)性（Experimental）的版本。

作為邁向新一代架構(gòu)的中間步驟，V3.2-Exp 在 V3.1-Terminus 的基礎(chǔ)上引入了 DeepSeek Sparse Attention（一種稀疏注意力機(jī)制），針對(duì)長(zhǎng)文本的訓(xùn)練和推理效率進(jìn)行了探索性的優(yōu)化和驗(yàn)證。

DeepSeek Sparse Attention（DSA）首次實(shí)現(xiàn)了細(xì)粒度稀疏注意力機(jī)制，在幾乎不影響模型輸出效果的前提下，實(shí)現(xiàn)了長(zhǎng)文本訓(xùn)練和推理效率的大幅提升。

12 月 1 日，DeepSeek 官方同時(shí)發(fā)布兩個(gè)正式版模型：DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。

DeepSeek-V3.2 的目標(biāo)是平衡推理能力與輸出長(zhǎng)度，適合日常使用，例如問(wèn)答場(chǎng)景和通用 Agent 任務(wù)場(chǎng)景。

在公開(kāi)的推理類 Benchmark 測(cè)試中，DeepSeek-V3.2 達(dá)到了 GPT-5 的水平，僅略低于 Gemini-3.0-Pro；相比 Kimi-K2-Thinking，V3.2 的輸出長(zhǎng)度大幅降低，顯著減少了計(jì)算開(kāi)銷與用戶等待時(shí)間。

DeepSeek-V3.2-Speciale 的目標(biāo)是將開(kāi)源模型的推理能力推向極致，探索模型能力的邊界。

V3.2-Speciale 是 DeepSeek-V3.2 的長(zhǎng)思考增強(qiáng)版，同時(shí)結(jié)合了 DeepSeek-Math-V2 的定理證明能力。該模型具備更好的指令跟隨、數(shù)學(xué)證明與邏輯驗(yàn)證能力，在主流推理基準(zhǔn)測(cè)試上的性能表現(xiàn)媲美 Gemini-3.0-Pro。

V3.2-Speciale 模型成功斬獲 IMO 2025（國(guó)際數(shù)學(xué)奧林匹克）、CMO 2025（中國(guó)數(shù)學(xué)奧林匹克）、ICPC World Finals 2025（國(guó)際大學(xué)生程序設(shè)計(jì)競(jìng)賽全球總決賽）及 IOI 2025（國(guó)際信息學(xué)奧林匹克）金牌。其中，ICPC 與 IOI 成績(jī)分別達(dá)到了人類選手第二名與第十名的水平。

DeepSeek 官方表示，在高度復(fù)雜任務(wù)上，Speciale 模型大幅優(yōu)于標(biāo)準(zhǔn)版本，但消耗的 Tokens 也顯著更多，成本更高。目前，DeepSeek-V3.2-Speciale 僅供研究使用，不支持工具調(diào)用，暫未針對(duì)日常對(duì)話與寫(xiě)作任務(wù)進(jìn)行專項(xiàng)優(yōu)化。

再然后到了 2026 年 1 月 13 日，喜歡悶聲做大事的 DeepSeek 再次發(fā)布重大技術(shù)成果，在其 GitHub 官方倉(cāng)庫(kù)開(kāi)源了新論文與模塊 Engram，論文題為 “Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models”，梁文鋒再次出現(xiàn)在合著者名單中。

與傳統(tǒng)的大模型架構(gòu)相比，該方法提出了一種新的“查—算分離”機(jī)制，通過(guò)引入可擴(kuò)展的查找記憶結(jié)構(gòu)，在等參數(shù)、等算力條件下顯著提升模型在知識(shí)調(diào)用、推理、代碼、數(shù)學(xué)等任務(wù)上的表現(xiàn)。代碼與論文全文均已開(kāi)源。

論文地址：https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

代碼地址：https://github.com/deepseek-ai/Engram

這種查和算分離的 Engram 新方法的整體架構(gòu)如下圖所示：

我們?yōu)槭裁葱枰?Engram ？

目前主流的大語(yǔ)言模型架構(gòu)依然基于 Transformer 和 Mixture-of-Experts（MoE）結(jié)構(gòu)。MoE 是目前推進(jìn)參數(shù)規(guī)模和能力擴(kuò)展的關(guān)鍵技術(shù)之一，通過(guò)動(dòng)態(tài)路由機(jī)制，只激活部分參數(shù)以降低計(jì)算成本，同時(shí)在任務(wù)容量方面實(shí)現(xiàn)大規(guī)模擴(kuò)展。DeepSeek 自家系列模型（如 DeepSeek V2、DeepSeek V3 等）也采用了先進(jìn)的 MoE 方法進(jìn)行擴(kuò)展訓(xùn)練。

但在這些傳統(tǒng)的 Transformer 架構(gòu)（無(wú)論是 Dense 還是 MoE）中，模型的參數(shù)實(shí)際上承擔(dān)著兩種截然不同的角色：

事實(shí)性記憶（Memorization）：存儲(chǔ)海量的知識(shí)事實(shí)。例如，“法國(guó)的首都是哪里？”、“世界最高的山脈是哪座”等。這類信息相對(duì)死板，更多依賴于“查表”式的檢索。

邏輯推理與計(jì)算（Calculation）：負(fù)責(zé)復(fù)雜的邏輯鏈條、多步推理和情境理解。例如，“根據(jù)這段代碼的邏輯推導(dǎo)可能的 Bug”、“解析一段復(fù)雜的哲學(xué)論證”。

目前的大語(yǔ)言模型傾向于將這兩者混在一起。當(dāng)你試圖讓模型記住更多知識(shí)時(shí)，你不得不增加參數(shù)量。而在傳統(tǒng)的 Dense 模型中，參數(shù)量增加意味著前向傳播時(shí)的計(jì)算量（FLOPs）也會(huì)同步激增。MoE 架構(gòu)雖然通過(guò)稀疏激活解決了“算力隨參數(shù)同步爆炸”的問(wèn)題，但 DeepSeek 研究發(fā)現(xiàn)，MoE 專家在處理“死記硬背”的任務(wù)時(shí)依然不夠高效。

神經(jīng)網(wǎng)絡(luò)本質(zhì)上是連續(xù)的數(shù)學(xué)變換，用高昂的矩陣運(yùn)算去模擬簡(jiǎn)單的“查表檢索”，本身就是一種極大的浪費(fèi)。DeepSeek 的 Engram 正是為了打破這一困境——“該查表的查表，該算的算”。

聲明：本文為 InfoQ 整理，不代表平臺(tái)觀點(diǎn)，未經(jīng)許可禁止轉(zhuǎn)載。

會(huì)議推薦

世界模型的下一個(gè)突破在哪？Agent 從 Demo 到工程化還差什么？安全與可信這道坎怎么過(guò)？研發(fā)體系不重構(gòu)，還能撐多久？

AICon 上海站 2026，4 大核心專題等你來(lái)：世界模型與多模態(tài)智能突破、Agent 架構(gòu)與工程化實(shí)踐、Agent 安全與可信治理、企業(yè)級(jí)研發(fā)體系重構(gòu)。14 個(gè)專題全面開(kāi)放征稿。

誠(chéng)摯邀請(qǐng)你登臺(tái)分享實(shí)戰(zhàn)經(jīng)驗(yàn)。AICon 2026，期待與你同行。

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.