網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

定了，DeepSeek V4首發(fā)華為芯片！國產(chǎn)AI開始打破英偉達「壟斷」

2026-04-24 14:19:37　來源: 愛范兒

廣東舉報

分享至

星期五中午，本該是盤算周末去哪嗨的黃金時段。但沒想到 DeepSeek 突然反手就是一個超級加倍，就在剛剛，正式發(fā)布并開源了 V4 系列模型預(yù)覽版。

一上來就是王炸級別，而且雙雙標(biāo)配百萬 token 上下文：

參數(shù)量達 1.6T 的 DeepSeek-V4-Pro（49B 激活參數(shù)）
284B 參數(shù)的 DeepSeek-V4-Flash（13B 激活參數(shù)）

即日起可在官網(wǎng) chat.deepseek.com 或官方 App 體驗，API 服務(wù)同步上線。

DeepSeek V4 登場，Agent 玩家迎來大狂歡

Agent 能力是此次升級最核心的方向。

V4-Pro 已在 DeepSeek 內(nèi)部作為 Agentic Coding 工具日常使用。

員工的實測反饋是：用起來比 Sonnet 4.5 順手，交付質(zhì)量接近 Opus 4.6 非思考模式，和 Opus 4.6 思考模式相比還有差距。

官方內(nèi)部 R&D 編程基準(zhǔn)測試也給出了類似的定位，約 200 個來自 50 余位工程師的真實工作任務(wù)里，V4-Pro-Max 的 Pass Rate 是 67%，Sonnet 4.5 是 47%，Opus 4.5 Thinking 是 73%，Opus 4.6 Thinking 是 80%。

參與內(nèi)部調(diào)研的 85 名有使用經(jīng)驗的開發(fā)者和研究人員中，超過九成認(rèn)為 V4-Pro 已經(jīng)可以作為首選或接近首選的編程模型。

模型已針對 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 產(chǎn)品進行專項適配，代碼任務(wù)與文檔生成均有提升。

工具調(diào)用方面，V4 系列引入了新的 XML 格式 tool-call schema，以「|DSML|」特殊 token 劃定調(diào)用邊界。官方表示這一設(shè)計有效減少了轉(zhuǎn)義失敗和工具調(diào)用錯誤，比上一代更可靠。

知識與推理層面，V4-Pro 在世界知識測評中大幅領(lǐng)先其他開源模型。

SimpleQA-Verified 得分 57.9，比最接近的開源競爭者高出約 20 個百分點，只是略遜于 Gemini-3.1-Pro 的 75.6。數(shù)學(xué)、STEM、競賽代碼三項超越全部已公開評測的開源模型，達到頂級閉源模型水準(zhǔn)。

基座模型層面，V4-Pro-Base 在 MMLU 5-shot、MMLU-Pro 5-shot、Simple-QA Verified 25-shot、LongBench-V2 長文本評測上的得分分別為 90.1、73.5、55.2、51.5，全面大幅領(lǐng)先參數(shù)量相近的 V3.2-Base（對應(yīng)分別是 87.8、65.5、28.3、40.2）。

值得一提的是，參數(shù)量更小的 V4-Flash-Base 在多數(shù)基準(zhǔn)測試中同樣超越了 V3.2-Base，說明架構(gòu)層面的改進本身帶來了相當(dāng)可觀的效率提升。

指令模型的橫向?qū)Ρ壤铮琕4-Pro Max 的 LiveCodeBench Pass@1 達到 93.5，Codeforces Rating 達到 3206，均為參測模型中最高。

在 Codeforces 人類選手排行榜上，V4-Pro-Max 目前位列第 23 名。IMOAnswerBench Pass@1 達到 89.8，僅次于 GPT-5.4 的 91.4。競賽數(shù)學(xué)基準(zhǔn) HMMT 2026 Feb Pass@1 為 95.2，和 Opus-4.6 Max 的 96.2 及 GPT-5.4 的 97.7 差距很小。Apex Shortlist Pass@1 達到 90.2，超過同場對比的所有模型。

Agent 評測方面，SWE Verified Resolved 為 80.6，和 Opus-4.6 Max 的 80.8 基本持平。

BrowseComp Pass@1 為 83.4，MCPAtlas Public Pass@1 為 73.6，均處于參測模型前列。后兩項數(shù)字說明 V4 對 MCP 工具生態(tài)的兼容能力很扎實，并非只在內(nèi)部框架上表現(xiàn)良好。

長文本評測上，MRCR 1M MMR 為 83.5，CorpusQA 1M ACC 為 62.0，超過 Gemini-3.1-Pro 的 76.3 和 53.8，但在 MRCR 上仍落后 Claude Opus 4.6 的 92.9。

從分段數(shù)據(jù)來看，128K 以內(nèi)的檢索能力相當(dāng)穩(wěn)定，128K 之后開始出現(xiàn)明顯下滑，但 1M 時的表現(xiàn)依然超過大多數(shù)同類模型。

中文寫作同樣是 V4-Pro 的強項。

官方將 Gemini-3.1-Pro 作為中文寫作的對標(biāo)基準(zhǔn)模型，在包含 3170 條樣本的功能性寫作評測中，V4-Pro 的勝率為 62.7%，Gemini 為 34.1%。

創(chuàng)意寫作方面，V4-Pro 在寫作質(zhì)量上的勝率達到 77.5%。不過遇到高難度指令約束或多輪寫作場景，Claude Opus 4.5 仍有優(yōu)勢，勝率是 52.0% 對 45.9%。

別把 Flash 當(dāng)「丐版」，選對思考模式才是王道

很多人看到 Pro 和 Flash 兩個檔位，第一反應(yīng)是「Flash 就是降配版」。

錯，大錯特錯。 DeepSeek 的定位邏輯要更復(fù)雜，V4-Flash 的參數(shù)量和激活量都小得多，API 價格更有競爭力。推理能力和 Pro 很接近，世界知識儲備稍遜，

簡單 Agent 任務(wù)上兩者差距不大。真正拉開差距的是高難度任務(wù)，以及思考模式的選擇。

在 Think Max 模式下，V4-Flash 的推理性能可以大幅追近 Pro：LiveCodeBench Flash Max 達到 91.6，Codeforces Flash Max Rating 達到 3052，GPQA Diamond Pass@1 達到 88.1，IMOAnswerBench Pass@1 達到 88.4，和 Pro Max 的差距已相當(dāng)有限。

日常任務(wù)用 Flash，遇到硬骨頭開 Think Max，性價比很高。

模式之間的性能落差遠(yuǎn)比版本之間的落差大。以 V4-Pro 為例，HLE Pass@1 從非思考模式的 7.7 提升至 Max 模式的 37.7，Apex Pass@1 從 0.4 提升至 38.3，BrowseComp Pass@1 從無法評測躍升至 83.4。對于復(fù)雜任務(wù)，選對思考強度，比糾結(jié)選哪個版本要重要得多。

兩款模型均支持三種推理強度，可通過 reasoning_effort 參數(shù)切換。

非思考模式響應(yīng)速度快，適合日常輕量任務(wù)；Think High 開啟顯式邏輯推理，適合復(fù)雜問題與規(guī)劃；Think Max 推理能力拉滿，適合探索模型上限，官方建議上下文窗口至少設(shè)置為 384K token，復(fù)雜 Agent 場景則直接設(shè)成 max。

Think Max 模式下還有一段額外注入到系統(tǒng)提示開頭的指令，要求模型「以絕對最大力度推理，不允許走捷徑」，并強制要求把每一步推理、每一個被否定的假設(shè)都顯式寫出來。

這種設(shè)計的效果從數(shù)據(jù)上看相當(dāng)明顯，也解釋了為什么同一個模型在不同模式下的表現(xiàn)差距如此之大。

百萬長上下文，榨干每一個 token

百萬 token 上下文有不少模型都在宣傳，但撐起這個規(guī)模的工程代價是完全不一樣的。

DeepSeek V4 在架構(gòu)層面做了比較大的調(diào)整。注意力機制是這次改動的核心。傳統(tǒng)的注意力計算量隨序列長度平方增長，上下文一長就成了最主要的計算瓶頸。

V4 引入了兩種壓縮注意力并交替使用。CSA 把每 m 個 token 的 KV 緩存壓縮為一條，再用稀疏注意力只挑其中 k 條參與核心計算；HCA 則用更激進的壓縮率，把更長區(qū)間的 token 壓縮為一條，但保持稠密注意力。

CSA 里還有一個閃電索引器，用 FP4 低精度快速算出每個查詢 token 和各壓縮塊之間的相關(guān)性得分，再挑出 top-k 個塊參與后續(xù)注意力，進一步壓縮計算量。為了避免壓縮損失局部細(xì)節(jié)，兩種注意力都額外引入了滑動窗口分支，讓每個 token 能完整看到最近的若干個相鄰 token。

效果是顯著的，在 1M 上下文場景下，V4-Pro 的單 token 推理計算量僅為 V3.2 的 27%，KV 緩存占用降至 V3.2 的 10%。V4-Flash 更激進，同樣場景下推理計算量僅為 V3.2 的 10%，KV 緩存降至 7%。

官方表示，百萬上下文從現(xiàn)在起將是 DeepSeek 所有官方服務(wù)的標(biāo)配。

真·就長長長長長長長長。

除注意力機制外，V4 還引入了流形約束超連接（mHC）來強化殘差連接。

傳統(tǒng)殘差連接把層與層之間的信號直接相加，而 mHC 把殘差流的寬度擴展若干倍，再通過三組可學(xué)習(xí)的線性映射動態(tài)控制信號的混合方式。

負(fù)責(zé)殘差變換的矩陣被約束在雙隨機矩陣集合上，保證譜范數(shù)不超過 1，讓跨層信號傳播更加穩(wěn)定。

訓(xùn)練層面采用 Muon 優(yōu)化器，通過迭代正交化梯度矩陣來更新參數(shù)，加快收斂速度并提升穩(wěn)定性，和 AdamW 混用：大多數(shù)模塊用 Muon，嵌入層、預(yù)測頭、RMSNorm 權(quán)重仍用 AdamW。

訓(xùn)練過程中遇到了 loss spike 問題。

DeepSeek 摸索出兩個有效手段。第一個叫「預(yù)期性路由」，在第 t 步訓(xùn)練時用第 t-Δt 步的舊參數(shù)計算路由索引，把骨干網(wǎng)絡(luò)和路由網(wǎng)絡(luò)的更新解耦，打破兩者之間的惡性循環(huán)。

第二個是對 SwiGLU 激活函數(shù)的線性分量做截斷，把數(shù)值范圍鉗制在 [-10, 10] 以內(nèi)，直接壓制異常值的出現(xiàn)。補貨，兩種方法目前只知道有效，機理還不夠清晰，DeepSeek 在論文中坦承這個問題留待后續(xù)研究。

此外，兩款模型均在超過 32T token 的高質(zhì)量數(shù)據(jù)上完成預(yù)訓(xùn)練，數(shù)據(jù)構(gòu)成涵蓋數(shù)學(xué)、代碼、網(wǎng)頁、長文檔等多個類別，中期訓(xùn)練階段還額外加入了 agentic 數(shù)據(jù)來強化代碼能力。

訓(xùn)練后階段采用兩步范式，先通過 SFT 與 GRPO 強化學(xué)習(xí)獨立培養(yǎng)領(lǐng)域?qū)＜遥w數(shù)學(xué)、代碼、Agent、指令跟隨等多個方向，再經(jīng)在線蒸餾（OPD）將各領(lǐng)域能力整合進單一模型。

OPD 采用全詞表 logit 蒸餾而非 token 級 KL 估計，梯度估計更穩(wěn)定，知識遷移更完整，代價是工程實現(xiàn)難度大幅提升——超過十個教師模型的權(quán)重被集中存儲、按需加載，隱藏層狀態(tài)也做了專門緩存以避免顯存爆炸。

當(dāng)然，源神，依然是那個源神！

目前四個權(quán)重版本均已開源，可在 HuggingFace 或 ModelScope 下載。

Base 版本采用 FP8 Mixed 精度，指令版本采用 FP4 與 FP8 混合精度，MoE 專家參數(shù)使用 FP4，其余參數(shù)使用 FP8。

FP4 到 FP8 的反量化是無損的，因為 FP8（E4M3）比 FP4（E2M1）多兩位指數(shù)位，動態(tài)范圍更大，能完整吸收 FP4 的量化信息。本地部署建議將采樣參數(shù)設(shè)為 temperature=1.0、top_p=1.0。

此次發(fā)布未提供 Jinja 格式 chat template，官方在 encoding 文件夾中提供了 Python 腳本與測試用例，說明如何將 OpenAI 兼容格式的消息編碼為模型輸入字符串，以及如何解析模型的文本輸出。

API 接入方面，V4-Pro 與 V4-Flash 已同步上線，同時支持 OpenAI ChatCompletions 接口與 Anthropic 接口。價格如上，調(diào)用時 base_url 不變，model 參數(shù)改為 deepseek-v4-pro 或 deepseek-v4-flash 即可。

舊接口名稱 deepseek-chat 與 deepseek-reasoner 將于三個月后（2026 年 7 月 24 日）停止使用，當(dāng)前階段兩者分別指向 V4-Flash 的非思考模式與思考模式，開發(fā)者需在截止日期前完成遷移。看來這個周末有得忙了。

除了技術(shù)架構(gòu)，DeepSeek V4 這次一個更值得關(guān)注的變化，是英偉達不再是唯一選項。

也就是說， DeepSeek 沒有給英偉達或 AMD 提前優(yōu)化適配的機會，而是把早期訪問權(quán)限獨家開放給了國產(chǎn)芯片廠商。這意味著，國產(chǎn)模型在「去英偉達化」邁出了重要的一步。

圖片
DeepSeek 選擇在 V4 這個節(jié)點上做這件事，時機很精準(zhǔn)。

V4 的性能已經(jīng)比肩頂級閉源模型，如果它只能跑在英偉達芯片上，那「國產(chǎn)最強開源模型」這個標(biāo)簽總顯得差一口氣。現(xiàn)在它跑通了昇騰，這個敘事也有所完整：算法是自己的，代碼是開源的，芯片是國產(chǎn)的。

巧合的是，黃仁勛最近就在與科技播客 Dwarkesh Patel 的訪談節(jié)目中表示，DeepSeek不是一個無足輕重的進展。

他還假設(shè)了一個情況，那就是 DeepSeek 新模型在華為平臺上首發(fā)，黃仁勛表示這一天對美國來說將是一個可怕的結(jié)果，因為這意味著 AI 模型被優(yōu)化為在中國 AI 硬件上表現(xiàn)最佳，而這些模型擴散到全球之后，就會推動中國技術(shù)成為世界標(biāo)準(zhǔn)。

DeepSeek 用萬億參數(shù)級別的模型驗證了昇騰可以承載頂級大模型的推理，這對整個國產(chǎn)算力生態(tài)是一針強心劑。國內(nèi)大廠本就在加大昇騰芯片的采購力度，V4 的成功適配讓這個決策有了更充分的技術(shù)背書。寒武紀(jì)、海光信息等其他國產(chǎn)芯片廠商也會被倒逼著加速自己的大模型適配進度。

一個頂級開源模型的芯片選擇，正在撬動一整條產(chǎn)業(yè)鏈的洗牌。

DeepSeek-V4 模型開源鏈接：
https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
DeepSeek-V4 技術(shù)報告：
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek\_V4.pdf

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.