国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

定了,DeepSeek V4首發(fā)華為芯片!國產(chǎn)AI開始打破英偉達「壟斷」

0
分享至


星期五中午,本該是盤算周末去哪嗨的黃金時段。但沒想到 DeepSeek 突然反手就是一個超級加倍,就在剛剛,正式發(fā)布并開源了 V4 系列模型預(yù)覽版。


一上來就是王炸級別,而且雙雙標(biāo)配百萬 token 上下文:

  • 參數(shù)量達 1.6T 的 DeepSeek-V4-Pro(49B 激活參數(shù))
  • 284B 參數(shù)的 DeepSeek-V4-Flash(13B 激活參數(shù))

即日起可在官網(wǎng) chat.deepseek.com 或官方 App 體驗,API 服務(wù)同步上線。

DeepSeek V4 登場,Agent 玩家迎來大狂歡

Agent 能力是此次升級最核心的方向。

V4-Pro 已在 DeepSeek 內(nèi)部作為 Agentic Coding 工具日常使用。

員工的實測反饋是:用起來比 Sonnet 4.5 順手,交付質(zhì)量接近 Opus 4.6 非思考模式,和 Opus 4.6 思考模式相比還有差距。

官方內(nèi)部 R&D 編程基準(zhǔn)測試也給出了類似的定位,約 200 個來自 50 余位工程師的真實工作任務(wù)里,V4-Pro-Max 的 Pass Rate 是 67%,Sonnet 4.5 是 47%,Opus 4.5 Thinking 是 73%,Opus 4.6 Thinking 是 80%。


參與內(nèi)部調(diào)研的 85 名有使用經(jīng)驗的開發(fā)者和研究人員中,超過九成認(rèn)為 V4-Pro 已經(jīng)可以作為首選或接近首選的編程模型。

模型已針對 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 產(chǎn)品進行專項適配,代碼任務(wù)與文檔生成均有提升。

工具調(diào)用方面,V4 系列引入了新的 XML 格式 tool-call schema,以「|DSML|」特殊 token 劃定調(diào)用邊界。官方表示這一設(shè)計有效減少了轉(zhuǎn)義失敗和工具調(diào)用錯誤,比上一代更可靠。


知識與推理層面,V4-Pro 在世界知識測評中大幅領(lǐng)先其他開源模型。

SimpleQA-Verified 得分 57.9,比最接近的開源競爭者高出約 20 個百分點,只是略遜于 Gemini-3.1-Pro 的 75.6。數(shù)學(xué)、STEM、競賽代碼三項超越全部已公開評測的開源模型,達到頂級閉源模型水準(zhǔn)。

基座模型層面,V4-Pro-Base 在 MMLU 5-shot、MMLU-Pro 5-shot、Simple-QA Verified 25-shot、LongBench-V2 長文本評測上的得分分別為 90.1、73.5、55.2、51.5,全面大幅領(lǐng)先參數(shù)量相近的 V3.2-Base(對應(yīng)分別是 87.8、65.5、28.3、40.2)。

值得一提的是,參數(shù)量更小的 V4-Flash-Base 在多數(shù)基準(zhǔn)測試中同樣超越了 V3.2-Base,說明架構(gòu)層面的改進本身帶來了相當(dāng)可觀的效率提升。

指令模型的橫向?qū)Ρ壤铮琕4-Pro Max 的 LiveCodeBench Pass@1 達到 93.5,Codeforces Rating 達到 3206,均為參測模型中最高。


在 Codeforces 人類選手排行榜上,V4-Pro-Max 目前位列第 23 名。IMOAnswerBench Pass@1 達到 89.8,僅次于 GPT-5.4 的 91.4。競賽數(shù)學(xué)基準(zhǔn) HMMT 2026 Feb Pass@1 為 95.2,和 Opus-4.6 Max 的 96.2 及 GPT-5.4 的 97.7 差距很小。Apex Shortlist Pass@1 達到 90.2,超過同場對比的所有模型。

Agent 評測方面,SWE Verified Resolved 為 80.6,和 Opus-4.6 Max 的 80.8 基本持平。

BrowseComp Pass@1 為 83.4,MCPAtlas Public Pass@1 為 73.6,均處于參測模型前列。后兩項數(shù)字說明 V4 對 MCP 工具生態(tài)的兼容能力很扎實,并非只在內(nèi)部框架上表現(xiàn)良好。


長文本評測上,MRCR 1M MMR 為 83.5,CorpusQA 1M ACC 為 62.0,超過 Gemini-3.1-Pro 的 76.3 和 53.8,但在 MRCR 上仍落后 Claude Opus 4.6 的 92.9。

從分段數(shù)據(jù)來看,128K 以內(nèi)的檢索能力相當(dāng)穩(wěn)定,128K 之后開始出現(xiàn)明顯下滑,但 1M 時的表現(xiàn)依然超過大多數(shù)同類模型。

中文寫作同樣是 V4-Pro 的強項。

官方將 Gemini-3.1-Pro 作為中文寫作的對標(biāo)基準(zhǔn)模型,在包含 3170 條樣本的功能性寫作評測中,V4-Pro 的勝率為 62.7%,Gemini 為 34.1%。

創(chuàng)意寫作方面,V4-Pro 在寫作質(zhì)量上的勝率達到 77.5%。不過遇到高難度指令約束或多輪寫作場景,Claude Opus 4.5 仍有優(yōu)勢,勝率是 52.0% 對 45.9%。

別把 Flash 當(dāng)「丐版」,選對思考模式才是王道

很多人看到 Pro 和 Flash 兩個檔位,第一反應(yīng)是「Flash 就是降配版」。

錯,大錯特錯。 DeepSeek 的定位邏輯要更復(fù)雜,V4-Flash 的參數(shù)量和激活量都小得多,API 價格更有競爭力。推理能力和 Pro 很接近,世界知識儲備稍遜,

簡單 Agent 任務(wù)上兩者差距不大。真正拉開差距的是高難度任務(wù),以及思考模式的選擇。

在 Think Max 模式下,V4-Flash 的推理性能可以大幅追近 Pro:LiveCodeBench Flash Max 達到 91.6,Codeforces Flash Max Rating 達到 3052,GPQA Diamond Pass@1 達到 88.1,IMOAnswerBench Pass@1 達到 88.4,和 Pro Max 的差距已相當(dāng)有限。


日常任務(wù)用 Flash,遇到硬骨頭開 Think Max,性價比很高。

模式之間的性能落差遠(yuǎn)比版本之間的落差大。以 V4-Pro 為例,HLE Pass@1 從非思考模式的 7.7 提升至 Max 模式的 37.7,Apex Pass@1 從 0.4 提升至 38.3,BrowseComp Pass@1 從無法評測躍升至 83.4。對于復(fù)雜任務(wù),選對思考強度,比糾結(jié)選哪個版本要重要得多。

兩款模型均支持三種推理強度,可通過 reasoning_effort 參數(shù)切換。

非思考模式響應(yīng)速度快,適合日常輕量任務(wù);Think High 開啟顯式邏輯推理,適合復(fù)雜問題與規(guī)劃;Think Max 推理能力拉滿,適合探索模型上限,官方建議上下文窗口至少設(shè)置為 384K token,復(fù)雜 Agent 場景則直接設(shè)成 max。

Think Max 模式下還有一段額外注入到系統(tǒng)提示開頭的指令,要求模型「以絕對最大力度推理,不允許走捷徑」,并強制要求把每一步推理、每一個被否定的假設(shè)都顯式寫出來。


這種設(shè)計的效果從數(shù)據(jù)上看相當(dāng)明顯,也解釋了為什么同一個模型在不同模式下的表現(xiàn)差距如此之大。

百萬長上下文,榨干每一個 token

百萬 token 上下文有不少模型都在宣傳,但撐起這個規(guī)模的工程代價是完全不一樣的。

DeepSeek V4 在架構(gòu)層面做了比較大的調(diào)整。注意力機制是這次改動的核心。傳統(tǒng)的注意力計算量隨序列長度平方增長,上下文一長就成了最主要的計算瓶頸。


V4 引入了兩種壓縮注意力并交替使用。CSA 把每 m 個 token 的 KV 緩存壓縮為一條,再用稀疏注意力只挑其中 k 條參與核心計算;HCA 則用更激進的壓縮率,把更長區(qū)間的 token 壓縮為一條,但保持稠密注意力。


CSA 里還有一個閃電索引器,用 FP4 低精度快速算出每個查詢 token 和各壓縮塊之間的相關(guān)性得分,再挑出 top-k 個塊參與后續(xù)注意力,進一步壓縮計算量。為了避免壓縮損失局部細(xì)節(jié),兩種注意力都額外引入了滑動窗口分支,讓每個 token 能完整看到最近的若干個相鄰 token。

效果是顯著的,在 1M 上下文場景下,V4-Pro 的單 token 推理計算量僅為 V3.2 的 27%,KV 緩存占用降至 V3.2 的 10%。V4-Flash 更激進,同樣場景下推理計算量僅為 V3.2 的 10%,KV 緩存降至 7%。


官方表示,百萬上下文從現(xiàn)在起將是 DeepSeek 所有官方服務(wù)的標(biāo)配。

真·就長長長長長長長長。

除注意力機制外,V4 還引入了流形約束超連接(mHC)來強化殘差連接。

傳統(tǒng)殘差連接把層與層之間的信號直接相加,而 mHC 把殘差流的寬度擴展若干倍,再通過三組可學(xué)習(xí)的線性映射動態(tài)控制信號的混合方式。

負(fù)責(zé)殘差變換的矩陣被約束在雙隨機矩陣集合上,保證譜范數(shù)不超過 1,讓跨層信號傳播更加穩(wěn)定。

訓(xùn)練層面采用 Muon 優(yōu)化器,通過迭代正交化梯度矩陣來更新參數(shù),加快收斂速度并提升穩(wěn)定性,和 AdamW 混用:大多數(shù)模塊用 Muon,嵌入層、預(yù)測頭、RMSNorm 權(quán)重仍用 AdamW。

訓(xùn)練過程中遇到了 loss spike 問題。

DeepSeek 摸索出兩個有效手段。第一個叫「預(yù)期性路由」,在第 t 步訓(xùn)練時用第 t-Δt 步的舊參數(shù)計算路由索引,把骨干網(wǎng)絡(luò)和路由網(wǎng)絡(luò)的更新解耦,打破兩者之間的惡性循環(huán)。

第二個是對 SwiGLU 激活函數(shù)的線性分量做截斷,把數(shù)值范圍鉗制在 [-10, 10] 以內(nèi),直接壓制異常值的出現(xiàn)。補貨,兩種方法目前只知道有效,機理還不夠清晰,DeepSeek 在論文中坦承這個問題留待后續(xù)研究。


此外,兩款模型均在超過 32T token 的高質(zhì)量數(shù)據(jù)上完成預(yù)訓(xùn)練,數(shù)據(jù)構(gòu)成涵蓋數(shù)學(xué)、代碼、網(wǎng)頁、長文檔等多個類別,中期訓(xùn)練階段還額外加入了 agentic 數(shù)據(jù)來強化代碼能力。

訓(xùn)練后階段采用兩步范式,先通過 SFT 與 GRPO 強化學(xué)習(xí)獨立培養(yǎng)領(lǐng)域?qū)<遥w數(shù)學(xué)、代碼、Agent、指令跟隨等多個方向,再經(jīng)在線蒸餾(OPD)將各領(lǐng)域能力整合進單一模型。

OPD 采用全詞表 logit 蒸餾而非 token 級 KL 估計,梯度估計更穩(wěn)定,知識遷移更完整,代價是工程實現(xiàn)難度大幅提升——超過十個教師模型的權(quán)重被集中存儲、按需加載,隱藏層狀態(tài)也做了專門緩存以避免顯存爆炸。

當(dāng)然,源神,依然是那個源神!

目前四個權(quán)重版本均已開源,可在 HuggingFace 或 ModelScope 下載。

Base 版本采用 FP8 Mixed 精度,指令版本采用 FP4 與 FP8 混合精度,MoE 專家參數(shù)使用 FP4,其余參數(shù)使用 FP8。

FP4 到 FP8 的反量化是無損的,因為 FP8(E4M3)比 FP4(E2M1)多兩位指數(shù)位,動態(tài)范圍更大,能完整吸收 FP4 的量化信息。本地部署建議將采樣參數(shù)設(shè)為 temperature=1.0、top_p=1.0。

此次發(fā)布未提供 Jinja 格式 chat template,官方在 encoding 文件夾中提供了 Python 腳本與測試用例,說明如何將 OpenAI 兼容格式的消息編碼為模型輸入字符串,以及如何解析模型的文本輸出。


API 接入方面,V4-Pro 與 V4-Flash 已同步上線,同時支持 OpenAI ChatCompletions 接口與 Anthropic 接口。價格如上,調(diào)用時 base_url 不變,model 參數(shù)改為 deepseek-v4-pro 或 deepseek-v4-flash 即可。

舊接口名稱 deepseek-chat 與 deepseek-reasoner 將于三個月后(2026 年 7 月 24 日)停止使用,當(dāng)前階段兩者分別指向 V4-Flash 的非思考模式與思考模式,開發(fā)者需在截止日期前完成遷移。看來這個周末有得忙了。

除了技術(shù)架構(gòu),DeepSeek V4 這次一個更值得關(guān)注的變化,是英偉達不再是唯一選項。

也就是說, DeepSeek 沒有給英偉達或 AMD 提前優(yōu)化適配的機會,而是把早期訪問權(quán)限獨家開放給了國產(chǎn)芯片廠商。這意味著,國產(chǎn)模型在「去英偉達化」邁出了重要的一步。

圖片
DeepSeek 選擇在 V4 這個節(jié)點上做這件事,時機很精準(zhǔn)。

V4 的性能已經(jīng)比肩頂級閉源模型,如果它只能跑在英偉達芯片上,那「國產(chǎn)最強開源模型」這個標(biāo)簽總顯得差一口氣。現(xiàn)在它跑通了昇騰,這個敘事也有所完整:算法是自己的,代碼是開源的,芯片是國產(chǎn)的。

巧合的是,黃仁勛最近就在與科技播客 Dwarkesh Patel 的訪談節(jié)目中表示,DeepSeek不是一個無足輕重的進展。


他還假設(shè)了一個情況,那就是 DeepSeek 新模型在華為平臺上首發(fā),黃仁勛表示這一天對美國來說將是一個可怕的結(jié)果,因為這意味著 AI 模型被優(yōu)化為在中國 AI 硬件上表現(xiàn)最佳,而這些模型擴散到全球之后,就會推動中國技術(shù)成為世界標(biāo)準(zhǔn)。

DeepSeek 用萬億參數(shù)級別的模型驗證了昇騰可以承載頂級大模型的推理,這對整個國產(chǎn)算力生態(tài)是一針強心劑。國內(nèi)大廠本就在加大昇騰芯片的采購力度,V4 的成功適配讓這個決策有了更充分的技術(shù)背書。寒武紀(jì)、海光信息等其他國產(chǎn)芯片廠商也會被倒逼著加速自己的大模型適配進度。

一個頂級開源模型的芯片選擇,正在撬動一整條產(chǎn)業(yè)鏈的洗牌。

DeepSeek-V4 模型開源鏈接:
https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
DeepSeek-V4 技術(shù)報告:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek\_V4.pdf

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
正式確定!開拓者中鋒加盟深圳男籃,攜手賀希寧,沖擊總冠軍

正式確定!開拓者中鋒加盟深圳男籃,攜手賀希寧,沖擊總冠軍

體壇瞎白話
2026-04-24 09:22:57
25周年英皇演唱會陣容出爐!張敬軒壓軸出場!

25周年英皇演唱會陣容出爐!張敬軒壓軸出場!

廣州正嘢
2026-04-24 13:07:03
上海警方通報“女子機場兩次拒幫陌生人帶行李”:3人購買大量免稅品欲帶至境外販賣,反復(fù)糾纏10余名旅客要求“分擔(dān)行李”,已被行拘

上海警方通報“女子機場兩次拒幫陌生人帶行李”:3人購買大量免稅品欲帶至境外販賣,反復(fù)糾纏10余名旅客要求“分擔(dān)行李”,已被行拘

極目新聞
2026-04-23 14:36:35
WC?。「曦悹柊袽VP打花了!

WC!!戈貝爾把MVP打花了!

風(fēng)子說個球
2026-04-24 14:19:29
99年我在守水庫,遇到一個道士借宿,他走時叮囑我,最近先別下山

99年我在守水庫,遇到一個道士借宿,他走時叮囑我,最近先別下山

千秋文化
2026-04-20 19:50:05
嗜賭成性只是冰山一角,婚內(nèi)出軌、睡有婦之夫,體壇丑聞毀三觀

嗜賭成性只是冰山一角,婚內(nèi)出軌、睡有婦之夫,體壇丑聞毀三觀

夢想總會變成真
2026-04-23 01:11:47
APP上預(yù)約機器人上門做家務(wù)?一個月后,這家公司機器人將進入家庭

APP上預(yù)約機器人上門做家務(wù)?一個月后,這家公司機器人將進入家庭

證券時報e公司
2026-04-23 11:57:36
回爐再造!北京推全日制大學(xué)生技師班,網(wǎng)友:如今缺少的就是技工

回爐再造!北京推全日制大學(xué)生技師班,網(wǎng)友:如今缺少的就是技工

火山詩話
2026-04-24 06:42:52
老球王戴維斯:我不想貶低丁俊暉,但誰都知道趙心童是更好的球員

老球王戴維斯:我不想貶低丁俊暉,但誰都知道趙心童是更好的球員

楊華評論
2026-04-24 03:04:33
河南醫(yī)保女主任主動投案!掌管幾百萬人的救命錢,最終還是沒逃過

河南醫(yī)保女主任主動投案!掌管幾百萬人的救命錢,最終還是沒逃過

小李子體育
2026-04-24 12:16:17
1.5億打了20分被棄用!為了鐵人稱號,常規(guī)賽全勤,季后賽沒勁了

1.5億打了20分被棄用!為了鐵人稱號,常規(guī)賽全勤,季后賽沒勁了

你的籃球頻道
2026-04-24 12:18:36
觸目驚心!央視曝光上海一中醫(yī)館:從醫(yī)生到病人全是演員!

觸目驚心!央視曝光上海一中醫(yī)館:從醫(yī)生到病人全是演員!

番外行
2026-04-24 08:59:12
太慘了!燃油車再迎大降價:最大跌幅50%,豪華車帶頭“跳水”

太慘了!燃油車再迎大降價:最大跌幅50%,豪華車帶頭“跳水”

沙雕小琳琳
2026-04-23 02:29:16
破例接機!中方強勢降臨中東,伊朗導(dǎo)彈下餃子,美霸權(quán)迎來終局?

破例接機!中方強勢降臨中東,伊朗導(dǎo)彈下餃子,美霸權(quán)迎來終局?

遁走的兩輪
2026-04-23 17:08:38
“茶幾”正逐漸退出中國家庭,學(xué)廣東人的做法,也太實用了!

“茶幾”正逐漸退出中國家庭,學(xué)廣東人的做法,也太實用了!

室內(nèi)設(shè)計師有料兒
2026-04-24 14:24:53
不到1日,中國鄰國犯下兩大惡行,王毅直奔東盟內(nèi)部,將待足五天

不到1日,中國鄰國犯下兩大惡行,王毅直奔東盟內(nèi)部,將待足五天

影孖看世界
2026-04-22 23:53:06
何潔自曝養(yǎng)家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

何潔自曝養(yǎng)家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

扒點半吃瓜
2026-03-10 07:00:13
從忍氣吞聲到全軍出擊,忍無可忍,拉出幾十萬部隊正面硬撼美國。

從忍氣吞聲到全軍出擊,忍無可忍,拉出幾十萬部隊正面硬撼美國。

讓心靈得以棲息
2026-04-24 14:22:00
一個消息震動中東,阿聯(lián)酋突然爆出大數(shù)字,美以這下捅了馬蜂窩

一個消息震動中東,阿聯(lián)酋突然爆出大數(shù)字,美以這下捅了馬蜂窩

流史歲月
2026-04-22 10:18:10
大疆創(chuàng)始人汪滔消失十年,如今露面爆內(nèi)情,大疆年賺800億太亮眼

大疆創(chuàng)始人汪滔消失十年,如今露面爆內(nèi)情,大疆年賺800億太亮眼

夢錄的西方史話
2026-04-24 14:27:18
2026-04-24 16:08:49
愛范兒 incentive-icons
愛范兒
消費科技第一媒體
38759文章數(shù) 2601553關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

女子買二手奔馳里程數(shù)偏差20萬公里 看到事故記錄崩潰

頭條要聞

女子買二手奔馳里程數(shù)偏差20萬公里 看到事故記錄崩潰

體育要聞

里程碑之戰(zhàn)拖后腿,哈登18分8失誤

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經(jīng)要聞

19家企業(yè)要"鋁代銅",格力偏不

汽車要聞

YU7 GT 5 月上市!小米Vision GT概念車國內(nèi)首秀

態(tài)度原創(chuàng)

游戲
房產(chǎn)
家居
藝術(shù)
教育

Fami通銷量榜:《識質(zhì)存在》3.6萬被第一十倍吊打!

房產(chǎn)要聞

三亞安居房,突然官宣!

家居要聞

自然肌理 溫潤美學(xué)

藝術(shù)要聞

16幅 佐恩高清油畫 | 瑞典著名畫家

教育要聞

江西省委宣傳部原常務(wù)副部長陳東有:教育孩子不能太急切

無障礙瀏覽 進入關(guān)懷版