国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek V4還是神:架構極度聰明,昇騰“原生”,接下來和華為一起讓token大降價

0
分享至


作者:王兆洋 + DeepSeek V4 專家模式

V4 終于終于終于終于是來了。

而且它不在假期,不在深夜,而是突然就發(fā)了。模型,開源權重,技術報告和官方的文章同時發(fā)給所有人。

官方給出的亮點是“百萬上下文的普惠”。但顯然,這個模型里DeepSeek做的創(chuàng)新工作還是非常的多。


一如既往的,它的技術報告是今天比讀任何新聞都過癮的存在。

這一次V4最讓人欣喜的是,它的架構依然在進化,且依然極度聰明。它告訴整個 AI 圈一件事:不用堆參數,不用買更多卡,僅靠對注意力機制和訓練方式的重新發(fā)明,就能把百萬 token 長文本的門檻踩到地板上。

而且,外界一直在關注的用“華為芯片”訓練的問題,也終于有所揭曉:這次華為昇騰的名字,是和 NVIDIA 并列寫在驗證平臺里的。雖然從技術報告來看,訓練部分依然大概率用的英偉達芯片,但在與昇騰的適配上,它顯然達到了前所未有的“原生”水平。這后面的意味,比跑分更有意思。

而在官方文檔里,API價格的地方有一行小字:

受限于高端算力,目前Pro的服務吞吐十分有限,預計下半年昇騰950超節(jié)點批量上市后,Pro的價格會大幅下調。


這同樣讓人浮想聯(lián)翩,且讓人對未來更加期待。

27% 和 10%,這兩個數字定義了什么叫“效率革命”

看看技術報告里的硬數據?;鶞适?DeepSeek-V3.2——本身已經是一個效率很高的模型。

在 100 萬 token 上下文下(大約能裝三部《三體》),DeepSeek-V4-Pro——1.6 萬億參數,激活 49B——處理一個新 token 需要的算力只有 V3.2 的 27%,KV 緩存只占 10%。

而小杯 DeepSeek-V4-Flash:284B 參數,激活僅 13B,算力只要 10%,緩存只要 7%。

一個容易被忽略的細節(jié):報告明確標注,單 token 推理算力的單位是等效 FP8 FLOPs。這不是拿低精度取巧,而是已經換算到和 V3.2 相同的精度標準去比。而且,V4 系列的路由專家權重還用了 FP4 精度,報告特別指出,現(xiàn)有硬件上 FP4 和 FP8 的峰值算力相同,但未來硬件上 FP4 可以再高出三分之一的效率。換句話說,現(xiàn)在的數字還不是天花板,等昇騰 950 這類新硬件到位,還有一波可挖的潛力。

長上下文,正在從奢侈品變成日用品。


憑什么能做到?兩大壓縮注意力,從根源上做手術

傳統(tǒng) Transformer 處理長文本的死穴:序列長度加 N 倍,注意力計算量平方級爆炸,KV 緩存線性膨脹。這個瓶頸不破,百萬 token 就只是論文里的數字。

DeepSeek V4 的辦法不是湊合,而是直接改造注意力機制本身??傮w架構上,注意力層采用 CSA 和 HCA 交錯配置,前饋層沿用 DeepSeekMoE,殘差連接用 mHC 加強。核心是兩種新注意力。

CSA——壓縮稀疏注意力

CSA 的數據流分三路并行。KV token 的隱藏狀態(tài)同時進入三個模塊:一個 Token-Level Compressor 負責把每 4 個 token 的 KV 緩存壓縮成一個條目;一個 Lightning Indexer 生成“索引鍵”,用于后續(xù)的匹配打分;同一個索引器還生成“索引分數”。查詢 token 的隱藏狀態(tài)則單獨進入 Lightning Indexer,生成查詢側的索引分數。兩邊一合,送入 Top-k 選擇器,從所有壓縮塊中只挑出最相關的 512 個(Pro 版是 1024 個)。最后,這些選中的壓縮塊和滑動窗口里保留的 128 個原始 token 拼在一起,送進核心的多查詢注意力計算。


索引器的實現(xiàn)細節(jié):查詢端先降維到 dc=1024,減少參數量,再升維到多頭索引查詢,配合 ReLU 激活后與壓縮索引鍵計算分數。這一整套不是簡單的“截斷”,是學出來的動態(tài)篩選——哪些信息重要、哪些可以忽略,由模型自己在訓練中決定。

HCA——重度壓縮注意力

和 CSA 不同,HCA 去掉了整個稀疏選擇鏈路——沒有 Lightning Indexer,沒有 Top-k Selector。數據流非常直接:KV token 隱藏狀態(tài)經過 Token-Level Compressor 壓縮(壓縮比 m'=128,遠大于 CSA 的 4),得到的壓縮條目直接與滑動窗口 KV 拼在一起,送進 MQA。因為每條目覆蓋 128 個 token,條目總量已經很少,全量算也不貴,省掉了篩選環(huán)節(jié)。這是為了抓全局結構,避免模型“只見樹木不見森林”。

兩種注意力都額外配了一個滑動窗口,保留最近 128 個 token 的原始 KV 不壓縮,確保局部依賴沒有精度損失。同時還用了注意力沉降技術——給每個頭一個可學習的 sink logit,加到注意力的分母里,讓每個頭可以選擇“什么都不關注”。


另外,報告透露了一個重要的工程決定:CSA 和 HCA 在 Query 和 KV 上只對最后 64 個維度施加 RoPE 位置編碼,其他維度不編碼。同時 KV 緩存采用混合精度存儲——RoPE 維度用 BF16,其余維度用 FP8——又把緩存砍掉近一半。

而這套注意力架構要真正落地,緩存管理也必須重新設計。V4 的 KV 緩存被拆成兩大塊:一塊是“狀態(tài)緩存”,每個請求分一個固定大小的區(qū)域,存滑動窗口最近 128 個 token 的 KV,以及 CSA/HCA 中還沒攢夠 4 個或 128 個 token、暫時無法壓縮的“尾料”。


另一塊是“經典緩存”,存已經壓縮好的條目。經典緩存里,每個塊覆蓋的原始 token 數是兩種壓縮比(4 和 128)的最小公倍數,這樣同一塊里 CSA 和 HCA 的壓縮結果都能對齊——CSA 產 32 個壓縮條目,HCA 產 1 個——不會因為兩種壓縮率不一致導致碎片化管理。這套緩存布局,是百萬上下文能從實驗室走進生產環(huán)境的關鍵工程基礎設施。


所以這套方案是壓縮、稀疏化、混合精度、滑動窗口、注意力沉降、精細緩存管理多管齊下。局部細節(jié)、中段關聯(lián)、全局脈絡,全抓住了,算力開銷斷崖式下降。

也就是說, 傳統(tǒng)注意力機制要求每個 token 和歷史上所有 token 都做一次交互,歷史多長,活兒就多沉。DeepSeek V4 做的,是把“記憶”本身先整理成層次化的摘要——有些是每一小段的凝練,有些是每一章的概括,再加上眼前幾句話的原文。需要調用哪一層、哪一段,由模型自己根據當前要解決的問題即場判斷。內存里不再存一座山,算力不用翻整座山,百萬上下文的成本自然下來了。

Muon 和 mHC:訓練上的降本增效

架構的聰明不止在推理側。報告用專門章節(jié)講了兩項訓練優(yōu)化。

一個是此前已經被放出來過的 Muon 優(yōu)化器。

大多數優(yōu)化器拿到梯度,一個參數一個參數地調。Muon 不這么干。它把整個梯度矩陣做一步“捋正”運算,讓各行更新方向相互獨立、不打架。效果就是每次更新都踩在最干凈的方向上,同樣步數學到更多,變相省算力。為了配合 Muon,分布式策略也改了:稠密參數限制切分,每個 GPU 最多管五個完整矩陣;MoE 參數直接拼成大向量等分,不切單個矩陣。梯度通信還做了 BF16 量化,砍掉一半通信量。

另一個是 mHC——流形約束超連接。

深層網絡的老大難是信號穿幾十層,要么逐層放大到溢出,要么衰減到消失。mHC 的解法是給殘差連接加個數學籠子——強制每層的混合矩陣滿足“每行每列和為 1,元素非負”。這保證了無論怎么傳,幅度不發(fā)散。

實現(xiàn)上,DeepSeek V4 拿到參數后,做 20 次交替的行歸一化和列歸一化,硬把矩陣拉回約束集合。報告承認萬億參數訓練遇到了損失尖峰,但用兩招解決了:“預判路由”打破路由和主網絡的同步更新循環(huán),“SwiGLU 截斷”把激活值鉗在 [-10,10]。

一如既往的,數學上很干凈,工程上訓練不崩。

后訓練更絕:分頭訓專才,再無損蒸餾

DeepSeek V4 的后訓練流程也很有想法,報告用第五章詳述了這套“先分后合”的工藝。

第一步,分別對代碼、數學、智能體、指令遵循等方向獨立訓練專家模型。每個專家都先做 SFT 打底,再用 GRPO 強化學習,配合領域專屬的獎勵模型。連獎勵模型本身也是生成式的——讓模型同時學會“判卷”和“答卷”,減少對人類標注的依賴。

報告中很有意思的一點是為不同推理模式設了三種檔位:Non-think(無思考標簽,快速回答)、Think High(顯式思維鏈但受控長度)、Think Max(極限思維模式,給特殊系統(tǒng)提示同時放寬長度懲罰)。三種模式在 RL 訓練時分別用不同的上下文窗口和懲罰系數,讓同一套權重能根據場景切推理深度。

第二步,用在策略蒸餾把所有專才的知識融合到一個統(tǒng)一模型里。關鍵是,他們做的不是 token 級近似,而是全詞表級別的反向 KL 散度——保持教師完整的 logit 分布。這帶來了巨大的計算壓力:詞表 128K,十多個老師,每個都是萬億參數級別。報告給出的解決路徑是:教師權重從中心化存儲按需加載;不存完整 logits,只緩最后一層隱藏狀態(tài),訓練時即時重算;按教師索引排序樣本,保證同一時刻 GPU 上只有一個教師頭。這些都是生產環(huán)境才會碰到的硬問題。

效果直接反映在基準上。Pro Max 在知識基準 SimpleQA 拿下 57.9,比開源最佳高出 20 個點;數學 Putnam 2025 做到 120/120 滿分;Codeforces 評分在人類選手中排第 23。這三個分屬不同類型的任務同時沖頂,背后的路線選擇是被驗證了的。


“細粒度通信-計算重疊”和昇騰“原生”

報告里另一個讓所有人都非常關注的事情,就是:它和華為昇騰到底是什么關系。

報告 3.1 節(jié)原文是:“我們在 NVIDIA GPU 和華為昇騰 NPU 兩個平臺上驗證了這個細粒度的專家并行方案?!眱蓚€平臺并列,寫在驗證結論里。


這套方案的核心是把 MoE 的通信和計算切成更細的顆粒,按“波”調度。每個波只含一小部分專家,這個波的通信一完成立刻開始計算,同一時刻,下一個波的通信和上一個波的結果回傳同步進行。報告里的加速比數據是:通用推理 1.50–1.73 倍,RL 長尾小批次最高 1.96 倍。


報告還給了硬件設計公式:每 GBps 通信帶寬對應 6.1 TFLOP/s 算力,通信就能被完全隱藏。這意味著 DeepSeek 在用架構告訴硬件廠商:不用卷帶寬,按這個比例配算力就行。這比適配某個具體型號高一個維度——是定義需求。昇騰 950 如果按這個配比來設計,跑 V4 就能把利用率拉到滿。

你可以這樣理解,MoE 每次計算都要在不同 GPU 之間搬運中間結果,以前是搬完才算,搬運時長全在等。現(xiàn)在是把搬運拆碎,搬一小批就算一小批,算的同時繼續(xù)搬下一批。結果就是搬運時間被計算時間吃掉了,用戶感覺不到等。這套機制不挑硬件,只要算力和帶寬的比例到位,NVIDIA 還是昇騰都能跑出高利用率。

報告也提到了用 TileLang 做算子開發(fā),配合 Z3 SMT 求解器自動驗證和優(yōu)化;同時要求訓練推理“批次不變”和“確定性”——同一個 token 無論和誰一批、在什么硬件上,輸出比特級一致。這對昇騰這種新硬件的調試和部署是基礎設施級的支持。

雖然開源 MegaMoE 內核還是 CUDA 版,主力訓練集群大概率仍是 NVIDIA,但架構上已經把適配昇騰的土壤翻松了、路鋪平了。

加上報告公開說 FP4 在未來硬件上還能再提效三分之一,以及官方文檔里那句“預計下半年昇騰 950 超節(jié)點批量上市后 Pro 價格大幅下調”,信號已經不能更明確了。

看完V4的報告,感觸它想得夠清楚。

過去兩年,行業(yè)解決長文本問題的主流思路本質上是在堆資源。要么堆顯存,把KV緩存硬塞進去;要么堆算力,讓芯片更快一點。這條路走到現(xiàn)在,邊際效益已經很明顯了。

DeepSeek V4換了一個完全不同的方向——不再追著“怎么能扛住”不放,而是問“這東西真的需要全記住嗎”。CSA和HCA本質上是讓模型在記憶的時候就有了層次感,細顆粒的、粗顆粒的、最近的原文,各存各的。這不再是工程上的妥協(xié),而是架構層面對“什么值得記住”這個問題的重新回答。思路一旦轉過來了,效率的提升就是數量級的。

而這套東西還有一個容易被低估的價值,就是它讓硬件的選擇權回到了算法這邊。

過去芯片決定模型能跑多長的上下文,帶寬不夠就不行。V4這套壓縮加波浪調度的方案出來后,算和搬的比例被一個公式定義清楚了。這意味著不是算法去適配硬件,而是算法在告訴硬件應該怎么設計。昇騰被寫進驗證平臺、FP4留出三分之一效率冗余,這些細節(jié)放在一起看,就知道它從一開始就沒打算綁定某一家。這種獨立性,在現(xiàn)在這個時間點,比性能本身更有分量。

V4的神就在這里。

它再次給大家提供了一個更聰明的選擇。

「不誘于譽,不恐于誹,率道而行,端然正己?!惯@是DeepSeek官方公告里的一句與其他內容都不同的話,這句話也幾乎是V4的特質,它讓人繼續(xù)對DeepSeek接下來的目標充滿期待。

點擊關注我哦

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國際原油短線跳水 抹去之前漲幅

國際原油短線跳水 抹去之前漲幅

財聯(lián)社
2026-04-24 19:12:06
太瘋狂!先暖似初夏,再冷回冬天?先沖擊31℃,接著跌至10℃….

太瘋狂!先暖似初夏,再冷回冬天?先沖擊31℃,接著跌至10℃….

浙江天氣
2026-04-24 17:33:05
美國女游客在印度民宿遭老板下藥,員工趁機性侵,被限制求救3天

美國女游客在印度民宿遭老板下藥,員工趁機性侵,被限制求救3天

小魚愛魚樂
2026-04-23 22:07:16
庫里跟國內品牌要3000萬美元才肯談判!被球迷嘲諷“商人”!

庫里跟國內品牌要3000萬美元才肯談判!被球迷嘲諷“商人”!

歷史第一人梅西
2026-04-23 21:12:04
一片沒買!高端芯片缺席中國市場,美商務部長:中國快研發(fā)出來了

一片沒買!高端芯片缺席中國市場,美商務部長:中國快研發(fā)出來了

林子說事
2026-04-23 12:56:34
吳法憲出獄后,安置在濟南,同時告訴他有四個安排

吳法憲出獄后,安置在濟南,同時告訴他有四個安排

歷史甄有趣
2026-04-24 07:25:10
先是海參崴,再是圖瓦和庫頁島,俄羅斯對中國,心態(tài)完全變了

先是海參崴,再是圖瓦和庫頁島,俄羅斯對中國,心態(tài)完全變了

觀察者小海風
2026-04-17 16:11:00
1999年張學良見到楊虎城孫子,態(tài)度冷淡,楊瀚:他對過去不堪回首

1999年張學良見到楊虎城孫子,態(tài)度冷淡,楊瀚:他對過去不堪回首

大運河時空
2026-04-23 20:00:03
賭狗的話能信嗎網友說早些年百度貼吧有個戒賭吧是最大的一個貼吧

賭狗的話能信嗎網友說早些年百度貼吧有個戒賭吧是最大的一個貼吧

侃神評故事
2026-04-22 17:25:03
國乒真拼了!梁靖崑出關瘦了一圈,王皓要兌現(xiàn)自己爭議用人的承諾

國乒真拼了!梁靖崑出關瘦了一圈,王皓要兌現(xiàn)自己爭議用人的承諾

三十年萊斯特城球迷
2026-04-23 23:40:15
90年代下崗潮楊成武將軍直言:讓下崗工人自生自滅,我心里不同意

90年代下崗潮楊成武將軍直言:讓下崗工人自生自滅,我心里不同意

明月清風閣
2026-04-23 11:40:14
外交部警告后!高市早苗怕了?派兩路人馬來京,盼和中方見一面

外交部警告后!高市早苗怕了?派兩路人馬來京,盼和中方見一面

離離言幾許
2026-04-24 23:24:13
袁罡任上海金山區(qū)委書記

袁罡任上海金山區(qū)委書記

澎湃新聞
2026-04-24 17:14:28
特朗普訪華倒計時,美方已經提出首個條件,希望中方不要見死不救

特朗普訪華倒計時,美方已經提出首個條件,希望中方不要見死不救

青途歷史
2026-04-24 20:51:02
騎士慘負猛龍被追到2-1:哈登18+8失誤雙里程碑 猛龍雙星66分

騎士慘負猛龍被追到2-1:哈登18+8失誤雙里程碑 猛龍雙星66分

醉臥浮生
2026-04-24 10:33:50
在醫(yī)院你遭遇過最羞恥的事是什么?網友:一個比一個炸裂啊

在醫(yī)院你遭遇過最羞恥的事是什么?網友:一個比一個炸裂啊

解讀熱點事件
2026-02-04 00:05:07
迪麗熱巴上學時無人追求,看到她早期照片,網友:這誰敢追啊

迪麗熱巴上學時無人追求,看到她早期照片,網友:這誰敢追啊

喬話
2026-04-22 20:36:30
張慶鵬:這個賽季滿懷希望到經歷各種困難 沒有完成北京球迷的希望

張慶鵬:這個賽季滿懷希望到經歷各種困難 沒有完成北京球迷的希望

狼叔評論
2026-04-24 22:40:09
啊!利拉德有望季后賽復出!NBA又將誕生醫(yī)學奇跡

啊!利拉德有望季后賽復出!NBA又將誕生醫(yī)學奇跡

籃球實戰(zhàn)寶典
2026-04-24 19:37:25
我在日本生活了15年,娶過三任妻子,日本女人大多數都很物質

我在日本生活了15年,娶過三任妻子,日本女人大多數都很物質

千秋文化
2026-04-22 20:21:49
2026-04-25 00:16:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
274文章數 38關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

航班提前起飛10分鐘 大學生把海航告了

頭條要聞

航班提前起飛10分鐘 大學生把海航告了

體育要聞

上海男籃23連勝+主場全勝 姚明之后最強一季

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

LG財閥內斗:百億美元商業(yè)帝國爭奪戰(zhàn)

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態(tài)度原創(chuàng)

時尚
家居
本地
數碼
手機

今日熱點:愛奇藝回應暫停頁面廣告爭議;經紀公司否認THEBOYZ解約成功……

家居要聞

自然肌理 溫潤美學

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統(tǒng)文化

數碼要聞

索尼英縱Buds“游戲豆”冰透紫耳機發(fā)售,首發(fā)價1079元

手機要聞

索尼Xperia 1 VIII新曝諜照,還有3.5mm耳機孔

無障礙瀏覽 進入關懷版