国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

<samp id="sqwko"><kbd id="sqwko"></kbd></samp>

<table id="sqwko"><dl id="sqwko"></dl></table>

<samp id="sqwko"></samp>

<button id="ecise"></button>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

DeepSeek V4震撼發(fā)布！實現全球開源領先

2026-04-24 12:11:03　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：Aeneas 好困

【新智元導讀】讓全球從春節(jié)苦等到四月的DeepSeek V4，終于來了！

就在剛剛，DeepSeek V4真的來了！

今天，那個曾經以一己之力打破閉源模型霸權的DeepSeek，帶著DeepSeek-V4系列預覽版，向全球開發(fā)者正式宣告——

百萬級上下文（1M Context）的平民化時代，以及開源Agent能力、世界知識和推理性能上的新巔峰，已經到來。

DeepSeek V4，再度實現國內與開源領域的領先。

V4的技術報告，已經同步發(fā)布。

論文地址：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

DeepSeek-V4-Pro

性能比肩頂級閉源模型

DeepSeek-V4 系列包含兩個版本：擁有1.6T總參數、49B激活參數的性能怪獸DeepSeek-V4-Pro，以及專為高效率、經濟性設計的284B總參數、13B激活參數的DeepSeek-V4-Flash。

可以說，DeepSeek-V4-Pro已經達到了開源模型的新巔峰，對標全球頂尖閉源水準。

首先，V4-Pro在Agent能力上實現了跨越式突破，其Agentic Coding水平穩(wěn)居開源界首位。

實測反饋顯示，其編碼體驗已超越Sonnet 4.5，交付質量直追Opus 4.6（非思考模式），目前已成為公司內部Agent編程的首選模型。

其次，它具備深厚的世界知識儲備。

在知識測評維度，V4-Pro顯著領先同類開源產品，與閉源標桿Gemini-Pro-3.1的差距已縮減至極小范圍。

另外，它還有頂尖的邏輯推理表現。

在數學、STEM及高難度競賽代碼等硬核領域，V4-Pro的表現不僅冠絕開源社區(qū)，更具備了挑戰(zhàn)世界最強閉源模型的實戰(zhàn)競爭力。

支撐這兩個模型傲視群雄的，是其底層技術的「三大神技」：

混合注意力機制（CSA + HCA）

DeepSeek-V4 并沒有盲目增加硬件投入，而是開創(chuàng)性地設計了混合注意力架構。

壓縮稀疏注意力（CSA）對KV緩存進行token維度的壓縮并結合DSA稀疏注意力；重壓縮注意力（HCA）則進行更極致的壓縮以維持稠密計算。

這種「長短結合」的策略，讓模型在處理百萬字上下文時，計算量和顯存需求大幅降低。

流形約束超連接（mHC）

為了提升信號傳播的穩(wěn)定性并增強模型表達力，V4引入了mHC結構，升級了傳統(tǒng)的殘差連接。這讓模型在深層網絡中依然能保持卓越的建模能力。

Muon 優(yōu)化器

引入全新的Muon優(yōu)化器，讓訓練過程不僅收斂更快，且更加穩(wěn)定。

正是這些結構創(chuàng)新，讓DeepSeek-V4在推理效率上實現了質的飛躍。

在100萬token上下文的極端場景下，DeepSeek-V4-Pro的單token推理計算量僅為前代的 27%，KV緩存占用更是縮減到了驚人的10%。

DeepSeek-V4-Flash

極致效能與性價比的完美平衡

相比于Pro版本，Flash版則是更快捷高效的經濟之選。

盡管在世界知識的深度上略遜于Pro版本，但DeepSeek-V4-Flash保留了與之接近的邏輯推理水平。

受益于更精簡的參數規(guī)模與激活機制，它能為用戶提供響應更快、成本更低的API接入方案。

在處理基礎 Agent 任務時，V4-Flash的表現與Pro版不相上下，但在應對極端復雜任務時仍存在進階空間。

架構革新

重塑長上下文效率

DeepSeek-V4引入了革命性的注意力機制，通過在Token維度進行高效壓縮，并結合 DSA稀疏注意力（DeepSeek Sparse Attention）技術，實現了全球頂尖的長文本處理能力。

這種創(chuàng)新大幅削減了對計算資源與顯存的依賴。

即日起，1M（100萬 tokens）超長上下文將成為DeepSeek官方服務的標準配置。

DeepSeek-V4和DeepSeek-V3.2的計算量和顯存容量隨上下文長度的變化

Agent能力深度優(yōu)化

DeepSeek-V4 針對Claude Code、OpenClaw、OpenCode、CodeBuddy等主流 Agent生態(tài)進行了深度適配。

在代碼編寫與自動化文檔生成等場景下，其產出效率顯著提升。

V4-Pro在特定Agent框架下自動生成的PPT頁面實例

API全面升級，舊版模型倒計時

對于開發(fā)者而言，好消息是：API已經同步上線！

只需簡單修改 model_name 即可接入這兩款新旗艦：

追求性能：deepseek-v4-pro
追求效率：deepseek-v4-flash

特別提醒：原有的 deepseek-chat 和 deepseek-reasoner 模型名將作為V4的過渡別名（分別指向 V4-Flash 的非思考與思考模式），但這兩個舊名稱將于2026年7月24日正式停用。

論文解讀

兩種壓縮，一套組合拳

V4-Pro中，CSA的壓縮率為4，每4個token的KV緩存合并成一個條目。

壓縮之后再通過Lightning Indexer對壓縮后的KV條目打分，每個query token只選top-1024個條目做注意力計算。索引計算用FP4精度，超長上下文下開銷極低。

HCA走另一條路。壓縮率拉到128，比CSA激進得多，但不做稀疏選擇，所有壓縮后的KV條目都參與計算。極致壓縮換全局視野。

兩種機制交替堆疊，CSA精細檢索，HCA全局感知，再加上每層128 token的滑動窗口捕捉局部依賴，三條路徑協同。

算一筆賬。

以常規(guī)BF16 GQA8（頭維度128）作為基線，V4在100萬token下的KV緩存只有基線的約2%。KV條目還采用混合精度存儲，RoPE維度BF16，其余FP8，體積比純BF16再砍一半。

推理端則把壓縮KV和滑動窗口KV分開管理，支持磁盤級緩存存儲，避免共享前綴的重復prefill。

mHC，6.7%的代價換來的穩(wěn)定性

標準HC擴展殘差流寬度來增強信息傳遞，但多層堆疊時數值會炸。

mHC的做法是把殘差映射矩陣約束在雙隨機矩陣流形（Birkhoff多面體）上，確保譜范數不超過1，信號深層傳播不發(fā)散。投影通過Sinkhorn-Knopp算法迭代20次實現。

工程代價可控，擴展因子只有4，經過融合kernel和選擇性重計算優(yōu)化后，額外墻鐘時間僅6.7%。

訓練萬億參數的「土辦法」

Muon的核心是對梯度動量做Newton-Schulz正交化，V4用10次混合迭代，前8次快速收斂，后2次精確穩(wěn)定。

但優(yōu)化器只是一半的故事。V4報告披露了兩個訓練穩(wěn)定性技巧。

Anticipatory Routing，把路由索引的計算和主干網絡的更新解耦，用歷史參數提前算好路由并緩存。系統(tǒng)在檢測到loss spike時自動觸發(fā)，日常開銷可忽略。

SwiGLU Clamping，把SwiGLU線性分量鉗制在[-10, 10]，門控上界鉗制在10。簡單粗暴但有效。

MoE工程上，V4開源了MegaMoE，把通信和計算融合進單個pipeline kernel，通用場景加速1.5到1.73倍，延遲敏感場景最高1.96倍。

專家分訓，蒸餾合一

V4用On-Policy Distillation（OPD）替代了V3.2的混合RL。先獨立訓練數學、代碼、Agent等領域專家，再用一個學生模型對十幾個專家做全詞表logit蒸餾。

工程上的關鍵突破是，不緩存教師logits（顯存放不下），只緩存最后一層隱藏狀態(tài)，訓練時按需重建logits，用TileLang專用kernel加速KL散度計算。

V4還引入了Generative Reward Model（GRM），讓actor網絡同時充當獎勵模型，評判和生成能力聯合優(yōu)化，不再依賴傳統(tǒng)標量獎勵模型。

后訓練階段同步做了FP4量化感知訓練，對MoE專家權重和CSA索引器做FP4量化，且FP4到FP8反量化無損，整個流程復用現有FP8框架。

DeepSeek

再度證實開源的力量

從V3的橫空出世到V4的效率革命，DeepSeek始終堅持將最頂級的技術通過開源分享給社區(qū)。

DeepSeek-V4的上線，不僅是技術參數的跳躍，更是對「百萬長上下文」和「高性能 Agent」這兩大未來趨勢的有力回應。

它證明了通過架構創(chuàng)新，我們可以在不犧牲性能的前提下，極大降低大模型的門檻。

現在，你可以在官方App或chat.deepseek.com立即開啟1M上下文的全新體驗。

這不僅僅是一個對話框，這是一個能裝下整部百科全書、能理解萬行代碼邏輯的「第二大腦」。

參考資料：

https://huggingface.co/collections/deepseek-ai/deepseek-v4

https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

https://api-docs.deepseek.com/zh-cn/guides/thinking_mode

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

為什么這篇谷歌論文被稱為「Attention is all you need」V2

量子位 2025-12-21 15:15:36
26 跟貼 26
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0

AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0

DeepSeek V4來了：在喧嘩眾聲中，按自己的節(jié)奏講開源故事

DeepTech深科技 2026-04-24 13:06:46
0 跟貼 0
GPT-5.5發(fā)布：兩倍定價，半步進化

鈦媒體APP 2026-04-24 12:58:14
0 跟貼 0

狗子乖乖躺著讓雞治病

瀟湘晨報 2026-04-23 17:38:12
97 跟貼 97

歐盟批準向烏克蘭提供900億歐元貸款方案

新華社 2026-04-23 20:15:08
1470 跟貼 1470
它喊著防止追尾，卻又有意急剎，設計這個邏輯的公司真無敵了！

旅行指南者 2026-04-20 09:47:38
0 跟貼 0

性能真的不重要了嗎？Jeff Dean給出反常答案

新智元 2025-12-28 17:20:51
0 跟貼 0
天問三號任務計劃于2031年前后攜帶火星樣品返回地球

界面新聞 2026-04-24 09:46:31
1368 跟貼 1368
黎巴嫩再成戰(zhàn)場民眾：在這沒有人沒有失去過親近的人

新京報 2026-04-20 08:22:24
888 跟貼 888
12000w切割詳細參數

蕭祃記錄風土人情 2026-04-21 10:12:00
1 跟貼 1
#展開說# 北京車展人人卷參數別克至境E7上市“拼家庭”

速度計 2026-04-22 15:23:16
0 跟貼 0
71歲莫言現身杭州：我能想到最浪漫的事，就是在西湖邊買條船，當個有船有戶口的船夫

大象新聞 2026-04-24 00:45:08
272 跟貼 272
大車也能很靈活！百萬級駕控硬件加持，場地試駕智己LS8

汽車焦點 2026-04-23 17:00:02
0 跟貼 0
重磅官宣！水官高速4月25日24時起停止收費

南方都市報 2026-04-23 16:44:13
223 跟貼 223
“甘蔗運來我們都要！”廣東化州一糖廠主動收購蔗農滯銷果蔗，幾百輛貨車排隊兩三公里等候，廠里還派人為司機送三餐和水

極目新聞 2026-04-23 20:01:05
431 跟貼 431
特朗普用直升機送馬杜羅？尷尬邏輯引熱議

隱龍?zhí)煜耾 2026-04-23 06:43:03
0 跟貼 0
月薪1.6萬招放羊工老板：電話快被打爆了，更適合四五十歲的夫妻搭檔，一個人來的都拒絕了

環(huán)球網資訊 2026-04-24 14:55:55
3 跟貼 3
“烏龍法規(guī)”引發(fā)關注，央媒：“空氣法”荒唐劇映照形式主義積弊

澎湃新聞 2026-04-23 19:07:04
102 跟貼 102
“記者臥底桂林六日游低價團”后續(xù)：地接旅行社被罰30萬并停業(yè)整頓

極目新聞 2026-04-24 08:03:58
345 跟貼 345
【硬核拆解Claude Code】為什么Claude是最強 Agent？四層架構 + 記憶壓縮 +

盧菁老師 2026-04-20 11:08:43
0 跟貼 0
父親死后，我花六年找回他的語音

心事寄山海 2026-04-21 17:24:42
0 跟貼 0
老人1500元賣掉自家大狗，小孫女舍不得哭得撕心裂肺，狗販心軟不收了，只要求退回1300元，“那200塊就當補償小姑娘吧”

觀威海 2026-04-24 10:56:04
3 跟貼 3
全新問界M9硬件架構再升級，40顆傳感器為自動駕駛做準備？

Autolab 2026-04-22 17:13:00
0 跟貼 0
精度與性價比的跨國共鳴海外市場青睞56式半自動的實用邏輯

武器知識 2026-04-23 23:51:18
2 跟貼 2
AI上車，CEA架構落地大眾集團之夜連發(fā)大招

autocarweekly 2026-04-22 21:42:50
0 跟貼 0
峰谷電價將調整

無線徐州 2026-04-23 21:25:06
192 跟貼 192
淄博，新能源汽車一個半月3次剎車故障，車主：別管軟件硬件，反正剎不住車！

小溪辦事 2026-04-24 12:40:25
0 跟貼 0
140年的故事，奔馳重塑品牌敘事邏輯

只懂車 2026-04-24 01:03:58
0 跟貼 0
CJ稱贊庫明加：他擁有來自勇士的冠軍基因如今終于找到了歸宿

北青網-北京青年報 2026-04-24 13:56:03
36 跟貼 36
市場監(jiān)管總局：將對81家電商平臺自律承諾"回頭看"

央視新聞客戶端 2026-04-23 16:56:57
171 跟貼 171
從“聊天便宜”變成“Agent便宜”！DeepSeek-V4把大模型價格戰(zhàn)推入“Agent時代”

每日經濟新聞 2026-04-24 15:51:27
0 跟貼 0
外交部：歡迎各國共享中國式現代化帶來的發(fā)展紅利

新華社 2026-04-23 18:00:07
40 跟貼 40
否認降配！Claude Code 降智風波復盤：鍋在推理強度、緩存、提示詞

云頭條 2026-04-24 15:41:43
0 跟貼 0
寧德時代全矩陣電池技術煥新，重構新能源出行補能底層邏輯 6分鐘滿電！寧德時代超級科技日全矩陣電池上新

座駕 2026-04-23 11:15:26
1 跟貼 1
合資新能源終于等來滿配！別克至境 E7，不做參數黨，只做家用王

1號車盟 2026-04-22 20:56:48
1 跟貼 1
單Agent時代正式結束：一個干不過，就上300個-3

機器之心Pro 2026-04-22 00:08:00
0 跟貼 0
僅用64個token生成高清圖像，MacTok攻破連續(xù)分詞器后驗坍塌難題

機器之心Pro 2026-04-24 14:17:20
0 跟貼 0
特斯拉：以至多20億美元價格收購一家人工智能硬件公司

界面新聞 2026-04-23 18:36:57
0 跟貼 0

當不成總統(tǒng)了？美國四大前總統(tǒng)已聯手，打響扳倒特朗普的第一槍

當不成總統(tǒng)了？美國四大前總統(tǒng)已聯手，打響扳倒特朗普的第一槍

可樂愛微笑

2026-04-23 20:36:00

李小鵬14歲女兒近照曝光！顏值驚艷全網，網友：真是女大十八變

李小鵬14歲女兒近照曝光！顏值驚艷全網，網友：真是女大十八變

韓小娛

2026-04-22 17:42:19

后悔也來不及了，美商務部長：中方改變主意，美方想賣卻賣不出去

后悔也來不及了，美商務部長：中方改變主意，美方想賣卻賣不出去

小新的視界

2026-04-24 04:39:22

河南一縣，將獲5000萬元中央財政補助

河南一縣，將獲5000萬元中央財政補助

大象新聞

2026-04-24 12:53:09

民進黨，極有可能在下一屆臺灣地區(qū)選舉后，成為長期一家獨大政黨

民進黨，極有可能在下一屆臺灣地區(qū)選舉后，成為長期一家獨大政黨

李橑在北漂

2026-04-02 10:22:26

我終于看到了趙本山年輕時候的樣子了，真的好青澀呀！

我終于看到了趙本山年輕時候的樣子了，真的好青澀呀！

東方不敗然多多

2026-04-24 14:20:14

突發(fā)！世乒賽女團換人！溫瑞博還有機會嗎？

突發(fā)！世乒賽女團換人！溫瑞博還有機會嗎？

最愛乒乓球

2026-04-24 00:05:31

意甲單賽季點球大數據揭秘：國米只靠它拿1分，有球隊靠它保命

意甲單賽季點球大數據揭秘：國米只靠它拿1分，有球隊靠它保命

狗哥是一名內拉

2026-04-24 13:55:06

心梗是喝茶喝出來的？醫(yī)生：即使是鐵打的心臟，這幾種茶也要少喝

心梗是喝茶喝出來的？醫(yī)生：即使是鐵打的心臟，這幾種茶也要少喝

醫(yī)學原創(chuàng)故事會

2026-04-16 23:44:09

比哲凱賴什還水？阿森納砸了3.2億，卻養(yǎng)出一個“新卡爾斯特倫”

比哲凱賴什還水？阿森納砸了3.2億，卻養(yǎng)出一個“新卡爾斯特倫”

瀾歸序

2026-04-24 03:48:51

全球九成產能在日本，前2月中國一滴未買，若斷供，我們頂得住嗎

全球九成產能在日本，前2月中國一滴未買，若斷供，我們頂得住嗎

遠方風林

2026-04-22 11:56:20

萊斯特城兩連降跌入英甲！功勛主帥拉涅利也因內訌將離開羅馬

萊斯特城兩連降跌入英甲！功勛主帥拉涅利也因內訌將離開羅馬

仰臥撐FTUer

2026-04-24 14:38:03

最高可判死刑，奧巴馬結局已定？美國司法部介入，特朗普開始收網

最高可判死刑，奧巴馬結局已定？美國司法部介入，特朗普開始收網

娛樂圈的筆娛君

2026-04-24 15:03:59

28歲女孩好心收留19歲“弟弟”，卻被他殺害下身赤裸拋尸荒野

28歲女孩好心收留19歲“弟弟”，卻被他殺害下身赤裸拋尸荒野

三目觀史

2026-04-23 23:46:07

超級牛散，舉牌300295！曾押中“10倍股”朗姿股份

超級牛散，舉牌300295！曾押中“10倍股”朗姿股份

證券時報e公司

2026-04-24 14:33:22

不裝了？馬斯克罕見承認：美國是第一，但第二到第十全都來自中國

不裝了？馬斯克罕見承認：美國是第一，但第二到第十全都來自中國

大衛(wèi)聊科技

2026-04-23 12:13:36

華誼虧損超82億，不放棄事業(yè)不整容的羅海瓊，才是最清醒的老板娘

華誼虧損超82億，不放棄事業(yè)不整容的羅海瓊，才是最清醒的老板娘

一盅情懷

2026-04-18 08:08:54

靠，出事了！光刻膠第一真龍，獲高盛、巴克萊、瑞銀聯手掃貨？

靠，出事了！光刻膠第一真龍，獲高盛、巴克萊、瑞銀聯手掃貨？

財報翻譯官

2026-04-24 08:51:38

專項捕撈行動開啟，網友疑惑：內河的羅非魚為啥不能吃？醫(yī)生提醒

專項捕撈行動開啟，網友疑惑：內河的羅非魚為啥不能吃？醫(yī)生提醒

福建第一幫幫團

2026-04-23 19:05:50

朝鮮名將方虎山，不聽勸將3000日俘踹下冰河，他說：我愿背上罵名

朝鮮名將方虎山，不聽勸將3000日俘踹下冰河，他說：我愿背上罵名

朝子亥

2026-04-23 19:25:03

AI產業(yè)主平臺領航智能+時代

15053文章數 66798關注度

往期回顧全部

科技要聞

DeepSeek V4牽手華為，價格依然"屠夫級"

頭條要聞

女子買二手奔馳里程數偏差20萬公里看到事故記錄崩潰

頭條要聞

女子買二手奔馳里程數偏差20萬公里看到事故記錄崩潰

體育要聞

里程碑之戰(zhàn)拖后腿，哈登18分8失誤

娛樂要聞

停工16個月！趙露思證實接拍新劇

財經要聞

19家企業(yè)要"鋁代銅"，格力偏不

汽車要聞

YU7 GT 5 月上市！小米Vision GT概念車國內首秀

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

藝術

親子

數碼

公開課

Fami通銷量榜：《識質存在》3.6萬被第一十倍吊打！

藝術要聞

16幅佐恩高清油畫 | 瑞典著名畫家

親子要聞

女子因遲遲沒懷孕被懷疑身體有問題，女子直接去醫(yī)院檢查自證清白

數碼要聞

DeepSeek：預計下半年昇騰950超節(jié)點批量上市后 V4-Pro模型價格會大幅下調

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<button id="ecacm"></button>

<code id="ecacm"><dl id="ecacm"></dl></code><table id="ecacm"><dl id="ecacm"></dl></table>