国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek-V4:華為昇騰適配、性價(jià)比王者、最新底層技術(shù)

0
分享至


交付質(zhì)量接近 Opus 4.6 非思考模式,與思考模式存在一定差距。

作者丨梁丙鑒

編輯丨馬曉寧

越過數(shù)個(gè)發(fā)布窗口,4 月 24 日,DeepSeek 最新一代旗艦?zāi)P?DeepSeek-V4 終于正式發(fā)布。

此次發(fā)布的 DeepSeek-V4 主打百萬(wàn)字超長(zhǎng)上下文,在 Agent 能力、世界知識(shí)和推理性能上均表現(xiàn)亮眼。有意思的是,4 月 8 日凌晨 DeepSeek 悄然上線了專家模式和快速模式,外界一度猜測(cè)是 V4 的不同版本。這一猜測(cè)得到了官方確認(rèn),按參數(shù)量大小,V4 此次同步推出了 pro 及 flash 兩個(gè)版本。


相較于前代模型,V4 的 Agent 能力有了大幅提高。DeepSeek-V4-Pro 在 Agentic Coding 評(píng)測(cè)中,已達(dá)到當(dāng)前開源模型最佳水平,且在其它 Agent 相關(guān)評(píng)測(cè)中同樣表現(xiàn)優(yōu)異。DeepSeek 內(nèi)部評(píng)測(cè)反饋顯示,DeepSeek-V4-Pro 使用體驗(yàn)優(yōu)于 Sonnet 4.5,交付質(zhì)量接近 Opus 4.6 非思考模式,但仍與 Opus 4.6 思考模式存在一定差距。

此外在 SimpleQA Verified、HLE 等知識(shí)推理類基準(zhǔn)測(cè)試中,DeepSeek V4 的表現(xiàn)均居于前列,特別是在ApexShortlist、Codeforces 兩項(xiàng)測(cè)試中分別以 90.2 和 3206 的成績(jī)登頂,表現(xiàn)出了頂級(jí)的推理性能和世界知識(shí)儲(chǔ)備。


價(jià)格方面,pro 版本和 flash 版本采取了階梯定價(jià)。更小更快的 flash 版本繼承了前代模型便宜大碗路線的,同時(shí) pro 版本的降價(jià)也被官方排上日程,預(yù)計(jì)會(huì)隨著今年下半年昇騰 950 超節(jié)點(diǎn)的批量上市實(shí)現(xiàn)大幅下調(diào)。


值得注意的是,DeepSeek-V4 針對(duì)昇騰等國(guó)產(chǎn)芯片進(jìn)行了深度適配,實(shí)現(xiàn)推理環(huán)節(jié)全面兼容,有傳聞稱利用率可達(dá) 85% 以上。而據(jù)路透社報(bào)道,此前 DeepSeek 也拒絕向包括英偉達(dá)在內(nèi)的美國(guó)芯片制造商提供 V4 模型的早期訪問權(quán)限。

在美國(guó)對(duì)華出臺(tái)高端 GPU 禁令、限制技術(shù)交流的背景下,DeepSeek 選擇以技術(shù)對(duì)等的姿態(tài)回應(yīng),和美方的脫鉤構(gòu)成了一種有趣的鏡像關(guān)系。而回到國(guó)內(nèi),DeepSeek-V4 的背書證明了國(guó)產(chǎn)芯片足以支持第一梯隊(duì)大模型的推理部署,開始完成從“可用”到“好用”的跨越。同時(shí)被國(guó)產(chǎn)算力托住的 V4,也或可視為一個(gè)備戰(zhàn)“全華班模型生態(tài)”的起點(diǎn)。

01


架構(gòu)創(chuàng)新,破解模型推理“不可能三角”

DeepSeek-V4 的上下文窗口跨越式地來(lái)到了 100 萬(wàn) Token 大關(guān),并宣稱這此后將是 DeepSeek 所有官方服務(wù)的標(biāo)配。

據(jù)官方技術(shù)文檔介紹,這種長(zhǎng)文本能力的成熟源于 DeepSeek 開創(chuàng)的一種全新注意力機(jī)制,在 token 維度進(jìn)行壓縮,結(jié)合 DSA 稀疏注意力(DeepSeek Sparse Attention),此舉不僅實(shí)現(xiàn)了全球領(lǐng)先的長(zhǎng)上下文能力,并且相比于傳統(tǒng)方法大幅降低了對(duì)計(jì)算和顯存的需求。


DeepSeek 對(duì)長(zhǎng)文本能力的探索早有跡象。在 V4 遲遲沒有問世的時(shí)間里,DeepSeek 低調(diào)發(fā)布的兩篇論文《mHC: Manifold-Constrained Hyper-Connections》,和兩周以后緊隨其后的《Engram: Conditional Memory via Scalable Lookup》,被外界視為其在長(zhǎng)文本方面的有力技術(shù)儲(chǔ)備。

在長(zhǎng)文本推理任務(wù)中,大模型長(zhǎng)期存在著成本、速度、精度的不可能三角,但 Engram 架構(gòu)提供了一種破局思路。該架構(gòu)包含一個(gè)靜態(tài)知識(shí)檢索模塊,和一個(gè)動(dòng)態(tài)推理協(xié)同模塊,前者通過哈希查找機(jī)制,將事實(shí)性知識(shí)存儲(chǔ)在廉價(jià)的 CPU 內(nèi)存中,節(jié)省了對(duì)推理尤其寶貴的 GPU 顯存,后者負(fù)責(zé)判斷檢索到的記憶是否應(yīng)該調(diào)用,并在必要時(shí)將其無(wú)縫融入推理過程。

這種設(shè)計(jì)的本質(zhì)是將模型的記憶和計(jì)算分離,通過對(duì)信息存儲(chǔ)進(jìn)行更精細(xì)的分層管理,使大模型能用上廉價(jià)、大容量的 CPU 內(nèi)容,并確保 GPU 顯存“好鋼用在刀刃上”,在其擅長(zhǎng)的動(dòng)態(tài)并行計(jì)算中發(fā)揮出更大價(jià)值,最終在降低計(jì)算成本的同時(shí)保證關(guān)鍵信息不會(huì)丟失。其結(jié)果是當(dāng) MoE 的“專家”們?cè)龠M(jìn)行推理時(shí),會(huì)像是配備了一位專門的助理,確保他們得到的信息及時(shí)、相關(guān)且準(zhǔn)確。

DeepSeek-V4 的另一項(xiàng)底層創(chuàng)新,是其在訓(xùn)練中使用 的 mHC(流形約束超連接)技術(shù)。

V4 的參數(shù)總量達(dá)到了 1.6T,這種超大規(guī)模的神經(jīng)網(wǎng)絡(luò)訓(xùn)練,本身就是一個(gè)富于挑戰(zhàn)的問題。傳統(tǒng)的 Transformer 架構(gòu)中,信息會(huì)在層層傳遞中呈指數(shù)級(jí)放大,模型參數(shù)量越大、層數(shù)越深,這種“信號(hào)爆炸”越嚴(yán)重,最終可能導(dǎo)致梯度爆炸,訓(xùn)練崩潰。

mHC 技術(shù)正是為解決“信號(hào)爆炸”現(xiàn)象提出,其核心思想是用嚴(yán)格的幾何約束來(lái)控制信息流動(dòng),而不是放任自由連接。

這個(gè)防爆設(shè)計(jì)由三個(gè)環(huán)節(jié)組成。流形約束會(huì)把層間連接矩陣投影到雙隨機(jī)矩陣流形,強(qiáng)制規(guī)定每個(gè)節(jié)點(diǎn)的"輸入總和"和"輸出總和"必須守恒,具體的投影過程通過 Sinkhorn-Knopp 算法執(zhí)行,兩者共同把信號(hào)增益嚴(yán)格限制在合理倍數(shù)。最后的多流殘差設(shè)計(jì)在擴(kuò)展殘差流寬度的同時(shí),通過非負(fù)約束避免信號(hào)相互抵消,既能增強(qiáng)模型表達(dá)能力,又兼顧了復(fù)雜度和穩(wěn)定性。

想象信息是一條奔騰的大河,多流殘差拓寬了河道,流形約束和 Sinkhorn-Knopp 算法就是一道道閘門,三者的配合保證了大規(guī)模訓(xùn)練時(shí)的信息洪流不會(huì)引發(fā)梯度爆炸。

而 mHC 技術(shù)更深刻的意義在于,它和 MoE 架構(gòu)、Engram 架構(gòu)等技術(shù)共同為后 Scaling Law 時(shí)代的大模型擴(kuò)展提供了一種可能的范式,也就是在參數(shù)規(guī)模、數(shù)據(jù)量的傳統(tǒng)維度之外,轉(zhuǎn)向追求更高的連接、參數(shù)和記憶效率。區(qū)別于前者的暴力美學(xué),DeepSeek-V4 呈現(xiàn)了精致工程的魔力。

02


模型之爭(zhēng)的工程轉(zhuǎn)向

用流形約束防止信號(hào)爆炸的架構(gòu)理論創(chuàng)新得以落地,離不開算子融合、選擇性重計(jì)算、通信重疊等工程手段。參數(shù)量和穩(wěn)定性之間的沖突曾經(jīng)是制約大模型繼續(xù)擴(kuò)展的根本矛盾,而 mHC 技術(shù)對(duì)此的突破,建立在頂級(jí)的工程優(yōu)化之上。

Engram 架構(gòu)也有著類似的啟示。內(nèi)存訪問如何精準(zhǔn)配合 GPU 的計(jì)算過程,多級(jí)緩存需要什么樣的精細(xì)管理……Engram 架構(gòu)在 V4 上落地伴隨的種種工程挑戰(zhàn),才是底層技術(shù)創(chuàng)新能否轉(zhuǎn)化為模型能力關(guān)鍵。

智能的使用應(yīng)有其邊界,記憶管理的精細(xì)程度直接影響模型性能,這一范式重新詮釋了對(duì)智能上限的追求。未來(lái)最聰明的模型,或許是最經(jīng)濟(jì)地界定了智能使用邊界的模型。

DeepSeek-V4 問世之后,我們和應(yīng)用爆發(fā)之間的距離或許又近了一大步。

原生多模態(tài)架構(gòu)、百萬(wàn) Token 上下文窗口紛紛走向成熟,背后是代碼、法律和金融等場(chǎng)景的巨大想象空間。而 V4 所展現(xiàn)的頂級(jí)工程能力,和模型智能迭代逐漸放緩的背景合流,更便宜、可得的智能產(chǎn)品也會(huì)不斷涌現(xiàn)。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
4.25日早評(píng)|重磅公布!美伊又要談判!A股炸了!

4.25日早評(píng)|重磅公布!美伊又要談判!A股炸了!

龍行天下虎
2026-04-25 10:50:29
首個(gè)石油儲(chǔ)備完全枯竭國(guó)家出現(xiàn),比菲律賓慘,還有三個(gè)國(guó)家很危險(xiǎn)

首個(gè)石油儲(chǔ)備完全枯竭國(guó)家出現(xiàn),比菲律賓慘,還有三個(gè)國(guó)家很危險(xiǎn)

混沌錄
2026-04-24 21:02:11
民進(jìn)黨,極有可能在下一屆臺(tái)灣地區(qū)選舉后,成為長(zhǎng)期一家獨(dú)大政黨

民進(jìn)黨,極有可能在下一屆臺(tái)灣地區(qū)選舉后,成為長(zhǎng)期一家獨(dú)大政黨

李橑在北漂
2026-04-02 10:22:26
鐵木真的困境:政權(quán)不穩(wěn),子嗣不豐,除了傳位給窩闊臺(tái),別無(wú)選擇

鐵木真的困境:政權(quán)不穩(wěn),子嗣不豐,除了傳位給窩闊臺(tái),別無(wú)選擇

鶴羽說個(gè)事
2026-04-24 23:03:37
私人賬戶收款要小心,2026監(jiān)管新規(guī),普通人必看

私人賬戶收款要小心,2026監(jiān)管新規(guī),普通人必看

芳姐侃社會(huì)
2026-04-24 22:40:35
趙一曼犧牲前有多痛苦?據(jù)日軍晚年回憶:嘶吼是從骨血中發(fā)出來(lái)的

趙一曼犧牲前有多痛苦?據(jù)日軍晚年回憶:嘶吼是從骨血中發(fā)出來(lái)的

歷史人文2
2026-04-21 18:03:23
殷桃現(xiàn)在是圓潤(rùn)富足,不懂的建議去養(yǎng)奶牛

殷桃現(xiàn)在是圓潤(rùn)富足,不懂的建議去養(yǎng)奶牛

飛娛日記
2026-04-25 10:21:38
炸鍋!全國(guó)充電樁集體漲價(jià)!每度電狂漲,電車省錢神話徹底破滅?

炸鍋!全國(guó)充電樁集體漲價(jià)!每度電狂漲,電車省錢神話徹底破滅?

藍(lán)色海邊
2026-04-24 08:08:58
穆杰塔巴的傷比外界想象的要嚴(yán)重,但他一招破了美以的終極殺局

穆杰塔巴的傷比外界想象的要嚴(yán)重,但他一招破了美以的終極殺局

心靈得以滋養(yǎng)
2026-04-25 12:59:47
美伊談判,最新消息

美伊談判,最新消息

魯中晨報(bào)
2026-04-25 07:36:08
抗美援朝時(shí),韓國(guó)上將得知志愿軍將領(lǐng)為自己老上級(jí),連夜率部離開

抗美援朝時(shí),韓國(guó)上將得知志愿軍將領(lǐng)為自己老上級(jí),連夜率部離開

云霄紀(jì)史觀
2026-04-24 15:13:45
秦皇島大姐逃單偷狗后續(xù):正臉曝光,被人認(rèn)出已社死,攤主不和解

秦皇島大姐逃單偷狗后續(xù):正臉曝光,被人認(rèn)出已社死,攤主不和解

奇思妙想草葉君
2026-04-24 11:33:43
特斯拉客服回應(yīng)“FSD將于5月1日在中國(guó)上線”:不實(shí)

特斯拉客服回應(yīng)“FSD將于5月1日在中國(guó)上線”:不實(shí)

IT之家
2026-04-25 11:29:10
成都一小區(qū)深夜遭遇火災(zāi)突襲 造成嚴(yán)重傷亡 讓人揪心

成都一小區(qū)深夜遭遇火災(zāi)突襲 造成嚴(yán)重傷亡 讓人揪心

周道社會(huì)百態(tài)
2026-04-25 12:58:29
52歲樸樹近況:無(wú)兒無(wú)女,沒錢沒房,成了要錢不要命的“瘋子”

52歲樸樹近況:無(wú)兒無(wú)女,沒錢沒房,成了要錢不要命的“瘋子”

流云隨風(fēng)去遠(yuǎn)方
2026-04-14 12:22:59
48歲中國(guó)羽協(xié)主席被查!網(wǎng)友:何濟(jì)霆如愿,劉國(guó)梁李永波平安落地

48歲中國(guó)羽協(xié)主席被查!網(wǎng)友:何濟(jì)霆如愿,劉國(guó)梁李永波平安落地

阿器談史
2026-04-25 13:06:11
胡奇才執(zhí)意不去第四縱隊(duì)上任,陳云:“那你知道司令員是誰(shuí)嗎?”

胡奇才執(zhí)意不去第四縱隊(duì)上任,陳云:“那你知道司令員是誰(shuí)嗎?”

鑒史錄
2026-04-25 08:49:04
播放量破5億,孫楊和張豆豆這一吵,讓芒果這檔新綜藝徹底封神了

播放量破5億,孫楊和張豆豆這一吵,讓芒果這檔新綜藝徹底封神了

糊咖娛樂
2026-04-24 11:47:38
小米粥再次被關(guān)注!醫(yī)生發(fā)現(xiàn):糖尿病患者喝小米粥時(shí)要重視這6點(diǎn)

小米粥再次被關(guān)注!醫(yī)生發(fā)現(xiàn):糖尿病患者喝小米粥時(shí)要重視這6點(diǎn)

芹姐說生活
2026-04-25 12:32:30
20余萬(wàn)元尚未解救被困緬甸園區(qū)女孩,同園區(qū)逃生者講述驚魂一刻

20余萬(wàn)元尚未解救被困緬甸園區(qū)女孩,同園區(qū)逃生者講述驚魂一刻

界面新聞
2026-04-24 13:05:29
2026-04-25 14:00:49
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7219文章數(shù) 20749關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4發(fā)布!黃仁勛預(yù)言的"災(zāi)難"降臨

頭條要聞

美能源出口創(chuàng)新高 二戰(zhàn)以來(lái)首次接近成為原油凈出口國(guó)

頭條要聞

美能源出口創(chuàng)新高 二戰(zhàn)以來(lái)首次接近成為原油凈出口國(guó)

體育要聞

火箭0-3觸發(fā)百分百出局定律:本季加時(shí)賽9戰(zhàn)8敗

娛樂要聞

鄧超最大的幸運(yùn),就是遇見孫儷

財(cái)經(jīng)要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態(tài)度原創(chuàng)

房產(chǎn)
時(shí)尚
手機(jī)
本地
家居

房產(chǎn)要聞

新一輪教育大爆發(fā)來(lái)了!海口,開始瘋狂建學(xué)校!

火了30年的off-duty,不費(fèi)力,才是真本事

手機(jī)要聞

vivo X300 FE真機(jī)現(xiàn)身,蔡司加持,售價(jià)大亮

本地新聞

云游中國(guó)|逛世界風(fēng)箏都 留學(xué)生探秘中國(guó)傳統(tǒng)文化

家居要聞

自然肌理 溫潤(rùn)美學(xué)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版