国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek-V4:華為昇騰適配、性?xún)r(jià)比王者、最新底層技術(shù)

0
分享至


交付質(zhì)量接近 Opus 4.6 非思考模式,與思考模式存在一定差距。

作者丨梁丙鑒

編輯丨馬曉寧

越過(guò)數(shù)個(gè)發(fā)布窗口,4 月 24 日,DeepSeek 最新一代旗艦?zāi)P?DeepSeek-V4 終于正式發(fā)布。

此次發(fā)布的 DeepSeek-V4 主打百萬(wàn)字超長(zhǎng)上下文,在 Agent 能力、世界知識(shí)和推理性能上均表現(xiàn)亮眼。有意思的是,4 月 8 日凌晨 DeepSeek 悄然上線(xiàn)了專(zhuān)家模式和快速模式,外界一度猜測(cè)是 V4 的不同版本。這一猜測(cè)得到了官方確認(rèn),按參數(shù)量大小,V4 此次同步推出了 pro 及 flash 兩個(gè)版本。


相較于前代模型,V4 的 Agent 能力有了大幅提高。DeepSeek-V4-Pro 在 Agentic Coding 評(píng)測(cè)中,已達(dá)到當(dāng)前開(kāi)源模型最佳水平,且在其它 Agent 相關(guān)評(píng)測(cè)中同樣表現(xiàn)優(yōu)異。DeepSeek 內(nèi)部評(píng)測(cè)反饋顯示,DeepSeek-V4-Pro 使用體驗(yàn)優(yōu)于 Sonnet 4.5,交付質(zhì)量接近 Opus 4.6 非思考模式,但仍與 Opus 4.6 思考模式存在一定差距。

此外在 SimpleQA Verified、HLE 等知識(shí)推理類(lèi)基準(zhǔn)測(cè)試中,DeepSeek V4 的表現(xiàn)均居于前列,特別是在A(yíng)pexShortlist、Codeforces 兩項(xiàng)測(cè)試中分別以 90.2 和 3206 的成績(jī)登頂,表現(xiàn)出了頂級(jí)的推理性能和世界知識(shí)儲(chǔ)備。


價(jià)格方面,pro 版本和 flash 版本采取了階梯定價(jià)。更小更快的 flash 版本繼承了前代模型便宜大碗路線(xiàn)的,同時(shí) pro 版本的降價(jià)也被官方排上日程,預(yù)計(jì)會(huì)隨著今年下半年昇騰 950 超節(jié)點(diǎn)的批量上市實(shí)現(xiàn)大幅下調(diào)。


值得注意的是,DeepSeek-V4 針對(duì)昇騰等國(guó)產(chǎn)芯片進(jìn)行了深度適配,實(shí)現(xiàn)推理環(huán)節(jié)全面兼容,有傳聞稱(chēng)利用率可達(dá) 85% 以上。而據(jù)路透社報(bào)道,此前 DeepSeek 也拒絕向包括英偉達(dá)在內(nèi)的美國(guó)芯片制造商提供 V4 模型的早期訪(fǎng)問(wèn)權(quán)限。

在美國(guó)對(duì)華出臺(tái)高端 GPU 禁令、限制技術(shù)交流的背景下,DeepSeek 選擇以技術(shù)對(duì)等的姿態(tài)回應(yīng),和美方的脫鉤構(gòu)成了一種有趣的鏡像關(guān)系。而回到國(guó)內(nèi),DeepSeek-V4 的背書(shū)證明了國(guó)產(chǎn)芯片足以支持第一梯隊(duì)大模型的推理部署,開(kāi)始完成從“可用”到“好用”的跨越。同時(shí)被國(guó)產(chǎn)算力托住的 V4,也或可視為一個(gè)備戰(zhàn)“全華班模型生態(tài)”的起點(diǎn)。

01


架構(gòu)創(chuàng)新,破解模型推理“不可能三角”

DeepSeek-V4 的上下文窗口跨越式地來(lái)到了 100 萬(wàn) Token 大關(guān),并宣稱(chēng)這此后將是 DeepSeek 所有官方服務(wù)的標(biāo)配。

據(jù)官方技術(shù)文檔介紹,這種長(zhǎng)文本能力的成熟源于 DeepSeek 開(kāi)創(chuàng)的一種全新注意力機(jī)制,在 token 維度進(jìn)行壓縮,結(jié)合 DSA 稀疏注意力(DeepSeek Sparse Attention),此舉不僅實(shí)現(xiàn)了全球領(lǐng)先的長(zhǎng)上下文能力,并且相比于傳統(tǒng)方法大幅降低了對(duì)計(jì)算和顯存的需求。


DeepSeek 對(duì)長(zhǎng)文本能力的探索早有跡象。在 V4 遲遲沒(méi)有問(wèn)世的時(shí)間里,DeepSeek 低調(diào)發(fā)布的兩篇論文《mHC: Manifold-Constrained Hyper-Connections》,和兩周以后緊隨其后的《Engram: Conditional Memory via Scalable Lookup》,被外界視為其在長(zhǎng)文本方面的有力技術(shù)儲(chǔ)備。

在長(zhǎng)文本推理任務(wù)中,大模型長(zhǎng)期存在著成本、速度、精度的不可能三角,但 Engram 架構(gòu)提供了一種破局思路。該架構(gòu)包含一個(gè)靜態(tài)知識(shí)檢索模塊,和一個(gè)動(dòng)態(tài)推理協(xié)同模塊,前者通過(guò)哈希查找機(jī)制,將事實(shí)性知識(shí)存儲(chǔ)在廉價(jià)的 CPU 內(nèi)存中,節(jié)省了對(duì)推理尤其寶貴的 GPU 顯存,后者負(fù)責(zé)判斷檢索到的記憶是否應(yīng)該調(diào)用,并在必要時(shí)將其無(wú)縫融入推理過(guò)程。

這種設(shè)計(jì)的本質(zhì)是將模型的記憶和計(jì)算分離,通過(guò)對(duì)信息存儲(chǔ)進(jìn)行更精細(xì)的分層管理,使大模型能用上廉價(jià)、大容量的 CPU 內(nèi)容,并確保 GPU 顯存“好鋼用在刀刃上”,在其擅長(zhǎng)的動(dòng)態(tài)并行計(jì)算中發(fā)揮出更大價(jià)值,最終在降低計(jì)算成本的同時(shí)保證關(guān)鍵信息不會(huì)丟失。其結(jié)果是當(dāng) MoE 的“專(zhuān)家”們?cè)龠M(jìn)行推理時(shí),會(huì)像是配備了一位專(zhuān)門(mén)的助理,確保他們得到的信息及時(shí)、相關(guān)且準(zhǔn)確。

DeepSeek-V4 的另一項(xiàng)底層創(chuàng)新,是其在訓(xùn)練中使用 的 mHC(流形約束超連接)技術(shù)。

V4 的參數(shù)總量達(dá)到了 1.6T,這種超大規(guī)模的神經(jīng)網(wǎng)絡(luò)訓(xùn)練,本身就是一個(gè)富于挑戰(zhàn)的問(wèn)題。傳統(tǒng)的 Transformer 架構(gòu)中,信息會(huì)在層層傳遞中呈指數(shù)級(jí)放大,模型參數(shù)量越大、層數(shù)越深,這種“信號(hào)爆炸”越嚴(yán)重,最終可能導(dǎo)致梯度爆炸,訓(xùn)練崩潰。

mHC 技術(shù)正是為解決“信號(hào)爆炸”現(xiàn)象提出,其核心思想是用嚴(yán)格的幾何約束來(lái)控制信息流動(dòng),而不是放任自由連接。

這個(gè)防爆設(shè)計(jì)由三個(gè)環(huán)節(jié)組成。流形約束會(huì)把層間連接矩陣投影到雙隨機(jī)矩陣流形,強(qiáng)制規(guī)定每個(gè)節(jié)點(diǎn)的"輸入總和"和"輸出總和"必須守恒,具體的投影過(guò)程通過(guò) Sinkhorn-Knopp 算法執(zhí)行,兩者共同把信號(hào)增益嚴(yán)格限制在合理倍數(shù)。最后的多流殘差設(shè)計(jì)在擴(kuò)展殘差流寬度的同時(shí),通過(guò)非負(fù)約束避免信號(hào)相互抵消,既能增強(qiáng)模型表達(dá)能力,又兼顧了復(fù)雜度和穩(wěn)定性。

想象信息是一條奔騰的大河,多流殘差拓寬了河道,流形約束和 Sinkhorn-Knopp 算法就是一道道閘門(mén),三者的配合保證了大規(guī)模訓(xùn)練時(shí)的信息洪流不會(huì)引發(fā)梯度爆炸。

而 mHC 技術(shù)更深刻的意義在于,它和 MoE 架構(gòu)、Engram 架構(gòu)等技術(shù)共同為后 Scaling Law 時(shí)代的大模型擴(kuò)展提供了一種可能的范式,也就是在參數(shù)規(guī)模、數(shù)據(jù)量的傳統(tǒng)維度之外,轉(zhuǎn)向追求更高的連接、參數(shù)和記憶效率。區(qū)別于前者的暴力美學(xué),DeepSeek-V4 呈現(xiàn)了精致工程的魔力。

02


模型之爭(zhēng)的工程轉(zhuǎn)向

用流形約束防止信號(hào)爆炸的架構(gòu)理論創(chuàng)新得以落地,離不開(kāi)算子融合、選擇性重計(jì)算、通信重疊等工程手段。參數(shù)量和穩(wěn)定性之間的沖突曾經(jīng)是制約大模型繼續(xù)擴(kuò)展的根本矛盾,而 mHC 技術(shù)對(duì)此的突破,建立在頂級(jí)的工程優(yōu)化之上。

Engram 架構(gòu)也有著類(lèi)似的啟示。內(nèi)存訪(fǎng)問(wèn)如何精準(zhǔn)配合 GPU 的計(jì)算過(guò)程,多級(jí)緩存需要什么樣的精細(xì)管理……Engram 架構(gòu)在 V4 上落地伴隨的種種工程挑戰(zhàn),才是底層技術(shù)創(chuàng)新能否轉(zhuǎn)化為模型能力關(guān)鍵。

智能的使用應(yīng)有其邊界,記憶管理的精細(xì)程度直接影響模型性能,這一范式重新詮釋了對(duì)智能上限的追求。未來(lái)最聰明的模型,或許是最經(jīng)濟(jì)地界定了智能使用邊界的模型。

DeepSeek-V4 問(wèn)世之后,我們和應(yīng)用爆發(fā)之間的距離或許又近了一大步。

原生多模態(tài)架構(gòu)、百萬(wàn) Token 上下文窗口紛紛走向成熟,背后是代碼、法律和金融等場(chǎng)景的巨大想象空間。而 V4 所展現(xiàn)的頂級(jí)工程能力,和模型智能迭代逐漸放緩的背景合流,更便宜、可得的智能產(chǎn)品也會(huì)不斷涌現(xiàn)。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不玩游戲、偶像包袱重、前胸貼白鹿后背,《奔跑吧》他干嘛來(lái)了?

不玩游戲、偶像包袱重、前胸貼白鹿后背,《奔跑吧》他干嘛來(lái)了?

洲洲影視娛評(píng)
2026-04-25 14:24:44
兩位知名港星聲援馬蹄露!廣東雨神直播拉票,張敬軒必?cái)o(wú)疑

兩位知名港星聲援馬蹄露!廣東雨神直播拉票,張敬軒必?cái)o(wú)疑

涵豆說(shuō)娛
2026-04-25 12:07:14
張雪峰多位愛(ài)將離職,真相很殘忍

張雪峰多位愛(ài)將離職,真相很殘忍

新浪財(cái)經(jīng)
2026-04-24 19:11:55
澳洲折扣超市取代Coles, Woolies! 大批澳人瘋狂掃貨, 最高可省80%!

澳洲折扣超市取代Coles, Woolies! 大批澳人瘋狂掃貨, 最高可省80%!

澳微Daily
2026-04-25 15:42:43
辛納談阿卡退出法網(wǎng):安心養(yǎng)傷是明智之舉,期待溫網(wǎng)見(jiàn)到他

辛納談阿卡退出法網(wǎng):安心養(yǎng)傷是明智之舉,期待溫網(wǎng)見(jiàn)到他

懂球帝
2026-04-25 16:55:04
60分12板8助!大號(hào)文班真強(qiáng)啊!探花50+11+11一劍封喉1

60分12板8助!大號(hào)文班真強(qiáng)?。√交?0+11+11一劍封喉1

貴圈真亂
2026-04-25 13:54:25
燃?xì)夤旧祥T(mén)安檢,根本不是查漏氣!真正目的其實(shí)是這3個(gè)

燃?xì)夤旧祥T(mén)安檢,根本不是查漏氣!真正目的其實(shí)是這3個(gè)

匹夫來(lái)搞笑
2026-04-20 13:24:51
眼紅?。」べY到賬19380.52元,自稱(chēng)“長(zhǎng)沙教培牛馬”發(fā)帖刷爆網(wǎng)絡(luò)

眼紅?。」べY到賬19380.52元,自稱(chēng)“長(zhǎng)沙教培牛馬”發(fā)帖刷爆網(wǎng)絡(luò)

火山詩(shī)話(huà)
2026-04-24 07:35:54
全球最疲憊總統(tǒng)宣布退場(chǎng)

全球最疲憊總統(tǒng)宣布退場(chǎng)

劉瀾昌
2026-04-25 08:43:52
59歲鞏俐身材引熱議,外套都快撐不住豐腴身材了,卻被夸少女體態(tài)

59歲鞏俐身材引熱議,外套都快撐不住豐腴身材了,卻被夸少女體態(tài)

一盅情懷
2026-03-16 16:52:57
膽大包天!伊朗33艘快艇閃電突襲:美軍來(lái)不及出動(dòng),眼睜睜吃敗仗

膽大包天!伊朗33艘快艇閃電突襲:美軍來(lái)不及出動(dòng),眼睜睜吃敗仗

伴史緣
2026-04-25 14:02:08
昔日和王鈺棟齊名并稱(chēng)國(guó)少雙星 如今卻淪落中甲碌碌無(wú)為 5輪0進(jìn)球

昔日和王鈺棟齊名并稱(chēng)國(guó)少雙星 如今卻淪落中甲碌碌無(wú)為 5輪0進(jìn)球

零度眼看球
2026-04-25 08:54:32
我敢說(shuō),大部分會(huì)跟我一樣,選擇黑色衣服那個(gè)女孩!

我敢說(shuō),大部分會(huì)跟我一樣,選擇黑色衣服那個(gè)女孩!

草莓解說(shuō)體育
2026-04-12 17:05:01
巔峰之夜!亞冠決賽今晚打響:吉達(dá)vs町田 馬寧擔(dān)任第四官員

巔峰之夜!亞冠決賽今晚打響:吉達(dá)vs町田 馬寧擔(dān)任第四官員

新英體育
2026-04-25 09:09:10
近7場(chǎng)1勝 皇馬球迷貼面怒罵球員:不知羞恥 姆巴佩用帽遮臉+逃離

近7場(chǎng)1勝 皇馬球迷貼面怒罵球員:不知羞恥 姆巴佩用帽遮臉+逃離

我愛(ài)英超
2026-04-25 07:46:50
印度終于搶到化肥,卻被狠宰一刀!算清這筆賬,為何中國(guó)不慌?

印度終于搶到化肥,卻被狠宰一刀!算清這筆賬,為何中國(guó)不慌?

丁丁鯉史紀(jì)
2026-04-25 11:45:39
看完伊朗,再看中國(guó),盧卡申科做出一個(gè)神預(yù)測(cè),特朗普怕就是這個(gè)

看完伊朗,再看中國(guó),盧卡申科做出一個(gè)神預(yù)測(cè),特朗普怕就是這個(gè)

落梅如雪亂飛
2026-04-22 13:31:47
?;韬詈?jiǎn)牘的價(jià)值,為什么遠(yuǎn)高于他墓中的巨量黃金

?;韬詈?jiǎn)牘的價(jià)值,為什么遠(yuǎn)高于他墓中的巨量黃金

澎湃新聞
2026-04-21 08:08:40
徹底焊死了!

徹底焊死了!

安安說(shuō)
2026-04-25 11:52:50
C羅被媒體放出來(lái)的那份食譜太反科學(xué)!被認(rèn)為是在搞營(yíng)銷(xiāo)!

C羅被媒體放出來(lái)的那份食譜太反科學(xué)!被認(rèn)為是在搞營(yíng)銷(xiāo)!

歷史第一人梅西
2026-04-25 01:36:38
2026-04-25 18:35:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7222文章數(shù) 20749關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4發(fā)布!黃仁勛預(yù)言的"災(zāi)難"降臨

頭條要聞

伊朗最高領(lǐng)袖一條腿截肢面部嚴(yán)重?zé)齻?通信方式披露

頭條要聞

伊朗最高領(lǐng)袖一條腿截肢面部嚴(yán)重?zé)齻?通信方式披露

體育要聞

火箭0-3觸發(fā)百分百出局定律:本季加時(shí)賽9戰(zhàn)8敗

娛樂(lè)要聞

鄧超最大的幸運(yùn),就是遇見(jiàn)孫儷

財(cái)經(jīng)要聞

90%訂單消失,中東旺季沒(méi)了

汽車(chē)要聞

2026款樂(lè)道L90亮相北京車(chē)展 樂(lè)道L80正式官宣

態(tài)度原創(chuàng)

藝術(shù)
時(shí)尚
數(shù)碼
家居
軍事航空

藝術(shù)要聞

美國(guó)發(fā)現(xiàn)一部《十七帖》!這字還原真實(shí)的王羲之筆法,放大10倍仍無(wú)瑕疵

上新|| 入夏第一件短袖,買(mǎi)它!

數(shù)碼要聞

英偉達(dá)適配DeepSeek-V4 AI模型,開(kāi)箱性能超150 tokens/sec/user

家居要聞

自然肌理 溫潤(rùn)美學(xué)

軍事要聞

美防長(zhǎng):戰(zhàn)事不會(huì)“沒(méi)完沒(méi)了”

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版