国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

R1一周年,DeepSeek Model 1悄然現(xiàn)身

0
分享至



編輯|Panda

2025 年 1 月 20 日,DeepSeek(深度求索)正式發(fā)布了 DeepSeek-R1 模型,并由此開啟了新的開源 LLM 時(shí)代。在 Hugging Face 剛剛發(fā)布的《「DeepSeek 時(shí)刻」一周年記》博客中,DeepSeek-R1 也是該平臺(tái)上獲贊最多的模型。



https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment

如今,剛過(guò)一年時(shí)間,DeepSeek 的新模型又在 GitHub 悄然現(xiàn)身。

這些天,DeepSeek 給其 FlashMLA 代碼庫(kù)推送了不少更新,而在這些更新中,一個(gè)名為Model1的模型引起了廣大網(wǎng)友的注意。



如下截圖所示,這個(gè)目前還很神秘的 Model1 不僅出現(xiàn)在了代碼與注釋中,甚至還有與 DeepSeek-V3.2 并駕齊驅(qū)的文件。









這也不禁讓網(wǎng)友們開始猜測(cè),這個(gè) Model1 很可能就是傳聞中 DeepSeek 即將在春節(jié)前后發(fā)布的新模型的代號(hào)。







我們也讓 Gemini 幫忙分析了 DeepSeek 的這些 Commit,讓其提取了其中的技術(shù)細(xì)節(jié),結(jié)果如下:

根據(jù) DeepSeek 在 2026 年 1 月提交的 flashmla 庫(kù)代碼變更,可以推斷出Model1 是 DeepSeek 下一代旗艦?zāi)P?DeepSeek-V4 的內(nèi)部開發(fā)代號(hào)或首個(gè)工程版本。以下是根據(jù)代碼 diff 提取的技術(shù)細(xì)節(jié)分析:

1. 核心架構(gòu):回歸 512 維標(biāo)準(zhǔn)

在 csrc/api/common.h 的 DISPATCH_HEAD_DIM 宏中,可以看到 head_dim 的分支處理:

  • V32 (DeepSeek-V3.2):繼續(xù)沿用 d_qk = 576 的配置。這是 DeepSeek-V3 引入的非對(duì)稱 MLA 設(shè)計(jì)(128 維 RoPE + 448 維 Latent)。
  • Model1:切換到了 512 維。這表明 DeepSeek-V4 在 MLA 架構(gòu)上進(jìn)行了「標(biāo)準(zhǔn)化」回歸,可能是為了更好地匹配 Blackwell (SM100) 架構(gòu)的算力對(duì)齊,或者優(yōu)化了 Latent 壓縮比例。

2. 全面支持 Blackwell (SM100) 架構(gòu)

代碼庫(kù)中出現(xiàn)了大量針對(duì) NVIDIA 下一代 Blackwell GPU 的專門優(yōu)化:

  • SM100 接口:api.cpp 中新增了 FMHACutlassSM100FwdRun。這直接指向了 Blackwell 架構(gòu)的核心指令集優(yōu)化。
  • CUDA 版本要求:README 提到在 B200 上運(yùn)行需要 CUDA 12.9。
  • 性能表現(xiàn):在 B200 上,目前尚未完全優(yōu)化的 Sparse MLA 算子已能達(dá)到 350 TFlops。而在 H800 (SM90a) 上,Dense MLA 的計(jì)算吞吐量高達(dá) 660 TFlops。

3. 引入「Token-level Sparse MLA」

這是 Model1 相比 V3 系列最顯著的算子演進(jìn):

  • Sparse & Dense 并行:測(cè)試腳本中出現(xiàn)了 test_flash_mla_sparse_decoding.py 和 test_flash_mla_dense_decoding.py。
  • FP8 KV Cache 混合精度:Sparse 算子使用 FP8 存儲(chǔ) KV Cache,但在計(jì)算矩陣乘法時(shí)使用 bfloat16 以保證精度。這說(shuō)明Model1 在極長(zhǎng)上下文場(chǎng)景下,會(huì)通過(guò)「稀疏化推理」來(lái)降低顯存壓力和提升速度

4. 新機(jī)制:Value Vector Position Awareness (VVPA) 與 Engram

雖然 diff 主要是算子層面的,但結(jié)合 DISPATCH_MODEL_TYPE 的邏輯和社區(qū)披露,Model1 引入了以下新特性:

  • VVPA(數(shù)值向量位置感知):這可能解決了傳統(tǒng) MLA 在長(zhǎng)文本下位置信息衰減的問(wèn)題。
  • Engram 機(jī)制:這被認(rèn)為是 DeepSeek 在分布式存儲(chǔ)或 KV 壓縮上的新突破,用于配合 Model1 的高吞吐需求

而 Gemini 之所以判斷 Model1 是 DeepSeek 下一代旗艦?zāi)P?DeepSeek-V4 的內(nèi)部開發(fā)代號(hào)或首個(gè)工程版本,是因?yàn)樗J(rèn)為在下面所示的代碼中,MODEL1 的定位是一個(gè)與 V32 并列且獨(dú)立的分支,「說(shuō)明它不是 V3 系列的補(bǔ)丁,而是一個(gè)采用了不同架構(gòu)參數(shù)的全新模型。按照 DeepSeek 的命名慣例,在 V3.2 之后的旗艦級(jí)架構(gòu)跨越,邏輯上即為 V4?!?/p>



對(duì)此,你怎么看,你覺(jué)得 Model1 就是傳說(shuō)中的 DeepSeek V4 嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
遭長(zhǎng)子開戰(zhàn)「貝克漢首露面發(fā)聲」! 吐無(wú)奈心聲:允許孩子們?nèi)シ稿e(cuò)

遭長(zhǎng)子開戰(zhàn)「貝克漢首露面發(fā)聲」! 吐無(wú)奈心聲:允許孩子們?nèi)シ稿e(cuò)

ETtoday星光云
2026-01-21 12:18:16
唐嫣在國(guó)外很豪放!穿連體衣下面不系扣,前后遮羞簾放飛自我太辣眼

唐嫣在國(guó)外很豪放!穿連體衣下面不系扣,前后遮羞簾放飛自我太辣眼

八星人
2026-01-21 09:21:27
除了毛岸英外,還有三位“高干子弟”入朝作戰(zhàn),他們結(jié)局如何?

除了毛岸英外,還有三位“高干子弟”入朝作戰(zhàn),他們結(jié)局如何?

興趣知識(shí)
2026-01-21 03:31:42
向府治喪!百名警員出動(dòng)現(xiàn)場(chǎng)戒備,向華強(qiáng)戴孝,陳嵐向佐沉重哀悼

向府治喪!百名警員出動(dòng)現(xiàn)場(chǎng)戒備,向華強(qiáng)戴孝,陳嵐向佐沉重哀悼

胡一舸南游y
2026-01-20 17:27:26
《鏢人》陳麗君“咬箭羽”火爆全網(wǎng),四代打星半個(gè)中國(guó)武打圈同框

《鏢人》陳麗君“咬箭羽”火爆全網(wǎng),四代打星半個(gè)中國(guó)武打圈同框

半糖甜而不膩
2026-01-20 12:30:02
一男生教室內(nèi)被同學(xué)持凳砸頭!官方通報(bào):被砸學(xué)生身體無(wú)礙已返校 打人學(xué)生已被勸退

一男生教室內(nèi)被同學(xué)持凳砸頭!官方通報(bào):被砸學(xué)生身體無(wú)礙已返校 打人學(xué)生已被勸退

閃電新聞
2026-01-20 11:57:22
美方通告全球:殲-20隱身戰(zhàn)斗機(jī)飛掠臺(tái)島,臺(tái)軍空防毫無(wú)反應(yīng)

美方通告全球:殲-20隱身戰(zhàn)斗機(jī)飛掠臺(tái)島,臺(tái)軍空防毫無(wú)反應(yīng)

梁訊
2026-01-21 09:49:32
“金杯車”生產(chǎn)商鑫源汽車發(fā)布新Logo,被指“撞臉小米”

“金杯車”生產(chǎn)商鑫源汽車發(fā)布新Logo,被指“撞臉小米”

IT之家
2026-01-21 13:17:26
最小紅軍向軒:7歲投身革命9歲長(zhǎng)征路,1955年授銜他獲封什么軍銜

最小紅軍向軒:7歲投身革命9歲長(zhǎng)征路,1955年授銜他獲封什么軍銜

磊子講史
2026-01-14 11:16:27
藥師提醒:銀杏葉片、血塞通、復(fù)方丹參片,心腦血管用藥別再選錯(cuò)

藥師提醒:銀杏葉片、血塞通、復(fù)方丹參片,心腦血管用藥別再選錯(cuò)

蜉蝣說(shuō)
2026-01-17 18:36:03
僅次于梅西,馬斯坦托諾是歐冠進(jìn)球第二年輕的阿根廷球員

僅次于梅西,馬斯坦托諾是歐冠進(jìn)球第二年輕的阿根廷球員

懂球帝
2026-01-21 06:09:56
“鄧超瘦成男大了”登熱搜,此前孫儷曾透露他腰圍小了10厘米

“鄧超瘦成男大了”登熱搜,此前孫儷曾透露他腰圍小了10厘米

紅星新聞
2026-01-19 17:57:29
日本隊(duì)瑟瑟發(fā)抖?國(guó)足已斬3個(gè)小組第1 韓媒罕見低頭:他們踢瘋了

日本隊(duì)瑟瑟發(fā)抖?國(guó)足已斬3個(gè)小組第1 韓媒罕見低頭:他們踢瘋了

風(fēng)過(guò)鄉(xiāng)
2026-01-21 09:18:30
誰(shuí)來(lái)賠?小米起火車主最擔(dān)心的就是賠償問(wèn)題

誰(shuí)來(lái)賠?小米起火車主最擔(dān)心的就是賠償問(wèn)題

映射生活的身影
2026-01-21 10:40:03
造成毛岸英犧牲的罪魁禍?zhǔn)祝屆飨春薜米锶?,他們下?chǎng)如何?

造成毛岸英犧牲的罪魁禍?zhǔn)祝屆飨春薜米锶?,他們下?chǎng)如何?

風(fēng)笛悠揚(yáng)聲
2025-12-04 10:08:06
深挖 | 戰(zhàn)越南,“強(qiáng)得可怕”的U23國(guó)足門神能繼續(xù)微笑嗎?

深挖 | 戰(zhàn)越南,“強(qiáng)得可怕”的U23國(guó)足門神能繼續(xù)微笑嗎?

新民周刊
2026-01-20 21:29:42
湖人激戰(zhàn)掘金!斯瑪特狂打鐵 蒂米驚艷 東契奇穩(wěn)定輸出

湖人激戰(zhàn)掘金!斯瑪特狂打鐵 蒂米驚艷 東契奇穩(wěn)定輸出

胖子噴球
2026-01-21 12:21:05
西班牙兩列高鐵撞了...道是新的,車是新的,莫名出問(wèn)題!專家:蹊蹺...

西班牙兩列高鐵撞了...道是新的,車是新的,莫名出問(wèn)題!專家:蹊蹺...

英國(guó)那些事兒
2026-01-20 23:34:46
一百多年前,康有為花費(fèi) 150 萬(wàn)在歐洲購(gòu)得一座島,時(shí)至今日,這座島的產(chǎn)權(quán)到底歸誰(shuí)所有?

一百多年前,康有為花費(fèi) 150 萬(wàn)在歐洲購(gòu)得一座島,時(shí)至今日,這座島的產(chǎn)權(quán)到底歸誰(shuí)所有?

源溯歷史
2026-01-02 18:50:36
狂轟55分!NBA歷史首人!這就是他能拿5年2.6億頂薪美金的原因

狂轟55分!NBA歷史首人!這就是他能拿5年2.6億頂薪美金的原因

籃球掃地僧
2026-01-20 17:49:31
2026-01-21 13:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12157文章數(shù) 142547關(guān)注度
往期回顧 全部

科技要聞

中芯國(guó)際等巨頭集體提價(jià),8英寸芯片最高漲20%

頭條要聞

特朗普:對(duì)美國(guó)的真正威脅是聯(lián)合國(guó)和北約

頭條要聞

特朗普:對(duì)美國(guó)的真正威脅是聯(lián)合國(guó)和北約

體育要聞

只會(huì)防守反擊?不好意思,我們要踢決賽了

娛樂(lè)要聞

李亞鵬2天獲1291萬(wàn)網(wǎng)友力挺

財(cái)經(jīng)要聞

消失的投資金 起底華文映像電影投資騙局

汽車要聞

新一代理想L9電池加碼體型加大 重奪高端話語(yǔ)權(quán)

態(tài)度原創(chuàng)

家居
游戲
教育
旅游
藝術(shù)

家居要聞

褪去浮華 觸達(dá)松弛與欣喜

200萬(wàn)起家、盛大力捧!這款仙俠網(wǎng)游換了4任運(yùn)營(yíng)商后又回來(lái)了!

教育要聞

英語(yǔ)背單詞:戳破自然拼讀的謊言,字母拼讀法不是死記硬背

旅游要聞

河南遂平:雪落成詩(shī) 邂逅浪漫冬日

藝術(shù)要聞

一百多年前的中國(guó),太雄偉震撼了!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版