国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

沒想到!DeepSeek V4里,竟還藏著一個中國萬億開源模型

0
分享至


新智元報道

編輯:好困

【新智元導(dǎo)讀】DeepSeek V4,1.6萬億參數(shù),Codeforces人類第23,KV緩存砍到1/10。同一周Kimi K2.6萬億MoE開源,也在推國產(chǎn)芯片混合推理。中國AI的底座和芯片,同時動了。

DeepSeek V4,炸了!

1.6萬億參數(shù),百萬token上下文KV緩存砍到前代的十分之一,Codeforces評分3206直接超過GPT-5.4,在人類選手中排第23。

開源權(quán)重、API、近60頁技術(shù)報告一起扔出來,社區(qū)已經(jīng)開始拆了。



但我們翻完技術(shù)報告準(zhǔn)備收工的時候,突然反應(yīng)過來一件事。

這周一,Kimi K2.6剛剛開源。萬億參數(shù)MoE模型,支持300個子Agent協(xié)同,OpenRouter調(diào)用量直接沖到全球第一。


等等。

同一周,兩個萬億參數(shù)中國開源模型先后落地?真的不是約好的嗎?

頂尖玩家總在同一個山口相遇

回看過去15個月,DeepSeek和Kimi的瞄準(zhǔn)的技術(shù)方向和發(fā)布時機,對齊到讓人懷疑是約好的。

2025年1月,DeepSeek-R1推理模型和Kimi K1.5多模態(tài)思考模型同日上線,相隔僅兩小時。OpenAI 的Paper 也指出他們兩家是最早復(fù)現(xiàn)o1思維鏈的團隊。

2025年2月,兩家前后腳發(fā)論文,都在改造Transformer注意力機制。DeepSeek的NSA做原生稀疏注意力,Kimi的MoBA做混合塊注意力,

2025年4月,Kimi推出 Kimina-Prover Preview數(shù)學(xué)推理專項模型沒多久,DeepSeek-Prover-V2 也發(fā)布,都走了「自驗證」路線來證明數(shù)學(xué)定理。

2026年初,DeepSeek用mHC流形約束超連接來改造深度學(xué)習(xí)網(wǎng)絡(luò)中的「殘差連接」。到了3月,Kimi放出新技術(shù)「注意力殘差」,直接將Transformer的核心原理「注意力」應(yīng)用到「殘差連接」上,引發(fā)Karpathy、馬斯克等大神稱贊。

2026年4月,萬億開源模型 Kimi K2.6和DeepSeek V4同周上線。

你用我驗過的注意力機制

我用你驗過的優(yōu)化器

多次「相遇」的表面之下,是一個更微妙的現(xiàn)象,兩家公司的技術(shù)在互相加持。

Kimi K2的注意力機制采用了DeepSeek首創(chuàng)的MLA(Multi-head Latent Attention)。

傳統(tǒng)多頭注意力需要為每個注意力頭單獨存儲Key和Value,上下文越長KV緩存越大。

MLA的做法是把Q/K/V壓縮到一個低秩的latent向量中,推理時只需緩存這個壓縮向量再解壓,KV緩存量大幅縮減。

在這套注意力機制上,K2擴展到了萬億參數(shù)的MoE模型。


反過來,DeepSeek V4采用了Muon優(yōu)化器。

主流的AdamW對每個參數(shù)獨立做自適應(yīng)縮放,Muon則對整個梯度矩陣做Newton-Schulz正交化,讓更新方向在矩陣空間中更均勻。

Muon最初由Keller Jordan等人提出,但只在小模型上驗證過。

2025年初,Kimi團隊的Moonlight論文中首次把Muon擴展到大規(guī)模訓(xùn)練,實驗顯示相同算力下Muon的計算效率約為AdamW的兩倍。

2025年中,在萬一參數(shù)的K2模型上,進一步開發(fā)出MuonClip,加入QK-clip來控制注意力logits的數(shù)值范圍,實現(xiàn)了15.5萬億token預(yù)訓(xùn)練全程零loss spike。


V4技術(shù)報告里引用 Kimi 的Muon優(yōu)化器論文,寫得很明確,對大部分參數(shù)使用Muon優(yōu)化器,帶來更快的收斂和更好的訓(xùn)練穩(wěn)定性。


底層技術(shù)上的同頻還不止于此,至少還有三條線在平行推進。

KV緩存。

Kimi的Mooncake把KV緩存做了分離式存儲和調(diào)度,DeepSeek V4設(shè)計了異構(gòu)KV緩存結(jié)構(gòu),把壓縮KV和滑動窗口KV分開管理并支持磁盤級存儲。都在解決同一個工程瓶頸。

長上下文。

Kimi 2024年做了百萬上下文的模型實驗,是國內(nèi)最早把「長文本」從技術(shù)概念變成用戶記憶點的公司,但當(dāng)時成本還沒降下來。

長上下文真正的難點從來都在成本端,讀得越長,賬單越難看,延遲越難控,KV緩存越堆越高。讀得起、讀得穩(wěn)、讀完還能干活,才是產(chǎn)品化門檻。

DeepSeek V4這次接過了這根棒,設(shè)計了CSA(壓縮稀疏注意力,每4個token的KV合并后再做top-k選擇)和HCA(重壓縮注意力,壓縮率128倍但保持全局稠密計算)交替堆疊,推理算力降到V3.2的27%,KV緩存只剩十分之一。



注意力架構(gòu)的下一步。

DeepSeek押稀疏注意力,核心假設(shè)是長序列中大部分KV條目對當(dāng)前query貢獻極小,可以安全跳過。

Kimi下一代模型探索線性注意力,核心假設(shè)是注意力計算本身可以被重新表述為線性形式,把復(fù)雜度從序列長度的平方降到線性。

一個在篩選哪些token值得看,一個在改寫「看」這個動作本身的計算規(guī)則。

殊途同歸,都在往Transformer最要命的成本結(jié)構(gòu)里動刀。

老黃的PPT里,兩個都是中國的

2026年初的CES大會上,黃仁勛展示Rubin NVL72性能的slide里,訓(xùn)練基準(zhǔn)用的是DeepSeek,推理吞吐和token成本基準(zhǔn)用的是Kimi K2-Thinking。

同一張PPT,兩個中國開源模型。


Meta的Muse Spark官方Blog里也出現(xiàn)了類似的畫面。

在代碼困惑度對比圖中,用來對標(biāo)的外部模型,就是Llama 4 Maverick、DeepSeek-V3.1 Base和Kimi-K2 Base。


衡量模型在未見過的代碼庫上的理解能力,越低越好

老外「套殼」的首選模型

2026年3月19日,估值500億美元的AI編程工具Cursor發(fā)布「自研」模型Composer 2。

結(jié)果還不到一天,就被開發(fā)者在API日志中扒出了模型ID「kimi-k2p5-rl-0317-s515-fast」。

也就是說,Composer 2的底座就是Kimi K2.5。

Cursor創(chuàng)始人承認「沒在博客里提到Kimi基座是我們的疏忽」,并表示「基于困惑度評估,Kimi K2.5是我們測試過的最強基座模型」。



無獨有偶,日本樂天同月發(fā)布的Rakuten AI 3.0,底座也被社區(qū)發(fā)現(xiàn)是DeepSeek V3。


開發(fā)者端的數(shù)據(jù)也印證了這個趨勢。

今天的OpenRouter調(diào)用量排行榜上,Kimi K2.6以297B tokens排名第一,DeepSeek V3.2以204B tokens排名第四。

前五名里兩個中國模型,中間夾著Claude。


同一個方向,同一張桌子

而在芯片這條暗線上,兩家也在同一個方向推進。

V4技術(shù)報告明確寫到,細粒度專家并行方案同時在NVIDIA GPU和華為Ascend NPU上完成了驗證。Kimi新論文《Prefill-as-a-Service》則引入分離式架構(gòu),推進國產(chǎn)芯片的混合推理方案。



值得一提的是,梁文鋒和楊植麟都先后參加了總理座談會,都是中國AI領(lǐng)域被點名的代表。

兩家公司都在2023年起步,兩年多時間成長為中國AI創(chuàng)業(yè)公司中最受關(guān)注的兩家,也是業(yè)內(nèi)公認人才密度最高的團隊。



競爭是表面,加速是結(jié)果

如果只有一家,可以說是個例。

但同一周兩個萬億參數(shù)開源模型同時落地,背后的技術(shù)還在互相滲透,被GTC和Meta選為性能基準(zhǔn),被Cursor和Rakuten拿去當(dāng)?shù)鬃?/p>


當(dāng)某些閉源模型之間還在互相猜忌的時候,這兩家已經(jīng)在論文里互相引用、在代碼里互相復(fù)用了。

這大概就是開源最硬的復(fù)利。

參考資料:

https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

https://openrouter.ai/rankings?view=day

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
世錦賽戰(zhàn)報:連爆大冷9-13!世界第2第6無緣8強,4位前冠軍出局了

世錦賽戰(zhàn)報:連爆大冷9-13!世界第2第6無緣8強,4位前冠軍出局了

小火箭愛體育
2026-04-26 08:48:42
陳首富終究吞不下云南白藥 | 棱鏡

陳首富終究吞不下云南白藥 | 棱鏡

新浪財經(jīng)
2026-04-24 17:04:15
一場難看的1比0,能找到多少阿森納的爭冠希望?

一場難看的1比0,能找到多少阿森納的爭冠希望?

體壇周報
2026-04-26 16:47:23
首次!日本導(dǎo)彈將對艦艇開火!中國:歷史會以相似的邏輯重現(xiàn)!

首次!日本導(dǎo)彈將對艦艇開火!中國:歷史會以相似的邏輯重現(xiàn)!

青輝
2026-04-26 14:14:38
為什么先救萬斯?槍擊發(fā)生后,萬斯比特朗普先撤離引質(zhì)疑

為什么先救萬斯?槍擊發(fā)生后,萬斯比特朗普先撤離引質(zhì)疑

新京報
2026-04-26 15:41:36
色情片并不可怕,但它會偷走你的“勁”,讓你做什么都索然無味

色情片并不可怕,但它會偷走你的“勁”,讓你做什么都索然無味

知識圈
2026-04-26 09:35:01
泡泡瑪特推出Labubu冰箱,售價5999元,上千人預(yù)約

泡泡瑪特推出Labubu冰箱,售價5999元,上千人預(yù)約

大象新聞
2026-04-26 13:01:02
不想訪華了?美國聯(lián)合10國,對中國發(fā)起一輪猛攻,中方反制不隔夜

不想訪華了?美國聯(lián)合10國,對中國發(fā)起一輪猛攻,中方反制不隔夜

軍機Talk
2026-04-25 17:10:51
60歲宋祖英:臉部圓潤眼袋明顯,同母異父的妹妹是知名演員

60歲宋祖英:臉部圓潤眼袋明顯,同母異父的妹妹是知名演員

細品名人
2026-04-25 07:55:00
特朗普內(nèi)閣又一個女部長落馬,各種丑聞之丑令人作嘔……

特朗普內(nèi)閣又一個女部長落馬,各種丑聞之丑令人作嘔……

新民周刊
2026-04-26 15:07:25
小米:李某華已被行拘

小米:李某華已被行拘

南方都市報
2026-04-26 12:01:47
殺1只就犯法,腳上有追蹤器,2023年四川男子捂死一只回家烹食

殺1只就犯法,腳上有追蹤器,2023年四川男子捂死一只回家烹食

萬象硬核本尊
2026-04-23 23:19:30
掘金主帥:我不喜歡麥克丹尼爾斯的行為,但這就是他的為人

掘金主帥:我不喜歡麥克丹尼爾斯的行為,但這就是他的為人

懂球帝
2026-04-26 12:45:19
兩性關(guān)系:55-65歲這十年,惜命最好的方式,不是鍛煉,而是這6點

兩性關(guān)系:55-65歲這十年,惜命最好的方式,不是鍛煉,而是這6點

周哥一影視
2026-04-17 06:45:59
你發(fā)現(xiàn)沒有?今年的蘇超已經(jīng)“變味”了

你發(fā)現(xiàn)沒有?今年的蘇超已經(jīng)“變味”了

清哲木觀察
2026-04-26 14:01:03
重磅!美國恢復(fù)“最狠刑罰”,槍決正式回歸+加速執(zhí)行死刑,風(fēng)向徹底變了

重磅!美國恢復(fù)“最狠刑罰”,槍決正式回歸+加速執(zhí)行死刑,風(fēng)向徹底變了

大洛杉磯LA
2026-04-26 05:20:59
趙麗穎在上海某高檔餐廳被偶遇,瘦是真的瘦,素顏依然很美

趙麗穎在上海某高檔餐廳被偶遇,瘦是真的瘦,素顏依然很美

一盅情懷
2026-04-25 19:36:00
特朗普真沒想到:白宮一聲槍響暴露美國最大敵人,比伊朗更難對付

特朗普真沒想到:白宮一聲槍響暴露美國最大敵人,比伊朗更難對付

壹切的壹切
2026-04-26 15:10:09
白宮開槍兇手是老師?網(wǎng)傳其剛在洛杉磯拿了“月度優(yōu)秀教師”獎

白宮開槍兇手是老師?網(wǎng)傳其剛在洛杉磯拿了“月度優(yōu)秀教師”獎

爆角追蹤
2026-04-26 12:16:15
爭議?19歲王鈺棟提前結(jié)束謝場+怒摔水瓶!5場0球后他5次情緒失控

爭議?19歲王鈺棟提前結(jié)束謝場+怒摔水瓶!5場0球后他5次情緒失控

我愛英超
2026-04-26 14:15:58
2026-04-26 17:11:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
15069文章數(shù) 66806關(guān)注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰(zhàn)”

頭條要聞

金店電子稱旁現(xiàn)拇指大小遙控器 商家可遠程遙控改重量

頭條要聞

金店電子稱旁現(xiàn)拇指大小遙控器 商家可遠程遙控改重量

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

《八千里路云和月》大結(jié)局意難平

財經(jīng)要聞

DeepSeek V4背后,梁文鋒的轉(zhuǎn)身

汽車要聞

預(yù)售19.38萬元起 哈弗猛龍PLUS七座版亮相

態(tài)度原創(chuàng)

游戲
手機
家居
健康
軍事航空

微軟更新Xbox品牌標(biāo)識 回歸經(jīng)典黑綠配色致敬初代

手機要聞

vivo Y600 Pro手機配備6.83英寸1.5K護眼屏,4月27日發(fā)布

家居要聞

自然肌理 溫潤美學(xué)

干細胞如何讓燒燙傷皮膚"再生"?

軍事要聞

伊朗總統(tǒng):不會在壓力、威脅下進行談判

無障礙瀏覽 進入關(guān)懷版