国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

16 個(gè)月后,DeepSeek 已不是孤身走暗巷

0
分享至

  

   作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

  原本預(yù)計(jì)在 2026 年春節(jié)上演的中國 AI 大戲,延遲到了五一假期前。

  這周五,DeepSeek V4 千呼萬喚始出來。

  同樣在這周,Qwen、Kimi、小米、騰訊都不約而同拿出了自己最新的代表作。

  

  從 Artificial Analysis 最新放榜的開源模型智能指數(shù)看,開源模型的前幾名已經(jīng)都是中國模型。

  其中,TOP2 都是這周發(fā)布的。他們也是這幾天 OpenRouter 真實(shí)調(diào)用量上擠入全球 TOP5 的兩家公司。

  

  這已經(jīng)不是 DeepSeek 和 Kimi 這么默契了。往回看看前面幾次。

  2025 年 1 月,DeepSeek R1 和 Kimi K1.5 前后兩個(gè)小時(shí)內(nèi)發(fā)布,都把目標(biāo)指向 OpenAI o1。

  一個(gè)月后,DeepSeek NSA 和 Kimi MoBA 幾乎同時(shí)出現(xiàn),都在改造 Transformer 最核心的注意力機(jī)制。

  2025 年 4 月,Kimi 的 Kimina Prover Preview 和 DeepSeek-Prover-V2 先后發(fā)布,都在向形式化數(shù)學(xué)推理和定理證明方向推進(jìn)。

  時(shí)隔一年,現(xiàn)在,又一次,Kimi K2.6 和 DeepSeek V4 在同一周先后發(fā)布,兩個(gè)萬億參數(shù)的開源模型,前后腳擺到了桌面上。

  發(fā)力相同的技術(shù)方向,幾乎同時(shí)到達(dá)同一個(gè)路口。這已經(jīng)不像巧合了。

  1

  這次又撞了什么

  先看這一輪各自拿出了什么。

  DeepSeek V4 是一個(gè) 1.6 萬億參數(shù)的 MoE 模型,49B 激活參數(shù),原生支持 100 萬 token 上下文。它的核心敘事是效率革命,相比上一代 V3.2,單 token 推理算力需求下降了 73%,KV cache 壓縮到原來的十分之一。

  簡單說,同樣的硬件能處理多得多的請(qǐng)求,同樣長度的文本花的錢少得多。

  與此同時(shí),V4 完成了對(duì)華為昇騰芯片的深度適配,從英偉達(dá) CUDA 生態(tài)向華為 CANN 架構(gòu)做了底層代碼遷移,也讓這一輪發(fā)布多了一層國產(chǎn)算力遷移的意味。

  Kimi K2.6 是一個(gè)萬億參數(shù)的 MoE 多模態(tài)模型,32B 激活參數(shù),256K 上下文。它的核心敘事不是更大或更便宜,而是更持久。

  在測試中,K2.6 可以不間斷編碼 13 小時(shí),處理超過 4000 次工具調(diào)用,修改 4000 多行代碼,完成一個(gè)接近性能極限的開源金融撮合引擎的深度重構(gòu)。

  這不是普通的“代碼能力提升”,而是在測試模型能不能從一次性回答,進(jìn)入長時(shí)間、多工具、多 Agent 協(xié)作的工作狀態(tài)。

  K2.6 還引入了 Agent 集群架構(gòu),支持 300 個(gè)子 Agent 并行協(xié)作。月之暗面的 RL 基礎(chǔ)設(shè)施團(tuán)隊(duì)已經(jīng)用 K2.6 驅(qū)動(dòng)的 Agent 連續(xù)自主運(yùn)行了 5 天,負(fù)責(zé)監(jiān)控、故障響應(yīng)和系統(tǒng)運(yùn)維。

  

  它們總在同一個(gè)路口相遇,但開出去的方向并不一樣。至少在這一輪,一個(gè)更像是在重寫模型基礎(chǔ)設(shè)施的成本結(jié)構(gòu),另一個(gè)更像是在驗(yàn)證模型能否進(jìn)入更長周期的真實(shí)任務(wù)。方向不同,但在同一周發(fā)布這件事本身,已經(jīng)足夠讓人截圖發(fā)群了。

  但兩家也有高度一致的選擇,萬億參數(shù)的 MoE 架構(gòu)、開源、繼續(xù)相信 Scaling Law。截至目前,它們也是中國僅有的兩個(gè)已開源的萬億參數(shù)模型。

  1

  比撞車更有意思的事

  多次撞車是一個(gè)好段子,但它背后有一個(gè)更值得注意的現(xiàn)象,兩家的技術(shù)路線正在相互啟發(fā)。

  上一次,是 Kimi K2 借鑒了 DeepSeek V3 帶火的 MLA 注意力機(jī)制。MLA 是一種壓縮注意力計(jì)算和 KV 緩存以提升效率的方案,DeepSeek V3 讓它成為中國開源模型技術(shù)棧里的顯性選項(xiàng)。

  這一次,是 DeepSeek V4 把 Muon 優(yōu)化器作為模型架構(gòu)層的三大更新之一。Muon 是一種二階優(yōu)化器,解決的是訓(xùn)練階段參數(shù)更新的效率和穩(wěn)定性問題,用來取代已經(jīng)用了 10 年的 Adam。Kimi 是最早把 Muon 系優(yōu)化器推到萬億參數(shù)級(jí)訓(xùn)練并系統(tǒng)公開經(jīng)驗(yàn)的團(tuán)隊(duì)之一,楊植麟在 GTC 2026 演講中稱其可以帶來 2 倍的 token 效率提升。而 V4 也跟進(jìn)使用 Muon 優(yōu)化器,用來提升收斂效率和訓(xùn)練穩(wěn)定性。

  

  換句話說,MLA 省的是推理時(shí)的錢,Muon 省的是訓(xùn)練時(shí)的路。而這兩條路,已經(jīng)在兩家之間來回走了一遍。

  這就讓“撞車”不再只是發(fā)布時(shí)間上的巧合,而變成了技術(shù)棧層面的回聲。更像是兩家公司一邊競爭,一邊把對(duì)方探索過的技術(shù)思路變成自己下一輪實(shí)驗(yàn)的參考坐標(biāo)。

  這種相互啟發(fā)還在繼續(xù)延伸。在注意力機(jī)制上,DeepSeek 探索的是稀疏注意力,Kimi 下一代模型探索的是線性注意力,路徑不同但要回答的問題一致,都是長上下文怎么不被全注意力的計(jì)算復(fù)雜度拖垮。

  在殘差連接上,DeepSeek 做 mHC,Kimi 做注意力殘差,同樣是不同方案指向同一個(gè)目標(biāo),讓模型變深之后訓(xùn)練依然穩(wěn)定。

  

  這件事之所以值得說,是因?yàn)榉旁诟蟮男袠I(yè)背景里看,它其實(shí)是反常的。硅谷頭部公司正在變得越來越封閉,OpenAI 早已不再公開訓(xùn)練細(xì)節(jié),Anthropic 和 Google 的核心方法同樣諱莫如深,社區(qū)只能靠猜測和拼湊來推斷它們的技術(shù)路線。連在舞臺(tái)上握手都不太可能了

  

  而在 Kimi 和 DeepSeek 之間,技術(shù)報(bào)告和開源代碼的可見度讓技術(shù)擴(kuò)散的鏈條明顯縮短了。多次撞車之所以能被看到、被討論、被放在一起比較,前提恰恰是兩家都選擇了把東西攤在桌面上。

  中國開源模型的技術(shù)擴(kuò)散速度,正在變得比過去快得多。這可能才是頻繁撞車真正說明的事情。

  1

  全球技術(shù)圈都在看它們撞車

  這種“撞車”的敘事,最早當(dāng)然是中文科技圈的發(fā)明。但海外開發(fā)者社區(qū)也在用自己的方式確認(rèn)這件事。

  K2.6 發(fā)布后,AI 領(lǐng)域最有影響力的 newsletter 之一 Latent Space 直接把 Kimi 放進(jìn)了“DeepSeek 沉默期后中國開源模型實(shí)驗(yàn)室領(lǐng)跑者”的位置。幾天后 V4 發(fā)布,海外開發(fā)者社區(qū)又立刻把 V4、K2.6、GLM 5.1 放到同一張表格里比較參數(shù)、價(jià)格、上下文長度和 Agent 能力。

  

  英偉達(dá) GTC 2026 上用來展示下一代芯片推理性能的中國模型,是這兩家。

  

  在海外開發(fā)者社區(qū)里,當(dāng)人們討論中國開源模型時(shí),Kimi 和 DeepSeek 的確越來越頻繁地被放進(jìn)同一張表里。

  1

  它們撞上的不是彼此

  這也讓 DeepSeek 和 Kimi 的關(guān)系變得有點(diǎn)微妙。它們當(dāng)然是競爭對(duì)手,但在更大的模型生態(tài)里,又共同把中國開源模型推到了一個(gè)更難被忽視的位置。

  它們對(duì)閉源模型的壓力,不只來自某一次 benchmark,而來自成本、可部署性、開源權(quán)重和技術(shù)擴(kuò)散速度這些更慢、更底層的變量。

  所以,Kimi 到底有沒有在故意撞車 DeepSeek?

  大概率沒有。萬億參數(shù)的 MoE 要做,長上下文的注意力機(jī)制要改,訓(xùn)練效率的優(yōu)化器要換,國產(chǎn)芯片的適配要啃,開源要開得真誠而不是做防御性姿態(tài)。這些不是“選項(xiàng)”,而是“必經(jīng)之路”。

  兩家公司都在認(rèn)真地做底層技術(shù),也都選擇把關(guān)鍵進(jìn)展放到公開語境里,于是就一次又一次地在同一個(gè)十字路口碰面。

  不是它們太默契,是路太窄了。

  至于下一次“撞車”,大概已經(jīng)在路上了。

  如果沒猜錯(cuò)的話,Kimi 讓大模型的文本和視覺能力齊頭并進(jìn)的技術(shù)方案,將啟發(fā)更多中國開源純文本模型長出“眼睛”,一起看到更遠(yuǎn)、更大的世界。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
上映多時(shí)票房只有零元,一個(gè)觀眾都沒有,五一檔最慘電影誕生了

上映多時(shí)票房只有零元,一個(gè)觀眾都沒有,五一檔最慘電影誕生了

影視高原說
2026-05-01 08:47:30
打服了對(duì)手!塞爾比瓦菲、艾倫齊夸贊吳宜澤,他會(huì)是斯諾克新冠軍

打服了對(duì)手!塞爾比瓦菲、艾倫齊夸贊吳宜澤,他會(huì)是斯諾克新冠軍

里芃芃體育
2026-05-03 11:15:13
希金斯:墨菲這屆世錦賽就像神一樣,意志力比拼里我關(guān)鍵黑球手軟

希金斯:墨菲這屆世錦賽就像神一樣,意志力比拼里我關(guān)鍵黑球手軟

楊華評(píng)論
2026-05-03 02:48:59
蜜月回家發(fā)現(xiàn)婚房被丈母娘一家十口霸占,我笑著離開并決定離婚

蜜月回家發(fā)現(xiàn)婚房被丈母娘一家十口霸占,我笑著離開并決定離婚

曉艾故事匯
2026-04-05 16:11:46
摩根大通女高管被控性侵已婚印度裔男下屬,女方否認(rèn),公司調(diào)查稱并無證據(jù)

摩根大通女高管被控性侵已婚印度裔男下屬,女方否認(rèn),公司調(diào)查稱并無證據(jù)

紅星新聞
2026-05-02 16:01:48
女子找到工作月薪12000,僅面試一次老板就同意,入職兩天沒人理

女子找到工作月薪12000,僅面試一次老板就同意,入職兩天沒人理

丫頭舫
2026-05-01 22:17:59
網(wǎng)絡(luò)瘋傳賴清德妻子在美國購買億元豪宅,賴辦回應(yīng)了

網(wǎng)絡(luò)瘋傳賴清德妻子在美國購買億元豪宅,賴辦回應(yīng)了

海峽導(dǎo)報(bào)社
2026-05-02 10:52:21
倫敦世乒賽最新戰(zhàn)報(bào):國乒2連勝!張本智和慘敗,張本美和轟11-0

倫敦世乒賽最新戰(zhàn)報(bào):國乒2連勝!張本智和慘敗,張本美和轟11-0

羙晞
2026-05-03 09:15:03
中國對(duì)非洲國家實(shí)施零關(guān)稅,唯一例外的斯威士蘭格外“搶眼”

中國對(duì)非洲國家實(shí)施零關(guān)稅,唯一例外的斯威士蘭格外“搶眼”

深度報(bào)
2026-05-02 22:10:20
他是混血兒,出道20年默默無聞,《愛情沒有神話》和王菊搭戲火了

他是混血兒,出道20年默默無聞,《愛情沒有神話》和王菊搭戲火了

芬霏劇時(shí)光
2026-05-02 14:14:15
困獸之局:伊朗的窒息時(shí)刻

困獸之局:伊朗的窒息時(shí)刻

民間胡扯老哥
2026-05-02 11:36:28
誰能想到!日本前首相在中國的土地上發(fā)聲:美國是全球最大威脅!

誰能想到!日本前首相在中國的土地上發(fā)聲:美國是全球最大威脅!

娛樂圈的筆娛君
2026-05-03 12:06:23
1-3大冷!國乒不敵韓國,比輸球還可怕,雪藏王楚欽 暴露3大短板

1-3大冷!國乒不敵韓國,比輸球還可怕,雪藏王楚欽 暴露3大短板

大秦壁虎白話體育
2026-05-03 07:02:21
專家呼吁:馬上停用6種食用油,它是肝癌加速器!再香也別吃

專家呼吁:馬上停用6種食用油,它是肝癌加速器!再香也別吃

橘子約定
2026-05-03 09:43:10
格力原董事長周樂偉投案,全網(wǎng)找董明珠:踢走十年,她憑什么反殺

格力原董事長周樂偉投案,全網(wǎng)找董明珠:踢走十年,她憑什么反殺

戶外釣魚哥阿旱
2026-05-03 03:28:33
晚飯七分飽被推翻了?提醒:過了62歲,吃飯盡量要做到這5點(diǎn)

晚飯七分飽被推翻了?提醒:過了62歲,吃飯盡量要做到這5點(diǎn)

芹姐說生活
2026-05-02 15:28:33
中國代表:要防止朝鮮半島生戰(zhàn)生亂

中國代表:要防止朝鮮半島生戰(zhàn)生亂

新華社
2026-05-01 09:27:03
排隊(duì)8小時(shí)充電,今年五一高速上1540萬輛電車打了一場漂亮翻身仗

排隊(duì)8小時(shí)充電,今年五一高速上1540萬輛電車打了一場漂亮翻身仗

金哥說新能源車
2026-05-02 14:04:53
霸氣 張雪舉杯邀請(qǐng)現(xiàn)場朋友慶祝奪冠 妻子:全場消費(fèi)都由我們買單

霸氣 張雪舉杯邀請(qǐng)現(xiàn)場朋友慶祝奪冠 妻子:全場消費(fèi)都由我們買單

風(fēng)過鄉(xiāng)
2026-05-03 08:27:36
一位親子鑒定師的自述:我從業(yè)10年,給上千個(gè)男人檢測出了綠帽子

一位親子鑒定師的自述:我從業(yè)10年,給上千個(gè)男人檢測出了綠帽子

千秋文化
2026-05-02 19:48:10
2026-05-03 12:55:00
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個(gè)星球。
3054文章數(shù) 10493關(guān)注度
往期回顧 全部

科技要聞

庫克罕見"拒答"!蘋果正被AI供應(yīng)鏈卡脖子

頭條要聞

上海科技大學(xué)王晨輝教授因營救至親不幸去世 年僅39歲

頭條要聞

上海科技大學(xué)王晨輝教授因營救至親不幸去世 年僅39歲

體育要聞

裁判準(zhǔn)備下班,結(jié)果吳宜澤進(jìn)了決賽

娛樂要聞

蔡卓妍婚后首現(xiàn)身 戴結(jié)婚戒指笑容不斷

財(cái)經(jīng)要聞

后巴菲特時(shí)代,首場股東會(huì)透露了啥

汽車要聞

同比大漲190% 方程豹4月銷量29138臺(tái)

態(tài)度原創(chuàng)

本地
旅游
手機(jī)
數(shù)碼
公開課

本地新聞

用青花瓷的方式,打開西溪濕地

旅游要聞

夯!上海人的朋友圈被刷屏!上萬人的震撼場面

手機(jī)要聞

榮耀羅巍透露同期還有一家手機(jī)廠商也在尋求與ARRI阿萊的合作

數(shù)碼要聞

Perplexity稱贊Mac mini是其Personal Computer的最佳本地部署平臺(tái)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版