国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

翻完DeepSeek報告,我們發(fā)現(xiàn)了中國AI的默契

0
分享至



編輯|冷貓、+0

這兩天,全球頂級大模型接連更新,重磅消息一個接一個。

中國這邊也迎來熱鬧非凡的一周,從周一開始,Qwen、Kimi、小米、騰訊相繼發(fā)布最新模型。周五,千呼萬喚的 DeepSeek 終于發(fā)布 V4 雙版本,引發(fā)了國內 AI 圈的一波海嘯。

其中,中國邁入萬億參數(shù)俱樂部并已開源的模型有 DeepSeek 和 Kimi 兩家,小米也預告了將會開源最新的萬億模型。

翻完 DeepSeek V4 近 60 頁的技術報告,我們發(fā)現(xiàn)這兩個已開源萬億模型之間的默契,比任何單打獨斗都可怕。

再往前溯源的話,我們發(fā)現(xiàn) DeepSeek 和 Kimi 已經(jīng)是第 N 次「偶遇」了。這可能源于梁文鋒和楊植麟對 Scaling Law 的共同信仰和對 AGI 的競逐。

多次偶遇背后的一場「合謀」

從 DeepSeek-R1 和 Kimi K1.5 僅隔兩小時發(fā)布,DeepSeek-NSA 與 Kimi MoBA 論文同期發(fā)表、Kimi 數(shù)學推理模型 Kimina-Prover 啟發(fā) DeepSeek-Prover V2,到如今的 Kimi K2.6 與 DeepSeek-V4 在同一周發(fā)布,齊頭并進。



這兩家公司不是在互相廝殺,而是在用一種近乎「開源共享」的方式,一起進步。

引用車圈的一句話說,「好的設計總是心有靈犀」。

從 Kimi K2 采用 DeepSeek V3 的 MLA 注意力機制,到 DeepSeek V4 引入了 Kimi 大規(guī)模驗證的 Muon 優(yōu)化器,可以說,技術上的聯(lián)動,成為了行業(yè)的一個亮點。

MLA 注意力機制:DeepSeek 創(chuàng)新,Kimi 復用

首先要提到的是,DeepSeek 在 V3 中首創(chuàng)了 MLA 注意力機制,這個設計通過低秩壓縮技術有效減少了顯存占用,從而讓長上下文推理變得可能。這個創(chuàng)新很快被行業(yè)廣泛認可,Kimi K2 在自己的注意力機制中也采用了 MLA 注意力機制。



二階優(yōu)化器:Kimi 大規(guī)模驗證,DeepSeek 跟進

除了注意力機制,另一個備受關注的突破是優(yōu)化器技術。2025年2月,Kimi 發(fā)表《Muon is Scalable for LLM Training》論文,在 480 億參數(shù)的 Moonlight 系列模型上驗證了 Muon 優(yōu)化器的效果,用來取代已經(jīng)用了 10年 的行業(yè)標準技術 Adam。2025 年 7 月,在萬億參數(shù) Kimi K2 中,二階優(yōu)化器 Muon 被首次大規(guī)模應用,展示了其在大規(guī)模語言模型訓練中的優(yōu)勢。

如今,DeepSeek V4 也跟進用 Muon 優(yōu)化器技術,實現(xiàn)訓練效率的穩(wěn)定性。兩家公司將底層的優(yōu)化技術相互吸納,打破了技術壁壘,展現(xiàn)出前所未有的深度合作。



殘差連接:兩種不同的解決方案

說到殘差連接,DeepSeek 和 Kimi 也各有突破。

DeepSeek 在 V4 中引入了 mHC 殘差連接,目標也是提高信息傳遞的效率。通過改變多頭注意力的拼接方式,mHC 提高了梯度流動的效率,實測訓練效率提高了約 30%。



Kimi 提出的 Attention Residuals(注意力殘差)優(yōu)化了信息流的傳遞效率,提升了模型的表現(xiàn)。這一創(chuàng)新得到了廣泛的認可,Andrej Karpathy 點評稱「我們對《Attention is All You Need》的理解還不夠」,OpenAI 推理之父 Jerry Tworek 點評稱「我們應該重新思考一切,深度學習的2.0時代正在到來」,馬斯克也在社交媒體上為此點贊,稱是「令人印象深刻的研究」。

這兩種方案各有特色,展現(xiàn)了兩家公司在同一技術問題上不同的思路。

長上下文推理:兩種技術路線的探索

長上下文推理是 AI 模型的一大挑戰(zhàn),Kimi 和 DeepSeek 在這一點上的思路也各不相同。Kimi 在 2024 年實現(xiàn)了百萬 Token 上下文的能力,盡管這一能力非常強大,但成本問題依然很大,超長上下文的計算開銷呈現(xiàn)出線性增長,普通開發(fā)者很難承受。

到了 2026 年,DeepSeek 和 Kimi 分別提出了兩種解決方案:

  • DeepSeek選擇了稀疏注意力,通過讓模型只關注輸入中的關鍵部分,降低計算量,從而讓百萬上下文的成本變得更可接受。這種方法雖然能夠精準聚焦關鍵信息,但設計和調優(yōu)難度較大。
  • Kimi則推出了線性注意力架構,改變了注意力機制的計算方式,使得計算復雜度從 O(n2) 降到 O(n),從理論上大幅降低了長上下文的計算成本。

這兩種方案同樣各有優(yōu)勢,稀疏注意力強調精準性,線性注意力則追求高效性。更重要的是,Kimi 和 DeepSeek 同時在這兩條技術路線上都在發(fā)力,為未來的長上下文推理提供了多種選擇。

從「兩個公司」到「一套基礎設施」

DeepSeek 和 Kimi 的「偶遇」故事不只是技術圈的熱鬧,也是關乎中國 AI 產(chǎn)業(yè)格局的一件大事。

GPT-4 的參數(shù)量至今未正式公布(外界估計在 1.8T 左右),Claude 3.5 Opus 同樣閉源。而中國的這兩家創(chuàng)業(yè)公司,不僅做出了同等規(guī)模的模型,還選擇了全部開源。這意味著任何開發(fā)者、任何研究機構、任何企業(yè),都可以免費獲取這些模型進行二次開發(fā)和部署。

直接的結果是:企業(yè)私有化部署的成本砍到了原來的1/10。中小企業(yè)終于能在自己的服務器上跑萬億參數(shù)級別的模型了,這事兒放在一年前,想都不敢想。

生態(tài)這塊也在悄悄成形,在 OpenRouter 平臺上,兩者的 API 調用量穩(wěn)居中國前兩名;在應用層,Kimi 被海外爆款編程工具「套殼」接入,而 DeepSeek 則被日本樂天集團直接包裝成了 Rakuten AI 3.0。



就連硅谷的巨頭們,也不得不正視這股來自東方的力量。

在 Meta 最新模型 Muse Spark 發(fā)布的官方技術博客中,Llama 4 被直接拿來與 DeepSeek-V3.1 以及 Kimi-K2 進行性能對比:



而在黃仁勛的CES主題演講上,黃仁勛更是將 DeepSeek 和 Kimi K2-Thinking 模型赫然放上大屏幕,作為展示其下一代 Blackwell 與 Rubin 芯片強大性能的 Benchmark 標桿:



與此同時,兩家公司都在國產(chǎn)芯片適配上做出了實質性投入。

DeepSeek V4 首次深度適配華為昇騰芯片,推理環(huán)節(jié)將運行在國產(chǎn)硬件上;Kimi 的 Prefill-as-a-Service 方案則提出了跨數(shù)據(jù)中心異構硬件推理框架,允許用不同類型的國產(chǎn)芯片分別承擔 Prefill 和 Decode 階段,實測吞吐量提升 54%,首 token 延遲降低 64%。這為國產(chǎn)芯片進入大模型推理鏈條打開了一個現(xiàn)實的切入口。

黃仁勛在播客節(jié)目中說了一句意味深長的話:「芯片又不是鈾濃縮,阻擋不了中國芯片的進步,他們依舊可以通過國產(chǎn)芯片來開發(fā)模型。」

他可能沒想到,DeepSeek 和 Kimi 正在用實際行動讓這一天來得這么早,這么快。

結語:兩個廣東人,撐起中國 AI 的半邊天

技術的高度,最終取決于人的格局。

2023 年同年起步,用最短時間雙雙叩開百億美金十角獸大門——DeepSeek 與 Kimi,始終保持著業(yè)內人數(shù)最精簡、但人才密度最頂尖的配置。兩位同樣來自廣東的創(chuàng)始人,楊植麟與梁文鋒,既是技術的狂熱信徒,也是被寄予厚望的中國 AI 國家隊。

在總理主持召開的經(jīng)濟形勢專家和企業(yè)家座談會上,兩人時隔一年分別建言獻策,成為了中國 AI 發(fā)展史上的一個有力注腳。他們都是技術范式的引領者:DeepSeek 向世界證明了「思維鏈」的威力,而 Kimi 則在國內引領了「智能體」的落地狂潮。

在追逐 AGI 的這場馬拉松里,沒有哪一家公司可以閉門造車地跑完全程。DeepSeek 與 Kimi 之間,有競爭,也有共鳴——Muon 與 MLA 的技術互通,底層機制上惺惺相惜的探索,恰恰說明:中國 AI 真正的底氣,從來不是某一家公司的單打獨斗,而是這種在「偶遇」中碰撞出的技術火花,以及在開源生態(tài)里悄然生長的互利共生。

雙峰并峙,終將頂峰相見。屬于中國大模型的萬億級航海時代,才剛剛拉開序幕。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
不知不覺都老了,這兩位演員已經(jīng)不在了,你還記得他們嗎?

不知不覺都老了,這兩位演員已經(jīng)不在了,你還記得他們嗎?

阿廢冷眼觀察所
2026-04-11 17:02:28
想要長肌肉,要多吃這 7 種增肌食物

想要長肌肉,要多吃這 7 種增肌食物

增肌減脂
2026-04-17 19:05:33
亞沙會沙灘男足中國不敵阿曼 無緣小組出線

亞沙會沙灘男足中國不敵阿曼 無緣小組出線

新浪財經(jīng)
2026-04-27 00:39:42
熬過四月,五月運勢上揚!三大生肖財源穩(wěn)增,這些事項需多加留意

熬過四月,五月運勢上揚!三大生肖財源穩(wěn)增,這些事項需多加留意

人閒情事
2026-04-26 17:01:06
國家再砸625億搞補貼!人人都能領,這次錢真落到普通人口袋里了

國家再砸625億搞補貼!人人都能領,這次錢真落到普通人口袋里了

愛寫的櫻桃
2026-04-11 18:50:05
鐵腕“去主播化” 東方甄選拒絕第二個“董宇輝”

鐵腕“去主播化” 東方甄選拒絕第二個“董宇輝”

北京商報
2026-04-26 22:58:37
痛悼!首屆國醫(yī)大師、著名中西醫(yī)結合外科專家吳咸中逝世,享年101歲

痛悼!首屆國醫(yī)大師、著名中西醫(yī)結合外科專家吳咸中逝世,享年101歲

梅斯醫(yī)學
2026-04-26 07:53:25
陳光標到底是怎么發(fā)家的?他為什么有那么多錢可以捐?

陳光標到底是怎么發(fā)家的?他為什么有那么多錢可以捐?

擔撲
2026-04-03 13:56:56
27歲單親媽媽開直播,播著播著睡著了,醒來一看后臺直接傻眼了

27歲單親媽媽開直播,播著播著睡著了,醒來一看后臺直接傻眼了

小椰的奶奶
2026-04-01 17:04:55
專家:建議拆除毛主席紀念堂雕像,士兵:你拆一下試試

專家:建議拆除毛主席紀念堂雕像,士兵:你拆一下試試

古今閑談
2026-04-14 22:49:01
不只DeepSeek,大廠都想“拋棄”英偉達

不只DeepSeek,大廠都想“拋棄”英偉達

最話Funtalk
2026-04-24 21:08:29
斬首哈梅內伊,活捉馬杜羅!你可以說美國壞,但真不能說美國菜

斬首哈梅內伊,活捉馬杜羅!你可以說美國壞,但真不能說美國菜

垛垛糖
2026-03-02 12:18:19
俄羅斯罕見讓步!中國30年心結一朝化解!美媒:歐盟幫了中國大忙

俄羅斯罕見讓步!中國30年心結一朝化解!美媒:歐盟幫了中國大忙

潮鹿逐夢
2026-04-25 19:04:10
地下捐精有多亂!女的被約到賓館,捐精者:直接懷孕只收800元

地下捐精有多亂!女的被約到賓館,捐精者:直接懷孕只收800元

雍親王府
2025-11-14 14:50:03
不打了!愛德華茲左膝受傷!季后賽首輪正式報銷

不打了!愛德華茲左膝受傷!季后賽首輪正式報銷

籃球教學論壇
2026-04-27 00:20:25
實拍越南真實心聲:普通民眾眼里,中國投資者不是我們想的那樣!

實拍越南真實心聲:普通民眾眼里,中國投資者不是我們想的那樣!

老特有話說
2026-04-26 08:05:02
戴笠手下一女特務執(zhí)行任務回來,肚子凸起明顯,戴笠當場將其槍斃

戴笠手下一女特務執(zhí)行任務回來,肚子凸起明顯,戴笠當場將其槍斃

史之銘
2026-04-27 01:21:54
初中生靠迷你小屏看完百萬字小說,媽媽又氣又笑:這用學習上多好

初中生靠迷你小屏看完百萬字小說,媽媽又氣又笑:這用學習上多好

搗蛋窩
2026-03-30 21:09:36
誰能想到,蘇林上任首訪中國,竟是自家人都擺不平的大麻煩

誰能想到,蘇林上任首訪中國,竟是自家人都擺不平的大麻煩

動物奇奇怪怪
2026-04-15 13:19:42
斯諾克世錦賽:趙心童德比清臺逆轉!11-8沖賽點,吳宜澤0-2到2-2

斯諾克世錦賽:趙心童德比清臺逆轉!11-8沖賽點,吳宜澤0-2到2-2

劉姚堯的文字城堡
2026-04-26 18:41:03
2026-04-27 03:36:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12855文章數(shù) 142636關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰(zhàn)”

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環(huán)王》的美劇,有第二季

財經(jīng)要聞

事關新就業(yè)群體,中辦、國辦發(fā)文

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態(tài)度原創(chuàng)

本地
數(shù)碼
時尚
公開課
軍事航空

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統(tǒng)文化

數(shù)碼要聞

三星Tab S12系列進入固件測試階段 或配10500mAh大電池

比闊腿褲還時髦?今年夏天一定要有“這條褲子”,減齡又松弛

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗總統(tǒng):不會在壓力、威脅下進行談判

無障礙瀏覽 進入關懷版