国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

翻完DeepSeek報(bào)告,我們發(fā)現(xiàn)了中國(guó)AI的默契

0
分享至



編輯|冷貓、+0

這兩天,全球頂級(jí)大模型接連更新,重磅消息一個(gè)接一個(gè)。

中國(guó)這邊也迎來(lái)熱鬧非凡的一周,從周一開始,Qwen、Kimi、小米、騰訊相繼發(fā)布最新模型。周五,千呼萬(wàn)喚的 DeepSeek 終于發(fā)布 V4 雙版本,引發(fā)了國(guó)內(nèi) AI 圈的一波海嘯。

其中,中國(guó)邁入萬(wàn)億參數(shù)俱樂(lè)部并已開源的模型有 DeepSeek 和 Kimi 兩家,小米也預(yù)告了將會(huì)開源最新的萬(wàn)億模型。

翻完 DeepSeek V4 近 60 頁(yè)的技術(shù)報(bào)告,我們發(fā)現(xiàn)這兩個(gè)已開源萬(wàn)億模型之間的默契,比任何單打獨(dú)斗都可怕。

再往前溯源的話,我們發(fā)現(xiàn) DeepSeek 和 Kimi 已經(jīng)是第 N 次「偶遇」了。這可能源于梁文鋒和楊植麟對(duì) Scaling Law 的共同信仰和對(duì) AGI 的競(jìng)逐。

多次偶遇背后的一場(chǎng)「合謀」

從 DeepSeek-R1 和 Kimi K1.5 僅隔兩小時(shí)發(fā)布,DeepSeek-NSA 與 Kimi MoBA 論文同期發(fā)表、Kimi 數(shù)學(xué)推理模型 Kimina-Prover 啟發(fā) DeepSeek-Prover V2,到如今的 Kimi K2.6 與 DeepSeek-V4 在同一周發(fā)布,齊頭并進(jìn)。



這兩家公司不是在互相廝殺,而是在用一種近乎「開源共享」的方式,一起進(jìn)步。

引用車圈的一句話說(shuō),「好的設(shè)計(jì)總是心有靈犀」。

從 Kimi K2 采用 DeepSeek V3 的 MLA 注意力機(jī)制,到 DeepSeek V4 引入了 Kimi 大規(guī)模驗(yàn)證的 Muon 優(yōu)化器,可以說(shuō),技術(shù)上的聯(lián)動(dòng),成為了行業(yè)的一個(gè)亮點(diǎn)。

MLA 注意力機(jī)制:DeepSeek 創(chuàng)新,Kimi 復(fù)用

首先要提到的是,DeepSeek 在 V3 中首創(chuàng)了 MLA 注意力機(jī)制,這個(gè)設(shè)計(jì)通過(guò)低秩壓縮技術(shù)有效減少了顯存占用,從而讓長(zhǎng)上下文推理變得可能。這個(gè)創(chuàng)新很快被行業(yè)廣泛認(rèn)可,Kimi K2 在自己的注意力機(jī)制中也采用了 MLA 注意力機(jī)制。



二階優(yōu)化器:Kimi 大規(guī)模驗(yàn)證,DeepSeek 跟進(jìn)

除了注意力機(jī)制,另一個(gè)備受關(guān)注的突破是優(yōu)化器技術(shù)。2025年2月,Kimi 發(fā)表《Muon is Scalable for LLM Training》論文,在 480 億參數(shù)的 Moonlight 系列模型上驗(yàn)證了 Muon 優(yōu)化器的效果,用來(lái)取代已經(jīng)用了 10年 的行業(yè)標(biāo)準(zhǔn)技術(shù) Adam。2025 年 7 月,在萬(wàn)億參數(shù) Kimi K2 中,二階優(yōu)化器 Muon 被首次大規(guī)模應(yīng)用,展示了其在大規(guī)模語(yǔ)言模型訓(xùn)練中的優(yōu)勢(shì)。

如今,DeepSeek V4 也跟進(jìn)用 Muon 優(yōu)化器技術(shù),實(shí)現(xiàn)訓(xùn)練效率的穩(wěn)定性。兩家公司將底層的優(yōu)化技術(shù)相互吸納,打破了技術(shù)壁壘,展現(xiàn)出前所未有的深度合作。



殘差連接:兩種不同的解決方案

說(shuō)到殘差連接,DeepSeek 和 Kimi 也各有突破。

DeepSeek 在 V4 中引入了 mHC 殘差連接,目標(biāo)也是提高信息傳遞的效率。通過(guò)改變多頭注意力的拼接方式,mHC 提高了梯度流動(dòng)的效率,實(shí)測(cè)訓(xùn)練效率提高了約 30%。



Kimi 提出的 Attention Residuals(注意力殘差)優(yōu)化了信息流的傳遞效率,提升了模型的表現(xiàn)。這一創(chuàng)新得到了廣泛的認(rèn)可,Andrej Karpathy 點(diǎn)評(píng)稱「我們對(duì)《Attention is All You Need》的理解還不夠」,OpenAI 推理之父 Jerry Tworek 點(diǎn)評(píng)稱「我們應(yīng)該重新思考一切,深度學(xué)習(xí)的2.0時(shí)代正在到來(lái)」,馬斯克也在社交媒體上為此點(diǎn)贊,稱是「令人印象深刻的研究」。

這兩種方案各有特色,展現(xiàn)了兩家公司在同一技術(shù)問(wèn)題上不同的思路。

長(zhǎng)上下文推理:兩種技術(shù)路線的探索

長(zhǎng)上下文推理是 AI 模型的一大挑戰(zhàn),Kimi 和 DeepSeek 在這一點(diǎn)上的思路也各不相同。Kimi 在 2024 年實(shí)現(xiàn)了百萬(wàn) Token 上下文的能力,盡管這一能力非常強(qiáng)大,但成本問(wèn)題依然很大,超長(zhǎng)上下文的計(jì)算開銷呈現(xiàn)出線性增長(zhǎng),普通開發(fā)者很難承受。

到了 2026 年,DeepSeek 和 Kimi 分別提出了兩種解決方案:

  • DeepSeek選擇了稀疏注意力,通過(guò)讓模型只關(guān)注輸入中的關(guān)鍵部分,降低計(jì)算量,從而讓百萬(wàn)上下文的成本變得更可接受。這種方法雖然能夠精準(zhǔn)聚焦關(guān)鍵信息,但設(shè)計(jì)和調(diào)優(yōu)難度較大。
  • Kimi則推出了線性注意力架構(gòu),改變了注意力機(jī)制的計(jì)算方式,使得計(jì)算復(fù)雜度從 O(n2) 降到 O(n),從理論上大幅降低了長(zhǎng)上下文的計(jì)算成本。

這兩種方案同樣各有優(yōu)勢(shì),稀疏注意力強(qiáng)調(diào)精準(zhǔn)性,線性注意力則追求高效性。更重要的是,Kimi 和 DeepSeek 同時(shí)在這兩條技術(shù)路線上都在發(fā)力,為未來(lái)的長(zhǎng)上下文推理提供了多種選擇。

從「兩個(gè)公司」到「一套基礎(chǔ)設(shè)施」

DeepSeek 和 Kimi 的「偶遇」故事不只是技術(shù)圈的熱鬧,也是關(guān)乎中國(guó) AI 產(chǎn)業(yè)格局的一件大事。

GPT-4 的參數(shù)量至今未正式公布(外界估計(jì)在 1.8T 左右),Claude 3.5 Opus 同樣閉源。而中國(guó)的這兩家創(chuàng)業(yè)公司,不僅做出了同等規(guī)模的模型,還選擇了全部開源。這意味著任何開發(fā)者、任何研究機(jī)構(gòu)、任何企業(yè),都可以免費(fèi)獲取這些模型進(jìn)行二次開發(fā)和部署。

直接的結(jié)果是:企業(yè)私有化部署的成本砍到了原來(lái)的1/10。中小企業(yè)終于能在自己的服務(wù)器上跑萬(wàn)億參數(shù)級(jí)別的模型了,這事兒放在一年前,想都不敢想。

生態(tài)這塊也在悄悄成形,在 OpenRouter 平臺(tái)上,兩者的 API 調(diào)用量穩(wěn)居中國(guó)前兩名;在應(yīng)用層,Kimi 被海外爆款編程工具「套殼」接入,而 DeepSeek 則被日本樂(lè)天集團(tuán)直接包裝成了 Rakuten AI 3.0。



就連硅谷的巨頭們,也不得不正視這股來(lái)自東方的力量。

在 Meta 最新模型 Muse Spark 發(fā)布的官方技術(shù)博客中,Llama 4 被直接拿來(lái)與 DeepSeek-V3.1 以及 Kimi-K2 進(jìn)行性能對(duì)比:



而在黃仁勛的CES主題演講上,黃仁勛更是將 DeepSeek 和 Kimi K2-Thinking 模型赫然放上大屏幕,作為展示其下一代 Blackwell 與 Rubin 芯片強(qiáng)大性能的 Benchmark 標(biāo)桿:



與此同時(shí),兩家公司都在國(guó)產(chǎn)芯片適配上做出了實(shí)質(zhì)性投入。

DeepSeek V4 首次深度適配華為昇騰芯片,推理環(huán)節(jié)將運(yùn)行在國(guó)產(chǎn)硬件上;Kimi 的 Prefill-as-a-Service 方案則提出了跨數(shù)據(jù)中心異構(gòu)硬件推理框架,允許用不同類型的國(guó)產(chǎn)芯片分別承擔(dān) Prefill 和 Decode 階段,實(shí)測(cè)吞吐量提升 54%,首 token 延遲降低 64%。這為國(guó)產(chǎn)芯片進(jìn)入大模型推理鏈條打開了一個(gè)現(xiàn)實(shí)的切入口。

黃仁勛在播客節(jié)目中說(shuō)了一句意味深長(zhǎng)的話:「芯片又不是鈾濃縮,阻擋不了中國(guó)芯片的進(jìn)步,他們依舊可以通過(guò)國(guó)產(chǎn)芯片來(lái)開發(fā)模型。」

他可能沒(méi)想到,DeepSeek 和 Kimi 正在用實(shí)際行動(dòng)讓這一天來(lái)得這么早,這么快。

結(jié)語(yǔ):兩個(gè)廣東人,撐起中國(guó) AI 的半邊天

技術(shù)的高度,最終取決于人的格局。

2023 年同年起步,用最短時(shí)間雙雙叩開百億美金十角獸大門——DeepSeek 與 Kimi,始終保持著業(yè)內(nèi)人數(shù)最精簡(jiǎn)、但人才密度最頂尖的配置。兩位同樣來(lái)自廣東的創(chuàng)始人,楊植麟與梁文鋒,既是技術(shù)的狂熱信徒,也是被寄予厚望的中國(guó) AI 國(guó)家隊(duì)。

在總理主持召開的經(jīng)濟(jì)形勢(shì)專家和企業(yè)家座談會(huì)上,兩人時(shí)隔一年分別建言獻(xiàn)策,成為了中國(guó) AI 發(fā)展史上的一個(gè)有力注腳。他們都是技術(shù)范式的引領(lǐng)者:DeepSeek 向世界證明了「思維鏈」的威力,而 Kimi 則在國(guó)內(nèi)引領(lǐng)了「智能體」的落地狂潮。

在追逐 AGI 的這場(chǎng)馬拉松里,沒(méi)有哪一家公司可以閉門造車地跑完全程。DeepSeek 與 Kimi 之間,有競(jìng)爭(zhēng),也有共鳴——Muon 與 MLA 的技術(shù)互通,底層機(jī)制上惺惺相惜的探索,恰恰說(shuō)明:中國(guó) AI 真正的底氣,從來(lái)不是某一家公司的單打獨(dú)斗,而是這種在「偶遇」中碰撞出的技術(shù)火花,以及在開源生態(tài)里悄然生長(zhǎng)的互利共生。

雙峰并峙,終將頂峰相見。屬于中國(guó)大模型的萬(wàn)億級(jí)航海時(shí)代,才剛剛拉開序幕。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
毛曉彤深夜爆雷!醫(yī)美風(fēng)波牽出三大黑料,陳翔出軌門真的要反轉(zhuǎn)了

毛曉彤深夜爆雷!醫(yī)美風(fēng)波牽出三大黑料,陳翔出軌門真的要反轉(zhuǎn)了

橙星文娛
2026-04-27 15:11:05
美軍試探中方紅線,在東南亞攔截伊朗油輪,給中方敲響了警鐘

美軍試探中方紅線,在東南亞攔截伊朗油輪,給中方敲響了警鐘

第一軍情
2026-04-27 11:40:03
港獨(dú)、罵中國(guó)人,如今卻還想來(lái)內(nèi)地?fù)平?,這3位香港明星令人作嘔

港獨(dú)、罵中國(guó)人,如今卻還想來(lái)內(nèi)地?fù)平穑@3位香港明星令人作嘔

地理三體說(shuō)
2026-04-21 22:28:02
“戎馬倥傯”,不讀 kōng cōng,正確讀音是什么?什么意思?

“戎馬倥傯”,不讀 kōng cōng,正確讀音是什么?什么意思?

未央看點(diǎn)
2026-04-27 22:12:01
剛剛!官方點(diǎn)名張家界天門山、麗江古城、玉龍雪山、黃河壺口瀑布、桂林漓江、嵩山少林寺等景區(qū),嚴(yán)肅批評(píng)、集中整治!

剛剛!官方點(diǎn)名張家界天門山、麗江古城、玉龍雪山、黃河壺口瀑布、桂林漓江、嵩山少林寺等景區(qū),嚴(yán)肅批評(píng)、集中整治!

揚(yáng)子晚報(bào)
2026-04-27 16:31:23
1年轉(zhuǎn)11萬(wàn)遭嫌棄!江蘇男子哭訴,這就是我的二婚,只認(rèn)錢不認(rèn)人

1年轉(zhuǎn)11萬(wàn)遭嫌棄!江蘇男子哭訴,這就是我的二婚,只認(rèn)錢不認(rèn)人

火山詩(shī)話
2026-04-27 06:57:27
上人民日?qǐng)?bào)了:父母不懂英語(yǔ),外商壓價(jià),12歲女兒,全英語(yǔ)反殺!

上人民日?qǐng)?bào)了:父母不懂英語(yǔ),外商壓價(jià),12歲女兒,全英語(yǔ)反殺!

川渝視覺
2026-04-26 22:58:13
馬筱梅攤牌了!正式與玥兒和箖箖姐弟切割!撕掉經(jīng)營(yíng)多年后媽人設(shè)

馬筱梅攤牌了!正式與玥兒和箖箖姐弟切割!撕掉經(jīng)營(yíng)多年后媽人設(shè)

一盅情懷
2026-04-24 09:39:57
為何超市月薪3000元,卻沒(méi)人肯辭職?超市員工:“傻子”才辭職

為何超市月薪3000元,卻沒(méi)人肯辭職?超市員工:“傻子”才辭職

平說(shuō)財(cái)經(jīng)
2026-04-26 23:06:17
北京的風(fēng)向變了!我敢打賭:未來(lái)北京這些片區(qū),要發(fā)達(dá)了!

北京的風(fēng)向變了!我敢打賭:未來(lái)北京這些片區(qū),要發(fā)達(dá)了!

普陀動(dòng)物世界
2026-04-27 11:12:05
李維剛又賠光了?5分鐘賣光2萬(wàn)斤滯銷臍橙,網(wǎng)友:這次真怕他塌房

李維剛又賠光了?5分鐘賣光2萬(wàn)斤滯銷臍橙,網(wǎng)友:這次真怕他塌房

雷科技
2026-04-26 17:14:53
紫光股份、中科曙光、浪潮信息、中興通訊,最新年報(bào)含金量誰(shuí)高?

紫光股份、中科曙光、浪潮信息、中興通訊,最新年報(bào)含金量誰(shuí)高?

長(zhǎng)風(fēng)價(jià)值掘金
2026-04-27 15:48:46
穆杰塔巴傷情曝光,比外界想象的更嚴(yán)重,他用了一招終結(jié)斬首戰(zhàn)術(shù)

穆杰塔巴傷情曝光,比外界想象的更嚴(yán)重,他用了一招終結(jié)斬首戰(zhàn)術(shù)

溫讀史
2026-04-25 01:18:21
從《快樂(lè)男聲》全國(guó)亞軍到百億影帝,靠狠勁撕碎“軟飯男”標(biāo)簽

從《快樂(lè)男聲》全國(guó)亞軍到百億影帝,靠狠勁撕碎“軟飯男”標(biāo)簽

慕姑娘的讀行生活
2026-04-26 07:20:11
西部現(xiàn)在最慌的球隊(duì)該是雷霆了吧?

西部現(xiàn)在最慌的球隊(duì)該是雷霆了吧?

毒舌NBA
2026-04-27 07:37:26
槍擊案發(fā)生時(shí),坐在特朗普旁邊的華裔女記者是誰(shuí)?

槍擊案發(fā)生時(shí),坐在特朗普旁邊的華裔女記者是誰(shuí)?

紅星新聞
2026-04-26 20:19:27
中日對(duì)峙到了今天,一個(gè)問(wèn)題已然徹底被擺在了中國(guó)的面前

中日對(duì)峙到了今天,一個(gè)問(wèn)題已然徹底被擺在了中國(guó)的面前

安安說(shuō)
2026-04-27 10:58:52
55歲雙上市公司前董事長(zhǎng)涉美強(qiáng)奸,27歲女方身份及細(xì)節(jié)曝光

55歲雙上市公司前董事長(zhǎng)涉美強(qiáng)奸,27歲女方身份及細(xì)節(jié)曝光

老貓觀點(diǎn)
2026-04-26 07:16:17
如果美國(guó)偷偷印兩萬(wàn)億美元,然后拿到其他國(guó)家買東西,結(jié)果會(huì)怎樣

如果美國(guó)偷偷印兩萬(wàn)億美元,然后拿到其他國(guó)家買東西,結(jié)果會(huì)怎樣

傲傲講歷史
2026-04-12 23:30:10
56歲的王菲現(xiàn)身西藏,打扮的很高級(jí),不愧是經(jīng)常拜佛的人

56歲的王菲現(xiàn)身西藏,打扮的很高級(jí),不愧是經(jīng)常拜佛的人

鄉(xiāng)野小珥
2026-04-11 01:30:53
2026-04-28 02:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12874文章數(shù) 142638關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4上線三天,第一批實(shí)測(cè)出來(lái)了

頭條要聞

坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

頭條要聞

坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

體育要聞

人類馬拉松"破二"新紀(jì)元,一場(chǎng)跑鞋軍備競(jìng)賽

娛樂(lè)要聞

黃楊鈿甜為“耳環(huán)風(fēng)波”出鏡道歉:謠言已澄清

財(cái)經(jīng)要聞

Meta 140億收購(gòu)Manus遭中國(guó)發(fā)改委否決

汽車要聞

不那么小眾也可以 smart的路會(huì)越走越寬

態(tài)度原創(chuàng)

數(shù)碼
藝術(shù)
家居
時(shí)尚
軍事航空

數(shù)碼要聞

6K/3K雙模切換!三星這款顯示器什么水平?

藝術(shù)要聞

他的油畫筆觸粗獷又細(xì)膩,透著一種不可言說(shuō)的美!

家居要聞

江景風(fēng)格 流動(dòng)的秩序

絲巾的10種系法,愛美的女人必看

軍事要聞

伊朗外長(zhǎng)折返伊斯蘭堡內(nèi)情披露

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版