国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek 把人工智能的下水道打通了

0
分享至

25年最后一天, deepseek 奉上了新年禮物 mHC,又是新的網(wǎng)絡(luò)結(jié)構(gòu)

如果不負(fù)責(zé)任地猜一下,這種對(duì)底層架構(gòu)的深度魔改,加上他們之前MoE的積累,沒(méi)準(zhǔn)DeepSeek V4真的要搞個(gè)大新聞。

DeepSeek是真的厲害,要搞就搞底層創(chuàng)新,搞完MoE,現(xiàn)在盯上Transformer最基礎(chǔ)的下水道:殘差連接(Residual Connection)。



1、為什么要搞mHC

自從ResNet出來(lái)以后,殘差連接就是深度學(xué)習(xí)的標(biāo)配。Identity Mapping(恒等映射)保證了信號(hào)能無(wú)損傳到深層,模型才能堆得深。

24年字節(jié)搞了個(gè)Hyper-Connections,覺(jué)得原來(lái)的殘差流太細(xì),信息不夠跑。于是把殘差流寬度擴(kuò)大n倍(比如4倍),還加了各種可學(xué)習(xí)的線性映射矩陣(HH)來(lái)混合不同流的信息。這就好比把原來(lái)的單車道擴(kuò)建成了四車道高速公路,不僅寬,車還能變道。

問(wèn)題來(lái)了: 路是寬了,但車速控制不住了。原來(lái)那套完美的Identity Mapping屬性被破壞了。當(dāng)你層數(shù)一深,這些不受約束的矩陣乘起來(lái),信號(hào)要么消失要么爆炸。圖里HC跑到12k步loss直接起飛,梯度亂跳。顯存訪問(wèn)開(kāi)銷也因?yàn)橥ǖ雷儗挶┰觯采狭薓emory Wall。



2、核心思路:把矩陣關(guān)進(jìn)“流形”里(Manifold Constraint)

這部分是論文的理論高光。DeepSeek這次的做法,給混合矩陣加約束,強(qiáng)制它必須是雙隨機(jī)矩陣(Doubly Stochastic Matrix)。

妙在哪里?1??從幾何角度,這相當(dāng)于把信號(hào)的傳遞變成了一種“凸組合”。你可以把它想象成一種能量守恒系統(tǒng),信號(hào)在層與層之間傳遞時(shí),總量被嚴(yán)格控制住了,既不會(huì)憑空放大也不會(huì)莫名衰減。2?? 雙隨機(jī)矩陣的譜范數(shù)≤1,意味著不會(huì)放大信號(hào),梯度爆炸的風(fēng)險(xiǎn)大大降低。3??多個(gè)雙隨機(jī)矩陣連乘,結(jié)果還是雙隨機(jī)矩陣,所以深層網(wǎng)絡(luò)也能保持穩(wěn)定

實(shí)現(xiàn)上用經(jīng)典的Sinkhorn-Knopp算法,反復(fù)做行列歸一化,迭代20次就夠了。



3、工程優(yōu)化

mHC顯然需要大量對(duì)應(yīng)的工程優(yōu)化才能 work, 而且DeepSeek顯然是要在實(shí)際生產(chǎn)環(huán)境里用這東西的,所以花了不少篇幅講工程實(shí)現(xiàn)。

幾個(gè)關(guān)鍵優(yōu)化:Kernel Fusion(算子融合)、Recomputing(重計(jì)算)、DualPipe通信重疊(dualpipe 是 v3提的) 等等。

最終效果:在n=4時(shí),mHC只增加6.7%的訓(xùn)練時(shí)間開(kāi)銷。這個(gè)數(shù)字對(duì)于大規(guī)模訓(xùn)練來(lái)說(shuō)是可以接受的。

主要看27B模型的結(jié)果:

loss比baseline降0.021,比HC穩(wěn)

梯度范數(shù)平穩(wěn),HC則劇烈波動(dòng)

BBH、DROP、GSM8K等benchmark全面超baseline,多數(shù)超HC

信號(hào)增益幅度從HC的約3000降到約1.6,三個(gè)數(shù)量級(jí)

在 scaling實(shí)驗(yàn)中還做了3B、9B的模型,說(shuō)明這套方法在大模型上是通用的,且隨著算力增加優(yōu)勢(shì)依然存在,期待在百 b 甚至 T 以上的模型效果

感覺(jué)又要搞一波大的(是不是今年春節(jié),DeepSeek V4要來(lái)了?)

作者:AI Dance

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美方將對(duì)伊朗行動(dòng)評(píng)估為“高風(fēng)險(xiǎn)高回報(bào)”

美方將對(duì)伊朗行動(dòng)評(píng)估為“高風(fēng)險(xiǎn)高回報(bào)”

界面新聞
2026-02-28 23:17:08
新加坡第3冠!勒布倫兄弟3-0輕松登頂,林詩(shī)棟結(jié)束賽程1亞收官

新加坡第3冠!勒布倫兄弟3-0輕松登頂,林詩(shī)棟結(jié)束賽程1亞收官

乒談
2026-02-28 22:57:58
美以襲擊致伊朗201人死747人傷

美以襲擊致伊朗201人死747人傷

財(cái)聯(lián)社
2026-03-01 01:44:07
伊朗別慌,三招反擊美以聯(lián)軍,實(shí)用管用

伊朗別慌,三招反擊美以聯(lián)軍,實(shí)用管用

今日馬說(shuō)
2026-02-28 20:01:39
以色列突然襲擊伊朗,不是強(qiáng)拉美國(guó)上車,而是為特朗普緩解壓力

以色列突然襲擊伊朗,不是強(qiáng)拉美國(guó)上車,而是為特朗普緩解壓力

以辛德之名
2026-02-28 15:29:13
馬年首虎!涉嫌嚴(yán)重違紀(jì)違法,韓嵩被查

馬年首虎!涉嫌嚴(yán)重違紀(jì)違法,韓嵩被查

中國(guó)基金報(bào)
2026-02-28 20:55:42
再爆大冷6-4!霍金斯連勝世界第3第4,及第10吳宜澤,晉級(jí)決賽了

再爆大冷6-4!霍金斯連勝世界第3第4,及第10吳宜澤,晉級(jí)決賽了

小火箭愛(ài)體育
2026-03-01 01:02:25
大的要來(lái)了!中東大亂,A股這個(gè)板塊準(zhǔn)備集體漲停!

大的要來(lái)了!中東大亂,A股這個(gè)板塊準(zhǔn)備集體漲停!

新浪財(cái)經(jīng)
2026-02-28 21:57:11
訪華回國(guó)后默茨真急了:中國(guó)太拼,我們得加油了

訪華回國(guó)后默茨真急了:中國(guó)太拼,我們得加油了

界面新聞
2026-02-28 15:07:04
火力全開(kāi)!遭兩輪襲擊后,伊導(dǎo)彈霸氣回?fù)簦陨袛偱苹蛞虻降?>
    </a>
        <h3>
      <a href=策略述
2026-02-28 18:17:00
90分鐘就開(kāi)始反擊!美海軍第五艦隊(duì)總部遭伊朗導(dǎo)彈命中,情況如何

90分鐘就開(kāi)始反擊!美海軍第五艦隊(duì)總部遭伊朗導(dǎo)彈命中,情況如何

軍武次位面
2026-02-28 18:49:39
伊朗伊通社網(wǎng)站恢復(fù)正常運(yùn)行

伊朗伊通社網(wǎng)站恢復(fù)正常運(yùn)行

環(huán)球網(wǎng)資訊
2026-02-28 16:07:07
今夜無(wú)眠!剛剛,伊朗封鎖霍爾木茲海峽

今夜無(wú)眠!剛剛,伊朗封鎖霍爾木茲海峽

中國(guó)基金報(bào)
2026-03-01 00:22:11
6分鐘19個(gè)導(dǎo)彈連全軍覆沒(méi),82架戰(zhàn)機(jī)被擊落,此戰(zhàn)給我們敲響警鐘

6分鐘19個(gè)導(dǎo)彈連全軍覆沒(méi),82架戰(zhàn)機(jī)被擊落,此戰(zhàn)給我們敲響警鐘

混沌錄
2026-02-04 22:25:03
特朗普應(yīng)該想不到:他對(duì)伊朗的滅國(guó)之戰(zhàn),讓中俄歐看清了一個(gè)真相

特朗普應(yīng)該想不到:他對(duì)伊朗的滅國(guó)之戰(zhàn),讓中俄歐看清了一個(gè)真相

頭條爆料007
2026-02-28 18:49:20
擊落全部巡航導(dǎo)彈和高超音速導(dǎo)彈!俄軍最優(yōu)秀防空專家陣亡

擊落全部巡航導(dǎo)彈和高超音速導(dǎo)彈!俄軍最優(yōu)秀防空專家陣亡

鷹眼Defence
2026-02-28 16:56:22
伊朗媒體:伊朗最高領(lǐng)袖正坐鎮(zhèn)指揮

伊朗媒體:伊朗最高領(lǐng)袖正坐鎮(zhèn)指揮

澎湃新聞
2026-03-01 03:18:04
伊朗第10輪導(dǎo)彈射向以色列

伊朗第10輪導(dǎo)彈射向以色列

財(cái)聯(lián)社
2026-03-01 01:28:09
中華人民共和國(guó)正式向全世界宣告兩件大事:

中華人民共和國(guó)正式向全世界宣告兩件大事:

百態(tài)人間
2026-02-28 15:25:01
聯(lián)名活動(dòng)被指擦邊,中國(guó)郵政:已下架

聯(lián)名活動(dòng)被指擦邊,中國(guó)郵政:已下架

閃電新聞
2026-02-28 13:01:44
2026-03-01 03:52:49
知識(shí)圈 incentive-icons
知識(shí)圈
全球熱點(diǎn)新聞資訊
198文章數(shù) 317069關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

伊朗媒體公布反擊美軍軍事行動(dòng)結(jié)果

頭條要聞

伊朗媒體公布反擊美軍軍事行動(dòng)結(jié)果

體育要聞

球隊(duì)主力全報(bào)銷?頂風(fēng)擺爛演都不演了

娛樂(lè)要聞

周杰倫兒子正面照曝光,與父親好像

財(cái)經(jīng)要聞

沖突爆發(fā) 市場(chǎng)變天?

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

旅游
時(shí)尚
本地
教育
數(shù)碼

旅游要聞

忻州古城×元宵節(jié) | “夯”爆了!看非遺社火解鎖忻州古城的超長(zhǎng)年味!

這6款發(fā)色居然這么火?50張圖可以直接給tony

本地新聞

津南好·四時(shí)總相宜

教育要聞

初三不安排春假,最多可連休10天!一地率先公布!

數(shù)碼要聞

小米超薄充電寶亮相MWC,98g有多能打?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版