国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

【梁文鋒署名】DeepSeek新論文:所有人都覺(jué)得沒(méi)必要改的東西,他們改了

0
分享至

2025年的最后一天,DeepSeek又發(fā)論文了。


過(guò)去一年,很多人都在問(wèn)同一個(gè)問(wèn)題:DeepSeek為什么能用更少的錢(qián),做出更強(qiáng)的模型?

答案當(dāng)然不止一個(gè)。但這篇論文透露了其中一個(gè)思路:去優(yōu)化那些所有人都覺(jué)得"已經(jīng)是最優(yōu)解"的東西。

這次他們動(dòng)的是殘差連接——一個(gè)深度學(xué)習(xí)領(lǐng)域用了十年、幾乎沒(méi)人質(zhì)疑過(guò)的基礎(chǔ)設(shè)計(jì)。

論文名字有點(diǎn)硬核:mHC(Manifold-Constrained Hyper-Connections),翻譯過(guò)來(lái)就是"流形約束的超連接"。但核心思想其實(shí)不復(fù)雜,今天試著用人話講清楚。

先說(shuō)背景:殘差連接統(tǒng)治了深度學(xué)習(xí)十年

經(jīng)常訓(xùn)練大模型的朋友,一定聽(tīng)過(guò)"殘差連接"(Residual Connection)這個(gè)詞。

2015年,何愷明團(tuán)隊(duì)提出ResNet,核心創(chuàng)新就是這個(gè)殘差連接。簡(jiǎn)單說(shuō)就是:每一層的輸出 = 這一層學(xué)到的東西 + 上一層的輸入。

用公式表示:

x_{l+1} = x_l + F(x_l)

這個(gè)設(shè)計(jì)看起來(lái)簡(jiǎn)單,但解決了一個(gè)大問(wèn)題:網(wǎng)絡(luò)太深就訓(xùn)不動(dòng)

為什么?因?yàn)樘荻认?。信?hào)在幾十上百層網(wǎng)絡(luò)里傳遞,越傳越弱,最后弱到模型根本學(xué)不到東西。

殘差連接的妙處在于:它給信號(hào)開(kāi)了一條"快車(chē)道"。不管中間那些層學(xué)到了什么,原始信號(hào)都能直接傳到后面。這就是所謂的恒等映射(Identity Mapping)——淺層的信息可以原封不動(dòng)地傳到深層。

從2015年到現(xiàn)在,不管是GPT、LLaMA還是Gemini,幾乎所有大模型都在用這個(gè)設(shè)計(jì)。十年了,沒(méi)人動(dòng)過(guò)它。

DeepSeek的第一次嘗試:Hyper-Connections

2024年9月,DeepSeek發(fā)了一篇論文,提出了Hyper-Connections(HC),第一次對(duì)殘差連接動(dòng)刀。

核心思想是:既然殘差連接的權(quán)重是固定的(1:1),為什么不讓模型自己學(xué)習(xí)最優(yōu)的連接方式?

HC做了兩件事:

  1. 把殘差流從1條擴(kuò)展到n條(通常n=4)

  2. 引入可學(xué)習(xí)的連接矩陣,讓模型自己決定怎么混合這些信號(hào)

效果確實(shí)好。論文數(shù)據(jù)顯示:

  • 訓(xùn)練收斂速度提升1.8倍

  • ARC-Challenge任務(wù)提升6個(gè)百分點(diǎn)

這個(gè)提升挺猛的。但HC有一個(gè)致命缺陷——訓(xùn)練不穩(wěn)定。

HC的問(wèn)題:信號(hào)放大了3000倍

這是論文里最直觀的一張圖。


看左邊那條藍(lán)線(HC),在第12000步左右,損失突然飆升。這對(duì)大規(guī)模訓(xùn)練來(lái)說(shuō)是致命的——你可能已經(jīng)燒了幾百萬(wàn)的算力,結(jié)果模型突然崩了。

為什么會(huì)這樣?

論文里有詳細(xì)分析。核心原因是:HC破壞了恒等映射的特性。

還記得殘差連接的公式嗎?x_{l+1} = x_l + F(x_l)。這里的x_l是"1倍"傳遞到下一層的。但HC引入了可學(xué)習(xí)的權(quán)重矩陣H,信號(hào)傳遞變成了:

x_{l+1} = H * x_l + ...

問(wèn)題來(lái)了:H是可學(xué)習(xí)的,沒(méi)有任何約束。

當(dāng)網(wǎng)絡(luò)有60層時(shí),信號(hào)要經(jīng)過(guò)60個(gè)H矩陣的連乘。如果每個(gè)H的"放大倍數(shù)"稍微大于1,連乘60次會(huì)發(fā)生什么?

指數(shù)爆炸。

論文測(cè)量了這個(gè)"放大倍數(shù)"(Amax Gain Magnitude)。理想情況下應(yīng)該是1(信號(hào)不放大也不縮?。5獺C在27B模型上的實(shí)測(cè)結(jié)果是——

峰值達(dá)到3000

信號(hào)被放大了3000倍,梯度也被放大了3000倍。難怪訓(xùn)練會(huì)崩。

mHC的解法:雙隨機(jī)矩陣

現(xiàn)在問(wèn)題清楚了:H矩陣太"自由"了,沒(méi)有約束,所以會(huì)亂來(lái)。

那怎么約束它?

最簡(jiǎn)單的方法是讓H = I(單位矩陣),這樣就退化回原始的殘差連接了。但這樣就失去了HC的性能優(yōu)勢(shì)。

DeepSeek的解法很優(yōu)雅:把H約束在"雙隨機(jī)矩陣"上

什么是雙隨機(jī)矩陣?簡(jiǎn)單說(shuō)就是滿足兩個(gè)條件的矩陣:

  1. 所有元素都 ≥ 0

  2. 每行之和 = 1,每列之和 = 1

舉個(gè)例子,這是一個(gè)2×2的雙隨機(jī)矩陣:

[0.3, 0.7]
[0.7, 0.3]

每行加起來(lái)是1,每列加起來(lái)也是1。

為什么這個(gè)約束有效?

因?yàn)殡p隨機(jī)矩陣做的事情本質(zhì)上是"加權(quán)平均"。

當(dāng)你用雙隨機(jī)矩陣乘以一個(gè)向量時(shí),結(jié)果向量的每個(gè)元素都是輸入向量的凸組合(加權(quán)平均)。加權(quán)平均有一個(gè)天然的性質(zhì):結(jié)果不會(huì)超出輸入的范圍。

這就從數(shù)學(xué)上保證了信號(hào)不會(huì)爆炸。

更妙的是,雙隨機(jī)矩陣還有一個(gè)"封閉性":兩個(gè)雙隨機(jī)矩陣相乘,結(jié)果還是雙隨機(jī)矩陣。

這意味著不管網(wǎng)絡(luò)有多深,60層、100層、1000層,信號(hào)經(jīng)過(guò)多少個(gè)H矩陣的連乘,結(jié)果仍然是一個(gè)雙隨機(jī)矩陣,仍然滿足"不會(huì)爆炸"的性質(zhì)。

論文用了一個(gè)算法叫Sinkhorn-Knopp來(lái)做這個(gè)投影。具體細(xì)節(jié)不展開(kāi)了,核心就是迭代地調(diào)整矩陣的行和列,讓它們都?xì)w一化到和為1。

效果:穩(wěn)定性提升三個(gè)數(shù)量級(jí)

mHC的效果怎么樣?


先看穩(wěn)定性。同樣是27B模型,同樣的訓(xùn)練配置:

指標(biāo)

HC

mHC

Amax Gain峰值

3000

1.6

從3000降到1.6,降低了三個(gè)數(shù)量級(jí)。說(shuō)實(shí)話,看到這個(gè)數(shù)字的時(shí)候我愣了一下——這個(gè)改進(jìn)幅度有點(diǎn)離譜。

訓(xùn)練曲線也變得平滑了,再也沒(méi)有那個(gè)可怕的"損失飆升"。

再看性能。mHC不僅比原始的殘差連接強(qiáng),甚至比不穩(wěn)定的HC還要強(qiáng):

Benchmark

Baseline

HC

mHC

BBH

43.8

48.9

51.0

DROP

47.0

51.6

53.9

GSM8K

46.7

53.2

53.8

MMLU

59.0

63.0

63.4

mHC在大多數(shù)任務(wù)上都比HC更好,特別是推理任務(wù)(BBH +2.1%,DROP +2.3%)。

穩(wěn)定性提升了,性能也提升了。那代價(jià)呢?

只增加了6.7%的訓(xùn)練時(shí)間。

這個(gè)數(shù)字挺關(guān)鍵的。HC雖然不增加FLOPs(浮點(diǎn)運(yùn)算量),但因?yàn)閿U(kuò)展了殘差流寬度,內(nèi)存訪問(wèn)成本大幅增加。DeepSeek在論文里花了大量篇幅講基礎(chǔ)設(shè)施優(yōu)化——內(nèi)核融合、選擇性重計(jì)算、通信重疊——才把開(kāi)銷控制在這個(gè)水平。

為什么這個(gè)方法優(yōu)雅?

讀完這篇論文,我覺(jué)得mHC的設(shè)計(jì)挺漂亮的,主要體現(xiàn)在三個(gè)地方:

1. 問(wèn)題定義精準(zhǔn)

很多研究會(huì)籠統(tǒng)地說(shuō)"訓(xùn)練不穩(wěn)定",但DeepSeek精確地定位到了問(wèn)題根源:恒等映射特性的喪失導(dǎo)致信號(hào)在多層傳播時(shí)爆炸。有了這個(gè)精準(zhǔn)定義,解決方案才能有的放矢。

2. 解決方案有數(shù)學(xué)保證

雙隨機(jī)矩陣不是拍腦袋想出來(lái)的,而是有嚴(yán)格的數(shù)學(xué)性質(zhì)支撐:

  • 譜范數(shù) ≤ 1(不會(huì)放大信號(hào))

  • 組合封閉性(多層仍然穩(wěn)定)

  • Birkhoff多面體的幾何解釋(是所有置換矩陣的凸組合)

這種有數(shù)學(xué)保證的方法,比"試了一百種trick發(fā)現(xiàn)這個(gè)work"要可靠得多。

3. 工程和理論并重

很多論文只講理論創(chuàng)新,對(duì)工程實(shí)現(xiàn)一筆帶過(guò)。但DeepSeek的論文花了相當(dāng)篇幅講基礎(chǔ)設(shè)施優(yōu)化:怎么融合內(nèi)核、怎么減少內(nèi)存占用、怎么和DualPipe調(diào)度配合。這才是能真正落地的研究。

往大了說(shuō):DeepSeek在找什么?

回到開(kāi)頭的問(wèn)題:DeepSeek為什么能用更少的錢(qián)做出更強(qiáng)的模型?

這篇論文給出了一個(gè)側(cè)面的答案:他們?cè)谡夷切?所有人都覺(jué)得已經(jīng)是最優(yōu)解"的東西,然后證明它不是

過(guò)去十年,大模型的架構(gòu)創(chuàng)新主要集中在"微觀設(shè)計(jì)"——Attention怎么改、FFN怎么改、位置編碼怎么改。但殘差連接?從2015年到現(xiàn)在,幾乎原封不動(dòng)。大家默認(rèn)它沒(méi)什么可優(yōu)化的了。

mHC證明了這個(gè)假設(shè)是錯(cuò)的。

更重要的是,這種優(yōu)化的特點(diǎn)是:不增加計(jì)算量,只改變信息流動(dòng)的方式。同樣的FLOPs,更好的效果。

這可能就是DeepSeek的技術(shù)哲學(xué)之一:不是比誰(shuí)燒的錢(qián)多,而是比誰(shuí)能在同樣的資源下榨取更多性能。

當(dāng)然,mHC還解決了一個(gè)實(shí)際問(wèn)題:讓HC能穩(wěn)定訓(xùn)練。HC本身是個(gè)好方法,但因?yàn)椴环€(wěn)定沒(méi)法用。mHC修復(fù)了這個(gè)缺陷,讓這條架構(gòu)創(chuàng)新的路能走下去。

論文最后一句話說(shuō)得挺直接的:

"我們希望mHC能重新激發(fā)社區(qū)對(duì)宏觀架構(gòu)設(shè)計(jì)的興趣。"

翻譯一下:過(guò)去大家都在卷Attention、卷FFN、卷MoE。現(xiàn)在DeepSeek說(shuō),層與層之間怎么連接,這塊也有金礦。

最后

這篇論文給我最大的啟發(fā)是:當(dāng)你發(fā)現(xiàn)一個(gè)方法有效但不穩(wěn)定時(shí),不要放棄,而是去找約束條件

雙隨機(jī)矩陣就是這樣一個(gè)約束——它保留了HC的表達(dá)能力(可學(xué)習(xí)的連接權(quán)重),同時(shí)通過(guò)數(shù)學(xué)性質(zhì)保證了穩(wěn)定性(加權(quán)平均不會(huì)爆炸)。在自由和約束之間找平衡,這個(gè)思路可能在很多領(lǐng)域都適用。

回到開(kāi)頭的問(wèn)題:DeepSeek為什么能做到別人做不到的事?

這篇論文給出的答案是:去質(zhì)疑那些"所有人都覺(jué)得沒(méi)必要改"的東西。殘差連接用了十年,不代表它是最優(yōu)解。

2025年最后一天發(fā)這篇論文,DeepSeek給2026年開(kāi)了個(gè)好頭。

參考資料

  • mHC論文:https://arxiv.org/abs/2512.24880

  • Hyper-Connections論文:https://arxiv.org/abs/2409.19606

  • DeepSeek-V3技術(shù)報(bào)告:https://arxiv.org/abs/2412.19437

@Deepseek 用我奶奶也能懂的方式,用100字解釋下這篇論文。

奶奶,你想啊,AI訓(xùn)練就像帶熊孩子。 以前的規(guī)矩是:拉著手走,一步都不許亂動(dòng)。安全,但孩子啥也學(xué)不會(huì)。 后來(lái)有人說(shuō):放開(kāi)讓他跑吧。結(jié)果跑著跑著就跑丟了。 DeepSeek的辦法:讓孩子自己跑,但只能在圍欄里跑。怎么跑都行,反正跑不出去。 給自由畫(huà)個(gè)圈,這就是mHC。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
零跑汽車(chē)股價(jià)閃崩10%,董事長(zhǎng)高呼“活下來(lái)”!去年單車(chē)?yán)麧?rùn)只有1810元…

零跑汽車(chē)股價(jià)閃崩10%,董事長(zhǎng)高呼“活下來(lái)”!去年單車(chē)?yán)麧?rùn)只有1810元…

深藍(lán)財(cái)經(jīng)
2026-04-20 18:47:13
宇樹(shù)機(jī)器人打破人類1500米世界紀(jì)錄:1.9公里4分13秒自主跑完

宇樹(shù)機(jī)器人打破人類1500米世界紀(jì)錄:1.9公里4分13秒自主跑完

快科技
2026-04-19 07:47:05
杜蘭特傷情更新!G2出戰(zhàn)狀態(tài)最新消息

杜蘭特傷情更新!G2出戰(zhàn)狀態(tài)最新消息

行舟問(wèn)茶
2026-04-20 13:21:07
暴力抗法的拼多多,不送外賣(mài),卻被罰的最重,別讓低價(jià)毀了制造業(yè)

暴力抗法的拼多多,不送外賣(mài),卻被罰的最重,別讓低價(jià)毀了制造業(yè)

王新喜
2026-04-18 20:31:06
果然是有高人!你不是說(shuō)“臺(tái)灣有事,就是日本有事”嗎?

果然是有高人!你不是說(shuō)“臺(tái)灣有事,就是日本有事”嗎?

小熊看國(guó)際
2026-04-20 11:27:42
李春江是被做掉的?楊毅曝三年前假球內(nèi)幕:李楠講義氣史琳杰活該

李春江是被做掉的?楊毅曝三年前假球內(nèi)幕:李楠講義氣史琳杰活該

大嘴爵爺侃球
2026-04-20 20:56:47
選擇大于努力?看32歲凱恩與“降級(jí)教頭”如何在慕尼黑重寫(xiě)命運(yùn)!

選擇大于努力?看32歲凱恩與“降級(jí)教頭”如何在慕尼黑重寫(xiě)命運(yùn)!

落夜足球
2026-04-20 16:22:33
研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢(qián)越開(kāi)放!

研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢(qián)越開(kāi)放!

黯泉
2026-04-01 17:28:39
一個(gè)CLAUDE.md霸榜GitHub第一!蒸餾自Karpathy,6萬(wàn)碼農(nóng)抄作業(yè)

一個(gè)CLAUDE.md霸榜GitHub第一!蒸餾自Karpathy,6萬(wàn)碼農(nóng)抄作業(yè)

新智元
2026-04-20 15:10:13
郭德綱發(fā)文,德云社再變動(dòng),釋放3個(gè)強(qiáng)烈信號(hào),岳云鵬地位又變了

郭德綱發(fā)文,德云社再變動(dòng),釋放3個(gè)強(qiáng)烈信號(hào),岳云鵬地位又變了

阿纂看事
2026-04-20 16:35:53
蘇超的作業(yè),為什么抄不了?

蘇超的作業(yè),為什么抄不了?

城市研究室
2026-04-20 18:37:23
美政府將發(fā)布首批UFO文件

美政府將發(fā)布首批UFO文件

參考消息
2026-04-20 10:51:15
山東泰安一男子在減肥訓(xùn)練營(yíng)內(nèi)身亡 當(dāng)?shù)鼐揭呀槿胝{(diào)查 訓(xùn)練營(yíng):其剛?cè)霠I(yíng)還未開(kāi)始訓(xùn)練

山東泰安一男子在減肥訓(xùn)練營(yíng)內(nèi)身亡 當(dāng)?shù)鼐揭呀槿胝{(diào)查 訓(xùn)練營(yíng):其剛?cè)霠I(yíng)還未開(kāi)始訓(xùn)練

紅星新聞
2026-04-20 16:24:29
11年前優(yōu)衣庫(kù)男女主現(xiàn)狀曝光,他們還在一起生了兩個(gè)孩子

11年前優(yōu)衣庫(kù)男女主現(xiàn)狀曝光,他們還在一起生了兩個(gè)孩子

半糖甜而不膩
2026-04-06 12:09:15
4月20日俄烏最新:莫斯科火光沖天?

4月20日俄烏最新:莫斯科火光沖天?

西樓飲月
2026-04-20 19:58:50
這個(gè)國(guó)家快被中國(guó)“買(mǎi)”下!美女遍地,10個(gè)移民中就有9個(gè)中國(guó)人

這個(gè)國(guó)家快被中國(guó)“買(mǎi)”下!美女遍地,10個(gè)移民中就有9個(gè)中國(guó)人

凡知
2026-04-20 15:39:02
張倫碩估計(jì)挺后悔的,腦子正常一點(diǎn)的未婚男人,都不會(huì)娶她

張倫碩估計(jì)挺后悔的,腦子正常一點(diǎn)的未婚男人,都不會(huì)娶她

南萬(wàn)說(shuō)娛26
2026-04-20 11:50:09
不到24小時(shí),美國(guó)迎來(lái)3個(gè)噩耗,特朗普或?qū)⑾屡_(tái),伊最高領(lǐng)袖下場(chǎng)

不到24小時(shí),美國(guó)迎來(lái)3個(gè)噩耗,特朗普或?qū)⑾屡_(tái),伊最高領(lǐng)袖下場(chǎng)

知法而形
2026-04-20 12:08:23
與富商海外產(chǎn)子真相大白1年后,江疏影現(xiàn)狀曝光,王傳君真沒(méi)說(shuō)錯(cuò)

與富商海外產(chǎn)子真相大白1年后,江疏影現(xiàn)狀曝光,王傳君真沒(méi)說(shuō)錯(cuò)

青杉依舊啊啊
2026-04-21 00:43:07
超300萬(wàn)跌停封單,今日最慘股,連續(xù)下跌4個(gè)月后,又一字跌停!

超300萬(wàn)跌停封單,今日最慘股,連續(xù)下跌4個(gè)月后,又一字跌停!

丁丁鯉史紀(jì)
2026-04-20 15:33:38
2026-04-21 01:40:49
AI進(jìn)化論花生 incentive-icons
AI進(jìn)化論花生
AI博主,AppStore付費(fèi)榜第一的小貓補(bǔ)光燈app開(kāi)發(fā)者
188文章數(shù) 111關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價(jià)10999元起

頭條要聞

19歲女孩挪用自家1700萬(wàn)當(dāng)"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬(wàn)當(dāng)"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂(lè)要聞

《八千里路云和月》田家泰暗殺

財(cái)經(jīng)要聞

利潤(rùn)暴跌7成,字節(jié)到底在做什么

汽車(chē)要聞

把天門(mén)山搬進(jìn)廠?開(kāi)仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

家居
數(shù)碼
健康
房產(chǎn)
公開(kāi)課

家居要聞

自然慢調(diào) 慢享時(shí)光

數(shù)碼要聞

REDMI 顯示器 G Pro 27U 2026輕體驗(yàn):電競(jìng)利器 桌面上的“小鋼炮”

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

房產(chǎn)要聞

大規(guī)模商改住!海口西海岸,這波項(xiàng)目要贏麻了!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版