国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

剛剛,梁文鋒署名,DeepSeek元旦新論文要開(kāi)啟架構(gòu)新篇章

0
分享至

新年第一天,DeepSeek 發(fā)布了一篇新論文,提出了一種名為mHC(流形約束超連接)的新架構(gòu)。

該研究旨在解決傳統(tǒng)超連接在大規(guī)模模型訓(xùn)練中的不穩(wěn)定性問(wèn)題,同時(shí)保持其顯著的性能增益 。

簡(jiǎn)單來(lái)說(shuō),DeepSeek 提出的 mHC 通過(guò)將傳統(tǒng) Transformer 的單一殘差流擴(kuò)展為多流并行架構(gòu),并利用 Sinkhorn-Knopp 算法將連接矩陣約束在雙擬隨機(jī)矩陣流形上,成功解決了超連接(HC)在大規(guī)模訓(xùn)練中因破壞恒等映射屬性而導(dǎo)致的數(shù)值不穩(wěn)定和信號(hào)爆炸問(wèn)題。


論文標(biāo)題:mHC: Manifold-Constrained Hyper-Connections

論文地址:https://arxiv.org/pdf/2512.24880

這篇論文的第一作者有三位:Zhenda Xie(解振達(dá))、Yixuan Wei(韋毅軒)、Huanqi Cao。值得注意的是,DeepSeek 創(chuàng)始人 & CEO 梁文鋒也在作者名單中。

傳統(tǒng)的殘差連接(即 Transformer 中的 x + F (x) 結(jié)構(gòu))憑借「恒等映射」保證了信號(hào)無(wú)損傳輸和訓(xùn)練穩(wěn)定性。但它的瓶頸在于信息通道的寬度受限于隱藏層維度 C。

近期,以 Hyper-Connections (HC) 為代表的研究,通過(guò)擴(kuò)展殘差流寬度和多樣化連接模式,拓展了過(guò)去十年中廣泛應(yīng)用的殘差連接范式。

雖然這些方法帶來(lái)了顯著的性能提升,但但也帶來(lái)了兩個(gè)嚴(yán)重問(wèn)題:

數(shù)值不穩(wěn)定性: 原始的 HC 中,連接矩陣是自由學(xué)習(xí)的,沒(méi)有約束。這導(dǎo)致信號(hào)在經(jīng)過(guò)多層傳播后,數(shù)值會(huì)「爆炸」或「消失」,破壞了恒等映射的特性,模型越深越難訓(xùn)練。

系統(tǒng)開(kāi)銷大: 通道變寬意味著顯存讀寫(xiě) (I/O) 和通信成本成倍增加,也就是所謂的「顯存墻」問(wèn)題。

從根本上破壞了殘差連接固有的恒等映射屬性,導(dǎo)致了嚴(yán)重的訓(xùn)練不穩(wěn)定性和受限的可擴(kuò)展性,并額外增加了顯著的內(nèi)存訪問(wèn)開(kāi)銷。

為了解決這些挑戰(zhàn),DeepSeek 的研究團(tuán)隊(duì)提出了Manifold-Constrained Hyper-Connections (mHC,流形約束超連接)。

這是一個(gè)通用框架,它將 HC 的殘差連接空間投影到一個(gè)特定的流形上,以恢復(fù)恒等映射屬性,同時(shí)結(jié)合嚴(yán)格的基礎(chǔ)設(shè)施優(yōu)化以確保效率。

它的核心目的是:在保留「加寬殘差流」帶來(lái)的性能提升的同時(shí),解決其導(dǎo)致的訓(xùn)練不穩(wěn)定和顯存消耗過(guò)大的問(wèn)題。

團(tuán)隊(duì)利用Sinkhorn-Knopp 算法將殘差連接矩陣投影到 Birkhoff 多胞形(雙隨機(jī)矩陣)上。這使得信號(hào)傳播變?yōu)樘卣鞯摹竿菇M合」,從數(shù)學(xué)上嚴(yán)格保證了信號(hào)范數(shù)的穩(wěn)定性(能量守恒)。為了抵消加寬通道帶來(lái)的開(kāi)銷,團(tuán)隊(duì)實(shí)施了內(nèi)核融合、選擇性重計(jì)算以及擴(kuò)展的 DualPipe 通信計(jì)算重疊策略。

實(shí)證表明,mHC 不僅解決了穩(wěn)定性問(wèn)題,且在大規(guī)模訓(xùn)練中(如 27B 模型)表現(xiàn)出卓越的可擴(kuò)展性。在 n=4 的擴(kuò)展倍率下,僅增加了 6.7% 的訓(xùn)練時(shí)間開(kāi)銷,卻換來(lái)了顯著的性能提升。mHC 為基礎(chǔ)模型的拓?fù)浼軜?gòu)演進(jìn)指明了方向。


圖 1:殘差連接范式示意圖。 本圖對(duì)比了以下三種結(jié)構(gòu)設(shè)計(jì): (a) 標(biāo)準(zhǔn)殘差連接(Residual Connection); (b) Hyper-Connections (HC); (c) 我們提出的 Manifold-Constrained Hyper-Connections (mHC)。與無(wú)約束的 HC 不同,mHC 專注于優(yōu)化殘差連接空間,通過(guò)將矩陣投影到受約束的流形上,以確保穩(wěn)定性。具體方法介紹流形約束超連接 (mHC)

借鑒恒等映射(Identity Mapping)原則,mHC 的核心前提是將殘差映射

約束在一個(gè)特定的流形上。

雖然原始的恒等映射是通過(guò)強(qiáng)制執(zhí)行

來(lái)確保穩(wěn)定性,但它能從根本上阻止殘差流內(nèi)部的信息交換,而這種交換對(duì)于最大化多流架構(gòu)的潛力至關(guān)重要。

因此,該 DeepSeek 團(tuán)隊(duì)提出將殘差映射投影到一個(gè)流形上,既能保持跨層信號(hào)傳播的穩(wěn)定性,又能促進(jìn)殘差流之間的相互作用,以保持模型的表達(dá)能力(expressivity)。

為此,他們的做法是將

限制為雙擬隨機(jī)矩陣(Doubly Stochastic Matrix),即具有非負(fù)項(xiàng)且行和與列和均為 1 的矩陣。

形式上,令

表示雙擬隨機(jī)矩陣的流形(也稱為 Birkhoff 多胞形),再將

約束在

中,定義為:

其中 1_n 表示全 1 的 n 維向量。

為什么選擇雙擬隨機(jī)性?因?yàn)槠渚哂卸囗?xiàng)有利于大規(guī)模訓(xùn)練的理論屬性:

范數(shù)保持:其譜范數(shù)有界且不超過(guò) 1(即

),這意味著學(xué)習(xí)到的映射是非擴(kuò)張的,可有效緩解梯度爆炸問(wèn)題。

復(fù)合封閉性:雙擬隨機(jī)矩陣集對(duì)矩陣乘法具有封閉性,確保了跨多層的復(fù)合殘差映射仍保持雙擬隨機(jī),從而可在整個(gè)模型深度上維持穩(wěn)定性。

幾何解釋:該集合構(gòu)成了 Birkhoff 多胞形,是排列矩陣集的凸包。這意味著殘差映射充當(dāng)了排列的凸組合,其重復(fù)應(yīng)用會(huì)單調(diào)地增加跨流的信息混合,起到魯棒的特征融合作用。

此外,該團(tuán)隊(duì)還對(duì)輸入映射

和輸出映射

施加了非負(fù)約束,以防止因正負(fù)系數(shù)復(fù)合導(dǎo)致的信號(hào)抵消。

參數(shù)化與流形投影

本節(jié)將詳述 mHC 中各映射的計(jì)算過(guò)程。

給定第 l 層的輸入隱藏矩陣 x_l,先將其展平為向量

以保留完整的上下文信息。然后,按照 HC 的原始公式獲取動(dòng)態(tài)映射和靜態(tài)映射:


最終的約束映射通過(guò)以下方式獲得:


其中

是 Sigmoid 函數(shù)。Sinkhorn-Knopp 算子首先通過(guò)指數(shù)操作確保所有元素為正,然后進(jìn)行迭代規(guī)范化,交替縮放行和列使其和為 1。

DeepSeek 在實(shí)驗(yàn)中采用 t_max=20 次迭代。

高效基礎(chǔ)設(shè)施設(shè)計(jì)

DeepSeek 還為 mHC 量身定制了基礎(chǔ)設(shè)施設(shè)計(jì),使其在 n=4 時(shí)在大模型中的訓(xùn)練開(kāi)銷僅增加 6.7%:

算子融合 (Kernel Fusion):

重新調(diào)整 RMSNorm 的順序以提高效率,并采用混合精度策略。

開(kāi)發(fā)了統(tǒng)一的算子,將多次掃描和矩陣乘法融合,減少內(nèi)存帶寬瓶頸和算子啟動(dòng)開(kāi)銷。

在單個(gè)算子中實(shí)現(xiàn) Sinkhorn-Knopp 迭代及其自定義反向傳播。

的應(yīng)用與殘差合并融合,顯著減少了內(nèi)存讀寫(xiě)量。

重計(jì)算 (Recomputing):

為了減輕 n 流設(shè)計(jì)帶來(lái)的內(nèi)存壓力,DeepSeek 在前向傳播后丟棄 mHC 算子的中間激活,并在反向傳播時(shí)即時(shí)重新計(jì)算。

通過(guò)推導(dǎo)得出最優(yōu)重計(jì)算塊大小 L_r^*,以最小化總內(nèi)存占用。

DualPipe 中的通信重疊:

擴(kuò)展了 DualPipe 調(diào)度算法,以改善流水線并行階段邊界處的通信與計(jì)算重疊在專用高優(yōu)先級(jí)計(jì)算流上執(zhí)行 MLP 層的內(nèi)核,并避免在注意力層使用持久算子,以防止阻塞通信流并提高設(shè)備利用率。

實(shí)驗(yàn)實(shí)驗(yàn)設(shè)置

研究團(tuán)隊(duì)通過(guò)語(yǔ)言模型預(yù)訓(xùn)練來(lái)驗(yàn)證所提方法的有效性,并對(duì)基線模型、超連接(HC)以及提出的流形約束超連接(mHC)進(jìn)行了對(duì)比分析。

他們采用了受 DeepSeek-V3 啟發(fā)的 MoE 架構(gòu),訓(xùn)練了四種不同的模型變體,以覆蓋不同的評(píng)估體系。

具體而言,HC 和 mHC 的擴(kuò)展率 n 均設(shè)置為 4,主要關(guān)注點(diǎn)是一個(gè) 27B 參數(shù)規(guī)模的模型。其訓(xùn)練數(shù)據(jù)集的大小與其參數(shù)量成正比,該模型用于展示系統(tǒng)層面的主要結(jié)果。在此基礎(chǔ)上,他們通過(guò)引入使用成比例數(shù)據(jù)訓(xùn)練的較小的 3B 和 9B 模型來(lái)分析計(jì)算擴(kuò)展性,從而觀察不同計(jì)算規(guī)模下的性能趨勢(shì)。此外,為了專門(mén)研究 Token 規(guī)模的影響,他們另外訓(xùn)練了一個(gè)獨(dú)立的 3B 模型,該模型在一個(gè)固定的 1T Token 的語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練。



主要結(jié)果



圖 5:流形約束超連接 (mHC) 的訓(xùn)練穩(wěn)定性。 該圖展示了:(a) mHC 和 HC 相對(duì)于基線模型的訓(xùn)練損失絕對(duì)差值;(b) 三種方法在訓(xùn)練過(guò)程中的梯度范數(shù)。所有實(shí)驗(yàn)均基于 27B 參數(shù)規(guī)模的模型。實(shí)驗(yàn)結(jié)果表明,mHC 在損失函數(shù)和梯度范數(shù)兩方面均表現(xiàn)出更優(yōu)的穩(wěn)定性。

研究團(tuán)隊(duì)首先考察 27B 模型的訓(xùn)練穩(wěn)定性和收斂性。如圖 5 (a) 所示,mHC 有效緩解了在 HC 中觀察到的訓(xùn)練不穩(wěn)定問(wèn)題,與基線模型相比,最終損失降低了 0.021。圖 5 (b) 中的梯度范數(shù)分析進(jìn)一步證實(shí)了這種穩(wěn)定性的提升:mHC 表現(xiàn)出明顯優(yōu)于 HC 的行為,保持了與基線模型相當(dāng)?shù)姆€(wěn)定輪廓。



表 4:27B 模型在系統(tǒng)級(jí)基準(zhǔn)測(cè)試上的結(jié)果。 本表對(duì)比了基線模型、HC 以及 mHC 在 8 個(gè)不同的下游基準(zhǔn)測(cè)試中的零樣本和少樣本性能表現(xiàn)。結(jié)果顯示,mHC 始終優(yōu)于基線模型,并在大多數(shù)基準(zhǔn)測(cè)試中超越了 HC,證明了其在大規(guī)模預(yù)訓(xùn)練中的有效性。

表 4 展示了在多種下游基準(zhǔn)測(cè)試中的性能表現(xiàn)。mHC 帶來(lái)了全面的提升,一致性地優(yōu)于基線模型,并在大多數(shù)任務(wù)上超過(guò)了 HC。值得注意的是,與 HC 相比,mHC 進(jìn)一步增強(qiáng)了模型的推理能力,在 BBH 和 DROP 任務(wù)上分別實(shí)現(xiàn)了 2.1% 和 2.3% 的性能增益。

規(guī)模擴(kuò)展實(shí)驗(yàn)



圖 6:mHC 與基線模型的擴(kuò)展特性對(duì)比。 (a) 計(jì)算擴(kuò)展曲線:實(shí)線描繪了在不同計(jì)算預(yù)算下的性能差距。每個(gè)點(diǎn)代表模型大小與數(shù)據(jù)集大小的最優(yōu)計(jì)算配置,涵蓋了從 3B、9B 到 27B 參數(shù)規(guī)模的規(guī)模擴(kuò)展過(guò)程。 (b) Token 擴(kuò)展曲線:展示了 3B 模型在訓(xùn)練過(guò)程中的軌跡。每個(gè)點(diǎn)代表模型在不同訓(xùn)練 Token 數(shù)量下的性能表現(xiàn)。

為了評(píng)估該方法的擴(kuò)展性,研究者報(bào)告了在不同規(guī)模下 mHC 相對(duì)于基線模型的損失改善情況。在圖 6 (a) 中,他們繪制了涵蓋 3B、9B 和 27B 參數(shù)規(guī)模的計(jì)算規(guī)模擴(kuò)展曲線。其軌跡表明,即使在更高的計(jì)算預(yù)算下,性能優(yōu)勢(shì)依然穩(wěn)健地得以保持,僅表現(xiàn)出輕微的衰減。

此外,他們?cè)趫D 6 (b) 中考察了訓(xùn)練過(guò)程中的動(dòng)態(tài)變化,展示了 3B 模型的 Token 擴(kuò)展曲線。總的來(lái)看,這些發(fā)現(xiàn)驗(yàn)證了 mHC 在大規(guī)模場(chǎng)景下的有效性。這一結(jié)論在他們內(nèi)部的大規(guī)模訓(xùn)練實(shí)驗(yàn)中得到了進(jìn)一步的證實(shí)。

更多詳情請(qǐng)參閱原論文。

? THE END

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
廣西夜市偶遇韋雪,真人撞臉楊冪,吃東西張不開(kāi)嘴,頂一張面具臉

廣西夜市偶遇韋雪,真人撞臉楊冪,吃東西張不開(kāi)嘴,頂一張面具臉

離離言幾許
2026-02-25 13:49:18
最新數(shù)據(jù):爾灣居民年薪$10萬(wàn),購(gòu)買(mǎi)力僅不到$6.6萬(wàn),難怪都搬到德州!

最新數(shù)據(jù):爾灣居民年薪$10萬(wàn),購(gòu)買(mǎi)力僅不到$6.6萬(wàn),難怪都搬到德州!

大洛杉磯LA
2026-02-26 01:08:14
錢(qián)再多又有什么用?向華強(qiáng)公布遺囑細(xì)節(jié),兩個(gè)要求嚴(yán)控孫子孫女

錢(qián)再多又有什么用?向華強(qiáng)公布遺囑細(xì)節(jié),兩個(gè)要求嚴(yán)控孫子孫女

離離言幾許
2026-02-26 03:42:39
28分鐘狂砍0+0+0+0+0!還有誰(shuí)能做到?

28分鐘狂砍0+0+0+0+0!還有誰(shuí)能做到?

小染說(shuō)臺(tái)球
2026-02-25 08:44:04
上海市中心將建兩所中學(xué),落地這里!蘭生新校推進(jìn)!各區(qū)學(xué)校“上新”

上海市中心將建兩所中學(xué),落地這里!蘭生新校推進(jìn)!各區(qū)學(xué)?!吧闲隆?/a>

隨申Hi
2026-02-25 14:01:13
侃爺夫婦:一個(gè)不穿鞋賣(mài)鞋,一個(gè)敢穿到出圈,畫(huà)風(fēng)絕了

侃爺夫婦:一個(gè)不穿鞋賣(mài)鞋,一個(gè)敢穿到出圈,畫(huà)風(fēng)絕了

述家?jiàn)视?/span>
2026-02-23 21:23:16
美國(guó)人預(yù)測(cè):未來(lái)20年,世界上最強(qiáng)大的7個(gè)國(guó)家,看都有誰(shuí)?

美國(guó)人預(yù)測(cè):未來(lái)20年,世界上最強(qiáng)大的7個(gè)國(guó)家,看都有誰(shuí)?

顧史
2026-02-15 19:36:00
崩潰前的又一條裂縫——厄瓜多爾退出聯(lián)合國(guó)巴勒斯坦人民行使不可剝奪權(quán)利委員會(huì)

崩潰前的又一條裂縫——厄瓜多爾退出聯(lián)合國(guó)巴勒斯坦人民行使不可剝奪權(quán)利委員會(huì)

老王說(shuō)正義
2026-02-26 00:26:59
燒光10億,下載暴跌!騰訊元寶,輸慘了!

燒光10億,下載暴跌!騰訊元寶,輸慘了!

功夫財(cái)經(jīng)
2026-02-25 08:57:30
ESPN NBA分析師:如果勒布朗·詹姆斯不在湖人隊(duì),球隊(duì)會(huì)更強(qiáng)

ESPN NBA分析師:如果勒布朗·詹姆斯不在湖人隊(duì),球隊(duì)會(huì)更強(qiáng)

好火子
2026-02-26 00:30:01
棄用王牌!日本新帥用藍(lán)領(lǐng)歸化,2米23高塔馳援郭士強(qiáng),成勝負(fù)手

棄用王牌!日本新帥用藍(lán)領(lǐng)歸化,2米23高塔馳援郭士強(qiáng),成勝負(fù)手

光輝記
2026-02-26 05:03:43
娜然跟霍啟山回香港!男友忙工作她逛街消費(fèi),娜然臉腫開(kāi)始幸福肥

娜然跟霍啟山回香港!男友忙工作她逛街消費(fèi),娜然臉腫開(kāi)始幸福肥

琴聲飛揚(yáng)
2026-02-23 11:43:07
志愿軍的“最狠連長(zhǎng)”,帶著1個(gè)連葬送敵軍3個(gè)師,回國(guó)后當(dāng)上師長(zhǎng)

志愿軍的“最狠連長(zhǎng)”,帶著1個(gè)連葬送敵軍3個(gè)師,回國(guó)后當(dāng)上師長(zhǎng)

聞識(shí)
2026-02-26 02:56:44
美財(cái)政部發(fā)布涉伊朗最新制裁名單

美財(cái)政部發(fā)布涉伊朗最新制裁名單

澎湃新聞
2026-02-26 02:02:05
2015年,二胎政策推出,翟振武教授:中國(guó)每年將新增2000萬(wàn)新生兒

2015年,二胎政策推出,翟振武教授:中國(guó)每年將新增2000萬(wàn)新生兒

南權(quán)先生
2026-02-24 15:55:07
iPhone 18 Pro靈動(dòng)島縮小35%,將首發(fā)搭載基于臺(tái)積電2nm工藝制造的A20 Pro芯片

iPhone 18 Pro靈動(dòng)島縮小35%,將首發(fā)搭載基于臺(tái)積電2nm工藝制造的A20 Pro芯片

中國(guó)能源網(wǎng)
2026-02-24 12:01:06
朝鮮人對(duì)中國(guó)人是怎樣的態(tài)度?讓我告訴你真相

朝鮮人對(duì)中國(guó)人是怎樣的態(tài)度?讓我告訴你真相

世界圈
2026-02-24 19:20:21
加盟火箭二隊(duì)后表現(xiàn)明顯提升了,鋒線新秀真是樹(shù)挪死人挪活?

加盟火箭二隊(duì)后表現(xiàn)明顯提升了,鋒線新秀真是樹(shù)挪死人挪活?

稻谷與小麥
2026-02-26 01:32:49
Coco說(shuō)她很懷念在香港的日子,很懷念和謝賢在一起的12年

Coco說(shuō)她很懷念在香港的日子,很懷念和謝賢在一起的12年

西樓知趣雜談
2026-02-19 21:09:49
國(guó)家正式公布:3月30日起,全國(guó)統(tǒng)一執(zhí)行,老墳有新規(guī)定

國(guó)家正式公布:3月30日起,全國(guó)統(tǒng)一執(zhí)行,老墳有新規(guī)定

老特有話說(shuō)
2026-02-24 23:23:24
2026-02-26 06:24:49
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5374文章數(shù) 64616關(guān)注度
往期回顧 全部

科技要聞

“機(jī)器人只跳舞,沒(méi)什么用”

頭條要聞

醫(yī)生被指未完成創(chuàng)收指標(biāo)被待崗 官方通報(bào)

頭條要聞

醫(yī)生被指未完成創(chuàng)收指標(biāo)被待崗 官方通報(bào)

體育要聞

勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

娛樂(lè)要聞

黃曉明新戀情!與小22歲美女同游新加坡

財(cái)經(jīng)要聞

上海樓市放大招,地產(chǎn)預(yù)期別太大

汽車(chē)要聞

750km超長(zhǎng)續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

游戲
時(shí)尚
本地
旅游
數(shù)碼

《如龍極3》中文配音訪談:中文配音與本地化并非易事

“復(fù)古甜心”穿搭突然大火!春天穿時(shí)髦又減齡

本地新聞

津南好·四時(shí)總相宜

旅游要聞

赴日中國(guó)游客較去年銳減50%,泰國(guó)、韓國(guó)接住這波“紅利”

數(shù)碼要聞

三星發(fā)布 Galaxy Buds 4 與 Buds 4 Pro 耳機(jī)產(chǎn)品

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版