国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

梁文鋒署名,DeepSeek元旦新論文要開(kāi)啟架構(gòu)新篇章

0
分享至



機(jī)器之心編輯部

新年第一天,DeepSeek 發(fā)布了一篇新論文,提出了一種名為mHC(流形約束超連接)的新架構(gòu)。

該研究旨在解決傳統(tǒng)超連接在大規(guī)模模型訓(xùn)練中的不穩(wěn)定性問(wèn)題,同時(shí)保持其顯著的性能增益 。

簡(jiǎn)單來(lái)說(shuō),DeepSeek 提出的 mHC 通過(guò)將傳統(tǒng) Transformer 的單一殘差流擴(kuò)展為多流并行架構(gòu),并利用 Sinkhorn-Knopp 算法將連接矩陣約束在雙擬隨機(jī)矩陣流形上,成功解決了超連接(HC)在大規(guī)模訓(xùn)練中因破壞恒等映射屬性而導(dǎo)致的數(shù)值不穩(wěn)定和信號(hào)爆炸問(wèn)題。



  • 論文標(biāo)題:mHC: Manifold-Constrained Hyper-Connections
  • 論文地址:https://arxiv.org/pdf/2512.24880

這篇論文的第一作者有三位:Zhenda Xie(解振達(dá))、Yixuan Wei(韋毅軒)、Huanqi Cao。值得注意的是,DeepSeek 創(chuàng)始人 & CEO 梁文鋒也在作者名單中。

傳統(tǒng)的殘差連接(即 Transformer 中的 x + F (x) 結(jié)構(gòu))憑借「恒等映射」保證了信號(hào)無(wú)損傳輸和訓(xùn)練穩(wěn)定性。但它的瓶頸在于信息通道的寬度受限于隱藏層維度 C。

近期,以字節(jié)跳動(dòng)Seed團(tuán)隊(duì)提出的 Hyper-Connections (HC) 為代表的研究,通過(guò)擴(kuò)展殘差流寬度和多樣化連接模式,拓展了過(guò)去十年中廣泛應(yīng)用的殘差連接范式。

雖然這些方法帶來(lái)了顯著的性能提升,但但也帶來(lái)了兩個(gè)嚴(yán)重問(wèn)題:

  • 數(shù)值不穩(wěn)定性: 原始的 HC 中,連接矩陣是自由學(xué)習(xí)的,沒(méi)有約束。這導(dǎo)致信號(hào)在經(jīng)過(guò)多層傳播后,數(shù)值會(huì)「爆炸」或「消失」,破壞了恒等映射的特性,模型越深越難訓(xùn)練。
  • 系統(tǒng)開(kāi)銷(xiāo)大: 通道變寬意味著顯存讀寫(xiě) (I/O) 和通信成本成倍增加,也就是所謂的「顯存墻」問(wèn)題。

從根本上破壞了殘差連接固有的恒等映射屬性,導(dǎo)致了嚴(yán)重的訓(xùn)練不穩(wěn)定性和受限的可擴(kuò)展性,并額外增加了顯著的內(nèi)存訪問(wèn)開(kāi)銷(xiāo)。

為了解決這些挑戰(zhàn),DeepSeek 的研究團(tuán)隊(duì)提出了Manifold-Constrained Hyper-Connections (mHC,流形約束超連接)。

這是一個(gè)通用框架,它將 HC 的殘差連接空間投影到一個(gè)特定的流形上,以恢復(fù)恒等映射屬性,同時(shí)結(jié)合嚴(yán)格的基礎(chǔ)設(shè)施優(yōu)化以確保效率。

它的核心目的是:在保留「加寬殘差流」帶來(lái)的性能提升的同時(shí),解決其導(dǎo)致的訓(xùn)練不穩(wěn)定和顯存消耗過(guò)大的問(wèn)題。

團(tuán)隊(duì)利用Sinkhorn-Knopp 算法將殘差連接矩陣投影到 Birkhoff 多胞形(雙隨機(jī)矩陣)上。這使得信號(hào)傳播變?yōu)樘卣鞯摹竿菇M合」,從數(shù)學(xué)上嚴(yán)格保證了信號(hào)范數(shù)的穩(wěn)定性(能量守恒)。為了抵消加寬通道帶來(lái)的開(kāi)銷(xiāo),團(tuán)隊(duì)實(shí)施了內(nèi)核融合、選擇性重計(jì)算以及擴(kuò)展的 DualPipe 通信計(jì)算重疊策略。

實(shí)證表明,mHC 不僅解決了穩(wěn)定性問(wèn)題,且在大規(guī)模訓(xùn)練中(如 27B 模型)表現(xiàn)出卓越的可擴(kuò)展性。在 n=4 的擴(kuò)展倍率下,僅增加了 6.7% 的訓(xùn)練時(shí)間開(kāi)銷(xiāo),卻換來(lái)了顯著的性能提升。mHC 為基礎(chǔ)模型的拓?fù)浼軜?gòu)演進(jìn)指明了方向。



圖 1:殘差連接范式示意圖。 本圖對(duì)比了以下三種結(jié)構(gòu)設(shè)計(jì): (a) 標(biāo)準(zhǔn)殘差連接(Residual Connection); (b) Hyper-Connections (HC); (c) 我們提出的 Manifold-Constrained Hyper-Connections (mHC)。與無(wú)約束的 HC 不同,mHC 專(zhuān)注于優(yōu)化殘差連接空間,通過(guò)將矩陣投影到受約束的流形上,以確保穩(wěn)定性。

具體方法介紹

流形約束超連接 (mHC)

借鑒恒等映射(Identity Mapping)原則,mHC 的核心前提是將殘差映射

雖然原始的恒等映射是通過(guò)強(qiáng)制執(zhí)行



因此,該 DeepSeek 團(tuán)隊(duì)提出將殘差映射投影到一個(gè)流形上,既能保持跨層信號(hào)傳播的穩(wěn)定性,又能促進(jìn)殘差流之間的相互作用,以保持模型的表達(dá)能力(expressivity)。

為此,他們的做法是將

形式上,令







其中 1_n 表示全 1 的 n 維向量。

為什么選擇雙擬隨機(jī)性?因?yàn)槠渚哂卸囗?xiàng)有利于大規(guī)模訓(xùn)練的理論屬性:

  • ),這意味著學(xué)習(xí)到的映射是非擴(kuò)張的,可有效緩解梯度爆炸問(wèn)題。
  • 范數(shù)保持:其譜范數(shù)有界且不超過(guò) 1(即



  • 復(fù)合封閉性:雙擬隨機(jī)矩陣集對(duì)矩陣乘法具有封閉性,確保了跨多層的復(fù)合殘差映射仍保持雙擬隨機(jī),從而可在整個(gè)模型深度上維持穩(wěn)定性。
  • 幾何解釋?zhuān)涸摷蠘?gòu)成了 Birkhoff 多胞形,是排列矩陣集的凸包。這意味著殘差映射充當(dāng)了排列的凸組合,其重復(fù)應(yīng)用會(huì)單調(diào)地增加跨流的信息混合,起到魯棒的特征融合作用。

此外,該團(tuán)隊(duì)還對(duì)輸入映射



參數(shù)化與流形投影

本節(jié)將詳述 mHC 中各映射的計(jì)算過(guò)程。

給定第 l 層的輸入隱藏矩陣 x_l,先將其展平為向量





最終的約束映射通過(guò)以下方式獲得:



其中



DeepSeek 在實(shí)驗(yàn)中采用 t_max=20 次迭代。

高效基礎(chǔ)設(shè)施設(shè)計(jì)

DeepSeek 還為 mHC 量身定制了基礎(chǔ)設(shè)施設(shè)計(jì),使其在 n=4 時(shí)在大模型中的訓(xùn)練開(kāi)銷(xiāo)僅增加 6.7%:

算子融合 (Kernel Fusion):

重新調(diào)整 RMSNorm 的順序以提高效率,并采用混合精度策略。

開(kāi)發(fā)了統(tǒng)一的算子,將多次掃描和矩陣乘法融合,減少內(nèi)存帶寬瓶頸和算子啟動(dòng)開(kāi)銷(xiāo)。

在單個(gè)算子中實(shí)現(xiàn) Sinkhorn-Knopp 迭代及其自定義反向傳播。



重計(jì)算 (Recomputing):

為了減輕 n 流設(shè)計(jì)帶來(lái)的內(nèi)存壓力,DeepSeek 在前向傳播后丟棄 mHC 算子的中間激活,并在反向傳播時(shí)即時(shí)重新計(jì)算。

通過(guò)推導(dǎo)得出最優(yōu)重計(jì)算塊大小 L_r^*,以最小化總內(nèi)存占用。

DualPipe 中的通信重疊:

擴(kuò)展了 DualPipe 調(diào)度算法,以改善流水線并行階段邊界處的通信與計(jì)算重疊在專(zhuān)用高優(yōu)先級(jí)計(jì)算流上執(zhí)行 MLP 層的內(nèi)核,并避免在注意力層使用持久算子,以防止阻塞通信流并提高設(shè)備利用率。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

研究團(tuán)隊(duì)通過(guò)語(yǔ)言模型預(yù)訓(xùn)練來(lái)驗(yàn)證所提方法的有效性,并對(duì)基線模型、超連接(HC)以及提出的流形約束超連接(mHC)進(jìn)行了對(duì)比分析。

他們采用了受 DeepSeek-V3 啟發(fā)的 MoE 架構(gòu),訓(xùn)練了四種不同的模型變體,以覆蓋不同的評(píng)估體系。

具體而言,HC 和 mHC 的擴(kuò)展率 n 均設(shè)置為 4,主要關(guān)注點(diǎn)是一個(gè) 27B 參數(shù)規(guī)模的模型。其訓(xùn)練數(shù)據(jù)集的大小與其參數(shù)量成正比,該模型用于展示系統(tǒng)層面的主要結(jié)果。在此基礎(chǔ)上,他們通過(guò)引入使用成比例數(shù)據(jù)訓(xùn)練的較小的 3B 和 9B 模型來(lái)分析計(jì)算擴(kuò)展性,從而觀察不同計(jì)算規(guī)模下的性能趨勢(shì)。此外,為了專(zhuān)門(mén)研究 Token 規(guī)模的影響,他們另外訓(xùn)練了一個(gè)獨(dú)立的 3B 模型,該模型在一個(gè)固定的 1T Token 的語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練。



主要結(jié)果



圖 5:流形約束超連接 (mHC) 的訓(xùn)練穩(wěn)定性。 該圖展示了:(a) mHC 和 HC 相對(duì)于基線模型的訓(xùn)練損失絕對(duì)差值;(b) 三種方法在訓(xùn)練過(guò)程中的梯度范數(shù)。所有實(shí)驗(yàn)均基于 27B 參數(shù)規(guī)模的模型。實(shí)驗(yàn)結(jié)果表明,mHC 在損失函數(shù)和梯度范數(shù)兩方面均表現(xiàn)出更優(yōu)的穩(wěn)定性。

研究團(tuán)隊(duì)首先考察 27B 模型的訓(xùn)練穩(wěn)定性和收斂性。如圖 5 (a) 所示,mHC 有效緩解了在 HC 中觀察到的訓(xùn)練不穩(wěn)定問(wèn)題,與基線模型相比,最終損失降低了 0.021。圖 5 (b) 中的梯度范數(shù)分析進(jìn)一步證實(shí)了這種穩(wěn)定性的提升:mHC 表現(xiàn)出明顯優(yōu)于 HC 的行為,保持了與基線模型相當(dāng)?shù)姆€(wěn)定輪廓。



表 4:27B 模型在系統(tǒng)級(jí)基準(zhǔn)測(cè)試上的結(jié)果。 本表對(duì)比了基線模型、HC 以及 mHC 在 8 個(gè)不同的下游基準(zhǔn)測(cè)試中的零樣本和少樣本性能表現(xiàn)。結(jié)果顯示,mHC 始終優(yōu)于基線模型,并在大多數(shù)基準(zhǔn)測(cè)試中超越了 HC,證明了其在大規(guī)模預(yù)訓(xùn)練中的有效性。

表 4 展示了在多種下游基準(zhǔn)測(cè)試中的性能表現(xiàn)。mHC 帶來(lái)了全面的提升,一致性地優(yōu)于基線模型,并在大多數(shù)任務(wù)上超過(guò)了 HC。值得注意的是,與 HC 相比,mHC 進(jìn)一步增強(qiáng)了模型的推理能力,在 BBH 和 DROP 任務(wù)上分別實(shí)現(xiàn)了 2.1% 和 2.3% 的性能增益。

規(guī)模擴(kuò)展實(shí)驗(yàn)



圖 6:mHC 與基線模型的擴(kuò)展特性對(duì)比。 (a) 計(jì)算擴(kuò)展曲線:實(shí)線描繪了在不同計(jì)算預(yù)算下的性能差距。每個(gè)點(diǎn)代表模型大小與數(shù)據(jù)集大小的最優(yōu)計(jì)算配置,涵蓋了從 3B、9B 到 27B 參數(shù)規(guī)模的規(guī)模擴(kuò)展過(guò)程。 (b) Token 擴(kuò)展曲線:展示了 3B 模型在訓(xùn)練過(guò)程中的軌跡。每個(gè)點(diǎn)代表模型在不同訓(xùn)練 Token 數(shù)量下的性能表現(xiàn)。

為了評(píng)估該方法的擴(kuò)展性,研究者報(bào)告了在不同規(guī)模下 mHC 相對(duì)于基線模型的損失改善情況。在圖 6 (a) 中,他們繪制了涵蓋 3B、9B 和 27B 參數(shù)規(guī)模的計(jì)算規(guī)模擴(kuò)展曲線。其軌跡表明,即使在更高的計(jì)算預(yù)算下,性能優(yōu)勢(shì)依然穩(wěn)健地得以保持,僅表現(xiàn)出輕微的衰減。

此外,他們?cè)趫D 6 (b) 中考察了訓(xùn)練過(guò)程中的動(dòng)態(tài)變化,展示了 3B 模型的 Token 擴(kuò)展曲線??偟膩?lái)看,這些發(fā)現(xiàn)驗(yàn)證了 mHC 在大規(guī)模場(chǎng)景下的有效性。這一結(jié)論在他們內(nèi)部的大規(guī)模訓(xùn)練實(shí)驗(yàn)中得到了進(jìn)一步的證實(shí)。

更多詳情請(qǐng)參閱原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
70年代,22張計(jì)劃生育宣傳畫(huà),歷史開(kāi)了大玩笑!

70年代,22張計(jì)劃生育宣傳畫(huà),歷史開(kāi)了大玩笑!

呂彏極限手工
2025-12-26 18:56:38
接觸的人多了,會(huì)明白:如果一個(gè)人還穿5年前的衣服,說(shuō)明3個(gè)問(wèn)題

接觸的人多了,會(huì)明白:如果一個(gè)人還穿5年前的衣服,說(shuō)明3個(gè)問(wèn)題

詩(shī)詞中國(guó)
2025-12-31 21:01:55
軍演結(jié)束不等于安全,長(zhǎng)榮海運(yùn)運(yùn)火箭炮被海警盯上或面臨扣押

軍演結(jié)束不等于安全,長(zhǎng)榮海運(yùn)運(yùn)火箭炮被海警盯上或面臨扣押

溫讀史
2026-01-04 06:39:59
特朗普宣布已成功抓獲馬杜羅

特朗普宣布已成功抓獲馬杜羅

公評(píng)世界
2026-01-03 19:36:04
江西撞死一家三口后續(xù):再加20萬(wàn)求放過(guò),家屬表態(tài),知情人爆細(xì)節(jié)

江西撞死一家三口后續(xù):再加20萬(wàn)求放過(guò),家屬表態(tài),知情人爆細(xì)節(jié)

鋭娛之樂(lè)
2026-01-04 08:52:40
通過(guò)評(píng)審!南通新機(jī)場(chǎng)傳來(lái)好消息!

通過(guò)評(píng)審!南通新機(jī)場(chǎng)傳來(lái)好消息!

好通網(wǎng)
2026-01-04 11:15:43
催婚界真的出了個(gè)天才!網(wǎng)友:催婚催到大動(dòng)脈了,資金鏈都斷了。

催婚界真的出了個(gè)天才!網(wǎng)友:催婚催到大動(dòng)脈了,資金鏈都斷了。

夜深?lèi)?ài)雜談
2026-01-03 21:52:00
有錢(qián)人破產(chǎn)的速度,比烏鴉坐飛機(jī)還快!

有錢(qián)人破產(chǎn)的速度,比烏鴉坐飛機(jī)還快!

流蘇晚晴
2025-12-27 17:40:55
雷軍辟謠「小米不讓農(nóng)民賣(mài)小米」:我在農(nóng)村長(zhǎng)大,怎會(huì)不讓農(nóng)民賣(mài)小米

雷軍辟謠「小米不讓農(nóng)民賣(mài)小米」:我在農(nóng)村長(zhǎng)大,怎會(huì)不讓農(nóng)民賣(mài)小米

鞭牛士
2026-01-04 11:32:56
新加坡偶遇陳赫一家!張子萱穿平底鞋和老公差不多高,狀態(tài)真實(shí)

新加坡偶遇陳赫一家!張子萱穿平底鞋和老公差不多高,狀態(tài)真實(shí)

娛圈小愚
2026-01-04 10:23:57
你坐火車(chē)有過(guò)哪些奇葩經(jīng)歷?網(wǎng)友:怪自己那時(shí)候太單純!

你坐火車(chē)有過(guò)哪些奇葩經(jīng)歷?網(wǎng)友:怪自己那時(shí)候太單純!

夜深?lèi)?ài)雜談
2025-12-21 17:37:52
國(guó)產(chǎn)組合式車(chē)載電彈曝光,60米彈用處不大,但20米電彈能彈彩虹-3

國(guó)產(chǎn)組合式車(chē)載電彈曝光,60米彈用處不大,但20米電彈能彈彩虹-3

嘯鷹評(píng)
2026-01-03 23:41:23
明天開(kāi)始好運(yùn)惹不起,3個(gè)生肖財(cái)神找上門(mén),發(fā)財(cái)成雙,風(fēng)生水起

明天開(kāi)始好運(yùn)惹不起,3個(gè)生肖財(cái)神找上門(mén),發(fā)財(cái)成雙,風(fēng)生水起

毅談生肖
2026-01-04 11:21:24
巴西總統(tǒng)表態(tài)

巴西總統(tǒng)表態(tài)

澎湃新聞
2026-01-04 00:32:04
3-0!英超中資隊(duì)20輪后終獲首勝 2輪拿4分或逆襲保級(jí) 韓名將傳射

3-0!英超中資隊(duì)20輪后終獲首勝 2輪拿4分或逆襲保級(jí) 韓名將傳射

我愛(ài)英超
2026-01-04 05:05:27
為什么總感覺(jué)北京怪怪的

為什么總感覺(jué)北京怪怪的

霹靂炮
2025-07-31 21:13:30
高德和交警聯(lián)網(wǎng)了嗎?網(wǎng)友:高德敢聯(lián)網(wǎng),就會(huì)失去大量客戶(hù)

高德和交警聯(lián)網(wǎng)了嗎?網(wǎng)友:高德敢聯(lián)網(wǎng),就會(huì)失去大量客戶(hù)

帶你感受人間冷暖
2025-12-08 00:10:10
委內(nèi)瑞拉首都疑似遭到空襲,大量彈藥庫(kù)爆炸!

委內(nèi)瑞拉首都疑似遭到空襲,大量彈藥庫(kù)爆炸!

觀察者網(wǎng)
2026-01-03 15:24:05
汪小菲臺(tái)北101跨年傷感落淚,又戴上了那頂熟悉的白色棒球帽

汪小菲臺(tái)北101跨年傷感落淚,又戴上了那頂熟悉的白色棒球帽

娛慧
2026-01-02 13:37:50
調(diào)崗調(diào)到舒服崗位是什么體驗(yàn)?網(wǎng)友:這簡(jiǎn)直是世外桃源

調(diào)崗調(diào)到舒服崗位是什么體驗(yàn)?網(wǎng)友:這簡(jiǎn)直是世外桃源

另子維愛(ài)讀史
2025-12-26 16:14:37
2026-01-04 12:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12034文章數(shù) 142528關(guān)注度
往期回顧 全部

科技要聞

雷軍:罵小米汽車(chē)有流量,但別故意抹黑

頭條要聞

男子在村口畫(huà)"天安門(mén)"墻繪爆火:因英語(yǔ)5考央美均落榜

頭條要聞

男子在村口畫(huà)"天安門(mén)"墻繪爆火:因英語(yǔ)5考央美均落榜

體育要聞

離開(kāi)中超后,他成了足壇“倒鉤之王”

娛樂(lè)要聞

謝玲玲為101歲林老太慶生,四代同堂

財(cái)經(jīng)要聞

委內(nèi)瑞拉華商親歷:顧客排隊(duì)買(mǎi)生活物資

汽車(chē)要聞

最高續(xù)航310km 嵐圖泰山8或?qū)⑸习肽臧l(fā)布

態(tài)度原創(chuàng)

家居
手機(jī)
本地
時(shí)尚
公開(kāi)課

家居要聞

黑白碰撞 個(gè)性多元冷冽風(fēng)

手機(jī)要聞

小迭代旗艦工程機(jī)影像配置曝光:3X±光學(xué)變焦、200Mp主攝

本地新聞

即將過(guò)去的2025年,對(duì)重慶的影響竟然如此深遠(yuǎn)

伊姐元旦熱推:電視劇《剝繭》;電視劇《玉茗茶骨》......

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版