国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

梁文鋒署名,DeepSeek元旦新論文要開(kāi)啟架構(gòu)新篇章

0
分享至



機(jī)器之心編輯部

新年第一天,DeepSeek 發(fā)布了一篇新論文,提出了一種名為mHC(流形約束超連接)的新架構(gòu)。

該研究旨在解決傳統(tǒng)超連接在大規(guī)模模型訓(xùn)練中的不穩(wěn)定性問(wèn)題,同時(shí)保持其顯著的性能增益 。

簡(jiǎn)單來(lái)說(shuō),DeepSeek 提出的 mHC 通過(guò)將傳統(tǒng) Transformer 的單一殘差流擴(kuò)展為多流并行架構(gòu),并利用 Sinkhorn-Knopp 算法將連接矩陣約束在雙擬隨機(jī)矩陣流形上,成功解決了超連接(HC)在大規(guī)模訓(xùn)練中因破壞恒等映射屬性而導(dǎo)致的數(shù)值不穩(wěn)定和信號(hào)爆炸問(wèn)題。



  • 論文標(biāo)題:mHC: Manifold-Constrained Hyper-Connections
  • 論文地址:https://arxiv.org/pdf/2512.24880

這篇論文的第一作者有三位:Zhenda Xie(解振達(dá))、Yixuan Wei(韋毅軒)、Huanqi Cao。值得注意的是,DeepSeek 創(chuàng)始人 & CEO 梁文鋒也在作者名單中。

傳統(tǒng)的殘差連接(即 Transformer 中的 x + F (x) 結(jié)構(gòu))憑借「恒等映射」保證了信號(hào)無(wú)損傳輸和訓(xùn)練穩(wěn)定性。但它的瓶頸在于信息通道的寬度受限于隱藏層維度 C。

近期,以字節(jié)跳動(dòng)Seed團(tuán)隊(duì)提出的 Hyper-Connections (HC) 為代表的研究,通過(guò)擴(kuò)展殘差流寬度和多樣化連接模式,拓展了過(guò)去十年中廣泛應(yīng)用的殘差連接范式。

雖然這些方法帶來(lái)了顯著的性能提升,但但也帶來(lái)了兩個(gè)嚴(yán)重問(wèn)題:

  • 數(shù)值不穩(wěn)定性: 原始的 HC 中,連接矩陣是自由學(xué)習(xí)的,沒(méi)有約束。這導(dǎo)致信號(hào)在經(jīng)過(guò)多層傳播后,數(shù)值會(huì)「爆炸」或「消失」,破壞了恒等映射的特性,模型越深越難訓(xùn)練。
  • 系統(tǒng)開(kāi)銷大: 通道變寬意味著顯存讀寫(xiě) (I/O) 和通信成本成倍增加,也就是所謂的「顯存墻」問(wèn)題。

從根本上破壞了殘差連接固有的恒等映射屬性,導(dǎo)致了嚴(yán)重的訓(xùn)練不穩(wěn)定性和受限的可擴(kuò)展性,并額外增加了顯著的內(nèi)存訪問(wèn)開(kāi)銷。

為了解決這些挑戰(zhàn),DeepSeek 的研究團(tuán)隊(duì)提出了Manifold-Constrained Hyper-Connections (mHC,流形約束超連接)。

這是一個(gè)通用框架,它將 HC 的殘差連接空間投影到一個(gè)特定的流形上,以恢復(fù)恒等映射屬性,同時(shí)結(jié)合嚴(yán)格的基礎(chǔ)設(shè)施優(yōu)化以確保效率。

它的核心目的是:在保留「加寬殘差流」帶來(lái)的性能提升的同時(shí),解決其導(dǎo)致的訓(xùn)練不穩(wěn)定和顯存消耗過(guò)大的問(wèn)題。

團(tuán)隊(duì)利用Sinkhorn-Knopp 算法將殘差連接矩陣投影到 Birkhoff 多胞形(雙隨機(jī)矩陣)上。這使得信號(hào)傳播變?yōu)樘卣鞯摹竿菇M合」,從數(shù)學(xué)上嚴(yán)格保證了信號(hào)范數(shù)的穩(wěn)定性(能量守恒)。為了抵消加寬通道帶來(lái)的開(kāi)銷,團(tuán)隊(duì)實(shí)施了內(nèi)核融合、選擇性重計(jì)算以及擴(kuò)展的 DualPipe 通信計(jì)算重疊策略。

實(shí)證表明,mHC 不僅解決了穩(wěn)定性問(wèn)題,且在大規(guī)模訓(xùn)練中(如 27B 模型)表現(xiàn)出卓越的可擴(kuò)展性。在 n=4 的擴(kuò)展倍率下,僅增加了 6.7% 的訓(xùn)練時(shí)間開(kāi)銷,卻換來(lái)了顯著的性能提升。mHC 為基礎(chǔ)模型的拓?fù)浼軜?gòu)演進(jìn)指明了方向。



圖 1:殘差連接范式示意圖。 本圖對(duì)比了以下三種結(jié)構(gòu)設(shè)計(jì): (a) 標(biāo)準(zhǔn)殘差連接(Residual Connection); (b) Hyper-Connections (HC); (c) 我們提出的 Manifold-Constrained Hyper-Connections (mHC)。與無(wú)約束的 HC 不同,mHC 專注于優(yōu)化殘差連接空間,通過(guò)將矩陣投影到受約束的流形上,以確保穩(wěn)定性。

具體方法介紹

流形約束超連接 (mHC)

借鑒恒等映射(Identity Mapping)原則,mHC 的核心前提是將殘差映射

雖然原始的恒等映射是通過(guò)強(qiáng)制執(zhí)行



因此,該 DeepSeek 團(tuán)隊(duì)提出將殘差映射投影到一個(gè)流形上,既能保持跨層信號(hào)傳播的穩(wěn)定性,又能促進(jìn)殘差流之間的相互作用,以保持模型的表達(dá)能力(expressivity)。

為此,他們的做法是將

形式上,令







其中 1_n 表示全 1 的 n 維向量。

為什么選擇雙擬隨機(jī)性?因?yàn)槠渚哂卸囗?xiàng)有利于大規(guī)模訓(xùn)練的理論屬性:

  • ),這意味著學(xué)習(xí)到的映射是非擴(kuò)張的,可有效緩解梯度爆炸問(wèn)題。
  • 范數(shù)保持:其譜范數(shù)有界且不超過(guò) 1(即



  • 復(fù)合封閉性:雙擬隨機(jī)矩陣集對(duì)矩陣乘法具有封閉性,確保了跨多層的復(fù)合殘差映射仍保持雙擬隨機(jī),從而可在整個(gè)模型深度上維持穩(wěn)定性。
  • 幾何解釋:該集合構(gòu)成了 Birkhoff 多胞形,是排列矩陣集的凸包。這意味著殘差映射充當(dāng)了排列的凸組合,其重復(fù)應(yīng)用會(huì)單調(diào)地增加跨流的信息混合,起到魯棒的特征融合作用。

此外,該團(tuán)隊(duì)還對(duì)輸入映射



參數(shù)化與流形投影

本節(jié)將詳述 mHC 中各映射的計(jì)算過(guò)程。

給定第 l 層的輸入隱藏矩陣 x_l,先將其展平為向量





最終的約束映射通過(guò)以下方式獲得:



其中



DeepSeek 在實(shí)驗(yàn)中采用 t_max=20 次迭代。

高效基礎(chǔ)設(shè)施設(shè)計(jì)

DeepSeek 還為 mHC 量身定制了基礎(chǔ)設(shè)施設(shè)計(jì),使其在 n=4 時(shí)在大模型中的訓(xùn)練開(kāi)銷僅增加 6.7%:

算子融合 (Kernel Fusion):

重新調(diào)整 RMSNorm 的順序以提高效率,并采用混合精度策略。

開(kāi)發(fā)了統(tǒng)一的算子,將多次掃描和矩陣乘法融合,減少內(nèi)存帶寬瓶頸和算子啟動(dòng)開(kāi)銷。

在單個(gè)算子中實(shí)現(xiàn) Sinkhorn-Knopp 迭代及其自定義反向傳播。



重計(jì)算 (Recomputing):

為了減輕 n 流設(shè)計(jì)帶來(lái)的內(nèi)存壓力,DeepSeek 在前向傳播后丟棄 mHC 算子的中間激活,并在反向傳播時(shí)即時(shí)重新計(jì)算。

通過(guò)推導(dǎo)得出最優(yōu)重計(jì)算塊大小 L_r^*,以最小化總內(nèi)存占用。

DualPipe 中的通信重疊:

擴(kuò)展了 DualPipe 調(diào)度算法,以改善流水線并行階段邊界處的通信與計(jì)算重疊在專用高優(yōu)先級(jí)計(jì)算流上執(zhí)行 MLP 層的內(nèi)核,并避免在注意力層使用持久算子,以防止阻塞通信流并提高設(shè)備利用率。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

研究團(tuán)隊(duì)通過(guò)語(yǔ)言模型預(yù)訓(xùn)練來(lái)驗(yàn)證所提方法的有效性,并對(duì)基線模型、超連接(HC)以及提出的流形約束超連接(mHC)進(jìn)行了對(duì)比分析。

他們采用了受 DeepSeek-V3 啟發(fā)的 MoE 架構(gòu),訓(xùn)練了四種不同的模型變體,以覆蓋不同的評(píng)估體系。

具體而言,HC 和 mHC 的擴(kuò)展率 n 均設(shè)置為 4,主要關(guān)注點(diǎn)是一個(gè) 27B 參數(shù)規(guī)模的模型。其訓(xùn)練數(shù)據(jù)集的大小與其參數(shù)量成正比,該模型用于展示系統(tǒng)層面的主要結(jié)果。在此基礎(chǔ)上,他們通過(guò)引入使用成比例數(shù)據(jù)訓(xùn)練的較小的 3B 和 9B 模型來(lái)分析計(jì)算擴(kuò)展性,從而觀察不同計(jì)算規(guī)模下的性能趨勢(shì)。此外,為了專門研究 Token 規(guī)模的影響,他們另外訓(xùn)練了一個(gè)獨(dú)立的 3B 模型,該模型在一個(gè)固定的 1T Token 的語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練。



主要結(jié)果



圖 5:流形約束超連接 (mHC) 的訓(xùn)練穩(wěn)定性。 該圖展示了:(a) mHC 和 HC 相對(duì)于基線模型的訓(xùn)練損失絕對(duì)差值;(b) 三種方法在訓(xùn)練過(guò)程中的梯度范數(shù)。所有實(shí)驗(yàn)均基于 27B 參數(shù)規(guī)模的模型。實(shí)驗(yàn)結(jié)果表明,mHC 在損失函數(shù)和梯度范數(shù)兩方面均表現(xiàn)出更優(yōu)的穩(wěn)定性。

研究團(tuán)隊(duì)首先考察 27B 模型的訓(xùn)練穩(wěn)定性和收斂性。如圖 5 (a) 所示,mHC 有效緩解了在 HC 中觀察到的訓(xùn)練不穩(wěn)定問(wèn)題,與基線模型相比,最終損失降低了 0.021。圖 5 (b) 中的梯度范數(shù)分析進(jìn)一步證實(shí)了這種穩(wěn)定性的提升:mHC 表現(xiàn)出明顯優(yōu)于 HC 的行為,保持了與基線模型相當(dāng)?shù)姆€(wěn)定輪廓。



表 4:27B 模型在系統(tǒng)級(jí)基準(zhǔn)測(cè)試上的結(jié)果。 本表對(duì)比了基線模型、HC 以及 mHC 在 8 個(gè)不同的下游基準(zhǔn)測(cè)試中的零樣本和少樣本性能表現(xiàn)。結(jié)果顯示,mHC 始終優(yōu)于基線模型,并在大多數(shù)基準(zhǔn)測(cè)試中超越了 HC,證明了其在大規(guī)模預(yù)訓(xùn)練中的有效性。

表 4 展示了在多種下游基準(zhǔn)測(cè)試中的性能表現(xiàn)。mHC 帶來(lái)了全面的提升,一致性地優(yōu)于基線模型,并在大多數(shù)任務(wù)上超過(guò)了 HC。值得注意的是,與 HC 相比,mHC 進(jìn)一步增強(qiáng)了模型的推理能力,在 BBH 和 DROP 任務(wù)上分別實(shí)現(xiàn)了 2.1% 和 2.3% 的性能增益。

規(guī)模擴(kuò)展實(shí)驗(yàn)



圖 6:mHC 與基線模型的擴(kuò)展特性對(duì)比。 (a) 計(jì)算擴(kuò)展曲線:實(shí)線描繪了在不同計(jì)算預(yù)算下的性能差距。每個(gè)點(diǎn)代表模型大小與數(shù)據(jù)集大小的最優(yōu)計(jì)算配置,涵蓋了從 3B、9B 到 27B 參數(shù)規(guī)模的規(guī)模擴(kuò)展過(guò)程。 (b) Token 擴(kuò)展曲線:展示了 3B 模型在訓(xùn)練過(guò)程中的軌跡。每個(gè)點(diǎn)代表模型在不同訓(xùn)練 Token 數(shù)量下的性能表現(xiàn)。

為了評(píng)估該方法的擴(kuò)展性,研究者報(bào)告了在不同規(guī)模下 mHC 相對(duì)于基線模型的損失改善情況。在圖 6 (a) 中,他們繪制了涵蓋 3B、9B 和 27B 參數(shù)規(guī)模的計(jì)算規(guī)模擴(kuò)展曲線。其軌跡表明,即使在更高的計(jì)算預(yù)算下,性能優(yōu)勢(shì)依然穩(wěn)健地得以保持,僅表現(xiàn)出輕微的衰減。

此外,他們?cè)趫D 6 (b) 中考察了訓(xùn)練過(guò)程中的動(dòng)態(tài)變化,展示了 3B 模型的 Token 擴(kuò)展曲線。總的來(lái)看,這些發(fā)現(xiàn)驗(yàn)證了 mHC 在大規(guī)模場(chǎng)景下的有效性。這一結(jié)論在他們內(nèi)部的大規(guī)模訓(xùn)練實(shí)驗(yàn)中得到了進(jìn)一步的證實(shí)。

更多詳情請(qǐng)參閱原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
倒計(jì)時(shí)!皇馬“億元先生”閃電轉(zhuǎn)投阿森納!阿隆索“一周定乾坤”

倒計(jì)時(shí)!皇馬“億元先生”閃電轉(zhuǎn)投阿森納!阿隆索“一周定乾坤”

頭狼追球
2026-01-02 17:55:20
雙塔效果不佳,楊瀚森半場(chǎng)僅獲1分35秒出現(xiàn)1失誤,期間曾被打0-8

雙塔效果不佳,楊瀚森半場(chǎng)僅獲1分35秒出現(xiàn)1失誤,期間曾被打0-8

懂球帝
2026-01-03 10:43:52
香港只認(rèn)這23所內(nèi)地大學(xué)!17所985集體出局,分?jǐn)?shù)高也沒(méi)用

香港只認(rèn)這23所內(nèi)地大學(xué)!17所985集體出局,分?jǐn)?shù)高也沒(méi)用

Delete丨CC
2026-01-02 21:12:43
隆多:生涯唯一一次讓我感到無(wú)解的球員是12年?yáng)|決G6的詹姆斯

隆多:生涯唯一一次讓我感到無(wú)解的球員是12年?yáng)|決G6的詹姆斯

懂球帝
2026-01-03 01:01:52
轟22分掃質(zhì)疑!美球迷盼給哈珀更多時(shí)間 美媒:新秀就能掌控大局

轟22分掃質(zhì)疑!美球迷盼給哈珀更多時(shí)間 美媒:新秀就能掌控大局

顏小白的籃球夢(mèng)
2026-01-03 10:35:09
不打了!5大主力全部倒下!整個(gè)NBA最慘球隊(duì)

不打了!5大主力全部倒下!整個(gè)NBA最慘球隊(duì)

籃球?qū)崙?zhàn)寶典
2026-01-02 11:12:17
也幫幫小楊?里奇-保羅:我不僅幫球員談合同,還會(huì)幫他們建立生意

也幫幫小楊?里奇-保羅:我不僅幫球員談合同,還會(huì)幫他們建立生意

懂球帝
2026-01-03 10:43:53
全網(wǎng)都在問(wèn),這個(gè)是崔鳳祥大爺捐贈(zèng)的那尊佛像嗎?曾被拍出1265萬(wàn)

全網(wǎng)都在問(wèn),這個(gè)是崔鳳祥大爺捐贈(zèng)的那尊佛像嗎?曾被拍出1265萬(wàn)

火山詩(shī)話
2026-01-02 07:55:31
樊振東德國(guó)留洋賬單曝光:7個(gè)月花2萬(wàn)歐,頂級(jí)運(yùn)動(dòng)員的“特權(quán)價(jià)”有多香?

樊振東德國(guó)留洋賬單曝光:7個(gè)月花2萬(wàn)歐,頂級(jí)運(yùn)動(dòng)員的“特權(quán)價(jià)”有多香?

好乒乓
2026-01-02 13:04:38
星鏈瘋狂擴(kuò)張后,馬斯克SpaceX宣布史上最大衛(wèi)星降軌行動(dòng)

星鏈瘋狂擴(kuò)張后,馬斯克SpaceX宣布史上最大衛(wèi)星降軌行動(dòng)

財(cái)聯(lián)社
2026-01-02 13:19:27
潘曉婷一桿將2025打成2026,網(wǎng)友:差點(diǎn)以為是AI,看你明年怎么打出2027

潘曉婷一桿將2025打成2026,網(wǎng)友:差點(diǎn)以為是AI,看你明年怎么打出2027

極目新聞
2026-01-02 11:27:05
白嫖羽絨服女子已社死!關(guān)鍵證據(jù)曝光,不止穿過(guò)一次,商家恐閉店

白嫖羽絨服女子已社死!關(guān)鍵證據(jù)曝光,不止穿過(guò)一次,商家恐閉店

相思賦予誰(shuí)a
2026-01-01 01:24:07
林建岳為母親在家辦壽宴,101歲林老太霸氣不減,三代同堂切蛋糕

林建岳為母親在家辦壽宴,101歲林老太霸氣不減,三代同堂切蛋糕

庭小娛
2026-01-01 15:02:04
香港取消免費(fèi)醫(yī)療了!每人最高負(fù)擔(dān)1萬(wàn)港幣,多項(xiàng)民生收費(fèi)即日起同步上漲

香港取消免費(fèi)醫(yī)療了!每人最高負(fù)擔(dān)1萬(wàn)港幣,多項(xiàng)民生收費(fèi)即日起同步上漲

霹靂炮
2026-01-02 19:36:39
永州女老板救兵來(lái)了!此前承諾送車騎虎難下,當(dāng)?shù)仄髽I(yè)家伸出援手

永州女老板救兵來(lái)了!此前承諾送車騎虎難下,當(dāng)?shù)仄髽I(yè)家伸出援手

火山詩(shī)話
2026-01-03 07:47:39
永州奪冠送車事件升級(jí)!湖南網(wǎng)紅F4女團(tuán),去唐蕾4s店討要說(shuō)法…

永州奪冠送車事件升級(jí)!湖南網(wǎng)紅F4女團(tuán),去唐蕾4s店討要說(shuō)法…

火山詩(shī)話
2026-01-02 06:20:07
美媒總算看明白:中國(guó)這哪是買石油,分明是在給俄進(jìn)行“大換血”

美媒總算看明白:中國(guó)這哪是買石油,分明是在給俄進(jìn)行“大換血”

墨印齋
2026-01-02 20:47:40
基本盤(pán)太穩(wěn),一月4000花不完上熱搜,河北有人供暖都不敢開(kāi),奇怪

基本盤(pán)太穩(wěn),一月4000花不完上熱搜,河北有人供暖都不敢開(kāi),奇怪

眼光很亮
2026-01-02 15:04:17
點(diǎn)名三笘薰、張本智和等人,《學(xué)習(xí)時(shí)報(bào)》發(fā)文:警惕日本軍國(guó)主義在文體領(lǐng)域的滲透

點(diǎn)名三笘薰、張本智和等人,《學(xué)習(xí)時(shí)報(bào)》發(fā)文:警惕日本軍國(guó)主義在文體領(lǐng)域的滲透

新京報(bào)政事兒
2026-01-02 20:21:14
孫儷點(diǎn)評(píng)鄧超的跨年演唱,難掩驕傲:體力好,沒(méi)白在家練習(xí)3小時(shí)

孫儷點(diǎn)評(píng)鄧超的跨年演唱,難掩驕傲:體力好,沒(méi)白在家練習(xí)3小時(shí)

五四觀娛
2026-01-02 23:16:13
2026-01-03 11:15:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12033文章數(shù) 142527關(guān)注度
往期回顧 全部

科技要聞

比亞迪銷冠!特斯拉2025年交付量跌逾8%

頭條要聞

媒體:79歲特朗普手上有淤青 超量服用藥物已不能停

頭條要聞

媒體:79歲特朗普手上有淤青 超量服用藥物已不能停

體育要聞

快船似乎又行了

娛樂(lè)要聞

田亮一家新年全家福!森碟變清純少女

財(cái)經(jīng)要聞

人工智能四問(wèn):投資泡沫出現(xiàn)了嗎?

汽車要聞

方程豹全年銷量超23.4萬(wàn)輛 同比暴增316.1%

態(tài)度原創(chuàng)

本地
數(shù)碼
房產(chǎn)
教育
公開(kāi)課

本地新聞

即將過(guò)去的2025年,對(duì)重慶的影響竟然如此深遠(yuǎn)

數(shù)碼要聞

Pebble推出Round 2手表:搭載彩色E-ink屏幕,無(wú)心率傳感器設(shè)計(jì)

房產(chǎn)要聞

海大譽(yù)府新年家年華暨2號(hào)樓耀世加推發(fā)布會(huì)圓滿落幕

教育要聞

縣中振興,一所高中何為——江蘇省射陽(yáng)中學(xué)的實(shí)踐探索

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版