国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek 要發(fā)大招了,梁文鋒署名新論文!暴力優(yōu)化AI架構(gòu)

0
分享至


新智元報(bào)道

編輯:編輯部

【新智元導(dǎo)讀】2026新年第一天,DeepSeek發(fā)表了梁文鋒署名的重磅新論文,提出了一種名為「mHC(流形約束超連接)」的新架構(gòu),在27B參數(shù)模型上,僅增加約6.7%的訓(xùn)練時(shí)間開銷,即可實(shí)現(xiàn)顯著性能提升。

剛剛,DeepSeek送上2026年新年第一個(gè)王炸。

這次的創(chuàng)新是,mHC(流形約束超連接)新架構(gòu)。


標(biāo)題:mHC:Manifold-Constrained Hyper-Connections

鏈接:https://arxiv.org/abs/2512.24880

在這篇論文中,DeepSeek提出了流形約束超連接(mHC),將矩陣投影到約束流形上優(yōu)化殘差連接空間,從而確保穩(wěn)定性,徹底顛覆了傳統(tǒng)AI架構(gòu)認(rèn)知——

可以擴(kuò)大殘差流通道寬度(residual stream width),而在算力和內(nèi)存上的代價(jià)卻微乎其微。


圖1: 殘差連接范式示意圖

繼Hyper-Connections(HC)開辟「殘差連接寬度可擴(kuò)展」路線之后,mHC直接把這一思路推上實(shí)用化的快車道。

DeepSeek這次直擊AI痛點(diǎn),給同行上了一課!

值得一提的是,這次梁文鋒署名,但解振達(dá)、韋毅軒、Huanqi Cao為核心貢獻(xiàn)者,解振達(dá)為通訊作者。

DeepSeek,或敲響ResNet喪鐘

這簡直是為「模型優(yōu)化玩家」量身打造的王牌秘方。

過去,超連接(hyper-connections)更多只是學(xué)術(shù)圈的小眾嘗試。

而現(xiàn)在,DeepSeek直接把它升級為基礎(chǔ)架構(gòu)的核心設(shè)計(jì)要素。

這也正是擁躉一直以來對DeepSeek的期待:數(shù)學(xué)上的洞察力+硬件層面的極致優(yōu)化。

頂級大語言模型(LLM)中,ResNet結(jié)構(gòu)或許即將被淘汰。


畢竟,殘差流通道寬度一直是擴(kuò)展模型的「煩人瓶頸」。

這波操作,也再次展現(xiàn)了DeepSeek典型的風(fēng)格:對同行的溫和降維打擊——

你們兩年時(shí)間都在打磨微結(jié)構(gòu),調(diào)整DS-MoE?挺可愛哈。

來看看我們怎么玩:把一個(gè)理論上看起來還不夠成熟的高級原語,直接做實(shí),順手解鎖游戲下一關(guān)。

他們在論文中寫道:「我們的內(nèi)部大規(guī)模訓(xùn)練實(shí)驗(yàn)進(jìn)一步驗(yàn)證了mHC在大規(guī)模應(yīng)用中的有效性。」


這句話在DeepSeek的原生稀疏注意力(Natively trainable Sparse Attention,NAS)那篇論文里可沒有。

在27B模型的系統(tǒng)級基準(zhǔn)測試結(jié)果中,新架構(gòu)mHC在絕大多數(shù)基準(zhǔn)測試中持續(xù)超越基線模型并優(yōu)于HC,這證明其在大規(guī)模預(yù)訓(xùn)練中的有效性。


換句話說,DeepSeek信心十足,不怕同行知道自己的「殺招」。

這給了DeepSeek的鐵粉Teortaxes很大信心,他有九成把握:mHC會(huì)進(jìn)入DeepSeek V4。


核心方法

Manifold-Constrained Hyper-Connections (mHC)

這個(gè)方法的關(guān)鍵目標(biāo),就是在Hyper-Connections的拓?fù)湓O(shè)計(jì)下恢復(fù)身份映射屬性。這樣,就可以在大規(guī)模訓(xùn)練與現(xiàn)實(shí)基礎(chǔ)模型任務(wù)中體現(xiàn)實(shí)際價(jià)值。

mHC與傳統(tǒng)殘差連接和HC的根本差異在于:傳統(tǒng)殘差連接只保留簡單的輸入 + 輸出形式(穩(wěn)定但表達(dá)受限);Hyper-Connections (HC)強(qiáng)化連接能力,但犧牲了穩(wěn)定性與效率。

而mHC的思路是:將Hyper-Connections的參數(shù)空間約束到特定的流形(manifold)上,以恢復(fù)身份映射結(jié)構(gòu)。

技術(shù)細(xì)節(jié)

恒等映射原則的啟發(fā),mHC的核心思想是在一個(gè)特定流形上對殘差映

進(jìn)行約束。盡管原始的恒等映射通過強(qiáng)制來保證訓(xùn)練穩(wěn)定性,但這種做法從根本上阻斷了殘差流內(nèi)部的信息交互,而這種交互對于充分發(fā)揮多流(multi-stream)架構(gòu)的潛力至關(guān)重要。

因此,作者提出將殘差映射投影到一個(gè)既能維持跨層信號傳播穩(wěn)定性、又能促進(jìn)殘差流之間相互作用的流形上,從而在保證穩(wěn)定性的同時(shí)保留模型的表達(dá)能力。

為此,他們將約束為雙隨機(jī)矩陣,即矩陣元素非負(fù),且每一行與每一列的元素之和均為1。

形式化地,記為雙隨機(jī)矩陣所構(gòu)成的流形(亦稱Birkhoff多面體),將約束在其投影上,其定義為:


需要注意的是,當(dāng)n=1時(shí),雙隨機(jī)條件會(huì)退化為標(biāo)量1,從而恢復(fù)為原始的恒等映射。選擇雙隨機(jī)性能夠帶來若干對大規(guī)模模型訓(xùn)練具有重要意義的嚴(yán)格理論性質(zhì):

1.范性:雙隨機(jī)矩陣的譜范數(shù)有上界1,即。

這意味著該可學(xué)習(xí)映射是非擴(kuò)張的,從而能夠有效緩解梯度爆炸問題。

2.組合閉包性

雙隨機(jī)矩陣集合在矩陣乘法下是封閉的。這保證了跨越多層的復(fù)合殘差映射
仍然是雙隨機(jī)的,從而在整個(gè)模型深度范圍內(nèi)保持穩(wěn)定性。

3.通過Birkhoff多面體的幾何解釋

集合構(gòu)成Birkhoff多面體,即置換矩陣集合的凸包。

這提供了清晰的幾何直觀:殘差映射可以被看作是若干置換的凸組合。

從數(shù)學(xué)上看,此類矩陣的反復(fù)作用會(huì)單調(diào)地增強(qiáng)不同信息流之間的混合程度,從而有效地充當(dāng)一種魯棒的特征融合機(jī)制。

參數(shù)化與流形投影

在本節(jié)中,作者詳細(xì)介紹了mHC中
、以及的計(jì)算過程。

給定第l層的輸入隱藏矩陣,首先將其展平成向量,以保留完整的上下文信息。隨后,遵循原始HC的建模方式,得到動(dòng)態(tài)映射和靜態(tài)映射,具體如下:


隨后,通過如下方式得到最終滿足約束的映射:


其中,表示Sigmoid函數(shù)。

Sinkhorn–Knopp(?) 算子首先通過指數(shù)運(yùn)算保證所有元素為正,然后執(zhí)行交替的迭代歸一化過程,使矩陣的行和列分別歸一到1。

具體而言,以正矩陣作為初始值,歸一化迭代過程為:


隨著迭代次數(shù)增加,當(dāng)時(shí),該過程收斂到一個(gè)雙隨機(jī)矩陣。

在實(shí)驗(yàn)中,取作為一個(gè)實(shí)用的近似值。

高效的基礎(chǔ)設(shè)施設(shè)計(jì)

通過一系列嚴(yán)格的工程優(yōu)化,作者成功將mHC(取n=4)部署到大規(guī)模模型中,訓(xùn)練開銷僅增加約6.7%。

內(nèi)核融合

作者觀察到,在mHC中,當(dāng)對高維隱藏狀態(tài)進(jìn)行操作時(shí),RMSNorm會(huì)帶來顯著的延遲。

為此,他們將「除以范數(shù)」的操作重新排序,使其發(fā)生在矩陣乘法之后。該優(yōu)化在數(shù)學(xué)上是等價(jià)的,但在工程實(shí)現(xiàn)上顯著提升了效率。

此外,我們采用混合精度策略,在不犧牲計(jì)算速度的前提下最大化數(shù)值精度,并將多個(gè)具有共享內(nèi)存訪問模式的算子融合為統(tǒng)一的計(jì)算內(nèi)核,以降低內(nèi)存帶寬瓶頸。

基于公式(10)至(13)中給出的輸入與參數(shù)設(shè)置,作者實(shí)現(xiàn)了三個(gè)專用的 mHC計(jì)算內(nèi)核。


利用上述內(nèi)核計(jì)算得到的系數(shù),他們又引入了兩個(gè)額外的計(jì)算內(nèi)核來應(yīng)用這些映射。

該框架能夠簡化復(fù)雜計(jì)算流程內(nèi)核的實(shí)現(xiàn),并在較小工程代價(jià)下充分發(fā)揮內(nèi)存帶寬的潛力。

重計(jì)算

n路殘差結(jié)構(gòu)在訓(xùn)練過程中會(huì)引入顯著的內(nèi)存開銷。

為緩解這一問題,作者在前向傳播結(jié)束后丟棄mHC內(nèi)核產(chǎn)生的中間激活,并在反向傳播階段通過重新執(zhí)行mHC內(nèi)核(不包含計(jì)算量較大的層函數(shù)F)來即時(shí)重計(jì)算這些激活。

因此,對于連續(xù)的L_r個(gè)層組成的一個(gè)模塊,只需存儲(chǔ)第一層的輸入。

在忽略輕量級系數(shù)、同時(shí)考慮到F中的pre-norm開銷后,表3總結(jié)了在反向傳播中需要保留的中間激活以及在L_r個(gè)連續(xù)層中被重計(jì)算的瞬時(shí)激活。


隨后,他們通過最小化與L_r對應(yīng)的總內(nèi)存占用來確定最優(yōu)的塊大小。


DualPipe中的通信重疊

在大規(guī)模訓(xùn)練中,流水線并行(pipeline parallelism)是緩解參數(shù)與梯度內(nèi)存占用的標(biāo)準(zhǔn)實(shí)踐。

具體而言,他們采用了DualPipe調(diào)度策略,該策略能夠有效地重疊跨節(jié)點(diǎn)(scale-out)的互連通信流量,例如專家并行與流水線并行中的通信開銷。

然而,與單流(single-stream)設(shè)計(jì)相比,mHC中提出的n-流殘差結(jié)構(gòu)會(huì)在流水線階段之間引入顯著的通信延遲。

此外,在階段邊界處,對所有Lr層重新計(jì)算mHC內(nèi)核也會(huì)帶來不可忽略的計(jì)算開銷。為了解決這些瓶頸,作者對DualPipe調(diào)度進(jìn)行了擴(kuò)展(見下圖),以在流水線階段邊界實(shí)現(xiàn)更高效的通信與計(jì)算重疊。


原文圖4:mHC的通信–計(jì)算重疊機(jī)制。

具體而言,為避免阻塞通信流,他們MLP(即FFN)層的內(nèi)核放置在一個(gè)獨(dú)立的高優(yōu)先級計(jì)算流上執(zhí)行。

同時(shí),在注意力層中,他們刻意避免使用長時(shí)間運(yùn)行的持久化內(nèi)核(persistent kernels),以防止產(chǎn)生長時(shí)間的停頓。

該設(shè)計(jì)允許對已重疊的注意力計(jì)算進(jìn)行搶占,從而在保持計(jì)算設(shè)備處理單元高利用率的同時(shí),實(shí)現(xiàn)更加靈活的調(diào)度。

此外,重計(jì)算過程被與流水線通信依賴解耦,這是因?yàn)槊總€(gè)階段的初始激活x0l已經(jīng)被緩存在本地。

實(shí)驗(yàn)結(jié)果

DeepSeek團(tuán)隊(duì)首先檢驗(yàn)了27B模型的訓(xùn)練穩(wěn)定性和收斂性。

如下圖(a)所示,mHC有效緩解了在HC中觀察到的訓(xùn)練不穩(wěn)定性,相比基線最終降低了0.021的損失。

下圖(b)中的梯度范數(shù)分析,進(jìn)一步證實(shí)了這種改善的穩(wěn)定性,表明mHC展現(xiàn)出顯著優(yōu)于HC的,穩(wěn)定性與基線相當(dāng)。


原文圖5: 流形約束超連接(mHC)的訓(xùn)練穩(wěn)定性,展示了 (a) mHC與HC相對于基線的絕對訓(xùn)練損失差距,以及 (b) 三種方法的梯度范數(shù)。所有實(shí)驗(yàn)均采用27B模型。

在多樣化基準(zhǔn)測試集上,mHC全面提升了下游性能,在所有任務(wù)上持續(xù)超越基線,并在大多數(shù)任務(wù)上優(yōu)于HC。

值得注意的是,與HC相比,mHC進(jìn)一步增強(qiáng)了模型的推理能力,在BBH上實(shí)現(xiàn)了2.1%的性能提升,在DROP上實(shí)現(xiàn)了2.3%的提升。

這證明其在大規(guī)模預(yù)訓(xùn)練中的有效性。


原文表4:27B模型的系統(tǒng)級基準(zhǔn)測試結(jié)果。 本表比較了基線、HC和mHC在8個(gè)不同下游基準(zhǔn)測試中的零樣本和少樣本性能。

為了評估方法的擴(kuò)展性,DeepSeek報(bào)告了mHC在不同規(guī)模下相比基線的相對損失改進(jìn)。

結(jié)果表明,即使在更高的計(jì)算預(yù)算下,mHC依然穩(wěn)健保持性能優(yōu)勢,僅輕微衰減。

此外,研究團(tuán)隊(duì)考察了訓(xùn)練過程中的動(dòng)態(tài)變化,展示了3B模型的token擴(kuò)展曲線。

綜合來看,這些發(fā)現(xiàn)驗(yàn)證了mHC在大規(guī)模場景下的有效性。這一結(jié)論得到了我們內(nèi)部大規(guī)模訓(xùn)練實(shí)驗(yàn)的進(jìn)一步證實(shí)。


原文圖6:mHC相比基線的擴(kuò)展特性。 (a) 計(jì)算擴(kuò)展曲線:實(shí)線展示了不同計(jì)算預(yù)算下的性能差距。每個(gè)點(diǎn)代表模型大小和數(shù)據(jù)集大小的特定計(jì)算最優(yōu)配置,從3B和9B擴(kuò)展到27B參數(shù)。(b) Token擴(kuò)展曲線:3B模型在訓(xùn)練期間的軌跡。每個(gè)點(diǎn)代表模型在不同訓(xùn)練token數(shù)下的性能。

理想情況下,單層映射應(yīng)滿足雙隨機(jī)約束,即前向信號增益與后向梯度增益均等于1。

然而,為提升計(jì)算效率,實(shí)際實(shí)現(xiàn)中使用的Sinkhorn-Knopp算法必須限制迭代次數(shù),這次實(shí)驗(yàn)中為20次。

因此,如下圖(a)所示,后向梯度增益會(huì)略微偏離1。在下圖(b)所示的復(fù)合映射情況下,偏離有所增加但仍保持有界,最大值約為1.6。


原文圖7:流形約束超連接(mHC)的傳播穩(wěn)定性。 本圖展示了27B模型中 (a) 單層映射與 (b) 復(fù)合映射 的傳播動(dòng)態(tài)

值得注意的是,與HC中近3000的最大增益幅度相比,mHC將其降低了三個(gè)數(shù)量級

這些結(jié)果表明,mHC相比HC顯著增強(qiáng)了傳播穩(wěn)定性,確保了前向信號與后向梯度的穩(wěn)定流動(dòng)。

此外,團(tuán)隊(duì)觀察到,對于HC,當(dāng)最大增益較大時(shí),其他值也往往顯著,這表明所有傳播路徑普遍存在不穩(wěn)定性。相比之下,mHC始終產(chǎn)生穩(wěn)定的結(jié)果。


原文圖8:可學(xué)習(xí)映射的可視化,展示了HC(第一行)與mHC(第二行)的代表性單層及復(fù)合映射。每個(gè)矩陣通過對選定序列內(nèi)所有token取平均計(jì)算得出。y軸和x軸上的標(biāo)簽分別表示前向信號增益(行和)與后向梯度增益(列和)。

更多詳情請參閱原論文。

參考資料:

https://arxiv.org/abs/2512.24880

https://x.com/teortaxesTex/status/2006628917428334631

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
詹姆斯靠邊站!首次被球迷投票請下舞臺(tái) 2026退役給自己一個(gè)體面

詹姆斯靠邊站!首次被球迷投票請下舞臺(tái) 2026退役給自己一個(gè)體面

籃球話題團(tuán)
2026-01-01 00:05:03
國家終于出手了!不僅是李梓萌被牽連,就連全紅嬋張文宏也沒逃過

國家終于出手了!不僅是李梓萌被牽連,就連全紅嬋張文宏也沒逃過

巧手曉廚娘
2025-12-26 21:34:40
上海跨年夜有游客提前4小時(shí)到達(dá)外灘觀景臺(tái),商圈飯店排隊(duì)近200號

上??缒暌褂杏慰吞崆?小時(shí)到達(dá)外灘觀景臺(tái),商圈飯店排隊(duì)近200號

極目新聞
2025-12-31 21:44:49
兩岸統(tǒng)一后,誰最有可能成為首任“臺(tái)灣省長”?其中4人眾望所歸

兩岸統(tǒng)一后,誰最有可能成為首任“臺(tái)灣省長”?其中4人眾望所歸

風(fēng)笛悠揚(yáng)聲
2025-12-18 11:50:09
陸毅頒獎(jiǎng)禮突然喊話郭京飛,臺(tái)下笑瘋:一個(gè)家庭里有一個(gè)細(xì)心護(hù)短的姐夫該多幸福呀,郭京飛是不是啊?

陸毅頒獎(jiǎng)禮突然喊話郭京飛,臺(tái)下笑瘋:一個(gè)家庭里有一個(gè)細(xì)心護(hù)短的姐夫該多幸福呀,郭京飛是不是?。?/a>

上海約飯局
2025-12-31 21:47:13
張韶涵的渣女站姿火了!腿縫幾乎沒有間距,看得人眼睛都直了

張韶涵的渣女站姿火了!腿縫幾乎沒有間距,看得人眼睛都直了

TVB的四小花
2025-12-03 14:33:08
開打了!美國和委內(nèi)瑞拉,同時(shí)動(dòng)手了!

開打了!美國和委內(nèi)瑞拉,同時(shí)動(dòng)手了!

大嘴說天下
2025-12-31 21:29:44
電池健康用到 0%,蘋果回應(yīng)!

電池健康用到 0%,蘋果回應(yīng)!

花果科技
2026-01-01 22:39:11
中國又創(chuàng)造一個(gè)世界第一!相當(dāng)500輛坦克沖鋒,打碎西方工業(yè)底牌

中國又創(chuàng)造一個(gè)世界第一!相當(dāng)500輛坦克沖鋒,打碎西方工業(yè)底牌

肖茲探秘說
2025-12-28 18:20:43
1947年,福建省委對福州地下黨展開大清洗,殺了多少人,結(jié)局如何

1947年,福建省委對福州地下黨展開大清洗,殺了多少人,結(jié)局如何

老黃有話
2024-10-24 20:04:46
@武漢,立案庭長拒立案,青山法院無“青天”

@武漢,立案庭長拒立案,青山法院無“青天”

眼望北方
2025-12-31 15:59:04
巴薩“失蹤人口”重返賽場,震撼動(dòng)態(tài)引發(fā)球迷熱議!

巴薩“失蹤人口”重返賽場,震撼動(dòng)態(tài)引發(fā)球迷熱議!

蜜心蘿莉
2026-01-02 02:44:48
他長得帥,演技好,不顧一切娶大15歲妻恩愛至今,沒生孩子也幸福

他長得帥,演技好,不顧一切娶大15歲妻恩愛至今,沒生孩子也幸福

小熊侃史
2026-01-01 11:35:13
發(fā)現(xiàn)一個(gè)殘忍的真相:大部分人之所以難翻身,是因?yàn)檫@2點(diǎn)差異

發(fā)現(xiàn)一個(gè)殘忍的真相:大部分人之所以難翻身,是因?yàn)檫@2點(diǎn)差異

富書
2025-12-25 12:32:31
【2026.1.1】扒醬料不停:那些你不知道的八卦一二三

【2026.1.1】扒醬料不停:那些你不知道的八卦一二三

娛樂真爆姐
2026-01-01 23:26:01
田亮一家新年拍照,森碟一張初戀臉真漂亮,和亮仔顏值都超越父母

田亮一家新年拍照,森碟一張初戀臉真漂亮,和亮仔顏值都超越父母

勺哥鄉(xiāng)村味道
2026-01-01 15:37:49
2026年1月1日起 重慶啟動(dòng)新一輪消費(fèi)品以舊換新補(bǔ)貼政策

2026年1月1日起 重慶啟動(dòng)新一輪消費(fèi)品以舊換新補(bǔ)貼政策

金臺(tái)資訊
2026-01-01 16:18:22
中國海警發(fā)海報(bào),要查扣美國軍火?四國已經(jīng)集結(jié),準(zhǔn)備對華出手?

中國海警發(fā)海報(bào),要查扣美國軍火?四國已經(jīng)集結(jié),準(zhǔn)備對華出手?

薦史
2026-01-01 10:08:49
塞梅多被停職!利雅得勝利三年已廢掉五個(gè)主席、總監(jiān)或CEO!

塞梅多被停職!利雅得勝利三年已廢掉五個(gè)主席、總監(jiān)或CEO!

氧氣是個(gè)地鐵
2026-01-01 17:58:13
廣東又一大廠宣布解散!

廣東又一大廠宣布解散!

廣州生活美食圈
2026-01-01 18:15:18
2026-01-02 03:40:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14233文章數(shù) 66413關(guān)注度
往期回顧 全部

科技要聞

特斯拉Model 3車主首度全程自駕橫穿美國

頭條要聞

瑞士酒吧新年爆炸致百余死傷 有人嚴(yán)重?zé)齻y以辨認(rèn)

頭條要聞

瑞士酒吧新年爆炸致百余死傷 有人嚴(yán)重?zé)齻y以辨認(rèn)

體育要聞

2026,這些英超紀(jì)錄可能會(huì)被打破

娛樂要聞

跑調(diào)風(fēng)波越演越烈!沈佳潤被網(wǎng)友喊話

財(cái)經(jīng)要聞

巴菲特「身退,權(quán)還在」

汽車要聞

一汽-大眾2025年整車銷量超158萬輛 燃油車市占率創(chuàng)新高

態(tài)度原創(chuàng)

藝術(shù)
旅游
房產(chǎn)
家居
公開課

藝術(shù)要聞

你絕對想不到,這位東方畫家竟將印象派推向巔峰!

旅游要聞

自貢非遺花燈點(diǎn)亮江南夜!2026無錫梅里古鎮(zhèn)新年燈會(huì)璀璨啟幕

房產(chǎn)要聞

實(shí)景暴擊!??谶@個(gè)頂流紅盤,拋出準(zhǔn)現(xiàn)房+頂級書包雙王炸!

家居要聞

無形有行 自然與靈感詩意

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版