国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek開(kāi)年炸場(chǎng)。mHC架構(gòu)破解大模型訓(xùn)練死結(jié),工程難度地獄級(jí)

0
分享至

他同時(shí)提到,論文的數(shù)學(xué)推導(dǎo)和底層實(shí)現(xiàn)雖有較高復(fù)雜度,但核心圍繞"投影矩陣與流形約束"展開(kāi),具備落地可行性,而團(tuán)隊(duì)在CUDA內(nèi)核層面的算子融合優(yōu)化,更體現(xiàn)了深厚的工程實(shí)力。



2026年元旦,當(dāng)外界還沉浸在新年的喜慶氛圍中,AI圈已被一則技術(shù)突破消息點(diǎn)燃。中國(guó)AI初創(chuàng)公司DeepSeek悄然發(fā)布重磅學(xué)術(shù)論文,提出名為mHC(流形約束超連接)的新型網(wǎng)絡(luò)架構(gòu),直指當(dāng)前大規(guī)模模型訓(xùn)練的核心痛點(diǎn)——數(shù)值不穩(wěn)定與信號(hào)爆炸。這篇由19人團(tuán)隊(duì)聯(lián)合攻關(guān)、創(chuàng)始人梁文鋒親自署名的論文,不僅在arXiv和Huggingface平臺(tái)迅速引發(fā)關(guān)注,更讓業(yè)界看到了基礎(chǔ)模型架構(gòu)演進(jìn)的新可能。對(duì)于普通讀者而言,mHC看似深?yuàn)W的技術(shù)術(shù)語(yǔ)背后,實(shí)則藏著大模型"更穩(wěn)、更強(qiáng)、更高效"的進(jìn)化密碼,它如何破解行業(yè)痛點(diǎn)?又將為AI發(fā)展帶來(lái)哪些影響?本文將逐一解讀。



溯源:大模型訓(xùn)練的"穩(wěn)定性困境"從何而來(lái)?

要理解mHC的價(jià)值,首先要搞懂大模型訓(xùn)練的"根基"——?dú)埐钸B接。自Transformer架構(gòu)誕生以來(lái),殘差連接(公式表達(dá)為x + F(x))就成為支撐模型深度堆疊的核心機(jī)制。簡(jiǎn)單來(lái)說(shuō),它就像給信息傳遞搭建了"主通道+輔助通道":x代表原始信息的"主通道",保證基礎(chǔ)信號(hào)穩(wěn)定傳遞;F(x)則是模型學(xué)習(xí)到的"輔助通道",負(fù)責(zé)捕捉復(fù)雜特征。這種設(shè)計(jì)的精妙之處在于,無(wú)論模型中間層的學(xué)習(xí)效果如何,原始信息都能通過(guò)"主通道"直達(dá)后續(xù)層級(jí),避免了信號(hào)在深層網(wǎng)絡(luò)中逐漸衰減或失真,這也是千億參數(shù)模型能順利訓(xùn)練的關(guān)鍵。

隨著AI技術(shù)的發(fā)展,研究者們不滿足于單一的殘差流通道,提出了"超連接(HC)"架構(gòu)——將單一殘差流擴(kuò)展為多條并行通道,并通過(guò)一個(gè)可學(xué)習(xí)的連接矩陣實(shí)現(xiàn)跨通道信息組合。就像把單車(chē)道拓寬為多車(chē)道,理論上能讓模型捕捉更豐富的特征,大幅提升表達(dá)能力。但問(wèn)題也隨之而來(lái):這個(gè)"可學(xué)習(xí)的連接矩陣"缺乏約束,完全自由生長(zhǎng)。這就好比多車(chē)道交通失去了信號(hào)燈和交警管制,車(chē)輛(信號(hào))極易無(wú)序疊加,導(dǎo)致在十億、百億參數(shù)的大規(guī)模訓(xùn)練中出現(xiàn)"信號(hào)爆炸"或"梯度異常",最終模型訓(xùn)練失敗。這也是超連接架構(gòu)在小模型中效果顯著,卻始終無(wú)法在大模型中落地的根本原因。

突破:mHC用"幾何約束"給信號(hào)加"安全護(hù)欄"

DeepSeek提出的mHC架構(gòu),核心思路并非否定超連接的多流優(yōu)勢(shì),而是給自由生長(zhǎng)的連接矩陣加上"安全護(hù)欄"——引入幾何約束,讓其在可控范圍內(nèi)發(fā)揮作用。這個(gè)"護(hù)欄"的核心是將連接矩陣限制在"雙隨機(jī)矩陣流形"內(nèi),通俗來(lái)講,就是要求矩陣的每一行、每一列元素之和都等于1,且所有元素都是非負(fù)數(shù)。



這個(gè)約束看似簡(jiǎn)單,卻蘊(yùn)含著深刻的數(shù)學(xué)原理。一方面,雙隨機(jī)矩陣的最大特征值為1,這意味著它不會(huì)放大任何信號(hào),只會(huì)在不同殘差流之間重新分配權(quán)重,就像交通管制員合理疏導(dǎo)車(chē)流,而非無(wú)限制放行;另一方面,我們熟悉的傳統(tǒng)殘差連接對(duì)應(yīng)的單位矩陣,本身就是雙隨機(jī)矩陣的一種特殊情況,這意味著mHC完全兼容現(xiàn)有技術(shù)體系,無(wú)需推倒重來(lái)。這種設(shè)計(jì)既保留了超連接多流并行的表達(dá)優(yōu)勢(shì),又恢復(fù)了殘差連接的穩(wěn)定性,實(shí)現(xiàn)了"魚(yú)與熊掌兼得"。

在技術(shù)實(shí)現(xiàn)上,DeepSeek團(tuán)隊(duì)沒(méi)有選擇復(fù)雜的約束優(yōu)化,而是采用了工程上成熟的Sinkhorn-Knopp算法。這個(gè)算法的作用就像"信號(hào)矯正器":訓(xùn)練過(guò)程中,模型先自由學(xué)習(xí)連接矩陣,再通過(guò)該算法在每次信息傳遞前進(jìn)行"歸一化矯正",將其投影到雙隨機(jī)矩陣的安全范圍內(nèi)。更關(guān)鍵的是,團(tuán)隊(duì)通過(guò)內(nèi)核融合、重計(jì)算、通信重疊等底層優(yōu)化,把這種矯正帶來(lái)的額外計(jì)算開(kāi)銷(xiāo)控制在極低水平——實(shí)驗(yàn)顯示,當(dāng)并行通道擴(kuò)展4倍時(shí),訓(xùn)練時(shí)間僅增加6.7%,完全具備工程落地價(jià)值。



驗(yàn)證:3B到27B參數(shù)規(guī)模的"穩(wěn)定性大考"

任何技術(shù)突破都需要實(shí)驗(yàn)數(shù)據(jù)支撐,mHC的表現(xiàn)沒(méi)有讓人失望。DeepSeek團(tuán)隊(duì)在3B(30億)、9B(90億)和27B(270億)三種不同參數(shù)規(guī)模的模型上進(jìn)行了測(cè)試,核心驗(yàn)證兩個(gè)問(wèn)題:是否能解決超連接的訓(xùn)練不收斂問(wèn)題?是否能保持甚至提升模型性能?

實(shí)驗(yàn)結(jié)果給出了肯定答案:在傳統(tǒng)超連接頻繁失效的27B參數(shù)模型上,mHC不僅實(shí)現(xiàn)了穩(wěn)定訓(xùn)練,沒(méi)有出現(xiàn)信號(hào)爆炸或梯度異常,還在多個(gè)自然語(yǔ)言處理任務(wù)中維持了優(yōu)異性能。這一結(jié)果證明,mHC提出的"幾何約束"思路并非理論空想,而是能切實(shí)解決大規(guī)模模型訓(xùn)練痛點(diǎn)的可行方案。對(duì)于企業(yè)而言,這意味著未來(lái)可以在更小的算力成本下訓(xùn)練更復(fù)雜的模型,推動(dòng)大模型技術(shù)向更廣泛的行業(yè)場(chǎng)景滲透。

業(yè)界反響:技術(shù)突破背后的行業(yè)趨勢(shì)

mHC架構(gòu)的發(fā)布,迅速在全球AI社區(qū)引發(fā)熱議。在Reddit平臺(tái),長(zhǎng)期從事深度學(xué)習(xí)研究的用戶SlowFail2433指出,缺乏穩(wěn)定殘差連接導(dǎo)致的梯度崩潰問(wèn)題,不僅存在于大語(yǔ)言模型,在卷積神經(jīng)網(wǎng)絡(luò)(如ResNet)中也普遍存在,若mHC能實(shí)現(xiàn)規(guī)模化應(yīng)用,其意義不可小覷。





領(lǐng)英平臺(tái)的行業(yè)觀察人士則從另一個(gè)角度解讀:DeepSeek持續(xù)公開(kāi)核心研究成果,反映出中國(guó)AI公司日益開(kāi)放的協(xié)作文化。在過(guò)去,部分企業(yè)傾向于隱藏核心技術(shù),但如今越來(lái)越多的中國(guó)AI團(tuán)隊(duì)選擇通過(guò)學(xué)術(shù)論文分享突破,這種開(kāi)放不僅能推動(dòng)整個(gè)行業(yè)的技術(shù)進(jìn)步,也為自身后續(xù)的模型迭代釋放信號(hào)。有觀點(diǎn)猜測(cè),mHC架構(gòu)很可能成為DeepSeek下一代基礎(chǔ)模型的核心組件,此次論文發(fā)布正是技術(shù)落地前的重要鋪墊。

總結(jié):不止于技術(shù)突破,更是架構(gòu)演進(jìn)的新范式

客觀來(lái)看,mHC并非要取代Transformer,而是為基礎(chǔ)模型架構(gòu)的演進(jìn)提供了全新思路。它證明了在大規(guī)模模型訓(xùn)練中,單純依靠增加正則項(xiàng)或優(yōu)化初始化參數(shù),難以從根本上解決穩(wěn)定性問(wèn)題;而通過(guò)顯式的幾何約束,將模型結(jié)構(gòu)限制在具備良好數(shù)學(xué)性質(zhì)的空間內(nèi),才是系統(tǒng)性解決問(wèn)題的關(guān)鍵。

這一思路的價(jià)值遠(yuǎn)不止于當(dāng)前的超連接優(yōu)化。隨著AI模型向多流、多路徑的復(fù)雜拓?fù)浒l(fā)展,如何平衡"表達(dá)能力"與"可控可訓(xùn)性"將成為核心課題,mHC提出的"幾何約束+工程優(yōu)化"框架,為未來(lái)的架構(gòu)設(shè)計(jì)提供了可復(fù)用的解決方案。對(duì)于中國(guó)AI產(chǎn)業(yè)而言,DeepSeek的這一突破更具象征意義——它標(biāo)志著中國(guó)團(tuán)隊(duì)不僅能在應(yīng)用層實(shí)現(xiàn)技術(shù)落地,更能在基礎(chǔ)模型的核心架構(gòu)領(lǐng)域提出原創(chuàng)性思路,在全球AI競(jìng)爭(zhēng)中占據(jù)更重要的話語(yǔ)權(quán)。

正如業(yè)內(nèi)人士所言,2026年AI圈的開(kāi)年大禮,不僅是一個(gè)新架構(gòu),更是一種新信心。當(dāng)技術(shù)突破不再依賴單一的算力堆砌,而是回歸到數(shù)學(xué)原理與工程實(shí)踐的深度融合,AI的下一次進(jìn)化,或許已在路上。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
抓完馬杜羅,特朗普徹底“放飛”,向全世界連下六封“戰(zhàn)書(shū)”

抓完馬杜羅,特朗普徹底“放飛”,向全世界連下六封“戰(zhàn)書(shū)”

云隱南山
2026-01-07 09:38:59
你聽(tīng)過(guò)最勁爆的瓜是啥?網(wǎng)友:被大八歲的補(bǔ)習(xí)班老師表白了

你聽(tīng)過(guò)最勁爆的瓜是啥?網(wǎng)友:被大八歲的補(bǔ)習(xí)班老師表白了

帶你感受人間冷暖
2025-11-26 00:10:06
發(fā)現(xiàn)沒(méi),大家都開(kāi)始戒煙了!

發(fā)現(xiàn)沒(méi),大家都開(kāi)始戒煙了!

黯泉
2026-01-04 22:11:39
14投13中!46分!恭喜楊瀚森,進(jìn)入開(kāi)拓者輪換名單

14投13中!46分!恭喜楊瀚森,進(jìn)入開(kāi)拓者輪換名單

趙或是個(gè)熱血青年
2026-01-06 09:52:41
1925年,徐樹(shù)錚穿著睡衣被拖出車(chē)廂槍斃,馮玉祥為何這么憎恨他?

1925年,徐樹(shù)錚穿著睡衣被拖出車(chē)廂槍斃,馮玉祥為何這么憎恨他?

墨說(shuō)古今
2026-01-05 15:57:31
美脫口秀主持人喬恩·斯圖爾特諷刺特朗普“演都不演了”:我“同情”還在為他找借口的人

美脫口秀主持人喬恩·斯圖爾特諷刺特朗普“演都不演了”:我“同情”還在為他找借口的人

環(huán)球網(wǎng)資訊
2026-01-06 17:11:08
中國(guó)將迎來(lái)前所未有的死亡高峰,專家得出答案,主要3個(gè)因素導(dǎo)致

中國(guó)將迎來(lái)前所未有的死亡高峰,專家得出答案,主要3個(gè)因素導(dǎo)致

小怪吃美食
2026-01-07 04:32:20
我軍頂級(jí)的軍事天才只有一人,他打的仗,即使別人復(fù)盤(pán)也打不出來(lái)

我軍頂級(jí)的軍事天才只有一人,他打的仗,即使別人復(fù)盤(pán)也打不出來(lái)

搜史君
2025-12-27 08:55:10
腿粗屁股大的金發(fā)辣妹,黑背心配紅瑜伽褲,凸顯飽滿臀線魅力

腿粗屁股大的金發(fā)辣妹,黑背心配紅瑜伽褲,凸顯飽滿臀線魅力

小喬古裝漢服
2025-12-17 15:54:55
考辛斯:湖人的問(wèn)題在于防守,東契奇與哈登弱點(diǎn)相同卻不同命

考辛斯:湖人的問(wèn)題在于防守,東契奇與哈登弱點(diǎn)相同卻不同命

林子說(shuō)事
2026-01-07 05:33:45
吳營(yíng)村慌了!吳承言宣布全國(guó)巡畫(huà)后連夜修路,終于把收割機(jī)挪走了

吳營(yíng)村慌了!吳承言宣布全國(guó)巡畫(huà)后連夜修路,終于把收割機(jī)挪走了

觀察鑒娛
2026-01-07 09:12:45
特朗普急了,就連臺(tái)積電也慌了,美國(guó)工廠芯片成本,是中國(guó)的241%

特朗普急了,就連臺(tái)積電也慌了,美國(guó)工廠芯片成本,是中國(guó)的241%

墨蘭史書(shū)
2026-01-07 04:40:03
血的教訓(xùn)!美軍突襲委內(nèi)瑞拉:多虧這套系統(tǒng),解放軍卻從未裝備?

血的教訓(xùn)!美軍突襲委內(nèi)瑞拉:多虧這套系統(tǒng),解放軍卻從未裝備?

荷蘭豆愛(ài)健康
2026-01-07 02:19:53
特朗普未宣布戰(zhàn)爭(zhēng),美軍或?qū)⑷腭v烏克蘭,澤連斯基向普京提出請(qǐng)求

特朗普未宣布戰(zhàn)爭(zhēng),美軍或?qū)⑷腭v烏克蘭,澤連斯基向普京提出請(qǐng)求

小鬼頭體育
2026-01-07 09:28:39
美國(guó)綁架馬杜羅后,鄭麗文只說(shuō)了幾句話,就讓賴清德心跌到谷底

美國(guó)綁架馬杜羅后,鄭麗文只說(shuō)了幾句話,就讓賴清德心跌到谷底

詩(shī)酒趁的年華
2026-01-06 20:19:09
一個(gè)都跑不掉!華為600萬(wàn)年薪高管,帶13人偷芯片,如今下場(chǎng)解氣

一個(gè)都跑不掉!華為600萬(wàn)年薪高管,帶13人偷芯片,如今下場(chǎng)解氣

涵豆說(shuō)娛
2025-11-07 17:47:01
為什么說(shuō)巨杉是一種“可怕”的生物?它“可怕”在哪呢?

為什么說(shuō)巨杉是一種“可怕”的生物?它“可怕”在哪呢?

向航說(shuō)
2025-12-31 00:40:02
盧比奧一語(yǔ)道破委內(nèi)瑞拉荒誕真相:馬杜羅的江山,古巴人的管家

盧比奧一語(yǔ)道破委內(nèi)瑞拉荒誕真相:馬杜羅的江山,古巴人的管家

老馬拉車(chē)莫少裝
2026-01-05 21:46:08
又輸了!8強(qiáng)隊(duì)成倒數(shù)第4,多位媒體人質(zhì)疑,43歲少帥: 我需要成長(zhǎng)

又輸了!8強(qiáng)隊(duì)成倒數(shù)第4,多位媒體人質(zhì)疑,43歲少帥: 我需要成長(zhǎng)

金山話體育
2026-01-07 08:41:34
抵達(dá)上海,姚明正式上任,新崗位曝光,俱樂(lè)部官宣,劉煒期待

抵達(dá)上海,姚明正式上任,新崗位曝光,俱樂(lè)部官宣,劉煒期待

樂(lè)聊球
2026-01-06 11:22:18
2026-01-07 10:51:00
魏家東 incentive-icons
魏家東
一個(gè)人的營(yíng)銷(xiāo)商學(xué)院!
2239文章數(shù) 12129關(guān)注度
往期回顧 全部

科技要聞

馬斯克殺瘋了!xAI官宣200億美元融資

頭條要聞

李文榮被公訴:泄露尚未公開(kāi)企業(yè)重組信息 搞權(quán)色交易

頭條要聞

李文榮被公訴:泄露尚未公開(kāi)企業(yè)重組信息 搞權(quán)色交易

體育要聞

全明星次輪票數(shù):東契奇票王 詹皇超KD升西部第8

娛樂(lè)要聞

2026年央視春晚彩排:沈騰確定回歸

財(cái)經(jīng)要聞

茅臺(tái)為何要和分銷(xiāo)商徹底說(shuō)拜拜?

汽車(chē)要聞

摩登出街潮品 實(shí)拍奇瑞QQ冰淇淋女王版

態(tài)度原創(chuàng)

親子
藝術(shù)
游戲
數(shù)碼
公開(kāi)課

親子要聞

雀巢也出現(xiàn)毒奶粉事件了?

藝術(shù)要聞

你也在學(xué)書(shū)法?先楷后行的秘密曝光!

小團(tuán)體鬧麻了!《黎明行者》稱本作吸血鬼會(huì)組團(tuán)爭(zhēng)斗

數(shù)碼要聞

聯(lián)想官宣6月推SteamOS版Legion Go 2掌機(jī)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版