国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek與字節(jié)跳動踏進(jìn)同一條河

0
分享至

本文系基于公開資料撰寫,僅作為信息交流之用,不構(gòu)成任何投資建議


新年前夕,DeepSeek發(fā)表了一篇聚焦神經(jīng)網(wǎng)絡(luò)架構(gòu)創(chuàng)新的核心論文,梁文鋒以通訊作者身份署名。論文提出了流形約束超連接(manifold-constrained HyperConnection, mHC)架構(gòu),直指大規(guī)模模型訓(xùn)練中的穩(wěn)定性難題。

這一工作為硬件受限的中國 AI 企業(yè)開辟了一條兼顧性能與效率的路徑,也與字節(jié)跳動早前在殘差流優(yōu)化上的探索形成關(guān)鍵呼應(yīng),二者均瞄準(zhǔn)殘差連接這一模型基礎(chǔ)架構(gòu)進(jìn)行改造。

DeepSeek的研究,恰恰是對字節(jié)跳動“超連接”技術(shù)短板的系統(tǒng)性補(bǔ)位。這一成果不僅為大模型底層架構(gòu)的工業(yè)化落地提供了新方案,再度印證了硬件約束可轉(zhuǎn)化為創(chuàng)新動力的產(chǎn)業(yè)演進(jìn)邏輯。

自2016年ResNet 提出以來,殘差連接已成為深度學(xué)習(xí)的骨架式設(shè)計。其通過“捷徑連接”繞過層層非線性變換,從根本上緩解了梯度消失或爆炸的難題,支撐起越來越深的模型結(jié)構(gòu)。

長期以來,業(yè)界創(chuàng)新多集中于注意力機(jī)制、MoE(混合專家)等模塊,殘差流本身處于一種“靜默的穩(wěn)定”中,直至2024 年字節(jié)跳動以超連接(HyperConnection)技術(shù)打破這一局面。

字節(jié)跳動的超連接通過拓寬殘差流寬度、構(gòu)建多路并行信號流,并讓模型學(xué)習(xí)流間的交互模式,顯著提升了模型表達(dá)能力。然而,該技術(shù)在規(guī)?;?xùn)練中暴露出致命短板:信號發(fā)散。

DeepSeek的測試顯示,在270億參數(shù)模型的訓(xùn)練中,約12000步后梯度范數(shù)劇烈波動,訓(xùn)練崩潰;更嚴(yán)重的是,信號強(qiáng)度在第60層膨脹至輸入值的3000倍。問題的核心在于,超連接為追求表達(dá)力,放棄了殘差連接原有的恒等映射約束——小規(guī)模下尚可調(diào)參掩蓋,但在大規(guī)模訓(xùn)練中,這一缺陷被急劇放大。

mHC的核心創(chuàng)新,是將可學(xué)習(xí)的變換矩陣約束在雙重隨機(jī)矩陣(doubly stochastic matrix)構(gòu)成的流形上。這相當(dāng)于為信號傳播設(shè)立“剛性預(yù)算”:矩陣每行、每列元素之和均為1且非負(fù),確保輸出信號強(qiáng)度嚴(yán)格介于輸入信號的最大最小值之間,從而杜絕信號爆炸。

更關(guān)鍵的是,雙重隨機(jī)矩陣具有組合不變性——多層疊加后仍保持穩(wěn)定。實(shí)驗(yàn)表明,在超連接出現(xiàn)3000倍信號放大的同一場景中,mHC的信號放大峰值僅為1..6倍。為控制計算開銷,DeepSeek 采用Sinkhorn-Knopp 迭代進(jìn)行投影,僅需20輪迭代即可收斂,額外訓(xùn)練成本被壓制在6.7%

硬件約束倒逼的不只是算法創(chuàng)新,更是全鏈路的系統(tǒng)級優(yōu)化。超連接拓寬殘差流后,每層數(shù)據(jù)讀寫量倍增,在A800/A100的有限互聯(lián)帶寬下,芯片極易陷入“等待數(shù)據(jù)遠(yuǎn)多于計算”的效率陷阱。DeepSeek通過三項(xiàng)關(guān)鍵技術(shù)破局:

1.算子融合:將內(nèi)存訪問模式相近的操作合并為單一GPU內(nèi)核,減少數(shù)據(jù)搬運(yùn);

2.反向傳播重計算:不存儲中間激活值,改為實(shí)時重算,以計算換內(nèi)存;

3.流水線并行優(yōu)化:重疊跨GPU通信與本地計算,用計算掩蓋通信延遲。

這些優(yōu)化將原本隨層數(shù)線性增長的內(nèi)存開銷,轉(zhuǎn)化為可由模塊大小控制的有界開銷。配合基于 TileLang 編寫的混合精度內(nèi)核(bfloat16 為主,float32 保關(guān)鍵精度),實(shí)現(xiàn)了全參數(shù)規(guī)模下的穩(wěn)定性能提升。測試中,30億至270 億參數(shù)模型搭載mHC后均表現(xiàn)優(yōu)異,270億模型在BIG-Bench Hard復(fù)雜推理任務(wù)上提升 2..1%,在 DROP閱讀理解任務(wù)上提升2.3%

此前,V3架構(gòu)論文對應(yīng)V3模型,R1推理論文對應(yīng)R1模型;本次mHC論文在 2026 年春節(jié)前三周發(fā)布,外界普遍預(yù)期下一代旗艦?zāi)P停≧2)即將亮相。

這種“論文先行”的策略,既通過同行評議建立技術(shù)公信力,又在復(fù)雜地緣環(huán)境中為原創(chuàng)性留下時間戳,更向全球傳遞一個明確信息:中國 AI 企業(yè)的核心競爭力,并非依賴尖端算力芯片

DeepSeek選擇通過arXiv、Hugging Face等開放平臺而非傳統(tǒng)期刊發(fā)布成果,雖犧牲部分學(xué)術(shù)聲望,卻換來了技術(shù)傳播的速度與可達(dá)性。這種開放模式加速了知識擴(kuò)散,也對同行構(gòu)成直接競爭壓力:當(dāng) mHC 的性能增益可量化、實(shí)現(xiàn)可復(fù)現(xiàn)時,西方實(shí)驗(yàn)室要么跟進(jìn)類似技術(shù),要么必須論證自身路徑的優(yōu)越性。

此前R1 型已觸發(fā)推理模型研發(fā)熱潮,mHC架構(gòu)很可能推動殘差流優(yōu)化進(jìn)入新一輪迭代。更重要的是,這一模式向技術(shù)管制者傳遞了清晰信號:硬件限制并未扼殺創(chuàng)新,反而迫使中國 AI 企業(yè)走向“從數(shù)學(xué)根源解決問題”的最本質(zhì)路徑。

字節(jié)跳動與 DeepSeek,先后踏入同一條“突破傳統(tǒng)殘差流”的創(chuàng)新之河。前者率先探路,卻止步于規(guī)?;款i;后者在硬件約束的倒逼下,憑借數(shù)學(xué)約束與系統(tǒng)級優(yōu)化,架起了一座可通航的技術(shù)之橋。

距離2026年春節(jié)僅剩六周,R2模型的發(fā)布將檢驗(yàn)mHC架構(gòu)的工業(yè)化成色。無論最終基準(zhǔn)測試結(jié)果如何,這條“在約束中創(chuàng)新”的路徑已具備里程碑意義——它清晰證明,AI 競賽不只有“燒錢堆算力”這一條賽道。硬件限制從不是創(chuàng)新的絆腳石,而是催生真正核心突破的催化劑。

轉(zhuǎn)載開白 | 商務(wù)合作 | 內(nèi)容交流
請?zhí)砑游⑿牛簀induan008
添加微信請備注姓名公司與來意

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
讓你拉屎巨多、巨干凈的3類食物,不是香蕉,不是火龍果,是啥?

讓你拉屎巨多、巨干凈的3類食物,不是香蕉,不是火龍果,是啥?

周哥一影視
2026-04-19 21:38:15
坐擁北京一條街,丈夫是京劇名家,如今身價過億32歲兒子卻成心病

坐擁北京一條街,丈夫是京劇名家,如今身價過億32歲兒子卻成心病

不似少年游
2026-04-07 22:24:49
網(wǎng)上都說他死了,他也沒法證明自己還活著

網(wǎng)上都說他死了,他也沒法證明自己還活著

萬物雜志
2026-04-18 06:06:03
扛不起這么多的球權(quán)!火箭后場新星的短板真是被各種暴露了?

扛不起這么多的球權(quán)!火箭后場新星的短板真是被各種暴露了?

稻谷與小麥
2026-04-20 00:52:36
江蘇南通多人稱一餐飲老板長期欠債還擴(kuò)大經(jīng)營,相關(guān)門店停業(yè)后仍不還款 債務(wù)人:生意虧損,無力還錢

江蘇南通多人稱一餐飲老板長期欠債還擴(kuò)大經(jīng)營,相關(guān)門店停業(yè)后仍不還款 債務(wù)人:生意虧損,無力還錢

紅星新聞
2026-04-19 14:58:21
斯諾克世錦賽:丁俊暉3-1晉級,1-8決賽對陣趙心童

斯諾克世錦賽:丁俊暉3-1晉級,1-8決賽對陣趙心童

小犙拍客在北漂
2026-04-19 19:05:04
世錦賽戰(zhàn)報:世界亞軍連輸6局2-7!趙心童10連勝,丁俊暉面臨挑戰(zhàn)

世錦賽戰(zhàn)報:世界亞軍連輸6局2-7!趙心童10連勝,丁俊暉面臨挑戰(zhàn)

球場沒跑道
2026-04-19 06:28:45
多名院士調(diào)查發(fā)現(xiàn):吃一口香椿,就或等于進(jìn)一次毒,真的假的?

多名院士調(diào)查發(fā)現(xiàn):吃一口香椿,就或等于進(jìn)一次毒,真的假的?

荊醫(yī)生科普
2026-04-17 15:32:24
要離開勇士?波神:我需要退一步看清局勢,再做最有利的決定

要離開勇士?波神:我需要退一步看清局勢,再做最有利的決定

懂球帝
2026-04-19 22:36:59
比梅努更重要!曼聯(lián)新星碾壓切爾西,紅魔新核已崛起

比梅努更重要!曼聯(lián)新星碾壓切爾西,紅魔新核已崛起

奶蓋熊本熊
2026-04-20 00:20:08
岸田文雄出山!當(dāng)著30國的面,對國民發(fā)出呼吁:日本不能重演悲劇

岸田文雄出山!當(dāng)著30國的面,對國民發(fā)出呼吁:日本不能重演悲劇

共工之錨
2026-04-19 00:14:16
甜美清純唐嫣:沉魚落雁,閉月羞花。翩若驚鴻,宛如游龍!

甜美清純唐嫣:沉魚落雁,閉月羞花。翩若驚鴻,宛如游龍!

十為先生
2026-04-10 16:36:15
勸退!“去客廳化”火了5年,為什么70%家庭最后都偷偷把沙發(fā)搬了回來?

勸退!“去客廳化”火了5年,為什么70%家庭最后都偷偷把沙發(fā)搬了回來?

繪本家居
2026-04-10 11:13:39
詹姆斯:我媽能看到她兒子和孫子并肩打季后賽,這也太瘋狂了

詹姆斯:我媽能看到她兒子和孫子并肩打季后賽,這也太瘋狂了

懂球帝
2026-04-19 12:31:08
孫悟空偷吃了那么多仙丹,為何卻還是太乙散仙?看太上老君怎么說

孫悟空偷吃了那么多仙丹,為何卻還是太乙散仙?看太上老君怎么說

千秋文化
2026-02-13 18:49:10
退休后,我的生活越來越差勁,原因是我踩中了“退休返貧三件套”

退休后,我的生活越來越差勁,原因是我踩中了“退休返貧三件套”

蟬吟槐蕊
2026-04-13 07:56:20
4月19日晚間上市公司重大事項(xiàng)公告

4月19日晚間上市公司重大事項(xiàng)公告

風(fēng)風(fēng)順
2026-04-19 21:52:41
14歲被送上導(dǎo)演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

14歲被送上導(dǎo)演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

阿訊說天下
2026-04-18 11:52:55
弗格森也做不到!曼聯(lián)打破英超紀(jì)錄,切爾西有望掉出前十

弗格森也做不到!曼聯(lián)打破英超紀(jì)錄,切爾西有望掉出前十

嗨皮看球
2026-04-19 16:52:48
打起來了,以色列發(fā)起“斬首行動”,美航母起火,特朗普宣布決定

打起來了,以色列發(fā)起“斬首行動”,美航母起火,特朗普宣布決定

小噎論事
2026-04-19 21:21:27
2026-04-20 01:35:00
錦緞研究院 incentive-icons
錦緞研究院
專注上市公司價值發(fā)現(xiàn)與傳播
2499文章數(shù) 10827關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

藝術(shù)
本地
房產(chǎn)
時尚
游戲

藝術(shù)要聞

超模施特洛耶克寫真曝光,簡直美到窒息,別錯過!

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!??跇鞘校蝗粴⑷肷衩胤科?!

裝修“精神角落”,就是這么上癮

如何將ZH-1火力最大化?《戰(zhàn)艦世界》15.3版本造船廠加點(diǎn)攻略

無障礙瀏覽 進(jìn)入關(guān)懷版