国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

梁文鋒的新論文,要革何愷明們的命?

0
分享至



出品|搜狐科技

作者|常博碩

編輯| 楊 錦

果然,只要一到假期,DeepSeek就會更新點什么。

這個元旦,DeepSeek發(fā)表了一篇新論文《mHC: Manifold-Constrained Hyper-Connections》提出了一種新的架構(gòu)——流形約束超連接,以解決傳統(tǒng)架構(gòu)在大模型訓(xùn)練中的不穩(wěn)定問題。

更值得關(guān)注的是,論文作者最后一位赫然寫著梁文鋒的大名。


在此之前,梁文鋒幾乎很少在技術(shù)論文中署名,最多是掛個通訊作者。這次直接參與論文撰寫,足以可見DeepSeek對這篇論文的重視程度。

而細讀之后才發(fā)現(xiàn),這篇論文可以稱得上是一場革命性的創(chuàng)新,革的正是何愷明們建立的深度學(xué)習(xí)基石ResNet的命。

作為計算機視覺領(lǐng)域的頂尖科學(xué)家,何愷明畢業(yè)于清華大學(xué)物理系,現(xiàn)任麻省理工學(xué)院電氣工程與計算機科學(xué)系副教授(終身教職)。其最著名的成就,就是提出了ResNet架構(gòu),解決了深度神經(jīng)網(wǎng)絡(luò)中“越深越難訓(xùn)練”的根本性問題,ResNet也被稱為現(xiàn)代深度學(xué)習(xí)發(fā)展史上的一座里程碑。


十年未變的“底層共識”被改變

要理解DeepSeek這篇論文分量,我們得回到十年前。如果把那時的神經(jīng)網(wǎng)絡(luò)比喻成一座高塔,在當時,隨著塔的層數(shù)堆疊過多,地基傳來的信號往往在半路就消失殆盡,很容易導(dǎo)致塔身崩塌。

直到何愷明等人提出了劃時代的ResNet(殘差網(wǎng)絡(luò)),這個問題才被解決。

在 ResNet之前,深度神經(jīng)網(wǎng)絡(luò)有一個致命問題,那就是網(wǎng)絡(luò)一深,反而學(xué)不會了。原因很簡單,梯度會在層層傳遞中消失或爆炸,前面的信息傳不到后面。

于是當時還在微軟亞洲研究院的何愷明等人就發(fā)表了一篇名為《Deep Residual Learning for Image Recognition》的論文,這篇論文也是AI歷史上引用率最高的殿堂級論文之一。

可以這樣理解,原本信息過神經(jīng)網(wǎng)絡(luò)層時會被攔截處理,可以理解為一條高速公路中有很多收費站,導(dǎo)致信號像公路上的車流一樣不停被收費站攔截,運行不暢。

而ResNet相當于在旁邊修了一條直通的“快速通道”,哪怕收費站處理得不好,信息也可以通過快速通道原封不動地傳到下一站,這也被稱為恒等映射(Identity Mapping)。

于是,自2016 年何愷明提出ResNet開始,殘差連接迅速成為深度神經(jīng)網(wǎng)絡(luò)的默認配置。它解決了深層網(wǎng)絡(luò)難以訓(xùn)練的問題,使得模型深度可以從幾十層擴展到上百層,甚至更深。

后來出現(xiàn)的 Transformer,看似是一種全新的架構(gòu),但LayerNorm + Residual的基本形式,本質(zhì)也是繼承了ResNet的思想。ResNet也成為了后來幾乎所有大模型的基石。

然而,隨著模型參數(shù)邁向萬億級別,研究者開始覺得單車道的信息吞吐量太小了,它限制了模型思考的廣度。既然單車道不夠用,為什么不把它拓寬成八車道、十六車道?

一種新的架構(gòu)HC也就應(yīng)運而生。這種被稱為“超連接”(Hyper-Connections,簡稱HC)的新架構(gòu)由字節(jié)Seed團隊在論文《Hyper-Connections》中提出。


它試圖打破傳統(tǒng)的束縛,將原本單一的殘差流拓寬數(shù)倍,并允許信息在不同的通道間自由穿插、混合。也就是說,原本的高速路加快車單行道直接變成了一個巨大的、沒有紅綠燈的多層立交橋。

在 HC 架構(gòu)中,模型維護多條并行的殘差流,每一層輸出都是這些殘差流的線性組合。這也就意味著,信息不必被壓縮進單一通道,結(jié)果就是網(wǎng)絡(luò)的表示能力顯著增強。

在中小規(guī)模實驗中,HC的表現(xiàn)確實亮眼,在相同參數(shù)量和計算量下,HC模型往往能取得更低的 loss,或者在下游任務(wù)上表現(xiàn)更優(yōu)。

但問題,很快就暴露出來。HC 在大規(guī)模模型訓(xùn)練中,存在系統(tǒng)性的不穩(wěn)定問題。

這種不穩(wěn)定并不是偶然的訓(xùn)練失敗,而是隨著層數(shù)和訓(xùn)練步數(shù)增加,幾乎必然發(fā)生的結(jié)構(gòu)性風(fēng)險。



mHC掀起架構(gòu)革命

當模型規(guī)模放大,HC就開始“失控”了。在DeepSeek的新論文里認為,從數(shù)學(xué)角度看,這種失控的問題出在殘差的恒等映射被破壞了。

在 ResNet 中,殘差連接的核心價值不在于加法本身,而在于不論網(wǎng)絡(luò)其他部分如何變化,都至少存在一條不被放大的信息通路。

但在 HC 中,每一層的殘差更新,本質(zhì)上是一個可學(xué)習(xí)矩陣對多條殘差流的線性變換。當這種矩陣在層與層之間不斷相乘時,就有可能導(dǎo)致梯度在反向傳播中迅速失控,訓(xùn)練在某個時間點突然崩掉。

論文給出的實驗非常直觀,在 27B 參數(shù)規(guī)模的模型中,HC 架構(gòu)在訓(xùn)練早期看似正常,但在約一萬多步后,出現(xiàn)了突發(fā)的損失激增,梯度范數(shù)也表現(xiàn)出劇烈波動。


研究團隊計算了復(fù)合映射對信號的放大倍數(shù),在HC架構(gòu)中,這個值的峰值達到了3000,意味著信號在層間傳播時可能被放大數(shù)千倍,也可能直接衰減至幾乎消失。


換句話說,HC 的問題并不是效果不好,而是它缺乏一個像ResNet那樣的安全底座。

DeepSeek論文的核心思路是將殘差映射矩陣約束到一個特定的流形上,一個由雙隨機矩陣構(gòu)成的Birkhoff多面體。

他們認為HC的“多車道”思路是對的,但不能讓車亂跑。于是他們在 HC 的基礎(chǔ)上,加了一套嚴格的數(shù)學(xué)約束也就是雙隨機矩陣。

DeepSeek的工作,可以看作是給這個多車道高速路裝上了智能紅綠燈和導(dǎo)流線,規(guī)則是你可以變道,但必須保證出來的總車流量等于進去的總車流量。

這樣既享受了HC帶來的高吞吐量和性能提升,又像ResNet一樣極其穩(wěn)定,恢復(fù)了恒等映射。

具體來看,在mHC中所有用于混合多條殘差流的矩陣,都必須滿足三個條件:每一行元素之和等于1;每一列元素之和等于1;所有元素非負。

這類矩陣被稱為雙隨機矩陣。

乍一看,這是一個非常強的約束,但正是這一約束,帶來了mHC的核心優(yōu)勢。從穩(wěn)定性角度看雙隨機矩陣的譜半徑被嚴格限制在1以內(nèi),這意味著它不會放大信號,多層相乘后,依然保持有界,梯度既不會爆炸,也不會消失。

同時,雙隨機矩陣等價于對多條殘差流做加權(quán)平均,在本質(zhì)上仍然保留了ResNet的內(nèi)核,信息可以自由混合,但不會被無限放大。

mHC架構(gòu)其實并非紙上談兵,DeepSeek團隊論文之所以有諸多好評,很大程度上也源于他們在工程可行性上的能力。


算力壓榨到極致

在原始HC設(shè)計中,多殘差流意味著更高的內(nèi)存占用和訪問成本,顯存帶寬是現(xiàn)代AI芯片最昂貴的資源,如此高昂的成本在大模型時代是很難讓人接受的。

DeepSeek團隊展現(xiàn)了他們作為頂級AI實驗室的工程素養(yǎng),他們沒有停留在算法層面,而是深入到了底層的算子優(yōu)化。

團隊為此開發(fā)了一系列基礎(chǔ)設(shè)施優(yōu)化,他們使用TileLang框架實現(xiàn)了多個融合內(nèi)核,將原本分散的操作合并執(zhí)行以減少內(nèi)存訪問次數(shù)。

針對Sinkhorn-Knopp算法,他們設(shè)計了專門的前向和反向內(nèi)核,在芯片上重新計算中間結(jié)果以避免存儲開銷。

同時,他們還提出了DualPipe并行策略。在大模型訓(xùn)練中,計算和通信往往是串行的,也就導(dǎo)致了GPU在等待數(shù)據(jù)傳輸時經(jīng)常處于閑置狀態(tài)。

DualPipe巧妙地構(gòu)建了一個雙向流水線,利用前向傳播和反向傳播在時間上的錯位,讓計算任務(wù)和通信任務(wù)實現(xiàn)了完美重疊。

在算力、數(shù)據(jù)和參數(shù)規(guī)模不斷膨脹的今天,模型性能的提升越來越像一場刷榜游戲。在這樣的背景下,像mHC 這樣直指底層結(jié)構(gòu)的工作,就顯得尤為重要。

對于用戶來說,mHC或許不如一個新的模型、新的智能體對生活的改變大,但至少讓人們看到了一群死磕AI底層架構(gòu)的工程師們的執(zhí)著,這群修補地基的人,或許才是AI時代最稀缺的人才。



運營編輯 |曹倩審核|孟莎莎




特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
笑死!爸爸和孩子能不熟到什么地步?網(wǎng)友:存在感這么低

笑死!爸爸和孩子能不熟到什么地步?網(wǎng)友:存在感這么低

夜深愛雜談
2026-02-28 23:22:47
伊朗外交部發(fā)言人稱伊朗最高領(lǐng)袖和總統(tǒng)“安然無恙”

伊朗外交部發(fā)言人稱伊朗最高領(lǐng)袖和總統(tǒng)“安然無恙”

澎湃新聞
2026-03-01 05:25:03
溫州知名醫(yī)院被查!1名醫(yī)生被罰

溫州知名醫(yī)院被查!1名醫(yī)生被罰

住溫網(wǎng)
2026-02-28 10:16:15
伊朗發(fā)射法塔赫高超音速導(dǎo)彈

伊朗發(fā)射法塔赫高超音速導(dǎo)彈

界面新聞
2026-02-28 23:51:14
近4戰(zhàn)場均25分!普爾的交易添頭打成鵜鶘核心,大傷沒能毀掉他

近4戰(zhàn)場均25分!普爾的交易添頭打成鵜鶘核心,大傷沒能毀掉他

你的籃球頻道
2026-03-01 13:36:40
過去30年,中國三次忍辱負重“裝孫子”躲過美國阻擊,終迎大發(fā)展

過去30年,中國三次忍辱負重“裝孫子”躲過美國阻擊,終迎大發(fā)展

阿胡
2024-06-13 14:25:16
換心風(fēng)波僅1個月,李連杰再傳噩耗,淪落到如今的下場怪不了別人

換心風(fēng)波僅1個月,李連杰再傳噩耗,淪落到如今的下場怪不了別人

鄉(xiāng)野小珥
2026-02-05 15:03:34
外交部副部長孫衛(wèi)東禮節(jié)性會見菲律賓外交部部長助理兼亞太司司長

外交部副部長孫衛(wèi)東禮節(jié)性會見菲律賓外交部部長助理兼亞太司司長

證券時報
2026-02-28 19:03:03
伊朗巴斯基民兵組織就哈梅內(nèi)伊身亡發(fā)表聲明

伊朗巴斯基民兵組織就哈梅內(nèi)伊身亡發(fā)表聲明

界面新聞
2026-03-01 21:44:59
75歲老人全新養(yǎng)老方式:不請保姆不去養(yǎng)老院,成本小老人舒心

75歲老人全新養(yǎng)老方式:不請保姆不去養(yǎng)老院,成本小老人舒心

孢木情感
2026-02-21 12:15:25
90年代蔣方良希望葬在蔣經(jīng)國旁邊,方智怡:沒地方讓你葬在他旁邊

90年代蔣方良希望葬在蔣經(jīng)國旁邊,方智怡:沒地方讓你葬在他旁邊

近史談
2026-03-01 11:05:01
美國終于回過味來了:這個世界上,不會再有第二個“中國”了

美國終于回過味來了:這個世界上,不會再有第二個“中國”了

忠于法紀
2026-01-16 21:06:27
王曼昱奪冠后,緊緊抱住那個已經(jīng)退役七年、專程從香港飛來的女人

王曼昱奪冠后,緊緊抱住那個已經(jīng)退役七年、專程從香港飛來的女人

百態(tài)人間
2025-12-29 16:43:18
72歲潘虹:我以晚年托起耄耋母親的晚年

72歲潘虹:我以晚年托起耄耋母親的晚年

細品名人
2026-02-27 05:51:54
全網(wǎng)被萌翻!汪小菲家小七寶成馬年第一團寵,玥兒抱弟弟畫面太暖

全網(wǎng)被萌翻!汪小菲家小七寶成馬年第一團寵,玥兒抱弟弟畫面太暖

扒星人
2026-02-28 20:35:02
王一博風(fēng)波升級!吐槽肖戰(zhàn)等十幾位明星,細節(jié)對上,爆料者被扒!

王一博風(fēng)波升級!吐槽肖戰(zhàn)等十幾位明星,細節(jié)對上,爆料者被扒!

古希臘掌管月桂的神
2026-02-28 09:35:27
特朗普苦等4天中方終于回信,對美開出兩大條件,做不到訪華免談

特朗普苦等4天中方終于回信,對美開出兩大條件,做不到訪華免談

安珈使者啊
2026-03-01 12:15:35
溫州這4名干部,獲提拔

溫州這4名干部,獲提拔

溫州草根
2026-03-01 21:29:35
搶了中國港口,巴拿馬總統(tǒng)放話“敢反制就回擊”,中方一句話回應(yīng)

搶了中國港口,巴拿馬總統(tǒng)放話“敢反制就回擊”,中方一句話回應(yīng)

環(huán)球Talk
2026-03-01 22:41:23
男籃世預(yù)賽晉級形勢分析!中國隊1戰(zhàn)定生死:韓國或被聯(lián)手踢出局

男籃世預(yù)賽晉級形勢分析!中國隊1戰(zhàn)定生死:韓國或被聯(lián)手踢出局

籃球快餐車
2026-03-01 00:42:22
2026-03-02 00:03:00
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方賬號
4702文章數(shù) 9180關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

媒體:美以能精準"斬首"背后 摩薩德的"手筆"令人咋舌

頭條要聞

媒體:美以能精準"斬首"背后 摩薩德的"手筆"令人咋舌

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

數(shù)碼
藝術(shù)
親子
教育
家居

數(shù)碼要聞

古爾曼:蘋果堅持Mac與iPad獨立,觸控版MacBook Pro定檔2026年底

藝術(shù)要聞

2025年第二屆少兒美術(shù)教師作品展 | 油畫選刊

親子要聞

保護孩子寶媽必學(xué),什么是無記憶創(chuàng)傷?

教育要聞

11年,學(xué)生平均增高5.52厘米!成都這所小學(xué),登上教育部發(fā)布會

家居要聞

素色肌理 品意式格調(diào)

無障礙瀏覽 進入關(guān)懷版