国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek 元旦扔出王炸!CEO 梁文鋒親自署名,要?jiǎng)?AI 用了 10 年的“承重墻”?

0
分享至

★ 設(shè)為星標(biāo) | 只講人話,帶你玩轉(zhuǎn)AIGC。

今天是元旦,DeepSeek 又扔了個(gè)王炸。

本來(lái)準(zhǔn)備躺平過(guò)節(jié)(嗯,是真的躺著了),結(jié)果睜眼發(fā)現(xiàn)一篇新論文 mHC(流形約束超連接)突然刷屏。

我看了一眼作者列表,直接“垂死病中驚坐起”——最后一位赫然寫著:Wenfeng Liang(梁文鋒)。


圖:DeepSeek CEO 梁文峰署名

熟悉 DeepSeek 的都知道,這位 CEO 極少在技術(shù)論文上親自署名。

老板親自掛帥,還選在新年第一天發(fā),說(shuō)明這事兒絕對(duì)不簡(jiǎn)單。

讀完我才發(fā)現(xiàn),他們這次竟然要革深度學(xué)習(xí)祖師爺 ResNet 的命。

聽(tīng)起來(lái)很狂?但我研究了一下原理,發(fā)現(xiàn)這幫人是真有東西。

01|從何愷明的“神來(lái)之筆”說(shuō)起

要看懂 DeepSeek 的操作,我們得先回看一眼歷史。

2016年,大神何愷明(Kaiming He) 團(tuán)隊(duì)提出了 ResNet,徹底解決了深層網(wǎng)絡(luò)訓(xùn)練不動(dòng)的難題。

其中的核心設(shè)計(jì)叫“恒等映射”。


圖:何愷明,深度殘差網(wǎng)絡(luò)(ResNet)的主要發(fā)明者

打個(gè)比方,這就像在迷宮里修了一條“直通車道”。信號(hào)可以無(wú)腦地從這一層傳到下一層,不被中間商賺差價(jià)。

正是因?yàn)橛辛诉@條路,今天的 ChatGPT、DeepSeek 這些幾百層的龐然大物才跑得起來(lái)。

但問(wèn)題是,對(duì)于現(xiàn)在胃口越來(lái)越大的模型來(lái)說(shuō),這一條“單車道”漸漸不夠用了。

于是,學(xué)術(shù)界搞出了一個(gè)叫 HC(Hyper-Connections,超連接) 的東西。

HC 的想法很美好:既然單車道不夠,那我就擴(kuò)建成多車道唄!

它把殘差流變寬(n倍),讓信息在不同車道間亂竄、混合,以此來(lái)提升模型的能力。


圖:三代架構(gòu)進(jìn)化史:(a) 是經(jīng)典的“單車道” ResNet; (b) 是路修寬了但沒(méi)紅綠燈的 HC(容易撞車); (c) 是 DeepSeek 加了“交通管制”的 mHC。

但問(wèn)題來(lái)了,這一擴(kuò)建,出事了。

原來(lái)的 ResNet 是“直通車”,很穩(wěn)。現(xiàn)在的 HC 變成了“無(wú)紅綠燈的超級(jí)路口”。

論文里的數(shù)據(jù)特別嚇人:在 HC 的架構(gòu)下,信號(hào)在網(wǎng)絡(luò)里傳著傳著,就會(huì)因?yàn)槿狈苁偪衽蛎洝?/p>

看原論文里的數(shù)據(jù),HC 的信號(hào)增益幅度峰值直接干到了 3000。ㄏ聢D右側(cè))


圖:HC 的信號(hào)增益幅度峰值直接干到了 3000

這意味著啥?意味著信號(hào)被放大了 3000 倍。

這就像早高峰的十字路口沒(méi)有紅綠燈,車全撞在一塊了,這就是典型的“信號(hào)爆炸”。

結(jié)果就是:模型訓(xùn)練極其不穩(wěn)定,錯(cuò)誤率(Loss) 說(shuō)炸就炸,根本沒(méi)法在大規(guī)模模型上用。

02|DeepSeek 的解法:數(shù)學(xué)暴力美學(xué)

面對(duì)這種“車禍現(xiàn)場(chǎng)”,一般人的思路可能是:“那我就少修兩條路吧!

但 DeepSeek 的思路是:路我要修,但我要請(qǐng)一個(gè)懂?dāng)?shù)學(xué)的交警。

這就是 mHC(流形約束超連接)的核心邏輯。

他們發(fā)現(xiàn),只要把那些負(fù)責(zé)指揮交通的矩陣,強(qiáng)行按在一個(gè)叫“雙隨機(jī)矩陣”的數(shù)學(xué)規(guī)則里,問(wèn)題就解決了。

別被這個(gè)數(shù)學(xué)名詞嚇跑,它的原理其實(shí)也挺簡(jiǎn)單,就像“能量守恒定律”:

不管你在路口怎么變道、怎么混合,進(jìn)來(lái)的流量總和,必須嚴(yán)格等于出去的流量總和。

既不允許車子憑空消失(信號(hào)衰減),也不允許憑空變出車來(lái)(信號(hào)爆炸)。

為了做到這一點(diǎn),DeepSeek 用了一個(gè)叫 Sinkhorn-Knopp 的算法,像是給矩陣戴上了“緊箍咒”。

不管這矩陣原來(lái)長(zhǎng)啥樣,經(jīng)過(guò)這個(gè)算法一處理,它就必須變得老老實(shí)實(shí),行和列的加和都得等于1。

這就很漂亮了。

它保留了多車道互聯(lián)帶來(lái)的信息豐富度(性能提升),又把信號(hào)嚴(yán)格限制在了一個(gè)安全的范圍內(nèi)(穩(wěn)定性),完美致敬了何愷明當(dāng)年追求的“恒等映射”精神。

03. 效果怎么樣?直接看療效

理論吹得再好,還得看實(shí)驗(yàn)。

還記得剛才說(shuō) HC 的信號(hào)增益飆到了 3000 嗎?

用了 mHC 之后,這個(gè)數(shù)字被死死按在了 1.6 左右。


從 3000 到 1.6,這是直接降低了三個(gè)數(shù)量級(jí)!

這也直接體現(xiàn)在了訓(xùn)練曲線上:

穩(wěn)如老狗: mHC 的訓(xùn)練 Loss 曲線(藍(lán)線)極其平滑,跟基線模型幾乎一樣穩(wěn)。


圖:mHC 的訓(xùn)練 Loss 曲線極其平滑

性能更強(qiáng): 在 27B 參數(shù)的模型上,mHC 不僅穩(wěn),效果還比標(biāo)準(zhǔn)版更好。特別是在比較難的 BBH(邏輯推理)和 DROP 任務(wù)上,提升非常明顯。


圖:在 27B 參數(shù)的模型上,mHC 不僅穩(wěn),效果還比標(biāo)準(zhǔn)版更好。

04. 不止是數(shù)學(xué),更是工程上的“摳門”

讀 DeepSeek 的論文,你永遠(yuǎn)能感覺(jué)到他們那種“把算力榨干到最后一滴”的執(zhí)著。

因?yàn)榘崖沸迣挘緛?lái)是一件非常費(fèi)顯存、費(fèi)時(shí)間的事。

如果不做優(yōu)化,內(nèi)存訪問(wèn)成本(I/O)會(huì)增加好幾倍,這誰(shuí)受得了?

所以 mHC 不僅僅是一個(gè)數(shù)學(xué)創(chuàng)新,還是一套工程優(yōu)化方案。

算子融合(Kernel Fusion): 他們手寫了底層的 Kernel,把好幾步計(jì)算合并成一步,減少 GPU 讀寫內(nèi)存的次數(shù)。

重計(jì)算(Recomputing): 為了省顯存,他們選擇在反向傳播時(shí)重新計(jì)算中間結(jié)果,而不是一直存著。

通信重疊: 利用 DualPipe 策略,把額外的通信時(shí)間“藏”在計(jì)算時(shí)間里。

結(jié)果就是:在擴(kuò)展率為 4 的情況下,mHC 帶來(lái)的額外訓(xùn)練時(shí)間開(kāi)銷,僅僅只有 6.7%。

用極小的代價(jià),換來(lái)了模型性能和穩(wěn)定性的雙重提升。

這種“又好又省”的風(fēng)格,確實(shí)很 DeepSeek。

說(shuō)實(shí)話,每次讀 DeepSeek 的論文都讓人挺佩服的,不是那些牛逼的技術(shù),而是他們“死磕底層”的態(tài)度。

特別是在現(xiàn)在,大家都忙著卷應(yīng)用、卷 Agents 的時(shí)候,他們?cè)敢饣剡^(guò)頭去修補(bǔ) AI 的“地基”。

ResNet 已經(jīng)統(tǒng)治了深度學(xué)習(xí)這么多年,大家都覺(jué)得它是完美的。

但 mHC 告訴我們:只要你不迷信權(quán)威,哪怕是地基,也有重修的可能。

mHC 這種架構(gòu),或許不會(huì)馬上改變你的生活,但它可能會(huì)讓下一代的 DeepSeek、GPT 跑得更穩(wěn)、更快。

對(duì)于 DeepSeek 這種“硬核”的數(shù)學(xué)暴力美學(xué),你怎么看?歡迎在評(píng)論區(qū)聊聊。

(覺(jué)得文章硬核?點(diǎn)個(gè)“贊”,點(diǎn)個(gè)??,假裝自己看懂了)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1月首款新機(jī)官宣:1月5日,正式發(fā)布

1月首款新機(jī)官宣:1月5日,正式發(fā)布

T科技衍生
2026-01-02 00:05:35
比你自己更懂你的,是 2025 年度報(bào)告。

比你自己更懂你的,是 2025 年度報(bào)告。

差評(píng)XPIN
2026-01-01 00:19:13
洛克希德·馬丁生產(chǎn)線停了,是中國(guó)凍結(jié)了他們?cè)谌A的全部資產(chǎn)。

洛克希德·馬丁生產(chǎn)線停了,是中國(guó)凍結(jié)了他們?cè)谌A的全部資產(chǎn)。

百態(tài)人間
2025-12-31 16:18:36
流量鬧劇,那只18斤重的大鵝,被拖下水的事件,終于水被抽干了

流量鬧劇,那只18斤重的大鵝,被拖下水的事件,終于水被抽干了

西樓知趣雜談
2025-12-31 20:58:48
女性“高潮”的秘密:別再假裝了,教你的伴侶如何帶你到達(dá)巔峰

女性“高潮”的秘密:別再假裝了,教你的伴侶如何帶你到達(dá)巔峰

精彩分享快樂(lè)
2025-11-12 00:05:03
2014前機(jī)關(guān)事業(yè)退休人員注意!國(guó)發(fā)2號(hào)文定待遇,這些細(xì)節(jié)別弄錯(cuò)

2014前機(jī)關(guān)事業(yè)退休人員注意!國(guó)發(fā)2號(hào)文定待遇,這些細(xì)節(jié)別弄錯(cuò)

冬天來(lái)旅游
2026-01-01 15:09:55
張雨綺穿吊帶看著骨架有點(diǎn)大哦!這大體格誰(shuí)看了不喜歡?

張雨綺穿吊帶看著骨架有點(diǎn)大哦!這大體格誰(shuí)看了不喜歡?

草莓解說(shuō)體育
2025-12-21 00:52:27
郭德綱岳云鵬年輕時(shí)的同框合影,經(jīng)典師生情,讓人羨慕

郭德綱岳云鵬年輕時(shí)的同框合影,經(jīng)典師生情,讓人羨慕

民間平哥
2025-12-31 16:41:28
我是河南人,從臺(tái)灣回來(lái),實(shí)在忍不住想說(shuō):臺(tái)灣給我的5點(diǎn)印象

我是河南人,從臺(tái)灣回來(lái),實(shí)在忍不住想說(shuō):臺(tái)灣給我的5點(diǎn)印象

i書(shū)與房
2026-01-01 16:58:55
賣給越南一度電三四毛惹爭(zhēng)議

賣給越南一度電三四毛惹爭(zhēng)議

辣條叨叨叨
2025-12-29 02:52:56
美國(guó)洛克希德·馬丁公司突然宣布了

美國(guó)洛克希德·馬丁公司突然宣布了

安安說(shuō)
2026-01-01 14:29:53
越南最新披露:中國(guó)軍隊(duì)滲透越南境內(nèi)30公里,越南進(jìn)至中國(guó)15公里

越南最新披露:中國(guó)軍隊(duì)滲透越南境內(nèi)30公里,越南進(jìn)至中國(guó)15公里

興趣知識(shí)
2025-12-29 01:44:52
原來(lái)是他娶了譚維維!被譽(yù)為“不老男神”,曾在海拔5600米上求婚

原來(lái)是他娶了譚維維!被譽(yù)為“不老男神”,曾在海拔5600米上求婚

韓馳
2025-12-25 20:04:01
5國(guó)圍攻中方,逼解放軍撤出臺(tái)海?不到24小時(shí),普京政府下場(chǎng)助華

5國(guó)圍攻中方,逼解放軍撤出臺(tái)海?不到24小時(shí),普京政府下場(chǎng)助華

老范談史
2025-12-31 23:18:46
“肋骨戳進(jìn)內(nèi)臟,腳趾全部被掰斷!”19歲青年疑陷緬北,兩度逃跑失敗,被索要100萬(wàn)贖金

“肋骨戳進(jìn)內(nèi)臟,腳趾全部被掰斷!”19歲青年疑陷緬北,兩度逃跑失敗,被索要100萬(wàn)贖金

19樓
2025-12-06 08:43:19
蔡正元:我要去坐牢了,判了三年半!背后的真相實(shí)在讓人憤怒無(wú)語(yǔ)

蔡正元:我要去坐牢了,判了三年半!背后的真相實(shí)在讓人憤怒無(wú)語(yǔ)

達(dá)文西看世界
2026-01-01 14:04:27
佳兆業(yè)集團(tuán)成功賴賬601億元

佳兆業(yè)集團(tuán)成功賴賬601億元

地產(chǎn)微資訊
2026-01-01 21:45:45
美國(guó)總統(tǒng)特朗普不查不知道,一查才知道他是美國(guó)史上最有錢的總統(tǒng)

美國(guó)總統(tǒng)特朗普不查不知道,一查才知道他是美國(guó)史上最有錢的總統(tǒng)

西樓知趣雜談
2026-01-01 13:23:46
準(zhǔn)備開(kāi)搶!美媒曬各隊(duì)理想交易目標(biāo):火箭5換1哈登+勇士6換1字母

準(zhǔn)備開(kāi)搶!美媒曬各隊(duì)理想交易目標(biāo):火箭5換1哈登+勇士6換1字母

鍋?zhàn)踊@球
2026-01-01 18:18:36
韓國(guó)圍棋徹底入冬,中國(guó)棋手連勝2名世冠闖進(jìn)決賽,才19歲四段

韓國(guó)圍棋徹底入冬,中國(guó)棋手連勝2名世冠闖進(jìn)決賽,才19歲四段

真理是我親戚
2026-01-01 18:50:36
2026-01-02 02:27:00
AI范兒 incentive-icons
AI范兒
AI范兒是一個(gè)專注于人工智能領(lǐng)域的資訊和學(xué)習(xí)平臺(tái),提供最新的人工智能資訊
631文章數(shù) 369關(guān)注度
往期回顧 全部

科技要聞

特斯拉Model 3車主首度全程自駕橫穿美國(guó)

頭條要聞

收到情報(bào)后 盧卡申科“提醒普京不要赴會(huì)”

頭條要聞

收到情報(bào)后 盧卡申科“提醒普京不要赴會(huì)”

體育要聞

2026,這些英超紀(jì)錄可能會(huì)被打破

娛樂(lè)要聞

跑調(diào)風(fēng)波越演越烈!沈佳潤(rùn)被網(wǎng)友喊話

財(cái)經(jīng)要聞

巴菲特「身退,權(quán)還在」

汽車要聞

一汽-大眾2025年整車銷量超158萬(wàn)輛 燃油車市占率創(chuàng)新高

態(tài)度原創(chuàng)

教育
本地
旅游
健康
公開(kāi)課

教育要聞

田家炳中學(xué)校長(zhǎng)新年原創(chuàng)詩(shī)朗誦:沿著這條路,我們繼續(xù)奔跑!

本地新聞

即將過(guò)去的2025年,對(duì)重慶的影響竟然如此深遠(yuǎn)

旅游要聞

自貢非遺花燈點(diǎn)亮江南夜!2026無(wú)錫梅里古鎮(zhèn)新年燈會(huì)璀璨啟幕

元旦舉家出行,注意防流感

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版