国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

詳細(xì)解讀DeepSeek新年的第一篇論文,他們就是這個時代的真神。

0
分享至

2026年新年第一天,DeepSeek又開卷了。

發(fā)了他們新年的第一篇論文。

《 mHC: Manifold-Constrained Hyper-Connections 》


感覺是DeepSeek-V4的鋪墊,當(dāng)然一些小道消息,不保真,我也不懂,我只是拍腦袋預(yù)測一下,有問題別找我。

就是V4,大概在1月中下旬或者1月底,然后呢,有多模態(tài)輸入,沒有多模態(tài)輸出。

就醬,回到論文。

這篇論文我是說實(shí)話,有點(diǎn)過于硬核了。

但同時,傳遞出來的信息量和對AI界的改變,又是巨大的。

在給自己放了一天假,然后啃了一天以后(這玩意比我想象的難啃多了。。。)我還是想,用最通俗易懂最有意思的方式,來跟你聊聊,這篇論文的有趣之處,以及,是如何對現(xiàn)在的生態(tài)進(jìn)行一些新的輸入的。

當(dāng)然也給我自己疊個甲,我不是算法出身,我只是讀完以后覺得很棒想分享給大家看,我對這篇論文的理解和亂七八糟的各種名詞解釋,都是我自己民科瞎JB自學(xué)的,部分措辭也有為了能讓大家更好理解而做的部分簡化,如果有我理解的錯誤或者事實(shí)性錯誤的地方,歡迎大佬們在評論區(qū)指正討論,感謝。

話不多說,我們,正是開始。

在最開始之前,我想先問大家一個問題,就是大家認(rèn)為,一個要處理圖片、聲音、文字這么多亂七八糟信息的新模型,它最需要的是什么?

是一塊更強(qiáng)的GPU嗎?是一個更大的內(nèi)存嗎?

而DeepSeek這篇文章,給出的答案,其實(shí),是一個極其穩(wěn)定、高效的、模型內(nèi)部的信息流轉(zhuǎn)系統(tǒng)。

要理解這個玩意,我們先得穿越回去,穿越回2015年,也就是十年前,從一個男人和一個偉大的想法說起。

這個故事,要從盤古開天,啊不,要從何愷明蓋樓開始聊。

對,何愷明蓋樓。

我們都知道,大模型是神經(jīng)網(wǎng)絡(luò)對吧,現(xiàn)在,你可以把一個神經(jīng)網(wǎng)絡(luò),當(dāng)成一家開在101大廈里的超級公司。

數(shù)據(jù),就像一份客戶需求,從一樓的前臺進(jìn)去,然后呢,先交給銷售部分析,在傳給二樓的市場部包裝一些,接著送到三樓的產(chǎn)品部進(jìn)行需求評審。。。

客戶的需求,也就是數(shù)據(jù),就這樣坐著樓梯,一層一層往上爬,每一層都對這份信息做一點(diǎn)點(diǎn)加工和提煉。

最后,這份被層層解讀過的報(bào)告,會送到頂樓的CEO辦公室,由CEO拍板,給出最終決策,比如“沒問題咱就這么干!”。

理論上,公司的樓層越多,部門分工越細(xì),那這家公司專業(yè)度就越高,也越牛逼,處理復(fù)雜問題的能力就越強(qiáng),對吧。

但在2015年,全世界的AI大佬們,都碰到了一個鬼故事,就是,這棟樓,它特娘的蓋不高啊。

最多蓋到二三十層,就到頭了。

再往上蓋,整個公司就直接罷工了。

因?yàn)樾畔⒃趥鬟f過程中會失真。

不知道你們有沒有玩過類似于王牌對王牌里面那種傳聲筒游戲。


就是第一個人接到信息以后,在有限時間內(nèi),往后傳,最后一個人復(fù)述出來,看看還能復(fù)述多少字。

這個游戲巨搞笑,因?yàn)樽詈笠粋€人說出來的跟第一個人往往風(fēng)牛馬不相及。

在這個101大廈的公司里,也是一樣的。

就比如一樓銷售部明明說的是“老板想喝咖啡”,傳到十樓就變成了“老板喜歡吃咖啡壺”,傳到二十樓成了“老板去中國有嘻哈上唱了首咖啡壺我的Baby”,等傳到三十樓CEO耳朵里,可能已經(jīng)變成了“老板覺得自己是只屌炸天的咖啡壺”。

這就完蛋了。

CEO根據(jù)這個離譜的信息做出的決策,肯定是災(zāi)難性的。

在AI里,這個現(xiàn)象有個高大上的名字,叫梯度消失。

說人話就是,信號在深層網(wǎng)絡(luò)里傳來傳去,衰減得一干二凈,腦子直接短路了,這破活干不了一點(diǎn)了。

然后呢,就在整個AI界都對著這現(xiàn)象一籌莫展的時候,當(dāng)時還在微軟的何愷明,就站了出來。


他做了一個看似簡單,卻直接改變世界的決定。

他在大樓里,修了一部VIP直達(dá)電梯。

這部電梯,從一樓前臺,可以直達(dá)任何一個樓層,包括頂樓的CEO辦公室。

于是,流程變成了這樣。

客戶需求文件進(jìn)來后,依然需要一層一層地坐樓梯往上爬,接受各個部門的加工,但與此同時,前臺會把這份文件的原件復(fù)印件,放進(jìn)這部VIP電梯,直接嗖地一下,送到CEO的辦公桌上。

這樣一來,CEO在看下面部門交上來的那份可能已經(jīng)被傳得面目全非的報(bào)告時,他可以隨時拿起旁邊那份原件復(fù)印件來對比一下。

“哦,底下人說老板是咖啡壺,但原件說的是老板想喝咖啡,那肯定是底下人傳話傳錯了”。

信息,就這樣被保真了。

這部天才的電梯,就是殘差連接(Residual Connection)。


它像一根定海神針,貫穿了整棟大樓,讓最原始的信息可以在不同樓層間無損穿梭,時刻校準(zhǔn)著整個公司的前進(jìn)方向。

可雖然這部電梯很偉大,但它也有一個致命的毛病。

就是,它太TM窄了,它是一部只能容納一個人的小電梯,一次只能送一份文件。

時間快進(jìn)到今天,AI公司已經(jīng)不是當(dāng)年那個只處理文字需求的小作坊了。

它成了一個要處理圖片、視頻、音頻、代碼的超級巨無霸。

CEO每天要處理的信息,從一份文件,變成了一卡車的資料。

只靠一部小小的VIP電梯來回送復(fù)印件,運(yùn)力嚴(yán)重不足。

這條曾經(jīng)的VIP電梯,現(xiàn)在成了全公司最堵的羊腸小道。

咋辦呢。

于是,一群更激進(jìn)更年輕的大佬,一拍桌子說,靠,一部電梯不夠,咱們把整面墻都砸了,修一個電梯井吧,把一條單行道,直接拓寬成雙向八車道,讓信息流淌起來不就完了?

這個狂野的想法,就是超連接(Hyper-Connections)。

來自2024年字節(jié)Seed發(fā)的一篇論文。


以前,信息是一條單線流動的信息流。

現(xiàn)在,他們把這條信息流,強(qiáng)行擴(kuò)容成了四條、八條并行的信息流VIP電梯。這就好比以前公司里只有一個信使,現(xiàn)在搞了一個8人信使送貨團(tuán),8個人一起拎著大包小包一起送信。

這下牛逼壞了,信息通量瞬間指數(shù)級暴增,模型的性能也確實(shí)立竿見影,蹭蹭往上漲。

你看,電梯多了,聰明的智商又占領(lǐng)高地了,對吧。

但是,但是又來了。

就像所有恐怖故事的開頭一樣,好景不長。

這條寬闊的八車道VIP電梯,很快就開始鬧鬼了。

你想啊,這個8兄弟,他們是人,不是機(jī)器。

他們在路上會互相聊天,會交流情報(bào),人多嘴雜,就導(dǎo)致他們不再是單純地傳遞信息,這幾個人,開始在信息流里自由發(fā)揮了。

于是,各種詭異的事情發(fā)生了。

就比如說,一樓前臺收到消息說市場部小王今天可能要請假。

信使A聽了,覺得這事兒挺重要,告訴了信使B。

信使B覺得可能這個詞不確定,就跟信使C說市場部小王今天要請假。

信使C一琢磨,覺得得強(qiáng)調(diào)一下嚴(yán)重性,就跟信使D說市場部整個組今天都要罷工。

最后傳到CEO耳朵里,就變成了:

市場部全體員工已經(jīng)卷款跑路了?。?!

CEO:????????

一個無關(guān)緊要的小信息,在多條信道里被反復(fù)共振、放大,最后釀成了一場災(zāi)難。

這就是,信號爆炸。

再比如,一份十萬火急的服務(wù)器著火了的文件,被分成了八份,交給八個信使,讓每個信使都去送信。

但是呢,每個信使都覺得,這么重要的事,其他七個人肯定會送到的,我不如出去掙個外快先去送個外賣。

結(jié)果,誰都沒送。公司直接燒成了灰。

這就是信號消失。

整個公司的信息系統(tǒng),陷入了一片混亂。

這就導(dǎo)致,模型訓(xùn)練到12000步的時候,突然性能就斷崖式下跌,跟跳樓似的,比心電圖還心電圖。


這模型就算廢了,直接訓(xùn)崩了。

這就是HC技術(shù)最大的命門。

它為了追求信息通量,犧牲了信息的保真度和穩(wěn)定性。

好了,鋪墊了這么久,DeepSeek的mHC終于要登場了。


對,我們今天的主角,是mHC。

只不過為了讓大家理解,mHC到底為了解決什么問題,所以,花了這么大的篇幅,給大家講了背景故事。

mHC,全稱Manifold-Constrained Hyper-Connections,流形約束超連接。

注意這個詞,約束。

DeepSeek他們干了個啥事呢,他們沒有開掉那幾個信使,也沒有砸掉電梯說勞資要用火箭送用個鬼的電梯。

他們只是給這個8人送信小隊(duì),制定了一套極其嚴(yán)格、甚至有點(diǎn)變態(tài)的信息傳遞紀(jì)律。

這套紀(jì)律的核心,在論文里叫雙重隨機(jī)矩陣約束。

咱們還是說人話,舉例子。

你可以理解為,他們設(shè)立了一個叫做內(nèi)部審計(jì)部,由一個究極不近人情的德國老太太領(lǐng)導(dǎo),權(quán)力大到嚇人。

這個審計(jì)部咧,給每個信使都發(fā)了一本小冊子,上面印著兩條鐵律。

第一條鐵律,我們稱為信息能量守恒定律: 作為一個信使,你從上一站收到的所有信息,其信息能量總和為100%。那么在你把信息傳遞給下一站的隊(duì)友時,你傳遞出去的所有信息的信息能量總和,也必須不多不少,正好是100%。

回到上面信息爆炸那個案例。就比如說,信使A收到了小王請假這個信息,我們假設(shè)它的信息能量是10個單位。

這時候,信使A想添油加醋告訴信使B一個更夸張的版本。

但審計(jì)部的系統(tǒng)會立刻報(bào)警,因?yàn)樾攀笰私自加信息了,導(dǎo)致他的輸出能量(比如20個單位)大于了他的輸入能量(10個單位)。

他這是在無中生有暗度陳倉順手牽羊,嚴(yán)重違反了信息能量守恒定律,結(jié)果就會是,信使A當(dāng)場被開除。

在這套鐵律下,信使們依然可以交流,但任何放大和夸張的行為,都會在數(shù)學(xué)上被立刻識別并禁止。

謠言的傳播鏈,從根上就被斬?cái)嗔?,信號爆炸的問題,就此解決。

第二條鐵律,我們稱為團(tuán)隊(duì)責(zé)任綁定定律:對于任何一個需要被送達(dá)的信息,比如服務(wù)器著火這份文件,最終抵達(dá)目的地的信息能量總和,必須不多不少,正好等于它出發(fā)時的信息能量總和。

就比如還是剛剛的那個服務(wù)器著火的事。

信使A想:“這么多人呢,我不送也沒事吧?” 于是他選擇了摸魚,他貢獻(xiàn)的信息能量是0。

信使B也想:“總有傻子會送的?!?他的貢獻(xiàn)也是0。。。

如果八個人都這么想,那么最終抵達(dá)CEO辦公室的,關(guān)于服務(wù)器著火的信息能量總和就是0。

審計(jì)部的系統(tǒng)立刻就會拉響最高級別的警報(bào),因?yàn)樗l(fā)現(xiàn)出發(fā)時明明是100單位的能量,抵達(dá)時卻變成了0。根據(jù)團(tuán)隊(duì)責(zé)任綁定定律,整個信使團(tuán)隊(duì)都將面臨重罰。

為了避免這種情況,信使們就必須互相補(bǔ)位。如果A不干,B、C、D……就必須分?jǐn)偹墓ぷ?,因?yàn)樽罱K的那個總和是死命令,必須湊夠。

責(zé)任擴(kuò)散的可能性,在數(shù)學(xué)上就被杜絕了。

信息,必須被送達(dá)。

信號消失的問題,也就此解決。


這兩條鐵律合在一起,就是所謂的雙重隨機(jī)矩陣約束。

它沒有禁止信使們交流,八車道高速公路依然車水馬龍,信息依然可以在其間自由組合。

但所有的自由,都被約束在了一個能量守恒的流形之內(nèi)。

這就是mHC的精髓。

在這約束之下,給你自由。

那最后的終極問題來了,這玩意,解決了HC的不穩(wěn)定問題之后,到底有什么用?

我先說兩個數(shù)字。

第一個,就是這套所謂的審計(jì)系統(tǒng),會帶來大概6.7%的額外訓(xùn)練開銷。

第二個,就是在能力上,確實(shí)有部分提升,相對HC額外多出約2個點(diǎn)。


看著是不是好像有點(diǎn)投入產(chǎn)出不成正比?這生意聽起來,好像有點(diǎn)虧啊。

但是,別被表面騙了。

在模型訓(xùn)練里,還有一個很核心的詞,叫穩(wěn)定性。

比如之前HC架構(gòu)的那個公司,會有各種信息爆炸的問題,如果我原來的信息能量初始值是1,在信息傳遞過程中,最高的時候,信息能量到CEO辦公室的時候,能干到3000。

你就能想象到,有多失真。

這個恐怖的失真,有時候就直接變成了摧毀模型訓(xùn)練的一場風(fēng)暴。

而DeepSeek的mHC。

在鐵律之下,幾乎全部做到了100%保真,最高也不過才1.6。


3000:1.6。

直接降低了3個數(shù)量級,對,不是3倍,是3個,數(shù)量級。

這就是mHC,最牛逼的地方,太尼瑪嚇人了。

而這個穩(wěn)定性,帶來的好處,顯而易見。

它用額外6.7%的開銷成本,讓你模型訓(xùn)練瞬間崩盤的3000倍的系統(tǒng)性風(fēng)險(xiǎn),直接摁死到了可以忽略不計(jì)的1.6倍。

要知道,模型訓(xùn)練,太貴了,對于一家AI公司來說,訓(xùn)模型每一秒燒掉的錢都是觸目驚心的。

任何一次過程中訓(xùn)練的崩盤,那損失的,就不只是6.7%的額外開銷了,那是100%的建造成本,所有的一切,全特么重頭再來。

有可能就是數(shù)千萬的成本,還有好幾周的時間。

這就是HC系統(tǒng)那個心電圖背后,極高的、不可預(yù)測的、災(zāi)難性的失敗風(fēng)險(xiǎn)。

他確實(shí)提高了模型的效率,但是這個不穩(wěn)定性,幾乎很難接受。

現(xiàn)在,我們再回來看mHC那6.7%的額外開銷。

你現(xiàn)在還覺得它貴嗎?

你把他當(dāng)一份保險(xiǎn)看,你就覺得,一丁點(diǎn)也不貴了。

僅僅6.7%的額外開銷,就能為一項(xiàng)千萬美元級別的投資提供近乎百分之百的安全保障,這在任何一個金融模型里,都是一筆劃算到笑出聲的買賣。

而且,性能還是更強(qiáng)的,這買賣,好到離譜好吧。

穩(wěn)定、高效、還更強(qiáng)。

這三者通常是一個不可能三角,你只能取其二。

而mHC,用一個精巧的數(shù)學(xué)設(shè)計(jì)和極致的工程優(yōu)化,把這三者全占了。

這就是為什么我說,這篇論文雖然低調(diào),但意義重大。

DeepSeek。

真的就是我們這個AI時代的真神。

每一篇論文,都能給行業(yè),一些小小的震撼。

贊美真神。

以上,既然看到這里了,如果覺得不錯,隨手點(diǎn)個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標(biāo)?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克

>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美軍方稱摧毀伊朗伊斯蘭革命衛(wèi)隊(duì)總部

美軍方稱摧毀伊朗伊斯蘭革命衛(wèi)隊(duì)總部

財(cái)聯(lián)社
2026-03-02 03:44:09
坐不住了!絕情臭豆腐老板道歉了,賠償8.5個月工資,捐了近3萬!

坐不住了!絕情臭豆腐老板道歉了,賠償8.5個月工資,捐了近3萬!

離離言幾許
2026-03-01 23:23:49
一位風(fēng)水大師說:人最好的風(fēng)水就這六點(diǎn),聽完恍然大悟

一位風(fēng)水大師說:人最好的風(fēng)水就這六點(diǎn),聽完恍然大悟

一口娛樂
2026-02-28 00:25:03
1只都不行!2015年廣東老人半個小時徒手抓了22只,想煲湯喝

1只都不行!2015年廣東老人半個小時徒手抓了22只,想煲湯喝

萬象硬核本尊
2026-02-07 21:05:46
大伯拿走我500萬房本說保管,我掛失重辦,他兒子打來80通電話

大伯拿走我500萬房本說保管,我掛失重辦,他兒子打來80通電話

風(fēng)起見你
2026-03-01 21:45:02
特朗普沒想到:哈梅內(nèi)伊雖然死了,但臨終前的一項(xiàng)安排會這么厲害

特朗普沒想到:哈梅內(nèi)伊雖然死了,但臨終前的一項(xiàng)安排會這么厲害

健身狂人
2026-03-01 13:53:47
美國CIA只用不到100萬美元,就將伊朗的國運(yùn)改寫了足足70多年

美國CIA只用不到100萬美元,就將伊朗的國運(yùn)改寫了足足70多年

爆角追蹤
2026-03-01 14:57:47
哈梅內(nèi)伊死后,有伊朗人分析:現(xiàn)在還沒到慶祝的時候

哈梅內(nèi)伊死后,有伊朗人分析:現(xiàn)在還沒到慶祝的時候

小蘿卜絲
2026-03-01 09:56:11
美媒:白宮下令暫緩?fù)七M(jìn)對臺軍售

美媒:白宮下令暫緩?fù)七M(jìn)對臺軍售

環(huán)球網(wǎng)資訊
2026-03-02 06:27:47
哈梅內(nèi)伊身亡,布達(dá)諾夫:俄羅斯會接受美國為烏克蘭提供的安全保證 | 狼叔看世界

哈梅內(nèi)伊身亡,布達(dá)諾夫:俄羅斯會接受美國為烏克蘭提供的安全保證 | 狼叔看世界

狼叔看世界
2026-03-01 11:40:52
曼聯(lián)2-1逆轉(zhuǎn)十人水晶宮!11輪不敗升英超第3 B費(fèi)傳射 謝什科3連殺

曼聯(lián)2-1逆轉(zhuǎn)十人水晶宮!11輪不敗升英超第3 B費(fèi)傳射 謝什科3連殺

我愛英超
2026-03-02 00:01:06
網(wǎng)友預(yù)測明天早上10點(diǎn)半 deepseek 發(fā)布V4 模型,首次沒給英偉達(dá)權(quán)限,選擇與華為合作

網(wǎng)友預(yù)測明天早上10點(diǎn)半 deepseek 發(fā)布V4 模型,首次沒給英偉達(dá)權(quán)限,選擇與華為合作

風(fēng)向觀察
2026-03-01 17:11:32
河北“二婚黃花大閨女”的瓜

河北“二婚黃花大閨女”的瓜

皮蛋兒電影
2026-02-28 13:45:08
哈梅內(nèi)伊和親屬開會時遇襲身亡!伊朗內(nèi)鬼和現(xiàn)場照片曝光

哈梅內(nèi)伊和親屬開會時遇襲身亡!伊朗內(nèi)鬼和現(xiàn)場照片曝光

項(xiàng)鵬飛
2026-03-01 20:35:46
英超最新積分戰(zhàn)報(bào):兩大強(qiáng)隊(duì)落敗,曼聯(lián)驚險(xiǎn)逆襲,阿森納險(xiǎn)勝強(qiáng)敵

英超最新積分戰(zhàn)報(bào):兩大強(qiáng)隊(duì)落敗,曼聯(lián)驚險(xiǎn)逆襲,阿森納險(xiǎn)勝強(qiáng)敵

足球狗說
2026-03-02 02:30:31
美以軍事行動引發(fā)伊朗“最猛烈”回?fù)?中東危局40小時一文速覽

美以軍事行動引發(fā)伊朗“最猛烈”回?fù)?中東危局40小時一文速覽

環(huán)球網(wǎng)資訊
2026-03-02 07:21:11
挪動一米就鎖死?國產(chǎn)五軸破局“電子手銬”,讓美日高傲變成廢鐵

挪動一米就鎖死?國產(chǎn)五軸破局“電子手銬”,讓美日高傲變成廢鐵

通鑒史智
2026-02-02 16:14:26
交了物業(yè)費(fèi)還收車位管理費(fèi)?2026年這4種情況,你可以直接拒交

交了物業(yè)費(fèi)還收車位管理費(fèi)?2026年這4種情況,你可以直接拒交

阿離家居
2026-03-01 16:53:47
1971年伊朗花20億干這么愚蠢的事情,最終成為最昂貴的葬禮

1971年伊朗花20億干這么愚蠢的事情,最終成為最昂貴的葬禮

爆角追蹤
2026-03-01 15:28:53
一覺醒來,美軍巨大傷亡,14個基地遭轟炸,伊朗打得很慘烈

一覺醒來,美軍巨大傷亡,14個基地遭轟炸,伊朗打得很慘烈

策略述
2026-03-01 14:29:56
2026-03-02 09:32:49
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
464文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財(cái)經(jīng)要聞

中東國際機(jī)場滯留者:機(jī)場像“難民所”

汽車要聞

理想汽車2月交付26421輛 歷史累計(jì)交付超159萬輛

態(tài)度原創(chuàng)

家居
藝術(shù)
親子
時尚
公開課

家居要聞

素色肌理 品意式格調(diào)

藝術(shù)要聞

這幅草書的14個字,您能全部認(rèn)出來嗎?

親子要聞

社會需要為兒童養(yǎng)育提供公共空間

今年春天最流行的4件衛(wèi)衣,照著穿就很好看

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版