国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

從DSA到Engram,一年來(lái)DeepSeek層層勾勒V4架構(gòu)創(chuàng)新

0
分享至

隨著開(kāi)年DeepSeek加快了技術(shù)分享的節(jié)奏,市場(chǎng)再次期待DeepSeek-V4的橫空出世。不少人推測(cè),它可能會(huì)在春節(jié)前后亮相。但與推出的時(shí)間相比,更大的懸念是,它將以何種程度的創(chuàng)新,將中國(guó)與美國(guó)在前沿模型的差距縮短到什么程度?它是否會(huì)基于中國(guó)的算力基礎(chǔ)設(shè)施來(lái)實(shí)現(xiàn)這一跨越。

全球?qū)η把啬P偷奶剿?,仍在尋找下一條行之有效的擴(kuò)展路徑。DeepSeek也是如此。長(zhǎng)期以來(lái),它對(duì)此的探索主線,一直都是如何在有限的資源下通過(guò)架構(gòu)創(chuàng)新,最大程度上地提升訓(xùn)練與推理的效率。這既是一個(gè)數(shù)學(xué)問(wèn)題,也是一個(gè)工程問(wèn)題。

過(guò)往論文正在揭示它的大致模樣。從V3到V3.1再到V3.2,DeepSeek先后嘗試了UE8M0 FP8、DSA、上下文光學(xué)壓縮、mHC與Engram。它們的核心思路之一就是“稀疏化”,讓“專(zhuān)家”、“精度”、“注意力”與“記憶”變得更為稀疏。法國(guó)AI研究實(shí)驗(yàn)室Pleias聯(lián)合創(chuàng)始人Alexander Doria認(rèn)為,DeepSeek-V4將是死磕“層效率”的典范,讓每一層神經(jīng)網(wǎng)絡(luò)在架構(gòu)中發(fā)揮最大的效率。

DeepSeek最新的嘗試是Engram。它所要解決的正是“記憶”負(fù)擔(dān)的稀疏化,以推動(dòng)模型規(guī)模繼續(xù)擴(kuò)展。標(biāo)準(zhǔn)的Transformer架構(gòu)缺乏原生的“記憶能力”,它根據(jù)概率預(yù)測(cè)下一個(gè)token,根據(jù)全局上下文進(jìn)行復(fù)雜推理,消耗了多個(gè)早期注意力層和前饋網(wǎng)絡(luò),浪費(fèi)寶貴的資源去計(jì)算那些原本只需要簡(jiǎn)單檢索的東西。


如果說(shuō)MoE是“條件計(jì)算”,通過(guò)路由器選擇稀疏性的激活少數(shù)幾個(gè)專(zhuān)家,在不顯著增加計(jì)算成本的前提下,大幅增加模型規(guī)模;那么,Engram就是“條件記憶”,通過(guò)稀疏查表操作,為固定知識(shí)檢索靜態(tài)嵌入。DeepSeek的論文將MoE與Engram稱(chēng)為“互補(bǔ)性稀疏維度”。

在Engram的幫助下,那些頻繁訪問(wèn)的內(nèi)容,可以緩存在HBM等更快的存儲(chǔ)層級(jí)中,而長(zhǎng)尾的低頻內(nèi)容則可以存放在SSD等速度較慢但容量更大的介質(zhì)中。不過(guò),與以往的RAG不同,Engram仍然是模型內(nèi)部的參數(shù)化記憶,它必須參與預(yù)訓(xùn)練,并直接集成到模型層中。當(dāng)將1000億參數(shù)的Engram表,完全卸載到DRAM等內(nèi)存中,端到端吞吐量下降不到3%。

于是,“內(nèi)存”與“計(jì)算”解耦了。而且這卓有成效。DeepSeek團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)大約20%至25%的參數(shù)預(yù)算分配給Engram時(shí),模型性能最佳。在相同的激活參數(shù)與訓(xùn)練token數(shù)量等條件下,Engram-27B的整體性能就要明顯優(yōu)于純粹的稀疏模型MoE-27B。

而且,研發(fā)團(tuán)隊(duì)還發(fā)現(xiàn),由于將大量計(jì)算資源“讓”給了復(fù)雜推理,它不僅在知識(shí)密集型任務(wù)上表現(xiàn)出色,而且在通用推理能力以及代碼與數(shù)學(xué)推理任務(wù)上同樣表現(xiàn)出色。同時(shí),它釋放了注意力機(jī)制的容量,也提升了長(zhǎng)上下文檢索能力。或許,法律、金融與醫(yī)療等“記憶密集”的垂直領(lǐng)域,將迎來(lái)更少幻覺(jué)與更強(qiáng)推理的模型應(yīng)用。


這對(duì)于國(guó)產(chǎn)算力基礎(chǔ)設(shè)施而言,也是一個(gè)好消息。Engram有效繞過(guò)了GPU的HBM限制,為激進(jìn)的參數(shù)擴(kuò)展鋪平了道路。論文最后寫(xiě)道,“條件記憶將成為下一代稀疏大模型中不可或缺的基礎(chǔ)建模范式”。

這已經(jīng)不是DeepSeek第一次在論文中勾勒下一代模型的設(shè)計(jì)藍(lán)圖。幾乎其所有研究工作,都圍繞著架構(gòu)層面的創(chuàng)新展開(kāi)。許多問(wèn)題也許早已被其他AI實(shí)驗(yàn)室提出,甚至被反復(fù)嘗試卻無(wú)疾而終,而DeepSeek選擇將這些被擱置的方向重新拾起,在工程與數(shù)學(xué)層面加以重構(gòu)與優(yōu)化,借此持續(xù)縮小與美國(guó)前沿模型之間的差距。這些探索共同指向的是穩(wěn)定而有效擴(kuò)展的模型架構(gòu)的實(shí)現(xiàn)路徑。

最近的一次是跨年期間發(fā)布的流形約束超連接(mHC)。盡管超級(jí)連接(Hyper-Connections)可以為大模型訓(xùn)練帶來(lái)非??斓氖諗克俣?,某些設(shè)置下提升接近80%。但它缺乏擴(kuò)展的穩(wěn)定性,模型越大、層數(shù)越多,問(wèn)題越嚴(yán)重。mHC可以確保每一層的計(jì)算仍然能穩(wěn)定地轉(zhuǎn)化為有效表示。DeepSeek在論文中寫(xiě)道,它“為大模型基礎(chǔ)架構(gòu)的演進(jìn)指明有前景的方向”。

再一次則是去年10月,DeepSeek提出了DeepSeek-OCR模型,概念核心是“上下文光學(xué)壓縮”(Context Optical Compression),顯著提高了信息密度與計(jì)算效率,當(dāng)時(shí)團(tuán)隊(duì)就思考過(guò)通過(guò)逐級(jí)壓縮信息,直至邊際遺忘,或內(nèi)化為更深層的表征。在論文的最后,DeepSeek團(tuán)隊(duì)致辭說(shuō),這一思路“為構(gòu)建一種理論上無(wú)限上下文長(zhǎng)度的模型架構(gòu)(unlimited context architectures)提供了新的可能”。

早更一點(diǎn),DeepSeek-V3.2-Exp最核心的實(shí)驗(yàn)則是引入了名為DSA的新架構(gòu),這是探索細(xì)粒度稀疏機(jī)制,成本更低的同時(shí)幾乎不影響模型的輸出效果。DeepSeek官方將DSA稱(chēng)為邁向下一代架構(gòu)的“中間步驟”。這似乎在暗示下一次更新可能直接出現(xiàn)在V4上。

要真正追平乃至超越Gemini-3,DeepSeek仍然需要提升模型的多模態(tài)能力。代碼與數(shù)學(xué),多模態(tài)與自然語(yǔ)言本身,三者正是DeepSeek創(chuàng)始人梁文鋒押注的三個(gè)方向。在上一個(gè)跨年之交發(fā)布統(tǒng)一多模態(tài)理解與生成的自回歸框架Janus后,DeepSeek在這領(lǐng)域鮮少動(dòng)作,它會(huì)成為下一代核心模型的一部分嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
門(mén)將李昊迅速躥紅,下一站留洋or加盟中超豪門(mén)?

門(mén)將李昊迅速躥紅,下一站留洋or加盟中超豪門(mén)?

澎湃新聞
2026-01-25 08:24:15
呆呆妹爆火后首次直播,人氣爆棚關(guān)閉了打賞,澄清自己35歲且未婚

呆呆妹爆火后首次直播,人氣爆棚關(guān)閉了打賞,澄清自己35歲且未婚

離離言幾許
2026-01-24 21:13:06
太意外!美聯(lián)儲(chǔ),突爆大消息!

太意外!美聯(lián)儲(chǔ),突爆大消息!

證券時(shí)報(bào)
2026-01-24 22:16:02
馬曉春回懟謝銳,網(wǎng)友這次很不客氣

馬曉春回懟謝銳,網(wǎng)友這次很不客氣

月滿大江流
2026-01-25 13:34:11
大爆冷!張本智和3:4被淘汰,無(wú)緣男單決賽,松島輝空沖擊冠軍

大爆冷!張本智和3:4被淘汰,無(wú)緣男單決賽,松島輝空沖擊冠軍

國(guó)乒二三事
2026-01-25 11:41:55
上海三至五年級(jí)期末考試取消英語(yǔ),只考語(yǔ)文數(shù)學(xué),令家長(zhǎng)不解!

上海三至五年級(jí)期末考試取消英語(yǔ),只考語(yǔ)文數(shù)學(xué),令家長(zhǎng)不解!

李老師講最真教育
2026-01-22 21:17:11
皇馬1.8億巨星上位!新帥力挺,比阿隆索公正,雙核戰(zhàn)術(shù)成亮點(diǎn)

皇馬1.8億巨星上位!新帥力挺,比阿隆索公正,雙核戰(zhàn)術(shù)成亮點(diǎn)

阿泰希特
2026-01-25 12:36:17
北京機(jī)場(chǎng)停不下!7國(guó)首腦排隊(duì)訪華,特朗普玩脫,鐵桿小弟全反水

北京機(jī)場(chǎng)停不下!7國(guó)首腦排隊(duì)訪華,特朗普玩脫,鐵桿小弟全反水

泠泠說(shuō)史
2026-01-24 11:09:16
他倆當(dāng)年是八一廠最帥的男星,如今已一頭白發(fā),影迷能認(rèn)出嗎?

他倆當(dāng)年是八一廠最帥的男星,如今已一頭白發(fā),影迷能認(rèn)出嗎?

眼底星碎
2026-01-25 10:25:44
俄羅斯發(fā)動(dòng)大規(guī)模襲擊

俄羅斯發(fā)動(dòng)大規(guī)模襲擊

第一財(cái)經(jīng)資訊
2026-01-25 11:13:08
真相大白!門(mén)將李昊為何撲不住日本隊(duì)的進(jìn)球?3方面原因揭曉答案

真相大白!門(mén)將李昊為何撲不住日本隊(duì)的進(jìn)球?3方面原因揭曉答案

曹說(shuō)體育
2026-01-25 13:10:51
備降蘭州的俄羅斯客機(jī)和機(jī)組人員仍未離境,官方稱(chēng)正開(kāi)展故障維修,239名旅客已換機(jī)抵達(dá)目的地

備降蘭州的俄羅斯客機(jī)和機(jī)組人員仍未離境,官方稱(chēng)正開(kāi)展故障維修,239名旅客已換機(jī)抵達(dá)目的地

極目新聞
2026-01-25 13:19:15
保時(shí)捷女銷(xiāo)冠來(lái)漢領(lǐng)取“特別貢獻(xiàn)獎(jiǎng)”:去年賣(mài)出192臺(tái)車(chē)連續(xù)三年蟬聯(lián)銷(xiāo)冠,超60%是女顧客,今年沒(méi)有定目標(biāo)

保時(shí)捷女銷(xiāo)冠來(lái)漢領(lǐng)取“特別貢獻(xiàn)獎(jiǎng)”:去年賣(mài)出192臺(tái)車(chē)連續(xù)三年蟬聯(lián)銷(xiāo)冠,超60%是女顧客,今年沒(méi)有定目標(biāo)

極目新聞
2026-01-24 18:12:15
太陽(yáng)報(bào):前索契主帥因過(guò)度使用AI被解雇,用AI選的前鋒10場(chǎng)進(jìn)0球

太陽(yáng)報(bào):前索契主帥因過(guò)度使用AI被解雇,用AI選的前鋒10場(chǎng)進(jìn)0球

懂球帝
2026-01-25 12:06:05
卡尼號(hào)召加拿大人“購(gòu)買(mǎi)國(guó)貨”以回應(yīng)美國(guó)關(guān)稅威脅

卡尼號(hào)召加拿大人“購(gòu)買(mǎi)國(guó)貨”以回應(yīng)美國(guó)關(guān)稅威脅

環(huán)球網(wǎng)資訊
2026-01-25 06:13:20
錢(qián)再多也沒(méi)用!42歲身體出問(wèn)題的雷佳音,給所有男星提了個(gè)醒

錢(qián)再多也沒(méi)用!42歲身體出問(wèn)題的雷佳音,給所有男星提了個(gè)醒

白面書(shū)誏
2026-01-24 17:14:27
A股:人民日?qǐng)?bào)罕見(jiàn)就股市發(fā)聲!證監(jiān)會(huì)監(jiān)管升溫,下周迎更大級(jí)別變盤(pán)

A股:人民日?qǐng)?bào)罕見(jiàn)就股市發(fā)聲!證監(jiān)會(huì)監(jiān)管升溫,下周迎更大級(jí)別變盤(pán)

股市皆大事
2026-01-25 16:52:15
龔讀綸:中共成都市委原副書(shū)記、四川省人民檢察院原檢察長(zhǎng)

龔讀綸:中共成都市委原副書(shū)記、四川省人民檢察院原檢察長(zhǎng)

愛(ài)意隨風(fēng)起呀
2026-01-25 14:56:04
鄧兆尊持香港地皮市值逾4.8億,出售多年賣(mài)不掉,已荒廢雜草叢生

鄧兆尊持香港地皮市值逾4.8億,出售多年賣(mài)不掉,已荒廢雜草叢生

娛說(shuō)瑜悅
2026-01-23 14:25:54
和平委員會(huì)剛宣布就生變?不到兩天有國(guó)家退出,特朗普急發(fā)撤銷(xiāo)令

和平委員會(huì)剛宣布就生變?不到兩天有國(guó)家退出,特朗普急發(fā)撤銷(xiāo)令

夢(mèng)在深巷aqa
2026-01-24 22:14:39
2026-01-25 17:28:49
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
292文章數(shù) 61關(guān)注度
往期回顧 全部

科技要聞

黃仁勛在上海逛菜市場(chǎng),可能惦記著三件事

頭條要聞

獲黃仁勛簽名紅包商戶:我開(kāi)始不認(rèn)識(shí)他 紅包里有600元

頭條要聞

獲黃仁勛簽名紅包商戶:我開(kāi)始不認(rèn)識(shí)他 紅包里有600元

體育要聞

中國(guó)足球不會(huì)一夜變強(qiáng),但他們已經(jīng)創(chuàng)造歷史

娛樂(lè)要聞

王玉雯方嚴(yán)正聲明 劇方回應(yīng):涉事人員已被開(kāi)除

財(cái)經(jīng)要聞

隋廣義等80人被公訴 千億騙局進(jìn)入末路

汽車(chē)要聞

別克至境E7內(nèi)飾圖曝光 新車(chē)將于一季度正式發(fā)布

態(tài)度原創(chuàng)

手機(jī)
數(shù)碼
健康
旅游
公開(kāi)課

手機(jī)要聞

榮耀泡泡瑪特聯(lián)名手機(jī)今日開(kāi)售:首銷(xiāo)即引爆,線下再現(xiàn)排隊(duì)熱潮

數(shù)碼要聞

華為FreeClip 2耳夾耳機(jī)確認(rèn)支持Android設(shè)備豆包App喚醒

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

旅游要聞

迎寒盛開(kāi)!貴州梅園正式開(kāi)園

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版