国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek-V3.2-Exp,稀疏注意力與國(guó)產(chǎn)算力生態(tài)協(xié)同的雙重實(shí)驗(yàn)

0
分享至

在開(kāi)源V3.1-Terminus僅一周后,DeepSeek又迅速推出了V3.2-Exp。作為實(shí)驗(yàn)性版本(Experimental),它不僅探索了新的稀疏注意力機(jī)制,也在推動(dòng)中國(guó)算力生態(tài)的協(xié)同創(chuàng)新與格局演進(jìn)。

DeepSeek-V3.2-Exp 最核心的實(shí)驗(yàn),是引入了名為 DeepSeek Sparse Attention(DSA)的新架構(gòu)。這是繼公司創(chuàng)始人梁文鋒署名論文原生稀疏注意力(Native Sparse Attention, NSA)之后的一次全新嘗試。NSA 具有與硬件對(duì)齊的特點(diǎn),可用于超快的長(zhǎng)上下文訓(xùn)練,而 DSA 則在此基礎(chǔ)上進(jìn)一步探索細(xì)粒度稀疏機(jī)制,成本更低的同時(shí)幾乎不影響模型的輸出效果。

DeepSeek 官方將DSA稱為邁向下一代架構(gòu)的“中間步驟”。這似乎在暗示下一次更新可能直接出現(xiàn)在 V4 或 R2 上。此前,NSA在一個(gè)27B參數(shù)的Transformer骨干上進(jìn)行了預(yù)訓(xùn)練驗(yàn)證,而這次DSA則在V3.1-Terminus 的基礎(chǔ)上進(jìn)行了持續(xù)訓(xùn)練。

這一點(diǎn)與阿里巴巴此前開(kāi)源的 Qwen3-Next 有些相似。Qwen3-Next 的核心實(shí)驗(yàn),是,其輸出結(jié)果與前代相當(dāng),但計(jì)算成本大幅下降,并被官方認(rèn)定為下一代模型的雛形。

中國(guó)開(kāi)源大模型普遍將自注意力機(jī)制的優(yōu)化作為重點(diǎn),因?yàn)樽⒁饬褪谴竽P退枰囊磺?。然而,作?Transformer 的核心創(chuàng)新,標(biāo)準(zhǔn)的自注意力在長(zhǎng)序列下的計(jì)算復(fù)雜度呈二次增長(zhǎng)。這不僅影響預(yù)填充和解碼階段的內(nèi)存與算力效率,也直接成為限制長(zhǎng)上下文處理的剛性的瓶頸,尤其是AI進(jìn)入多模態(tài)或多智能體時(shí)代。

無(wú)論是稀疏注意力還是線性注意力,在解決計(jì)算開(kāi)銷問(wèn)題的同時(shí),都存在顆粒度不足的副作用。阿里巴巴和DeepSeek在各自方向上進(jìn)行了針對(duì)性優(yōu)化。這一次,DeepSeek 讓仍保持標(biāo)準(zhǔn)注意力開(kāi)銷的索引器(Indexer)篩選出主注意力應(yīng)該關(guān)注的那些最重要的token。


通過(guò)不同的“稀疏”方式,來(lái)降低計(jì)算資源開(kāi)銷,既是大模型廠商的嘗試,也早已成為芯片廠商的重要?jiǎng)?chuàng)新方向。所謂“黃氏定律”的秘訣,除了順應(yīng)摩爾定律,以及采用越來(lái)越低精度的數(shù)字表示法外,早在Ampere架構(gòu)中,英偉達(dá)就。硬件可以在每四個(gè)權(quán)重中實(shí)現(xiàn)兩次剪枝,從而生成更小的矩陣進(jìn)行計(jì)算。從Ampere到Hopper再到Blackwell,英偉達(dá)一直在降低大模型開(kāi)發(fā)者對(duì)其結(jié)構(gòu)化稀疏性的適配門檻。

大模型廠商在推動(dòng)注意力機(jī)制稀疏化的同時(shí),同樣需要完成。幫助生態(tài)伙伴迭代出軟硬件結(jié)合、性能足夠優(yōu)秀的芯片,本身就是一種稀缺的創(chuàng)新能力。

英偉達(dá)的領(lǐng)先不僅是單個(gè)公司努力的結(jié)果,更是整個(gè)歐美技術(shù)社區(qū)與產(chǎn)業(yè)協(xié)同推動(dòng)的成果?!八麄兡芸吹较乱淮夹g(shù)趨勢(shì),手里有路線圖?!绷何匿h認(rèn)為中國(guó)的AI發(fā)展同樣需要這樣的生態(tài),“很多國(guó)產(chǎn)芯片之所以發(fā)展受限,是因?yàn)槿狈ε涮椎募夹g(shù)社區(qū),往往只能獲得第二手信息?!?/p>

DeepSeek正站在英偉達(dá)已經(jīng)達(dá)到的高度,推動(dòng)中國(guó)算力生態(tài)的成長(zhǎng),而不是簡(jiǎn)單迎合國(guó)產(chǎn)芯片供給。從魔改PTX到采用 UE8M0 FP8 Scale 參數(shù)精度,DeepSeek 先充分發(fā)揮英偉達(dá) GPU 的算力,再影響國(guó)產(chǎn)芯片的設(shè)計(jì),。

DeepSeek與英偉達(dá)在ChatGPT。DeepSeek前身的“幻方AI”,是英偉達(dá)AI芯片的早期萬(wàn)卡大客戶,也是第一批規(guī)模采購(gòu)A100芯片的亞太公司。2022年,它在英偉達(dá)GTC上的首秀,就是介紹自己如何極限壓榨A100算力。后來(lái)的V3模型的論文,特地強(qiáng)調(diào)了對(duì)于內(nèi)存讀寫和網(wǎng)絡(luò)框架及驅(qū)動(dòng)的工程優(yōu)化,甚至涉及PTX層面的改動(dòng)。而英偉達(dá)今年推出的Dynamo,本質(zhì)上則是DeepSeek。

具體到這一次,為了方便開(kāi)發(fā)者充分利用新架構(gòu),DeepSeek開(kāi)源了DSA 中的部分關(guān)鍵CUDA 算子。而在其技術(shù)文檔中,TileLang這一編程工具引起了業(yè)界廣泛關(guān)注。

TileLang 是一款“土生土長(zhǎng)”的新型編程語(yǔ)言,由北大團(tuán)隊(duì)研發(fā)。它專為簡(jiǎn)化高難度的 GPU 算子開(kāi)發(fā)而設(shè)計(jì),將是替代目前主流的OpenAI 領(lǐng)域特定語(yǔ)言(DSL)Triton的有力備選。過(guò)去,開(kāi)發(fā)者需要同時(shí)兼顧算法邏輯和硬件調(diào)度,這既復(fù)雜又容易出錯(cuò)。而 TileLang 將調(diào)度空間與數(shù)據(jù)流解耦,使開(kāi)發(fā)者能夠直觀地控制數(shù)據(jù)在硬件中的流動(dòng)。

根據(jù) TileLang 在GitHub 的說(shuō)明文檔,它不僅支持英偉達(dá) CUDA(包括2:4 稀疏張量核心),還已擴(kuò)展支持華為昇騰等國(guó)產(chǎn)芯片。后者的專用變體 TileLang-Ascend 已經(jīng)開(kāi)源。TileLang 團(tuán)隊(duì)最近一次公開(kāi)亮相,就是在幾周前的華為全聯(lián)接大會(huì) 2025 開(kāi)發(fā)者日。更早之前,沐曦科技也曾在 HyperAI 主辦的一場(chǎng)技術(shù)沙龍上,討論過(guò)旗下GPU對(duì)TileLang 的適配。

DeepSeek驗(yàn)證了國(guó)產(chǎn)AI算力生態(tài),能夠進(jìn)一步將模型與算法層面的創(chuàng)新,與中間層的編譯語(yǔ)言與更底層的計(jì)算芯片協(xié)同起來(lái)。今年6月,DeepSeek 實(shí)習(xí)研究員袁境陽(yáng)在介紹 NSA 機(jī)制時(shí),就提到TileLang的優(yōu)勢(shì)。在訓(xùn)練V3.2-Exp時(shí),DeepSeek利用TileLang快速開(kāi)發(fā)了原型,隨后才進(jìn)行更底層的優(yōu)化。


昨晚,DeepSeek V3.2-Exp發(fā)布后,華為昇騰和寒武紀(jì)均第一時(shí)間宣布完成適配工作。這表明,國(guó)產(chǎn)AI算力生態(tài)已進(jìn)入模型與芯片協(xié)同設(shè)計(jì)階段。年初,已有8家廠商通過(guò)了中國(guó)信通院人工智能軟硬件測(cè)試基準(zhǔn)(AISHPerf),對(duì)DeepSeek上一代模型實(shí)現(xiàn)了適配。預(yù)計(jì)這一名單中的其他芯片廠商,也將陸續(xù)完成對(duì)V3.2-Exp的適配。

無(wú)論是芯片還是模型,中國(guó)在場(chǎng)的玩家數(shù)量仍遠(yuǎn)超美國(guó)。這帶來(lái)了更多可能性,同時(shí)也意味著市場(chǎng)更加分散,協(xié)同成本更高。國(guó)產(chǎn) AI 算力生態(tài)的市場(chǎng)格局,也將在這場(chǎng)與時(shí)間賽跑的競(jìng)爭(zhēng)中,逐步重塑并走向成熟。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不戰(zhàn)而勝!對(duì)手門??艘騻速悾录s生涯第65次躋身大滿貫八強(qiáng)

不戰(zhàn)而勝!對(duì)手門希克因傷退賽,德約生涯第65次躋身大滿貫八強(qiáng)

全景體育V
2026-01-25 17:37:59
“美國(guó)斬殺線”事件詳細(xì)梳理:最新爆料美女留學(xué)生當(dāng)“狗”太辣眼

“美國(guó)斬殺線”事件詳細(xì)梳理:最新爆料美女留學(xué)生當(dāng)“狗”太辣眼

聽(tīng)風(fēng)聽(tīng)你
2026-01-24 20:54:06
替補(bǔ)出場(chǎng)2分鐘染黃!拜合拉木賽后手指著裁判說(shuō)話 39度高燒仍拼命

替補(bǔ)出場(chǎng)2分鐘染黃!拜合拉木賽后手指著裁判說(shuō)話 39度高燒仍拼命

風(fēng)過(guò)鄉(xiāng)
2026-01-25 10:59:52
國(guó)家下狠手了!體制內(nèi)大地震,少爺、公主們的“天”,要塌了

國(guó)家下狠手了!體制內(nèi)大地震,少爺、公主們的“天”,要塌了

霹靂炮
2026-01-19 22:24:13
雷軍無(wú)奈宣布:全部下架!

雷軍無(wú)奈宣布:全部下架!

電動(dòng)知家
2026-01-25 15:31:25
記者:徐彬與中國(guó)U23在吉達(dá)告別,已正式啟程前往英國(guó)迎接新挑戰(zhàn)

記者:徐彬與中國(guó)U23在吉達(dá)告別,已正式啟程前往英國(guó)迎接新挑戰(zhàn)

懂球帝
2026-01-25 16:26:22
58歲那英改走顏值路線?過(guò)度醫(yī)美變化大到認(rèn)不出,這是要鬧哪出?

58歲那英改走顏值路線?過(guò)度醫(yī)美變化大到認(rèn)不出,這是要鬧哪出?

鋒哥與八卦哥
2026-01-25 13:26:51
出大事了!中國(guó)收到“戰(zhàn)書”,這次不是美國(guó),中方已經(jīng)做好準(zhǔn)備

出大事了!中國(guó)收到“戰(zhàn)書”,這次不是美國(guó),中方已經(jīng)做好準(zhǔn)備

愛(ài)吃醋的貓咪
2026-01-23 20:27:00
武漢理工畢業(yè)做保安!男子被學(xué)校約談后,稱保安比送外賣掙得多…

武漢理工畢業(yè)做保安!男子被學(xué)校約談后,稱保安比送外賣掙得多…

火山詩(shī)話
2026-01-25 09:02:44
一語(yǔ)道破女留學(xué)生的牢A,親眼目睹陪讀媽媽的悲哀,到底真還是假

一語(yǔ)道破女留學(xué)生的牢A,親眼目睹陪讀媽媽的悲哀,到底真還是假

每日一見(jiàn)
2026-01-23 15:07:50
云南毒紅薯升級(jí)!調(diào)查組介入,網(wǎng)友扒出黑幕,難怪商戶敢主動(dòng)投毒

云南毒紅薯升級(jí)!調(diào)查組介入,網(wǎng)友扒出黑幕,難怪商戶敢主動(dòng)投毒

云舟史策
2026-01-24 16:14:54
李亞鵬曝光捐贈(zèng)名單,向太發(fā)聲:我捐了幾百萬(wàn),王菲默默支持了幾千萬(wàn),也是不夠的……

李亞鵬曝光捐贈(zèng)名單,向太發(fā)聲:我捐了幾百萬(wàn),王菲默默支持了幾千萬(wàn),也是不夠的……

都市快報(bào)橙柿互動(dòng)
2026-01-24 19:48:42
首映僅150萬(wàn),《舒克貝塔》票房撲街,鄭淵潔父子虧到懷疑人生

首映僅150萬(wàn),《舒克貝塔》票房撲街,鄭淵潔父子虧到懷疑人生

電影票房預(yù)告片
2026-01-25 00:00:56
個(gè)稅降了,2026年1月15日起執(zhí)行

個(gè)稅降了,2026年1月15日起執(zhí)行

會(huì)計(jì)人
2026-01-25 12:03:57
女友懷孕收15萬(wàn)元彩禮,被退婚后控告男友強(qiáng)奸,男方起訴退還全部彩禮,法院判了

女友懷孕收15萬(wàn)元彩禮,被退婚后控告男友強(qiáng)奸,男方起訴退還全部彩禮,法院判了

南國(guó)今報(bào)
2026-01-25 17:09:35
安東尼奧即將成為國(guó)奧主帥,兩年后將挑戰(zhàn)40年魔咒

安東尼奧即將成為國(guó)奧主帥,兩年后將挑戰(zhàn)40年魔咒

澎湃新聞
2026-01-25 14:07:05
好消息!鐵路新規(guī):60歲以上老人乘坐高鐵火車,可享受5大福利

好消息!鐵路新規(guī):60歲以上老人乘坐高鐵火車,可享受5大福利

巢客HOME
2026-01-25 06:50:03
青島回應(yīng)“學(xué)生械斗”:系A(chǔ)I生成的不實(shí)信息

青島回應(yīng)“學(xué)生械斗”:系A(chǔ)I生成的不實(shí)信息

極目新聞
2026-01-24 23:30:18
株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

以茶帶書
2026-01-24 23:18:39
1550億美元身家的黃仁勛現(xiàn)身上海一菜場(chǎng),商戶:他在我的栗子店消費(fèi)65元,還給我簽名紅包

1550億美元身家的黃仁勛現(xiàn)身上海一菜場(chǎng),商戶:他在我的栗子店消費(fèi)65元,還給我簽名紅包

極目新聞
2026-01-25 15:58:12
2026-01-25 19:08:49
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
292文章數(shù) 61關(guān)注度
往期回顧 全部

科技要聞

黃仁勛在上海逛菜市場(chǎng),可能惦記著三件事

頭條要聞

游客自稱爬衡山時(shí)掛脖子上80克金牌遺失 價(jià)值超10萬(wàn)元

頭條要聞

游客自稱爬衡山時(shí)掛脖子上80克金牌遺失 價(jià)值超10萬(wàn)元

體育要聞

中國(guó)足球不會(huì)一夜變強(qiáng),但他們已經(jīng)創(chuàng)造歷史

娛樂(lè)要聞

王玉雯方嚴(yán)正聲明 劇方回應(yīng):涉事人員已被開(kāi)除

財(cái)經(jīng)要聞

隋廣義等80人被公訴 千億騙局進(jìn)入末路

汽車要聞

別克至境E7內(nèi)飾圖曝光 新車將于一季度正式發(fā)布

態(tài)度原創(chuàng)

房產(chǎn)
手機(jī)
藝術(shù)
健康
公開(kāi)課

房產(chǎn)要聞

正式官宣!三亞又一所名校要來(lái)了!

手機(jī)要聞

榮耀泡泡瑪特聯(lián)名手機(jī)今日開(kāi)售:首銷即引爆,線下再現(xiàn)排隊(duì)熱潮

藝術(shù)要聞

當(dāng)代唯一能稱為“大師”的人,他的字普通人看不懂,啟功跟他比,就像小學(xué)生!

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版