国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

不只是DeepSeek V4,還有個萬億級大模型,訓(xùn)推全程國產(chǎn)芯片

0
分享至

編輯|Sia

同一天,兩件大事兒在 AI 圈正面碰撞。

一邊是 DeepSeek。2026 年 4 月 24 日,正式發(fā)布新一代模型DeepSeek-V4 系列預(yù)覽版,并同步開源——總參數(shù)規(guī)模邁入萬億級,支持百萬字超長上下文。

另一邊,美團(tuán)悶聲干了件大事——用全國產(chǎn)算力集群,訓(xùn)練出了萬億參數(shù)大模型 LongCat-2.0 系列預(yù)覽版( LongCat-2.0-Preview )。

據(jù)知情人士透露,該預(yù)覽版與同日發(fā)布的 DeepSeek V4 Pro 在總參數(shù)規(guī)模、激活參數(shù)量上基本處于同一量級,同樣支持 1M 上下文。

但關(guān)鍵不是第一梯隊成員的「參數(shù)對齊」,而是路徑分野——一個前沿萬億模型,訓(xùn)推全流程「英偉達(dá)含量為 0」——這在業(yè)內(nèi)尚屬首次。即便是 DeepSeek V4,也只是選擇國產(chǎn)算力做「首發(fā)推理」,并不意味著全流程完全擺脫英偉達(dá)。

過去兩年,國產(chǎn)大模型領(lǐng)域最核心、也最令人焦慮的問題,終于迎來了明確答案:

萬億參數(shù)級模型,究竟能不能依靠國產(chǎn)芯片穩(wěn)定、高效地跑起來?

答案是:能。

只是很多人沒想到,在「國產(chǎn)算力支撐萬億級模型研發(fā)」這條高難度賽道上,率先跑出關(guān)鍵突破的,會是美團(tuán)。

某種程度上,這也呼應(yīng)了王興過去的發(fā)言,「過去一年,保障充足的 GPU 資源供應(yīng),是美團(tuán)的首要任務(wù)」、「我們將爭取把美團(tuán) App 率先升級成 AI-powered App?!癸@然,這是戰(zhàn)略預(yù)判的結(jié)果。

目前,LongCat-2.0-Preview 仍處于受邀內(nèi)測階段,每天 1000 萬 token 額度。

我們不禁好奇,他們到底是怎么做到的呢?



抽絲剝繭 Flash ,原來早就有跡可循

第一時間,我們聯(lián)想到去年 9 月開源的 LongCat-Flash 大模型。

同樣采用 MoE 架構(gòu),總參數(shù)規(guī)模達(dá)到 5600 億,動態(tài)激活參數(shù)在 186 億至 313 億之間,在性能與計算效率之間做出了相當(dāng)漂亮的平衡,推理速度和運營成本指標(biāo)也頗為亮眼。

彼時,業(yè)內(nèi)就曾傳出消息:該模型訓(xùn)練階段并未使用英偉達(dá) GPU,而是基于國產(chǎn)加速卡完成。對此,美團(tuán)始終未予置評。

但現(xiàn)在,隨著 LongCat-2.0-Preview 的出現(xiàn),我們重翻技術(shù)報告,很多細(xì)節(jié)突然有了新的解釋。

那些當(dāng)時看起來「用力過猛」、「沒必要」的工程優(yōu)化,或許并不是單純秀肌肉,而是在國產(chǎn)算力環(huán)境下訓(xùn)練超大模型時,必須跨過去的現(xiàn)實門檻。

換句話說,那份報告的「微言大義」,其實是一套如何用國產(chǎn)芯片訓(xùn)成超大模型的方法論。

邏輯并不復(fù)雜。

一個 560B 的 MoE 模型,訓(xùn)練周期 30 天。如果底層運行在成熟的 NVIDIA + CUDA + NVLink + InfiniBand 生態(tài)里,通信、算子、調(diào)度、穩(wěn)定性工具鏈早已高度成熟。在這樣的環(huán)境下,專門花大量篇幅去講底層算子優(yōu)化、確定性計算、穩(wěn)定性套件,邊際收益通常并不高。

但如果底層不是英偉達(dá),而是國產(chǎn)算力,一切就瞬間說得通了。

第一個最微妙的信號,藏在用詞里。

翻遍 Flash 技術(shù)報告的訓(xùn)練章節(jié),你會發(fā)現(xiàn)全文只提「accelerator 」,絕口不提「 GPU 」;而到了推理部分,卻明確寫的是「 H800 」。這種刻意的區(qū)分,在學(xué)術(shù)論文中并不常見——它更像是在合規(guī)框架下,用一種近乎明示的方式告訴你:訓(xùn)練跑的那套硬件,不是英偉達(dá)。

第二個信號,是顯存數(shù)字。

Flash報告第 5.3 節(jié)提到,經(jīng)過 V-ZB 算法優(yōu)化后,訓(xùn)練峰值顯存被壓到了60GB 以下。這是一個非常具體的數(shù)字。如果是 H800(80GB 顯存),壓到60GB并無太大必要;但如果是單卡顯存原本就偏緊的國產(chǎn)芯片,這個優(yōu)化就是生死線。

同樣,在后來開源的 DORA異步訓(xùn)練框架論文中,團(tuán)隊再次明確寫道:「 our production cluster consists of midrange accelerators, especially with only around 60GB of available device memory 」——60GB,這個數(shù)字反復(fù)出現(xiàn),指向的不是偶然。

第三個,也是最硬核的,是算子的「確定性實現(xiàn)」。

技術(shù)報告專門拿出章節(jié)講「 Determinism 」。在外界看來,這只是一個工程潔癖。但知情人士透露,這背后是一場硬仗。

當(dāng)訓(xùn)練平臺從成熟的 CUDA 換成一個較新的國產(chǎn)芯片生態(tài)時,很多基礎(chǔ)的算子要么缺失,要么性能不可接受。最典型的是FlashAttention 反向梯度( FAG )——它直接決定了長上下文訓(xùn)練的穩(wěn)定性。

當(dāng)時國產(chǎn)芯片上只有一個「確定性」實現(xiàn),但為了做到計算順序固定,它被迫退化成單核順序執(zhí)行,耗時比「非確定性」版本慢了20 到 70 倍,在生產(chǎn)環(huán)境中幾乎不可用。

LongCat 團(tuán)隊沒有等。他們在國產(chǎn)芯片上自研了高性能的確定性 FAG 算子,最終將性能損失控制在5%左右——既保住了確定性,又沒有犧牲效率。據(jù)我們所知,這一實現(xiàn)早于國產(chǎn)芯片廠商官方推出的確定性版本,且性能更優(yōu)。

同樣的自研重構(gòu)還發(fā)生在Scatter 類算子上。原有的單核實現(xiàn)效率極低,團(tuán)隊設(shè)計了一套確定性并行算法,將梯度聚合任務(wù)拆解到所有可用計算單元上,性能提升數(shù)十倍。

而對于GEMM 這類高耗時計算模塊,團(tuán)隊也放棄了通用實現(xiàn),轉(zhuǎn)而采用確定性 Tiling 策略,疊加深度調(diào)優(yōu),實現(xiàn)了「高性能 + 確定性」的雙重目標(biāo)。

正是在這些底層算子的深度自研之上,「整網(wǎng)確定性訓(xùn)練」才真正成為可能——

每一步的計算結(jié)果都能精確復(fù)現(xiàn),任何一次異常都能被快速定位。這在國產(chǎn)芯片工具鏈尚不完善的階段,不是錦上添花,而是排障的剛需。

把這些細(xì)節(jié)放在一起,F(xiàn)lash 的技術(shù)報告,實則是一份沒有點名硬件平臺的國產(chǎn)算力訓(xùn)練經(jīng)驗總結(jié),也是一輪提前完成的驗證:

先用 560B 跑通工程棧,驗證架構(gòu)、通信、訓(xùn)練穩(wěn)定性與工具鏈閉環(huán),再把同一套方法論,放大到 1.6T。

模型架構(gòu)又有創(chuàng)新了

因此, LongCat-2.0-Preview ,本質(zhì)上可以看作是這一套方法論第一次被完整推到萬億參數(shù)級后的「階段性驗證」。據(jù)多位接近項目的人士透露,這一版本的技術(shù)細(xì)節(jié)含金量,似乎明顯高于外界目前所看到的公開信息。

LongCat-2.0-Preview 采用 MoE 架構(gòu),總參數(shù)規(guī)模約 1.6T,平均激活參數(shù)約 48B,同時支持 1M 級超長上下文。在國產(chǎn)算力環(huán)境下,同時支撐超大參數(shù)規(guī)模與百萬級上下文,本身就是對顯存、通信與系統(tǒng)穩(wěn)定性的綜合考驗。

消息人士稱,為了進(jìn)一步降低底層硬件負(fù)擔(dān),同時提升整體推理與訓(xùn)練效率,團(tuán)隊在架構(gòu)層面做了幾個核心創(chuàng)新。

其中一個延續(xù)性較強(qiáng)的方向,是在 LongCat-Flash-Lite 已驗證的 N-gram Embedding 路線基礎(chǔ)上繼續(xù)增強(qiáng)

傳統(tǒng) MoE 模型通常依賴不斷擴(kuò)展 FFN 專家數(shù)量來提升能力,但隨著專家規(guī)模增加,跨節(jié)點通信開銷也同步上升,整體收益逐漸遞減。

LongCat 干脆將一部分原本位于專家層的參數(shù)前移至 embedding 層,并引入 N-gram(詞組級)建模能力,使部分高頻語言模式可以直接匹配命中,而不再依賴逐層計算。

據(jù)說,在這一設(shè)計下,模型在保持 1.6T 參數(shù)容量的同時,在代碼生成、指令理解以及專業(yè)語義任務(wù)中獲得更穩(wěn)定的表現(xiàn),推理成本也得到明顯控制。

另一個關(guān)鍵創(chuàng)新來自注意力機(jī)制層面

長上下文能力的主要瓶頸,仍然來自 Transformer 的 O(n2) 計算復(fù)雜度。LongCat-2.0-Preview 通過引入輕量稀疏注意力機(jī)制,并疊加「跨層流感知索引」設(shè)計,在不同層之間識別關(guān)鍵語義路徑,減少了重復(fù)的全量 attention 計算。

據(jù)說,這一組合設(shè)計使模型能夠穩(wěn)定支持 1M token 上下文,同時在推理延遲與計算成本上保持相對可控。

5–6 萬卡國產(chǎn)集群,何以托起萬億模型?

據(jù)機(jī)器之心了解,LongCat-2.0-Preview 的訓(xùn)推,均完全基于國產(chǎn)芯片完成,英偉達(dá)算力占比為零。

有接近項目的人士透露,訓(xùn)練階段調(diào)用的國產(chǎn)加速卡規(guī)模已達(dá) 5 萬至 6萬張——這也刷新了當(dāng)前已知范圍內(nèi),國產(chǎn)算力支撐超大模型訓(xùn)練的規(guī)模上限。

這意味著其已經(jīng)進(jìn)入典型的超大規(guī)模工程系統(tǒng)階段,對通信、算子和穩(wěn)定性提出的要求,遠(yuǎn)比外界想象高得多。

首當(dāng)其沖的是顯存與帶寬約束。相比英偉達(dá)高端 GPU(如 H100、B200),國產(chǎn)芯片在單卡 HBM 容量與帶寬上仍存在差距,這使得可用顯存空間被明顯壓縮。如何將 1.6T 級別「專家?guī)臁乖诠こ虒崿F(xiàn)上,仍需要在集群側(cè)進(jìn)行極其精細(xì)的切分與調(diào)度。

換句話說,研發(fā)團(tuán)隊必須在萬卡規(guī)模上,對專家并行(EP)、張量并行(TP)與流水線并行(PP)進(jìn)行重新組合與解構(gòu),才能完成整體訓(xùn)練部署。

有接近研發(fā)的人士表示,圍繞并行策略與顯存優(yōu)化,團(tuán)隊做了大量底層調(diào)整。包括前述的 N-gram Embedding 與稀疏注意力設(shè)計,本質(zhì)上也在為顯存與帶寬「騰空間」。

另一個更隱性的難點,是軟件生態(tài)與算子效率。

不比CUDA 生態(tài)在算子庫與調(diào)度效率上的優(yōu)勢,國產(chǎn)芯片在部分核心算子(如 GEMM、注意力相關(guān)計算)上仍存在優(yōu)化空間。消息人士透露,為了提升執(zhí)行效率,團(tuán)隊并未完全依賴通用框架,而是對核心算子進(jìn)行了針對性重寫與優(yōu)化,并引入「確定性計算」機(jī)制,以保證大規(guī)模訓(xùn)練中的可復(fù)現(xiàn)性與調(diào)試能力。

而當(dāng)訓(xùn)練規(guī)模擴(kuò)展至數(shù)萬卡級別后,系統(tǒng)穩(wěn)定性成為另一個主要變量。

在長周期訓(xùn)練過程中,硬件掉線、通信抖動與任務(wù)中斷是常態(tài)問題,而不是異常情況。為此,團(tuán)隊額外構(gòu)建了一套容錯與恢復(fù)體系,包括鏈路感知、自動重調(diào)度與多層異常檢測機(jī)制,用于降低局部故障對整體訓(xùn)練的影響。

最后,團(tuán)隊針對國產(chǎn)硬件的特點,對訓(xùn)練框架和模型結(jié)構(gòu)做了親和設(shè)計,顯著提升了計算性能。

綜合來看,在國產(chǎn)芯片上跑通 1.6T 模型,本質(zhì)上是在「用軟件工程的勤奮,彌補(bǔ)硬件生態(tài)的欠缺」。其結(jié)果,正如消息人士所稱,雖然國產(chǎn)芯片在顯存等硬指標(biāo)上還存在差距,但在計算正確性、數(shù)值精度以及長周期訓(xùn)練穩(wěn)定性這些最核心的指標(biāo)上,已經(jīng)能夠追平國際水平,足以支撐萬億級 MoE 模型的全流程訓(xùn)推。

國產(chǎn)算力,正從能用邁向好用

過去幾年,關(guān)于國產(chǎn)芯片始終有一個現(xiàn)實問題:能不能做大模型?答案逐漸變成「能做」。但行業(yè)更在意的是下一問:能不能支撐最前沿、最高強(qiáng)度、最長周期的頂級任務(wù)?

在國產(chǎn)生態(tài)仍處于「補(bǔ)課期」的現(xiàn)實下,LongCat 團(tuán)隊沒有選擇在岸邊等待水清,而是選擇「邊渡江邊修船」。但與 DeepSeek V4 相比,LongCat-2.0-Preview 走得更遠(yuǎn)——從訓(xùn)練到推理,全流程完全國產(chǎn)化。

這也讓它的意義,超出了「又一個萬億模型」,更是一場產(chǎn)業(yè)級驗證:國產(chǎn)算力,正在跨過從「可替代」到「可承擔(dān)頂級任務(wù)」的關(guān)鍵門檻。

正如業(yè)內(nèi)人士所言,將 DeepSeek V4 與 LongCat-2.0-Preview 放在一起看,國產(chǎn)大模型生態(tài)雖仍不完美,但已經(jīng)邁出了肉眼可見的關(guān)鍵一步。那些踩過的坑、補(bǔ)齊的短板、攻克過的工程難題,最終也會沉淀成整個國產(chǎn) AI 基礎(chǔ)設(shè)施的公共能力。

當(dāng)國產(chǎn)芯片開始承載這些前沿大模型,并獲得實際驗證與背書,不僅為國產(chǎn)生態(tài)注入了信心,也為更深層的結(jié)構(gòu)性變革打開了空間。

如果說全流程國產(chǎn)化是「造出了車」,那么開源就是「修好了路」,邀請所有人一起跑起來。這種開放基因早已植根于 LongCat 的版圖中。



這一次 LongCat-2.0 Preview 大概率也將延續(xù)這一開放路線。至于具體的開源方式與時間,我們不妨拭目以待。

目前LongCat-2.0-Preview 已開放內(nèi)測,每天提供 1000 萬免費 Token 額度,無論是技術(shù)發(fā)燒友想親手跑一下這個全自研的萬億模型,還是企業(yè)開發(fā)者想評估國產(chǎn)算力 API 的可用性,都值得一試。

訪問鏈接:

https://longcat.chat/platform/usage

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
以色列前總理貝內(nèi)特:伊朗實質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來 | 伊朗的反應(yīng)為何如此激烈

偉偉道來 | 伊朗的反應(yīng)為何如此激烈

經(jīng)濟(jì)觀察報
2026-05-06 11:40:46
吳宜澤透露拿到獎金后準(zhǔn)備在英國買房,50萬英鎊獎金需交稅超23萬鎊,實際到手約26.5萬鎊

吳宜澤透露拿到獎金后準(zhǔn)備在英國買房,50萬英鎊獎金需交稅超23萬鎊,實際到手約26.5萬鎊

大風(fēng)新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個隱私,是性感嗎?

女性跑步:暴露這個隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

懂球帝
2026-05-05 19:39:09
在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個人,沒一個在出現(xiàn)場

在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個人,沒一個在出現(xiàn)場

侃故事的阿慶
2026-05-06 09:21:32
被延長的搶救時間,被卡住的工傷認(rèn)定

被延長的搶救時間,被卡住的工傷認(rèn)定

新京報
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動筷子

畫夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說故事的阿襲
2026-05-05 20:20:30
8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價報價就接

伯納烏大地震!皇馬放話出售姆巴佩,天價報價就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當(dāng)?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報
2026-05-06 12:38:05
中美同時向全球下達(dá)禁令,各國都傻眼了!美媒:中國此舉史無前例

中美同時向全球下達(dá)禁令,各國都傻眼了!美媒:中國此舉史無前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

男子購百萬保險被邀免費游老撾 花數(shù)十萬買"熊膽"心虛

頭條要聞

男子購百萬保險被邀免費游老撾 花數(shù)十萬買"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財經(jīng)要聞

人形機(jī)器人七小龍:誰真能賣 誰在講故事?

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

教育
藝術(shù)
家居
手機(jī)
游戲

教育要聞

六條邏輯主線替代四個大概念,反映了怎樣的理念? | 高中課標(biāo)修訂解讀⑥

藝術(shù)要聞

震撼!康斯坦丁攝影作品里的性感曲線讓人驚艷!

家居要聞

大膽前衛(wèi) 時尚大宅

手機(jī)要聞

谷歌推送5月Pixel手機(jī)更新,修復(fù)無線充電慢、相機(jī)卡死等問題

掌控陰陽挑戰(zhàn)圣山!《生肖山Zodiac Mountain》登陸Steam牌組構(gòu)建游戲節(jié)

無障礙瀏覽 進(jìn)入關(guān)懷版