網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

不只是DeepSeek V4，還有個萬億級大模型，訓(xùn)推全程國產(chǎn)芯片

2026-04-30 16:02:50　來源: 機(jī)器之心Pro

河北舉報

分享至

編輯｜Sia

同一天，兩件大事兒在 AI 圈正面碰撞。

一邊是 DeepSeek。2026 年 4 月 24 日，正式發(fā)布新一代模型DeepSeek-V4 系列預(yù)覽版，并同步開源——總參數(shù)規(guī)模邁入萬億級，支持百萬字超長上下文。

另一邊，美團(tuán)悶聲干了件大事——用全國產(chǎn)算力集群，訓(xùn)練出了萬億參數(shù)大模型 LongCat-2.0 系列預(yù)覽版（ LongCat-2.0-Preview ）。

據(jù)知情人士透露，該預(yù)覽版與同日發(fā)布的 DeepSeek V4 Pro 在總參數(shù)規(guī)模、激活參數(shù)量上基本處于同一量級，同樣支持 1M 上下文。

但關(guān)鍵不是第一梯隊成員的「參數(shù)對齊」，而是路徑分野——一個前沿萬億模型，訓(xùn)推全流程「英偉達(dá)含量為 0」——這在業(yè)內(nèi)尚屬首次。即便是 DeepSeek V4，也只是選擇國產(chǎn)算力做「首發(fā)推理」，并不意味著全流程完全擺脫英偉達(dá)。

過去兩年，國產(chǎn)大模型領(lǐng)域最核心、也最令人焦慮的問題，終于迎來了明確答案：

萬億參數(shù)級模型，究竟能不能依靠國產(chǎn)芯片穩(wěn)定、高效地跑起來？

答案是：能。

只是很多人沒想到，在「國產(chǎn)算力支撐萬億級模型研發(fā)」這條高難度賽道上，率先跑出關(guān)鍵突破的，會是美團(tuán)。

某種程度上，這也呼應(yīng)了王興過去的發(fā)言，「過去一年，保障充足的 GPU 資源供應(yīng)，是美團(tuán)的首要任務(wù)」、「我們將爭取把美團(tuán) App 率先升級成 AI-powered App?！癸@然，這是戰(zhàn)略預(yù)判的結(jié)果。

目前，LongCat-2.0-Preview 仍處于受邀內(nèi)測階段，每天 1000 萬 token 額度。

我們不禁好奇，他們到底是怎么做到的呢？

抽絲剝繭 Flash ，原來早就有跡可循

第一時間，我們聯(lián)想到去年 9 月開源的 LongCat-Flash 大模型。

同樣采用 MoE 架構(gòu)，總參數(shù)規(guī)模達(dá)到 5600 億，動態(tài)激活參數(shù)在 186 億至 313 億之間，在性能與計算效率之間做出了相當(dāng)漂亮的平衡，推理速度和運營成本指標(biāo)也頗為亮眼。

彼時，業(yè)內(nèi)就曾傳出消息：該模型訓(xùn)練階段并未使用英偉達(dá) GPU，而是基于國產(chǎn)加速卡完成。對此，美團(tuán)始終未予置評。

但現(xiàn)在，隨著 LongCat-2.0-Preview 的出現(xiàn)，我們重翻技術(shù)報告，很多細(xì)節(jié)突然有了新的解釋。

那些當(dāng)時看起來「用力過猛」、「沒必要」的工程優(yōu)化，或許并不是單純秀肌肉，而是在國產(chǎn)算力環(huán)境下訓(xùn)練超大模型時，必須跨過去的現(xiàn)實門檻。

換句話說，那份報告的「微言大義」，其實是一套如何用國產(chǎn)芯片訓(xùn)成超大模型的方法論。

邏輯并不復(fù)雜。

一個 560B 的 MoE 模型，訓(xùn)練周期 30 天。如果底層運行在成熟的 NVIDIA + CUDA + NVLink + InfiniBand 生態(tài)里，通信、算子、調(diào)度、穩(wěn)定性工具鏈早已高度成熟。在這樣的環(huán)境下，專門花大量篇幅去講底層算子優(yōu)化、確定性計算、穩(wěn)定性套件，邊際收益通常并不高。

但如果底層不是英偉達(dá)，而是國產(chǎn)算力，一切就瞬間說得通了。

第一個最微妙的信號，藏在用詞里。

翻遍 Flash 技術(shù)報告的訓(xùn)練章節(jié)，你會發(fā)現(xiàn)全文只提「accelerator 」，絕口不提「 GPU 」；而到了推理部分，卻明確寫的是「 H800 」。這種刻意的區(qū)分，在學(xué)術(shù)論文中并不常見——它更像是在合規(guī)框架下，用一種近乎明示的方式告訴你：訓(xùn)練跑的那套硬件，不是英偉達(dá)。

第二個信號，是顯存數(shù)字。

Flash報告第 5.3 節(jié)提到，經(jīng)過 V-ZB 算法優(yōu)化后，訓(xùn)練峰值顯存被壓到了60GB 以下。這是一個非常具體的數(shù)字。如果是 H800（80GB 顯存），壓到60GB并無太大必要；但如果是單卡顯存原本就偏緊的國產(chǎn)芯片，這個優(yōu)化就是生死線。

同樣，在后來開源的 DORA異步訓(xùn)練框架論文中，團(tuán)隊再次明確寫道：「 our production cluster consists of midrange accelerators, especially with only around 60GB of available device memory 」——60GB，這個數(shù)字反復(fù)出現(xiàn)，指向的不是偶然。

第三個，也是最硬核的，是算子的「確定性實現(xiàn)」。

技術(shù)報告專門拿出章節(jié)講「 Determinism 」。在外界看來，這只是一個工程潔癖。但知情人士透露，這背后是一場硬仗。

當(dāng)訓(xùn)練平臺從成熟的 CUDA 換成一個較新的國產(chǎn)芯片生態(tài)時，很多基礎(chǔ)的算子要么缺失，要么性能不可接受。最典型的是FlashAttention 反向梯度（ FAG ）——它直接決定了長上下文訓(xùn)練的穩(wěn)定性。

當(dāng)時國產(chǎn)芯片上只有一個「確定性」實現(xiàn)，但為了做到計算順序固定，它被迫退化成單核順序執(zhí)行，耗時比「非確定性」版本慢了20 到 70 倍，在生產(chǎn)環(huán)境中幾乎不可用。

LongCat 團(tuán)隊沒有等。他們在國產(chǎn)芯片上自研了高性能的確定性 FAG 算子，最終將性能損失控制在5%左右——既保住了確定性，又沒有犧牲效率。據(jù)我們所知，這一實現(xiàn)早于國產(chǎn)芯片廠商官方推出的確定性版本，且性能更優(yōu)。

同樣的自研重構(gòu)還發(fā)生在Scatter 類算子上。原有的單核實現(xiàn)效率極低，團(tuán)隊設(shè)計了一套確定性并行算法，將梯度聚合任務(wù)拆解到所有可用計算單元上，性能提升數(shù)十倍。

而對于GEMM 這類高耗時計算模塊，團(tuán)隊也放棄了通用實現(xiàn)，轉(zhuǎn)而采用確定性 Tiling 策略，疊加深度調(diào)優(yōu)，實現(xiàn)了「高性能 + 確定性」的雙重目標(biāo)。

正是在這些底層算子的深度自研之上，「整網(wǎng)確定性訓(xùn)練」才真正成為可能——

每一步的計算結(jié)果都能精確復(fù)現(xiàn)，任何一次異常都能被快速定位。這在國產(chǎn)芯片工具鏈尚不完善的階段，不是錦上添花，而是排障的剛需。

把這些細(xì)節(jié)放在一起，F(xiàn)lash 的技術(shù)報告，實則是一份沒有點名硬件平臺的國產(chǎn)算力訓(xùn)練經(jīng)驗總結(jié)，也是一輪提前完成的驗證：

先用 560B 跑通工程棧，驗證架構(gòu)、通信、訓(xùn)練穩(wěn)定性與工具鏈閉環(huán)，再把同一套方法論，放大到 1.6T。

模型架構(gòu)又有創(chuàng)新了

因此， LongCat-2.0-Preview ，本質(zhì)上可以看作是這一套方法論第一次被完整推到萬億參數(shù)級后的「階段性驗證」。據(jù)多位接近項目的人士透露，這一版本的技術(shù)細(xì)節(jié)含金量，似乎明顯高于外界目前所看到的公開信息。

LongCat-2.0-Preview 采用 MoE 架構(gòu)，總參數(shù)規(guī)模約 1.6T，平均激活參數(shù)約 48B，同時支持 1M 級超長上下文。在國產(chǎn)算力環(huán)境下，同時支撐超大參數(shù)規(guī)模與百萬級上下文，本身就是對顯存、通信與系統(tǒng)穩(wěn)定性的綜合考驗。

消息人士稱，為了進(jìn)一步降低底層硬件負(fù)擔(dān)，同時提升整體推理與訓(xùn)練效率，團(tuán)隊在架構(gòu)層面做了幾個核心創(chuàng)新。

其中一個延續(xù)性較強(qiáng)的方向，是在 LongCat-Flash-Lite 已驗證的 N-gram Embedding 路線基礎(chǔ)上繼續(xù)增強(qiáng)。

傳統(tǒng) MoE 模型通常依賴不斷擴(kuò)展 FFN 專家數(shù)量來提升能力，但隨著專家規(guī)模增加，跨節(jié)點通信開銷也同步上升，整體收益逐漸遞減。

LongCat 干脆將一部分原本位于專家層的參數(shù)前移至 embedding 層，并引入 N-gram（詞組級）建模能力，使部分高頻語言模式可以直接匹配命中，而不再依賴逐層計算。

據(jù)說，在這一設(shè)計下，模型在保持 1.6T 參數(shù)容量的同時，在代碼生成、指令理解以及專業(yè)語義任務(wù)中獲得更穩(wěn)定的表現(xiàn)，推理成本也得到明顯控制。

另一個關(guān)鍵創(chuàng)新來自注意力機(jī)制層面。

長上下文能力的主要瓶頸，仍然來自 Transformer 的 O(n2) 計算復(fù)雜度。LongCat-2.0-Preview 通過引入輕量稀疏注意力機(jī)制，并疊加「跨層流感知索引」設(shè)計，在不同層之間識別關(guān)鍵語義路徑，減少了重復(fù)的全量 attention 計算。

據(jù)說，這一組合設(shè)計使模型能夠穩(wěn)定支持 1M token 上下文，同時在推理延遲與計算成本上保持相對可控。

5–6 萬卡國產(chǎn)集群，何以托起萬億模型？

據(jù)機(jī)器之心了解，LongCat-2.0-Preview 的訓(xùn)推，均完全基于國產(chǎn)芯片完成，英偉達(dá)算力占比為零。

有接近項目的人士透露，訓(xùn)練階段調(diào)用的國產(chǎn)加速卡規(guī)模已達(dá) 5 萬至 6萬張——這也刷新了當(dāng)前已知范圍內(nèi)，國產(chǎn)算力支撐超大模型訓(xùn)練的規(guī)模上限。

這意味著其已經(jīng)進(jìn)入典型的超大規(guī)模工程系統(tǒng)階段，對通信、算子和穩(wěn)定性提出的要求，遠(yuǎn)比外界想象高得多。

首當(dāng)其沖的是顯存與帶寬約束。相比英偉達(dá)高端 GPU（如 H100、B200），國產(chǎn)芯片在單卡 HBM 容量與帶寬上仍存在差距，這使得可用顯存空間被明顯壓縮。如何將 1.6T 級別「專家?guī)臁乖诠こ虒崿F(xiàn)上，仍需要在集群側(cè)進(jìn)行極其精細(xì)的切分與調(diào)度。

換句話說，研發(fā)團(tuán)隊必須在萬卡規(guī)模上，對專家并行（EP）、張量并行（TP）與流水線并行（PP）進(jìn)行重新組合與解構(gòu)，才能完成整體訓(xùn)練部署。

有接近研發(fā)的人士表示，圍繞并行策略與顯存優(yōu)化，團(tuán)隊做了大量底層調(diào)整。包括前述的 N-gram Embedding 與稀疏注意力設(shè)計，本質(zhì)上也在為顯存與帶寬「騰空間」。

另一個更隱性的難點，是軟件生態(tài)與算子效率。

不比CUDA 生態(tài)在算子庫與調(diào)度效率上的優(yōu)勢，國產(chǎn)芯片在部分核心算子（如 GEMM、注意力相關(guān)計算）上仍存在優(yōu)化空間。消息人士透露，為了提升執(zhí)行效率，團(tuán)隊并未完全依賴通用框架，而是對核心算子進(jìn)行了針對性重寫與優(yōu)化，并引入「確定性計算」機(jī)制，以保證大規(guī)模訓(xùn)練中的可復(fù)現(xiàn)性與調(diào)試能力。

而當(dāng)訓(xùn)練規(guī)模擴(kuò)展至數(shù)萬卡級別后，系統(tǒng)穩(wěn)定性成為另一個主要變量。

在長周期訓(xùn)練過程中，硬件掉線、通信抖動與任務(wù)中斷是常態(tài)問題，而不是異常情況。為此，團(tuán)隊額外構(gòu)建了一套容錯與恢復(fù)體系，包括鏈路感知、自動重調(diào)度與多層異常檢測機(jī)制，用于降低局部故障對整體訓(xùn)練的影響。

最后，團(tuán)隊針對國產(chǎn)硬件的特點，對訓(xùn)練框架和模型結(jié)構(gòu)做了親和設(shè)計，顯著提升了計算性能。

綜合來看，在國產(chǎn)芯片上跑通 1.6T 模型，本質(zhì)上是在「用軟件工程的勤奮，彌補(bǔ)硬件生態(tài)的欠缺」。其結(jié)果，正如消息人士所稱，雖然國產(chǎn)芯片在顯存等硬指標(biāo)上還存在差距，但在計算正確性、數(shù)值精度以及長周期訓(xùn)練穩(wěn)定性這些最核心的指標(biāo)上，已經(jīng)能夠追平國際水平，足以支撐萬億級 MoE 模型的全流程訓(xùn)推。

國產(chǎn)算力，正從能用邁向好用

過去幾年，關(guān)于國產(chǎn)芯片始終有一個現(xiàn)實問題：能不能做大模型？答案逐漸變成「能做」。但行業(yè)更在意的是下一問：能不能支撐最前沿、最高強(qiáng)度、最長周期的頂級任務(wù)？

在國產(chǎn)生態(tài)仍處于「補(bǔ)課期」的現(xiàn)實下，LongCat 團(tuán)隊沒有選擇在岸邊等待水清，而是選擇「邊渡江邊修船」。但與 DeepSeek V4 相比，LongCat-2.0-Preview 走得更遠(yuǎn)——從訓(xùn)練到推理，全流程完全國產(chǎn)化。

這也讓它的意義，超出了「又一個萬億模型」，更是一場產(chǎn)業(yè)級驗證：國產(chǎn)算力，正在跨過從「可替代」到「可承擔(dān)頂級任務(wù)」的關(guān)鍵門檻。

正如業(yè)內(nèi)人士所言，將 DeepSeek V4 與 LongCat-2.0-Preview 放在一起看，國產(chǎn)大模型生態(tài)雖仍不完美，但已經(jīng)邁出了肉眼可見的關(guān)鍵一步。那些踩過的坑、補(bǔ)齊的短板、攻克過的工程難題，最終也會沉淀成整個國產(chǎn) AI 基礎(chǔ)設(shè)施的公共能力。

當(dāng)國產(chǎn)芯片開始承載這些前沿大模型，并獲得實際驗證與背書，不僅為國產(chǎn)生態(tài)注入了信心，也為更深層的結(jié)構(gòu)性變革打開了空間。

如果說全流程國產(chǎn)化是「造出了車」，那么開源就是「修好了路」，邀請所有人一起跑起來。這種開放基因早已植根于 LongCat 的版圖中。

這一次 LongCat-2.0 Preview 大概率也將延續(xù)這一開放路線。至于具體的開源方式與時間，我們不妨拭目以待。

目前LongCat-2.0-Preview 已開放內(nèi)測，每天提供 1000 萬免費 Token 額度，無論是技術(shù)發(fā)燒友想親手跑一下這個全自研的萬億模型，還是企業(yè)開發(fā)者想評估國產(chǎn)算力 API 的可用性，都值得一試。

訪問鏈接：

https://longcat.chat/platform/usage

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.