国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

英偉達(dá)成開源新王?Nemotron 3全新混合專家架構(gòu),推理效率升4倍

0
分享至



機(jī)器之心編輯部

英偉達(dá)的自研大模型,剛剛有了大版本的更新。

北京時(shí)間今天凌晨,英偉達(dá)發(fā)布了 Nemotron 3 系列開放模型,共三種規(guī)模,分別為Nano、Super 和 Ultra

  1. Nemotron 3 Nano:300 億參數(shù)規(guī)模的小模型,每次最多激活約 30 億參數(shù),適用于高度定向、極致高效的任務(wù)。
  2. Nemotron 3 Super:約 1000 億參數(shù)的高精度推理模型,每個(gè) token 最多激活 100 億參數(shù),面向多智能體應(yīng)用。
  3. Nemotron 3 Ultra:約 5000 億參數(shù)的大型推理引擎,每個(gè) token 最多激活 500 億參數(shù),適用于復(fù)雜 AI 應(yīng)用場(chǎng)景。



其中 Nemotron 3 Nano 已在 Hugging Face 上線,是目前計(jì)算成本效率最高的模型,針對(duì)軟件調(diào)試、內(nèi)容摘要、AI 助手工作流和信息檢索等任務(wù)進(jìn)行了優(yōu)化,可顯著降低推理成本。該模型采用獨(dú)特的混合 MoE 架構(gòu),在效率與可擴(kuò)展性方面實(shí)現(xiàn)了顯著提升。

Nemotron 3 Nano 的總參數(shù)規(guī)模為 316 億,激活參數(shù)規(guī)模為 32 億(包含嵌入層為 36 億)。在每次前向推理過程中,其激活的參數(shù)數(shù)量不到上代 Nemotron 2 Nano 的一半,卻實(shí)現(xiàn)了更高的準(zhǔn)確率。

與 Nemotron 2 Nano 相比,Nemotron 3 Nano 實(shí)現(xiàn)了最高 4 倍的 Token 吞吐量提升,并將推理階段生成的 Token 數(shù)量減少最高 60%,顯著降低推理成本。同時(shí),100 萬 Token 的上下文窗口使 Nemotron 3 Nano 具備更強(qiáng)的長(zhǎng)期記憶能力,在多步驟、長(zhǎng)鏈路任務(wù)中表現(xiàn)更為準(zhǔn)確。

對(duì)于另外兩款模型,Nemotron 3 Super 擅長(zhǎng)需要大量協(xié)作智能體、且對(duì)低延遲要求極高的復(fù)雜任務(wù);Nemotron 3 Ultra 則作為高級(jí)推理引擎,適用于深度研究與戰(zhàn)略規(guī)劃等高復(fù)雜度 AI 工作流。

斯坦福大學(xué)計(jì)算機(jī)科學(xué)副教授 Percy Liang 表示,這不僅僅是一個(gè)強(qiáng)大的開源模型。Nemotron 發(fā)布了訓(xùn)練數(shù)據(jù)、強(qiáng)化學(xué)習(xí)環(huán)境和訓(xùn)練代碼。這意義重大:幾乎所有模型開發(fā)者都只是希望人們使用他們的模型;而英偉達(dá)則讓用戶能夠創(chuàng)建自己的模型。



英偉達(dá)認(rèn)為,隨著企業(yè)從單一模型聊天機(jī)器人轉(zhuǎn)向協(xié)同工作的多智能體 AI 系統(tǒng),開發(fā)者正面臨通信開銷高、上下文漂移以及推理成本居高不下等挑戰(zhàn)。同時(shí),能夠支撐復(fù)雜工作流自動(dòng)化的模型,必須具備足夠的透明性與可解釋性,才能贏得開發(fā)者與企業(yè)的信任。

Nemotron 3 正是為應(yīng)對(duì)這些問題而生,為構(gòu)建專業(yè)級(jí)智能體 AI 提供所需的性能與開放性。

英偉達(dá)創(chuàng)始人兼首席執(zhí)行官黃仁勛表示:「開放式創(chuàng)新是 AI 進(jìn)步的基石。通過 Nemotron,我們正在將先進(jìn) AI 轉(zhuǎn)變?yōu)橐粋€(gè)開放平臺(tái),為開發(fā)者提供在規(guī)?;瘶?gòu)建智能體系統(tǒng)時(shí)所需的透明性與效率。」

Nemotron 3 系列的首款模型 Nemotron 3 Nano(30B-3A)已于今日上線,Nemotron 3 Super 和 Ultra 預(yù)計(jì)將于 2026 年上半年正式推出。



技術(shù)介紹

Nemotron 3 系列模型的核心技術(shù)包括如下:

混合 MoE(Hybrid MoE)

Nemotron 3 系列模型采用 Mamba-Transformer 混合 MoE 架構(gòu)。在實(shí)現(xiàn)業(yè)界領(lǐng)先吞吐率的同時(shí),其準(zhǔn)確率優(yōu)于或不遜于傳統(tǒng) Transformer 模型。

具體來說,傳統(tǒng)方法通常將 MoE 層與代價(jià)昂貴的自注意力層交替堆疊,而自注意力機(jī)制在生成過程中需要隨著序列變長(zhǎng),不斷擴(kuò)展 KV Cache,其計(jì)算和存儲(chǔ)成本線性增長(zhǎng)。

而 Nemotron 3 模型的核心改進(jìn)是:大量采用 MoE 層與成本更低的 Mamba-2 層交替堆疊。Mamba-2 在生成時(shí)只需存儲(chǔ)固定大小的狀態(tài)(constant state),無需維護(hù)不斷擴(kuò)張的 KV Cache。

因此,只有少量自注意力層會(huì)被保留用于特定功能。圖 1 展示了 Nemotron 3 Nano 的層級(jí)結(jié)構(gòu)模式。



LatentMoE

Transformer 模型在不同部署場(chǎng)景下會(huì)遇到不同的性能瓶頸:低時(shí)延場(chǎng)景主要受限于內(nèi)存帶寬,高吞吐場(chǎng)景則受限于 MoE 的 all-to-all 通信。為同時(shí)兼顧速度與模型質(zhì)量,英偉達(dá)提出了 LatentMoE 架構(gòu)。

LatentMoE 的核心做法是:先將 token 從原始隱藏維度投影到更小的潛在維度,在這個(gè)低維空間中進(jìn)行專家路由和計(jì)算,再投影回原維度。這樣不僅減少了專家權(quán)重加載和通信成本,還能利用節(jié)省下的帶寬與參數(shù),增加專家數(shù)量和每個(gè) token 激活的專家數(shù),提高模型表達(dá)能力。



多 Token 預(yù)測(cè)(Multi-Token Prediction, MTP)

MTP 已經(jīng)成為一種顯著提升大語言模型準(zhǔn)確率和推理效率的有效技術(shù)。已有研究包括 DeepSeek V3 以及最早提出 MTP 的工作表明:讓模型一次預(yù)測(cè)多個(gè)未來 token,不僅能夠提供更豐富的訓(xùn)練信號(hào),還能促使模型提前規(guī)劃多個(gè)推理步驟。

在 Nemotron 3 中引入 MTP 后,模型在驗(yàn)證集損失以及多個(gè)下游任務(wù)中都獲得了穩(wěn)定提升,包括通識(shí)知識(shí)、代碼生成、常識(shí)推理、閱讀理解和數(shù)學(xué)。

從系統(tǒng)層面看,MTP 僅引入極少量額外 FLOPs,并能無縫集成到訓(xùn)練流程中,同時(shí)帶來可觀的 speculative decoding 加速收益,整體效率依然保持極高水平。

NVFP4 低精度訓(xùn)練格式

英偉達(dá)在 NVFP4 數(shù)值格式下,成功實(shí)現(xiàn)了在 Mamba–MoE 混合架構(gòu)上對(duì)最高 25 萬億(25T)tokens 的穩(wěn)定且高精度的預(yù)訓(xùn)練。模型的權(quán)重、激活值和梯度均被量化為 NVFP4,使得前向傳播、反向傳播中的梯度計(jì)算和權(quán)重更新都可以使用 NVFP4 GEMM 運(yùn)算。在 GB300 芯片上,F(xiàn)P4 的峰值吞吐量是 FP8 的 3 倍。

超長(zhǎng)上下文(Long Context)

Nemotron 3 系列模型被設(shè)計(jì)為支持最長(zhǎng) 100 萬(1M)token 的上下文長(zhǎng)度,以滿足大規(guī)模、多輪、具備 Agentic 推理的應(yīng)用需求。

在傳統(tǒng) Transformer 中,旋轉(zhuǎn)位置編碼(RoPE) 是擴(kuò)展上下文長(zhǎng)度的主要瓶頸,因?yàn)?RoPE 在超過訓(xùn)練長(zhǎng)度時(shí)會(huì)出現(xiàn)明顯的分布外退化問題。而 Nemotron 3 使用的 Mamba 層天然具備隱式位置信息,因此模型在注意力層中完全不使用 RoPE,從而避免了 RoPE 帶來的上下文擴(kuò)展限制。

除了上述關(guān)鍵技術(shù)之外,Nemotron 3 系列模型還引入了兩項(xiàng)面向?qū)嵱眯缘暮诵哪芰?,進(jìn)一步增強(qiáng)了模型在真實(shí)世界應(yīng)用中的可靠性、靈活性與泛化表現(xiàn)。

多環(huán)境強(qiáng)化學(xué)習(xí)后訓(xùn)練(Multi-environment RL Post-training):Nemotron 3 模型在后訓(xùn)練階段使用多種強(qiáng)化學(xué)習(xí)環(huán)境進(jìn)行訓(xùn)練,使模型在廣泛任務(wù)范圍內(nèi)實(shí)現(xiàn)更高的準(zhǔn)確性與泛化能力。

推理階段精細(xì)化推理預(yù)算控制:Nemotron 3 模型在訓(xùn)練時(shí)即支持推理階段的計(jì)算 / 推理預(yù)算精細(xì)控制,可在實(shí)際部署中根據(jù)任務(wù)復(fù)雜度靈活權(quán)衡推理深度、性能與成本。

更多技術(shù)細(xì)節(jié)請(qǐng)參閱技術(shù)報(bào)告:



  1. 論文地址:https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-White-Paper.pdf
  2. 論文標(biāo)題:NVIDIA Nemotron 3: Efficient and Open Intelligence

有趣的是,Nemotron 3 貢獻(xiàn)者名單長(zhǎng)達(dá) 2 頁多,參與人數(shù)之龐大在開源模型中也是少見,足見這一系列模型背后投入的研發(fā)規(guī)模與工程復(fù)雜度。

Nemotron 3 表現(xiàn)

如下圖所示,在覆蓋多個(gè)類別的主流基準(zhǔn)測(cè)試中,Nemotron 3 Nano-30B-A3B 的準(zhǔn)確率優(yōu)于 GPT-OSS-20B 和 Qwen3-30B-A3B-Thinking-2507。

在單張 H200、8K 輸入 / 16K 輸出配置下,Nemotron 3 Nano 的推理吞吐量是 Qwen3-30B-A3B 的 3.3 倍,是 GPT-OSS-20B 的 2.2 倍。

支持最長(zhǎng)達(dá) 100 萬 Token 的上下文長(zhǎng)度,并且在不同上下文長(zhǎng)度下的 RULER 基準(zhǔn)測(cè)試中,性能均優(yōu)于 GPT-OSS-20B 和 Qwen3-30B-A3B-Instruct-2507。



另外,獨(dú)立 AI 基準(zhǔn)評(píng)測(cè)機(jī)構(gòu) Artificial Analysis 將 Nemotron 3 Nano 評(píng)為同規(guī)模模型中最開放、最高效的模型之一,并具備領(lǐng)先的準(zhǔn)確率。



目前,Nemotron 3 Nano 的多種型號(hào)模型、數(shù)據(jù)、模型配方均已開源。



得益于采用了 NVIDIA Blackwell 架構(gòu)上的超高效 4-bit NVFP4 訓(xùn)練格式,Nemotron 3 Super 和 Ultra 可以大幅降低內(nèi)存需求并加快訓(xùn)練速度,使得在現(xiàn)有基礎(chǔ)設(shè)施上訓(xùn)練更大規(guī)模模型成為可能,同時(shí)在準(zhǔn)確性上不遜于更高精度格式。

通過 Nemotron 3 模型家族,開發(fā)者可以根據(jù)具體工作負(fù)載選擇最合適的開放模型,在從數(shù)十到數(shù)百個(gè)智能體的規(guī)模下靈活擴(kuò)展,同時(shí)獲得更快、更精準(zhǔn)的長(zhǎng)程推理能力。

面向智能體定制的全新開放工具與數(shù)據(jù)

英偉達(dá)同步發(fā)布了一整套訓(xùn)練數(shù)據(jù)集與先進(jìn)的強(qiáng)化學(xué)習(xí)庫(kù),面向所有構(gòu)建專業(yè)化 AI 智能體的開發(fā)者開放。

其中,囊括 3 萬億 Token 的全新 Nemotron 預(yù)訓(xùn)練、后訓(xùn)練及強(qiáng)化學(xué)習(xí)數(shù)據(jù)集,涵蓋豐富的推理、編程和多步驟工作流示例,可用于打造高度專業(yè)化的領(lǐng)域智能體。

Nemotron 智能體安全數(shù)據(jù)集(Agentic Safety Dataset) 提供真實(shí)世界的遙測(cè)數(shù)據(jù),幫助團(tuán)隊(duì)評(píng)估并強(qiáng)化復(fù)雜智能體系統(tǒng)的安全性。



更多數(shù)據(jù)集請(qǐng)參閱:https://huggingface.co/nvidia

為了加速開發(fā),英偉達(dá)還開源了 NeMo Gym 與 NeMo RL 庫(kù),提供 Nemotron 模型所需的訓(xùn)練環(huán)境和后訓(xùn)練基礎(chǔ),并推出 NeMo Evaluator 用于驗(yàn)證模型的安全性與性能。所有工具和數(shù)據(jù)集現(xiàn)已在 GitHub 和 Hugging Face 上開放。

目前,Nemotron 3 已獲得 LM Studio、llama.cpp、SGLang 和 vLLM 的支持。此外,Prime Intellect 與 Unsloth 正將 NeMo Gym 的即用型訓(xùn)練環(huán)境直接集成到其工作流中,使團(tuán)隊(duì)能夠更便捷地開展強(qiáng)化學(xué)習(xí)訓(xùn)練。

https://nvidianews.nvidia.com/news/nvidia-debuts-nemotron-3-family-of-open-models

https://research.nvidia.com/labs/nemotron/Nemotron-3/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
狂轟11-1!樊振東歐冠首秀:僅17分鐘3-0速勝 下一輪或?qū)Q林高遠(yuǎn)

狂轟11-1!樊振東歐冠首秀:僅17分鐘3-0速勝 下一輪或?qū)Q林高遠(yuǎn)

侃球熊弟
2025-12-20 08:01:36
每天堅(jiān)持5個(gè)動(dòng)作勝過跑步1小時(shí),消除腹部贅肉、腰背酸痛也改善了

每天堅(jiān)持5個(gè)動(dòng)作勝過跑步1小時(shí),消除腹部贅肉、腰背酸痛也改善了

瑜伽解剖學(xué)
2025-12-16 12:23:11
“新冠疫苗之父”落馬,榮譽(yù)清零!打過三針的網(wǎng)友慌了

“新冠疫苗之父”落馬,榮譽(yù)清零!打過三針的網(wǎng)友慌了

胡嚴(yán)亂語
2025-12-07 15:51:07
當(dāng)不成總統(tǒng)了?美國(guó)投票結(jié)果出爐,特朗普開始下令,希拉里或倒霉

當(dāng)不成總統(tǒng)了?美國(guó)投票結(jié)果出爐,特朗普開始下令,希拉里或倒霉

墨蘭史書
2025-12-20 11:35:12
直降2140元!iPhone 17全系大幅降價(jià),性價(jià)比飆升

直降2140元!iPhone 17全系大幅降價(jià),性價(jià)比飆升

科技堡壘
2025-12-20 11:05:31
中國(guó)不丹爭(zhēng)議地區(qū)加速收回,4500 平方公里,中國(guó)建村固邊難擋

中國(guó)不丹爭(zhēng)議地區(qū)加速收回,4500 平方公里,中國(guó)建村固邊難擋

墨蘭史書
2025-12-12 02:05:03
氣笑了!美國(guó)財(cái)長(zhǎng)貝森特一本正經(jīng)地威脅:跟中國(guó)沒法玩了!

氣笑了!美國(guó)財(cái)長(zhǎng)貝森特一本正經(jīng)地威脅:跟中國(guó)沒法玩了!

青青子衿
2025-12-19 21:50:41
納指漲超300點(diǎn),科技股集體飆升,甲骨文漲近7%,英偉達(dá)市值增超萬億元,小馬智行漲11%

納指漲超300點(diǎn),科技股集體飆升,甲骨文漲近7%,英偉達(dá)市值增超萬億元,小馬智行漲11%

21世紀(jì)經(jīng)濟(jì)報(bào)道
2025-12-20 07:34:44
19記三分仍輸球!東部勁旅7戰(zhàn)6敗打回原形,快船舊將21中7迷失

19記三分仍輸球!東部勁旅7戰(zhàn)6敗打回原形,快船舊將21中7迷失

體壇小李
2025-12-20 11:28:50
從送分童子到巨人殺手!寧波男籃三戰(zhàn)震驚CBA,遼寧新疆請(qǐng)小心

從送分童子到巨人殺手!寧波男籃三戰(zhàn)震驚CBA,遼寧新疆請(qǐng)小心

林子說事
2025-12-20 11:06:22
郵報(bào):帕洛爾看飛鏢比賽,在觀眾起哄下12秒喝光約500ml啤酒

郵報(bào):帕洛爾看飛鏢比賽,在觀眾起哄下12秒喝光約500ml啤酒

懂球帝
2025-12-20 11:16:27
1975年,蔣介石在人生最后一個(gè)春節(jié)致電毛主席,希望了卻一樁心事

1975年,蔣介石在人生最后一個(gè)春節(jié)致電毛主席,希望了卻一樁心事

鶴羽說個(gè)事
2025-12-19 14:40:09
MINI COOPER限定版上市 限時(shí)售21.78萬元起

MINI COOPER限定版上市 限時(shí)售21.78萬元起

太平洋汽車
2025-12-20 11:14:16
1-1,26歲皇馬舊將力挽狂瀾救主,率隊(duì)逼平馬略卡,避免西甲2連敗

1-1,26歲皇馬舊將力挽狂瀾救主,率隊(duì)逼平馬略卡,避免西甲2連敗

凌空倒鉤
2025-12-20 05:57:28
爆冷!最后5秒,喬治抱住身旁的阿努諾比,賽后布倫森抱住馬克西

爆冷!最后5秒,喬治抱住身旁的阿努諾比,賽后布倫森抱住馬克西

擔(dān)酒
2025-12-20 10:53:51
真實(shí)的陶淵明:晚年為生存乞討,5個(gè)兒子無一成才,63歲活活餓死

真實(shí)的陶淵明:晚年為生存乞討,5個(gè)兒子無一成才,63歲活活餓死

玥來玥好講故事
2025-12-10 20:33:51
央企“最牛女副處長(zhǎng)”落馬:兩年與上司開房410次,細(xì)節(jié)曝光

央企“最牛女副處長(zhǎng)”落馬:兩年與上司開房410次,細(xì)節(jié)曝光

西門老爹
2025-12-16 15:35:31
凡是"換手率"出現(xiàn)這種特征,馬上清倉(cāng)逃跑,精準(zhǔn)預(yù)判主力資金出逃

凡是"換手率"出現(xiàn)這種特征,馬上清倉(cāng)逃跑,精準(zhǔn)預(yù)判主力資金出逃

一方聊市
2025-12-01 14:26:34
16勝0負(fù)!又登頂聯(lián)盟第一,艾頓影響力真大,湖人獲雙倍回報(bào)

16勝0負(fù)!又登頂聯(lián)盟第一,艾頓影響力真大,湖人獲雙倍回報(bào)

巴叔GO聊體育
2025-12-20 07:57:37
天津某醫(yī)院護(hù)士被偷拍后續(xù):視頻出現(xiàn)在不雅網(wǎng)站,原來有內(nèi)鬼

天津某醫(yī)院護(hù)士被偷拍后續(xù):視頻出現(xiàn)在不雅網(wǎng)站,原來有內(nèi)鬼

奇思妙想草葉君
2025-12-19 22:28:42
2025-12-20 12:20:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142514關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

牛彈琴:歐洲最后還是慫了 最打臉的就是馮德萊恩

頭條要聞

牛彈琴:歐洲最后還是慫了 最打臉的就是馮德萊恩

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

戚薇女兒大變樣,10歲就進(jìn)入“尷尬期”

財(cái)經(jīng)要聞

日本加息落地:暴跌沒有,麻煩在后頭

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測(cè)試 已完成11萬公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

藝術(shù)
本地
游戲
手機(jī)
公開課

藝術(shù)要聞

Grigorieva Klimova:紛繁輕盈的色彩

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

《阿凡達(dá):潘多拉邊境》新資料片《浴火重生》發(fā)布

手機(jī)要聞

三星Galaxy XR頭顯被拆解:全用十字螺絲、更換主板較輕松

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版