英偉達(dá)成為唯一能免費提供AI模型的廠商

2025-12-18 22:38:07　來源: 至頂頭條

北京舉報

分享至

一個從太空乘彗星來到地球的外星人俯視下來，會發(fā)現(xiàn)這里有一家極具影響力和知名度的軟件公司叫做英偉達(dá)，而這家公司恰巧擁有一個極其復(fù)雜且利潤豐厚的硬件業(yè)務(wù)，運營著由其約4萬名員工中四分之三創(chuàng)建的專有和開源軟件集合。

因此，我們一點也不驚訝的是，隨著專有模型制造商——OpenAI、Anthropic和谷歌這些巨頭——繼續(xù)崛起并加劇競爭，不僅Meta Platforms正在考慮轉(zhuǎn)向名為Avocado的封閉模型（畢竟開源的Llama 4模型已成過去），英偉達(dá)還在其Nemotron開源模型上加倍投入。

道理很簡單。英偉達(dá)可以以成本價獲得任何規(guī)模的AI集群來進(jìn)行AI訓(xùn)練，而憑借其利潤豐厚的AI硬件業(yè)務(wù)，英偉達(dá)是唯一能夠免費提供模型并對其AI Enterprise軟件棧收取極少費用的公司，該軟件棧擁有支持各種AI和HPC模型的庫。（每個GPU每年收費4500美元，相對于"Blackwell"系列價格在35000到45000美元之間的GPU加速器來說相當(dāng)便宜，具體取決于采購量和型號。）

從某種意義上說，這是回歸到六十年前IBM System/360大型機(jī)早期銷售硬件和軟件的方式，那次計算機(jī)商業(yè)化的第二次浪潮拓寬了計算和數(shù)據(jù)存儲的應(yīng)用范圍。那時，你購買一臺非常昂貴的大型機(jī)系統(tǒng)，它會配備一隊穿藍(lán)色西裝的技術(shù)人員免費幫你編程。多年來，企業(yè)開始自己掌控應(yīng)用軟件開發(fā)或向第三方購買，而IBM則通過其全球服務(wù)巨頭將客戶服務(wù)轉(zhuǎn)變?yōu)槔麧欀行摹?/p>

我們認(rèn)為，這最終將成為英偉達(dá)的發(fā)展軌跡，它將追求全棧整合（包括數(shù)據(jù)中心），以及從芯片到軟件棧最高層的垂直整合。英偉達(dá)甚至可能最終成為真正意義上的AI基礎(chǔ)設(shè)施提供商。（基礎(chǔ)設(shè)施是比云更好的詞，云是一個模糊的術(shù)語，而且是故意模糊的。）

英偉達(dá)在開源AI模型方面并不陌生，顯然它一直參與運行幾乎所有創(chuàng)建過的開源AI模型，以及那些已成為家喻戶曉的封閉模型，如谷歌Gemini、Anthropic Claude和OpenAI GPT。在Nemotron 3發(fā)布前的預(yù)先簡報中，英偉達(dá)企業(yè)生成式AI軟件副總裁Kari Briski表示，在過去兩年半中，大約有3.5億次開源AI框架和模型被下載，Hugging Face倉庫擁有超過280萬個開源模型，涵蓋各種變體以創(chuàng)建特定用例的模型，約60%的公司正在使用開源AI模型和工具。Briski補(bǔ)充說，2025年英偉達(dá)是Hugging Face上開源內(nèi)容的最大貢獻(xiàn)者，發(fā)布了650個開源模型和250個開源數(shù)據(jù)集。

英偉達(dá)從2019年宣布的自研transformer模型Megatron-LM開始起步。Megatron-LM可以針對80億參數(shù)進(jìn)行訓(xùn)練，并在512個GPU加速器上進(jìn)行（使用8路GPU節(jié)點進(jìn)行模型并行，64個這樣的節(jié)點進(jìn)行數(shù)據(jù)并行）。2021年，通過與微軟的合作，Megatron擴(kuò)展到5300億參數(shù)，推出Megatron-Turing NLG。神經(jīng)模塊（簡稱NeMo）工具包與最初的Megatron-LM模型同時發(fā)布，Nemotron模型就是使用該工具包及其相關(guān)庫構(gòu)建的。

最初的Nemotron模型被稱為Nemotron-4，這讓我們都感到困惑，它們于2024年6月發(fā)布，涵蓋3400億參數(shù)。通過Nemotron 1模型，英偉達(dá)將Llama 3.1基礎(chǔ)模型與Nemotron推理技術(shù)結(jié)合，創(chuàng)建了Llama Nemotron，涵蓋80億、490億、700億和2350億參數(shù)規(guī)模。

今年早些時候發(fā)布的Nemotron 2 Nano擁有90億和120億參數(shù)兩個變體，英偉達(dá)采用了谷歌在2017年6月開創(chuàng)并在2018年10月通過其BERT模型實現(xiàn)的transformer方法，并將其與卡內(nèi)基梅隆大學(xué)和普林斯頓大學(xué)研究人員開發(fā)的Mamba選擇性狀態(tài)空間方法交織在一起。前者擅長從大量數(shù)據(jù)中提取特征和依賴關(guān)系，后者非常擅長聚焦于較小的數(shù)據(jù)子集及其依賴關(guān)系。

本周發(fā)布的Nemotron 3，英偉達(dá)創(chuàng)建了一個混合專家（MoE）架構(gòu)，旨在驅(qū)動多智能體系統(tǒng)，這建立在混合Mamba-Transformer架構(gòu)之上。Briski表示，結(jié)果是通過混合架構(gòu)提高了推理效率。

"混合Mamba-Transformer架構(gòu)運行速度快幾倍，內(nèi)存占用更少，因為它避免了為每個Token生成龐大的注意力映射和鍵值緩存，"Briski解釋道。"因此該架構(gòu)真正減少了內(nèi)存占用，這使你可以擁有更多專家。我們將在Super和Ultra版本中引入一項名為潛在專家混合的突破。模型中的所有這些專家共享一個公共核心，只保留一小部分私有內(nèi)容。這就像廚師共享一個大廚房，但他們可以使用自己的香料架。因此，通過這種潛在MoE，Super和Ultra將獲得更高的內(nèi)存效率。"

Nemotron 3系列目前有三個成員，Briski在那里提到了其中兩個的名稱。

Nemotron 3系列很可能隨著時間推移擴(kuò)展到更大和更小的模型。與其他MoE模型一樣，模型訓(xùn)練有一個總參數(shù)量，然后在微調(diào)或進(jìn)行推理時可以激活較小的參數(shù)子集。Nemotron 3 Nano擁有300億參數(shù)，任何時候激活30億，專門設(shè)計為可以在單個英偉達(dá)L40S GPU推理加速器上運行。Super變體有1000億參數(shù)，一次最多激活100億，Ultra版本有5000億參數(shù)，任何時候激活500億。

Briski表示，Nemotron 2 Nano和Nemotron 3模型之間的模型微調(diào)方式不同。Nemotron 2 Nano有大量監(jiān)督學(xué)習(xí)——意味著人們糾正模型的輸出并將其反饋到模型中——以及少量強(qiáng)化學(xué)習(xí)——模型在使用過程中自我學(xué)習(xí)，但Nemotron 3有大量強(qiáng)化學(xué)習(xí)。Nemotron 3模型嚴(yán)重依賴強(qiáng)化學(xué)習(xí)，還增加了最多100萬Token的上下文窗口。

英偉達(dá)有一篇技術(shù)博客詳細(xì)解釋了Nemotron 3模型的一些細(xì)節(jié)，但要點是Mamba在捕捉長程依賴關(guān)系的同時減少了內(nèi)存使用，transformer層具有處理復(fù)雜規(guī)劃和推理的注意力算法，MoE方法允許模型實際上很大但僅在必要時激活（這是谷歌在BERT之后的PaLM模型中發(fā)明的方法）。

Super和Ultra版本中的潛在MoE功能允許在模型層之間添加中間表示層，在執(zhí)行Token處理時可以共享，從而允許調(diào)用4倍數(shù)量的專家，同時提供相同的推理性能。更多專家意味著更好的答案和更高的智能。Nemotron 3具有多Token預(yù)測功能，這是AI模型的一種推測執(zhí)行，Super和Ultra變體在英偉達(dá)的NVFP4 4位數(shù)據(jù)精度下進(jìn)行了預(yù)訓(xùn)練，以提高推理的有效吞吐量。這項訓(xùn)練是在25萬億Token的預(yù)訓(xùn)練數(shù)據(jù)集上完成的。（尚不清楚英偉達(dá)是否向所有人開放此數(shù)據(jù)集——或者它是否能夠這樣做。）

那么Nemotron 3的表現(xiàn)如何？讓我們看看Artificial Analysis，這是目前的AI基準(zhǔn)測試。到目前為止，只有Nemotron 3 Nano 30B/3B可用，以下是它在推理工作負(fù)載的每秒輸出Token數(shù)方面的表現(xiàn)：

與Nemotron 2模型相比，這是一個巨大的性能提升。不激活整個模型顯然對MoE有幫助，這在某種程度上是設(shè)計規(guī)范。

以下是Nemotron 3 Nano 30B/3B在模型準(zhǔn)確性（智能，Y軸）與Token吞吐量（X軸）對比時的表現(xiàn)：

你希望在這個圖表上向右上方移動。

最后，以下是Nemotron 3 Nano與開放性指數(shù)（你的模型有多開放）的比較——在Y軸上繪制開放性指數(shù)，在X軸上繪制智能（答案的正確性）：

有趣的是，Nemotron 3模型是否能從英偉達(dá)獲得技術(shù)支持訂閱，無論是作為AI Enterprise堆棧的一部分還是單獨提供。如果英偉達(dá)提供支持，它不必收費很多，只需足以覆蓋其模型開發(fā)成本，以削弱越來越封閉的AI模型制造商。

Q&A

Q1：為什么英偉達(dá)能夠免費提供AI模型？

A：英偉達(dá)可以以成本價獲得任何規(guī)模的AI集群來進(jìn)行AI訓(xùn)練，而憑借其利潤豐厚的AI硬件業(yè)務(wù)，英偉達(dá)是唯一能夠免費提供模型并對其AI Enterprise軟件棧收取極少費用的公司。每個GPU每年僅收費4500美元，相對于價格在35000到45000美元之間的GPU加速器來說相當(dāng)便宜。這使得英偉達(dá)能夠通過硬件利潤補(bǔ)貼模型開發(fā)成本。

Q2：Nemotron 3模型有哪些版本和參數(shù)規(guī)模？

A：Nemotron 3系列目前有三個成員。Nano版本擁有300億參數(shù)，任何時候激活30億，專門設(shè)計為可以在單個英偉達(dá)L40S GPU推理加速器上運行。Super變體有1000億參數(shù)，一次最多激活100億。Ultra版本有5000億參數(shù)，任何時候激活500億。這些版本采用混合專家架構(gòu)，只在需要時激活部分參數(shù)以提高效率。

Q3：Nemotron 3模型采用了哪些技術(shù)創(chuàng)新？

A：Nemotron 3采用了混合Mamba-Transformer架構(gòu)，Mamba在捕捉長程依賴關(guān)系的同時減少內(nèi)存使用，transformer層處理復(fù)雜規(guī)劃和推理。它采用混合專家架構(gòu)，模型實際上很大但僅在必要時激活。Super和Ultra版本引入了潛在專家混合技術(shù)，允許所有專家共享公共核心，從而實現(xiàn)更高的內(nèi)存效率。模型嚴(yán)重依賴強(qiáng)化學(xué)習(xí)，并提供最多100萬Token的上下文窗口。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.