英偉達(dá)是唯一能負(fù)擔(dān)免費提供AI模型的廠商

2025-12-17 16:46:05　來源: 至頂頭條

北京舉報

分享至

如果有外星人乘坐彗星從太空飛來俯視地球，會看到這樣一個現(xiàn)象：有一家極具影響力和知名度的軟件公司叫英偉達(dá)，它恰好擁有一個極其復(fù)雜且盈利豐厚的硬件業(yè)務(wù)，運行著大約四萬名員工中約四分之三人員負(fù)責(zé)的專有和開源軟件集合。

因此，我們一點也不意外地看到，隨著專有模型制造商——OpenAI、Anthropic和谷歌是其中的大玩家——繼續(xù)崛起并加劇競爭，不僅Meta平臺正在考慮轉(zhuǎn)向名為Avocado的封閉模型（開源的Llama 4模型終究要完蛋），英偉達(dá)也在加倍投入其Nemotron開源模型。

道理很簡單。英偉達(dá)可以以成本價獲得進(jìn)行AI訓(xùn)練所需的任何規(guī)模的AI集群，鑒于其AI硬件業(yè)務(wù)的巨額利潤，英偉達(dá)是唯一能夠負(fù)擔(dān)免費提供模型并對其AI Enterprise軟件堆棧收費很少的公司，該軟件堆棧擁有支持各種AI和高性能計算模型的庫。（每個GPU每年4500美元，相對于"Blackwell"系列中根據(jù)批量和型號可能花費3.5萬到4.5萬美元的GPU加速器來說是相對便宜的。）

從某種意義上說，這是回到了IBM System/360大型機(jī)早期硬件和軟件銷售方式，六十年前的第二波計算機(jī)商業(yè)化浪潮中，這種方式擴(kuò)大了計算和數(shù)據(jù)存儲的使用。那時，你購買一個非常昂貴的大型機(jī)系統(tǒng)，它配備一隊穿藍(lán)色西裝的技術(shù)人員，會免費幫助你編程。多年來，公司開始控制開發(fā)自己的應(yīng)用軟件或向第三方尋求軟件，IBM藍(lán)色巨人通過其全球服務(wù)巨頭將客戶服務(wù)轉(zhuǎn)變?yōu)橛行摹?/p>

我們認(rèn)為，這最終將是英偉達(dá)的發(fā)展軌跡，因為它追求全堆棧集成（包括數(shù)據(jù)中心），以及從芯片到軟件堆棧最高層的垂直集成。英偉達(dá)甚至可能最終成為自己的AI公用事業(yè)。（公用事業(yè)是比云更好的詞匯，云是一個模糊的術(shù)語，而且是故意模糊的。）

英偉達(dá)在開源AI模型方面并不是新手，顯然一直參與運行幾乎所有創(chuàng)建的開源AI模型，以及已成為家喻戶曉名字的封閉模型，如谷歌Gemini、Anthropic Claude和OpenAI GPT。在Nemotron 3發(fā)布前的簡報會上，英偉達(dá)企業(yè)生成式AI軟件副總裁Kari Briski表示，在過去兩年半中，大約下載了3.5億個開源AI框架和模型，Hugging Face存儲庫擁有超過280萬個開放模型，涵蓋各種變體以為特定用例創(chuàng)建模型，約60%的公司正在使用開源AI模型和工具。Briski補(bǔ)充說，2025年英偉達(dá)是Hugging Face上開源內(nèi)容的最大貢獻(xiàn)者，發(fā)布了650個開放模型和250個開放數(shù)據(jù)集。

英偉達(dá)通過自主開發(fā)的Transformer模型Megatron-LM起步，該模型于2019年發(fā)布。Megatron-LM可以訓(xùn)練80億個參數(shù)，并在512個GPU加速器上進(jìn)行訓(xùn)練（使用8路GPU節(jié)點進(jìn)行模型并行，64個這樣的節(jié)點進(jìn)行數(shù)據(jù)并行）。2021年，通過與微軟的合作，Megatron擴(kuò)展到5300億個參數(shù)，形成了Megatron-Turing NLG。神經(jīng)模塊工具包（簡稱NeMo）與原始Megatron-LM模型同時發(fā)布，Nemotron模型就是使用這個工具包及其相關(guān)庫構(gòu)建的。

最初的Nemotron模型被稱為Nemotron-4，這讓我們都感到困惑，它們于2024年6月發(fā)布，跨越3400億個參數(shù)。通過Nemotron 1模型，英偉達(dá)將Llama 3.1基礎(chǔ)模型與Nemotron推理技術(shù)結(jié)合，創(chuàng)建了Llama Nemotron，跨越80億、490億、700億和2350億參數(shù)規(guī)模。

今年早些時候發(fā)布的Nemotron 2 Nano具有90億和120億參數(shù)的變體，英偉達(dá)采用了谷歌在2017年6月率先提出并在2018年10月通過其BERT模型實現(xiàn)的Transformer方法，并將其與卡內(nèi)基梅隆大學(xué)和普林斯頓大學(xué)研究人員開發(fā)的Mamba選擇性狀態(tài)空間方法交織在一起。前者擅長從大量數(shù)據(jù)中提取特征和依賴關(guān)系，后者非常善于聚焦于較小的數(shù)據(jù)子集及其依賴關(guān)系。

本周發(fā)布的Nemotron 3，英偉達(dá)正在創(chuàng)建一個混合專家（MoE）架構(gòu)，旨在驅(qū)動基于這種混合Mamba-Transformer架構(gòu)的多智能體系統(tǒng)。Briski說，結(jié)果是由于混合架構(gòu)而提高了推理效率。

"混合Mamba-Transformer架構(gòu)運行速度快幾倍，內(nèi)存使用更少，因為它避免了每個Token的巨大注意力圖和鍵值緩存，"Briski解釋說。"所以這種架構(gòu)真正減少了內(nèi)存占用，讓你可以擁有更多專家。我們將在Super和Ultra版本中引入一個叫做潛在專家混合的突破。模型中的所有這些專家共享一個公共核心，只保留一小部分私有。這就像廚師共享一個大廚房，但他們可以使用自己的調(diào)料架。所以你將通過這種潛在MoE在Super和Ultra版本中獲得更高的內(nèi)存效率。"

Nemotron 3家族目前有三個成員，其中兩個Briski在那里提到了名字。

Nemotron 3家族很可能隨著時間推移擴(kuò)展到更大和更小的模型。像其他MoE模型一樣，有一個模型訓(xùn)練的參數(shù)總量，然后有一個較小的參數(shù)子集可以在微調(diào)或進(jìn)行推理時激活。Nemotron 3 Nano有300億個參數(shù)，任何時候激活30億個，專門設(shè)計為可以在單個英偉達(dá)L40S GPU推理加速器上運行。Super變體有1000億個參數(shù)，一次最多激活100億個，Ultra版本有5000億個參數(shù)，任何給定時間激活500億個。

Briski表示，模型的微調(diào)在Nemotron 2 Nano和Nemotron 3模型之間是不同的。Nemotron 2 Nano有大量監(jiān)督學(xué)習(xí)——意味著人們糾正模型的輸出并將其反饋給模型——以及一點強(qiáng)化學(xué)習(xí)——模型在使用時自我學(xué)習(xí)，但Nemotron 3有大量強(qiáng)化學(xué)習(xí)。Nemotron 3模型嚴(yán)重依賴強(qiáng)化學(xué)習(xí)，還添加了高達(dá)100萬Token的上下文窗口。

英偉達(dá)有一個技術(shù)博客解釋了Nemotron 3模型的一些要點，但要點是Mamba在捕獲長距離依賴的同時減少了內(nèi)存使用，Transformer層具有處理復(fù)雜規(guī)劃和推理的注意力算法，MoE方法允許模型有效地變大但只在必要時激活（這是谷歌在BERT之后進(jìn)入該領(lǐng)域的PaLM模型發(fā)明的方法）。

即將在Super和Ultra版本中出現(xiàn)的潛在MoE特性允許在模型層之間添加中間表示層，可以在執(zhí)行Token處理時共享，這允許調(diào)用4倍數(shù)量的專家，同時提供相同的推理性能。更多專家意味著更好的答案和更高的智能。Nemotron 3具有多Token預(yù)測，這是AI模型的一種推測執(zhí)行，Super和Ultra變體已在英偉達(dá)的NVFP4 4位數(shù)據(jù)精度中進(jìn)行預(yù)訓(xùn)練，以提高推理的有效吞吐量。這種訓(xùn)練是在25萬億Token預(yù)訓(xùn)練數(shù)據(jù)集上完成的。（不清楚英偉達(dá)是否向所有人開放這個數(shù)據(jù)集——或者它是否能夠做到這一點。）

那么Nemotron 3表現(xiàn)如何？讓我們看看Artificial Analysis，這是目前的AI基準(zhǔn)。到目前為止，只有Nemotron 3 Nano 30B/3B可用，以下是它在推理工作負(fù)載的每秒輸出Token方面的評級：

與Nemotron 2模型相比，這是一個巨大的性能提升。不激活整個模型顯然對MoE有幫助，這有點像設(shè)計規(guī)范。

以下是當(dāng)您繪制模型準(zhǔn)確性（智能，Y軸）與Token吞吐量（X軸）時Nemotron 3 Nano 30B/3B的比較：

在這個圖表上，您希望位于右上方。

最后，以下是Nemotron 3 Nano與開放性指數(shù)的比較——您的模型有多開放——在Y軸上繪制，智能（答案正確性）在X軸上：

有趣的是，看看Nemotron 3模型是否能夠從英偉達(dá)獲得技術(shù)支持訂閱，無論是作為AI Enterprise堆棧的一部分還是單獨提供。如果英偉達(dá)提供支持，它不必收費很多，只需足夠覆蓋其模型開發(fā)成本，以削弱日益封閉的AI模型制造商。

Q&A

Q1：Nemotron 3相比之前版本有什么主要改進(jìn)？

A：Nemotron 3采用了混合Mamba-Transformer架構(gòu)，結(jié)合了專家混合（MoE）設(shè)計。這種架構(gòu)運行速度比之前版本快幾倍，內(nèi)存使用更少，因為避免了每個Token的巨大注意力圖和鍵值緩存。同時，Nemotron 3嚴(yán)重依賴強(qiáng)化學(xué)習(xí)，并支持高達(dá)100萬Token的上下文窗口，顯著提高了推理效率。

Q2：Nemotron 3家族包含哪些不同規(guī)模的模型？

A：Nemotron 3家族目前有三個成員：Nano版本有300億參數(shù)，任何時候激活30億個，可在單個英偉達(dá)L40S GPU上運行；Super變體有1000億參數(shù)，一次最多激活100億個；Ultra版本有5000億參數(shù)，任何時間激活500億個。這種專家混合架構(gòu)讓模型可以很大但只在必要時激活相應(yīng)部分。

Q3：英偉達(dá)為什么能負(fù)擔(dān)免費提供AI模型？

A：英偉達(dá)擁有極其盈利的AI硬件業(yè)務(wù)，可以以成本價獲得任何規(guī)模的AI訓(xùn)練集群。相比其他公司需要購買昂貴的GPU進(jìn)行訓(xùn)練，英偉達(dá)的硬件優(yōu)勢讓它成為唯一能夠負(fù)擔(dān)免費提供模型的廠商。它只需對AI Enterprise軟件堆棧收取相對較少的費用（每個GPU每年4500美元），就能覆蓋開發(fā)成本并削弱封閉模型競爭對手。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.