国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

英偉達(dá)發(fā)力了,新模型在 OpenClaw 成功率排行榜殺進(jìn)前五,目前免費(fèi)用

0
分享至

我之前的文章,測(cè)試 N 多開源模型,尤其是本地部署系列,評(píng)論區(qū)永遠(yuǎn)有一個(gè)高頻問題:能不能接入 OpenClaw(小龍蝦)?

大多數(shù)其實(shí)都不行,理由也很簡單——模型能力不足是最核心、最致命的短板。Agent 的自動(dòng)化、工具調(diào)用、多步驟任務(wù)執(zhí)行能力,全都建立在大模型的基礎(chǔ)能力之上。模型不行,Agent 就是個(gè)花瓶。

打開 PinchBench 排行榜()就知道了,排在前面的清一色是旗艦閉源模型。你用一個(gè)小模型跑 Agent,和用筷子喝湯差不多,工具不對(duì)。

最近英偉達(dá)有個(gè)開源模型 Nemotron-3-Super 殺進(jìn) PinchBench 前五

直接看排行榜:


**85.6% 的成功率超越了 Claude Opus 4.5(85.4%),只比 GPT-5.4 低了 0.4 個(gè)百分點(diǎn)。

最關(guān)鍵的一點(diǎn):前五里面,它是唯一的開源模型。另外四個(gè)全是 Anthropic 和 OpenAI 的閉源旗艦,都是拿錢砸出來的。

而且,它這個(gè)數(shù)據(jù)還是被CREATIVE脫了后腿的,它沒有文生圖的能力



  • BasicCalendar、CodingFile Ops都是100%

  • Data Analysis到了98%

  • Research90%

  • Comprehension91%

  • Organization89%

  • Creativity只有18%

  • Memory甚至只有0%

  • Context這一項(xiàng)也只有70%

這模型的強(qiáng)項(xiàng)非常像一個(gè)“干活型” Agent 大腦:寫腳本、改文件、跑流程、處理任務(wù),確實(shí)強(qiáng);但你要它靠長期上下文記憶、或者靠創(chuàng)意型表達(dá)去吃分,它就沒那么驚艷。

換句話說,它更像一個(gè)靠譜的工程經(jīng)理加執(zhí)行助手,不太像一個(gè)文藝青年。

PinchBench 測(cè)的是什么?

可能有同學(xué)不了解這個(gè)榜單。

簡單說,PinchBench 測(cè)的是模型驅(qū)動(dòng) AI Coding Agent 執(zhí)行真實(shí)編碼任務(wù)的能力。不是做選擇題,不是寫作文,而是:

  • 文件讀寫操作

  • 代碼修改和重構(gòu)

  • 工具調(diào)用和 API 交互

  • 多步驟復(fù)雜任務(wù)

  • 出錯(cuò)后的自我修復(fù)

這些恰恰是 OpenClaw 這類 AI Coding Agent 的核心能力。所以 PinchBench 的排名非常實(shí)在——它基本決定了模型驅(qū)動(dòng) Agent 的實(shí)際表現(xiàn)。

這也是為什么我之前一直說:與小龍蝦最搭配的大模型,大多都是旗艦?zāi)P汀?/p>

這貨憑什么這么強(qiáng)?

先上硬參數(shù):

指標(biāo)

數(shù)值

總參數(shù)量

120B

激活參數(shù)量

僅 12B

架構(gòu)

LatentMoE(Mamba-2 + MoE + Attention 混合)

上下文窗口

1M tokens

最低 GPU 需求

1× B200-80GB 或 1× DGX Spark

推理模式

支持推理開/關(guān)(enable_thinking=True/False

量化精度

NVFP4(訓(xùn)練即量化,不是后量化)

Nemotron 3 Super 120B A12B 不是“窮人版 Opus”,它更像是 NVIDIA 親自下場(chǎng),給 Agent 賽道遞了一張旗艦級(jí)入場(chǎng)券。

架構(gòu)設(shè)計(jì)有點(diǎn)東西

Nemotron-3-Super 不是傳統(tǒng)的純 Transformer,而是一個(gè)三合一混合體:

Mamba-2(狀態(tài)空間模型):擅長處理長序列,線性復(fù)雜度。這也是它能支持 1M 上下文的關(guān)鍵——傳統(tǒng) Transformer 的注意力機(jī)制在超長序列上會(huì)被二次復(fù)雜度卡死。

MoE(混合專家):120B 參數(shù)里每次只激活 12B。用的是 LatentMoE,先把 token 投射到更小的潛在維度做路由,精度更高、開銷更低。

Attention 層:在關(guān)鍵位置保留注意力機(jī)制,保證關(guān)鍵信息不丟。

三者配合,NVIDIA 管這叫 LatentMoE 架構(gòu)。又快又準(zhǔn)。

還有一個(gè)彩蛋:Multi-Token Prediction(MTP)。模型訓(xùn)練時(shí)不只預(yù)測(cè)下一個(gè) token,而是同時(shí)預(yù)測(cè)后面好幾個(gè) token。推理的時(shí)候可以做 speculative decoding,生成速度直接起飛。

NVFP4 量化,幾乎零損失,畢竟就是英偉達(dá)獨(dú)創(chuàng)的

下面這張圖是官方的基準(zhǔn)對(duì)比:


Nemotron-3-Super 基準(zhǔn)精度對(duì)比圖

基準(zhǔn)

BF16 原版

FP8

NVFP4

MMLU-Pro

HMMT Feb25(含工具)

GPQA(無工具)

LiveCodeBench v6

IFBench

Arena-Hard-V2

RULER-500 @128k

有意思吧?NVFP4 版本在 HMMT、GPQA、IFBench 上甚至反超了 BF16 原版。這不是傳統(tǒng)的"訓(xùn)完再量化",而是訓(xùn)練的時(shí)候就在 FP4 精度下跑,模型天然適配低精度推理。

這才是真正的實(shí)用主義工程——精度不丟,顯存還省。

訓(xùn)練方法論:這次是真開源

NVIDIA 這次把"開源"兩個(gè)字做到了實(shí)處:

  • 預(yù)訓(xùn)練數(shù)據(jù):25T+ tokens,全部公開(Nemotron Pre-Training Datasets)

  • 后訓(xùn)練數(shù)據(jù):SFT + RL 數(shù)據(jù)集,全部公開(Nemotron Post-Training v3)

  • 訓(xùn)練配方:完整訓(xùn)練腳本在 GitHub 上

  • 評(píng)估工具:NeMo Evaluator SDK,可以復(fù)現(xiàn)所有 benchmark 結(jié)果

  • RL 環(huán)境:NeMo Gym,異步 GRPO 多環(huán)境強(qiáng)化學(xué)習(xí)

訓(xùn)練三大階段:預(yù)訓(xùn)練 → SFT(合成代碼、工具調(diào)用、指令跟隨等) → RL(數(shù)學(xué)、代碼、科學(xué)、工具使用等多環(huán)境 GRPO)。

怎么體驗(yàn)?

方式一:NVIDIA API(最快上手)

直接去build.nvidia.com注冊(cè),免費(fèi)額度直接用。

在線對(duì)話體驗(yàn),零門檻。



方式二:OpenRouter 等第三方 API

很多 API 平臺(tái)已經(jīng)上架了。但是要注意:PinchBench 上免費(fèi)版nemotron-3-super-120b-a12b:free只拿了 75.0%,和付費(fèi)版 85.6% 差了超過 10 個(gè)百分點(diǎn)。省錢和效果之間,得想清楚。

方式三:本地部署(硬核玩家)

支持 vLLM 和 SGLang,單卡 B200-80GB 即可運(yùn)行:

# vLLM 部署
vllm serve $MODEL_CKPT \
--async-scheduling \
--served-model-name nvidia/nemotron-3-super \
--dtype auto \
--kv-cache-dtype fp8 \
--tensor-parallel-size 1 \
--trust-remote-code \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser-plugin "./super_v3_reasoning_parser.py" \
--reasoning-parser super_v3

推理參數(shù)官方建議:temperature=1.0,top_p=0.95,所有場(chǎng)景通用。

部署后暴露的是 OpenAI 兼容 API,可以直接接入 OpenCode 等終端 Agent:

{
"model": "local/nvidia-nemotron-3-super",
"provider": {
"local": {
"npm": "@ai-sdk/openai-compatible",
"options": {
"baseURL": "http://localhost:8000/v1",
"apiKey": "EMPTY"
}
}
}
}
HuggingFace 模型頁(含完整部署指南):https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

說完好的,說說現(xiàn)實(shí)問題:

GPU 門檻還是高。B200-80GB 不是消費(fèi)級(jí)顯卡,你的 4090 跑不了,或許可以等等Unsloth對(duì)極致量化版。DGX Spark 是 NVIDIA 推的桌面方案,但價(jià)格也不便宜。對(duì)大多數(shù)個(gè)人開發(fā)者來說,API 調(diào)用更現(xiàn)實(shí)。

Benchmark ≠ 實(shí)戰(zhàn)。PinchBench 85.6% 很好看,但實(shí)際項(xiàng)目中的復(fù)雜度、特定語言框架支持、長時(shí)間多輪對(duì)話的穩(wěn)定性,都得實(shí)測(cè)才知道。

開源 Agent 模型的格局正在變

Qwen 3.5-122B-A10B 也值得關(guān)注——同樣是 MoE 架構(gòu),122B 總參數(shù) / 10B 激活,和 Nemotron 思路非常接近。兩家不約而同選了 100B+ 總參數(shù)、10B 級(jí)別激活的 MoE 路線,這不是巧合。

MoE + 混合架構(gòu)正在成為開源 Agent 模型的主流技術(shù)路線。用小激活量撬動(dòng)大參數(shù)量,在效率和能力之間找到一個(gè)甜點(diǎn)。

制作不易,如果這篇文章覺得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見!


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗宣布對(duì)所有商船開放霍爾木茲海峽,美維持對(duì)伊海上封鎖,伊朗議長:特朗普7項(xiàng)聲明“均不屬實(shí)”

伊朗宣布對(duì)所有商船開放霍爾木茲海峽,美維持對(duì)伊海上封鎖,伊朗議長:特朗普7項(xiàng)聲明“均不屬實(shí)”

縱相新聞
2026-04-18 12:36:03
突然“值錢了”!不少人家里都有,專家提醒:別賣!

突然“值錢了”!不少人家里都有,專家提醒:別賣!

劉哥談體育
2026-04-19 21:40:06
王偉中對(duì)俄羅斯后貝加爾邊疆區(qū)交通事故作出批示

王偉中對(duì)俄羅斯后貝加爾邊疆區(qū)交通事故作出批示

澎湃新聞
2026-04-19 13:55:05
不裝了賴清德、馬英九暴露真面目!國民黨發(fā)甲級(jí)動(dòng)員,想決一死戰(zhàn)

不裝了賴清德、馬英九暴露真面目!國民黨發(fā)甲級(jí)動(dòng)員,想決一死戰(zhàn)

青梅侃史啊
2026-04-19 19:17:48
中小學(xué)生上課時(shí)間大調(diào)整:9點(diǎn)上課或成新規(guī),周六上課引家長熱議

中小學(xué)生上課時(shí)間大調(diào)整:9點(diǎn)上課或成新規(guī),周六上課引家長熱議

復(fù)轉(zhuǎn)這些年
2026-04-18 12:47:43
美國全世界逛一圈才發(fā)現(xiàn),自己扶持所有小弟里,最能打的還是老蔣

美國全世界逛一圈才發(fā)現(xiàn),自己扶持所有小弟里,最能打的還是老蔣

呼呼體壇
2026-04-19 18:26:54
局勢(shì)生變,全球接到消息,美軍全部撤離,所有軍事基地被敘國接管

局勢(shì)生變,全球接到消息,美軍全部撤離,所有軍事基地被敘國接管

聞識(shí)
2026-04-19 21:08:29
美國證實(shí)!伊朗最高領(lǐng)袖“已受傷但仍活著”,伊朗方面此前稱穆杰塔巴·哈梅內(nèi)伊身體健康 ,但因戰(zhàn)爭推遲公開露面

美國證實(shí)!伊朗最高領(lǐng)袖“已受傷但仍活著”,伊朗方面此前稱穆杰塔巴·哈梅內(nèi)伊身體健康 ,但因戰(zhàn)爭推遲公開露面

每日經(jīng)濟(jì)新聞
2026-04-16 23:06:57
曼城羅德里傷病令人擔(dān)憂,瓜迪奧拉給出更新

曼城羅德里傷病令人擔(dān)憂,瓜迪奧拉給出更新

綠茵情報(bào)局
2026-04-20 04:22:15
研究表明,中學(xué)生的抑郁率已高達(dá)36%!

研究表明,中學(xué)生的抑郁率已高達(dá)36%!

黯泉
2026-04-18 18:06:01
《八千里路云和月》朱管家想不到,算計(jì)田家泰家業(yè),卻成全了萬福

《八千里路云和月》朱管家想不到,算計(jì)田家泰家業(yè),卻成全了萬福

白淺娛樂聊
2026-04-19 12:37:15
難怪能成為大明星,小時(shí)候居然這么漂亮!大家看出來她是誰了嗎?

難怪能成為大明星,小時(shí)候居然這么漂亮!大家看出來她是誰了嗎?

阿廢冷眼觀察所
2026-04-19 22:13:42
國產(chǎn)光纖全球“爆單”:部分產(chǎn)品價(jià)格暴漲650%

國產(chǎn)光纖全球“爆單”:部分產(chǎn)品價(jià)格暴漲650%

環(huán)球網(wǎng)資訊
2026-04-19 11:16:14
身材纖細(xì)、體態(tài)修長的日本業(yè)界骨感美人·TOP10

身材纖細(xì)、體態(tài)修長的日本業(yè)界骨感美人·TOP10

吃瓜黨二號(hào)頭目
2026-04-19 09:58:57
神替補(bǔ)!桑喬兩次送禮,鴨脖救主,維拉先被絕平又反絕殺,太刺激

神替補(bǔ)!桑喬兩次送禮,鴨脖救主,維拉先被絕平又反絕殺,太刺激

硬腿子聊個(gè)球
2026-04-19 22:58:51
真給力!5月1日起,65歲老人坐公交全省都免費(fèi) 福建老人幸福感拉滿

真給力!5月1日起,65歲老人坐公交全省都免費(fèi) 福建老人幸福感拉滿

今日搞笑分享
2026-04-19 16:37:15
第一次對(duì)「鋁箔紙」產(chǎn)生了敬意!以為烘焙專用,沒想到是家居神器

第一次對(duì)「鋁箔紙」產(chǎn)生了敬意!以為烘焙專用,沒想到是家居神器

裝修秀
2026-04-18 11:55:03
莫蘭特灰熊時(shí)代終章:從天之驕子到無人問津的墜落

莫蘭特灰熊時(shí)代終章:從天之驕子到無人問津的墜落

漫川舟船
2026-04-19 15:03:30
打蛇打七寸!中國全面斷供開始,日本多行業(yè)停擺,高市真慌了

打蛇打七寸!中國全面斷供開始,日本多行業(yè)停擺,高市真慌了

有你便是晴天呢
2026-04-19 09:27:13
吃相太難看!莫氏雞煲爆火后,惡心一幕出現(xiàn),終走上呆呆妹的老路

吃相太難看!莫氏雞煲爆火后,惡心一幕出現(xiàn),終走上呆呆妹的老路

以茶帶書
2026-04-15 17:30:12
2026-04-20 07:12:49
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3334文章數(shù) 11137關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

親子
家居
本地
數(shù)碼
公開課

親子要聞

孩子總打噴嚏、起疹子,時(shí)過敏嗎?

家居要聞

法式線條 時(shí)光靜淌

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

數(shù)碼要聞

華為新機(jī)發(fā)布前瞻:闊折疊X Max+影像旗艦Pura 90,都沒懸念了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版