国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

一年后,DeepSeek-R1的每token成本降到了原來的1/32

0
分享至

編輯 | 杜偉、澤南

幾天前,DeepSeek 毫無預兆地更新了 R1 論文,將原有的 22 頁增加到了現(xiàn)在的 86 頁。

新版本充實了更多細節(jié)內(nèi)容,包括首次公開訓練全路徑,即從冷啟動、訓練導向 RL、拒絕采樣與再微調(diào)到全場景對齊 RL 的四階段 pipeline,以及「Aha Moment」的數(shù)據(jù)化驗證等等。



DeepSeek-R1 是在 2025 年 1 月 20 日發(fā)布的開源推理大模型,它擁有 6710 億參數(shù)、單 Token 激活參數(shù)為 370 億,并采用了 MoE 架構(gòu),訓練效率得到了顯著提升。

R1 在去年的推出震動了全球 AI 領域,其高效率的模型架構(gòu)、訓練方法、工程優(yōu)化和蒸餾方法在之后成為了全行業(yè)的趨勢。

沒想到在不到一年之后的今天,R1 模型的每 token 成本竟已降低了到了 1/32!

今天,英偉達發(fā)表了一篇長文博客,展示了其如何在 Blackwell GPU 上通過軟硬協(xié)同對 DeepSeek-R1 進一步降本增效。



隨著 AI 模型智能程度的不斷提升,人們開始依托 AI 處理日益復雜的任務。從普通消費者到大型企業(yè),用戶與 AI 交互的頻率顯著增加,這也意味著需要生成的 Token 數(shù)量呈指數(shù)級增長。為了以最低成本提供這些 Token,AI 平臺必須實現(xiàn)極高的每瓦特 Token 吞吐量。

通過在 GPU、CPU、網(wǎng)絡、軟件、供電及散熱方案上的深度協(xié)同設計,英偉達持續(xù)提升每瓦特 Token 吞吐量,從而有效降低了每百萬 Token 的成本。此外,英偉達不斷優(yōu)化其軟件棧,從現(xiàn)有平臺中挖掘更強的性能潛力。

那么,英偉達是怎樣協(xié)同利用運行在 Blackwell 架構(gòu)上的推理軟件棧,以實現(xiàn) DeepSeek-R1 在多種應用場景中的性能增益呢?我們接著往下看。

最新 NVIDIA TensorRT-LLM 軟件大幅提升推理性能

NVIDIA GB200 NVL72 是一個多節(jié)點液冷機架級擴展系統(tǒng),適用于高度密集型的工作負載。該系統(tǒng)通過第五代 NVIDIA NVLink 互連技術和 NVLink Switch 芯片連接了 72 個 NVIDIA Blackwell GPU,為機架內(nèi)的所有芯片提供高達 1800 GB/s 的雙向帶寬。

這種大規(guī)模的「擴展域」(Scale-up Domain)專為稀疏 MoE 架構(gòu)優(yōu)化,此類模型在生成 Token 時需要專家之間頻繁的數(shù)據(jù)交換。

Blackwell 架構(gòu)還加入了對 NVFP4 數(shù)據(jù)格式的硬件加速。這是英偉達設計的一種 4 位浮點格式,相比其他 FP4 格式能更好地保持精度。此外,解耦服務(Disaggregated Serving)這類優(yōu)化技術也充分利用了 NVL72 架構(gòu)和 NVLink Switch 技術。簡單來解釋一下解耦服務,即在一組 GPU 上執(zhí)行 Prefill(預填充)操作,在另一組 GPU 上執(zhí)行 Decode(解碼)操作。

這些架構(gòu)創(chuàng)新使得 NVIDIA GB200 NVL72 在運行 DeepSeek-R1 時,能夠提供行業(yè)領先的性能。

得益于最新 NVIDIA TensorRT-LLM 軟件和 GB200 NVL72 的協(xié)同,DeepSeek-R1 在 8K/1K 輸入 / 輸出序列長度下的 Token 吞吐量大幅提升。



同樣地,得益于最新 NVIDIA TensorRT-LLM 軟件與 GB200 NVL72 的協(xié)同,在 1K/1K 序列長度下,DeepSeek-R1 Token 吞吐量同樣大幅提升。



另外,在 8K/1K、1K/1K 兩種輸入 / 輸出序列長度的吞吐量與交互性曲線上,GB200 NVL72 也展現(xiàn)出了領先的單 GPU 吞吐能力。

而 TensorRT-LLM 開源庫(用于優(yōu)化 LLM 推理)的最新增強功能,在同一平臺上再次大幅增強了性能。在過去三個月中,每個 Blackwell GPU 的吞吐量提升高達 2.8 倍(這里指的是在 8k/1k 輸入 / 輸出序列長度下,去年 10 月到今年 1 月的 Token 吞吐量變化)。

這些優(yōu)化背后的核心技術包括:

  • 擴大 NVIDIA 程序化依賴啟動 (PDL) 的應用:降低核函數(shù)啟動延遲,有助于提升各種交互水平下的吞吐量;
  • 底層核函數(shù)優(yōu)化:更高效地利用 NVIDIA Blackwell Tensor Core;
  • 優(yōu)化的 All-to-all 通信原語:消除了接收端的額外中間緩沖區(qū)。

有業(yè)內(nèi)人士對英偉達放出的一系列圖表進行了直觀的解讀,用一組數(shù)據(jù)來總結(jié)就是,「通過軟硬件的深度協(xié)同,自 2025 年 1 月以來,英偉達已經(jīng)將 DeepSeek-R1 (671B) 的吞吐量提升了約 36 倍,這意味著單 Token 的推理成本降低到了約 1/32。」





利用多 token 預測和 NVFP4 技術加速 NVIDIA HGX B200 性能

NVIDIA HGX B200 平臺由八個采用第五代 NVLink 互連和 NVLink Switch 連接的 Blackwell GPU 組成,在風冷環(huán)境下也能實現(xiàn)強大的 DeepSeek-R1 推理性能。

兩項關鍵技術使 HGX B200 上的 DeepSeek-R1 推理性能大幅提升。第一項技術是使用多 token 預測 (MTP),它可以顯著提高各種交互級別下的吞吐量。在所有三種測試的輸入 / 輸出序列組合中都觀察到了這一現(xiàn)象。



在 HGX B200 平臺上,使用 1K/1K 序列長度和聚合服務模式下,F(xiàn)P8(不帶 MTP)、FP8(帶 MTP)和 NVFP4(帶 MTP)的吞吐量與交互性曲線對比。

第二種方法是使用 NVFP4,充分利用 Blackwell GPU 計算能力來提升性能,同時保持精度。



在 HGX B200 平臺上,使用 8K/1K 序列長度和聚合服務模式下,F(xiàn)P8(不含 MTP)、FP8(含 MTP)和 NVFP4(含 MTP)的吞吐量與交互性曲線對比。

NVFP4 使用在完整的 NVIDIA 軟件棧上(包括 TensorRT-LLM 和 NVIDIA TensorRT 模型優(yōu)化器),以確保高性能并保持精度。這使得在給定交互級別下能夠?qū)崿F(xiàn)更高的吞吐量,并且在相同的 HGX B200 平臺上,可以實現(xiàn)更高的交互級別。



在 HGX B200 平臺上,F(xiàn)P8(無 MTP)、FP8(有 MTP)和 NVFP4(有 MTP)的吞吐量與交互性曲線,序列長度分別為 1K 和 8K,并采用聚合服務模式。

英偉達表示,其正在不斷提升整個技術堆棧的性能,可以幫助用戶基于現(xiàn)有硬件產(chǎn)品,持續(xù)提升大語言模型的工作負載效率,提升各種模型的 token 吞吐量。

博客地址:

https://developer.nvidia.com/blog/delivering-massive-performance-leaps-for-mixture-of-experts-inference-on-nvidia-blackwell/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
73歲影帝欠租6萬面臨驅(qū)逐,昔日硬漢如今禿頭領外賣太糟心

73歲影帝欠租6萬面臨驅(qū)逐,昔日硬漢如今禿頭領外賣太糟心

蜉蝣說
2026-01-09 14:51:15
馬科斯對全體菲軍下令,2026年在南海有大動作,中方已做最壞打算

馬科斯對全體菲軍下令,2026年在南海有大動作,中方已做最壞打算

軍機Talk
2026-01-10 10:29:30
2026開年:怎一個“亂”字了得!

2026開年:怎一個“亂”字了得!

九萬里
2026-01-09 09:24:48
哈登31分6助,快船大勝籃網(wǎng)!小卡帶傷26分,快船有四人值得表揚

哈登31分6助,快船大勝籃網(wǎng)!小卡帶傷26分,快船有四人值得表揚

老梁體育漫談
2026-01-10 10:56:31
剛來就想走?上海海港新外援:踢中超是為積累經(jīng)驗,盼將來回日本

剛來就想走?上海海港新外援:踢中超是為積累經(jīng)驗,盼將來回日本

國足風云
2026-01-10 07:59:58
蔡磊病情進入終末期,“比植物人還要殘酷”

蔡磊病情進入終末期,“比植物人還要殘酷”

中國新聞周刊
2026-01-09 18:43:22
為什么民國時期已經(jīng)有電了,后來又點了40年煤油燈?

為什么民國時期已經(jīng)有電了,后來又點了40年煤油燈?

浩舞默畫
2026-01-08 09:37:13
買洗碗機丈夫砸家后續(xù):知情人曝內(nèi)幕,女子作精愛花錢欠外債20萬

買洗碗機丈夫砸家后續(xù):知情人曝內(nèi)幕,女子作精愛花錢欠外債20萬

青梅侃史啊
2026-01-10 08:58:19
中方:沉痛哀悼丹羽宇一郎

中方:沉痛哀悼丹羽宇一郎

新京報政事兒
2026-01-09 15:31:25
前中興副總:中國采用窮舉法跟美國打科技戰(zhàn),把整個產(chǎn)業(yè)鏈全干光

前中興副總:中國采用窮舉法跟美國打科技戰(zhàn),把整個產(chǎn)業(yè)鏈全干光

顧史
2026-01-03 17:17:39
拉爆了!滬指10年新高,突破4100點!超3900只個股上漲,放量成交超3萬億!后市怎么看?

拉爆了!滬指10年新高,突破4100點!超3900只個股上漲,放量成交超3萬億!后市怎么看?

雪球
2026-01-09 15:58:58
大跳水!暴跌95%,國產(chǎn)葡萄酒徹底崩了?

大跳水!暴跌95%,國產(chǎn)葡萄酒徹底崩了?

毒sir財經(jīng)
2026-01-08 19:13:41
真慘,從暴漲197%熔斷,到暴跌37%收盤,一股民進去就虧40萬!

真慘,從暴漲197%熔斷,到暴跌37%收盤,一股民進去就虧40萬!

財經(jīng)智多星
2026-01-09 11:45:06
李在明訪華剛回國,就放出消息,與高市共進晚餐,3億大單白簽?

李在明訪華剛回國,就放出消息,與高市共進晚餐,3億大單白簽?

軍機Talk
2026-01-10 10:03:23
1987年鄧小平邀請馬拉多納來中國踢球,馬拉多納:沒有三億我不去

1987年鄧小平邀請馬拉多納來中國踢球,馬拉多納:沒有三億我不去

大運河時空
2026-01-09 10:05:03
今夜,白銀又暴漲,金價拉升!周生生一款項鏈一夜?jié)q了15200元

今夜,白銀又暴漲,金價拉升!周生生一款項鏈一夜?jié)q了15200元

每日經(jīng)濟新聞
2026-01-10 00:55:27
2026年春節(jié),要暖到離譜?大年初一撞上七九,老輩人:60年頭回見

2026年春節(jié),要暖到離譜?大年初一撞上七九,老輩人:60年頭回見

叮當當科技
2026-01-07 13:58:49
曝灰熊聽取莫蘭特交易報價!考慮在截止日前送走他 多隊表達興趣

曝灰熊聽取莫蘭特交易報價!考慮在截止日前送走他 多隊表達興趣

羅說NBA
2026-01-10 03:22:08
網(wǎng)友希望召回雀巢奶粉,京東客服回應:小孩喝了后有問題再聯(lián)系

網(wǎng)友希望召回雀巢奶粉,京東客服回應:小孩喝了后有問題再聯(lián)系

PChome電腦之家
2026-01-09 10:52:52
揚言不上春晚一周后,央媒“點名”岳云鵬,郭德綱的話有人信了

揚言不上春晚一周后,央媒“點名”岳云鵬,郭德綱的話有人信了

銀河史記
2026-01-09 19:24:55
2026-01-10 11:28:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142533關注度
往期回顧 全部

科技要聞

傳DeepSeek準備第二次震驚全世界

頭條要聞

媒體:中國若在其任期統(tǒng)一特朗普不悅 中方回應滴水不漏

頭條要聞

媒體:中國若在其任期統(tǒng)一特朗普不悅 中方回應滴水不漏

體育要聞

楊瀚森:上場時間要去爭取 而不是要求

娛樂要聞

曹西平遺照曝光:靈堂布置過于簡陋

財經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

寶馬25年全球銷量246.3萬臺 中國仍是第一大市場

態(tài)度原創(chuàng)

健康
房產(chǎn)
親子
旅游
軍事航空

這些新療法,讓化療不再那么痛苦

房產(chǎn)要聞

66萬方!4755套!三亞巨量房源正瘋狂砸出!

親子要聞

再生氣也不能打孩子這5個部位

旅游要聞

最新消息!什剎海冰場計劃今日開業(yè)

軍事要聞

特朗普:已開始從委石油資源中賺錢

無障礙瀏覽 進入關懷版