国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

領(lǐng)先推理服務(wù)商采用NVIDIA Blackwell開源模型將AI成本降低10倍

0
分享至


醫(yī)療診斷洞察、互動(dòng)游戲中的角色對(duì)話、客服智能體的自主響應(yīng)——這些AI驅(qū)動(dòng)的交互都基于同一個(gè)智能單元:Token。

擴(kuò)展這些AI交互需要企業(yè)考慮是否能負(fù)擔(dān)更多Token成本。答案在于更好的Token經(jīng)濟(jì)學(xué)——其核心是降低每個(gè)Token的成本。這一下降趨勢(shì)正在各行業(yè)展開。麻省理工學(xué)院最新研究發(fā)現(xiàn),基礎(chǔ)設(shè)施和算法效率正將前沿性能的推理成本年降幅提升至10倍。

要理解基礎(chǔ)設(shè)施效率如何改善Token經(jīng)濟(jì)學(xué),可以想象一臺(tái)高速印刷機(jī)。如果印刷機(jī)通過對(duì)墨水、能源和機(jī)器本身的增量投資實(shí)現(xiàn)10倍產(chǎn)出,那么每頁的印刷成本就會(huì)下降。同樣,對(duì)AI基礎(chǔ)設(shè)施的投資能帶來遠(yuǎn)超成本增長(zhǎng)的Token產(chǎn)出,從而顯著降低每Token成本。

這正是Baseten、DeepInfra、Fireworks AI和Together AI等領(lǐng)先推理服務(wù)商選擇使用NVIDIA Blackwell平臺(tái)的原因,該平臺(tái)幫助他們將每Token成本相比NVIDIA Hopper平臺(tái)降低多達(dá)10倍。

這些服務(wù)商托管先進(jìn)的開源模型,這些模型現(xiàn)已達(dá)到前沿智能水平。通過結(jié)合開源前沿智能、NVIDIA Blackwell的極致硬件-軟件協(xié)同設(shè)計(jì)以及他們自己的優(yōu)化推理堆棧,這些服務(wù)商正為各行各業(yè)的企業(yè)實(shí)現(xiàn)顯著的Token成本降低。

醫(yī)療領(lǐng)域變革

在醫(yī)療領(lǐng)域,醫(yī)療編碼、文檔記錄和保險(xiǎn)表格管理等繁瑣耗時(shí)的任務(wù)占用了醫(yī)生與患者相處的時(shí)間。

Sully.ai通過開發(fā)能處理醫(yī)療編碼和記錄等常規(guī)任務(wù)的"AI員工"來幫助解決這一問題。隨著公司平臺(tái)規(guī)模擴(kuò)大,其專有閉源模型產(chǎn)生了三個(gè)瓶頸:實(shí)時(shí)臨床工作流中的不可預(yù)測(cè)延遲、推理成本增長(zhǎng)超過收入增長(zhǎng),以及對(duì)模型質(zhì)量和更新控制不足。

為克服這些瓶頸,Sully.ai使用Baseten的模型API,在NVIDIA Blackwell GPU上部署如gpt-oss-120b等開源模型。Baseten采用低精度NVFP4數(shù)據(jù)格式、NVIDIA TensorRT-大語言模型庫和NVIDIA Dynamo推理框架來提供優(yōu)化推理。公司選擇NVIDIA Blackwell運(yùn)行其模型API,因?yàn)橄啾萅VIDIA Hopper平臺(tái),每美元吞吐量提升了2.5倍。

結(jié)果,Sully.ai的推理成本下降了90%,相比之前的閉源實(shí)現(xiàn)實(shí)現(xiàn)了10倍降低,同時(shí)醫(yī)療記錄生成等關(guān)鍵工作流的響應(yīng)時(shí)間改善了65%。公司現(xiàn)已為醫(yī)生節(jié)省超過3000萬分鐘,這些時(shí)間此前都浪費(fèi)在數(shù)據(jù)錄入和其他手動(dòng)任務(wù)上。

游戲體驗(yàn)革命

Latitude正在通過其AI Dungeon冒險(xiǎn)故事游戲和即將推出的AI驅(qū)動(dòng)角色扮演游戲平臺(tái)Voyage構(gòu)建AI原生游戲的未來,玩家可以創(chuàng)建或游玩世界,自由選擇任何行動(dòng)并創(chuàng)造自己的故事。

公司平臺(tái)使用大語言模型響應(yīng)玩家行動(dòng)——但這帶來了擴(kuò)展挑戰(zhàn),因?yàn)槊總€(gè)玩家行動(dòng)都會(huì)觸發(fā)推理請(qǐng)求。成本隨參與度擴(kuò)展,響應(yīng)時(shí)間必須保持足夠快以確保無縫體驗(yàn)。

Latitude在DeepInfra的推理平臺(tái)上運(yùn)行大型開源模型,該平臺(tái)由NVIDIA Blackwell GPU和TensorRT-大語言模型驅(qū)動(dòng)。對(duì)于大規(guī)模專家混合模型,DeepInfra將每百萬Token成本從NVIDIA Hopper平臺(tái)的20美分降至Blackwell上的10美分。轉(zhuǎn)向Blackwell原生低精度NVFP4格式進(jìn)一步將成本降至僅5美分——總計(jì)4倍每Token成本改善——同時(shí)保持客戶期望的準(zhǔn)確性。

在DeepInfra的Blackwell驅(qū)動(dòng)平臺(tái)上運(yùn)行這些大規(guī)模專家混合模型,使Latitude能夠經(jīng)濟(jì)高效地提供快速可靠響應(yīng)。DeepInfra推理平臺(tái)在可靠處理流量峰值的同時(shí)提供這種性能,讓Latitude能部署更強(qiáng)大的模型而不妨礙玩家體驗(yàn)。

推理系統(tǒng)突破

Sentient Labs專注于匯聚AI開發(fā)者共同構(gòu)建強(qiáng)大的推理AI系統(tǒng),所有系統(tǒng)都是開源的。目標(biāo)是通過安全自主、智能體架構(gòu)和持續(xù)學(xué)習(xí)研究加速AI解決更難推理問題。

其首個(gè)應(yīng)用Sentient Chat編排復(fù)雜的多智能體工作流,集成了社區(qū)中十多個(gè)專業(yè)AI智能體。因此,Sentient Chat有巨大計(jì)算需求,因?yàn)閱蝹€(gè)用戶查詢可能觸發(fā)通常導(dǎo)致昂貴基礎(chǔ)設(shè)施開銷的自主交互級(jí)聯(lián)。

為管理這種規(guī)模和復(fù)雜性,Sentient使用運(yùn)行在NVIDIA Blackwell上的Fireworks AI推理平臺(tái)。通過Fireworks的Blackwell優(yōu)化推理堆棧,Sentient實(shí)現(xiàn)了相比之前基于Hopper部署25-50%的成本效率提升。

每GPU更高吞吐量使公司能以相同成本服務(wù)顯著更多并發(fā)用戶。平臺(tái)的可擴(kuò)展性支持了24小時(shí)內(nèi)180萬用戶排隊(duì)的病毒式發(fā)布,單周處理560萬次查詢,同時(shí)保持一致的低延遲。

客服智能體優(yōu)化

語音AI客服通話往往以挫敗告終,因?yàn)榧词馆p微延遲也可能導(dǎo)致用戶與智能體重疊說話、掛斷或失去信任。

Decagon為企業(yè)客戶支持構(gòu)建AI智能體,AI驅(qū)動(dòng)語音是其最苛刻的渠道。Decagon需要能在不可預(yù)測(cè)流量負(fù)載下提供亞秒級(jí)響應(yīng)的基礎(chǔ)設(shè)施,以及支持全天候語音部署的Token經(jīng)濟(jì)學(xué)。

Together AI在NVIDIA Blackwell GPU上為Decagon的多模型語音堆棧運(yùn)行生產(chǎn)推理。兩家公司在幾個(gè)關(guān)鍵優(yōu)化上合作:投機(jī)解碼,訓(xùn)練較小模型生成更快響應(yīng),同時(shí)較大模型在后臺(tái)驗(yàn)證準(zhǔn)確性;緩存重復(fù)對(duì)話元素以加速響應(yīng);構(gòu)建自動(dòng)擴(kuò)展以處理流量激增而不降低性能。

Decagon看到響應(yīng)時(shí)間在處理每查詢數(shù)千Token時(shí)仍保持400毫秒以下。每查詢成本(完成一次語音交互的總成本)相比使用閉源專有模型下降了6倍。這通過Decagon的多模型方法(部分開源,部分在NVIDIA GPU上內(nèi)部訓(xùn)練)、NVIDIA Blackwell的極致協(xié)同設(shè)計(jì)和Together的優(yōu)化推理堆棧組合實(shí)現(xiàn)。

未來發(fā)展趨勢(shì)

醫(yī)療、游戲和客服領(lǐng)域看到的顯著成本節(jié)省由NVIDIA Blackwell的效率驅(qū)動(dòng)。NVIDIA GB200 NVL72系統(tǒng)通過為推理專家混合模型提供相比NVIDIA Hopper突破性的10倍每Token成本降低,進(jìn)一步擴(kuò)大了這一影響。

NVIDIA在堆棧每一層的極致協(xié)同設(shè)計(jì)——涵蓋計(jì)算、網(wǎng)絡(luò)和軟件——及其合作伙伴生態(tài)系統(tǒng)正在大規(guī)模解鎖每Token成本的巨大降低。

這一勢(shì)頭將延續(xù)到NVIDIA Rubin平臺(tái)——將六款新芯片集成到單一AI超級(jí)計(jì)算機(jī)中,相比Blackwell提供10倍性能和10倍更低Token成本。

Q&A

Q1:NVIDIA Blackwell平臺(tái)相比Hopper平臺(tái)在成本節(jié)省方面有什么優(yōu)勢(shì)?

A:NVIDIA Blackwell平臺(tái)幫助領(lǐng)先推理服務(wù)商將每Token成本相比NVIDIA Hopper平臺(tái)降低多達(dá)10倍。例如,DeepInfra將大規(guī)模專家混合模型的每百萬Token成本從Hopper平臺(tái)的20美分降至Blackwell上的10美分,使用NVFP4格式進(jìn)一步降至5美分。

Q2:開源模型在AI應(yīng)用中能達(dá)到什么樣的性能水平?

A:開源模型現(xiàn)已達(dá)到前沿智能水平。通過結(jié)合開源前沿智能、NVIDIA Blackwell的極致硬件-軟件協(xié)同設(shè)計(jì)以及優(yōu)化的推理堆棧,這些模型能夠?yàn)楦餍袠I(yè)企業(yè)實(shí)現(xiàn)顯著的Token成本降低,同時(shí)保持高質(zhì)量的AI交互體驗(yàn)。

Q3:這些成本優(yōu)化對(duì)實(shí)際業(yè)務(wù)應(yīng)用有什么影響?

A:成本優(yōu)化帶來顯著業(yè)務(wù)價(jià)值。例如,Sully.ai推理成本下降90%,為醫(yī)生節(jié)省超過3000萬分鐘;Decagon每查詢成本下降6倍,響應(yīng)時(shí)間保持400毫秒以下;Sentient實(shí)現(xiàn)25-50%成本效率提升,支持24小時(shí)內(nèi)180萬用戶排隊(duì)的病毒式發(fā)布。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
凌晨4點(diǎn) 歐冠生死戰(zhàn)!皇馬打平即可晉級(jí)16強(qiáng):姆巴佩缺席

凌晨4點(diǎn) 歐冠生死戰(zhàn)!皇馬打平即可晉級(jí)16強(qiáng):姆巴佩缺席

葉青足球世界
2026-02-25 09:03:11
中紀(jì)委怒批:公務(wù)員也是人,正常生活不應(yīng)問責(zé)處理!

中紀(jì)委怒批:公務(wù)員也是人,正常生活不應(yīng)問責(zé)處理!

霹靂炮
2026-02-24 22:17:54
馬年特色?多所高校把“馬院”設(shè)成第一學(xué)院,跟風(fēng)還是大勢(shì)所趨?

馬年特色?多所高校把“馬院”設(shè)成第一學(xué)院,跟風(fēng)還是大勢(shì)所趨?

妍妍教育日記
2026-02-24 19:05:43
返程被堵高速,發(fā)現(xiàn)應(yīng)急車道被占用,女子挨個(gè)拍照,半小時(shí)舉報(bào)20多輛車,當(dāng)事人發(fā)聲:不能讓守規(guī)矩的人吃虧;交警回應(yīng):處理中

返程被堵高速,發(fā)現(xiàn)應(yīng)急車道被占用,女子挨個(gè)拍照,半小時(shí)舉報(bào)20多輛車,當(dāng)事人發(fā)聲:不能讓守規(guī)矩的人吃虧;交警回應(yīng):處理中

每日經(jīng)濟(jì)新聞
2026-02-24 18:36:05
宏大敘事是窮人最后的“精神鴉片”

宏大敘事是窮人最后的“精神鴉片”

浪子說
2026-02-24 22:08:10
落槌!全部劃歸國(guó)資!追隨許家印6年,江蘇第一包工頭賠得精光

落槌!全部劃歸國(guó)資!追隨許家印6年,江蘇第一包工頭賠得精光

凡知
2026-02-24 12:16:24
貝加爾湖事故中溺亡的7名國(guó)人,很大可能連賠償都拿不到

貝加爾湖事故中溺亡的7名國(guó)人,很大可能連賠償都拿不到

清書先生
2026-02-24 16:38:37
歐冠2-5大冷門!7億國(guó)米恥辱出局:不敵5000萬歐黑馬 齊沃落寞呆坐

歐冠2-5大冷門!7億國(guó)米恥辱出局:不敵5000萬歐黑馬 齊沃落寞呆坐

風(fēng)過鄉(xiāng)
2026-02-25 06:21:38
“日本以為中方會(huì)軟化立場(chǎng),等來的卻是當(dāng)頭一棒”

“日本以為中方會(huì)軟化立場(chǎng),等來的卻是當(dāng)頭一棒”

觀察者網(wǎng)
2026-02-24 19:31:04
黃子華罕見評(píng)價(jià)英國(guó)不留情面 狠批謀生艱難:我不是詆毀 若赴當(dāng)?shù)乇貛б晃锩馄鄳K

黃子華罕見評(píng)價(jià)英國(guó)不留情面 狠批謀生艱難:我不是詆毀 若赴當(dāng)?shù)乇貛б晃锩馄鄳K

TVB資訊臺(tái)
2026-02-24 22:57:01
破防了!詹姆斯太拼,為回家鄉(xiāng)愿少賺4873萬?從頂薪變底薪創(chuàng)歷史

破防了!詹姆斯太拼,為回家鄉(xiāng)愿少賺4873萬?從頂薪變底薪創(chuàng)歷史

毒舌NBA
2026-02-24 20:06:09
紫牛頭條 | 全家出游老人服務(wù)區(qū)內(nèi)被狗撲咬骨折,犬主付千元后駕車離開,警方已立案

紫牛頭條 | 全家出游老人服務(wù)區(qū)內(nèi)被狗撲咬骨折,犬主付千元后駕車離開,警方已立案

揚(yáng)子晚報(bào)
2026-02-24 23:56:16
賽季報(bào)銷!威廉姆斯左膝前交叉韌帶撕裂 爵士主帥不滿伊森動(dòng)作

賽季報(bào)銷!威廉姆斯左膝前交叉韌帶撕裂 爵士主帥不滿伊森動(dòng)作

羅說NBA
2026-02-25 05:57:46
弱冷空氣在廣東“開工”,多地有分散性零星小雨!早晚有輕霧

弱冷空氣在廣東“開工”,多地有分散性零星小雨!早晚有輕霧

南方都市報(bào)
2026-02-24 11:37:04
45歲張柏芝在上海街邊被偶遇,她穿著羽絨服,臉蛋圓潤(rùn),好漂亮

45歲張柏芝在上海街邊被偶遇,她穿著羽絨服,臉蛋圓潤(rùn),好漂亮

草莓解說體育
2026-02-25 02:51:18
6年前2459元買入,現(xiàn)在漲到4048元!老相機(jī)成“電子黃金”,多的甚至漲價(jià)10倍,網(wǎng)友拍大腿:賣早了

6年前2459元買入,現(xiàn)在漲到4048元!老相機(jī)成“電子黃金”,多的甚至漲價(jià)10倍,網(wǎng)友拍大腿:賣早了

每日經(jīng)濟(jì)新聞
2026-02-25 00:41:04
莫言文學(xué)一句話概括:否定中國(guó)革命

莫言文學(xué)一句話概括:否定中國(guó)革命

雪中風(fēng)車
2026-02-24 21:37:18
日本首次宣布:在距臺(tái)灣110公里小島,5年內(nèi)部署導(dǎo)彈

日本首次宣布:在距臺(tái)灣110公里小島,5年內(nèi)部署導(dǎo)彈

觀察者網(wǎng)
2026-02-24 17:55:34
機(jī)關(guān)事業(yè)單位“取消雙休”即將提上日程?2026年會(huì)落地嗎?

機(jī)關(guān)事業(yè)單位“取消雙休”即將提上日程?2026年會(huì)落地嗎?

復(fù)轉(zhuǎn)小能手
2026-02-24 17:33:33
德媒:要不是中國(guó)把所有臟活累活全給干了,歐洲今天也不會(huì)這么慘

德媒:要不是中國(guó)把所有臟活累活全給干了,歐洲今天也不會(huì)這么慘

梁訊
2026-02-24 20:04:43
2026-02-25 09:43:00
至頂頭條 incentive-icons
至頂頭條
記錄和推動(dòng)數(shù)字化創(chuàng)新
16259文章數(shù) 49691關(guān)注度
往期回顧 全部

科技要聞

蘋果MacBook Pro要加觸摸屏了,還帶靈動(dòng)島

頭條要聞

牛彈琴:美伊大戰(zhàn)若還不打 全世界都會(huì)看特朗普的笑話

頭條要聞

牛彈琴:美伊大戰(zhàn)若還不打 全世界都會(huì)看特朗普的笑話

體育要聞

曝雄鹿計(jì)劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

汪小菲官宣三胎出生:承諾會(huì)照顧好3個(gè)孩子

財(cái)經(jīng)要聞

春節(jié)檔"開門黑" 電影票少賣了7000萬張

汽車要聞

入門即滿配 威蘭達(dá)AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

游戲
數(shù)碼
手機(jī)
親子
時(shí)尚

《彩虹六號(hào)》手游版正式運(yùn)營(yíng)開啟 5V5攻防戰(zhàn)術(shù)FPS

數(shù)碼要聞

榮耀MagicPad 4平板曝4月發(fā)布,搭載最新驍龍8系處理器

手機(jī)要聞

OPPO Find N6外觀曝光:圓環(huán)哈蘇四攝鏡組、閃光燈移至左上角

親子要聞

日常操作,提高覺悟

普通人穿衣別太老氣橫秋!這些穿搭給你靈感,保暖耐看兩不誤

無障礙瀏覽 進(jìn)入關(guān)懷版