国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

為了搶GPU、囤算力,我們花了多少冤枉錢?!

0
分享至

今年上半年,算力圈相當(dāng)魔幻。

好用的GPU被瘋搶,好用的服務(wù)器賣斷貨,連公有云上的高端GPU云主機(jī)都供不應(yīng)求。



背后的原因簡(jiǎn)單粗暴——都是大模型鬧的。

訓(xùn)練、后訓(xùn)練、微調(diào),尤其是今年大火的推理,哪哪兒都離不開GPU。



可是你知道嗎?為了把模型伺候好,我們狂搶GPU、囤算力的操作,可能花了很多冤枉錢!

因?yàn)?,剛剛有人爆料說↓

他們公司,這個(gè)月累計(jì)少買1000張卡,模型跑得竟然比以前還溜。



還有這種便宜事兒??

看到爆料,算力圈吃瓜群眾的反應(yīng)是這樣的——



然鵝,這真不是開玩笑,一種榨干GPU算力的新玩法,誕生了。

就在上周,字節(jié)跳動(dòng)旗下的云與AI服務(wù)平臺(tái)火山引擎,發(fā)布了一個(gè)全新的算力彈性調(diào)度方案,效果就像上面說的那樣——

少用GPU、少花錢,模型的推理效果依然有保障。



火山引擎到底拿出了什么神仙方案?

這個(gè)新方案叫做→企業(yè)自有模型托管方案,具備兩大特色↓

01、全托管

簡(jiǎn)單講,就是當(dāng)用戶部署自有模型的時(shí)候,可以完全交給火山引擎的MaaS平臺(tái)「火山方舟」,模型部署、推理優(yōu)化、彈性調(diào)度全幫你搞定。



02、極致彈性

這種部署方案,能夠以「模型單元」為顆粒度彈性伸縮。

依據(jù)大模型推理業(yè)務(wù)的“潮汐效應(yīng)”,系統(tǒng)能夠自動(dòng)增加或者縮減算力消耗,從而大幅降低用戶的算力開支,讓每分錢都花到刀刃上。



為什么這套方案能夠幫助用戶省大錢?

先討論一個(gè)問題,云上各種通用大模型API不香嗎,為啥企業(yè)還要費(fèi)勁吧啦的部署自有模型?

對(duì)于中小型企業(yè)或者個(gè)人開發(fā)者來說,通用大模型的能力已經(jīng)足夠用了,而且還是基于Tokens消耗按需付費(fèi)。



但是,通用模型雖強(qiáng),卻可能缺少垂直行業(yè)的專業(yè)領(lǐng)域知識(shí)。

對(duì)于很多專業(yè)大客戶、專業(yè)場(chǎng)景來說,并不能完全滿足需求。





所以,越來越多的企業(yè),開始利用自己的專屬數(shù)據(jù),對(duì)基礎(chǔ)模型進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練、微調(diào)對(duì)齊,從而得到更“懂行”的專屬模型。

這樣的模型,既有通用知識(shí),又有專業(yè)知識(shí),能更好地在專業(yè)場(chǎng)景上崗干活。



以懂車帝為例,AI選車場(chǎng)景涉及大量汽車垂類知識(shí)和專業(yè)評(píng)價(jià)數(shù)據(jù),通用模型不具備這些知識(shí),懂車帝基于豆包大模型進(jìn)行二次訓(xùn)練,構(gòu)建了專屬的AI選車模型和智能體。

可是專屬模型訓(xùn)練出來,問題也隨之而來。

這種BYOM(Bring your own model)模型需要企業(yè)自己先完成部署,才能提供推理應(yīng)用。

以前,大概有這么幾種部署路徑↓

①企業(yè)自己買設(shè)備,自己組集群,全部自己干。



2、從算力黃牛那里臨時(shí)租算力資源,用多少租多少。



3、從公有云租GPU云主機(jī),包月或者按時(shí)長(zhǎng)付費(fèi)。



三種方案相比較,用云平臺(tái)來部署推理服務(wù)的模式,看起來最靈活、最省錢。

但即便如此,也可能會(huì)花“冤枉錢”。

因?yàn)?,絕大多數(shù)線上AI服務(wù),都是具有「潮汐效應(yīng)」的,白天很繁忙,晚上可能很閑。



一個(gè)事實(shí)是,目前市面上用于企業(yè)專屬大模型推理的云端GPU算力,都是以賣卡、整租的模式交付。

無論包月還是計(jì)時(shí),都不提供自動(dòng)伸縮能力。

即便晚上沒啥負(fù)載,只要你還占用著GPU不釋放(即便GPU在摸魚),你仍然要按照整個(gè)資源池的規(guī)模來付費(fèi)。



看下面這張圖→

橫軸代表一天中不同時(shí)間段,紅色曲線代表一天中AI業(yè)務(wù)量的變化趨勢(shì),藍(lán)色方塊代表算力資源單位(服務(wù)器數(shù)或GPU數(shù))。

用戶需要按照峰值業(yè)務(wù)量來購(gòu)買算力,雖然低谷很多GPU是空閑的,但這個(gè)錢卻省不下來。



除非企業(yè)自己的運(yùn)維團(tuán)隊(duì)特別牛掰,能夠根據(jù)算力需求的波動(dòng)自己搞一套調(diào)度系統(tǒng)來自動(dòng)伸縮(閑時(shí)釋放算力,忙時(shí)補(bǔ)充算力)。

但幾乎沒人這么干,因?yàn)檫@類客戶都搞模型定制了,對(duì)性能體驗(yàn)要求極高,萬一調(diào)度策略沒整好(該伸的時(shí)候沒伸,該縮的時(shí)候沒縮),影響終端客戶體驗(yàn),得不償失。



現(xiàn)在,這個(gè)問題終于有了解法↓

火山引擎在這套剛剛發(fā)布的「企業(yè)自有模型托管方案」里,推出了一種新型算力形態(tài):全托管彈性模型單元

企業(yè)可以選擇不同規(guī)格的模型單元:?jiǎn)螜C(jī)型、多機(jī)PD分離型的等等。



然后,根據(jù)自己的業(yè)務(wù)特點(diǎn),設(shè)置推理性能指標(biāo)(TPOT、TTFT),并且根據(jù)應(yīng)用的潮汐波動(dòng)特點(diǎn),設(shè)置彈性伸縮系數(shù),系數(shù)越大,彈性越強(qiáng)。

注:TFTT為首Token時(shí)長(zhǎng),TPOT為單位時(shí)間生成的Token數(shù),這兩個(gè)是衡量大模型推理體驗(yàn)的關(guān)鍵指標(biāo)。



這就意味著,客戶的實(shí)際付費(fèi)算力,會(huì)根據(jù)自己業(yè)務(wù)量的大小,以模型單元為單位動(dòng)態(tài)增加或者減少。

從此,客戶再也不需要為摸魚的GPU買單了,對(duì)于那些波動(dòng)性較大的AI業(yè)務(wù),省掉一半GPU都不止!



還有一點(diǎn)特別重要,這是一種“全托管”模式的服務(wù)。

企業(yè)只需要把自己的模型交給火山方舟,剩下那一系列的調(diào)度、優(yōu)化、推理加速的事兒,都不用操心,“火山”全包。



尤其模型推理優(yōu)化,企業(yè)重新精調(diào)過的模型,針對(duì)通用模型的標(biāo)準(zhǔn)優(yōu)化手段可能不再適用,需要重新優(yōu)化。

沒關(guān)系,火山方舟會(huì)幫客戶一站式搞定。

經(jīng)過一番優(yōu)化操作,你可能會(huì)發(fā)現(xiàn),峰值需要的算力規(guī)模,都比以前變少了,又狂省了一筆。



當(dāng)然,這種模型單元,不只適用于企業(yè)定制模型,如果企業(yè)使用通用模型時(shí),對(duì)延遲和吞吐要求特別高,也同樣可以采用這種模式。

因?yàn)榇藭r(shí)算力資源是獨(dú)享的,相比API調(diào)用共享算力,這種模式可以提供更確定的性能保障(沒人跟你搶)。



為了讓用戶省錢少買GPU火山引擎真是操碎了心

你能想象嗎?一個(gè)云廠商,這么費(fèi)勁扒拉一頓操作猛如虎,竟然是為了幫用戶省錢。

當(dāng)別人還在云上賣卡,火山引擎已經(jīng)開始為用戶提供按需可得的AI算力。



為啥各大云廠商,只有火山引擎率先做到這一點(diǎn)?

首先明確一點(diǎn),這種高并發(fā)高彈性算力保障,是充沛算力×推理層優(yōu)化×系統(tǒng)調(diào)度能力的乘積,這種能力積累來自于字節(jié)內(nèi)部業(yè)務(wù)驅(qū)動(dòng)。



比如,2024年的時(shí)候,字節(jié)系的AI產(chǎn)品(抖音AI應(yīng)用、豆包、即夢(mèng)等)就迎來了高速發(fā)展,AI推理需求量急劇增長(zhǎng),比業(yè)界更早的看到了風(fēng)向。

這種領(lǐng)先于業(yè)界半年左右的生產(chǎn)級(jí)AI需求,倒逼字節(jié)AI Infra產(chǎn)研團(tuán)隊(duì)不斷提升推理效率、降低推理成本。



正是基于這樣的需求驅(qū)動(dòng),火山引擎團(tuán)隊(duì)早在2024年下半年就開始研發(fā)“模型單元”方案。

彼時(shí),DeepSeek還沒有大爆發(fā),業(yè)界的推理需求還沒有爆炸式增長(zhǎng),但字節(jié)基于內(nèi)部領(lǐng)先的AI需求驅(qū)動(dòng),就已經(jīng)預(yù)判到趨勢(shì)。



機(jī)會(huì)果然是留給了有準(zhǔn)備的人——

2025年初,這個(gè)高彈性的“模型單元”方案就已經(jīng)悄悄上線,并在字節(jié)內(nèi)部抖音等業(yè)務(wù)推廣應(yīng)用,持續(xù)用最極端的實(shí)戰(zhàn)場(chǎng)景淬煉、打磨。



后來的故事大家都知道了,DeepSeek走紅,整個(gè)業(yè)界開始尋求更優(yōu)的推理方案。

而火山引擎的“先發(fā)優(yōu)勢(shì)”得到充分體現(xiàn),在那一波全民狂炫DeepSeek的大潮中,火山引擎(火山方舟)成為性能最優(yōu)的那個(gè)第三方DeepSeek API服務(wù)平臺(tái)。



而過去一年來,火上引擎持續(xù)擊穿Token計(jì)費(fèi)的地板價(jià),敢降價(jià)的底氣,同樣來自于這份需求前瞻性和長(zhǎng)期技術(shù)積累的乘積。

同時(shí),根據(jù)IDC的最新報(bào)告,火山引擎以46.4%的份額,高居中國(guó)公有云大模型調(diào)用量榜首。



最近兩個(gè)月,業(yè)界需求沿著字節(jié)去年踩過的足跡如期而至——

智能體、Agentic AI掀起熱潮,越來越多的企業(yè)開始用定制模型提供更個(gè)性化、更精準(zhǔn)的推理服務(wù)和智能體應(yīng)用。

火山引擎再次跑贏了趨勢(shì),打磨已久的模型單元進(jìn)一步升級(jí),為這類客戶提供效率更高、成本更低的自有模型托管服務(wù),幫客戶輕松省下每一分錢,榨干每一分算力。

一切的毫不費(fèi)力,都是因?yàn)樵?jīng)的竭盡全力!



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
什么情況?CBA超級(jí)外援自宣告別上海 球迷:盧偉更衣室管理失控?

什么情況?CBA超級(jí)外援自宣告別上海 球迷:盧偉更衣室管理失控?

體育哲人
2025-12-28 12:39:33
卡巴耶娃:俄羅斯體操冠軍,與普京傳緋聞17年,育有三子生父成謎

卡巴耶娃:俄羅斯體操冠軍,與普京傳緋聞17年,育有三子生父成謎

喜歡歷史的阿繁
2025-12-28 13:29:53
在設(shè)計(jì)院,性能力才是第一生產(chǎn)力

在設(shè)計(jì)院,性能力才是第一生產(chǎn)力

黯泉
2025-07-06 21:54:56
卡梅隆承認(rèn):影院沒人了!《阿凡達(dá)3》33億成本難回本,198分鐘片長(zhǎng)勸退觀眾?

卡梅隆承認(rèn):影院沒人了!《阿凡達(dá)3》33億成本難回本,198分鐘片長(zhǎng)勸退觀眾?

陳意小可愛
2025-12-28 10:50:23
山西3人主導(dǎo)本賽季下滑!迪亞洛原帥作用暴跌,潘江執(zhí)教出大問題

山西3人主導(dǎo)本賽季下滑!迪亞洛原帥作用暴跌,潘江執(zhí)教出大問題

籃球資訊達(dá)人
2025-12-29 00:55:17
博納影業(yè)因《阿凡達(dá)3》股價(jià)坐過山車式震蕩

博納影業(yè)因《阿凡達(dá)3》股價(jià)坐過山車式震蕩

透視到底
2025-12-28 21:54:04
與現(xiàn)代級(jí)同框,東海艦隊(duì),列裝055型驅(qū)逐艦已成定局?

與現(xiàn)代級(jí)同框,東海艦隊(duì),列裝055型驅(qū)逐艦已成定局?

Ck的蜜糖
2025-12-29 01:56:25
以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國(guó)并不會(huì)第一個(gè)翻臉

以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國(guó)并不會(huì)第一個(gè)翻臉

八斗小先生
2025-12-26 09:33:27
人口告別世界第一?二孩催生無效后,國(guó)家終于向住房出手了

人口告別世界第一?二孩催生無效后,國(guó)家終于向住房出手了

春秋論娛
2025-12-25 07:11:24
超1200萬!桂林這家知名房企資產(chǎn)被拍賣!這一次,它能否重獲新生

超1200萬!桂林這家知名房企資產(chǎn)被拍賣!這一次,它能否重獲新生

每日桂林
2025-12-28 21:11:45
山西社??ā叭a融合”上線試運(yùn)行

山西社??ā叭a融合”上線試運(yùn)行

錦繡太原
2025-12-28 18:28:00
南博事件曝光新證據(jù)!徐湖平夫妻被帶走,40億西漢金獸疑偷梁換柱

南博事件曝光新證據(jù)!徐湖平夫妻被帶走,40億西漢金獸疑偷梁換柱

壹月情感
2025-12-26 23:44:53
孟小冬究竟有多漂亮?一嫁梅蘭芳二嫁杜月笙,美得讓人移不開眼!

孟小冬究竟有多漂亮?一嫁梅蘭芳二嫁杜月笙,美得讓人移不開眼!

阿胂是吃瓜群眾
2025-12-26 15:46:17
簽1人,裁1人,復(fù)出1人!快船需要調(diào)整一名首發(fā),中鋒實(shí)行3人輪換

簽1人,裁1人,復(fù)出1人!快船需要調(diào)整一名首發(fā),中鋒實(shí)行3人輪換

一登侃球
2025-12-28 22:48:31
女子分享10年前火車上偶遇的唱歌小男孩,竟被當(dāng)事人刷到:互聯(lián)網(wǎng)讓10年前的“一面之緣”有了續(xù)集

女子分享10年前火車上偶遇的唱歌小男孩,竟被當(dāng)事人刷到:互聯(lián)網(wǎng)讓10年前的“一面之緣”有了續(xù)集

環(huán)球網(wǎng)資訊
2025-12-28 10:11:35
張?jiān)ns更新,她身材比例太好了,顏值也好高!

張?jiān)ns更新,她身材比例太好了,顏值也好高!

老吳教育課堂
2025-12-29 01:38:42
蘋果折疊屏iPhone尺寸縮水?比預(yù)期更小,造型神似護(hù)照本

蘋果折疊屏iPhone尺寸縮水?比預(yù)期更小,造型神似護(hù)照本

環(huán)球網(wǎng)資訊
2025-12-28 09:38:17
新聞30分沒播毛主席誕辰?別急著罵,看韶山的那碗壽面,你就懂了

新聞30分沒播毛主席誕辰?別急著罵,看韶山的那碗壽面,你就懂了

文雅筆墨
2025-12-28 11:01:45
突然意識(shí)到對(duì)方是在有錢又有愛的家庭長(zhǎng)大的,那一刻我沉默了

突然意識(shí)到對(duì)方是在有錢又有愛的家庭長(zhǎng)大的,那一刻我沉默了

另子維愛讀史
2025-12-27 18:35:00
倒計(jì)時(shí)!曼城7000萬“節(jié)拍器”閃電離隊(duì)!欽定1.65億后腰+突擊手

倒計(jì)時(shí)!曼城7000萬“節(jié)拍器”閃電離隊(duì)!欽定1.65億后腰+突擊手

頭狼追球
2025-12-28 11:24:32
2025-12-29 03:07:00
AI全球總部
AI全球總部
全球最新、最酷AI解決方案
1099文章數(shù) 715關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

男子強(qiáng)奸女友出獄后兩人復(fù)合 又因爭(zhēng)吵掐死對(duì)方

頭條要聞

男子強(qiáng)奸女友出獄后兩人復(fù)合 又因爭(zhēng)吵掐死對(duì)方

體育要聞

MVP概率達(dá)82.5%!約基奇連超大鳥喬丹

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

親子
教育
手機(jī)
藝術(shù)
公開課

親子要聞

保護(hù)孩子寶媽必學(xué),懷疑孩子被侵犯,要少問多做情景再現(xiàn)!

教育要聞

很多地方調(diào)整學(xué)生早上到校時(shí)間,孩子們?cè)僖膊挥闷鹛缟蠈W(xué)了!

手機(jī)要聞

澎湃OS 3正式版再次擴(kuò)容:15款設(shè)備喜提升級(jí),你收到了嗎?

藝術(shù)要聞

撞見雪中花!這冬日限定的浪漫,一眼心醉!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版