国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

那些爛尾的DeepSeek一體機(jī)項(xiàng)目,怎么收?qǐng)觯?/h1>
0
分享至

老曹這幾年,太難了。

他是第一批對(duì)大模型有先知先覺(jué)的人,兩年前從大廠辭職出來(lái),開(kāi)始圍繞大模型做生意。



從最初倒騰GPU,到后來(lái)攢智算中心,再到幫人做萬(wàn)卡訓(xùn)練集群的優(yōu)化,啥火搞啥。

每天忙得像個(gè)「影帝」,年底一算收入,掙得還不如「群演」。



可是這半年,老曹徹底轉(zhuǎn)運(yùn)了,搞得風(fēng)生水起。

為啥,原來(lái),他轉(zhuǎn)型幫人做大模型推理方案咨詢服務(wù)。

在我看來(lái),這生意卷的很,什么各種大模型一體機(jī)滿天飛,真能掙到錢(qián)?



老曹嘿嘿一笑,講起了他的生意經(jīng)↓

你以為那些DeepSeek一體機(jī)真能滿足需求?

我現(xiàn)在的項(xiàng)目核心切入點(diǎn),就是讓那些爛尾的DeepSeek一體機(jī)重新支棱起來(lái)。



年初跟風(fēng)上一體機(jī)的客戶太多了,但現(xiàn)在不少客戶的一體機(jī)都砸手里了,遠(yuǎn)遠(yuǎn)低于他們的預(yù)期。

說(shuō)著,老曹站起身,在他辦公室的白板上一頓寫(xiě)寫(xiě)畫(huà)畫(huà),給我講起了「爛尾」原因。



剛開(kāi)年的時(shí)候,客戶們的關(guān)注點(diǎn)都是搶DeepSeek一體機(jī),能不能跑滿血、性能是多少,追求總吞吐量、TPOT、TTFT…

說(shuō)白了,開(kāi)始還是嘗鮮心態(tài),后來(lái)真用起來(lái),才發(fā)現(xiàn)問(wèn)題多了去了↓

推理性能宣傳吊炸天,實(shí)際場(chǎng)景拉垮

很多廠商宣傳的TPTT、TPOT都是理想極限值,一旦上下文長(zhǎng)度增加,或者加上RAG,就拉稀。



多模型適配、升級(jí)、調(diào)度,完全搞不定

這半年出了很多爆款開(kāi)源模型,Qwen、K2…,很多客戶希望在一體機(jī)平臺(tái)上嘗試,還希望多模型調(diào)度、切換…,跑起來(lái)容易,跑得好很難。



多機(jī)并行推理,PD分離部署,坑多水深

對(duì)很多企業(yè)來(lái)講,一臺(tái)往往不夠用,當(dāng)他們希望擴(kuò)展到集群部署,再搞PD分離架構(gòu),簡(jiǎn)直就是遇到“嘆息之墻”,難以跨越。



還有,客戶自己有些存量智算服務(wù)器,也希望一起跑起來(lái)。

老曹balabala講了半天,我越聽(tīng)越不信↓

雖然老曹是智算老司機(jī),但這些都是新問(wèn)題,他憑啥搞定?



老曹嘿嘿一笑,說(shuō):我給你講個(gè)秘密↓

不是我牛B,是我用的方案牛B。

我現(xiàn)在用紅帽的「AI全家桶」,瞬間就把這些項(xiàng)目盤(pán)活了。



這個(gè)“桶”里都有啥黑科技呢?

紅帽AI的第一個(gè)神器,叫做:AI Inference Server,紅帽AI推理服務(wù)器。

聽(tīng)聽(tīng)這名字,一看就是專門(mén)干模型推理的。

但別無(wú)誤會(huì),這不是硬件,而是軟件,它的工作是適配各種AI服務(wù)器,讓它們把推理服務(wù)跑得更歡。



紅帽AI推理服務(wù)器有三大絕技↓

首先,它提供經(jīng)過(guò)加固的、提供持續(xù)支持服務(wù)的vLLM商業(yè)發(fā)行版。

vLLM大家都不陌生吧?堪稱最受歡迎的開(kāi)源推理引擎,市面上生產(chǎn)環(huán)境部署的大模型推理服務(wù),背后都有vLLM的影子。



但有一點(diǎn)你可能不知道,紅帽是vLLM開(kāi)源社區(qū)最大的貢獻(xiàn)者之一。

所以,紅帽推出vLLM發(fā)行版,就好比紅帽是Linux開(kāi)源社區(qū)的領(lǐng)先貢獻(xiàn)者,推出了最流行的企業(yè)級(jí)Linux發(fā)行版RHEL。

“紅帽版vLLM”,底層仍基于開(kāi)源vLLM,但紅帽會(huì)對(duì)其做企業(yè)級(jí)加固,確保更高的穩(wěn)定性、安全性和版本一致性。



按老曹的說(shuō)法,用社區(qū)版vLLM,要自己適配硬件、調(diào)試優(yōu)化、修復(fù)漏洞,遇到bug,也只能依賴社區(qū)issue。

現(xiàn)在用紅帽提供的企業(yè)版vLLM,就能獲得紅帽的企業(yè)級(jí)支持,兼容性保證、bug修復(fù)、安全補(bǔ)丁全部都有人兜底“背鍋”。



vLLM提供多種推理優(yōu)化手段,以便處理數(shù)千億甚至萬(wàn)億參數(shù)規(guī)模的模型。

比如張量并行、流水線并行,還有針對(duì)MoE模型的專家并行,以及面向PD分離場(chǎng)景的數(shù)據(jù)并行。



不止如此,紅帽還在vLLM基礎(chǔ)上做了擴(kuò)展,內(nèi)置模型壓縮器(LLM Compressor),這是個(gè)統(tǒng)一的量化庫(kù),進(jìn)一步優(yōu)化性能,大幅降低顯存占用。

還額外增加了推測(cè)解碼(Speculative Decoding)技術(shù),通過(guò)類似小模型“打草稿”、大模型“審稿”的工作流程,減少大模型逐token解碼次數(shù),從而進(jìn)一步提升推理速度。



更重要的是,紅帽已經(jīng)針對(duì)主流GPU、AI加速卡做好了適配和優(yōu)化,這對(duì)企業(yè)場(chǎng)景很重要,在實(shí)際落地中,支持異構(gòu)硬件是剛需。



老曹深有體會(huì),他去幫客戶做一體機(jī)落地,情況千奇百怪。

客戶原來(lái)只調(diào)好了一臺(tái)一體機(jī),后面要擴(kuò)展的時(shí)候,各種卡、各種硬件都冒出來(lái)了。

此時(shí)用紅帽AI Inference Server,配上官方“蓋章”的vLLM,適配無(wú)壓力、少踩太多坑。



第二,紅帽AI Inference Server用標(biāo)準(zhǔn)化的容器鏡像交付,無(wú)論是在RHEL上,還是在OpenShift環(huán)境下,都可以快速部署。

即便是其他K8s或者其他五花八門(mén)的Linux發(fā)行版,也可以“一次構(gòu)建,處處運(yùn)行”。

這一點(diǎn),老曹也是贊不絕口,真正趟過(guò)行業(yè)落地深水區(qū)的老司機(jī)都懂,各種復(fù)雜的Infra環(huán)境,跨環(huán)境一致性可太重要了。



第三,為了讓推理服務(wù)器運(yùn)行的更輕松,紅帽還悄悄干了一件大事,它們把業(yè)界幾乎所有的熱門(mén)開(kāi)源模型都做了二次優(yōu)化,免費(fèi)提供下載。

你打開(kāi)Hugging Face,跳到紅帽目錄下,一定會(huì)被他家的默默努力所震驚,足足有500多個(gè)優(yōu)化過(guò)的模型,不同版本、尺寸、量化規(guī)格的DeepSeek、Qwen、Kimi、Llama、Mistral…















這對(duì)老曹來(lái)說(shuō),可太方便了,不管客戶們的原來(lái)一體機(jī)想要改跑什么模型,都能搞定。

硬件適配好了,系統(tǒng)適配好了,連模型都給定制優(yōu)化好了,老曹只需要搞點(diǎn)「拿來(lái)主義」,就可以輕松治“爛尾”。



紅帽AI的第二個(gè)神器,叫做:llm-d,面向生產(chǎn)環(huán)境的大規(guī)模AI推理項(xiàng)目。

llm-d是由紅帽發(fā)起的開(kāi)源項(xiàng)目,目標(biāo)就是要打造一個(gè)面向生產(chǎn)環(huán)境的、可調(diào)度、可觀測(cè)、高效率的K8s原生分布式推理平臺(tái)。



是不是看著有點(diǎn)抽象?可是當(dāng)你需要真正在生產(chǎn)環(huán)境大規(guī)模部署AI推理服務(wù)的時(shí)候,這個(gè)東西就是神器。

比如大模型推理的兩個(gè)階段Prefill和Decode,前者需要強(qiáng)計(jì)算,后者需要高顯存帶寬。

讓他倆擠到一個(gè)節(jié)點(diǎn),就會(huì)爭(zhēng)搶資源,降低效率。



此時(shí)用PD分離方案,把他們分別“塞”到不同節(jié)點(diǎn)/Pod,分別優(yōu)化,就能顯著提升推理效率。

但是,節(jié)點(diǎn)多了以后,PD分離部署和調(diào)度靠手搓太麻煩!

此時(shí),llm-d就非常擅長(zhǎng)干這事,它借助官方預(yù)先提供的PD分離配方(Helmfile),指揮好搭檔K8s,一鍵完成部署。



部署完了還不夠,不同的業(yè)務(wù)場(chǎng)景,往往需要不同的PD節(jié)點(diǎn)配比。

所以,你還得做好調(diào)度,持續(xù)監(jiān)測(cè)和優(yōu)化。



這個(gè)時(shí)候,llm-d的智能調(diào)度能力可觀測(cè)性就發(fā)揮出來(lái)。

首先llm-d提供了推理調(diào)度網(wǎng)關(guān)(IGW,Inference Gateway),這就好比是推理流量大腦,負(fù)責(zé)接入流量、調(diào)度流量、管控服務(wù)質(zhì)量。

實(shí)戰(zhàn)中,IGW作為統(tǒng)一入口,接受用戶請(qǐng)求,并綜合多種指標(biāo),智能選擇最優(yōu)的P節(jié)點(diǎn)和D節(jié)點(diǎn),優(yōu)先減少重復(fù)計(jì)算,保證推理效果。



這種操作對(duì)用戶是完全透明的,以前老曹搞完P(guān)D分離部署后,要反復(fù)手搓調(diào)度策略。

現(xiàn)在,交給llm-d,效果又好又省心。



另外,除了K8s原生的那些基礎(chǔ)監(jiān)控能力,llm-d還有專門(mén)針對(duì)模型推理層和分布式層的監(jiān)控指標(biāo),精確判斷PD分離是否健康、調(diào)度是否合理,并跟蹤每一跳的延遲和狀態(tài)。

在實(shí)操中,可以充分利用llm-d提供的這種可觀測(cè)性,進(jìn)行效果評(píng)估、持續(xù)優(yōu)化。



老曹坦言,紅帽AI Inference Server穩(wěn)住了大模型推理的基本盤(pán),堆高了推理的下限。

而llm-d則可以繼續(xù)拉升推理能力的上限,進(jìn)一步壓榨硬件能力,讓老曹得意輕松應(yīng)對(duì)用戶各種千奇百怪的需求。



講到這里,老曹頓了頓,繼續(xù)說(shuō)↓

其實(shí)不止這兩個(gè)寶貝,連紅帽企業(yè)版Linux操作系統(tǒng)RHEL和混合云平臺(tái)OpenShift也都有“AI版”了。



RHEL AI是RHEL的AI增強(qiáng)版,是為大模型和AI工作負(fù)載量身定制的「AI原生Linux」,內(nèi)置AI Inference Server、模型壓縮優(yōu)化、跨加速器支持、模型倉(cāng)庫(kù)、覆蓋AI組件的全生命周期安全。

企業(yè)可以直接把它當(dāng)作AI原生基礎(chǔ)設(shè)施,而不是「裸金屬+裸OS+自己折騰」。



OpenShift AI相當(dāng)于集成了「AI工具鏈+模型推理+模型管理+多云AI適配+Agent開(kāi)發(fā)支持」的AI原生版OpenShift。

OpenShift AI包含端到端的AI/ML生命周期支持,整體打通了從開(kāi)發(fā)、訓(xùn)練、部署,到持續(xù)監(jiān)控、運(yùn)維的AI工作流。



同時(shí),OpenShift AI也繼承了OpenShift的多云、跨云一致性體驗(yàn)。

這就又能讓人少踩很多坑,目前老曹服務(wù)的幾個(gè)大客戶,都開(kāi)始規(guī)劃混合部署了:涉及合規(guī)的放本地,開(kāi)放服務(wù)的放云上,低延遲需求的放業(yè)務(wù)現(xiàn)場(chǎng)…

用了OpenShift AI,客戶在本地生產(chǎn)環(huán)境驗(yàn)證成功的大模型方案,可以輕松搬到任意地點(diǎn)(本地機(jī)房、托管IDC、公有云、邊緣節(jié)點(diǎn))。



講完這些,老曹在白板上擦了又畫(huà)。

開(kāi)始了他的總結(jié):還有一點(diǎn)至關(guān)重要,紅帽AI是100%開(kāi)源的,選擇自由,用著放心,我很看重,客戶們也很看重!



基礎(chǔ)設(shè)施搞定了、AI推理性能上來(lái)了,怎么與業(yè)務(wù)場(chǎng)景結(jié)合,更好的服務(wù)業(yè)務(wù)應(yīng)用呢?

老曹看我還有疑問(wèn),于是講出來(lái)他最后一個(gè)妙招——



這次他算是跟對(duì)人了:紅帽已經(jīng)聯(lián)合CIO社群組織、核心企業(yè)CIO、上下游企業(yè)等,成立了企業(yè)級(jí)AI+專家委員會(huì),與客戶、伙伴一起共創(chuàng),加速企業(yè)級(jí)AI落地。

比如,這份報(bào)告,就是他們匯聚了百位大型企業(yè)CIO真實(shí)調(diào)研數(shù)據(jù),深入分析AI在企業(yè)級(jí)應(yīng)用中的實(shí)踐,對(duì)AI落地太有幫助了……



老曹已經(jīng)有客戶加入了“組織”,老曹自己也要加入,大家一起“共創(chuàng)”。

我一聽(tīng),也立馬來(lái)了精神↓

如今,無(wú)論是國(guó)家層面還是產(chǎn)業(yè)層面,都非??粗亻_(kāi)源,紅帽AI不僅100%開(kāi)源,還提供廣泛的兼容能力、多環(huán)境的一致性體驗(yàn)、覆蓋AI全生命周期的方案…,而且,現(xiàn)在連探索行業(yè)落地的組織保障都有了。

紅帽AI這趟車,千萬(wàn)不能錯(cuò)過(guò)!





特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
釘在恥辱柱上!國(guó)家文物局出手,這三個(gè)跳梁小丑,真的徹底涼涼了

釘在恥辱柱上!國(guó)家文物局出手,這三個(gè)跳梁小丑,真的徹底涼涼了

戶外阿嶄
2025-12-28 17:07:24
剛剛,深夜26家A股上市公司發(fā)布重大利好 利空消息,看看都有哪些?

剛剛,深夜26家A股上市公司發(fā)布重大利好 利空消息,看看都有哪些?

股市皆大事
2025-12-28 21:45:37
云南正在被外籍人口“占領(lǐng)”?30萬(wàn)外國(guó)人扎根不走,真相扎心了

云南正在被外籍人口“占領(lǐng)”?30萬(wàn)外國(guó)人扎根不走,真相扎心了

青眼財(cái)經(jīng)
2025-12-10 22:36:05
彈劾賴清德拉長(zhǎng)戰(zhàn)線,若能在縣市長(zhǎng)選舉中重創(chuàng)民進(jìn)黨也是大成功

彈劾賴清德拉長(zhǎng)戰(zhàn)線,若能在縣市長(zhǎng)選舉中重創(chuàng)民進(jìn)黨也是大成功

海峽導(dǎo)報(bào)社
2025-12-27 08:08:08
越扒越有!不止徐鶯,徐湖平被曝大小情人無(wú)數(shù),日本翻譯都不放過(guò)

越扒越有!不止徐鶯,徐湖平被曝大小情人無(wú)數(shù),日本翻譯都不放過(guò)

丁丁鯉史紀(jì)
2025-12-27 09:36:59
保護(hù)心臟,朝左睡還是朝右睡好?醫(yī)生:若想心臟健康,做好...

保護(hù)心臟,朝左睡還是朝右睡好?醫(yī)生:若想心臟健康,做好...

袁醫(yī)生課堂
2025-12-25 07:34:23
緬北女魔頭魏榕:建立血牛庫(kù),別墅藏帥哥,不聽(tīng)話就賞“肉靈芝”

緬北女魔頭魏榕:建立血牛庫(kù),別墅藏帥哥,不聽(tīng)話就賞“肉靈芝”

刀刃故事
2024-10-08 23:39:48
姚晨發(fā)文紀(jì)念高崎機(jī)場(chǎng)即將關(guān)閉

姚晨發(fā)文紀(jì)念高崎機(jī)場(chǎng)即將關(guān)閉

韓小娛
2025-12-28 08:59:57
定期存款已不是“避風(fēng)港”:2025年末,所有儲(chǔ)戶需要明白殘酷真相

定期存款已不是“避風(fēng)港”:2025年末,所有儲(chǔ)戶需要明白殘酷真相

月影說(shuō)職場(chǎng)
2025-12-12 17:49:05
此人戴手銬走完長(zhǎng)征,開(kāi)國(guó)大典前夕,毛主席見(jiàn)到他問(wèn):你是哪一個(gè)

此人戴手銬走完長(zhǎng)征,開(kāi)國(guó)大典前夕,毛主席見(jiàn)到他問(wèn):你是哪一個(gè)

大運(yùn)河時(shí)空
2025-12-27 13:35:03
全國(guó)人大常委會(huì)批準(zhǔn)任命張升民為中國(guó)人民解放軍選舉委員會(huì)副主任

全國(guó)人大常委會(huì)批準(zhǔn)任命張升民為中國(guó)人民解放軍選舉委員會(huì)副主任

澎湃新聞
2025-12-27 18:40:05
天然氣對(duì)華毀約,加入歐美稀土戰(zhàn)略,哈薩克斯坦這路誰(shuí)教他走的?

天然氣對(duì)華毀約,加入歐美稀土戰(zhàn)略,哈薩克斯坦這路誰(shuí)教他走的?

策略述
2025-12-27 17:20:34
賈躍亭把高山拆了再運(yùn)到美國(guó)組裝,“忽悠”了1萬(wàn)名美國(guó)消費(fèi)者

賈躍亭把高山拆了再運(yùn)到美國(guó)組裝,“忽悠”了1萬(wàn)名美國(guó)消費(fèi)者

劉哥談體育
2025-12-28 04:43:46
新聞30分沒(méi)播毛主席誕辰?別急著罵,看韶山的那碗壽面,你就懂了

新聞30分沒(méi)播毛主席誕辰?別急著罵,看韶山的那碗壽面,你就懂了

文雅筆墨
2025-12-28 11:01:45
中方禁止入境后,美聯(lián)邦國(guó)務(wù)院怒了,我使館警告:島內(nèi)恐成火藥桶

中方禁止入境后,美聯(lián)邦國(guó)務(wù)院怒了,我使館警告:島內(nèi)恐成火藥桶

博覽歷史
2025-12-28 23:41:17
12月28日晚間,多家上市公司發(fā)布重大利好利空好消息

12月28日晚間,多家上市公司發(fā)布重大利好利空好消息

A股數(shù)據(jù)表
2025-12-28 19:01:59
石宇奇獲120萬(wàn)笑出聲!直言天王杯是吃止痛藥堅(jiān)持 為2025年打90分

石宇奇獲120萬(wàn)笑出聲!直言天王杯是吃止痛藥堅(jiān)持 為2025年打90分

顏小白的籃球夢(mèng)
2025-12-28 21:10:11
這8種東西不能用酒精擦,一擦就壞,再也修復(fù)不回來(lái)了!

這8種東西不能用酒精擦,一擦就壞,再也修復(fù)不回來(lái)了!

裝修秀
2025-11-13 11:50:03
換了車我才悟了:寧可多花點(diǎn)錢(qián),汽車也要堅(jiān)持4不買(mǎi)!建議收藏!

換了車我才悟了:寧可多花點(diǎn)錢(qián),汽車也要堅(jiān)持4不買(mǎi)!建議收藏!

藍(lán)色海邊
2025-12-27 07:14:15
阿嬌的瓜又炸了,聊天記錄曝光,顛覆想象

阿嬌的瓜又炸了,聊天記錄曝光,顛覆想象

聽(tīng)風(fēng)聽(tīng)你
2024-12-25 22:41:20
2025-12-29 01:00:49

AI全球總部
AI全球總部
全球最新、最酷AI解決方案
1099文章數(shù) 715關(guān)注度
往期回顧 全部

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

頭條要聞

澤連斯基:若要烏就領(lǐng)土問(wèn)題讓步 "和平計(jì)劃"應(yīng)全民公投

頭條要聞

澤連斯基:若要烏就領(lǐng)土問(wèn)題讓步 "和平計(jì)劃"應(yīng)全民公投

體育要聞

MVP概率達(dá)82.5%!約基奇連超大鳥(niǎo)喬丹

娛樂(lè)要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

健康
家居
親子
手機(jī)
數(shù)碼

這些新療法,讓化療不再那么痛苦

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

親子要聞

保護(hù)孩子寶媽必學(xué),懷疑孩子被侵犯,要少問(wèn)多做情景再現(xiàn)!

手機(jī)要聞

澎湃OS 3正式版再次擴(kuò)容:15款設(shè)備喜提升級(jí),你收到了嗎?

數(shù)碼要聞

曝光的AirPods原型機(jī)顯示,蘋(píng)果曾計(jì)劃推出多彩配色方案!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版