国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

“養(yǎng)蝦”太貴勸退?華為云FlexNPU專治算力“吃空餉”

0
分享至

最近“龍蝦”徹底火了,一個24*7待命的數(shù)字員工,效率直接起飛,看得人心里直癢癢。

不少老板看到后一拍大腿:上!

真把“龍蝦”請進(jìn)公司,劇情開始反轉(zhuǎn):表面上是自動化流水線,背地里卻像是給Token打工,月底一算賬,好家伙,比雇人還貴。

你以為請來的是個全能員工,結(jié)果更像一個“高薪但不太穩(wěn)定的實習(xí)生”。

為什么會這樣呢?因為像“龍蝦”這樣的Agent,其工作方式和過去完全不同。

普通的聊天,一問一答,幾百幾千個Token就結(jié)束了,現(xiàn)在“龍蝦”自主規(guī)劃,多輪迭代,上下文超級長,一個任務(wù)跑下來,動不動就是幾十萬,甚至上百萬 Token。

現(xiàn)在大家通過FlashAttention、混合精度、融合算子、KV Cache池化緩存等技術(shù)拼命優(yōu)化模型、優(yōu)化推理性能,也只能解決單機(jī)的性能問題。

如果把目光移向整個AI算力池,重新審視Token性價比的時候,就會發(fā)現(xiàn)這里的平均推理利用率竟然不到30%,相當(dāng)于花費重金建設(shè)、動輒數(shù)萬、數(shù)十萬卡的AI硬件算力池,竟有超過一半以上的算力在“摸魚,吃空餉”!

面對這個核心挑戰(zhàn),華為云走出了一條創(chuàng)新的道路。

他們沒有再去一味堆模型、卷算力,而是在推理/訓(xùn)練框架和底層算力(比如 CANN、CUDA)之間,插入了一層全新的系統(tǒng)——FlexNPU,你可以把它理解成一個“AI算力操作系統(tǒng)”。

FlexNPU通過創(chuàng)新的虛擬化和智能調(diào)度系統(tǒng),把一塊塊固定僵硬的“硅片”,拆開、重組、再分配,變成了一種可以自由流動的柔性或“液態(tài)化”資源。


就像孫悟空的金箍棒那樣,需要的時候,可以撐到整個集群那么大,不需要的時候,可以縮到一根針那么細(xì),“可大可小、變化隨心”,完全根據(jù)業(yè)務(wù)需求,“隨需而動”。

FlexNPU具體是怎么做的呢? 我們詳細(xì)來看一看。

0 1

讀題目+寫答案:AI算力混合部署

你給大模型發(fā)送了消息后,它就需要讀取你的輸入,建立上下文,相當(dāng)于在考試時把題目完整讀一遍。這一階段叫做Prefill(預(yù)填充),計算量很大,NPU需要全力運(yùn)作。

大模型回答你的時候,就像是“寫答案”,是一個字(token)一個字往外生成,這一階段叫Decode,每次計算量小,但是持續(xù)生成。

由于兩階段任務(wù)的特點不同,所以業(yè)界的主流方案就是PD分離,一個NPU專門讀題目,另一個專門寫答案。


但是在“龍蝦”這種Agent場景下,用戶的請求充滿了極端的上下文和不可預(yù)測性,根本沒法提前規(guī)劃“讀題目”需要多少機(jī)器,“寫答案”需要多少機(jī)器。很容易出現(xiàn)有的機(jī)器閑著,有的忙死。

FlexNPU則采用了一種“PD動態(tài)混合部署”的方法,把“讀題目”和“寫答案”部署在同一套NPU上,然后用負(fù)載感知、算子劫持、資源調(diào)度等技術(shù)來調(diào)度兩種任務(wù)。

當(dāng)系統(tǒng)“寫答案”的時候,如果發(fā)現(xiàn)算力閑著(因為Decode不怎么計算),立刻塞一個“讀題目” (Prefill) 任務(wù)進(jìn)去!


當(dāng)然,這種調(diào)度非常之快(微秒級),讓硬件利用率直接拉滿。最終實現(xiàn)在同等服務(wù)質(zhì)量下,完美解決了傳統(tǒng)PD分離架構(gòu)下Prefill和Decode集群不均衡的AI Core與顯存利用率問題,將帶來至少40%的Token性價比提升空間。

0 2

不會摸魚的打工人:白天接單,晚上加班

中小企業(yè)上AI系統(tǒng),通常需要兩套集群。

一套是“在線集群”,處理白天的實時請求,例如用戶聊天、問答這些需要“秒回”的任務(wù),資源調(diào)度要高效,避免任何卡頓。

另外一套是“離線集群”,處理晚上的非實時任務(wù),如生成embeddings,數(shù)據(jù)清洗、預(yù)處理等,延遲不敏感,可以慢慢排隊等。

這種部署的問題就是白天的實時請求其實不穩(wěn)定,很多時候NPU就用了30%,剩下的70%在發(fā)呆,資源浪費。

能不能把在線任務(wù)和離線任務(wù)在同一套機(jī)器上混著跑呢?

白天優(yōu)先跑在線任務(wù)(用戶請求),同時如果有空閑資源,插入離線任務(wù)。

晚上在線請求變少,系統(tǒng)自動把大部分資源給離線任務(wù)。

華為的FlexNPU就是這么干的,在同一套集群中實現(xiàn)了毫秒級無縫穿插實時請求和非實時任務(wù)。


這就像一個超級打工人,他既能不斷地回答用戶的各種問題,“沒人”的時候見縫插針地去做一些數(shù)據(jù)清洗,文檔總結(jié)的離線任務(wù)。

到了深夜的業(yè)務(wù)低谷期,它會自動釋放出大量計算資源,利用自研的 iTransformer 預(yù)測算法會精準(zhǔn)判斷這些資源能閑置多久,然后協(xié)同彈性引擎立刻把這些空閑資源“調(diào)度”給其他嗷嗷待哺的任務(wù),比如正在排隊的Agent強(qiáng)化學(xué)習(xí)作業(yè)等。

利用這種削峰填谷的方式,每一分的NPU的算力都不浪費。

在華為云內(nèi)部的AI代碼生成和外部MaaS業(yè)務(wù)場景中,這種方式解決了推理業(yè)務(wù)潮汐變化規(guī)律所導(dǎo)致的大量AI算力空轉(zhuǎn)浪費難題,同樣為大模型推理貢獻(xiàn)了至少40%的性價比提升!

0 3

AI合租時代:多模型共卡不打架

研究表明,現(xiàn)在Agent中的任務(wù)很多都是重復(fù)性和專業(yè)化的子任務(wù),比如調(diào)用工具、解析文檔、生成報告。這些工作如果使用千億參數(shù)的“巨無霸”模型,那簡直就是用超級計算機(jī)玩掃雷,是巨大的資源浪費。

最好是把這些子任務(wù)放到小模型中來運(yùn)行,例如一個大模型負(fù)責(zé)路由,一個小模型做記憶壓縮,另外一個做常識推理,還需要一個小模型做摘要提取。


在傳統(tǒng)云上,你得為這四個模型買四張卡,TCO直接爆炸,中小企業(yè)根本扛不住。

當(dāng)然,為了省錢,可以把模型硬塞在一張卡上,但沒有底層資源隔離和精細(xì)調(diào)度,結(jié)果在極端情況下性能會崩。

一個模型突然來一波高并發(fā),占滿了算力和帶寬,直接影響其他模型,推理變慢,延遲增加,甚至超時。

這就像多家公司擠在一個開放辦公區(qū), 雖然分了桌子,但網(wǎng)絡(luò)是共用的,電源是共用的,空調(diào)是共用的。

一家公司開大會,網(wǎng)絡(luò)卡了,別人全被影響。

FlexNPU參照操作系統(tǒng)的理念,接管了物理的NPU資源,通過對AI Core的時分調(diào)度和對顯存的空分調(diào)度,實現(xiàn)了多個AI模型在同一張NPU卡上的精細(xì)化混部。


FlexNPU不但實現(xiàn)最小粒度達(dá)1% NPU卡及128MB顯存的顆粒度的AI Core時分復(fù)用,以及顯存空分復(fù)用。還實現(xiàn)了堅實的QoS與安全隔離。更重要的是可以在運(yùn)行時可按需調(diào)整NPU算力大小、上層業(yè)務(wù)根本感知不到。

實戰(zhàn)效果顯示,在保障時延前提下,單NPU卡部署密度從5個提升到7個,F(xiàn)lexNPU為小模型提供了真正完美匹配其算力訴求、量體裁衣的虛擬NPU資源,將小模型的平均算力成本降低2-3倍以上。真正實現(xiàn)了降本增效。


0 4

斷點續(xù)命:任務(wù)不會再“白干一場”

現(xiàn)在的Agent有個致命的缺點:任務(wù)鏈路特別長。

它不是“一次推理就結(jié)束”,而是需要幾十步甚至上百步,持續(xù)幾分鐘甚至幾十分鐘。

就像你寫一篇幾萬字報告,寫到第95%時,沒有存盤,電腦突然死機(jī)了!

全部白寫,只好從頭再來。

在AI推理的時候也是類似,因為任務(wù)必須一口氣跑完,中間一旦某個NPU出問題, 完了,任務(wù)直接失敗,狀態(tài)丟失,不得不回到第一步從頭兒再來。

你剛剛消耗的Token、算力、時間全部作廢,讓人欲哭無淚。


FlexNPU做了什么呢? 它實現(xiàn)了一套軟硬件解耦的架構(gòu):


推理服務(wù)不再直接綁定物理卡,而是通過虛擬映射實現(xiàn)靈活調(diào)度。

在任務(wù)運(yùn)行的過程中,系統(tǒng)不斷“偷偷”記錄當(dāng)前狀態(tài),比如:模型推理進(jìn)度,中間計算結(jié)果(KV Cache、狀態(tài)機(jī)),Agent 的上下文等。

而且關(guān)鍵點是:開銷極低,你幾乎感覺不到。

這樣一旦發(fā)生問題,F(xiàn)lexNPU就會讀取最近一次快照,恢復(fù)任務(wù)狀態(tài),從中斷點開始執(zhí)行,這一切,秒級即可完成,相當(dāng)于原地滿血復(fù)活了。


這一切對上層完全無感,你不需要寫任何恢復(fù)邏輯,不需要重試機(jī)制,不需要 checkpoint 管理,一切自動完成。

一句話:AI 任務(wù)變得“又長又脆”,而 FlexNPU 讓它變成“又長又穩(wěn)”。

0 5

總結(jié)

從上面的介紹可以看出,F(xiàn)lexNPU通過架構(gòu)創(chuàng)新,為智能體帶來了3重突破性價值。

(1) 動態(tài)混合部署,用戶不需要為閑置資源買單;

(2) 小模型共卡復(fù)用,用戶不需要為生態(tài)冗余買單;

(3) 秒級快速恢復(fù),用戶不需要為硬件故障買單。

華為云FlexNPU所做的一切,其實都是為了一個最終的目標(biāo):降低Agent的入局門檻。

讓每一分錢的AI算力投入,都迸發(fā)出最大化的價值;讓智能體時代海量的Token,人人都能消費得起

值得注意的是,F(xiàn)lexNPU 其實只是華為云整個 AI 解決方案中的一塊拼圖:


在最底層,是 AI 基礎(chǔ)設(shè)施。

依托 CloudMatrix 超節(jié)點和 FlexNPU 這套“柔性智算”能力,華為云解決的,是最核心的問題——算力不再浪費,成本真正可控。為上層各種模型、各種 Agent 形態(tài),提供了一個極致性價比的算力底座。

再往上一層,是模型服務(wù)層。通過 MaaS,華為云把主流開源大模型都“整理好、調(diào)教好”,企業(yè)不需要自己折騰部署和適配,就可以直接使用。

再往上,是開發(fā)者最熟悉的一層:Agent 平臺。這里更像一個“AI 操作臺”, 無論是程序員,還是業(yè)務(wù)人員,都可以通過簡單編排,快速搭建屬于自己的智能體。

最上面這一層,其實是最有意思的:場景工廠。

華為云把過去服務(wù) 2600 多家企業(yè)、500 多個實際場景的經(jīng)驗,沉淀成了 40+ 個高頻 AI 模板。 不需要從零開始,開箱即用,對于中小企業(yè)來說,這一層的價值,甚至是最大的。

華為云給我的感覺就是,它不只在賣各種黑技術(shù),而是深刻地洞察了企業(yè)在使用AI的過程中遇到的各種問題,然后提供了一站式的、全方位的解決方案,這才是正確的AI之路。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
廣東男籃VS山西,開球時間敲定,杜鋒要給老板賺錢,門票能掙多少

廣東男籃VS山西,開球時間敲定,杜鋒要給老板賺錢,門票能掙多少

體育大學(xué)僧
2026-04-19 10:20:29
深圳空姐月入一萬五,負(fù)債102萬,申請個人破產(chǎn)獲立案

深圳空姐月入一萬五,負(fù)債102萬,申請個人破產(chǎn)獲立案

一口老湯
2026-04-19 17:39:21
北影節(jié)紅毯見光死:高圓圓臉黃土氣、戚薇腫脹、被全裹的馬麗驚艷

北影節(jié)紅毯見光死:高圓圓臉黃土氣、戚薇腫脹、被全裹的馬麗驚艷

往史過眼云煙
2026-04-17 14:53:05
白鹿沒想到!和張凌赫的戀情剛曝,他就被鄭麗文帶火了

白鹿沒想到!和張凌赫的戀情剛曝,他就被鄭麗文帶火了

觀察鑒娛
2026-04-19 16:15:19
旅游路上怎么全是大媽?大爺都去哪兒了?網(wǎng)友分析讓人爆笑到飆淚

旅游路上怎么全是大媽?大爺都去哪兒了?網(wǎng)友分析讓人爆笑到飆淚

西樓知趣雜談
2026-04-18 15:31:29
85年黎筍打算認(rèn)輸,讓印度總理當(dāng)“中間人”,鄧公是如何回應(yīng)的?

85年黎筍打算認(rèn)輸,讓印度總理當(dāng)“中間人”,鄧公是如何回應(yīng)的?

大運(yùn)河時空
2026-04-19 09:10:03
以色列麻煩了!比伊朗還狠的角色,已畫下開戰(zhàn)紅線!

以色列麻煩了!比伊朗還狠的角色,已畫下開戰(zhàn)紅線!

財經(jīng)要參
2026-04-19 16:54:53
白酒突然大跌60%,真要涼了嗎?

白酒突然大跌60%,真要涼了嗎?

三農(nóng)老歷
2026-04-19 12:21:47
曼城阿森納巔峰對決!英超魅力強(qiáng)勢回歸,詮釋最純粹的英倫足球

曼城阿森納巔峰對決!英超魅力強(qiáng)勢回歸,詮釋最純粹的英倫足球

夜白侃球
2026-04-20 09:53:29
11年前優(yōu)衣庫男女主現(xiàn)狀曝光,他們還在一起生了兩個孩子

11年前優(yōu)衣庫男女主現(xiàn)狀曝光,他們還在一起生了兩個孩子

半糖甜而不膩
2026-04-06 12:09:15
女大學(xué)生吐槽“普信男”視頻火了,卻因長相被嘲:你也照照鏡子吧

女大學(xué)生吐槽“普信男”視頻火了,卻因長相被嘲:你也照照鏡子吧

世界圈
2026-04-12 00:10:16
張涵予新片《尋龍訣》上映僅1天,觀眾強(qiáng)烈要求下架,罵聲一片

張涵予新片《尋龍訣》上映僅1天,觀眾強(qiáng)烈要求下架,罵聲一片

秋姐居
2026-04-18 19:34:07
蘿莉島大雷出現(xiàn)!比想象中炸裂,牽扯多國總統(tǒng),難怪愛潑斯坦必死

蘿莉島大雷出現(xiàn)!比想象中炸裂,牽扯多國總統(tǒng),難怪愛潑斯坦必死

離離言幾許
2026-02-02 21:16:35
“磨膝大戶”被公布,是跑步的20倍,醫(yī)生:不想軟骨磨光,早扔掉

“磨膝大戶”被公布,是跑步的20倍,醫(yī)生:不想軟骨磨光,早扔掉

垚垚分享健康
2026-04-19 14:35:09
甘肅天水一佳人好漂亮, 身高168cm,體重48kg 美的讓人移不開眼

甘肅天水一佳人好漂亮, 身高168cm,體重48kg 美的讓人移不開眼

鄉(xiāng)野小珥
2026-04-08 00:48:57
車主速看!4月30日前未辦理,5月1日起一律扣分罰款

車主速看!4月30日前未辦理,5月1日起一律扣分罰款

西莫的藝術(shù)宮殿
2026-04-20 08:03:03
反腐再出新規(guī)!5月1日起嚴(yán)糾違規(guī)“人情往來” ,筑牢腐敗防線!

反腐再出新規(guī)!5月1日起嚴(yán)糾違規(guī)“人情往來” ,筑牢腐敗防線!

細(xì)說職場
2026-04-19 16:04:52
何潤東翻紅后,一博主怒問為什么要捧一個美國人?網(wǎng)友的評論絕了

何潤東翻紅后,一博主怒問為什么要捧一個美國人?網(wǎng)友的評論絕了

談史論天地
2026-04-16 11:05:48
臺灣問題即將突破臨界點?兩大跡象表明,大陸可能要準(zhǔn)備出手了

臺灣問題即將突破臨界點?兩大跡象表明,大陸可能要準(zhǔn)備出手了

報君知史
2026-04-19 18:30:25
美軍深陷中東,美專家:中國得到三大戰(zhàn)略獲益?

美軍深陷中東,美專家:中國得到三大戰(zhàn)略獲益?

兵國大事
2026-04-16 00:05:18
2026-04-20 10:47:00
碼農(nóng)翻身 incentive-icons
碼農(nóng)翻身
有趣且硬核的技術(shù)文章
252文章數(shù) 645關(guān)注度
往期回顧 全部

科技要聞

藍(lán)色起源一級火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

失蹤女老板被找到 嫌犯曾改名整容還催警察"還我清白"

頭條要聞

失蹤女老板被找到 嫌犯曾改名整容還催警察"還我清白"

體育要聞

七大獎項候選官宣!文班或全票DPOY

娛樂要聞

章子怡!增重20斤素顏拍新片

財經(jīng)要聞

月之暗面IPO迷局

汽車要聞

外觀非常驚艷 全新一代寶馬6系有望回歸

態(tài)度原創(chuàng)

手機(jī)
旅游
健康
時尚
公開課

手機(jī)要聞

上市還沒半年!三星三折疊屏手機(jī)面臨退市 友商跟華為差距太遠(yuǎn)

旅游要聞

去藝術(shù)現(xiàn)場,赴一次深度游

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

今年最流行的衣服竟然是它?高級又氣質(zhì)!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版