国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

阿里大招震驚老外:將英偉達(dá)顯卡用量降了 82%!

0
分享至


當(dāng)你在深夜打開豆包或ChatGPT,問一句“雙十一買什么好?”,可能沒想到——這一問,背后跑起來的是一整張價(jià)值十幾萬元的A100顯卡。

但除了偶爾這樣回答問題,它的 95% 的時(shí)間卻在“發(fā)呆”。這聽起來有點(diǎn)奢侈,但這就是當(dāng)前大模型市場(chǎng)的現(xiàn)實(shí)。

最近,阿里和北大聯(lián)合團(tuán)隊(duì)在頂級(jí)計(jì)算機(jī)系統(tǒng)會(huì)議上發(fā)表了一篇論文《Aegaeon:面向市場(chǎng)并發(fā)大語言模型推理的高效 GPU 共享系統(tǒng)》,講的就是怎么讓這些“摸魚”的 GPU 忙起來。

他們進(jìn)行了三個(gè)多月的測(cè)試,效果非常震驚:從原本服務(wù)幾十個(gè)模型需要的 1192 張英偉達(dá) H20 顯卡,降到只要 213 張。

直接降了 82%!

他們是怎么做到的?

01| 問題:模型太多,GPU 太閑

現(xiàn)在的大模型市場(chǎng)(比如 Hugging Face)上,動(dòng)輒上百萬個(gè)模型。有的紅的發(fā)紫(比如 DeepSeek、Qwen、Llama),有的卻長期在冷宮——一個(gè)月都沒幾個(gè)人調(diào)用。

但問題來了:

熱門模型 :請(qǐng)求突然暴增,GPU 不夠用,用戶排隊(duì)等回復(fù),我們都體驗(yàn)過 DeepSeek 排隊(duì)的時(shí)候。

冷門模型 :常年沒人用,但為了“隨時(shí)能響應(yīng)”,還得給它獨(dú)占一張 GPU——結(jié)果這張卡一年 99% 的時(shí)間在吃灰。

阿里云內(nèi)部數(shù)據(jù)顯示:17.7% 的 GPU 只處理了 1.35% 的請(qǐng)求。這就像你花 幾十萬 租了一棟別墅,結(jié)果只用來放一個(gè)快遞柜,一年大部分時(shí)間還鎖著門。


擅長降本的中國工程師們,這怎么能忍?

02| 舊方案為啥不行?

這么嚴(yán)重的一個(gè)問題,當(dāng)然有人想過要去優(yōu)化,之前有兩種主流的做法:

“拼車”式多模型共存 (Multiplexing):把兩三個(gè)模型塞進(jìn)同一張 GPU,輪流跑。問題是大模型動(dòng)輒幾十 GB,一張 80G 的卡最多塞倆,再多就爆了。省不了多少。

“隨用隨開”自動(dòng)擴(kuò)縮容 (Auto-scaling):不用的時(shí)候把模型“關(guān)掉”,用的時(shí)候再從內(nèi)存或硬盤“拉起來”。

這聽起來很美,但實(shí)際很慢——加載一個(gè) 13B 模型要好幾秒,用戶早就跑了。

更糟的是,這些系統(tǒng)都是按“整個(gè)請(qǐng)求”來調(diào)度的。

就像餐廳點(diǎn)菜,哪怕你只需要一個(gè)勺子,也必須等到前面客人的一桌菜全上完,你才能點(diǎn)。這種“慢的等所有人”的模式,就是典型的效率卡頓(頭阻塞)。

03| Aegaeon 的妙招


【溫馨提示:這部分非技術(shù)人員跳過也無妨】

Aegaeon 的核心思想很反直覺:

別等一個(gè)請(qǐng)求跑完,而是“邊跑邊換”,像流水線一樣切碎任務(wù)。

它把大模型推理拆成兩個(gè)階段:Prefill(備料階段):讀你輸入的問題,生成第一個(gè)字;Decoding(吐字階段):一個(gè)字一個(gè)字往后吐。

Aegaeon 干了兩件關(guān)鍵事:

1. 按“token”(字)級(jí)別做調(diào)度

不再等一個(gè)請(qǐng)求跑完才切模型;而是每生成幾個(gè)字,就看看有沒有更緊急的任務(wù),有就立刻切換。

這樣,一張 GPU 可以同時(shí)服務(wù) 7 個(gè)甚至更多模型,而不是 2~3 個(gè)。

2. 把“切換成本”壓到極致

傳統(tǒng)切換要 10 秒以上,Aegaeon 通過三大優(yōu)化,把開銷砍掉 97%:

  • 組件復(fù)用:推理引擎只初始化一次,模型權(quán)重單獨(dú)換;

  • 顯存自管:自己管內(nèi)存分配,避免碎片,不用反復(fù)“垃圾回收”;

  • KV Cache 精細(xì)同步:KV Cache 相當(dāng)于模型在吐字時(shí)記下的“關(guān)鍵筆記”,用于加速后續(xù)生成。

Aegaeon 優(yōu)化了數(shù)據(jù)搬運(yùn)和計(jì)算流程,讓它們可以同時(shí)進(jìn)行,互不干擾,實(shí)現(xiàn)了亞秒級(jí)切換。


聽到這是不是有點(diǎn)懵,又有點(diǎn)似曾相似?

沒錯(cuò),實(shí)際上 Aegaeon 這種“隨時(shí)中斷,切換緊急任務(wù)”的邏輯,跟我們到電腦操作系統(tǒng)里面的 CPU 調(diào)度(即“搶占式調(diào)度”)原理很像。

CPU 也是把程序執(zhí)行切成時(shí)間片來輪換,以至于我們會(huì)認(rèn)為它在并發(fā)處理多個(gè)任務(wù)。

但 CPU 切換任務(wù)的開銷很小,大模型可不一樣,它涉及到數(shù) GB 數(shù)據(jù)的搬運(yùn)。所以,阿里牛逼的地方是能把這種昂貴的切換開銷壓到最低,做到秒級(jí)切換。

04|效果有多猛?

有效吞吐量提示 1.5~9 倍:同樣硬件,能服務(wù)更多用戶;

支持請(qǐng)求速率提高 2~2.5 倍:高峰期也不卡;

生產(chǎn)環(huán)境實(shí)測(cè):原本需要 1192 張 H20 GPU;用 Aegaeon 后,只需 213 張;省下 82% 的 GPU 資源,相當(dāng)于省下幾千萬的硬件和電費(fèi)!

而且,用戶完全無感,沒人覺得“變慢了”。

05|為什么這事很重要?


現(xiàn)在的大模型競(jìng)爭,焦點(diǎn)往往是誰的參數(shù)更大、誰擁有的 GPU 數(shù)量更多。

但現(xiàn)實(shí)是:真正的競(jìng)爭優(yōu)勢(shì)在于極致的工程效率,在于能否將每一分算力榨干,實(shí)現(xiàn)成本結(jié)構(gòu)的根本性優(yōu)化。

像阿里云、 DeepSeek 這樣的中國團(tuán)隊(duì)已經(jīng)證明,要打出大廠級(jí)別的效果,靠的不是資源堆砌,而是對(duì)算力的最優(yōu)利用以及在算法層面的突破。

有海外網(wǎng)友一針見血地評(píng)論:“中國團(tuán)隊(duì)正努力讓 AI 變得更高效、更便宜,而美國卻被‘必須買更多 GPU’的迷思困住了。”

另一位網(wǎng)友感慨:“DeepSeek 把 API 價(jià)格砍半,這不是營銷,是成本革命?!?/p>

當(dāng)潮水退去,真正能走進(jìn)千行百業(yè)、實(shí)現(xiàn)大規(guī)模普及的 AI,從來不是最“大”或最“貴”的那個(gè),而是品質(zhì)可靠、性價(jià)比最高的那個(gè)。

附:關(guān)鍵詞解釋

論文地址:https://ennanzhai.github.io/pub/sosp25-aegaeon.pdf

如果你覺得這篇文章有用,歡迎轉(zhuǎn)發(fā)給那個(gè)總在抱怨“GPU 不夠用”的朋友

本文由「AI 范兒」出品

感謝你看到這里,如果覺得不錯(cuò),那就請(qǐng)幫忙點(diǎn)個(gè)贊、愛心、轉(zhuǎn)發(fā)三連吧,這對(duì)我們非常有幫助。如果想第一時(shí)間收到推送,也可以給我們加個(gè)星標(biāo)?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
香港魔幻騙局:騙子租豪宅立人設(shè),洪金寶江美儀等明星,被騙數(shù)億

香港魔幻騙局:騙子租豪宅立人設(shè),洪金寶江美儀等明星,被騙數(shù)億

80后房車生活
2025-12-23 16:27:24
演員王子奇致歉:很抱歉給環(huán)衛(wèi)造成了困擾以及沒有意識(shí)到自己行為存在的潛在風(fēng)險(xiǎn)

演員王子奇致歉:很抱歉給環(huán)衛(wèi)造成了困擾以及沒有意識(shí)到自己行為存在的潛在風(fēng)險(xiǎn)

東方不敗然多多
2025-12-25 13:54:39
美國提醒日本,小心被中國揍,日本天皇急召高市早苗,有要事交代

美國提醒日本,小心被中國揍,日本天皇急召高市早苗,有要事交代

墨印齋
2025-12-25 15:04:35
南博背后勢(shì)力已冒頭!舉報(bào)人被恐嚇 知情人曝新進(jìn)展,一個(gè)都跑不了

南博背后勢(shì)力已冒頭!舉報(bào)人被恐嚇 知情人曝新進(jìn)展,一個(gè)都跑不了

鋭娛之樂
2025-12-25 12:37:35
鄭州中原保時(shí)捷4S店全員離職,資金去向成謎,高管集體跳槽

鄭州中原保時(shí)捷4S店全員離職,資金去向成謎,高管集體跳槽

讓心靈得以棲息
2025-12-24 19:35:25
攜程強(qiáng)推柬埔寨惹眾怒,300萬人卸載后緊急澄清:合作從未啟動(dòng)

攜程強(qiáng)推柬埔寨惹眾怒,300萬人卸載后緊急澄清:合作從未啟動(dòng)

胡嚴(yán)亂語
2025-12-25 15:18:19
中央批準(zhǔn):C9常務(wù)副書記,出任985大學(xué)黨委書記(副部長級(jí))

中央批準(zhǔn):C9常務(wù)副書記,出任985大學(xué)黨委書記(副部長級(jí))

雙一流高校
2025-12-24 18:59:14
國家全面出擊!2026年元旦起,存取現(xiàn)金將統(tǒng)一按“新規(guī)”執(zhí)行!

國家全面出擊!2026年元旦起,存取現(xiàn)金將統(tǒng)一按“新規(guī)”執(zhí)行!

今朝牛馬
2025-12-22 22:24:33
他無顯赫出身,靠4任妻子成為知名人物,活到97歲

他無顯赫出身,靠4任妻子成為知名人物,活到97歲

古書記史
2025-12-19 18:18:41
《老舅》結(jié)局前瞻:陷害郭大炮真兇浮出水面,早已經(jīng)露臉,身邊人

《老舅》結(jié)局前瞻:陷害郭大炮真兇浮出水面,早已經(jīng)露臉,身邊人

立場(chǎng)影視
2025-12-24 18:41:19
再砍27分6板4助2斷,大威少離311工程又近一步

再砍27分6板4助2斷,大威少離311工程又近一步

大眼瞄世界
2025-12-24 22:28:36
Lisa又被罵低俗!穿高衩衣、裸露屁股 網(wǎng)友崩潰:帶壞小孩子

Lisa又被罵低俗!穿高衩衣、裸露屁股 網(wǎng)友崩潰:帶壞小孩子

桑葚愛動(dòng)畫
2025-12-24 16:21:15
海南封關(guān)運(yùn)作后,就相當(dāng)于中國版的新加坡正式上線了。

海南封關(guān)運(yùn)作后,就相當(dāng)于中國版的新加坡正式上線了。

流蘇晚晴
2025-12-21 16:05:12
《時(shí)代》雜志評(píng)選100部最偉大的長篇小說

《時(shí)代》雜志評(píng)選100部最偉大的長篇小說

美劇組|人人影視
2025-12-22 22:59:23
大媽把癱瘓丈夫送進(jìn)養(yǎng)老院,丈夫哀求她,大媽卻說:這是你自找的

大媽把癱瘓丈夫送進(jìn)養(yǎng)老院,丈夫哀求她,大媽卻說:這是你自找的

人間百態(tài)大全
2025-12-20 06:50:03
中國跳高女運(yùn)動(dòng)員,人均“超?!鄙聿?,看的我眼睛都直了……

中國跳高女運(yùn)動(dòng)員,人均“超?!鄙聿?,看的我眼睛都直了……

健身迷
2025-12-25 09:55:34
小米SU7訂單真相:雷軍到底有沒有吹牛?

小米SU7訂單真相:雷軍到底有沒有吹牛?

科技專家
2025-12-25 16:21:40
港獨(dú)害人害己:黃之鋒父親賤賣房產(chǎn)舉家飛國外,不會(huì)被世界原諒!

港獨(dú)害人害己:黃之鋒父親賤賣房產(chǎn)舉家飛國外,不會(huì)被世界原諒!

凡知
2025-12-23 18:59:57
A股:今天上漲到3959.62點(diǎn),不出所料的話,明天行情大概率這樣走

A股:今天上漲到3959.62點(diǎn),不出所料的話,明天行情大概率這樣走

丁丁鯉史紀(jì)
2025-12-25 15:07:09
曠世奇案,只此一件

曠世奇案,只此一件

我是歷史其實(shí)挺有趣
2025-12-24 10:42:04
2025-12-25 17:15:00
AI范兒 incentive-icons
AI范兒
AI范兒是一個(gè)專注于人工智能領(lǐng)域的資訊和學(xué)習(xí)平臺(tái),提供最新的人工智能資訊
624文章數(shù) 337關(guān)注度
往期回顧 全部

數(shù)碼要聞

高端PC廠商CEO直呼內(nèi)存短缺20年僅見!還將延續(xù)數(shù)年

頭條要聞

洪秀柱贊鄭麗文:確實(shí)讓外界感覺到國民黨"不一樣了"

頭條要聞

洪秀柱贊鄭麗文:確實(shí)讓外界感覺到國民黨"不一樣了"

體育要聞

單賽季11冠,羽壇“安洗瑩時(shí)代”真的來了

娛樂要聞

朱孝天把阿信好意當(dāng)球踢!

財(cái)經(jīng)要聞

時(shí)隔15月,人民幣升破7,三大推手曝光

科技要聞

屠龍少年被"招安"!英偉達(dá)平安夜豪擲200億

汽車要聞

預(yù)售31.3萬元起 全新奧迪Q5L將于1月內(nèi)上市

態(tài)度原創(chuàng)

教育
家居
手機(jī)
數(shù)碼
軍事航空

教育要聞

老師比公辦學(xué)校更嚴(yán)格、更負(fù)責(zé)!南京這所新晉民辦“頂流”學(xué)校成績曝光!

家居要聞

經(jīng)典彌新 品味浪漫居所

手機(jī)要聞

鴻蒙AI加持的華為Mate 80系列體驗(yàn)如何?用了就離不開

數(shù)碼要聞

小米智能家庭屏11亮相,今晚7點(diǎn)發(fā)布

軍事要聞

澤連斯基版“和平計(jì)劃”透露哪些信息

無障礙瀏覽 進(jìn)入關(guān)懷版