国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

推理成本太高、算力不夠用?單純堆卡沒用,得靠極致的“壓縮”與“調(diào)度” | AICon

0
分享至


大模型落地最痛的領(lǐng)悟是什么?是模型訓(xùn)練出來了,但推不起。

在實(shí)際應(yīng)用中,推理成本高昂、算力需求巨大,直接制約了業(yè)務(wù)的廣泛落地。大模型在實(shí)際應(yīng)用中面臨的挑戰(zhàn)不僅是“快不快”,更是“省不省”。本專題將跳出表面的參數(shù)微調(diào),系統(tǒng)性地探討從知識蒸餾、模型量化等壓縮方法,到 PagedAttention 等高效推理算法,再到邊緣設(shè)備上的低延遲部署實(shí)踐。

為了確保技術(shù)方案的可落地性,在12 月 19 日 -20 日 AICon 全球人工智能開發(fā)與應(yīng)用大會(北京站)上,我們特邀阿里云資深技術(shù)專家劉崢擔(dān)任本專題出品人。劉崢是 CCF 系統(tǒng)軟件專委會委員,曾參與 Mooncake 開源項(xiàng)目的籌建,并在 SOSP、ASPLOS 等頂會發(fā)表多篇論文。在他對“AI 基礎(chǔ)設(shè)施”與“下一代數(shù)據(jù)中心系統(tǒng)軟件”的深厚理解下,本專題將為您呈現(xiàn)一套從云端到邊緣、從算法到系統(tǒng)軟件的可量化 TCO 優(yōu)化方案。

ModelTC 開源社區(qū):大模型生產(chǎn)太貴?你需要一套“工業(yè)級”工具鏈

大模型時代的模型生產(chǎn)成本令人咋舌:模型尺寸大、并行規(guī)模大、服務(wù)并發(fā)高。對于企業(yè)而言,如果沒有一套體系化的工具鏈,模型的迭代效率和研發(fā)成本將成為不可承受之重。ModelTC 開源社區(qū)負(fù)責(zé)人龔睿昊帶來的分享,正是為了解決這一核心痛點(diǎn)——如何構(gòu)建一套覆蓋訓(xùn)練、壓縮到推理部署的全流程工業(yè)級工具鏈。

作為商湯科技研究院大模型工具體系團(tuán)隊(duì)負(fù)責(zé)人,龔睿昊將深入解析 Light 系列推理工具生態(tài)背后的系統(tǒng)實(shí)現(xiàn)原理。面對視頻、圖像、語音等多模態(tài)挑戰(zhàn),他將介紹如何利用多進(jìn)程架構(gòu)實(shí)現(xiàn)模態(tài)的伸縮與擴(kuò)展。在最關(guān)鍵的“模型瘦身”環(huán)節(jié),他將詳細(xì)拆解團(tuán)隊(duì)在多維度壓縮方法上的探索,包括量化、Token Pruning、稀疏化以及 Cache 復(fù)用技術(shù),這些技術(shù)組合拳旨在在不損失精度的前提下極致降低資源消耗。

更具意義的是,針對當(dāng)前火熱的視頻生成場景,龔睿昊將分享高質(zhì)量 4 步蒸餾技術(shù)的工程實(shí)踐。同時,針對大規(guī)模服務(wù)的實(shí)時彈性需求,他將展示動態(tài)擴(kuò)縮容設(shè)計的架構(gòu)細(xì)節(jié)。

阿里巴巴:以 KVCache 為中心,重構(gòu)云上 LLM 推理軟件棧

在大模型推理中,成本、吞吐與長上下文管理始終是核心瓶頸。特別是隨著 PD 分離架構(gòu)的普及,如何處理不同階段帶來的資源特性差異,成為了云原生環(huán)境下的新難題。阿里巴巴高級技術(shù)專家馬騰博士將深度復(fù)盤開源項(xiàng)目 Mooncake(4K Star),揭秘如何構(gòu)建一個以 KVCache 為核心的云上推理軟件棧。

馬騰博士將在演講中展示 Mooncake 架構(gòu)的核心邏輯:以共享 KVCache 為中心,實(shí)現(xiàn)上下文復(fù)用與內(nèi)存池化,從而避免重復(fù)計算。他將詳細(xì)介紹 Transfer Engine、KVCache Store 與分層上下文緩存等組件,是如何將 PD 分離、異構(gòu)并行與零拷貝傳輸(RDMA/GPUDirect)有機(jī)結(jié)合的。這套架構(gòu)在真實(shí)業(yè)務(wù)中展現(xiàn)了驚人的效能:QPS 提升超 3 倍,GPU 利用率從不足 40% 提升至約 75%,同時內(nèi)存占用下降約 40%。

為了解決云原生環(huán)境下的部署與運(yùn)維難題,馬騰博士還將重點(diǎn)剖析 RBG 與 AIGW 的協(xié)同機(jī)制。RBG 提供了基于“角色”的聲明式編排、DAG 啟動順序與精細(xì)擴(kuò)縮容能力,確保復(fù)雜多角色集群能實(shí)現(xiàn)無感變更;而 AIGW 則提供了緩存感知的全局路由與過載保護(hù),實(shí)現(xiàn)了請求級的 KVCache 親和與多租戶 QoS 保障。這是一套已經(jīng)接入 vLLM、SGLang 等主流社區(qū),并能在大規(guī)模生產(chǎn)環(huán)境中將 PD 分離的性能優(yōu)勢穩(wěn)定轉(zhuǎn)化為可運(yùn)維產(chǎn)能的完整工程方案。

OPPO:把大模型裝進(jìn)手機(jī),端側(cè)化算法的“瘦身”魔法

近兩年,雖然小規(guī)模模型的性能飛速發(fā)展,端側(cè)算力也在不斷增強(qiáng),但要將多模態(tài)大模型真正部署在手機(jī)等移動設(shè)備上,依然面臨著算力受限、功耗控制與更新迭代慢的巨大挑戰(zhàn)。OPPO AI 中心大模型算法部端側(cè)化算法組負(fù)責(zé)人宋曉輝將分享 OPPO 從 0 到 1 建立的大模型端側(cè)化算法技術(shù)棧,揭秘支撐 OPPO 端側(cè)智慧語音與 AI 搜索等線上業(yè)務(wù)背后的黑科技。

宋曉輝將在演講中展示 OPPO 最新的端側(cè)化技術(shù)路線圖,其核心突破在于自研的 QALFT 端側(cè)量化感知訓(xùn)練框架。傳統(tǒng)的離線量化(PTQ)往往會有精度損失,而 QALFT 支持端到端的量化損失訓(xùn)練,能夠直接繞過 PTQ 步驟,與芯片平臺的量化格式徹底打通,為業(yè)務(wù)解耦優(yōu)化和高效 OTA 升級提供了堅實(shí)支持。

在具體的性能指標(biāo)上,宋曉輝將分享他們在稀疏化與編解碼加速方面的領(lǐng)先實(shí)踐。通過這一整套技術(shù)棧,OPPO 在端側(cè)實(shí)現(xiàn)了對最高 128k 超長上下文的支持,以及在通用場景下高達(dá) 240token/s 的解碼速度。

清程極智:跨越 CUDA 限制,面向多算力平臺的量化推理突圍

隨著大模型加速落地,企業(yè)面臨著算力需求爆發(fā)與多樣性的雙重壓力。一方面是硬件異構(gòu)化嚴(yán)重,GPU、NPU、DCU 與 CPU 并存;另一方面是精度演進(jìn)迅速,從 FP16 到 FP8 再到 FP4,適配難度呈指數(shù)級上升。且海外主流推理引擎高度依賴 NVIDIA 生態(tài),導(dǎo)致國產(chǎn)算力適配極其困難。清程極智 CEO 湯雄超博士將在演講中介紹赤兔推理引擎如何通過“算法 + 引擎 + 算子”的聯(lián)合優(yōu)化,打破這一困局。

湯雄超博士將深入解析赤兔引擎的設(shè)計哲學(xué),即從傳統(tǒng)的“m×n 優(yōu)化爆炸”轉(zhuǎn)向高效的“m+n 復(fù)用”設(shè)計。赤兔選擇了從聯(lián)合優(yōu)化出發(fā),突破 CUDA native 的限制,構(gòu)建了國產(chǎn)算力、引擎與模型的閉環(huán)。他將重點(diǎn)介紹赤兔在精度優(yōu)化上的創(chuàng)新,包括 Soft Float8 在線轉(zhuǎn)換機(jī)制以及將 FP8 方案擴(kuò)展至 FP4 的技術(shù)路徑,這使得在國產(chǎn) GPU、NPU 等多平臺上實(shí)現(xiàn)通用高效推理成為可能。

在系統(tǒng)架構(gòu)層面,湯雄超博士將拆解赤兔推理引擎的模塊化設(shè)計,包括算力抽象層、量化優(yōu)化層與推理執(zhí)行層。聽眾將深入了解 Layout as a Type、融合算子分發(fā)機(jī)制以及混合 KV Cache 管理等核心技術(shù)細(xì)節(jié),以及引擎對 EP+DP+TP+PP 多并行模式的支持。

結(jié)語

從 ModelTC 對工業(yè)級工具鏈的體系化建設(shè),到阿里巴巴對云上 KVCache 資源的極致調(diào)度;從 OPPO 在手機(jī)端側(cè)的量化瘦身,到清程極智在異構(gòu)算力平臺上的通用突圍。這四場演講,覆蓋了從云端大規(guī)模集群到邊緣移動設(shè)備,從通用 GPU 到國產(chǎn)異構(gòu)算力的推理優(yōu)化版圖。

對于致力于降低 AI 落地成本、提升系統(tǒng)響應(yīng)速度的技術(shù)決策者而言,這四份來自一線的工程實(shí)踐,提供了從算法壓縮到系統(tǒng)調(diào)度的全套解決方案。在這里,我們將一起見證大模型如何從“昂貴的玩具”變成“普惠的生產(chǎn)力”。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
廣東江門一施工棧橋發(fā)生汽車墜河事件 致一家五口死亡

廣東江門一施工棧橋發(fā)生汽車墜河事件 致一家五口死亡

新京報
2025-12-25 23:20:02
敖德薩遭襲,此前澤連斯基變卦、變卦、又變卦

敖德薩遭襲,此前澤連斯基變卦、變卦、又變卦

新民晚報
2025-12-26 09:03:19
玥兒箖箖驚喜出鏡,馬筱梅圣誕家中待客,倆孩子已有新的社交圈

玥兒箖箖驚喜出鏡,馬筱梅圣誕家中待客,倆孩子已有新的社交圈

調(diào)侃國際觀點(diǎn)
2025-12-26 20:11:11
“AI教母”李飛飛最新采訪:K12教育是浪費(fèi)學(xué)生時間,靠AI都可以做到

“AI教母”李飛飛最新采訪:K12教育是浪費(fèi)學(xué)生時間,靠AI都可以做到

智車星球
2025-12-24 22:53:38
住院5天點(diǎn)了48頓VIP餐,男子續(xù)保被拒,一家三口想換其他保險公司也被風(fēng)控;保險公司回應(yīng):該產(chǎn)品不保證續(xù)保

住院5天點(diǎn)了48頓VIP餐,男子續(xù)保被拒,一家三口想換其他保險公司也被風(fēng)控;保險公司回應(yīng):該產(chǎn)品不保證續(xù)保

揚(yáng)子晚報
2025-12-26 12:36:59
天塹變通途!極氪001車隊(duì)首批穿越天山勝利隧道,南北疆從此邁入“一日往返”時代

天塹變通途!極氪001車隊(duì)首批穿越天山勝利隧道,南北疆從此邁入“一日往返”時代

魯中晨報
2025-12-26 19:16:51
北極為什么沒有企鵝?當(dāng)年放養(yǎng)北極的69只企鵝,后來怎么樣了?

北極為什么沒有企鵝?當(dāng)年放養(yǎng)北極的69只企鵝,后來怎么樣了?

半解智士
2025-12-25 20:01:24
南京博物館事件后,全國博物館紛紛關(guān)閉:施工關(guān)閉、臨時關(guān)閉

南京博物館事件后,全國博物館紛紛關(guān)閉:施工關(guān)閉、臨時關(guān)閉

爆角追蹤
2025-12-26 11:02:32
姜昆回應(yīng),視頻為拼接,人一直在國內(nèi),蹭熱度的楊儀又被打臉了

姜昆回應(yīng),視頻為拼接,人一直在國內(nèi),蹭熱度的楊儀又被打臉了

李健政觀察
2025-12-26 12:19:52
Lisa在圣誕節(jié)二登瘋馬秀,由男友三公子陪同,直接打臉洗白的粉絲

Lisa在圣誕節(jié)二登瘋馬秀,由男友三公子陪同,直接打臉洗白的粉絲

芊手若
2025-12-26 15:32:19
食堂承包商舉報校領(lǐng)導(dǎo)兩年拿走300多萬現(xiàn)金,官方回應(yīng):已組成聯(lián)合調(diào)查組,盡快查清事實(shí),依規(guī)依紀(jì)依法處理

食堂承包商舉報校領(lǐng)導(dǎo)兩年拿走300多萬現(xiàn)金,官方回應(yīng):已組成聯(lián)合調(diào)查組,盡快查清事實(shí),依規(guī)依紀(jì)依法處理

新京報政事兒
2025-12-26 20:23:02
你聽過最勁爆的瓜是啥?網(wǎng)友:被大八歲的補(bǔ)習(xí)班老師表白了

你聽過最勁爆的瓜是啥?網(wǎng)友:被大八歲的補(bǔ)習(xí)班老師表白了

帶你感受人間冷暖
2025-11-26 00:10:06
殲-36雙機(jī)編隊(duì)首飛,用實(shí)力為美國航母劃下4000公里生死紅線

殲-36雙機(jī)編隊(duì)首飛,用實(shí)力為美國航母劃下4000公里生死紅線

哲叔視野
2025-12-26 10:26:31
他們?yōu)楹渭庇谧N攜程?

他們?yōu)楹渭庇谧N攜程?

智識漂流
2025-12-25 20:09:36
國家衛(wèi)健委:希望黨政機(jī)關(guān)、企事業(yè)單位、社會組織每年都能組織員工參與團(tuán)體無償獻(xiàn)血

國家衛(wèi)健委:希望黨政機(jī)關(guān)、企事業(yè)單位、社會組織每年都能組織員工參與團(tuán)體無償獻(xiàn)血

紅星新聞
2025-12-26 17:42:26
43犯44罰!6分險勝山東,廣東3人滿分1人奇兵,徐杰打出封神一戰(zhàn)

43犯44罰!6分險勝山東,廣東3人滿分1人奇兵,徐杰打出封神一戰(zhàn)

后仰大風(fēng)車
2025-12-26 21:48:41
頂流空降深圳!有人早上開始排隊(duì)

頂流空降深圳!有人早上開始排隊(duì)

深圳晚報
2025-12-26 22:19:48
身在美國卻說和祖國不能分割,姜昆的圣誕離岸愛國秀,諷刺感拉滿

身在美國卻說和祖國不能分割,姜昆的圣誕離岸愛國秀,諷刺感拉滿

歷史總在押韻
2025-12-25 22:58:56
陳皮加它一煮,沾床就睡著!疏肝解郁安神,這法子讓我一覺到天亮

陳皮加它一煮,沾床就睡著!疏肝解郁安神,這法子讓我一覺到天亮

江江食研社
2025-12-26 07:30:06
被閨蜜和丈夫雙重背叛,女子“一夜白頭”!原配告第三者重婚案今日開庭

被閨蜜和丈夫雙重背叛,女子“一夜白頭”!原配告第三者重婚案今日開庭

環(huán)球網(wǎng)資訊
2025-12-26 18:39:08
2025-12-27 00:47:00
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
11874文章數(shù) 51656關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

體育要聞

開翻航母之后,他決定親手造一艘航母

娛樂要聞

王傳君生病后近照變化大,面部浮腫

財經(jīng)要聞

投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

汽車要聞

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

態(tài)度原創(chuàng)

游戲
教育
旅游
親子
本地

PS6或兼容PS1-PS5全世代游戲!索尼新專利曝光

教育要聞

鼓樓熱門民辦動了!2026小升初最新消息

旅游要聞

多家博物館公告:暫停開放

親子要聞

女星為生二胎減重20斤,面對鏡頭哭訴:我明年45歲了,很怕懷不上

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

無障礙瀏覽 進(jìn)入關(guān)懷版