国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型“造夢”,推理引擎“還債”,CTO們正在還AI的“應用賬”

0
分享至

站在2025年中,回顧半年來大模型的發(fā)展,以年初DeepSeek爆火為標志,大模型快速蛻變角色,走出實驗室,真正融入企業(yè)核心業(yè)務系統(tǒng),在政務、金融、醫(yī)療、能源等領域加速落地。

隨著大模型走向深度應用,CTO從關注基礎模型轉向推理引擎,推理過程中的資源消耗,每一度電、每一塊錢、每一分鐘所能產(chǎn)出的Token數(shù)量,正在成為衡量一家公司在AI時代先進性的關鍵指標。

怎么用推理引擎提升推理效率、榨干每一塊算力的價值、盡可能降低推理成本,已經(jīng)成為CTO們必須解決的問題。

01 大模型跑不動,是因為推理引擎不給力

什么是推理引擎?

簡單來說就是一套專門負責讓大模型“跑”起來的系統(tǒng),既負責“怎么算”,又負責“在哪算”和“算得多快”,盡可能提高大模型推理的響應速度、并發(fā)能力和算力資源利用率。

如果說大模型是發(fā)動機,推理引擎就是動力總成,決定了發(fā)動機在不同道路、不同油品、不同氣候下是否能高效運轉。調(diào)校得當,就能低延遲、高吞吐、低成本;調(diào)校不佳,再強的模型也可能“燒油多、輸出低”。

大約從2023年開始,推理引擎開始作為一個獨立賽道興起,陸續(xù)出現(xiàn)了TGI、vLLM、TensorRT、SGLang等面向推理效率優(yōu)化的開源項目。彼時業(yè)界的注意力還停留在“大煉模型”上,對推理引擎的需要求不高——能用就行。

2025年初是一個分水嶺。

DeepSeek為代表的一批大模型開源后,企業(yè)對AI的態(tài)度由觀望轉向行動,紛紛采購算力、治理數(shù)據(jù)、微調(diào)模型,落地部署時卻發(fā)現(xiàn):推理響應慢、吞吐跟不上、成本高昂。

90%的算力花在了推理上,結果又貴又慢,連“謝謝”都不敢多說一句,幾乎談不上性價比。

大模型推理到底難在哪里呢?答案是效果、性能、成本的“不可能三角”。

想要效果好,就得用更大的模型、更高的精度、更長的上下文,但算力開銷就上去了;想要跑得快、響應快,就要用緩存、做批處理、圖優(yōu)化,可能影響模型輸出的質量;想要成本低,就要壓縮模型、降低顯存、用更便宜的算力,又可能會犧牲推理的性能或準確率。

企業(yè)的CTO們在為大模型推理焦慮時,推理引擎賽道也“熱鬧”了起來,不少在AI應用上“搶跑”的大廠,同樣意識到了推理引擎的短板,試圖將自己摸索出的經(jīng)驗,做成標準化產(chǎn)品和服務,幫企業(yè)壓下這筆越來越沉重的應用賬。

比如英偉達發(fā)布了推理框架Dynamo;AWS的SageMaker提供了多項增強功能提高大模型推理的吞吐量、延遲和可用性;京東云推出了JoyBuilder推理引擎,可將推理成本降低90%

一句話來總結:大模型能力再強,沒有高效的推理引擎,就像一輛發(fā)動機不行的跑車,只能原地轟油門。

02 為了推理快、省、穩(wěn),大廠都在死磕工程創(chuàng)新

過去為了提高推理能力,思路主要放在模型上,通過剪枝、蒸餾、量化等技術給大模型“瘦身”。越來越多企業(yè)發(fā)現(xiàn),如果推理過程上存在太多短板,模型再怎么輕,推理的效能也上不去,必須要優(yōu)化推理流程。

在理解工程創(chuàng)新的思路前,先把大模型的推理過程拆解一下:

第一階段(Prefill):先聽懂你在說什么。

就像人聊天前要先把對方說的話聽清楚、理解透,大模型的第一步,就是認真“讀題”,一字一句地“消化”,并在腦子里畫好一套“思考地圖”(KVCache)。

第二個階段(Decode):一字一句地回答你。

不是一下子把答案全說完,而是一字一句地往下寫,每寫一個字,都會根據(jù)剛才的思路更新一下自己的“思路地圖”,確保后面寫的內(nèi)容更連貫、更合理。

AWS、京東云、英偉達、谷歌云等,都在“死磕”工程創(chuàng)新。

比如優(yōu)化“思考地圖”,如果“思考地圖”又大又亂,占了GPU大量空間還查得慢,就會成為性能瓶頸。

AWS SageMaker和谷歌云Vertex AI的做法是給“思考地圖”建了一個“緩存共享中心”,動態(tài)調(diào)度顯存資源:誰先用、誰能共用、誰暫時擱置,都安排得明明白白,盡可能讓GPU的價值“壓榨到極致”。

京東云JoyBuilder推理引擎和英偉達的Dynamo,則進一步給出一種“以存代算”的解法:直接把“思考地圖”從GPU挪出去。其中京東云通過自研的云海AI存儲,支持PB級緩存擴展,并配合高效檢索算法與負載感知調(diào)度,直接將多輪對話和長文本處理的響應時延壓縮了60%。

再比如將“聽”和“說”分離,相當于開會時讓“準備”和“發(fā)言”同步進行,避免出現(xiàn)“干等閑耗”的場景。

其中AWS不只實現(xiàn)了“聽”和“說”分離,還改變了大模型說話的方式,不再是“想到哪說到哪”,而是提前整理好了大綱,省下了大量來回思考的時間。

京東云JoyBuilder推理引擎的方案稍有不同:第一招和AWS相似,整體吞吐提升了30%以上;第二招是將“聽”和“說”交給不同的GPU處理,兩邊像流水線一樣并行工作,中間用“傳送帶”快速傳遞信息,大幅提升了推理吞吐量。

對CTO們而言,技術大廠的深度參與,不失為一個好消息,相當于是把推理引擎打磨成了能直接用的高性能“電子電氣架構”。

03 異構算力是挑戰(zhàn),也是低成本取勝的機會

我們在和幾位CTO溝通時,除了普遍焦慮的推理性能,還涉及到另一個問題——異構算力。

隨著大模型應用的深入,以CPU為中心的架構在支持AI原生應用上面臨挑戰(zhàn),需要以GPU為中心重塑基礎設施;此外,面對激增的推理需求,計算資源持續(xù)增加,企業(yè)需要思考資源投入產(chǎn)出的問題,都指向需要一套AI Native的基礎設施。

而異構算力,通俗來說就是將不同品牌的芯片“拼著用”。就像是一支臨時組成的軍隊,語言、指令、作戰(zhàn)邏輯全都不統(tǒng)一。以至于一位CTO打趣說:“我們要想打仗,得先發(fā)明統(tǒng)一的語言和作戰(zhàn)地圖?!?/p>

vLLM、SGLang等比較熱門的開源引擎,目前都還停留在同類型GPU之間高效調(diào)度,對“異構”集群依然捉襟見肘。但國內(nèi)的研究機構和科技大廠都已經(jīng)試圖解決:怎樣讓不同芯片“聽得懂一個指揮”,各司其職、取長補短。

一種主流思路是“把大鍋飯變自助餐”。

過去用GPU跑模型,就像是大鍋飯,一整張顯卡只能給一個任務用,哪怕只吃了一口,剩下的資源也不能被別人接著用。就像京東云JoyBuilder推理引擎的策略是把異構算力資源統(tǒng)一管理,把一張GPU“切成很多小份”(1%),顯存也能按MB級別來分,按需分給多個模型、多個任務使用,誰需要多少就用多少,GPU利用率最高可提升70%。

還有一種思路是把“拼芯片”和“拆流程”結合起來。

比如在MoE模型的部署上,京東云JoyBuilder推理引擎可以將不同專家部署在不同GPU上,讓每個GPU干最擅長的活。甚至可以將“輸入”部署在擅長高吞吐的昇騰集群,將“輸出”部署在N卡上確保低延遲,充分利用不同算力的優(yōu)勢。

對于CTO們來說,在“推理成本決定最終勝利”的大模型競賽中,異構算力是挑戰(zhàn),同樣也是機會。

04 高性能低成本,大模型推理正在重塑AI生產(chǎn)力

經(jīng)歷了一段時間的高歌猛進后,越來越多企業(yè)對大模型的訴求,正在從“不能沒有”轉向要落地、要價值、要增長。我們看到,大模型已經(jīng)在營銷推廣、協(xié)同辦公、客戶服務等場景深度應用,成為新的增長引擎。

例如在零售場景,包括面向用戶的AI生成商品圖、AI營銷內(nèi)容生成、AI數(shù)字人,面向管理的AI客服與售后管理、AI經(jīng)營托管、AI倉配優(yōu)化,以及配送環(huán)節(jié)的自動分揀機器人、自動駕駛等需求。

JoyBuilder推理引擎源于京東自身復雜業(yè)務場景打磨,基于企業(yè)級的AI Native架構,正在廣泛服務于內(nèi)外部眾多業(yè)務場景。

京東透露了一組數(shù)據(jù):目前推理框架已經(jīng)在內(nèi)部多個場景應用,在可交互式導購、商品對比、商品總結、購物建議等環(huán)節(jié),大幅提升了響應速度,節(jié)省了計算成本,同時還有效助力了用戶的活躍度;在核心的商品理解環(huán)節(jié),也有效提升了大模型的理解能力和信息處理能力,模型推理成本最高可節(jié)省70%。

除了服務于京東內(nèi)部,京東云推理引擎也廣泛服務于外部產(chǎn)業(yè)客戶,提供高性能、低成本的大模型服務。

在行業(yè)實踐中,京東云成功支持某新能源汽車頭部廠商、某全球新能源科技領導企業(yè),打造覆蓋全集團的智能計算底座,實現(xiàn)千卡級AI算力集群的精細化管理。技術上一方面創(chuàng)新多元算力調(diào)度,顯著提升GPU利用率,另一方面創(chuàng)建全生命周期AI開發(fā)環(huán)境,實現(xiàn)開箱即用,大幅提升研發(fā)效率。

目前,該平臺已支撐起企業(yè)智能駕駛研發(fā)、人形機器人等20余個核心場景,成為集團的“數(shù)智發(fā)動機”。預計一年內(nèi),兩家企業(yè)大模型訓練周期將縮短40%,每年節(jié)省的算力成本相當于新建兩座數(shù)據(jù)中心。

05 寫在最后

盡管推理引擎已經(jīng)在性能壓榨、資源調(diào)度和成本控制等方面取得了初步成果,但真正的競爭才剛剛開始。

尤其是在異構能力方面,無論是多種芯片的適配整合,還是對不同模型結構、大小、任務類型的統(tǒng)一支持,當前的技術體系還遠未成熟。同時也意味著,誰能率先構建起靈活、高效、可持續(xù)的推理能力,誰就有可能在AI大規(guī)模落地的浪潮中占據(jù)先機。

這是一場跨硬件、跨模型、跨場景的系統(tǒng)性挑戰(zhàn),也將是未來十年AI競賽的核心主戰(zhàn)場。

聲明:個人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
做藝人沒有藝德!在上海被抓捕的 4 位明星,你們知道都有誰嗎?

做藝人沒有藝德!在上海被抓捕的 4 位明星,你們知道都有誰嗎?

她時尚丫
2026-02-17 21:56:13
蔚來突然官宣:41.68萬起,新車正式上市

蔚來突然官宣:41.68萬起,新車正式上市

高科技愛好者
2026-03-12 23:04:54
“不當黨產(chǎn)”官司贏了!國民黨一日三喜事,港媒贊“后勢可期”

“不當黨產(chǎn)”官司贏了!國民黨一日三喜事,港媒贊“后勢可期”

海峽導報社
2026-03-12 12:26:18
全球首發(fā),追覓首款“火箭車” 正式亮相!

全球首發(fā),追覓首款“火箭車” 正式亮相!

電動知家
2026-03-12 15:12:28
漢密爾頓曬九寨溝風景:我想分享給你們,向世界展示中國之美

漢密爾頓曬九寨溝風景:我想分享給你們,向世界展示中國之美

懂球帝
2026-03-12 02:02:05
伊斯蘭革命衛(wèi)隊官員:已摧毀七成美在中東地區(qū)基地和指揮部

伊斯蘭革命衛(wèi)隊官員:已摧毀七成美在中東地區(qū)基地和指揮部

財聯(lián)社
2026-03-13 05:07:07
加斯佩里尼:不明白裁判為啥要看進球回放,那球真的很難吹掉

加斯佩里尼:不明白裁判為啥要看進球回放,那球真的很難吹掉

懂球帝
2026-03-13 05:49:07
五家資方撤得干干凈凈,陳佩斯押別墅,黃渤劃掉片酬,誰笑到最后

五家資方撤得干干凈凈,陳佩斯押別墅,黃渤劃掉片酬,誰笑到最后

小椰的奶奶
2026-03-12 06:55:01
你見過哪些悶聲發(fā)大財?shù)娜??網(wǎng)友:干這個買三套房子,兩個門面

你見過哪些悶聲發(fā)大財?shù)娜耍烤W(wǎng)友:干這個買三套房子,兩個門面

夜深愛雜談
2026-02-01 18:57:04
北京土著窮起來能有多窮?網(wǎng)友:北京以前住地下室的超級多

北京土著窮起來能有多窮?網(wǎng)友:北京以前住地下室的超級多

帶你感受人間冷暖
2026-03-13 00:02:09
吉利發(fā)布最強磷酸鐵鋰電池,這是要做電池行業(yè)新標桿?

吉利發(fā)布最強磷酸鐵鋰電池,這是要做電池行業(yè)新標桿?

優(yōu)視汽車
2026-03-12 11:34:34
李梓萌這次,真的讓人看出不一樣的格局

李梓萌這次,真的讓人看出不一樣的格局

小光侃娛樂
2026-03-13 04:50:03
投資約41.59億!中山市人民醫(yī)院新院區(qū)建設項目新進展

投資約41.59億!中山市人民醫(yī)院新院區(qū)建設項目新進展

南方都市報
2026-03-12 18:58:08
多納魯馬出擊收手致巴爾韋德進球?喬-哈特:他只是不想送點

多納魯馬出擊收手致巴爾韋德進球?喬-哈特:他只是不想送點

懂球帝
2026-03-12 20:18:16
阿韋洛亞:我早就說過瓜迪奧拉會有出人意料的招數(shù),果然如此

阿韋洛亞:我早就說過瓜迪奧拉會有出人意料的招數(shù),果然如此

懂球帝
2026-03-12 08:13:05
官宣:全新一代寶馬X5將于今年夏天正式發(fā)布

官宣:全新一代寶馬X5將于今年夏天正式發(fā)布

IT之家
2026-03-12 15:58:12
召回超15萬輛車!吉A車主,趕緊自查

召回超15萬輛車!吉A車主,趕緊自查

吉刻新聞
2026-03-12 15:51:40
揚州一女司機加塞后:撒潑打滾、無理取鬧,挨了一巴掌獲賠數(shù)萬

揚州一女司機加塞后:撒潑打滾、無理取鬧,挨了一巴掌獲賠數(shù)萬

江山揮筆
2026-03-12 11:12:38
國內(nèi)油價又要漲了,這次漲幅不小,預計92號汽油每升要漲5毛3。

國內(nèi)油價又要漲了,這次漲幅不小,預計92號汽油每升要漲5毛3。

流蘇晚晴
2026-03-10 18:55:06
拉特克利夫動真格!曼聯(lián) 7000 萬強攻拜仁巨星,一來直接統(tǒng)治英超

拉特克利夫動真格!曼聯(lián) 7000 萬強攻拜仁巨星,一來直接統(tǒng)治英超

瀾歸序
2026-03-13 05:46:46
2026-03-13 07:04:49
Alter聊科技 incentive-icons
Alter聊科技
探究產(chǎn)業(yè)興衰,專注商業(yè)解讀。
1489文章數(shù) 168115關注度
往期回顧 全部

科技要聞

當養(yǎng)蝦人開始卸載,大廠的戰(zhàn)爭才真正開始

頭條要聞

美軍加油機在伊拉克墜毀

頭條要聞

美軍加油機在伊拉克墜毀

體育要聞

建議將“出球型門將”納入反詐app

娛樂要聞

貝克漢姆全家給27歲大布送生日祝福

財經(jīng)要聞

盧鋒:從特朗普團隊群演看時代變局

汽車要聞

大眾2025財報:轉型雖有陣痛 "大象"已然起跑

態(tài)度原創(chuàng)

游戲
教育
時尚
旅游
數(shù)碼

內(nèi)存荒逼瘋V社!開會現(xiàn)場公開"求貨":我們真心想買

教育要聞

三年級豎式計算,壓軸題,學會了很簡單

就這樣從頭拿捏松弛感

旅游要聞

春假去哪玩?南京文旅向長三角家庭發(fā)出“串門”邀約

數(shù)碼要聞

時隔四年!小米筆記本Pro 14終于來了:小米首款高端輕薄本 暢玩3A大作

無障礙瀏覽 進入關懷版