国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型“降智”真相,找到了

0
分享至


智東西
作者 陳駿達
編輯 云鵬

智東西4月30日報道,今天,智譜發(fā)布了一篇名為《Scaling Pain:超大規(guī)模Coding Agent推理實踐》的技術報告,披露了GLM-5系列模型在Coding Agent場景下遇到的推理基礎設施挑戰(zhàn)與對應解法。

報告透露,在每日數(shù)億次Coding Agent調(diào)用壓力下,部分用戶遭遇了GLM-5系列模型亂碼、復讀和生僻字等異常,這些現(xiàn)象在表面上與長上下文場景下常見的“降智”相似,但智譜并未進行降低模型精度的優(yōu)化,相關問題主要由高并發(fā)、長上下文的極端條件觸發(fā)。

通過數(shù)周排查,智譜鎖定了兩個底層競態(tài)問題:PD分離架構下的KV Cache異步Abort引發(fā)顯存寫入沖突,以及HiCache加載流水線缺少同步約束導致“數(shù)據(jù)未就緒即被讀取”。針對性修復后,相關異常發(fā)生率從約萬分之十幾降至萬分之三以下。

報告還公開了智譜自研的KV Cache分層存儲方案LayerSplit,在Context Parallel場景下將單卡KV Cache顯存壓力大幅降低,實測系統(tǒng)吞吐提升10%至132%,且上下文越長收益越大。

一、本地無法復現(xiàn),高壓才露頭:投機采樣指標成“照妖鏡”

從今年3月起,智譜GLM-5出現(xiàn)了三類異常:亂碼、復讀、生僻字。排查初期,智譜對線上異常案例做了本地回放,但未能復現(xiàn),說明大概率不是模型問題。進一步模擬線上高壓環(huán)境后,在每萬次請求中穩(wěn)定復現(xiàn)3-5次異常。這種“與內(nèi)容無關、與壓力相關的特征”,將問題指向高負載下的推理狀態(tài)管理。

三類異常中,復讀較易檢測,亂碼和生僻字則難以用正則或模型判別高效覆蓋。分析推理日志后,智譜發(fā)現(xiàn)投機采樣指標可作為重要參考:

投機采樣本為性能優(yōu)化而設計:草稿模型生成draft token,目標模型校驗后決定是否接受,并記錄spec_accept_length與spec_accept_rate,從而在不改變最終輸出分布的前提下提升解碼效率。

針對亂碼/生僻字問題,智譜發(fā)現(xiàn)spec_accept_length極低,draft token幾乎全被拒絕,表明KV Cache狀態(tài)存在顯著偏差。

針對復讀問題,智譜發(fā)現(xiàn)spec_accept_rate偏高,損壞的KV Cache使注意力退化,陷入重復循環(huán)。

據(jù)此,智譜團隊建立了在線監(jiān)控策略。將投機采樣從一項單純的性能優(yōu)化技術,拓展為質(zhì)量監(jiān)控信號。

二、鎖定時序漏洞,兩個競態(tài)Bug如何導致輸出異常

定位問題后,智譜進一步分析其原因。通過對請求生命周期以及推理引擎中PD分離執(zhí)行時序的分析,智譜發(fā)現(xiàn)該問題源于請求生命周期與KV Cache回收與復用時序之間的不一致,從而引發(fā)的KV Cache復用沖突。


為消除上述問題,智譜在推理引擎中引入了更嚴格的時序約束,在請求終止與KV Cache寫入完成之間建立顯式同步關系。

這一問題的具體修復方案是在Decode觸發(fā)Abort后通知Prefill側(cè),僅在RDMA未開始或已完成時才允許回收復用,確保KV寫入不跨越顯存復用邊界。修復后,異常發(fā)生率從萬分之十幾降至萬分之三以下。

智譜面臨的第二個bug與Coding Agent場景的特性有關。Coding Agent場景輸入長、前綴復用率高,HiCache成為關鍵優(yōu)化。但KV Cache換入與計算重疊執(zhí)行時,未保證數(shù)據(jù)加載完成后再使用。

為修復這一問題,智譜在Indexer算子啟動前引入同步點,確保數(shù)據(jù)就緒后才啟動計算。修復后,相關問題完全消失,相關修復已提交至SGLang社區(qū)。


三、Prefill吞吐成瓶頸,LayerSplit讓吞吐最高漲132%

上述兩個問題揭示了一個共同的系統(tǒng)瓶頸:在長上下文的Coding Agent服務場景中,Prefill階段主導了系統(tǒng)性能。修復狀態(tài)一致性問題后,核心挑戰(zhàn)回歸瓶頸本身,也就是如何提升Prefill吞吐、降低KV Cache顯存占用。為此,智譜團隊設計并實現(xiàn)了KV Cache分層存儲方案LayerSplit。

Coding Agent負載具有上下文長、Prefix Cache命中率高的特征,使得Context Parallel(CP,上下文并行)成為Prefill節(jié)點的主要并行策略。然而,SGLang開源實現(xiàn)中每張GPU保存全部層的KV Cache,冗余存儲導致顯存容量成為計算資源利用率的瓶頸。

LayerSplit方案的核心思路是:每張GPU僅持有部分層的KV Cache,從而顯著降低單卡顯存占用。計算時,持有某一層Cache的CP rank會在Attention計算前將其廣播給其他rank。


為進一步減少開銷,智譜設計了KV Cache廣播與Indexer計算的重疊機制,使二者在時間上相互掩蓋。整個流程僅額外引入約為KV Cache體量1/8的Indexer Cache廣播,通信成本對性能影響可忽略。

實驗結果表明,在Cache命中率90%的條件下,請求長度從40k到120k區(qū)間內(nèi),系統(tǒng)吞吐量提升幅度在10%至132%之間,且上下文越長收益越顯著。


該優(yōu)化從架構層面緩解了Prefill側(cè)的顯存瓶頸,與此前兩項BugFix共同構成了一套完整的推理基礎設施優(yōu)化方案,提升了智譜GLM-5在Coding Agent場景下的服務能力。

結語:輸出質(zhì)量成高并發(fā)長上下文場景新痛點

高并發(fā)長上下文場景下,推理基礎設施的挑戰(zhàn)已不止于吞吐和延遲,輸出質(zhì)量同樣不可忽視。智譜此次公開的技術細節(jié),從異常識別方法、兩個競態(tài)Bug的定位與修復,到LayerSplit顯存優(yōu)化,構成了一套相對完整的排查與優(yōu)化鏈路。

對于同樣在大規(guī)模部署推理服務的團隊而言,這份報告在故障復現(xiàn)、指標選型、架構層面的時序一致性等方面提供了可參考的實踐經(jīng)驗。智譜將這些經(jīng)驗公開分享,客觀上為社區(qū)填補了部分長上下文推理場景下的工程資料空白。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
5月春風送暖,迎來大蛻變的3大生肖,事業(yè)蒸蒸日上,財運滾滾進門

5月春風送暖,迎來大蛻變的3大生肖,事業(yè)蒸蒸日上,財運滾滾進門

人閒情事
2026-04-29 14:11:14
將赴美14天,鄭麗文直言:臺灣地區(qū)離不開美國,臺海新棋局已浮現(xiàn)

將赴美14天,鄭麗文直言:臺灣地區(qū)離不開美國,臺海新棋局已浮現(xiàn)

墨蘭史書
2026-04-30 22:45:04
新阿維塔12:30萬級豪華轎跑的設計與實力解析

新阿維塔12:30萬級豪華轎跑的設計與實力解析

藍色海邊
2026-04-30 12:56:30
詹姆斯25+3+7造NBA神跡,里夫斯打鐵艾頓大號兩雙,湖人再負火箭

詹姆斯25+3+7造NBA神跡,里夫斯打鐵艾頓大號兩雙,湖人再負火箭

釘釘陌上花開
2026-04-30 12:48:03
普惠公司:美國第六代戰(zhàn)機F-47配套的XA103變循環(huán)發(fā)動機相關情況

普惠公司:美國第六代戰(zhàn)機F-47配套的XA103變循環(huán)發(fā)動機相關情況

止戈軍是我
2026-04-27 21:44:17
看!波蘭超模阿里亞納的驚艷寫真,身材讓人心動不已!

看!波蘭超模阿里亞納的驚艷寫真,身材讓人心動不已!

國際藝術大觀
2026-04-16 00:10:27
“泰州好停車”發(fā)布欠費名單

“泰州好停車”發(fā)布欠費名單

百曉生很小聲
2026-04-29 19:16:42
40歲曼聯(lián)傳奇宣布退役!23年生涯迎大結局,盼帶隊重返英超

40歲曼聯(lián)傳奇宣布退役!23年生涯迎大結局,盼帶隊重返英超

仰臥撐FTUer
2026-04-30 21:00:01
官方:亞洲杯抖音、微博官號轉(zhuǎn)播中國女足U17vs緬甸女足U17

官方:亞洲杯抖音、微博官號轉(zhuǎn)播中國女足U17vs緬甸女足U17

懂球帝
2026-04-30 14:35:13
窮人的飯碗為什么裝滿碳水,富人卻偏愛蛋白?背后的秘密令人震驚

窮人的飯碗為什么裝滿碳水,富人卻偏愛蛋白?背后的秘密令人震驚

富貴說
2026-04-30 20:53:01
真我商城關了!綠廠"三兄弟"合體,手機圈真要變天了?

真我商城關了!綠廠"三兄弟"合體,手機圈真要變天了?

互聯(lián)網(wǎng)放大鏡
2026-04-28 18:03:37
吳鎮(zhèn)宇千億短劇女演員:“你是來炫耀的嗎?”

吳鎮(zhèn)宇千億短劇女演員:“你是來炫耀的嗎?”

宛沐
2026-04-30 16:00:09
杜魯門問:中國參戰(zhàn)怎么辦?麥克阿瑟當場甩出三個反問,結果如何

杜魯門問:中國參戰(zhàn)怎么辦?麥克阿瑟當場甩出三個反問,結果如何

小莜讀史
2026-03-21 13:57:27
中國“擊穿”信托神話,堵住30年避稅漏洞,讓中國富豪無處遁形

中國“擊穿”信托神話,堵住30年避稅漏洞,讓中國富豪無處遁形

干史人
2026-04-30 20:30:07
?為了讓大家接受漲價,廠商開始瘋狂整活……

?為了讓大家接受漲價,廠商開始瘋狂整活……

黑馬公社
2026-04-29 10:31:16
粉底將軍熱戀動物女星的瓜

粉底將軍熱戀動物女星的瓜

十錘星人
2026-04-24 23:37:38
《消失的兇手》一夜霸榜!零宣發(fā)+全集放送,懸疑劇的天要變了?

《消失的兇手》一夜霸榜!零宣發(fā)+全集放送,懸疑劇的天要變了?

老吳教育課堂
2026-04-28 18:15:16
馬競歐冠告別夜:兩代傳奇同時謝幕

馬競歐冠告別夜:兩代傳奇同時謝幕

體壇觀察猿
2026-04-29 21:58:59
張本智和:樊振東不參賽王楚欽領軍 中國戰(zhàn)斗力下降我們更容易打了

張本智和:樊振東不參賽王楚欽領軍 中國戰(zhàn)斗力下降我們更容易打了

818體育
2026-04-30 13:04:04
失業(yè)潮的終極解法,歷史只教了我們一課:不是救濟,是戰(zhàn)爭

失業(yè)潮的終極解法,歷史只教了我們一課:不是救濟,是戰(zhàn)爭

經(jīng)濟學教授V
2025-12-30 18:41:37
2026-05-01 00:23:00
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術發(fā)展,和技術應用帶來的千行百業(yè)產(chǎn)業(yè)變革。
11741文章數(shù) 117059關注度
往期回顧 全部

科技要聞

9000億美元估值,Anthropic即將反超OpenAI

頭條要聞

英國國王給特朗普送了口鐘 還貼臉開大"有需要盡管敲"

頭條要聞

英國國王給特朗普送了口鐘 還貼臉開大"有需要盡管敲"

體育要聞

季后賽場均5.4分,他憑啥在騎士打首發(fā)?

娛樂要聞

孫楊博士學歷有問題?官方含糊其辭

財經(jīng)要聞

易會滿被“雙開”!

汽車要聞

專訪捷途汪如生:捷途雙線作戰(zhàn) 全球化全面落地

態(tài)度原創(chuàng)

藝術
本地
親子
家居
公開課

藝術要聞

安東·愛德華·基爾德魯普:19世紀丹麥風景畫家

本地新聞

用青花瓷的方式,打開西溪濕地

親子要聞

4月30日,國際不打小孩日,今天請緊急收住巴掌,放過家里的小孩,也放過崩潰的自己

家居要聞

靈動實用 生活藝術場

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版