国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GLM-5 技術(shù)報(bào)告全解讀|a16z:“最好的開源模型”

0
分享至

a16z 昨天發(fā)了一張圖,把 GLM-5 和 Claude Opus 4.6 并排標(biāo)注在 Artificial Analysis Intelligence Index 的時(shí)間線上


https://www.a16z.news/p/charts-of-the-week-vertical-saas

原文的說法是: A proprietary model (Claude Opus 4.6) is still the 'most intelligent,' but the gap between it and the next best open weight model has closed substantially.

換句話說:a16z 稱智譜的 GLM-5,是最好的開源模型

而今天, GLM-5放出了完整的技術(shù)報(bào)告,40 頁


https://arxiv.org/pdf/2602.15763

報(bào)告發(fā)出后,我看到許多開發(fā)者社區(qū)已經(jīng)開始逐頁學(xué)習(xí)

其中被討論最多的幾個(gè)技術(shù)點(diǎn):DSA 稀疏注意力(20B token 追平 DeepSeek 943.7B token 的效果)、完全異步的 Agent RL 訓(xùn)練框架、自研的 slime RL 基礎(chǔ)設(shè)施....

還有...快夸我是預(yù)言家,早早的透露了財(cái)富密碼:

下面,讓我們一起把這份技術(shù)報(bào)告逐塊過一遍

基座:744B 參數(shù),40B 激活

先說模型的基本面:僅次于海外最頭部的閉源模型


Artificial Analysis Intelligence Index v4.0:GLM-5 得分 50,開源第一

GLM-5 沿用 MoE 架構(gòu)(Mixture of Experts,一種讓模型在推理時(shí)只激活一小部分參數(shù)的設(shè)計(jì)),總參數(shù)744B,每次推理激活40B,256 個(gè)專家,80 層

對(duì)比上一代 GLM-4.5:總參數(shù)從 355B 翻到 744B,激活參數(shù)從 32B 漲到 40B

預(yù)訓(xùn)練數(shù)據(jù)從 23T token 增加到 28.5T token(其中預(yù)訓(xùn)練 27T,中期訓(xùn)練 1.5T)

「744B 總參,40B 激活,開源模型第一次在 Artificial Analysis Intelligence Index 上拿到 50 分」


Artificial Analysis Intelligence Index v4.0:GLM-5 得分 50,開源第一

在 LMArena(原來的 Chatbot Arena)上,GLM-5 在文本競(jìng)技場(chǎng)和代碼競(jìng)技場(chǎng)里都排開源第一,整體和 Claude Opus 4.5、Gemini 3 Pro 同檔


LMArena 競(jìng)技場(chǎng)排名 架構(gòu)改動(dòng)

在架構(gòu)上,GLM-5 區(qū)別于之前的 GLM-4 系列模型,有三個(gè)大的改動(dòng)

  • ? MLA + Muon Split

  • ? 多 token 預(yù)測(cè)

  • ? DSA 稀疏注意力

讓我們按次序,逐個(gè)來說

MLA + Muon Split

GLM-5 用的注意力機(jī)制叫 MLA(Multi-latent Attention),和 DeepSeek-V3 同源。它通過壓縮 KV 緩存的維度來節(jié)省顯存,處理長(zhǎng)文本時(shí)比傳統(tǒng)方案快

但團(tuán)隊(duì)在訓(xùn)練時(shí)發(fā)現(xiàn)一個(gè)問題:
用 Muon 優(yōu)化器配 MLA 時(shí),效果追不上更簡(jiǎn)單的 GQA-8 方案

團(tuán)隊(duì)之后找到了一個(gè)解法,叫 Muon Split:是對(duì)整塊投影矩陣做正交化(一種讓權(quán)重更均勻的數(shù)學(xué)操作),改成按每個(gè)注意力頭單獨(dú)做。這樣不同的頭可以按自己的節(jié)奏更新。效果追平了 GQA-8,還有個(gè)附帶收益:注意力分?jǐn)?shù)在訓(xùn)練過程中自動(dòng)保持穩(wěn)定,不用額外裁剪

額外的,GLM 團(tuán)隊(duì)還做了一個(gè) MLA-256 變體:把每個(gè)注意力頭的維度從 192 增大到 256,頭數(shù)量減少 1/3。參數(shù)總量不變,性能持平,但推理時(shí)的計(jì)算量降下來了


MLA 各變體的對(duì)比評(píng)測(cè) 多 token 預(yù)測(cè):參數(shù)共享的 MTP

在大模型推理中,有一種加速方法叫推測(cè)解碼:用一個(gè)小模型快速猜接下來幾個(gè) token,再讓大模型驗(yàn)證。猜對(duì)了就省了大模型的計(jì)算

DeepSeek-V3 只用 1 個(gè) MTP(Multi-Token Prediction)層訓(xùn)練,推理時(shí)預(yù)測(cè) 2 個(gè) token。但訓(xùn)練和推理的方式不一致,導(dǎo)致第二個(gè) token 的猜中率偏低

GLM-5 的做法:訓(xùn)練時(shí)用 3 個(gè) MTP 層,但這 3 層共享同一套參數(shù)。推理時(shí)的內(nèi)存開銷和 DeepSeek-V3 一樣(因?yàn)閰?shù)只有一套),但猜中率更高

實(shí)測(cè)數(shù)據(jù):同樣 4 步推測(cè)解碼,GLM-5 的平均接受長(zhǎng)度2.76,DeepSeek-V3.2 是2.55

DSA 稀疏注意力

這是 GLM-5 在效率上最核心的一個(gè)改動(dòng)

傳統(tǒng)的注意力計(jì)算是全量的,也就是每個(gè) token 都要和所有其他 token 算一遍關(guān)系
隨著上下文長(zhǎng)度的增加,其計(jì)算量是成平方倍增長(zhǎng)的,例如:當(dāng)上下文從 100 個(gè) token 增長(zhǎng)到 1 萬個(gè) token 時(shí),其運(yùn)算量就增長(zhǎng)了 1 萬倍,就導(dǎo)致了大模型在長(zhǎng)上下文下,非常貴

DSA(DeepSeek Sparse Attention)的思路:加一個(gè)輕量級(jí)的「索引器」,先快速掃一遍所有 token,找出和當(dāng)前 token 最相關(guān)的那些(top-k,k=2048),只對(duì)這部分做注意力計(jì)算。其余的跳過

和滑動(dòng)窗口(只看最近 N 個(gè) token)不同,DSA 是看內(nèi)容來決定哪些 token 重要,而非位置

經(jīng)過測(cè)算,在 GLM-5 中,20B token 的 DSA 適配,追上了 DeepSeek 花 943.7B token 訓(xùn)出來的效果

具體流程:從中期訓(xùn)練結(jié)束后的基礎(chǔ)模型開始,先做 1000 步預(yù)熱(只訓(xùn)練索引器,主模型凍結(jié)),然后做 20B token 的稀疏適配訓(xùn)練??傤A(yù)算 20B token。DeepSeek-V3.2 的 DSA 訓(xùn)練用了 943.7B token,是 GLM-5 的將近 50 倍

最終效果:DSA 模型在長(zhǎng)上下文基準(zhǔn)上和原始 MLA 模型基本持平。SFT 之后的訓(xùn)練損失曲線也幾乎重合


MLA 和 DSA 的 SFT 損失曲線幾乎重合

實(shí)際收益:長(zhǎng)序列的注意力計(jì)算降低 1.5-2 倍。后面做 Agent 推理時(shí)動(dòng)輒 200K 上下文,GPU 成本直接砍一半

技術(shù)報(bào)告還做了一組消融實(shí)驗(yàn),對(duì)比了 DSA 和其他幾種省計(jì)算的注意力方案:

  • ?樸素的滑動(dòng)窗口交錯(cuò):固定每隔一層用窗口注意力,128K 上下文下 RULER 跌了 30 分,基本不可用

  • ?基于搜索的 SWA 模式:用束搜索找到最優(yōu)的層分配,效果好很多,但細(xì)粒度檢索上還是丟 5-7 分

  • ?GDN 和 SimpleGDN:SimpleGDN 在復(fù)用預(yù)訓(xùn)練權(quán)重方面最高效

  • ?DSA:索引器做的是 token 級(jí)的動(dòng)態(tài)選擇,不丟棄任何長(zhǎng)程依賴

各種高效注意力方案在 64K/128K 下的對(duì)比 預(yù)訓(xùn)練數(shù)據(jù)

三個(gè)來源都做了升級(jí)

網(wǎng)頁數(shù)據(jù)
在 GLM-4.5 的管線上新增了基于句子嵌入的 DCLM 分類器,用來撈標(biāo)準(zhǔn)分類器漏掉的高質(zhì)量?jī)?nèi)容。另外訓(xùn)練了一個(gè)「世界知識(shí)分類器」(用 Wikipedia 條目 + LLM 標(biāo)注數(shù)據(jù)),從中低質(zhì)量網(wǎng)頁里篩出有價(jià)值的長(zhǎng)尾知識(shí)

代碼數(shù)據(jù)
刷新主要代碼托管平臺(tái)的快照,模糊去重后 unique token 增加 28%。修復(fù)了 Software Heritage 的元數(shù)據(jù)對(duì)齊問題。給 Scala、Swift、Lua 等低資源語言訓(xùn)練了專用分類器

數(shù)學(xué)與科學(xué)
從網(wǎng)頁、書籍、論文里收集,用 LLM 打分只保留最具教育價(jià)值的部分。長(zhǎng)文檔用分塊聚合評(píng)分。嚴(yán)格排除合成數(shù)據(jù)和 AI 生成數(shù)據(jù)

中期訓(xùn)練

上下文窗口分三個(gè)階段擴(kuò)展:

  • ? 32K(1T token)

  • ? 128K(500B token)

  • ? 200K(50B token)

GLM-4.5 最大做到 128K,新增的 200K 階段主要為了處理超長(zhǎng)文檔和多文件代碼庫

軟件工程數(shù)據(jù)擴(kuò)了一輪:放寬倉庫級(jí)篩選獲得約 1000 萬個(gè) Issue-PR 對(duì),但加強(qiáng)了單個(gè) issue 的質(zhì)量過濾。最終 issue-PR 部分約 160B token

長(zhǎng)上下文數(shù)據(jù)包括自然數(shù)據(jù)(書籍、論文)和合成數(shù)據(jù)。合成數(shù)據(jù)用了 NextLong 和 EntropyLong 的思路構(gòu)建長(zhǎng)程依賴。200K 階段額外加入 MRCR 類數(shù)據(jù)的多種變體,用來增強(qiáng)超長(zhǎng)多輪對(duì)話中的召回能力

訓(xùn)練工程

技術(shù)報(bào)告花了不少篇幅講訓(xùn)練基礎(chǔ)設(shè)施的優(yōu)化,列幾個(gè)關(guān)鍵的:

  • ? MTP 布局優(yōu)化:MTP 模塊的輸出層和主輸出層放在流水線最后一個(gè) stage 共享參數(shù),其余前移,平衡各 rank 的顯存占用

  • ? ZeRO2 梯度分片:每個(gè) stage 只存 1/dp 的梯度,配合雙緩沖,不增加同步開銷的前提下大幅降低梯度顯存

  • ? Muon 優(yōu)化器零冗余通信:all-gather 限制在本 rank 負(fù)責(zé)的參數(shù)分片內(nèi)

  • ? 流水線激活卸載:前向完成后把激活按層卸到 CPU,反向時(shí)再加載,和計(jì)算重疊執(zhí)行

  • ? 序列分塊輸出投影:長(zhǎng)序列下輸出層和 loss 的顯存峰值很高,按序列維度分塊處理

  • ? INT4 量化感知訓(xùn)練(QAT):在 SFT 階段就做,開發(fā)了訓(xùn)練和推理 bit-level 對(duì)齊的量化 kernel

這些并非是某一項(xiàng)特別新,但組合在一起讓 744B 的模型能在合理的硬件規(guī)模上訓(xùn)起來

后訓(xùn)練全流程

GLM-5 的后訓(xùn)練是一條完整的流水線:SFT → Reasoning RL → Agentic RL → General RL → 跨階段在線蒸餾


GLM-5 訓(xùn)練全流程 SFT

三大類數(shù)據(jù):通用對(duì)話(問答、寫作、角色扮演、翻譯、多輪對(duì)話、長(zhǎng)上下文)、推理(數(shù)學(xué)、編程、科學(xué))、編程與 Agent(前端/后端代碼、工具調(diào)用、Coding Agent、搜索 Agent)

最大上下文長(zhǎng)度擴(kuò)到 202752 token

三種思考模式:

  • ? 交錯(cuò)思考(Interleaved Thinking):每次響應(yīng)和工具調(diào)用前都思考一輪,提升指令遵循和生成質(zhì)量

  • ? 保留思考(Preserved Thinking):在 Coding Agent 場(chǎng)景里,多輪對(duì)話之間保留所有思考內(nèi)容,不重新推導(dǎo)。適合長(zhǎng)程復(fù)雜任務(wù),減少信息丟失

  • ? 輪級(jí)思考(Turn-level Thinking):按輪次控制開關(guān)。簡(jiǎn)單請(qǐng)求關(guān)掉思考降延遲,復(fù)雜任務(wù)打開提精度

交錯(cuò)思考和保留思考的對(duì)比示意

編程和 Agent 的 SFT 數(shù)據(jù)用了專家 RL 和拒絕采樣來提質(zhì)。一個(gè)細(xì)節(jié):軌跡中的錯(cuò)誤片段被保留下來,但在計(jì)算 loss 時(shí)用掩碼屏蔽。模型能看到錯(cuò)誤發(fā)生了什么,學(xué)會(huì)糾錯(cuò)行為,但不會(huì)被訓(xùn)練去重復(fù)錯(cuò)誤動(dòng)作

Reasoning RL

算法基于 GRPO + IcePop。核心改動(dòng)是明確區(qū)分了用于梯度更新的「訓(xùn)練模型」和用于生成軌跡的「推理模型」,去掉了 KL 正則項(xiàng)來加速訓(xùn)練。純 on-policy,group size 32,batch size 32

一個(gè)很小但影響很大的工程發(fā)現(xiàn)

DSA 的索引器在每個(gè) token 位置要做 top-k 檢索(k=2048,就是從所有 token 里挑出 2048 個(gè)最重要的)。SGLang 推理引擎里用的是基于 CUDA 的 top-k 實(shí)現(xiàn),速度快,但結(jié)果有隨機(jī)性:同樣的輸入跑兩次,排序結(jié)果可能不完全一樣

「把torch.topk換成 CUDA 的非確定性 topk,RL 幾步就崩了」

具體表現(xiàn):熵值驟降,性能急劇退化。原生的torch.topk慢一些,但每次輸出確定一致。最終方案是全程用torch.topk,并在 RL 階段凍結(jié)索引器參數(shù)

Reasoning RL 在四個(gè)領(lǐng)域做混合訓(xùn)練:數(shù)學(xué)、科學(xué)、代碼、工具集成推理(TIR)。難度過濾邏輯:只保留 GLM-4.7 做不出來、但 GPT-5.2 xhigh / Gemini 3 Pro Preview 能做出來的題

Agentic RL

這是技術(shù)報(bào)告里篇幅最大的一塊

核心問題:Agent 任務(wù)的 rollout(讓模型和環(huán)境交互生成完整軌跡)時(shí)間極長(zhǎng),而且不同任務(wù)之間差異很大。一條 SWE 任務(wù)可能幾分鐘,另一條可能半小時(shí)。同步 RL 的做法是等所有軌跡都生成完再一起訓(xùn)練,最慢的那條卡多久,整批 GPU 就閑多久

GLM-5 的做法是完全異步:

  • ? 訓(xùn)練 GPU 和推理 GPU 物理分開

  • ? 推理端持續(xù)不斷地生成軌跡,攢夠一批就發(fā)給訓(xùn)練端

  • ? 推理端的模型權(quán)重每隔 K 步和訓(xùn)練端同步一次

Multi-Task Rollout Orchestrator:不同類型的 Agent 任務(wù)(SWE 修 bug、終端操作、搜索問答)各自作為獨(dú)立的微服務(wù)注冊(cè)到中央編排器,編排器控制任務(wù)比例和生成速度。支持 1000+ 并發(fā) rollout

幾個(gè)保證異步訓(xùn)練不崩的關(guān)鍵設(shè)計(jì):

TITO(Token-in-Token-out)

傳統(tǒng)做法是把推理引擎當(dāng)黑箱:先發(fā)進(jìn)去一段文字,然后拿回來一段文字,訓(xùn)練時(shí)再重新做 tokenization。問題是 re-tokenization 會(huì)在 token 邊界、空格處理、截?cái)辔恢蒙弦爰?xì)微差異,影響對(duì)單個(gè) token 采樣概率的估計(jì)

TITO 的做法:訓(xùn)練流程直接消費(fèi)推理引擎生成的 token ID 序列和元數(shù)據(jù),不做文本往返。保證 token 級(jí)別的精確對(duì)應(yīng)

直接雙側(cè)重要性采樣

異步場(chǎng)景下,推理引擎的模型可能在一條軌跡生成過程中被更新了好幾次。要追蹤完整的歷史策略概率,就得存一堆歷史模型權(quán)重,不現(xiàn)實(shí)

GLM-5 直接用 rollout 時(shí)記錄的對(duì)數(shù)概率作為行為代理,算重要性比率 r_t(θ) = π_θ / π_rollout。落在信任域 [1-ε_(tái)l, 1+ε_(tái)h] 外的 token 直接屏蔽梯度,不讓偏差太大的樣本影響訓(xùn)練

樣本過濾:記錄每條軌跡的模型版本號(hào),版本差距超過閾值的丟棄。因環(huán)境崩潰(不是模型能力問題)導(dǎo)致失敗的樣本也排除

DP-aware 路由:多輪 Agent 任務(wù)里,同一個(gè) rollout 的后續(xù)請(qǐng)求通過一致性哈希路由到同一個(gè) DP rank,復(fù)用 KV cache。預(yù)填充成本只和增量 token 成正比

General RL

優(yōu)化目標(biāo)分三個(gè)維度:

  • ? 正確性:指令遵循、邏輯一致、事實(shí)準(zhǔn)確、無幻覺

  • ? 情商:同理心、洞察力、自然的人類表達(dá)風(fēng)格

  • ? 特定任務(wù)能力:寫作、問答、角色扮演、翻譯等各領(lǐng)域的細(xì)粒度優(yōu)化

獎(jiǎng)勵(lì)系統(tǒng)是三種信號(hào)混合的:規(guī)則獎(jiǎng)勵(lì)(精確但覆蓋面窄)+ 判別式獎(jiǎng)勵(lì)模型 ORM(低方差但容易被 reward hacking)+ 生成式獎(jiǎng)勵(lì)模型 GRM(魯棒但方差大)

一個(gè)有意思的做法:在 RL 中引入人類撰寫的高質(zhì)量回復(fù),作為風(fēng)格和質(zhì)量的錨點(diǎn)。原因是純模型 RL 容易收斂到冗長(zhǎng)、公式化的「機(jī)器感」模式。這些模式在獎(jiǎng)勵(lì)函數(shù)上得分高,但讀起來很不自然。人類回復(fù)用來把風(fēng)格拉回來

跨階段在線蒸餾

多階段 RL 的經(jīng)典問題:后面的階段優(yōu)化新目標(biāo)時(shí),前面學(xué)到的能力退化(災(zāi)難性遺忘)

GLM-5 在最后加了一個(gè)蒸餾階段:把前面每個(gè)階段(SFT、Reasoning RL、General RL)的最終 checkpoint 作為教師模型,學(xué)生模型通過 logits 差距直接計(jì)算 advantage,不需要大 group size。batch size 開到 1024 提吞吐

Agent 環(huán)境:10000+ 可驗(yàn)證場(chǎng)景

RL 訓(xùn)練需要可驗(yàn)證的執(zhí)行環(huán)境,對(duì)于模型做了什么,環(huán)境要能給出明確的對(duì)錯(cuò)反饋

軟件工程環(huán)境

從真實(shí) GitHub 的 Issue-PR 對(duì)出發(fā),基于 RepoLaunch 框架自動(dòng)構(gòu)建可執(zhí)行環(huán)境。自動(dòng)分析倉庫的安裝和依賴,構(gòu)建 Docker 環(huán)境,生成測(cè)試命令,用 LLM 從測(cè)試輸出生成日志解析函數(shù)

覆蓋 9 種語言:Python、Java、Go、C、C++、JavaScript、TypeScript、PHP、Ruby

超過 10000 個(gè)可驗(yàn)證環(huán)境

終端環(huán)境

兩條路徑:

  • ? 種子任務(wù)合成:從真實(shí) SWE 和終端場(chǎng)景收集種子,LLM 生成任務(wù)草稿 → 構(gòu)建 Agent 在 Harbor 格式下實(shí)例化 → 精煉 Agent 迭代優(yōu)化。Docker 構(gòu)建精度超 90%

  • ? 網(wǎng)頁語料合成:從代碼網(wǎng)頁出發(fā),到閉環(huán)設(shè)計(jì),要求 Coding Agent 合成任務(wù)的同時(shí)自行驗(yàn)證,只有通過所有檢查的才納入最終數(shù)據(jù)集

搜索任務(wù)

從早期搜索 Agent 的軌跡中收集了 200 萬+ 高信息量網(wǎng)頁,構(gòu)建 Web 知識(shí)圖譜(WKG)。從中生成多跳問答對(duì),在這個(gè)過程中,每個(gè)問題需要從多個(gè)網(wǎng)頁匯聚證據(jù),經(jīng)過多步推理

難度過濾分三階段:

  • ? 刪掉不用工具推理模型也能答對(duì)的題(8 次獨(dú)立嘗試中至少對(duì) 1 次就刪)

  • ? 過濾掉早期 Agent 幾步就能搜到的題

  • ? Verification Agent 做雙向校驗(yàn),排除答案不唯一或證據(jù)不一致的樣本

搜索 Agent 的上下文管理

BrowseComp 基準(zhǔn)上的性能對(duì)上下文管理策略很敏感。模型在執(zhí)行搜索任務(wù)時(shí)會(huì)不斷積累工具調(diào)用歷史,上下文越來越長(zhǎng),性能開始下降

GLM-5 用了一套分層管理策略:

  • ? Keep-recent-k:當(dāng)交互歷史超過 k 輪時(shí),只保留最近 5 輪的完整內(nèi)容,舊的工具結(jié)果折疊。效果從 55.3% 提到 62.0%

  • ? 和 Discard-all 結(jié)合:總上下文超過 32K 時(shí),清空全部工具調(diào)用歷史重新開始,同時(shí)繼續(xù) Keep-recent-k

這樣模型可以在預(yù)算內(nèi)執(zhí)行更多步搜索,最終 BrowseComp 得分75.9,所有模型里最高(含閉源)


從 GLM-4.7 到 GLM-5,不同上下文管理策略下 BrowseComp 的準(zhǔn)確率 PPT 生成與 Reward Hacking

技術(shù)報(bào)告里寫了一個(gè)很直觀的 reward hacking 案例

PPT 生成用 HTML 作為中間格式。RL 訓(xùn)練中設(shè)計(jì)了三級(jí)獎(jiǎng)勵(lì):Level 1 看 HTML 靜態(tài)屬性(定位、間距、顏色),Level 2 看運(yùn)行時(shí)渲染后的真實(shí)屬性(DOM 節(jié)點(diǎn)實(shí)際寬高),Level 3 看視覺感知(空白檢測(cè)等)

模型找到了兩種作弊方式:

一種是用overflow: hidden把溢出內(nèi)容藏起來,讓頁面看起來符合 16:9 但實(shí)際上內(nèi)容被截?cái)嗔?/p>

另一種是用flex: 1 1 8%強(qiáng)行占滿空間,布局看著正常但內(nèi)容很稀疏


PPT 生成中的 reward hacking 案例

解法是改渲染器,直接拿渲染后的真實(shí)屬性值做評(píng)估,而不是看 HTML 源碼里寫了什么。修正后,符合 16:9 比例的頁面從 40% 提升到 92%。人工評(píng)估里 GLM-5 對(duì)比 GLM-4.5 的綜合勝率 67.5%

國產(chǎn)芯片適配

GLM-5 從上線第一天就在跑國產(chǎn)芯片。適配覆蓋七大平臺(tái):華為昇騰、摩爾線程、海光、寒武紀(jì)、昆侖芯、天數(shù)智芯(MetaX)、燧原

技術(shù)報(bào)告以華為昇騰 Atlas 系列為例展開了三個(gè)層面:

W4A8 混合精度量化:標(biāo)準(zhǔn)的 Attention 和 MLP 模塊用 INT8(W8A8),MoE 專家模塊壓到 INT4(W4A8)。讓 750B 的模型能裝進(jìn)單臺(tái) Atlas 800T A3 服務(wù)器

融合算子

  • ? Lightning Indexer:把分?jǐn)?shù)計(jì)算、ReLU 激活和 TopK 三步融合成一個(gè)算子

  • ? Sparse Flash Attention:TopK 檢索和稀疏注意力計(jì)算并行執(zhí)行

  • ? MLAPO:把 13 個(gè)碎片化的預(yù)處理算子融合成一個(gè)

推理引擎優(yōu)化:vLLM-Ascend 和 SGLang 都做了適配。異步調(diào)度消除采樣回傳的氣泡,RadixCache 做前綴共享,注意力 DP + MoE EP 混合并行,MTP 加速

最終效果:?jiǎn)闻_(tái)國產(chǎn)節(jié)點(diǎn)的推理性能接近兩臺(tái)國際主流 GPU 集群。長(zhǎng)序列場(chǎng)景下部署成本降低 50%

評(píng)測(cè)

下面是完整的跑分?jǐn)?shù)據(jù)


全面對(duì)比表格

當(dāng)然,我也整理了文字版的對(duì)比

推理

  • ? HLE(含工具):50.4,vs Claude Opus 4.5 的 43.4,GPT-5.2 xhigh 的 45.5,Gemini 3 Pro 的 44.2

  • ? HLE(不含工具):30.5,vs Claude 35.9,GPT-5.2 xhigh 25.1

  • ? AIME 2026 I:92.7,vs Claude 93.3,Gemini 3 Pro 92.7

  • ? HMMT Feb. 2025:97.9,vs Claude 92.9,Gemini 3 Pro 97.3

  • ? HMMT Nov. 2025:96.9,vs Claude 93.5,Gemini 3 Pro 96.9

  • ? IMO-AnswerBench:82.5,vs Claude 87.5,GPT-5.2 xhigh 75.5

  • ? GPQA-Diamond:86.0,vs Claude 85.8,GPT-5.2 xhigh 84.8

  • ? LongBench v2:64.5,vs Claude 59.5,Gemini 3 Pro 68.2

編程
  • ? SWE-bench Verified:77.8,vs Claude 80.9,Gemini 3 Pro 72.5,GPT-5.2 xhigh 80.0

  • ? SWE-bench Multilingual:73.3,vs Claude 77.5,GPT-5.2 xhigh 72.0

  • ? Terminal-Bench 2.0:56.2(修正模糊指令后60.7-61.1),vs Claude 59.3

  • ? CyberGym:43.2,vs Claude 51.3

Agent
  • ? BrowseComp(含上下文管理):75.9,vs Claude 64.8,GPT-5.2 xhigh 54.4

  • ? BrowseComp-ZH:72.7,vs Claude 64.8,Gemini 3 Pro 42.3

  • ? τ2-Bench:89.7,vs Claude 91.6

  • ? MCP-Atlas:67.8,vs GPT-5.2 xhigh 68.0

  • ? Tool-Decathlon:74.0,vs Claude 75.6

  • ? Vending-Bench 2:$4432,vs Claude , 5478

  • ? GDPval-AA Elo:1409,vs Claude 1381,GPT-5.2 xhigh 1437

在 SWE-rebench(一個(gè)持續(xù)更新的、去污染的 SWE 評(píng)測(cè))上,GLM-5 的42.1%和 Claude Opus 4.5 的43.8%只差 1.7 個(gè)百分點(diǎn)

CC-Bench-V2:真實(shí)工程體驗(yàn)

這是智譜內(nèi)部的評(píng)測(cè)基準(zhǔn),完全自動(dòng)化,不依賴人工標(biāo)注。用 Claude Code + Claude Sonnet 4.5 配合 Playwright 做 Agent-as-a-Judge,讓一個(gè) Agent 去操作另一個(gè) Agent 生成的前端項(xiàng)目,點(diǎn)擊按鈕、輸入內(nèi)容、截屏,逐項(xiàng)驗(yàn)證是否正確


Agent-as-a-Judge 評(píng)估流程

前端

三個(gè)指標(biāo):BSR(構(gòu)建成功率)、CSR(檢查項(xiàng)通過率)、ISR(實(shí)例整體通過率)


對(duì)比表格

BSR 98% 說明 GLM-5 生成的項(xiàng)目幾乎都能跑起來。CSR 和 Claude 接近,單項(xiàng)需求的完成度差不多

但 ISR 的差距很明顯,比如 HTML 上差了 13 個(gè)百分點(diǎn),Vue 上差了 14 個(gè)百分點(diǎn)。BSR 高但 ISR 低,說明單項(xiàng)能力到位了,但把所有需求組合起來端到端完成一整個(gè)任務(wù),還有空間

后端

85 個(gè)任務(wù),6 種語言(Python、Go、C++、Rust、Java、TypeScript),涵蓋搜索引擎、數(shù)據(jù)庫、Web 框架、AI 推理服務(wù)等

GLM-5 Pass@1:25.8,vs Claude Opus 4.5 的26.9

長(zhǎng)程任務(wù)

兩個(gè)子任務(wù):

大規(guī)模代碼庫探索(在數(shù)萬個(gè)文件的倉庫里找到目標(biāo)文件):GLM-565.6,優(yōu)于 Claude 的 64.5。這個(gè)任務(wù)考的是策略性搜索而不是代碼生成:模型需要通過推理縮小文件范圍,GLM-5 在 Agent 工具使用軌跡上的訓(xùn)練在這里體現(xiàn)了優(yōu)勢(shì)

多步鏈?zhǔn)饺蝿?wù)(每一步的代碼修改會(huì)改變后續(xù)步驟的上下文,模擬真實(shí)的增量開發(fā)):GLM-552.3,vs Claude 的61.6,差距明顯

技術(shù)報(bào)告也寫了原因:鏈?zhǔn)饺蝿?wù)中錯(cuò)誤會(huì)累積,上一步的次優(yōu)修改可能悄然破壞后續(xù)步驟的測(cè)試??s小這個(gè)差距需要在長(zhǎng)上下文一致性和長(zhǎng)程自糾錯(cuò)上繼續(xù)突破


CC-Bench-V2 完整結(jié)果 通用能力

GLM-5 相比 GLM-4.7 在五個(gè)維度全面提升

  • ? 機(jī)器翻譯(ZMultiTransBench):1016 → 1050

  • ? 多語言對(duì)話(LMArena):1441 → 1452

  • ? 指令遵循(IF-Badcase):78.5 → 83.2

  • ? 世界知識(shí)(Chinese SimpleQA):72.9 → 75.2

  • ? 工具調(diào)用(ToolCall-Badcase):60.8 → 95.8

工具調(diào)用這一項(xiàng)提升幅度很大,從 60 出頭直接拉到 95 以上


五項(xiàng)通用能力對(duì)比 RL 訓(xùn)練框架:slime

GLM-5 的后訓(xùn)練全跑在自研的 slime 框架上。三個(gè)設(shè)計(jì)重點(diǎn):

橫向擴(kuò)展:高度可定制的 rollout 接口 + HTTP API 暴露推理服務(wù)。不同 Agent 框架可以像調(diào)用普通推理引擎一樣和 slime 交互。訓(xùn)練邏輯和推理邏輯完全解耦

縱向擴(kuò)展:RL 推理的優(yōu)化目標(biāo),是端到端延遲:瓶頸在最慢的那條軌跡上。GLM-5 用多節(jié)點(diǎn)推理部署(EP64 + DP64 跨 8 節(jié)點(diǎn)),F(xiàn)P8 rollout 降低單 token 延遲,MTP 在小批次解碼下收益尤其大,PD 分離(prefill 和 decode 分開調(diào)度)確保多輪交互中解碼速度穩(wěn)定

容災(zāi):推理服務(wù)定期發(fā)心跳,不健康的節(jié)點(diǎn)自動(dòng)終止并從路由注銷,請(qǐng)求自動(dòng)重試到健康節(jié)點(diǎn)

產(chǎn)品和使用方式

GLM-5 模型權(quán)重遵循 MIT License 開源,在 Hugging Face 和 ModelScope 同步上線

線上服務(wù)已納入 Max 用戶套餐,Pro 用戶 5 天內(nèi)支持。GLM Coding Plan 適配 Claude Code、OpenCode 等主流開發(fā)工具

幾個(gè)新的產(chǎn)品場(chǎng)景:

Z Code
智譜推出的編程工具。用戶說清楚需求,模型自動(dòng)拆解任務(wù),多 Agent 并發(fā)完成代碼編寫、命令執(zhí)行、調(diào)試、預(yù)覽和提交。支持手機(jī)遠(yuǎn)程指揮桌面端 Agent。Z Code 本身也是 GLM 模型參與開發(fā)完成的

OpenClaw 適配
OpenClaw(開源的 Agent 框架,a16z 文章里提到它在 OpenRouter 上占了 13% 的 token 消耗)現(xiàn)在有了 AutoGLM 版本,支持官網(wǎng)一鍵配置和飛書機(jī)器人集成。Pro / Max 用戶限量贈(zèng)送

辦公文檔輸出
在 Z.ai 和智譜清言上,可以讓 GLM-5 直接生成 .docx、.pdf、.xlsx 文件,比如產(chǎn)品需求文檔、教案、試卷、財(cái)務(wù)報(bào)告等

GLM in Excel
原生適配 Excel 的 AI 插件,側(cè)邊欄里用自然語言處理表格數(shù)據(jù)。Beta 階段僅 Max 用戶

Pony Alpha

技術(shù)報(bào)告最后有一個(gè)彩蛋

GLM-5 最早的時(shí)候,是在 OpenRouter 上以匿名身份「Pony Alpha」上線,未公開任何品牌信息,純靠模型體感

上線幾天后在 OpenRouter 社區(qū)引起關(guān)注。開發(fā)者注意到它在復(fù)雜代碼、Agent 任務(wù)鏈路和角色扮演上的表現(xiàn),開始猜測(cè)身份

25% 的用戶推測(cè)它是 Anthropic 的 Claude Sonnet 5;20% 認(rèn)為是 Grok 的新版本;10% 猜是 DeepSeek V4;

最終確認(rèn)是 GLM-5

技術(shù)報(bào)告全文
https://arxiv.org/pdf/2602.15763

GitHub
https://github.com/zai-org/GLM-5

Hugging Face
https://huggingface.co/zai-org/GLM-5

ModelScope
htps://modelscope.cn/models/ZhipuAI/GLM-5

Z Code
https://zcode.z.ai/cn

Blog
https://z.ai/blog/glm-5

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
這才是宋美齡和繼子蔣經(jīng)國的一張真實(shí)合影,都是真人的容貌

這才是宋美齡和繼子蔣經(jīng)國的一張真實(shí)合影,都是真人的容貌

喜歡歷史的阿繁
2026-04-16 11:17:28
外國人扎堆來中國看?。鹤≡?天賬單4萬美元,被歐美醫(yī)療逼瘋了!

外國人扎堆來中國看?。鹤≡?天賬單4萬美元,被歐美醫(yī)療逼瘋了!

古事尋蹤記
2026-04-15 07:21:44
教育巨變已擋不住?2026屆初中生,難道是僅靠中高考的最后一批?

教育巨變已擋不???2026屆初中生,難道是僅靠中高考的最后一批?

老特有話說
2026-04-18 01:00:03
14歲被送上導(dǎo)演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

14歲被送上導(dǎo)演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

不似少年游
2026-04-17 19:31:49
太細(xì)!《街霸》電影提到大腿梗 網(wǎng)友:這腿也敢叫春麗?

太細(xì)!《街霸》電影提到大腿梗 網(wǎng)友:這腿也敢叫春麗?

游民星空
2026-04-17 20:56:30
成本5億積壓7年,院線都沒上直接免費(fèi)網(wǎng)播,這電影就是個(gè)笑話!

成本5億積壓7年,院線都沒上直接免費(fèi)網(wǎng)播,這電影就是個(gè)笑話!

觀察鑒娛
2026-04-18 11:57:49
小仙女要“打拳”,她直接把全身涂黑:你們的拳,打空了

小仙女要“打拳”,她直接把全身涂黑:你們的拳,打空了

紅色少女主播
2026-04-17 23:17:45
王志文安排好后事僅4月,擔(dān)心事發(fā)生,私生活被扒,王寶強(qiáng)拒和解

王志文安排好后事僅4月,擔(dān)心事發(fā)生,私生活被扒,王寶強(qiáng)拒和解

白面書誏
2026-04-16 18:04:33
特朗普:我們現(xiàn)在和伊朗關(guān)系老好了!

特朗普:我們現(xiàn)在和伊朗關(guān)系老好了!

看看新聞Knews
2026-04-17 17:04:07
太陽躋身季后賽將戰(zhàn)雷霆,勇士輸在兩點(diǎn),科爾一舉動(dòng)意味深長(zhǎng)

太陽躋身季后賽將戰(zhàn)雷霆,勇士輸在兩點(diǎn),科爾一舉動(dòng)意味深長(zhǎng)

姜大叔侃球
2026-04-18 13:06:07
越南迎來公務(wù)員下崗潮,數(shù)十萬人鐵飯碗不保,越南要做什么?

越南迎來公務(wù)員下崗潮,數(shù)十萬人鐵飯碗不保,越南要做什么?

琴琴有氧運(yùn)動(dòng)
2026-04-17 23:36:42
路易十六哀歌:善良是大革命的最大原罪

路易十六哀歌:善良是大革命的最大原罪

朝廷心腹
2026-04-16 14:20:31
亞冠吹掉絕平進(jìn)球 馬寧遭沙特球迷罵爆:收日本錢了 應(yīng)禁止他執(zhí)法

亞冠吹掉絕平進(jìn)球 馬寧遭沙特球迷罵爆:收日本錢了 應(yīng)禁止他執(zhí)法

我愛英超
2026-04-18 06:53:17
“每張能賺1塊錢”,有人最近收了兩萬張!不少人家里都有,專家:別賣

“每張能賺1塊錢”,有人最近收了兩萬張!不少人家里都有,專家:別賣

佛山電視臺(tái)小強(qiáng)熱線
2026-04-17 20:09:48
反轉(zhuǎn)來了!木子美大罵全紅嬋,扒出她在網(wǎng)暴群里點(diǎn)過贊,動(dòng)機(jī)變了

反轉(zhuǎn)來了!木子美大罵全紅嬋,扒出她在網(wǎng)暴群里點(diǎn)過贊,動(dòng)機(jī)變了

千言娛樂記
2026-04-17 11:37:05
極大反差:中國人暴跌55%,日本外國游客又創(chuàng)新高,俄羅斯人增26%

極大反差:中國人暴跌55%,日本外國游客又創(chuàng)新高,俄羅斯人增26%

壹只灰鴿子
2026-04-15 22:41:48
但凡出現(xiàn)“空中加油”,毫不猶豫加到滿倉,不是漲停就是漲個(gè)不停

但凡出現(xiàn)“空中加油”,毫不猶豫加到滿倉,不是漲停就是漲個(gè)不停

一方聊市
2026-04-18 07:55:03
親人去世,請(qǐng)假反被辭

親人去世,請(qǐng)假反被辭

南風(fēng)窗
2026-04-16 21:45:03
北影節(jié)紅毯:高圓圓美的驚心動(dòng)魄,被周冬雨嚇了一跳,高葉太敢穿

北影節(jié)紅毯:高圓圓美的驚心動(dòng)魄,被周冬雨嚇了一跳,高葉太敢穿

糊咖娛樂
2026-04-17 11:24:40
快遞員失手摔壞價(jià)值2.4萬元藍(lán)寶石!快遞公司:全額賠付,已打款

快遞員失手摔壞價(jià)值2.4萬元藍(lán)寶石!快遞公司:全額賠付,已打款

封面新聞
2026-04-18 12:38:06
2026-04-18 15:08:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
388文章數(shù) 50關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

牛彈琴:特朗普迎來最興奮的一天 三個(gè)細(xì)節(jié)信息量很大

頭條要聞

牛彈琴:特朗普迎來最興奮的一天 三個(gè)細(xì)節(jié)信息量很大

體育要聞

時(shí)隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

《穿普拉達(dá)的女王2》疑似辱華?

財(cái)經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬元起

態(tài)度原創(chuàng)

藝術(shù)
手機(jī)
教育
家居
公開課

藝術(shù)要聞

何多苓油畫新作(2026-2025)

手機(jī)要聞

最新手機(jī)榜出爐!華為第一蘋果第二,榮耀掉到第六!

教育要聞

1500人!信陽職業(yè)技術(shù)學(xué)院2026年單獨(dú)考試招生專業(yè)計(jì)劃發(fā)布

家居要聞

法式線條 時(shí)光靜淌

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版