GLM 5.1 開源了，Claude Opus 又被“碾壓”了

2026-04-08 11:28:12　來源: Ai學(xué)習(xí)的老章

北京舉報(bào)

分享至

先說結(jié)論

GLM-5.1 是智譜的新一代旗艦?zāi)Ｐ停?44B 參數(shù)（40B 激活），MIT 開源協(xié)議，主打"長時(shí)間自主任務(wù)"。官方數(shù)據(jù)很漂亮：SWE-Bench Pro 拿了 58.4 分，超過了 Claude Opus 4.6（57.3）、GPT-5.4（57.7）和 Gemini 3.1 Pro（54.2），成為開源模型新標(biāo)桿。

但我實(shí)測下來，感受和跑分之間有一道鴻溝。

先說好的，再說問題。

GLM-5.1 的核心賣點(diǎn) 1. 長時(shí)間自主任務(wù)，這是真正的亮點(diǎn)

過去的模型——包括 GLM-5——有個(gè)通病：開局猛如虎，跑著跑著就沒招了。給再多時(shí)間也白搭，到了瓶頸就開始原地踏步。

GLM-5.1 最大的突破在于：運(yùn)行時(shí)間越長，結(jié)果越好。

官方給了三個(gè)場景來證明這一點(diǎn)，我逐個(gè)解讀：

場景一：向量數(shù)據(jù)庫優(yōu)化，600+ 輪迭代

VectorDBBench 是一個(gè)開源編程挑戰(zhàn)，讓模型用 Rust 構(gòu)建高性能近似最近鄰搜索數(shù)據(jù)庫。之前最好的成績是 Claude Opus 4.6 在 50 輪工具調(diào)用內(nèi)達(dá)到的 3,547 QPS。

GLM-5.1 換了個(gè)玩法：不限制輪次，讓模型自主決定什么時(shí)候提交新版本、下一步試什么。結(jié)果是經(jīng)過 600+ 次迭代、6000+ 次工具調(diào)用，最終達(dá)到 21,500 QPS——是 50 輪限制下最佳成績的6 倍。

優(yōu)化過程呈現(xiàn)典型的階梯式躍升：大約第 90 輪，模型從全表掃描切換到 IVF 聚簇探測 + f16 向量壓縮，QPS 跳到 6.4k；大約第 240 輪，引入兩階段流水線（u8 預(yù)篩選 + f16 重排），QPS 跳到 13.4k。整個(gè)過程中出現(xiàn)了 6 次這樣的結(jié)構(gòu)性轉(zhuǎn)變，每次都是模型分析自己的性能日志后主動(dòng)發(fā)起的。

VectorDBBench 優(yōu)化過程，600+ 輪迭代從 3.5k 到 21.5k QPS

場景二：GPU 核優(yōu)化，1000+ 輪

KernelBench Level 3 包含 50 個(gè)問題，要求模型把 PyTorch 參考實(shí)現(xiàn)優(yōu)化成更快的 GPU kernel。作為參考，torch.compile 默認(rèn)設(shè)置能達(dá)到 1.15 倍加速，max-autotune 能達(dá)到 1.49 倍。

GLM-5.1 最終達(dá)到了3.6 倍加速，并且在實(shí)驗(yàn)后期還在持續(xù)進(jìn)步。Claude Opus 4.6 在這個(gè)任務(wù)上更強(qiáng)，達(dá)到 4.2 倍，但 GLM-5.1 比 GLM-5 有質(zhì)的飛躍——GLM-5 早早就見頂了。

場景三：8 小時(shí)構(gòu)建 Linux 桌面環(huán)境

這個(gè)最夸張。給模型一個(gè)提示詞：用網(wǎng)頁技術(shù)構(gòu)建一個(gè) Linux 風(fēng)格桌面環(huán)境。沒有模板代碼，沒有設(shè)計(jì)稿，沒有中間指導(dǎo)。

大多數(shù)模型——包括早期版本的 GLM——很快就放棄了：搞個(gè)靜態(tài)任務(wù)欄加一兩個(gè)占位窗口，就宣布完成了。

GLM-5.1 套了一個(gè)簡單的外循環(huán)：每輪執(zhí)行完后，模型審視自己的輸出，找出可以改進(jìn)的地方——缺少的功能、粗糙的樣式、有 bug 的交互——然后繼續(xù)。這個(gè)循環(huán)跑了 8 個(gè)小時(shí)。

最終成果是一個(gè)完整的、視覺一致的瀏覽器端桌面環(huán)境：文件瀏覽器、終端、文本編輯器、系統(tǒng)監(jiān)控器、計(jì)算器、游戲……每個(gè)新增功能都集成在統(tǒng)一的 UI 中，樣式越來越精致，交互越來越流暢。

這才是 GLM-5.1 真正讓我眼前一亮的地方——不是單次對話有多強(qiáng)，而是持續(xù)工作有多持久。

2. SWE-Bench Pro 開源第一

來看看官方測評數(shù)據(jù)：

GLM-5.1 完整 Benchmark 對比表

重點(diǎn)數(shù)據(jù)拎出來看：

Benchmark

GLM-5.1

GLM-5

Qwen3.6-Plus

Claude Opus 4.6

GPT-5.4

SWE-Bench Pro

58.4

55.1

56.6

57.3

57.7

NL2Repo

42.7

35.9

37.9

49.8

41.3

Terminal-Bench 2.0

63.5

56.2

61.6

65.4

CyberGym

68.7

48.3

66.6

BrowseComp

68.0

62.0

HLE

31.0

30.5

28.8

36.7

39.8

AIME 2026

95.3

95.4

95.1

95.6

98.7

GPQA-Diamond

86.2

86.0

90.4

91.3

92.0

幾個(gè)關(guān)鍵發(fā)現(xiàn)：

編程（SWE-Bench Pro）確實(shí)是開源第一，58.4 的成績超越了所有閉源模型，MIT 協(xié)議開源，這個(gè)含金量很高
CyberGym 網(wǎng)絡(luò)安全任務(wù)表現(xiàn)驚艷，68.7 超過 Opus 4.6 的 66.6，從 GLM-5 的 48.3 到 5.1 的 68.7，提升了 42%
BrowseComp 瀏覽器任務(wù)也是開源最強(qiáng)，68.0 vs GLM-5 的 62.0
數(shù)學(xué)推理并沒有顯著提升，AIME 2026 幾乎和 GLM-5 持平（95.3 vs 95.4），和 GPT-5.4 的 98.7 還有差距
NL2Repo 倉庫生成還是 Opus 4.6 最強(qiáng)，49.8 vs GLM-5.1 的 42.7

一句話總結(jié)：GLM-5.1 在編程和 Agent 任務(wù)上確實(shí)達(dá)到了頂級水準(zhǔn)，但在純推理（數(shù)學(xué)、科學(xué)）方面依然不是最強(qiáng)的。

SWE-Bench Pro 對比柱狀圖開源 vs 閉源差距正在縮小 3. 第三方競技場評測

除了官方跑分，第三方競技場的表現(xiàn)也很搶眼：

Design Arena（設(shè)計(jì)競技場）：

GLM 5 Turbo 和 GLM-5.1 分別拿到第 2 和第 4 名，Elo 評分 1355 和 1352。開源模型里前 4 名全是 GLM 家族的，和 Anthropic 的 Opus 4.6、Sonnet 4.6 在同一檔位。

Design Arena 排名

Text Arena（文本競技場）：

GLM-5.1 是當(dāng)前開源模型第一名，超越 GLM-5 +11 分，超越 Kimi K2.5 Thinking +15 分。

具體強(qiáng)項(xiàng)：

長文本查詢：開源第一（總排第四）
生命科學(xué)/物理/社會(huì)科學(xué)：開源第一（總排第五）
娛樂/體育/媒體：開源第一（總排第八）
編程：開源第一（總排第十）

Text Arena 排名

對比三代 GLM 模型（4.7 → 5 → 5.1），GLM-5.1 相比 GLM-5 的最大進(jìn)步：

編程 +28 名
長文本查詢 +23 名
軟件/IT 服務(wù) +22 名
娛樂/體育/媒體 +17 名

但有意思的是，GLM-5 在某些領(lǐng)域反而比 5.1 更強(qiáng)：

醫(yī)療健康 +24 名
法律/政務(wù) +6 名
數(shù)學(xué) +2 名

三代 GLM 模型能力對比

這說明 GLM-5.1 是一次"有取舍的升級"，重點(diǎn)強(qiáng)化了編程和 Agent 能力，在其他一些通用任務(wù)上做了讓步。

個(gè)人實(shí)測：跑分歸跑分，實(shí)際歸實(shí)際

說完漂亮的數(shù)據(jù)，來說說我自己的真實(shí)感受。

我拿最常用的測試題來試：閱讀理解 + SVG 代碼生成 + 審美。

先測了 GLM-5（發(fā)稿時(shí)官網(wǎng)還沒有 5.1），結(jié)果讓我失望——連"4 次背影"這個(gè)閱讀理解都沒搞對：

GLM-5 沒有理解到 4 次背影

GLM 5 Turbo 好一點(diǎn)，理解力上去了，但代碼寫得差點(diǎn)意思，排版也很差：

GLM 5 Turbo 的代碼生成排版很粗糙

怎么連 Claude Sonnet 3.7 都比不過呢？注意??是 Sonnet，是 3.7！

然后 Ollama 倒是放出了 5.1 的云端版本，可以免費(fèi)使用：

Ollama 支持 GLM-5.1 云端調(diào)用

測了一下，也很失望。

最起碼的閱讀理解都沒做好，懶得預(yù)覽了：

GLM-5.1 通過 Ollama 的測試結(jié)果，閱讀理解不達(dá)標(biāo)GLM-5.1 SVG 代碼生成效果

目前實(shí)際體感，GLM-5.1 在我這個(gè)測試上不如 Qwen3.6-Plus：

Qwen3.6-Plus 的 SVG 生成效果明顯更好

更何況 Qwen3.6-Plus 還能在 OpenCode 中免費(fèi)調(diào)用，加上 Skills 加持，體驗(yàn)好太多：

OpenCode 中免費(fèi)調(diào)用 Qwen3.6-Plus + Skills 加持

我的理解是：GLM-5.1 的長處在于長時(shí)間、多輪次的 Agent 任務(wù)（SWE-Bench 那種需要反復(fù)讀代碼、改代碼、跑測試的場景），在單次對話的"快速生成"能力上，目前表現(xiàn)確實(shí)沒有跑分那么驚艷。

模型架構(gòu)與參數(shù)

簡單過一下參數(shù)：

參數(shù)規(guī)模：744B 總參數(shù)，40B 激活參數(shù)（MoE 架構(gòu)）
上下文窗口：200K token
開源協(xié)議：MIT（商用友好）
模型格式：BF16 全精度 + FP8 量化版
權(quán)重下載：HuggingFace / ModelScope

GLM-5.1 和 GLM-5 同架構(gòu)（和 DeepSeek V3.2 也是同結(jié)構(gòu)），主要的改進(jìn)體現(xiàn)在訓(xùn)練數(shù)據(jù)和訓(xùn)練策略上，特別是強(qiáng)化了工具調(diào)用、推理歷史重建和工具消息渲染。

本地部署全攻略

這是大家最關(guān)心的部分。GLM-5.1 的 744B 參數(shù)，全精度需要1.65TB磁盤空間，所以本地部署基本上只能用量化版本或者 FP8。下面按不同場景分別介紹。

方案一：vLLM 部署（推薦，生產(chǎn)環(huán)境）

vLLM 0.19.0+ 已經(jīng)支持 GLM-5.1。

vLLM 部署 GLM-5.1

Docker 一鍵啟動(dòng)（最省事）：

docker run --gpus all \
  -p 8000:8000 \
  --ipc=host \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  vllm/vllm-openai:glm51 zai-org/GLM-5.1-FP8 \
    --tensor-parallel-size 8 \
    --tool-call-parser glm47 \
    --reasoning-parser glm45 \
    --enable-auto-tool-choice \
    --served-model-name glm-5.1-fp8

CUDA 13 以上的用vllm/vllm-openai:glm51-cu130鏡像。

從源碼安裝：

uv venv
source .venv/bin/activate
uv pip install "vllm==0.19.0" --torch-backend=auto
uv pip install "transformers>=5.4.0"

注意：FP8 模型需要額外安裝 DeepGEMM。

FP8 模型在 8×H200（或 H20）上運(yùn)行：

vllm serve zai-org/GLM-5.1-FP8 \
     --tensor-parallel-size 8 \
     --speculative-config.method mtp \
     --speculative-config.num_speculative_tokens 3 \
     --tool-call-parser glm47 \
     --reasoning-parser glm45 \
     --enable-auto-tool-choice \
     --served-model-name glm-5.1-fp8

幾個(gè)注意點(diǎn)：

思考模式默認(rèn)開啟，不需要額外參數(shù)。想關(guān)閉的話加"chat_template_kwargs": {"enable_thinking": false}
支持 OpenAI 格式的工具調(diào)用
支持投機(jī)解碼（MTP），實(shí)測輸出吞吐量可達(dá) 526 tok/s（8k/1k，8×H200）

Python 客戶端調(diào)用：

from openai import OpenAI

 client = OpenAI(
    api_key="EMPTY",
    base_url="http://localhost:8000/v1",
)

 # 思考模式（默認(rèn)開啟）
resp = client.chat.completions.create(
    model="glm-5.1-fp8",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "用 Python 實(shí)現(xiàn)快速排序"},
    ],
    temperature=1,
    max_tokens=4096,
)
print("思考過程：", resp.choices[0].message.reasoning)
print("回答：", resp.choices[0].message.content)

方案二：SGLang 部署（高并發(fā)場景）

SGLang 0.5.10+ 支持 GLM-5.1。支持的硬件非常廣泛：NVIDIA H100、H200、B200、GB300，還有 AMD MI300X/MI325X/MI355X。

SGLang 部署 GLM-5.1

FP8 + H200 + 全功能啟動(dòng)：

SGLANG_ENABLE_SPEC_V2=1 sglang serve \
  --model-path zai-org/GLM-5.1-FP8 \
  --tp 8 \
  --reasoning-parser glm45 \
  --tool-call-parser glm47 \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --mem-fraction-static 0.85

不同硬件的 TP（Tensor Parallel）配置：

硬件

FP8

BF16

H100

tp=16

tp=32

H200

tp=8

tp=16

B200

tp=8

tp=16

GB300

tp=4

MI300X/MI325X

tp=8

MI355X

tp=8

注意：BF16 全精度需要的 GPU 數(shù)量是 FP8 的2 倍。如果你有 8 張 H200，F(xiàn)P8 剛好夠用；全精度需要 16 張。

SGLang 還有幾個(gè)獨(dú)特優(yōu)勢：

DP Attention：高并發(fā)下用數(shù)據(jù)并行注意力，吞吐量更高（低并發(fā)場景關(guān)掉，會(huì)影響延遲）
投機(jī)解碼（EAGLE）：顯著降低交互延遲
GLM-5.1 和 DeepSeek V3.2 同架構(gòu)，SGLang 對兩者的優(yōu)化技術(shù)是通用的（MTP、DSA kernel、Context Parallel 等）

方案三：Ollama 云端（最簡單，免費(fèi)）

一行命令搞定：

ollama run glm-5.1:cloud

Ollama 運(yùn)行 GLM-5.1

這是最低門檻的體驗(yàn)方式，不需要本地 GPU。但正如我前面實(shí)測的，效果嘛……老實(shí)說有點(diǎn)拉胯。

方案四：Unsloth 量化版（消費(fèi)級硬件的希望）

Unsloth 提供了各種精度的 GGUF 量化版本，這才是普通人本地跑的正確姿勢。

Unsloth 提供的 GLM-5.1 量化方案

模型文件：unsloth/GLM-5.1-GGUF

各精度模型大小對比：

不同量化精度的模型文件大小

關(guān)鍵數(shù)據(jù)：

Dynamic 2-bit（UD-IQ2_M）：約 236GB → 可以在256GB 統(tǒng)一內(nèi)存的 Mac上跑，也可以在 1×24GB GPU + 256GB 內(nèi)存上跑（MoE 卸載）
Dynamic 1-bit：約 200GB → 可以塞進(jìn) 220GB 內(nèi)存
8-bit：需要 805GB 內(nèi)存
完整模型（BF16）：1.65TB

Unsloth 用的是 Dynamic 2.0 量化技術(shù)——重要層會(huì)自動(dòng)升到 8-bit 或 16-bit，低位量化掉精度損失的地方集中在不太重要的層上，整體效果比均勻量化好不少。

Unsloth Studio 一鍵運(yùn)行（推薦新手）：

Mac/Linux 安裝：

curl -fsSL https://unsloth.ai/install.sh | sh

Windows PowerShell:

irm https://unsloth.ai/install.ps1 | iex

啟動(dòng) Studio：

unsloth studio -H 0.0.0.0 -p 8888

然后瀏覽器打開http://localhost:8888，搜索 GLM-5.1，選擇量化版本下載即可。推薦選UD-Q2_K_XL（動(dòng)態(tài) 2-bit），平衡體積和精度。

llama.cpp 命令行運(yùn)行：

先編譯 llama.cpp（Mac 用戶把-DGGML_CUDA=ON改成-DGGML_CUDA=OFF，Metal 加速默認(rèn)開啟）：

git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j \
    --clean-first --target llama-cli llama-server

下載模型：

pip install -U huggingface_hub
hf download unsloth/GLM-5.1-GGUF \
    --local-dir unsloth/GLM-5.1-GGUF \
    --include "*UD-IQ2_M*"

運(yùn)行（通用指令模式）：

./llama.cpp/llama-cli \
    -hf unsloth/GLM-5.1-GGUF:UD-IQ2_M \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 1.0

運(yùn)行（工具調(diào)用模式）：

./llama.cpp/llama-cli \
    -hf unsloth/GLM-5.1-GGUF:UD-IQ2_M \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95

部署為 OpenAI 兼容 API 服務(wù)：

./llama.cpp/llama-server \
    --model unsloth/GLM-5.1-GGUF/UD-IQ2_M/GLM-5.1-UD-IQ2_M-00001-of-00006.gguf \
    --alias "unsloth/GLM-5.1" \
    --temp 1.0 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --port 8001

然后就可以用 OpenAI SDK 調(diào)用了：

from openai import OpenAI


 client = OpenAI(
    base_url="http://127.0.0.1:8001/v1",
    api_key="sk-no-key-required",
)
completion = client.chat.completions.create(
    model="unsloth/GLM-5.1",
    messages=[{"role": "user", "content": "用 Python 寫個(gè)貪吃蛇游戲"}],
)
print(completion.choices[0].message.content)

小貼士：

--ctx-size 16384是上下文長度，最大支持 202,752，按需調(diào)整
--threads 32可以指定 CPU 線程數(shù)
--n-gpu-layers 2控制 GPU 卸載層數(shù)，顯存不夠就調(diào)小
默認(rèn)開啟思考模式，想關(guān)閉加--chat-template-kwargs '{"enable_thinking":false}'

其他部署方案

除了上面四種主流方式，還支持：

xLLM（v0.8.0+）：支持華為昇騰 NPU，國產(chǎn)化部署的選擇
Transformers（v0.5.3+）：HuggingFace 原生推理
KTransformers（v0.5.3+）：KV Cache 優(yōu)化，適合長上下文場景

API 調(diào)用

如果不想自己部署，直接用官方 API 也行。

cURL 調(diào)用：

curl -X POST "https://api.z.ai/api/paas/v4/chat/completions" \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer your-api-key" \
    -d '{
    "model": "glm-5.1",
    "messages": [
        {"role": "user", "content": "幫我寫一段Python快速排序"}
    ],
    "thinking": {"type": "enabled"},
    "max_tokens": 4096,
    "temperature": 1.0
}'

Python SDK 調(diào)用：

# 安裝 SDK
# pip install zai-sdk

 from zai import ZaiClient

 client = ZaiClient(api_key="your-api-key")
response = client.chat.completions.create(
    model="glm-5.1",
    messages=[
        {"role": "user", "content": "幫我寫一段 Python 快速排序"},
    ],
    thinking={"type": "enabled"},
    max_tokens=4096,
    temperature=1.0,
)
print(response.choices[0].message)

兼容 OpenAI SDK（推薦！遷移成本為零）：

from openai import OpenAI


 client = OpenAI(
    api_key="your-Z.AI-api-key",
    base_url="https://api.z.ai/api/paas/v4/",
)
completion = client.chat.completions.create(
    model="glm-5.1",
    messages=[
        {"role": "user", "content": "幫我寫一段 Python 快速排序"},
    ],
)
print(completion.choices[0].message.content)

改個(gè) base_url 和 api_key 就行，原來用 OpenAI SDK 的代碼幾乎不用動(dòng)。

另外，GLM-5.1 也可以在 Claude Code、OpenCode、Kilo Code、Roo Code、Cline、Droid 等主流編程 Agent 中使用。對 GLM Coding Plan 訂閱用戶，高峰時(shí)段（北京時(shí)間 14:00-18:00）消耗 3 倍額度，非高峰 2 倍；4 月底前非高峰按 1 倍計(jì)費(fèi)，算是一個(gè)限時(shí)優(yōu)惠。

和同類開源模型的橫向?qū)Ρ?br/>

維度

GLM-5.1

Qwen3.6-Plus

Kimi K2.5

DeepSeek-V3.2

參數(shù)

744B（40B 激活）

未公開

開源協(xié)議

MIT

Apache 2.0

MIT

編程（SWE-Bench Pro）

58.4

56.6

53.8

數(shù)學(xué)（AIME 2026）

95.3

95.1

94.5

95.1

Agent（τ3-Bench）

70.6

70.7

66.0

69.2

工具調(diào)用（MCP-Atlas）

71.8

74.1

63.8

62.2

網(wǎng)絡(luò)安全（CyberGym）

68.7

41.3

17.3

長時(shí)間任務(wù)

? 核心優(yōu)勢

未驗(yàn)證

本地部署門檻

高（2-bit 需 236GB）

相對低

中等

GLM-5.1 的定位非常清晰：Agent 工程的旗艦?zāi)Ｐ?/strong>。如果你需要一個(gè)能在 Claude Code 里跑幾個(gè)小時(shí)自動(dòng)修 bug 的模型，GLM-5.1 是當(dāng)前開源最佳選擇。

但如果你要的是日常對話、通用問答，Qwen3.6-Plus 目前體驗(yàn)更好、門檻更低。兩者并不矛盾，場景不同選擇不同。

總結(jié)

優(yōu)點(diǎn)：

SWE-Bench Pro 58.4 分，開源模型第一，超越所有閉源模型
長時(shí)間自主任務(wù)的持久力是獨(dú)一份的核心競爭力（600+ 輪迭代、8 小時(shí)持續(xù)開發(fā)）
MIT 開源協(xié)議，商用零負(fù)擔(dān)
部署生態(tài)完善：vLLM、SGLang、Ollama、Unsloth、llama.cpp、KTransformers 全覆蓋
兼容 OpenAI API 格式，遷移成本低
兼容 Claude Code、OpenCode 等主流編程 Agent

不足：

單次對話的表現(xiàn)和跑分之間有落差（至少在我的測試題上是這樣）
純推理能力（數(shù)學(xué)/科學(xué)）相比 GPT-5.4 和 Gemini 3.1 Pro 還有差距
本地部署門檻高，即使 2-bit 量化也需要 236GB 內(nèi)存
和 GLM-5 相比，醫(yī)療/法律/數(shù)學(xué)領(lǐng)域反而有退步

適合誰：

需要長時(shí)間自動(dòng)化編程任務(wù)的團(tuán)隊(duì)（CI/CD 自動(dòng)修復(fù)、代碼遷移、大規(guī)模重構(gòu)）
在 Claude Code / OpenCode 等 Agent 框架中尋找開源替代品的開發(fā)者
有 H200/H100 集群的企業(yè)，想要私有化部署頂級編程模型
Mac Studio 256GB 用戶可以試試 Unsloth 量化版

不太適合：

日常聊天和通用問答（Qwen3.6-Plus 體驗(yàn)更好）
只有 16GB/32GB 內(nèi)存的輕量用戶（模型太大了）
對數(shù)學(xué)/科學(xué)推理有極高要求的場景

官方鏈接匯總：

博客：https://z.ai/blog/glm-5.1
模型權(quán)重：https://huggingface.co/zai-org/GLM-5.1
API 文檔：https://docs.z.ai/guides/llm/glm-5.1
vLLM 教程：https://github.com/vllm-project/recipes/blob/main/GLM/GLM5.md
SGLang 教程：https://cookbook.sglang.io/autoregressive/GLM/GLM-5.1
Unsloth 量化版：https://huggingface.co/unsloth/GLM-5.1-GGUF
技術(shù)報(bào)告：https://arxiv.org/abs/2602.15763

制作不易，如果這篇文章覺得對你有用，可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊：點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè)，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點(diǎn)推薦

印度油輪在霍爾木茲遭炮擊船員喊話伊朗海軍錄音公布

紅星新聞 2026-04-19 17:03:18
12515 跟貼 12515

比賽提前結(jié)束，WSBK荷蘭站第二輪正賽張雪機(jī)車斬獲第七名

澎湃新聞 2026-04-19 20:28:26
3662 跟貼 3662

五一假期火車票開售以來，鐵路12306拒絕出票105.6萬張

環(huán)球網(wǎng)資訊 2026-04-19 15:23:04
2960 跟貼 2960

揭秘年銷10億的爆款宋柚汁：“宋柚”是商標(biāo)，柚含量不到3%，主配料為糖水，品牌號稱全國銷量第一

藍(lán)鯨新聞 2026-04-15 09:44:24
4065 跟貼 4065

榮耀機(jī)器人包攬半馬前三工程師回應(yīng)

新京報(bào) 2026-04-19 12:25:11
4399 跟貼 4399

網(wǎng)購的2800多元垃圾桶退貨時(shí)被申通弄壞商家拒收后天貓極速退款變欠款網(wǎng)購?fù)素浽谕撅L(fēng)險(xiǎn)該誰擔(dān)

信網(wǎng) 2026-04-19 14:15:08
320 跟貼 320

“真銅實(shí)料”互嗆升級，海信高管稱格力部分機(jī)型用鋁線電機(jī)

紅星資本局 2026-04-17 18:26:04
1708 跟貼 1708

飛行員披露：最棘手時(shí)一天22小時(shí)坐在機(jī)艙準(zhǔn)備起飛

環(huán)球網(wǎng)資訊 2026-04-19 09:53:02
469 跟貼 469

山東乳山銀灘“195平米復(fù)式房”1萬元起拍，已有多人競價(jià)，拍賣公司：產(chǎn)證面積97.94平米，另有贈(zèng)送面積，非法拍可隨時(shí)過戶

極目新聞 2026-04-19 14:06:31
2 跟貼 2

男子采蘑菇發(fā)現(xiàn)五步蛇離自己5米，盤縮落葉中和環(huán)境“融為一體”

星視頻 2026-04-19 15:46:19
322 跟貼 322

男子爬上泰山“五岳獨(dú)尊”石刻拍照，景區(qū)：將核查其身份進(jìn)行處理

揚(yáng)子晚報(bào) 2026-04-17 12:09:40
1135 跟貼 1135

追到第8名了！申花這個(gè)賽季還能爭冠？

新民晚報(bào) 2026-04-19 09:21:21
137 跟貼 137

哥倫比亞總統(tǒng)：美國若一意孤行將激起拉美國家“反抗”

財(cái)聯(lián)社 2026-04-19 09:28:11
151 跟貼 151

虛報(bào)77億、9.6億投資憑空造，河南：堅(jiān)決整改追責(zé)問責(zé)

新京報(bào) 2026-04-19 17:01:05
397 跟貼 397

中俄關(guān)系比傳統(tǒng)“聯(lián)盟”更深厚、更可靠

看看新聞Knews 2026-04-19 08:36:10
336 跟貼 336

“不差錢”的DeepSeek要融資了？投資人：或?yàn)槠跈?quán)定價(jià)留人才

第一財(cái)經(jīng)資訊 2026-04-19 13:10:09
544 跟貼 544

俄羅斯海軍艦艇編隊(duì)結(jié)束訪問離開湛江

環(huán)球網(wǎng)資訊 2026-04-19 10:17:26
341 跟貼 341

快檢查自家陽臺官方提醒千萬別摸大量出現(xiàn)在廣東

環(huán)球網(wǎng)資訊 2026-04-18 16:23:18
0 跟貼 0

甘肅3歲女孩撫養(yǎng)權(quán)最新進(jìn)展，生父消停半個(gè)月，頭發(fā)已被修剪清爽

九方魚論 2026-04-20 06:40:53
0 跟貼 0

“偽洋牌”曝光是一記警鐘

經(jīng)濟(jì)日報(bào) 2026-04-20 07:00:06
0 跟貼 0

江蘇一出租車司機(jī)發(fā)現(xiàn)“上班搭子”突然電話不接消息不回、車一直停在路邊，果斷報(bào)警！救回同事一命

臺州交通廣播 2026-04-20 06:39:30
0 跟貼 0

伊朗宣布對所有商船開放霍爾木茲海峽，美維持對伊海上封鎖，伊朗議長：特朗普7項(xiàng)聲明“均不屬實(shí)”
縱相新聞
2026-04-18 12:36:03

突然“值錢了”！不少人家里都有，專家提醒：別賣！
劉哥談體育
2026-04-19 21:40:06

王偉中對俄羅斯后貝加爾邊疆區(qū)交通事故作出批示
澎湃新聞
2026-04-19 13:55:05

不裝了賴清德、馬英九暴露真面目！國民黨發(fā)甲級動(dòng)員，想決一死戰(zhàn)
青梅侃史啊
2026-04-19 19:17:48

中小學(xué)生上課時(shí)間大調(diào)整：9點(diǎn)上課或成新規(guī)，周六上課引家長熱議
復(fù)轉(zhuǎn)這些年
2026-04-18 12:47:43

美國全世界逛一圈才發(fā)現(xiàn)，自己扶持所有小弟里，最能打的還是老蔣
呼呼體壇
2026-04-19 18:26:54

局勢生變，全球接到消息，美軍全部撤離，所有軍事基地被敘國接管
聞識
2026-04-19 21:08:29

美國證實(shí)！伊朗最高領(lǐng)袖“已受傷但仍活著”，伊朗方面此前稱穆杰塔巴·哈梅內(nèi)伊身體健康，但因戰(zhàn)爭推遲公開露面
每日經(jīng)濟(jì)新聞
2026-04-16 23:06:57

曼城羅德里傷病令人擔(dān)憂，瓜迪奧拉給出更新
綠茵情報(bào)局
2026-04-20 04:22:15

研究表明，中學(xué)生的抑郁率已高達(dá)36%！
黯泉
2026-04-18 18:06:01

《八千里路云和月》朱管家想不到，算計(jì)田家泰家業(yè)，卻成全了萬福
白淺娛樂聊
2026-04-19 12:37:15

難怪能成為大明星，小時(shí)候居然這么漂亮！大家看出來她是誰了嗎？
阿廢冷眼觀察所
2026-04-19 22:13:42

國產(chǎn)光纖全球“爆單”：部分產(chǎn)品價(jià)格暴漲650%
環(huán)球網(wǎng)資訊
2026-04-19 11:16:14

身材纖細(xì)、體態(tài)修長的日本業(yè)界骨感美人·TOP10
吃瓜黨二號頭目
2026-04-19 09:58:57

神替補(bǔ)！桑喬兩次送禮，鴨脖救主，維拉先被絕平又反絕殺，太刺激
硬腿子聊個(gè)球
2026-04-19 22:58:51

真給力！5月1日起，65歲老人坐公交全省都免費(fèi) 福建老人幸福感拉滿
今日搞笑分享
2026-04-19 16:37:15

第一次對「鋁箔紙」產(chǎn)生了敬意！以為烘焙專用，沒想到是家居神器
裝修秀
2026-04-18 11:55:03

莫蘭特灰熊時(shí)代終章：從天之驕子到無人問津的墜落
漫川舟船
2026-04-19 15:03:30

打蛇打七寸！中國全面斷供開始，日本多行業(yè)停擺，高市真慌了
有你便是晴天呢
2026-04-19 09:27:13

吃相太難看！莫氏雞煲爆火后，惡心一幕出現(xiàn)，終走上呆呆妹的老路
以茶帶書
2026-04-15 17:30:12

2026-04-20 07:12:49

Ai學(xué)習(xí)的老章

Ai學(xué)習(xí)的老章

3334文章數(shù) 11137關(guān)注度

往期回顧全部

科技要聞

50分26秒破人類紀(jì)錄！300臺機(jī)器人狂飆半馬

50分26秒！榮耀獲得人形機(jī)器人半馬冠軍

第一批學(xué)AI的大學(xué)生，已經(jīng)笑不出來了

傳Meta下月擬裁8000 大舉清退人力為AI騰位

“世界模型”火了，但大家說的根本不是一回事

頭條要聞

半年下沉22厘米女子家中坐擁價(jià)值上億別墅卻沒法住人

花27萬拍下周口太昊陵廟會(huì)"C位攤位" 當(dāng)事人稱已盈利

小學(xué)生拒"借"車遭毆打還被搜家 8人未滿14歲免予處罰

伊朗議長：事態(tài)一度到了再度爆發(fā)沖突邊緣美選擇退讓

伊朗：只要存在海上封鎖就不會(huì)談判

頭條要聞

半年下沉22厘米女子家中坐擁價(jià)值上億別墅卻沒法住人

花27萬拍下周口太昊陵廟會(huì)"C位攤位" 當(dāng)事人稱已盈利

小學(xué)生拒"借"車遭毆打還被搜家 8人未滿14歲免予處罰

伊朗議長：事態(tài)一度到了再度爆發(fā)沖突邊緣美選擇退讓

伊朗：只要存在海上封鎖就不會(huì)談判

體育要聞

湖人1比0火箭：老詹比烏度卡像教練

英超天王山戰(zhàn)：曼城2比1阿森納，多納魯馬超巨失誤送禮，謝爾基、哈蘭德建功

英超-利物浦2-1埃弗頓范戴克100分鐘絕殺薩拉赫破門

CBA-深圳不敵山東結(jié)束15連勝克里斯復(fù)出23+10

英超神劇情：4-3險(xiǎn)勝，亞伯拉罕補(bǔ)時(shí)絕殺，埃梅里瘋狂慶祝

娛樂要聞

何潤東漲粉百萬！內(nèi)娛隔空掀桌第一人

郭富城方媛結(jié)婚紀(jì)念日，曬定制水晶擺件撒糖

李雨桐疑似被行拘，因曝光薛之謙手機(jī)號身份證

李小冉被曝退賽后首發(fā)聲，曬錄音照好認(rèn)真

他真的穿著14年前的霸王戰(zhàn)甲，走進(jìn)了項(xiàng)羽故里

財(cái)經(jīng)要聞

華誼兄弟，8年虧光85億

從2000元到300元，降脂藥賽道的生意模式變了

月之暗面IPO迷局：資本擠破頭，騙子兜售融資額度，相關(guān)人士稱“不愿為上市而上市”

霍爾木茲海峽，又變了……

高鑫零售預(yù)虧3億

汽車要聞

29分鐘大定破萬極氪8X為什么這么多人買？

特斯拉Robotaxi登陸得州雙城：達(dá)拉斯和休斯頓

狂夸小米的福特CEO，喊話封殺中國車！

全新一汽奧迪Q5L日常實(shí)用性測試報(bào)告

大尾翼版領(lǐng)克03尾翼16度狀態(tài)再曝

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時(shí)尚

教育

藝術(shù)

親子

本地

裝修“精神角落”，就是這么上癮

這些才是最適合普通人的造型！不用穿大牌、不老套，真實(shí)自然

3組出游穿搭，驚艷你的假期！

選對發(fā)型，真的能少走很多變美彎路

教育要聞

中國為什么不禁網(wǎng)絡(luò)游戲？

南昌縣全民閱讀活動(dòng)在斗柏路小學(xué)開展

655家單位、1.29萬個(gè)崗位，湖南用心幫大學(xué)生找工作

32所！北京首批！高中外語特色發(fā)展研究協(xié)作體成員校名單出爐

27fall，申請最容易翻車的三所英國大學(xué)！

藝術(shù)要聞

蒲華寫水仙，清健嫵媚

怦然心動(dòng)，美若天成！

樓蘭發(fā)現(xiàn)1700年前書信，這水平如何？

超模施特洛耶克寫真曝光，簡直美到窒息，別錯(cuò)過！

親子要聞

孩子總打噴嚏、起疹子，時(shí)過敏嗎？

腫瘤患者，還能談生育嗎？

也不曉得哪里學(xué)來的

吹多少拿多少

寶藍(lán)畫畫弄得手上都是顏料，不洗手就去吃東西，被爸爸拉去洗手！

本地新聞

12噸巧克力有難，全網(wǎng)化身超級偵探添亂

建水Color Walk | 古城慢調(diào)，掉進(jìn)春天的調(diào)色盤里

南寧Color Walk | 綠城花巷，每一步都是春天的驚喜

當(dāng)春假“撞”上清明 “含娃量”創(chuàng)歷史新高

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

GLM 5.1 開源了，Claude Opus 又被“碾壓”了

50分26秒破人類紀(jì)錄！300臺機(jī)器人狂飆半馬

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

湖人1比0火箭：老詹比烏度卡像教練

何潤東漲粉百萬！內(nèi)娛隔空掀桌第一人

華誼兄弟，8年虧光85億

29分鐘大定破萬 極氪8X為什么這么多人買？

態(tài)度原創(chuàng)

裝修“精神角落”，就是這么上癮

中國為什么不禁網(wǎng)絡(luò)游戲？

蒲華寫水仙，清健嫵媚

孩子總打噴嚏、起疹子，時(shí)過敏嗎？

12噸巧克力有難，全網(wǎng)化身超級偵探添亂

50分26秒破人類紀(jì)錄！300臺機(jī)器人狂飆半馬

半年下沉22厘米女子家中坐擁價(jià)值上億別墅卻沒法住人

半年下沉22厘米女子家中坐擁價(jià)值上億別墅卻沒法住人

何潤東漲粉百萬！內(nèi)娛隔空掀桌第一人

華誼兄弟，8年虧光85億

29分鐘大定破萬極氪8X為什么這么多人買？

裝修“精神角落”，就是這么上癮

中國為什么不禁網(wǎng)絡(luò)游戲？

蒲華寫水仙，清健嫵媚

孩子總打噴嚏、起疹子，時(shí)過敏嗎？

12噸巧克力有難，全網(wǎng)化身超級偵探添亂