国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GLM 5.1 開源了,Claude Opus 又被“碾壓”了

0
分享至


先說結(jié)論

GLM-5.1 是智譜的新一代旗艦?zāi)P停?44B 參數(shù)(40B 激活),MIT 開源協(xié)議,主打"長時(shí)間自主任務(wù)"。官方數(shù)據(jù)很漂亮:SWE-Bench Pro 拿了 58.4 分,超過了 Claude Opus 4.6(57.3)、GPT-5.4(57.7)和 Gemini 3.1 Pro(54.2),成為開源模型新標(biāo)桿。

但我實(shí)測下來,感受和跑分之間有一道鴻溝。

先說好的,再說問題。

GLM-5.1 的核心賣點(diǎn) 1. 長時(shí)間自主任務(wù),這是真正的亮點(diǎn)

過去的模型——包括 GLM-5——有個(gè)通病:開局猛如虎,跑著跑著就沒招了。給再多時(shí)間也白搭,到了瓶頸就開始原地踏步。

GLM-5.1 最大的突破在于:運(yùn)行時(shí)間越長,結(jié)果越好。

官方給了三個(gè)場景來證明這一點(diǎn),我逐個(gè)解讀:

場景一:向量數(shù)據(jù)庫優(yōu)化,600+ 輪迭代

VectorDBBench 是一個(gè)開源編程挑戰(zhàn),讓模型用 Rust 構(gòu)建高性能近似最近鄰搜索數(shù)據(jù)庫。之前最好的成績是 Claude Opus 4.6 在 50 輪工具調(diào)用內(nèi)達(dá)到的 3,547 QPS。

GLM-5.1 換了個(gè)玩法:不限制輪次,讓模型自主決定什么時(shí)候提交新版本、下一步試什么。結(jié)果是經(jīng)過 600+ 次迭代、6000+ 次工具調(diào)用,最終達(dá)到 21,500 QPS——是 50 輪限制下最佳成績的6 倍

優(yōu)化過程呈現(xiàn)典型的階梯式躍升:大約第 90 輪,模型從全表掃描切換到 IVF 聚簇探測 + f16 向量壓縮,QPS 跳到 6.4k;大約第 240 輪,引入兩階段流水線(u8 預(yù)篩選 + f16 重排),QPS 跳到 13.4k。整個(gè)過程中出現(xiàn)了 6 次這樣的結(jié)構(gòu)性轉(zhuǎn)變,每次都是模型分析自己的性能日志后主動(dòng)發(fā)起的。


VectorDBBench 優(yōu)化過程,600+ 輪迭代從 3.5k 到 21.5k QPS

場景二:GPU 核優(yōu)化,1000+ 輪

KernelBench Level 3 包含 50 個(gè)問題,要求模型把 PyTorch 參考實(shí)現(xiàn)優(yōu)化成更快的 GPU kernel。作為參考,torch.compile 默認(rèn)設(shè)置能達(dá)到 1.15 倍加速,max-autotune 能達(dá)到 1.49 倍。

GLM-5.1 最終達(dá)到了3.6 倍加速,并且在實(shí)驗(yàn)后期還在持續(xù)進(jìn)步。Claude Opus 4.6 在這個(gè)任務(wù)上更強(qiáng),達(dá)到 4.2 倍,但 GLM-5.1 比 GLM-5 有質(zhì)的飛躍——GLM-5 早早就見頂了。

場景三:8 小時(shí)構(gòu)建 Linux 桌面環(huán)境

這個(gè)最夸張。給模型一個(gè)提示詞:用網(wǎng)頁技術(shù)構(gòu)建一個(gè) Linux 風(fēng)格桌面環(huán)境。沒有模板代碼,沒有設(shè)計(jì)稿,沒有中間指導(dǎo)。

大多數(shù)模型——包括早期版本的 GLM——很快就放棄了:搞個(gè)靜態(tài)任務(wù)欄加一兩個(gè)占位窗口,就宣布完成了。

GLM-5.1 套了一個(gè)簡單的外循環(huán):每輪執(zhí)行完后,模型審視自己的輸出,找出可以改進(jìn)的地方——缺少的功能、粗糙的樣式、有 bug 的交互——然后繼續(xù)。這個(gè)循環(huán)跑了 8 個(gè)小時(shí)。

最終成果是一個(gè)完整的、視覺一致的瀏覽器端桌面環(huán)境:文件瀏覽器、終端、文本編輯器、系統(tǒng)監(jiān)控器、計(jì)算器、游戲……每個(gè)新增功能都集成在統(tǒng)一的 UI 中,樣式越來越精致,交互越來越流暢。

這才是 GLM-5.1 真正讓我眼前一亮的地方——不是單次對話有多強(qiáng),而是持續(xù)工作有多持久

2. SWE-Bench Pro 開源第一

來看看官方測評數(shù)據(jù):


GLM-5.1 完整 Benchmark 對比表

重點(diǎn)數(shù)據(jù)拎出來看:

Benchmark

GLM-5.1

GLM-5

Qwen3.6-Plus

Claude Opus 4.6

GPT-5.4

SWE-Bench Pro

58.4

55.1

56.6

57.3

57.7

NL2Repo

42.7

35.9

37.9

49.8

41.3

Terminal-Bench 2.0

63.5

56.2

61.6

65.4

CyberGym

68.7

48.3

66.6

BrowseComp

68.0

62.0

HLE

31.0

30.5

28.8

36.7

39.8

AIME 2026

95.3

95.4

95.1

95.6

98.7

GPQA-Diamond

86.2

86.0

90.4

91.3

92.0

幾個(gè)關(guān)鍵發(fā)現(xiàn):

  1. 編程(SWE-Bench Pro)確實(shí)是開源第一,58.4 的成績超越了所有閉源模型,MIT 協(xié)議開源,這個(gè)含金量很高

  2. CyberGym 網(wǎng)絡(luò)安全任務(wù)表現(xiàn)驚艷,68.7 超過 Opus 4.6 的 66.6,從 GLM-5 的 48.3 到 5.1 的 68.7,提升了 42%

  3. BrowseComp 瀏覽器任務(wù)也是開源最強(qiáng),68.0 vs GLM-5 的 62.0

  4. 數(shù)學(xué)推理并沒有顯著提升,AIME 2026 幾乎和 GLM-5 持平(95.3 vs 95.4),和 GPT-5.4 的 98.7 還有差距

  5. NL2Repo 倉庫生成還是 Opus 4.6 最強(qiáng),49.8 vs GLM-5.1 的 42.7

一句話總結(jié):GLM-5.1 在編程和 Agent 任務(wù)上確實(shí)達(dá)到了頂級水準(zhǔn),但在純推理(數(shù)學(xué)、科學(xué))方面依然不是最強(qiáng)的。


SWE-Bench Pro 對比柱狀圖開源 vs 閉源差距正在縮小 3. 第三方競技場評測

除了官方跑分,第三方競技場的表現(xiàn)也很搶眼:

Design Arena(設(shè)計(jì)競技場):

GLM 5 Turbo 和 GLM-5.1 分別拿到第 2 和第 4 名,Elo 評分 1355 和 1352。開源模型里前 4 名全是 GLM 家族的,和 Anthropic 的 Opus 4.6、Sonnet 4.6 在同一檔位。


Design Arena 排名

Text Arena(文本競技場):

GLM-5.1 是當(dāng)前開源模型第一名,超越 GLM-5 +11 分,超越 Kimi K2.5 Thinking +15 分。

具體強(qiáng)項(xiàng):

  • 長文本查詢:開源第一(總排第四)

  • 生命科學(xué)/物理/社會(huì)科學(xué):開源第一(總排第五)

  • 娛樂/體育/媒體:開源第一(總排第八)

  • 編程:開源第一(總排第十)

Text Arena 排名

對比三代 GLM 模型(4.7 → 5 → 5.1),GLM-5.1 相比 GLM-5 的最大進(jìn)步:

  • 編程 +28 名

  • 長文本查詢 +23 名

  • 軟件/IT 服務(wù) +22 名

  • 娛樂/體育/媒體 +17 名

但有意思的是,GLM-5 在某些領(lǐng)域反而比 5.1 更強(qiáng)

  • 醫(yī)療健康 +24 名

  • 法律/政務(wù) +6 名

  • 數(shù)學(xué) +2 名

三代 GLM 模型能力對比

這說明 GLM-5.1 是一次"有取舍的升級",重點(diǎn)強(qiáng)化了編程和 Agent 能力,在其他一些通用任務(wù)上做了讓步。

個(gè)人實(shí)測:跑分歸跑分,實(shí)際歸實(shí)際

說完漂亮的數(shù)據(jù),來說說我自己的真實(shí)感受。

我拿最常用的測試題來試:閱讀理解 + SVG 代碼生成 + 審美。

先測了 GLM-5(發(fā)稿時(shí)官網(wǎng)還沒有 5.1),結(jié)果讓我失望——連"4 次背影"這個(gè)閱讀理解都沒搞對:


GLM-5 沒有理解到 4 次背影

GLM 5 Turbo 好一點(diǎn),理解力上去了,但代碼寫得差點(diǎn)意思,排版也很差:


GLM 5 Turbo 的代碼生成排版很粗糙

怎么連 Claude Sonnet 3.7 都比不過呢?注意??是 Sonnet,是 3.7!

然后 Ollama 倒是放出了 5.1 的云端版本,可以免費(fèi)使用:


Ollama 支持 GLM-5.1 云端調(diào)用

測了一下,也很失望。

最起碼的閱讀理解都沒做好,懶得預(yù)覽了:


GLM-5.1 通過 Ollama 的測試結(jié)果,閱讀理解不達(dá)標(biāo)GLM-5.1 SVG 代碼生成效果

目前實(shí)際體感,GLM-5.1 在我這個(gè)測試上不如 Qwen3.6-Plus:


Qwen3.6-Plus 的 SVG 生成效果明顯更好

更何況 Qwen3.6-Plus 還能在 OpenCode 中免費(fèi)調(diào)用,加上 Skills 加持,體驗(yàn)好太多:


OpenCode 中免費(fèi)調(diào)用 Qwen3.6-Plus + Skills 加持

我的理解是:GLM-5.1 的長處在于長時(shí)間、多輪次的 Agent 任務(wù)(SWE-Bench 那種需要反復(fù)讀代碼、改代碼、跑測試的場景),在單次對話的"快速生成"能力上,目前表現(xiàn)確實(shí)沒有跑分那么驚艷。

模型架構(gòu)與參數(shù)

簡單過一下參數(shù):

  • 參數(shù)規(guī)模:744B 總參數(shù),40B 激活參數(shù)(MoE 架構(gòu))

  • 上下文窗口:200K token

  • 開源協(xié)議:MIT(商用友好)

  • 模型格式:BF16 全精度 + FP8 量化版

  • 權(quán)重下載:HuggingFace / ModelScope

GLM-5.1 和 GLM-5 同架構(gòu)(和 DeepSeek V3.2 也是同結(jié)構(gòu)),主要的改進(jìn)體現(xiàn)在訓(xùn)練數(shù)據(jù)和訓(xùn)練策略上,特別是強(qiáng)化了工具調(diào)用、推理歷史重建和工具消息渲染。

本地部署全攻略

這是大家最關(guān)心的部分。GLM-5.1 的 744B 參數(shù),全精度需要1.65TB磁盤空間,所以本地部署基本上只能用量化版本或者 FP8。下面按不同場景分別介紹。

方案一:vLLM 部署(推薦,生產(chǎn)環(huán)境)

vLLM 0.19.0+ 已經(jīng)支持 GLM-5.1。


vLLM 部署 GLM-5.1

Docker 一鍵啟動(dòng)(最省事):

docker run --gpus all \
-p 8000:8000 \
--ipc=host \
-v ~/.cache/huggingface:/root/.cache/huggingface \
vllm/vllm-openai:glm51 zai-org/GLM-5.1-FP8 \
--tensor-parallel-size 8 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-5.1-fp8

CUDA 13 以上的用vllm/vllm-openai:glm51-cu130鏡像。

從源碼安裝:

uv venv
source .venv/bin/activate
uv pip install "vllm==0.19.0" --torch-backend=auto
uv pip install "transformers>=5.4.0"

注意:FP8 模型需要額外安裝 DeepGEMM。

FP8 模型在 8×H200(或 H20)上運(yùn)行:

vllm serve zai-org/GLM-5.1-FP8 \
--tensor-parallel-size 8 \
--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 3 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-5.1-fp8

幾個(gè)注意點(diǎn):

  • 思考模式默認(rèn)開啟,不需要額外參數(shù)。想關(guān)閉的話加"chat_template_kwargs": {"enable_thinking": false}

  • 支持 OpenAI 格式的工具調(diào)用

  • 支持投機(jī)解碼(MTP),實(shí)測輸出吞吐量可達(dá) 526 tok/s(8k/1k,8×H200)

Python 客戶端調(diào)用:

from openai import OpenAI

client = OpenAI(
api_key="EMPTY",
base_url="http://localhost:8000/v1",
)

# 思考模式(默認(rèn)開啟)
resp = client.chat.completions.create(
model="glm-5.1-fp8",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "用 Python 實(shí)現(xiàn)快速排序"},
],
temperature=1,
max_tokens=4096,
)
print("思考過程:", resp.choices[0].message.reasoning)
print("回答:", resp.choices[0].message.content)
方案二:SGLang 部署(高并發(fā)場景)

SGLang 0.5.10+ 支持 GLM-5.1。支持的硬件非常廣泛:NVIDIA H100、H200、B200、GB300,還有 AMD MI300X/MI325X/MI355X。


SGLang 部署 GLM-5.1

FP8 + H200 + 全功能啟動(dòng):

SGLANG_ENABLE_SPEC_V2=1 sglang serve \
--model-path zai-org/GLM-5.1-FP8 \
--tp 8 \
--reasoning-parser glm45 \
--tool-call-parser glm47 \
--speculative-algorithm EAGLE \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4 \
--mem-fraction-static 0.85

不同硬件的 TP(Tensor Parallel)配置:

硬件

FP8

BF16

H100

tp=16

tp=32

H200

tp=8

tp=16

B200

tp=8

tp=16

GB300

tp=4

MI300X/MI325X

tp=8

MI355X

tp=8

注意:BF16 全精度需要的 GPU 數(shù)量是 FP8 的2 倍。如果你有 8 張 H200,F(xiàn)P8 剛好夠用;全精度需要 16 張。

SGLang 還有幾個(gè)獨(dú)特優(yōu)勢:

  • DP Attention:高并發(fā)下用數(shù)據(jù)并行注意力,吞吐量更高(低并發(fā)場景關(guān)掉,會(huì)影響延遲)

  • 投機(jī)解碼(EAGLE):顯著降低交互延遲

  • GLM-5.1 和 DeepSeek V3.2 同架構(gòu),SGLang 對兩者的優(yōu)化技術(shù)是通用的(MTP、DSA kernel、Context Parallel 等)

方案三:Ollama 云端(最簡單,免費(fèi))

一行命令搞定:

ollama run glm-5.1:cloud
Ollama 運(yùn)行 GLM-5.1

這是最低門檻的體驗(yàn)方式,不需要本地 GPU。但正如我前面實(shí)測的,效果嘛……老實(shí)說有點(diǎn)拉胯。

方案四:Unsloth 量化版(消費(fèi)級硬件的希望)

Unsloth 提供了各種精度的 GGUF 量化版本,這才是普通人本地跑的正確姿勢。


Unsloth 提供的 GLM-5.1 量化方案

模型文件:unsloth/GLM-5.1-GGUF

各精度模型大小對比:


不同量化精度的模型文件大小

關(guān)鍵數(shù)據(jù):

  • Dynamic 2-bit(UD-IQ2_M):約 236GB → 可以在256GB 統(tǒng)一內(nèi)存的 Mac上跑,也可以在 1×24GB GPU + 256GB 內(nèi)存上跑(MoE 卸載)

  • Dynamic 1-bit:約 200GB → 可以塞進(jìn) 220GB 內(nèi)存

  • 8-bit:需要 805GB 內(nèi)存

  • 完整模型(BF16):1.65TB

Unsloth 用的是 Dynamic 2.0 量化技術(shù)——重要層會(huì)自動(dòng)升到 8-bit 或 16-bit,低位量化掉精度損失的地方集中在不太重要的層上,整體效果比均勻量化好不少。

Unsloth Studio 一鍵運(yùn)行(推薦新手):

Mac/Linux 安裝:

curl -fsSL https://unsloth.ai/install.sh | sh

Windows PowerShell:

irm https://unsloth.ai/install.ps1 | iex

啟動(dòng) Studio:

unsloth studio -H 0.0.0.0 -p 8888

然后瀏覽器打開http://localhost:8888,搜索 GLM-5.1,選擇量化版本下載即可。推薦選UD-Q2_K_XL(動(dòng)態(tài) 2-bit),平衡體積和精度。

llama.cpp 命令行運(yùn)行:

先編譯 llama.cpp(Mac 用戶把-DGGML_CUDA=ON改成-DGGML_CUDA=OFF,Metal 加速默認(rèn)開啟):

git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j \
--clean-first --target llama-cli llama-server

下載模型:

pip install -U huggingface_hub
hf download unsloth/GLM-5.1-GGUF \
--local-dir unsloth/GLM-5.1-GGUF \
--include "*UD-IQ2_M*"

運(yùn)行(通用指令模式):

./llama.cpp/llama-cli \
-hf unsloth/GLM-5.1-GGUF:UD-IQ2_M \
--ctx-size 16384 \
--temp 0.7 \
--top-p 1.0

運(yùn)行(工具調(diào)用模式):

./llama.cpp/llama-cli \
-hf unsloth/GLM-5.1-GGUF:UD-IQ2_M \
--ctx-size 16384 \
--temp 1.0 \
--top-p 0.95

部署為 OpenAI 兼容 API 服務(wù):

./llama.cpp/llama-server \
--model unsloth/GLM-5.1-GGUF/UD-IQ2_M/GLM-5.1-UD-IQ2_M-00001-of-00006.gguf \
--alias "unsloth/GLM-5.1" \
--temp 1.0 \
--top-p 0.95 \
--ctx-size 16384 \
--port 8001

然后就可以用 OpenAI SDK 調(diào)用了:

from openai import OpenAI


client = OpenAI(
base_url="http://127.0.0.1:8001/v1",
api_key="sk-no-key-required",
)
completion = client.chat.completions.create(
model="unsloth/GLM-5.1",
messages=[{"role": "user", "content": "用 Python 寫個(gè)貪吃蛇游戲"}],
)
print(completion.choices[0].message.content)

小貼士:

  • --ctx-size 16384是上下文長度,最大支持 202,752,按需調(diào)整

  • --threads 32可以指定 CPU 線程數(shù)

  • --n-gpu-layers 2控制 GPU 卸載層數(shù),顯存不夠就調(diào)小

  • 默認(rèn)開啟思考模式,想關(guān)閉加--chat-template-kwargs '{"enable_thinking":false}'

其他部署方案

除了上面四種主流方式,還支持:

  • xLLM(v0.8.0+):支持華為昇騰 NPU,國產(chǎn)化部署的選擇

  • Transformers(v0.5.3+):HuggingFace 原生推理

  • KTransformers(v0.5.3+):KV Cache 優(yōu)化,適合長上下文場景

API 調(diào)用

如果不想自己部署,直接用官方 API 也行。

cURL 調(diào)用:

curl -X POST "https://api.z.ai/api/paas/v4/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer your-api-key" \
-d '{
"model": "glm-5.1",
"messages": [
{"role": "user", "content": "幫我寫一段Python快速排序"}
],
"thinking": {"type": "enabled"},
"max_tokens": 4096,
"temperature": 1.0
}'

Python SDK 調(diào)用:

# 安裝 SDK
# pip install zai-sdk

from zai import ZaiClient

client = ZaiClient(api_key="your-api-key")
response = client.chat.completions.create(
model="glm-5.1",
messages=[
{"role": "user", "content": "幫我寫一段 Python 快速排序"},
],
thinking={"type": "enabled"},
max_tokens=4096,
temperature=1.0,
)
print(response.choices[0].message)

兼容 OpenAI SDK(推薦!遷移成本為零):

from openai import OpenAI


client = OpenAI(
api_key="your-Z.AI-api-key",
base_url="https://api.z.ai/api/paas/v4/",
)
completion = client.chat.completions.create(
model="glm-5.1",
messages=[
{"role": "user", "content": "幫我寫一段 Python 快速排序"},
],
)
print(completion.choices[0].message.content)

改個(gè) base_url 和 api_key 就行,原來用 OpenAI SDK 的代碼幾乎不用動(dòng)。

另外,GLM-5.1 也可以在 Claude Code、OpenCode、Kilo Code、Roo Code、Cline、Droid 等主流編程 Agent 中使用。對 GLM Coding Plan 訂閱用戶,高峰時(shí)段(北京時(shí)間 14:00-18:00)消耗 3 倍額度,非高峰 2 倍;4 月底前非高峰按 1 倍計(jì)費(fèi),算是一個(gè)限時(shí)優(yōu)惠。

和同類開源模型的橫向?qū)Ρ?br/>

維度

GLM-5.1

Qwen3.6-Plus

Kimi K2.5

DeepSeek-V3.2

參數(shù)

744B(40B 激活)

未公開

未公開

未公開

開源協(xié)議

MIT

Apache 2.0

MIT

MIT

編程(SWE-Bench Pro)

58.4

56.6

53.8

數(shù)學(xué)(AIME 2026)

95.3

95.1

94.5

95.1

Agent(τ3-Bench)

70.6

70.7

66.0

69.2

工具調(diào)用(MCP-Atlas)

71.8

74.1

63.8

62.2

網(wǎng)絡(luò)安全(CyberGym)

68.7

41.3

17.3

長時(shí)間任務(wù)

? 核心優(yōu)勢

未驗(yàn)證

未驗(yàn)證

未驗(yàn)證

本地部署門檻

高(2-bit 需 236GB)

相對低

中等

中等

GLM-5.1 的定位非常清晰:Agent 工程的旗艦?zāi)P?/strong>。如果你需要一個(gè)能在 Claude Code 里跑幾個(gè)小時(shí)自動(dòng)修 bug 的模型,GLM-5.1 是當(dāng)前開源最佳選擇。

但如果你要的是日常對話、通用問答,Qwen3.6-Plus 目前體驗(yàn)更好、門檻更低。兩者并不矛盾,場景不同選擇不同。

總結(jié)

優(yōu)點(diǎn):

  • SWE-Bench Pro 58.4 分,開源模型第一,超越所有閉源模型

  • 長時(shí)間自主任務(wù)的持久力是獨(dú)一份的核心競爭力(600+ 輪迭代、8 小時(shí)持續(xù)開發(fā))

  • MIT 開源協(xié)議,商用零負(fù)擔(dān)

  • 部署生態(tài)完善:vLLM、SGLang、Ollama、Unsloth、llama.cpp、KTransformers 全覆蓋

  • 兼容 OpenAI API 格式,遷移成本低

  • 兼容 Claude Code、OpenCode 等主流編程 Agent

不足:

  • 單次對話的表現(xiàn)和跑分之間有落差(至少在我的測試題上是這樣)

  • 純推理能力(數(shù)學(xué)/科學(xué))相比 GPT-5.4 和 Gemini 3.1 Pro 還有差距

  • 本地部署門檻高,即使 2-bit 量化也需要 236GB 內(nèi)存

  • 和 GLM-5 相比,醫(yī)療/法律/數(shù)學(xué)領(lǐng)域反而有退步

適合誰:

  • 需要長時(shí)間自動(dòng)化編程任務(wù)的團(tuán)隊(duì)(CI/CD 自動(dòng)修復(fù)、代碼遷移、大規(guī)模重構(gòu))

  • 在 Claude Code / OpenCode 等 Agent 框架中尋找開源替代品的開發(fā)者

  • 有 H200/H100 集群的企業(yè),想要私有化部署頂級編程模型

  • Mac Studio 256GB 用戶可以試試 Unsloth 量化版

不太適合:

  • 日常聊天和通用問答(Qwen3.6-Plus 體驗(yàn)更好)

  • 只有 16GB/32GB 內(nèi)存的輕量用戶(模型太大了)

  • 對數(shù)學(xué)/科學(xué)推理有極高要求的場景

官方鏈接匯總:

  • 博客:https://z.ai/blog/glm-5.1

  • 模型權(quán)重:https://huggingface.co/zai-org/GLM-5.1

  • API 文檔:https://docs.z.ai/guides/llm/glm-5.1

  • vLLM 教程:https://github.com/vllm-project/recipes/blob/main/GLM/GLM5.md

  • SGLang 教程:https://cookbook.sglang.io/autoregressive/GLM/GLM-5.1

  • Unsloth 量化版:https://huggingface.co/unsloth/GLM-5.1-GGUF

  • 技術(shù)報(bào)告:https://arxiv.org/abs/2602.15763

.1

制作不易,如果這篇文章覺得對你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗宣布對所有商船開放霍爾木茲海峽,美維持對伊海上封鎖,伊朗議長:特朗普7項(xiàng)聲明“均不屬實(shí)”

伊朗宣布對所有商船開放霍爾木茲海峽,美維持對伊海上封鎖,伊朗議長:特朗普7項(xiàng)聲明“均不屬實(shí)”

縱相新聞
2026-04-18 12:36:03
突然“值錢了”!不少人家里都有,專家提醒:別賣!

突然“值錢了”!不少人家里都有,專家提醒:別賣!

劉哥談體育
2026-04-19 21:40:06
王偉中對俄羅斯后貝加爾邊疆區(qū)交通事故作出批示

王偉中對俄羅斯后貝加爾邊疆區(qū)交通事故作出批示

澎湃新聞
2026-04-19 13:55:05
不裝了賴清德、馬英九暴露真面目!國民黨發(fā)甲級動(dòng)員,想決一死戰(zhàn)

不裝了賴清德、馬英九暴露真面目!國民黨發(fā)甲級動(dòng)員,想決一死戰(zhàn)

青梅侃史啊
2026-04-19 19:17:48
中小學(xué)生上課時(shí)間大調(diào)整:9點(diǎn)上課或成新規(guī),周六上課引家長熱議

中小學(xué)生上課時(shí)間大調(diào)整:9點(diǎn)上課或成新規(guī),周六上課引家長熱議

復(fù)轉(zhuǎn)這些年
2026-04-18 12:47:43
美國全世界逛一圈才發(fā)現(xiàn),自己扶持所有小弟里,最能打的還是老蔣

美國全世界逛一圈才發(fā)現(xiàn),自己扶持所有小弟里,最能打的還是老蔣

呼呼體壇
2026-04-19 18:26:54
局勢生變,全球接到消息,美軍全部撤離,所有軍事基地被敘國接管

局勢生變,全球接到消息,美軍全部撤離,所有軍事基地被敘國接管

聞識
2026-04-19 21:08:29
美國證實(shí)!伊朗最高領(lǐng)袖“已受傷但仍活著”,伊朗方面此前稱穆杰塔巴·哈梅內(nèi)伊身體健康 ,但因戰(zhàn)爭推遲公開露面

美國證實(shí)!伊朗最高領(lǐng)袖“已受傷但仍活著”,伊朗方面此前稱穆杰塔巴·哈梅內(nèi)伊身體健康 ,但因戰(zhàn)爭推遲公開露面

每日經(jīng)濟(jì)新聞
2026-04-16 23:06:57
曼城羅德里傷病令人擔(dān)憂,瓜迪奧拉給出更新

曼城羅德里傷病令人擔(dān)憂,瓜迪奧拉給出更新

綠茵情報(bào)局
2026-04-20 04:22:15
研究表明,中學(xué)生的抑郁率已高達(dá)36%!

研究表明,中學(xué)生的抑郁率已高達(dá)36%!

黯泉
2026-04-18 18:06:01
《八千里路云和月》朱管家想不到,算計(jì)田家泰家業(yè),卻成全了萬福

《八千里路云和月》朱管家想不到,算計(jì)田家泰家業(yè),卻成全了萬福

白淺娛樂聊
2026-04-19 12:37:15
難怪能成為大明星,小時(shí)候居然這么漂亮!大家看出來她是誰了嗎?

難怪能成為大明星,小時(shí)候居然這么漂亮!大家看出來她是誰了嗎?

阿廢冷眼觀察所
2026-04-19 22:13:42
國產(chǎn)光纖全球“爆單”:部分產(chǎn)品價(jià)格暴漲650%

國產(chǎn)光纖全球“爆單”:部分產(chǎn)品價(jià)格暴漲650%

環(huán)球網(wǎng)資訊
2026-04-19 11:16:14
身材纖細(xì)、體態(tài)修長的日本業(yè)界骨感美人·TOP10

身材纖細(xì)、體態(tài)修長的日本業(yè)界骨感美人·TOP10

吃瓜黨二號頭目
2026-04-19 09:58:57
神替補(bǔ)!桑喬兩次送禮,鴨脖救主,維拉先被絕平又反絕殺,太刺激

神替補(bǔ)!桑喬兩次送禮,鴨脖救主,維拉先被絕平又反絕殺,太刺激

硬腿子聊個(gè)球
2026-04-19 22:58:51
真給力!5月1日起,65歲老人坐公交全省都免費(fèi) 福建老人幸福感拉滿

真給力!5月1日起,65歲老人坐公交全省都免費(fèi) 福建老人幸福感拉滿

今日搞笑分享
2026-04-19 16:37:15
第一次對「鋁箔紙」產(chǎn)生了敬意!以為烘焙專用,沒想到是家居神器

第一次對「鋁箔紙」產(chǎn)生了敬意!以為烘焙專用,沒想到是家居神器

裝修秀
2026-04-18 11:55:03
莫蘭特灰熊時(shí)代終章:從天之驕子到無人問津的墜落

莫蘭特灰熊時(shí)代終章:從天之驕子到無人問津的墜落

漫川舟船
2026-04-19 15:03:30
打蛇打七寸!中國全面斷供開始,日本多行業(yè)停擺,高市真慌了

打蛇打七寸!中國全面斷供開始,日本多行業(yè)停擺,高市真慌了

有你便是晴天呢
2026-04-19 09:27:13
吃相太難看!莫氏雞煲爆火后,惡心一幕出現(xiàn),終走上呆呆妹的老路

吃相太難看!莫氏雞煲爆火后,惡心一幕出現(xiàn),終走上呆呆妹的老路

以茶帶書
2026-04-15 17:30:12
2026-04-20 07:12:49
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3334文章數(shù) 11137關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

時(shí)尚
教育
藝術(shù)
親子
本地

裝修“精神角落”,就是這么上癮

教育要聞

中國為什么不禁網(wǎng)絡(luò)游戲?

藝術(shù)要聞

蒲華寫水仙,清健嫵媚

親子要聞

孩子總打噴嚏、起疹子,時(shí)過敏嗎?

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

無障礙瀏覽 進(jìn)入關(guān)懷版