国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude Opus 4.6 一天之內(nèi)被超越兩次,這次來自國產(chǎn)模型

0
分享至


前兩天 APPSO 提到,大模型即將迎來史上最殘酷的一個月,這就來了。

而Claude Opus 4.6 「不幸」成為背景板,一天之內(nèi)被超越兩次。

早上 Anthropic 發(fā)布了 Claude Mythos Preview,在 SWE-bench Pro 上拿下 77.8%,把 Opus 4.6 的 57.3% 甩在身后。這個分?jǐn)?shù)意味著它能在真實 GitHub 倉庫里定位并修復(fù)高難度工程 Bug,已經(jīng)超過了絕大多數(shù)人類程序員。

可 Mythos Preview 暫時不對普通用戶開放,與此同時,另外一個超 Opus 4.6 的模型出現(xiàn)了——智譜開源了 GLM-5.1。


GLM-5.1 SWE-bench Pro 得分 58.4%,超過 Opus 4.6 的 57.3%,也超過 GPT-5.4 的 57.7%。HuggingFace CEO Clement Delangue 也發(fā)推祝賀:「SWE-Bench Pro 上表現(xiàn)最好的模型現(xiàn)在在 HuggingFace 上開源了!歡迎 GLM 5.1!」


全球第三,開源第一。雖然沒等來 DeepSeek V4,但開源新一哥還是來了,依然是咱們國產(chǎn)大模型。

說實話,我第一反應(yīng)是又來了,大模型的「榜單狂歡」,每次發(fā)布會都是「史詩級進(jìn)步」,各家模型在榜單上各領(lǐng)風(fēng)數(shù)小時,這次的劇本有什么不同呢。

APPSO 看完 GLM-5.1 的技術(shù)細(xì)節(jié)和體驗后,帶你看看這個模型是什么水平

從 20 步到 1700 步,持續(xù)工作 8 小時

GLM-5.1 最讓人沒想到的,不是跑分,是它能工作多久。

智譜有個一個案例讓我印象比較深。8 小時從零構(gòu)建 Linux 桌面系統(tǒng)。不是寫幾個 demo 文件那種「構(gòu)建」,是真的從零開始,畫架構(gòu)、寫代碼、跑測試、修 bug,歷時 8 小時整,執(zhí)行了 1200 多步,最后產(chǎn)出了一套功能完善的 Linux 桌面系統(tǒng)。


包括完整的桌面、窗口管理器、狀態(tài)欄、應(yīng)用程序、VPN 管理器、中文字體支持、游戲庫,4.8MB 的配套文件。這相當(dāng)于一個 4 人團(tuán)隊一周的工作量。

全程沒有人參與測試、審查代碼。GLM-5.1 甚至給自己的代碼寫了回歸測試,而且跑過了。

知乎程序員博主 Toyama nao 做了個更狠的測試。他給 GLM-5.1 扔了三個工程項目:用 Swift 寫 macOS 的 OpenGL 渲染器、用 Flutter 開發(fā)全功能聊天軟件同時用 Golang 開發(fā)服務(wù)端、自選技術(shù)棧開發(fā)純網(wǎng)頁端視頻剪輯應(yīng)用。每個項目跑 10-12 輪提示詞,每輪 1500-2000 字。

結(jié)果 GLM-5.1 成為第一個通過他全部測試工程的國產(chǎn)模型,也是第一個正式超越 Sonnet 4.5 Thinking 的國產(chǎn)模型。


他的評價是:「GLM-5.1 大幅擴(kuò)展了編程的適應(yīng)范圍,不再是前端 only 戰(zhàn)神,也不只是 oneshot 樣子貨,是可以在復(fù)雜工況下充當(dāng)編程主力?!沟仓赋隽藛栴}:「超長上下文時容易幻覺爆炸,如果遇到 2 輪改不好一個問題,不要抱有僥幸,直接重開?!?/p>

去年年底,AI 智能體大約只能完成 20 個步驟。GLM-5.1 現(xiàn)在可以完成 1700 個步驟。這是模型能不能真正「獨立工作」的分水嶺。

智譜在技術(shù)報告里解釋了關(guān)鍵突破點:以前的模型,包括 GLM-5,會在早期快速取得收益后就進(jìn)入瓶頸期。它們反復(fù)嘗試已知的優(yōu)化手段,但無法在一條路走不通時主動切換策略。

GLM-5.1 的訓(xùn)練目標(biāo)就是突破這個瓶頸,讓模型能夠在一個固定策略內(nèi)進(jìn)行增量調(diào)優(yōu),當(dāng)收益趨于停滯時,主動分析 Benchmark 日志、定位當(dāng)前瓶頸,然后跳轉(zhuǎn)到結(jié)構(gòu)性不同的方案。

向量數(shù)據(jù)庫優(yōu)化案例就是典型的「階梯型」優(yōu)化軌跡。GLM-5.1 用了 655 次迭代,把查詢吞吐從 3108 QPS 一路推到 21472 QPS,提升了 6.9 倍。


這個過程中,模型自己完成了從全庫掃描切到 IVF 分桶召回、引入半精度壓縮、加入量化粗排、做兩級路由,再到提前剪枝的整套優(yōu)化鏈條。每一次跳躍都伴隨著短暫的 Recall 下降,因為模型在探索新方向時會暫時打破約束,隨后再調(diào)回來。這個「打破-修復(fù)」的循環(huán)本身就是有效優(yōu)化的標(biāo)志。

在 KernelBench Level 3 優(yōu)化基準(zhǔn)上,GLM-5.1 對 50 個真實機(jī)器學(xué)習(xí)計算負(fù)載進(jìn)行了超過 24 小時的不間斷迭代,最終取得 3.6 倍的幾何平均加速比,顯著高于 torch.compile max-autotune 模式的 1.49 倍。模型自主編寫定制 Triton Kernel 和 CUDA Kernel,運用 cuBLASLt epilogue 融合并實施 shared memory tiling 與 CUDA Graph 優(yōu)化,覆蓋了從高層算子融合到微架構(gòu)級調(diào)優(yōu)的完整技術(shù)棧。


還有一個更有意思的測試:Vending Bench 2。這個基準(zhǔn)要求模型模擬經(jīng)營一年的自動售貨機(jī)業(yè)務(wù),需要長期規(guī)劃和資源管理。GLM-5.1 最終賬戶余額達(dá)到 $4,432,在開源模型中排名第一,接近 Claude Opus 4.5 的水平。

744B 參數(shù),零英偉達(dá)芯片,成本降低 97%

GLM-5.1 的技術(shù)規(guī)格值得細(xì)看:744B 參數(shù)的混合專家模型(MoE),每個 token 激活 40B 參數(shù),28.5T tokens 訓(xùn)練數(shù)據(jù),集成了 DeepSeek Sparse Attention(DSA)來降低部署成本同時保持長上下文能力。200K 上下文窗口,最大輸出 131,072 tokens。

更關(guān)鍵的是,整個模型全部使用華為昇騰 910B 芯片訓(xùn)練,沒有英偉達(dá) GPU 參與。在算力被卡脖子的情況下,國產(chǎn)模型依然能做到全球第三、開源第一。

開發(fā)者 Beau Johnson 把自己部署的 OpenClaw 背后的模型從 Claude Opus 4.6 切換到 GLM-5.1,體驗上沒有任何差別,但成本從 1000 美元暴砍至 30 美元左右,降低了 97%。GLM-5.1 的輸入成本是 Claude Opus 的 1/5,輸出成本是 1/8。簡單來說:接近 Opus 的能力,20% 的價格。


而且GLM-5.1 是開源的。MIT License,最寬松的開源許可證之一。你可以拿去改,拿去商用,拿去做任何事。支持 vLLM、SGLang、xLLM 等主流推理框架,可以直接在本地部署。

當(dāng)然 GLM-5.1 也不是沒有提升的空間,部分開發(fā)者反饋,GLM-5.1 的推理速度只有 44.3 tokens/秒,在同類產(chǎn)品沒太大優(yōu)勢。復(fù)雜任務(wù)甚至要一小時起步,哪怕 Pro 套餐額度是 Claude 的 15 倍,也可能不太夠用。

這些問題都是真實存在的。GLM-5.1 不是完美的,但這不妨礙它成為一個里程碑。

GLM-5.1 的意義,不在于它比 Opus 4.6 強(qiáng)多少,而在于它證明了,在算力被卡脖子的情況下,國產(chǎn)模型依然能做到開源第一。而且它是開源的,任何人都可以用,任何人都可以改。

你睡覺的 8 小時,現(xiàn)在可以是 AI 上班的 8 小時了。而且這個 AI ,是開源的,是國產(chǎn)的,是任何人都可以用的。

附體驗方式

1. 官方API接入
- BigModel 開放平臺:https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
- Z.ai:https://docs.z.ai/guides/llm/glm-5.1

2. 產(chǎn)品體驗
- GLM-5.1即將登陸Z.ai:https://chat.z.ai

3. 開源鏈接
- GitHub:https://github.com/zai-org/GLM-5
- Hugging Face:https://huggingface.co/zai-org/GLM-5.1
- ModelScope:https://modelscope.cn/models/ZhipuAI/GLM-5.1

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
李想向黑水軍開炮!連發(fā)5條朋友圈,從今天起不忍了

李想向黑水軍開炮!連發(fā)5條朋友圈,從今天起不忍了

車東西
2026-04-12 20:30:20
警惕文化入侵!兩朵中國千年名花,被日漫和西方帶偏,成了晦氣花

警惕文化入侵!兩朵中國千年名花,被日漫和西方帶偏,成了晦氣花

云景侃記
2026-04-09 17:14:24
哈里梅根 Netflix 私宴同框撒糖,橄欖綠裙配藏藍(lán)西裝氛圍感拉滿

哈里梅根 Netflix 私宴同框撒糖,橄欖綠裙配藏藍(lán)西裝氛圍感拉滿

述家娛記
2026-04-13 10:09:49
性需求是人的活力來源,性需求是成年人最強(qiáng)大的生命力

性需求是人的活力來源,性需求是成年人最強(qiáng)大的生命力

加油丁小文
2026-04-03 11:30:07
西北地區(qū)首家蘋果直營店終于要來了!

西北地區(qū)首家蘋果直營店終于要來了!

XCiOS俱樂部
2026-04-12 12:35:02
利好儲戶!國家推出高息存款,10萬5年多賺2000,比銀行香多了

利好儲戶!國家推出高息存款,10萬5年多賺2000,比銀行香多了

牛鍋巴小釩
2026-04-12 21:13:50
江西各地2026年1-2月財政收入排行:吉安難破50億,景德鎮(zhèn)跌10.2%

江西各地2026年1-2月財政收入排行:吉安難破50億,景德鎮(zhèn)跌10.2%

水又木二
2026-04-12 11:38:55
中產(chǎn)徹底清醒!鋼琴銷量暴跌72%:不是不愛音樂,是時代不裝了…

中產(chǎn)徹底清醒!鋼琴銷量暴跌72%:不是不愛音樂,是時代不裝了…

火山詩話
2026-04-09 13:45:45
李想公布東風(fēng)日產(chǎn)水軍拉踩理想證據(jù)!

李想公布東風(fēng)日產(chǎn)水軍拉踩理想證據(jù)!

鞭牛士
2026-04-11 21:39:08
這一次,“寵女無度”的賈平凹被扒了個底朝天,王朔的評價是對的

這一次,“寵女無度”的賈平凹被扒了個底朝天,王朔的評價是對的

攬星河的筆記
2026-04-10 20:02:37
阿爾忒彌斯2號無動力返回到底難在哪?

阿爾忒彌斯2號無動力返回到底難在哪?

漢宮秋
2026-04-12 18:24:08
戰(zhàn)爭有多燒錢,網(wǎng)友說我講一下我家里的局部戰(zhàn)爭你就明白

戰(zhàn)爭有多燒錢,網(wǎng)友說我講一下我家里的局部戰(zhàn)爭你就明白

侃神評故事
2026-04-06 11:45:08
61歲何智麗近照曝光,狀態(tài)判若兩人!日本銀行上班,想回上海養(yǎng)老

61歲何智麗近照曝光,狀態(tài)判若兩人!日本銀行上班,想回上海養(yǎng)老

喜歡歷史的阿繁
2026-04-13 08:14:24
被問Model Y值不值得買,大哥一句“買特斯拉特別好”,全場沉默了

被問Model Y值不值得買,大哥一句“買特斯拉特別好”,全場沉默了

華庭講美食
2026-04-11 13:01:50
小法:今天國米基本拿到意甲冠軍了;我們踢得很好但他們更強(qiáng)

小法:今天國米基本拿到意甲冠軍了;我們踢得很好但他們更強(qiáng)

懂球帝
2026-04-13 07:41:07
離譜!特斯拉發(fā)布新款 Model 金色限定版本

離譜!特斯拉發(fā)布新款 Model 金色限定版本

XCiOS俱樂部
2026-04-12 09:21:25
葉珂直播自曝全身do了:全身上下翻來覆去的打,為了漂亮只能忍受

葉珂直播自曝全身do了:全身上下翻來覆去的打,為了漂亮只能忍受

觀魚聽雨
2026-04-10 19:22:19
山東女子去廣東做客,吃了頓飯才明白:為啥廣東人能吃還那么瘦?

山東女子去廣東做客,吃了頓飯才明白:為啥廣東人能吃還那么瘦?

華庭講美食
2026-04-12 18:42:16
華為AI眼鏡4月21日開賣,戴3小時不想摘!

華為AI眼鏡4月21日開賣,戴3小時不想摘!

我不叫阿哏
2026-04-12 11:11:46
陳坤兒子陳尊佑:我媽不是保姆,也不是周迅,真相15年前就公布了

陳坤兒子陳尊佑:我媽不是保姆,也不是周迅,真相15年前就公布了

伴史緣
2026-04-12 19:53:22
2026-04-13 10:47:00
愛范兒 incentive-icons
愛范兒
消費科技第一媒體
38688文章數(shù) 2601465關(guān)注度
往期回顧 全部

科技要聞

李想向黑水軍開炮!連發(fā)5條朋友圈

頭條要聞

牛彈琴:談判失敗美國不惜自殘 用的招夠狠夠損也夠蠢

頭條要聞

牛彈琴:談判失敗美國不惜自殘 用的招夠狠夠損也夠蠢

體育要聞

創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

娛樂要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭

財經(jīng)要聞

封鎖,還是收費站?

汽車要聞

不止命名更純粹 領(lǐng)克10/10+要做純電操控新王

態(tài)度原創(chuàng)

游戲
時尚
本地
公開課
軍事航空

頑皮狗多項目并行開發(fā)?曝《美末3》真的在做了

這些才是普通人借鑒的穿搭!上短下長、上窄下寬,顯瘦又舒適

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國副總統(tǒng)萬斯:美伊談判未能達(dá)成協(xié)議

無障礙瀏覽 進(jìn)入關(guān)懷版