国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從GLM-4.5到GLM-5,我見證了一個模型從碼農(nóng)晉升為架構(gòu)師

0
分享至

上周發(fā)了一篇關(guān)于OpenRouter上神秘模型Pony的文章,還給大家留了個搶紅包的競猜問題:Pony到底是誰?

現(xiàn)在答案終于揭曉了,那就是智譜的GLM-5。

「Pony」是小馬,2026農(nóng)歷馬年,生肖彩蛋。智譜以匿名方式把GLM-5放到OpenRouter上做了一次公測。


這事還挺有意思的。一個沒署名的模型,首日跑了400億token、20.6萬次請求。絕大多數(shù)用它的開發(fā)者都覺得「這水平不像GLM-4.7,太像Opus了」。


但Pony是誰,不是這篇文章的重點(diǎn)。

重點(diǎn)是我用它做了什么、感受到了什么。以及,這件事放在行業(yè)大背景下意味著什么。

節(jié)前國內(nèi)AI公司是真卷。2月6號智譜匿名放出Pony Alpha,2月7號字節(jié)就發(fā)了Seedance 2.0,AI視頻生成直接拉到了全球第一梯隊(duì)。一個卷編程,一個卷視頻,前后腳發(fā)布。 我這覺得我寫不過來了...

我從GLM-4.5開始,每一代都寫了評測文章。

每次寫完都覺得「開源模型又進(jìn)了一步」。但這次GLM-5給我的感受完全不一樣。不是進(jìn)了一步,是換了個身份。

以前GLM系列在我的工作流里是「執(zhí)行者」——Opus當(dāng)大腦做規(guī)劃,GLM做具體的編碼工作。便宜、聽話、夠用。

GLM-5讓我第一次覺得:它也能當(dāng)大腦了。

Vibe Coding過時了?

寫GLM-5之前,得先聊一個剛發(fā)生的事。

2月8號,Karpathy發(fā)了個帖子。就是那個提出「Vibe Coding」概念的人——去年這個詞火得一塌糊涂,基本成了AI編程的代名詞。對著AI說一句話,代碼就出來了,不用管細(xì)節(jié),跟著感覺走。

但他自己說,Vibe Coding正在過時。取而代之的是一個新概念:Agentic Engineering。


什么意思?

Vibe Coding是你告訴AI「幫我寫這個功能」,AI寫完你看看行不行。本質(zhì)上還是人在驅(qū)動,AI在執(zhí)行。

Agentic Engineering不一樣。你給AI一個目標(biāo),它自己拆任務(wù)、自己規(guī)劃步驟、自己寫代碼、自己測試、遇到bug自己修、遇到方向不對自己調(diào)整??赡芘軒仔r甚至幾天。人類變成了架構(gòu)師和監(jiān)督者,AI變成了真正干活的工程團(tuán)隊(duì)。

這不是Karpathy一個人的判斷??纯醋罱鼉芍馨l(fā)生了什么:

Anthropic發(fā)布Opus 4.6的時候,官方案例是什么?16個Claude實(shí)例并行工作兩周,寫了10萬行Rust代碼的C編譯器,能編譯Linux內(nèi)核?;?萬美元。

OpenAI發(fā)布GPT-5.3 Codex的時候,強(qiáng)調(diào)的是什么?AI參與了自己的訓(xùn)練過程。不是寫個貪吃蛇,是調(diào)試訓(xùn)練流程、管理部署、診斷測試結(jié)果。

兩家都不再說「一句話生成網(wǎng)頁」了。都在說Agent、長任務(wù)、系統(tǒng)工程。

Anthropic甚至在1月21號發(fā)了一份「2026 Agentic Coding趨勢報告」,總結(jié)了8大趨勢。其中一個發(fā)現(xiàn)挺扎心的:AI出現(xiàn)在60%的開發(fā)工作中,但開發(fā)者能完全委托給AI的任務(wù)只有0-20%。

差距就在于「系統(tǒng)工程能力」——不是寫單個函數(shù)的能力,而是理解整個系統(tǒng)、規(guī)劃架構(gòu)、處理模塊間依賴、在出錯時自我糾正的能力。

說白了,AI編程正在分成兩條路:

一條是「審美編程」,以Gemini 3.0 Pro為代表。截圖轉(zhuǎn)代碼、一句話出漂亮頁面、視覺驅(qū)動。它做出來的前端確實(shí)好看,這沒什么好否認(rèn)的。

另一條是「系統(tǒng)工程」,以O(shè)pus和Codex為代表。后端架構(gòu)、編譯器、微服務(wù)、長時間運(yùn)行的Agent任務(wù)。不好看,但能用。

這兩條路都有價值。但行業(yè)重心正在從前者轉(zhuǎn)向后者。

在這個背景下,GLM-5選了后者。

快速回顧:GLM怎么一步步走到這的

給沒看過之前文章的讀者補(bǔ)個課。

GLM-4.5(2025年7月):智譜的第一個真正能打的開源模型。當(dāng)時我的評價是「能用的開源平替」。編程能力和Sonnet有差距,但日常任務(wù)夠用,關(guān)鍵是便宜。

GLM-4.6(2025年10月):提升了不少,上下文窗口從128K擴(kuò)到200K。我寫過一篇「Claude Code賬號被封?試試GLM-4.6完美平替」,當(dāng)時確實(shí)幫很多人解決了問題。

GLM-4.7(2025年12月):這代變化挺大。SWE-bench Verified達(dá)到73.8%,直逼一線。我測了5個案例,感受是審美、Coding和Agentic能力都達(dá)到了Claude Sonnet 4.5無差的水平。當(dāng)時我的結(jié)論是「開源模型的新標(biāo)桿」。

每次寫完評測我都覺得「應(yīng)該到頂了吧」。然后下一代又讓我改口。

但從4.5到4.7,質(zhì)的變化不大。每代都是在同一個維度上做增量——代碼寫得更好、bug更少、審美更好看。像一個程序員從初級升到高級,活干得越來越漂亮,但還是在執(zhí)行層面。

GLM-5不一樣。

GLM-5:換了個身份

先看規(guī)格。

744B參數(shù),MoE(混合專家)架構(gòu),每次推理激活40B參數(shù)。相比GLM-4.7(355B/激活32B),規(guī)模翻了一倍,預(yù)訓(xùn)練數(shù)據(jù)從23T增加到28.5T。

再看成績。


在Artificial Analysis綜合榜單上,GLM-5排名全球第四、開源第一。

編程能力:SWE-bench Verified拿了77.8%(Opus 4.5是80.9%,差3個百分點(diǎn)),Terminal-Bench 2.0拿了56.2%(Opus 4.5是59.3%,差距也不大)。這兩個榜都是開源最高。

但更讓我意外的是Agent能力。8個榜單里,GLM-5有兩個拿了全場第一——不是開源第一,是包括Opus、Gemini、GPT在內(nèi)的所有模型里的第一:BrowseComp(聯(lián)網(wǎng)檢索與信息理解)75.9分,比Opus 4.5的67.8高出一截;Humanity's Last Exam帶工具調(diào)用版本50.4分,同樣是全場最高。


MCP-Atlas(工具調(diào)用與多步驟任務(wù))、τ2-Bench(復(fù)雜多工具場景)也都是開源第一,和閉源模型幾乎打平。

還有個挺有意思的Vending Bench 2——讓模型經(jīng)營一年虛擬自動售貨機(jī)生意。GLM-5最終賬戶余額4432美元,超過了GPT-5.2的3591美元,和Opus 4.5的4967美元差距不大。

但benchmark說到底只是考試成績。真正讓我改變看法的,是用Pony Alpha那幾天的體感。

實(shí)測:從那個紅白機(jī)項(xiàng)目說起

上周我發(fā)那篇Pony文章的時候,做了一個測試——把之前用Opus 4.6做的紅白機(jī)游戲廳網(wǎng)站(4700多行代碼),丟給Pony(也就是GLM-5),讓它重構(gòu)成iPhone App。


為什么說這個任務(wù)難?因?yàn)榫W(wǎng)站和App是完全不同的技術(shù)體系。網(wǎng)頁版跑在瀏覽器里,App跑在手機(jī)上,底層語言不一樣、界面框架不一樣、游戲模擬器的實(shí)現(xiàn)方式也不一樣。133款游戲的ROM文件(就是游戲卡帶的數(shù)據(jù))和封面圖,要從網(wǎng)絡(luò)加載改成本地管理。整個東西等于推倒重來。

不是翻譯代碼,是重新設(shè)計(jì)。

GLM-5跑了2個多小時。我中途插手不到10次。

跑完我去看了生成的代碼,說實(shí)話有點(diǎn)吃驚。

最終產(chǎn)出6500多行代碼,比原來的網(wǎng)頁版還多了將近2000行。

但代碼量不是重點(diǎn),重點(diǎn)是它做的幾個關(guān)鍵決策。

第一個決策:模擬器核心怎么做。紅白機(jī)游戲能在手機(jī)上跑,靠的是「模擬器」——用軟件模擬出一臺1983年的游戲機(jī)。網(wǎng)頁版直接用了別人寫好的模擬器庫,拿來就能用。最偷懶的做法是在iOS上也找一個現(xiàn)成的替代品。GLM-5沒這么干。它選了一個更難但更對的方案:用C語言從零寫了一個模擬器。CPU計(jì)算、圖像渲染、聲音處理,全部自己實(shí)現(xiàn)。


第二個決策:畫面怎么渲染。它沒有用最簡單的CPU逐像素畫圖,而是選了Metal(蘋果的GPU加速方案),性能好得多。還額外寫了一個CRT復(fù)古濾鏡——加了老電視機(jī)的弧面效果、掃描線和邊緣暗角,讓游戲畫面看起來就像接在一臺老電視上。

第三個決策:觸控手柄怎么做。手機(jī)上沒有實(shí)體手柄,得做虛擬的。它做了精確的方向識別——手指在十字鍵上滑動時能同時識別上和右(對角線輸入),中間區(qū)域設(shè)了「死區(qū)」防止誤觸。




整個項(xiàng)目沒有用任何第三方庫,全部從零搭建。

當(dāng)然它也有明顯的「AI風(fēng)格」問題——133款游戲的信息全部寫死在代碼里(1600多行),正常人會用配置文件來管理。收藏功能只有界面沒有存儲。這些是產(chǎn)品打磨的問題,不是設(shè)計(jì)能力的問題。

這個任務(wù)讓我印象深刻的不是速度,是它做決策的方式。

先理解整個系統(tǒng)的依賴關(guān)系,再決定從零搭建模擬器而不是找現(xiàn)成庫,再選GPU加速而不是最簡單的方案,再把代碼按職責(zé)分層組織。這是一個「架構(gòu)師」的思路,不是一個「碼農(nóng)」的思路。

上次寫GLM-4.7的時候,我的原話是「審美、Coding和Agentic能力都達(dá)到了Claude Sonnet 4.5無差的水平」。注意,對標(biāo)的是Sonnet。

這次GLM-5,對標(biāo)的是Opus。

實(shí)測案例二:一句話觸發(fā)13步寫作工作流

紅白機(jī)項(xiàng)目是編程任務(wù)。我想看看GLM-5在非編程場景下的Agent能力怎么樣。

關(guān)注我的老粉應(yīng)該都知道,我平時用Claude Code寫公眾號文章,有一套完整的自動化工作流——13個步驟,從信息搜索、競品掃描、選題討論、風(fēng)格學(xué)習(xí)、初稿創(chuàng)作、三遍審校、標(biāo)題矩陣、傳播力審查,一直到配圖生成。整套流程寫在一個1000多字的CLAUDE.md里,每一步都有明確的規(guī)則和工具調(diào)用要求。

我只輸入了一句話:「幫我寫一篇介紹Seedance 2.0的公眾號文章」。

然后我就看著它自己跑。


GLM-5做的第一件事不是開始寫。它讀完CLAUDE.md之后,第一反應(yīng)是:「根據(jù)公眾號寫作流程,我需要先搜索seedance 2.0的相關(guān)信息,然后進(jìn)行選題討論,不能直接寫文章。」

這個細(xì)節(jié)很重要。以前的模型收到「幫我寫一篇文章」,默認(rèn)動作就是開始寫。GLM-5讀懂了規(guī)則,知道這套流程的第一步是搜索,不是動筆。

接下來它搜索信息的時候,WebFetch請求失敗了(連不上火山引擎的頁面)。它沒卡住,自動轉(zhuǎn)向本地知識庫,用Grep和Glob找到了之前存的Seedance 2.0調(diào)研簡報。然后去36kr和Hacker News做了競品掃描。

信息搜索完,它進(jìn)入選題討論——提供了4個方向,每個都有標(biāo)題、核心角度、工作量評估、大綱和優(yōu)劣勢分析。我選了「實(shí)戰(zhàn)體驗(yàn)型」。

選完之后它也沒急著寫。先去讀了SHARED-RULES.md(審校規(guī)則),又讀了兩篇?dú)v史文章學(xué)風(fēng)格,還搜了個人素材庫。然后才開始寫初稿,寫完保存到草稿文件夾。


初稿寫完,它自動開始三遍審校。我看著它一段一段地改——刪了15行加了14行、刪了19行加了9行。改完之后生成了12個標(biāo)題變體供我選擇。

然后做傳播力審查:轉(zhuǎn)發(fā)動機(jī)檢查打了4個勾(讓我顯得懂行、對朋友有用、驗(yàn)證我的觀點(diǎn)、情緒共鳴),第一讀者模擬標(biāo)記了一處「可能想劃走」的位置(競品對比部分稍長)。

我選完標(biāo)題,它又自動調(diào)用了wechat-image配圖技能,規(guī)劃了封面圖+4張正文配圖的方案,調(diào)用Gemini API生成圖片、上傳ImgBB圖床——光這一步就跑了12分鐘、20多次工具調(diào)用。

最終交付了一篇約2000字的完整文章,5張配圖(封面+4張正文圖),所有圖片都是網(wǎng)絡(luò)鏈接,可以直接復(fù)制到飛書用。從我輸入那句話到拿到成品,總共大概28分鐘。13步流程,一步?jīng)]跳。


這個測試讓我想起一個比喻。以前的AI編程是「你說一步,它做一步」,像導(dǎo)航軟件——每到一個路口告訴你左轉(zhuǎn)右轉(zhuǎn)。GLM-5更像一個經(jīng)驗(yàn)豐富的司機(jī),你說「去機(jī)場」,它自己知道走哪條路、哪里該拐彎、遇到堵車怎么繞。

兩個案例加在一起,我覺得GLM-5和之前幾代最大的不同就一個詞:持久力。

之前用GLM-4.7接Claude Code,還是會出現(xiàn)上下文丟失、指令遵循變差的問題。這是很多agentic模型都有的通病,跑著跑著就「忘了自己在干什么」。GLM-5在這方面的改進(jìn)我覺得是最關(guān)鍵的——2小時重構(gòu)6500行代碼、28分鐘走完13步寫作流程,全程沒有丟失上下文,沒有跳步。

這意味著你可以給它一個大任務(wù),讓它跑半小時、一小時甚至更久。不是那種「你盯著它干完一個函數(shù)」的用法,是真正的自動化工程。Anthropic那個16個Claude寫編譯器的案例,換成GLM-5,理論上也能做類似的事情。區(qū)別是——GLM-5是開源的,不需要付Opus的錢。

不只是「平替」了

從GLM-4.5開始寫評測,我一直用的詞是「平替」。性價比高、夠用、便宜。隱含的意思是:不如Opus,但能湊合。

GLM-5讓我覺得這個詞不太準(zhǔn)確了。它和Opus還有差距,但已經(jīng)不是「湊合用」的水平。

綜合榜全球第四、開源第一。編程榜單和Opus差3個百分點(diǎn),Agent榜單有兩個拿了全場第一。官方的說法是「使用體感逼近Opus 4.5」——注意,是逼近,不是追平。整體上Opus仍然更強(qiáng),但差距已經(jīng)肉眼可見地縮小了。

但在我最常用的場景——接入Claude Code做項(xiàng)目級開發(fā)——GLM-5的表現(xiàn)已經(jīng)讓我覺得「很多任務(wù)不用每次都切回Opus了」。

價格差距就更明顯了。Opus每百萬token輸入$5、輸出$25。GLM編程訂閱最低20元/月。

之前我的工作流是「Opus當(dāng)大腦規(guī)劃,GLM當(dāng)手腳執(zhí)行」?,F(xiàn)在很多場景下,GLM-5自己也能規(guī)劃、也能執(zhí)行。不是所有場景,但比以前多多了。

從GLM-4.5到GLM-5,大概一年半的時間。

4.5是能用的初級程序員。4.6是靠譜的中級程序員。4.7是讓人驚喜的高級程序員。

GLM-5不再是程序員了。它是架構(gòu)師。

不是說它寫的每一行代碼都完美,沒有模型能做到。但它思考問題的方式變了。以前你得告訴它「寫一個函數(shù),輸入是什么,輸出是什么」。現(xiàn)在你可以說「我要解決這個問題」,它自己來設(shè)計(jì)怎么解。

這正好呼應(yīng)了整個行業(yè)的趨勢。Karpathy說Vibe Coding過時了,AI編程正在進(jìn)入Agentic Engineering時代。Opus和Codex選了這條路。GLM-5是開源界最早一批跟上來的。

如果你需要的是一句話生成漂亮網(wǎng)頁,選別的也行。如果你需要一個能接入Claude Code/OpenClaw/OpenCode幫你做工程的模型,20元/月,GLM-5值得試試。

Agentic Engineering時代,開源陣營終于有了自己的架構(gòu)師。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
爆!張?zhí)鞇郾恢府?dāng)小三卷入富豪婚變,社媒淪陷,仍分享日常!

爆!張?zhí)鞇郾恢府?dāng)小三卷入富豪婚變,社媒淪陷,仍分享日常!

可樂談情感
2026-04-20 19:57:35
國際奧委會明確表態(tài),對2036年奧運(yùn)會的申辦情況很是失望

國際奧委會明確表態(tài),對2036年奧運(yùn)會的申辦情況很是失望

安安說
2026-04-20 11:09:20
罰15億!拼多多一員工故意關(guān)門,對抗調(diào)查,導(dǎo)致執(zhí)法人員手指骨折

罰15億!拼多多一員工故意關(guān)門,對抗調(diào)查,導(dǎo)致執(zhí)法人員手指骨折

魔都姐姐雜談
2026-04-19 08:03:27
蘋果任命新CEO,庫克卸任

蘋果任命新CEO,庫克卸任

半導(dǎo)體行業(yè)觀察
2026-04-21 06:29:00
被蘋果、華為干倒的諾基亞,又殺回來了!

被蘋果、華為干倒的諾基亞,又殺回來了!

大佬灼見
2026-04-19 10:28:53
丈夫騎車躲狗摔倒致妻死亡,家屬起訴違停車主124萬,法院判了

丈夫騎車躲狗摔倒致妻死亡,家屬起訴違停車主124萬,法院判了

大魚簡科
2026-04-20 19:38:39
拼多多暴力抗法震驚全網(wǎng),市值萬億巨頭為何如此囂張

拼多多暴力抗法震驚全網(wǎng),市值萬億巨頭為何如此囂張

燕梳樓頻道
2026-04-20 21:12:04
拼多多暴力抗法細(xì)節(jié)曝光:推搡拉扯執(zhí)法人員,員工當(dāng)場吃下紙團(tuán)!

拼多多暴力抗法細(xì)節(jié)曝光:推搡拉扯執(zhí)法人員,員工當(dāng)場吃下紙團(tuán)!

仕道
2026-04-20 17:48:21
周薪25萬鎊!31歲功勛確認(rèn)自由身告別曼城 效力10年助隊(duì)奪19冠

周薪25萬鎊!31歲功勛確認(rèn)自由身告別曼城 效力10年助隊(duì)奪19冠

我愛英超
2026-04-21 06:22:01
睡一覺5萬沒了!全國多地爆發(fā)新型盜刷,睡前必查手機(jī)這4處

睡一覺5萬沒了!全國多地爆發(fā)新型盜刷,睡前必查手機(jī)這4處

洞見小能手
2026-04-20 16:03:26
金像獎成功收官:四大尷尬,三大暖心,兩個意外發(fā)現(xiàn),謝霆鋒贏麻

金像獎成功收官:四大尷尬,三大暖心,兩個意外發(fā)現(xiàn),謝霆鋒贏麻

八斗小先生
2026-04-20 16:37:47
局面尷尬!伊朗明確不參與第二輪談判,拒絕任何最后通牒

局面尷尬!伊朗明確不參與第二輪談判,拒絕任何最后通牒

山河路口
2026-04-20 20:42:59
4月20日俄烏:俄羅斯人越來越擔(dān)心了

4月20日俄烏:俄羅斯人越來越擔(dān)心了

山河路口
2026-04-20 23:32:30
撤下主力放棄比賽,替補(bǔ)卻反敗為勝!哈登都看傻了

撤下主力放棄比賽,替補(bǔ)卻反敗為勝!哈登都看傻了

林子說事
2026-04-21 02:26:26
爭議!趙繼偉慘敗夜發(fā)“呵呵” 自責(zé)“想找地縫鉆進(jìn)去”引熱議

爭議!趙繼偉慘敗夜發(fā)“呵呵” 自責(zé)“想找地縫鉆進(jìn)去”引熱議

醉臥浮生
2026-04-20 22:28:30
報道稱至少26艘涉伊朗航運(yùn)船只突破美軍封鎖

報道稱至少26艘涉伊朗航運(yùn)船只突破美軍封鎖

財(cái)聯(lián)社
2026-04-21 03:54:22
人民日報聯(lián)合工信部緊急預(yù)警:全體iPhone用戶,請立刻升級系統(tǒng)!

人民日報聯(lián)合工信部緊急預(yù)警:全體iPhone用戶,請立刻升級系統(tǒng)!

小柱解說游戲
2026-04-19 20:52:59
突發(fā)!庫克卸任蘋果CEO,一個時代結(jié)束了

突發(fā)!庫克卸任蘋果CEO,一個時代結(jié)束了

智東西
2026-04-21 06:50:16
不露面不知道,一露面嚇一跳,這些明星怎么都老成這個樣子了

不露面不知道,一露面嚇一跳,這些明星怎么都老成這個樣子了

孤城落日
2026-04-20 19:26:14
“巴掌遮陽帽”在TikTok刷屏、義烏緊急跟進(jìn),利潤翻了近10倍

“巴掌遮陽帽”在TikTok刷屏、義烏緊急跟進(jìn),利潤翻了近10倍

去山野間追風(fēng)
2026-04-21 03:16:20
2026-04-21 08:16:49
AI進(jìn)化論花生 incentive-icons
AI進(jìn)化論花生
AI博主,AppStore付費(fèi)榜第一的小貓補(bǔ)光燈app開發(fā)者
188文章數(shù) 111關(guān)注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

特朗普兩天三次反轉(zhuǎn) 伊朗學(xué)習(xí)特朗普玩起"極限施壓"

頭條要聞

特朗普兩天三次反轉(zhuǎn) 伊朗學(xué)習(xí)特朗普玩起"極限施壓"

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財(cái)經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

本地
旅游
家居
公開課
軍事航空

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

旅游要聞

閻錫山故居:一座都督府,半部民國史

家居要聞

自然慢調(diào) 慢享時光

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進(jìn)入關(guān)懷版