GLM-5.1發(fā)布：Z.ai推出可長時間自主運行的AI編程智能體

2026-04-14 22:13:19　來源: 至頂AI實驗室

北京舉報

分享至

中國AI公司Z.ai近日發(fā)布了GLM-5.1，這是一款專為智能體軟件工程設計的開源編程模型。此次發(fā)布正值A(chǔ)I廠商紛紛從自動補全式編程工具，向能夠長時間、低人工干預地處理軟件任務的系統(tǒng)轉(zhuǎn)型之際。

Z.ai表示，GLM-5.1能夠在數(shù)百次迭代中保持穩(wěn)定性能，這一特性使其有別于在長時間運行中逐漸失效的其他模型。

舉例來說，該公司表示GLM-5.1在一項向量數(shù)據(jù)庫優(yōu)化任務中，經(jīng)過超過600次迭代、6000次工具調(diào)用，最終達到每秒21500次查詢的速度，約為單次50輪會話中最優(yōu)結(jié)果的六倍。

Z.ai在一份研究說明中指出，GLM-5.1在多項軟件工程基準測試中超越了其前代產(chǎn)品GLM-5，尤其在代碼倉庫生成、終端問題解決和反復代碼優(yōu)化方面表現(xiàn)突出。在SWE-Bench Pro測試上，GLM-5.1得分為58.4，而GLM-5為55.1，并超過了OpenAI的GPT-5.4、Anthropic的Opus 4.6以及谷歌的Gemini 3.1 Pro在該基準上的成績。

GLM-5.1已在MIT許可證下發(fā)布，可通過Z.ai的開發(fā)者平臺獲取，模型權(quán)重也已公開發(fā)布，支持本地部署。這對希望更好掌控工具部署方式的企業(yè)而言具有較大吸引力。

Z.ai將長時間穩(wěn)定運行性能定位為核心差異化優(yōu)勢，因為許多當前模型在經(jīng)歷相對較少的輪次后便會停滯或出現(xiàn)漂移，限制了其在復雜多步驟軟件任務中的實用性。

Pareekh Consulting首席執(zhí)行官Pareekh Jain表示，行業(yè)正從能夠回答提示詞的工具，邁向能夠在較少監(jiān)督下完成更長時間任務的系統(tǒng)。

Jain說，問題已不再是"我能問AI什么"，而是"我能把接下來八小時的工作交給它做什么"。

對于企業(yè)而言，這意味著早上將一張工單交給智能體，到下班時便能收到經(jīng)過數(shù)百次實驗和代碼分析后生成的優(yōu)化方案。

Forrester副總裁兼首席分析師Charlie Dai表示："這一能力契合了大規(guī)模代碼重構(gòu)、遷移項目和持續(xù)故障處理等實際需求。這表明，長時間運行的自主智能體正變得越來越實用，前提是企業(yè)需要配套引入治理、監(jiān)控和升級機制來管控風險。"

GLM-5.1采用MIT許可證發(fā)布，對金融、醫(yī)療、國防等監(jiān)管嚴格或安全敏感行業(yè)尤為重要。

Jain從四個維度分析了其意義：第一，成本方面，其定價遠低于高端商業(yè)模型，自托管方式讓企業(yè)可以自主控制費用，而非按調(diào)用次數(shù)付費；第二，數(shù)據(jù)治理方面，敏感代碼和數(shù)據(jù)無需發(fā)送至外部API，在金融、醫(yī)療和國防等領(lǐng)域尤為關(guān)鍵；第三，定制化方面，企業(yè)可以不受限制地根據(jù)自身代碼庫和內(nèi)部工具對模型進行調(diào)整。

Jain提到的第四個因素是地緣政治風險。盡管該模型是開源的，但其與中國基礎(chǔ)設施和相關(guān)實體的關(guān)聯(lián)，仍可能引發(fā)部分美國企業(yè)的合規(guī)顧慮。

Dai表示，MIT許可證使企業(yè)更容易在自有系統(tǒng)上運行該模型，并根據(jù)內(nèi)部需求和治理策略進行調(diào)整。"對許多采購方來說，GLM-5.1是商業(yè)模型之外一個可行的戰(zhàn)略選項，尤其是在監(jiān)管約束、知識產(chǎn)權(quán)敏感性或長期平臺控制最為重要的場景下。"

Z.ai引用了三項基準測試：SWE-Bench Pro用于測試復雜軟件工程任務；NL2Repo用于評估代碼倉庫生成能力；Terminal-Bench 2.0則評估真實場景下基于終端的問題解決能力。

Omdia首席分析師Lian Jye Su表示："這些基準測試專門考察編程智能體的高級編程能力，在這些測試中名列前茅，意味著在規(guī)劃到執(zhí)行的可靠性、更少的提示詞返工以及更快的交付速度等方面表現(xiàn)優(yōu)異。不過，這些測試與企業(yè)實際情況之間仍存在距離。"

Su指出，公開基準測試仍無法反映私有代碼庫、遺留系統(tǒng)和代碼審查工作流的真實復雜性。他補充說，基準結(jié)果來自受控環(huán)境，與生產(chǎn)環(huán)境存在差異，但隨著越來越多團隊采用智能體架構(gòu)，這一差距正在縮小。

Q&A

Q1：GLM-5.1與普通AI編程工具有什么區(qū)別？

A：GLM-5.1專為智能體軟件工程設計，核心優(yōu)勢在于能在數(shù)百次迭代中保持穩(wěn)定性能，而普通AI編程工具在長時間運行后往往會逐漸失效。例如，GLM-5.1在一項向量數(shù)據(jù)庫優(yōu)化任務中，經(jīng)過超600次迭代后仍能持續(xù)提升性能，最終查詢速度達到單次短會話最優(yōu)結(jié)果的六倍，更適合大規(guī)模重構(gòu)、遷移和持續(xù)故障處理等復雜工程任務。

Q2：GLM-5.1開源對企業(yè)意味著什么？

A：GLM-5.1采用MIT許可證開源發(fā)布，企業(yè)可以本地部署，主要有四方面好處：一是成本更低，自托管可自主控制費用；二是數(shù)據(jù)安全，敏感代碼無需發(fā)送至外部API；三是可自由定制，適配自身代碼庫和內(nèi)部工具；四是規(guī)避部分供應商依賴風險。對金融、醫(yī)療等監(jiān)管嚴格的行業(yè)尤其具有實用價值。

Q3：GLM-5.1在基準測試中的表現(xiàn)如何？

A：GLM-5.1在SWE-Bench Pro上得分58.4，超過前代GLM-5的55.1，并超過了OpenAI GPT-5.4、Anthropic Opus 4.6和谷歌Gemini 3.1 Pro的成績。此外在NL2Repo（代碼倉庫生成）和Terminal-Bench 2.0（終端問題解決）上也表現(xiàn)出色。不過分析師指出，這些測試仍與企業(yè)私有代碼庫的真實復雜性存在一定差距。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.