国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GLM-5.1發(fā)布:Z.ai推出可長時間自主運行的AI編程智能體

0
分享至


中國AI公司Z.ai近日發(fā)布了GLM-5.1,這是一款專為智能體軟件工程設計的開源編程模型。此次發(fā)布正值A(chǔ)I廠商紛紛從自動補全式編程工具,向能夠長時間、低人工干預地處理軟件任務的系統(tǒng)轉(zhuǎn)型之際。

Z.ai表示,GLM-5.1能夠在數(shù)百次迭代中保持穩(wěn)定性能,這一特性使其有別于在長時間運行中逐漸失效的其他模型。

舉例來說,該公司表示GLM-5.1在一項向量數(shù)據(jù)庫優(yōu)化任務中,經(jīng)過超過600次迭代、6000次工具調(diào)用,最終達到每秒21500次查詢的速度,約為單次50輪會話中最優(yōu)結(jié)果的六倍。

Z.ai在一份研究說明中指出,GLM-5.1在多項軟件工程基準測試中超越了其前代產(chǎn)品GLM-5,尤其在代碼倉庫生成、終端問題解決和反復代碼優(yōu)化方面表現(xiàn)突出。在SWE-Bench Pro測試上,GLM-5.1得分為58.4,而GLM-5為55.1,并超過了OpenAI的GPT-5.4、Anthropic的Opus 4.6以及谷歌的Gemini 3.1 Pro在該基準上的成績。

GLM-5.1已在MIT許可證下發(fā)布,可通過Z.ai的開發(fā)者平臺獲取,模型權(quán)重也已公開發(fā)布,支持本地部署。這對希望更好掌控工具部署方式的企業(yè)而言具有較大吸引力。

Z.ai將長時間穩(wěn)定運行性能定位為核心差異化優(yōu)勢,因為許多當前模型在經(jīng)歷相對較少的輪次后便會停滯或出現(xiàn)漂移,限制了其在復雜多步驟軟件任務中的實用性。

Pareekh Consulting首席執(zhí)行官Pareekh Jain表示,行業(yè)正從能夠回答提示詞的工具,邁向能夠在較少監(jiān)督下完成更長時間任務的系統(tǒng)。

Jain說,問題已不再是"我能問AI什么",而是"我能把接下來八小時的工作交給它做什么"。

對于企業(yè)而言,這意味著早上將一張工單交給智能體,到下班時便能收到經(jīng)過數(shù)百次實驗和代碼分析后生成的優(yōu)化方案。

Forrester副總裁兼首席分析師Charlie Dai表示:"這一能力契合了大規(guī)模代碼重構(gòu)、遷移項目和持續(xù)故障處理等實際需求。這表明,長時間運行的自主智能體正變得越來越實用,前提是企業(yè)需要配套引入治理、監(jiān)控和升級機制來管控風險。"

GLM-5.1采用MIT許可證發(fā)布,對金融、醫(yī)療、國防等監(jiān)管嚴格或安全敏感行業(yè)尤為重要。

Jain從四個維度分析了其意義:第一,成本方面,其定價遠低于高端商業(yè)模型,自托管方式讓企業(yè)可以自主控制費用,而非按調(diào)用次數(shù)付費;第二,數(shù)據(jù)治理方面,敏感代碼和數(shù)據(jù)無需發(fā)送至外部API,在金融、醫(yī)療和國防等領(lǐng)域尤為關(guān)鍵;第三,定制化方面,企業(yè)可以不受限制地根據(jù)自身代碼庫和內(nèi)部工具對模型進行調(diào)整。

Jain提到的第四個因素是地緣政治風險。盡管該模型是開源的,但其與中國基礎(chǔ)設施和相關(guān)實體的關(guān)聯(lián),仍可能引發(fā)部分美國企業(yè)的合規(guī)顧慮。

Dai表示,MIT許可證使企業(yè)更容易在自有系統(tǒng)上運行該模型,并根據(jù)內(nèi)部需求和治理策略進行調(diào)整。"對許多采購方來說,GLM-5.1是商業(yè)模型之外一個可行的戰(zhàn)略選項,尤其是在監(jiān)管約束、知識產(chǎn)權(quán)敏感性或長期平臺控制最為重要的場景下。"

Z.ai引用了三項基準測試:SWE-Bench Pro用于測試復雜軟件工程任務;NL2Repo用于評估代碼倉庫生成能力;Terminal-Bench 2.0則評估真實場景下基于終端的問題解決能力。

Omdia首席分析師Lian Jye Su表示:"這些基準測試專門考察編程智能體的高級編程能力,在這些測試中名列前茅,意味著在規(guī)劃到執(zhí)行的可靠性、更少的提示詞返工以及更快的交付速度等方面表現(xiàn)優(yōu)異。不過,這些測試與企業(yè)實際情況之間仍存在距離。"

Su指出,公開基準測試仍無法反映私有代碼庫、遺留系統(tǒng)和代碼審查工作流的真實復雜性。他補充說,基準結(jié)果來自受控環(huán)境,與生產(chǎn)環(huán)境存在差異,但隨著越來越多團隊采用智能體架構(gòu),這一差距正在縮小。

Q&A

Q1:GLM-5.1與普通AI編程工具有什么區(qū)別?

A:GLM-5.1專為智能體軟件工程設計,核心優(yōu)勢在于能在數(shù)百次迭代中保持穩(wěn)定性能,而普通AI編程工具在長時間運行后往往會逐漸失效。例如,GLM-5.1在一項向量數(shù)據(jù)庫優(yōu)化任務中,經(jīng)過超600次迭代后仍能持續(xù)提升性能,最終查詢速度達到單次短會話最優(yōu)結(jié)果的六倍,更適合大規(guī)模重構(gòu)、遷移和持續(xù)故障處理等復雜工程任務。

Q2:GLM-5.1開源對企業(yè)意味著什么?

A:GLM-5.1采用MIT許可證開源發(fā)布,企業(yè)可以本地部署,主要有四方面好處:一是成本更低,自托管可自主控制費用;二是數(shù)據(jù)安全,敏感代碼無需發(fā)送至外部API;三是可自由定制,適配自身代碼庫和內(nèi)部工具;四是規(guī)避部分供應商依賴風險。對金融、醫(yī)療等監(jiān)管嚴格的行業(yè)尤其具有實用價值。

Q3:GLM-5.1在基準測試中的表現(xiàn)如何?

A:GLM-5.1在SWE-Bench Pro上得分58.4,超過前代GLM-5的55.1,并超過了OpenAI GPT-5.4、Anthropic Opus 4.6和谷歌Gemini 3.1 Pro的成績。此外在NL2Repo(代碼倉庫生成)和Terminal-Bench 2.0(終端問題解決)上也表現(xiàn)出色。不過分析師指出,這些測試仍與企業(yè)私有代碼庫的真實復雜性存在一定差距。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
Agent新王誕生?Hermes 7周追上龍蝦,中國用戶可微信直連

Agent新王誕生?Hermes 7周追上龍蝦,中國用戶可微信直連

DeepTech深科技
2026-04-15 17:10:45
活久見!網(wǎng)傳重慶全女健身房生意火爆,限女性顧客和男性教練進去

活久見!網(wǎng)傳重慶全女健身房生意火爆,限女性顧客和男性教練進去

火山詩話
2026-04-13 09:18:54
馬斯克再放狠話:能建造出比中國任何公共交通系統(tǒng),都更好的系統(tǒng)

馬斯克再放狠話:能建造出比中國任何公共交通系統(tǒng),都更好的系統(tǒng)

牛鍋巴小釩
2026-04-15 19:34:09
曼聯(lián)夢想破碎:巴黎圣日耳曼重磅續(xù)約恩里克

曼聯(lián)夢想破碎:巴黎圣日耳曼重磅續(xù)約恩里克

本澤體育
2026-04-16 07:06:25
媒體人熱議國安評議:啞然失笑的處理結(jié)果;AI圖造謠成本太低

媒體人熱議國安評議:啞然失笑的處理結(jié)果;AI圖造謠成本太低

懂球帝
2026-04-15 17:32:04
塔帥:英超的賽程會耗盡精力;賴斯當隊長?這是球員們決定的

塔帥:英超的賽程會耗盡精力;賴斯當隊長?這是球員們決定的

懂球帝
2026-04-16 06:09:08
自困愁城:伊朗將為封鎖霍爾木茲海峽付出最慘重代價

自困愁城:伊朗將為封鎖霍爾木茲海峽付出最慘重代價

民間胡扯老哥
2026-04-13 22:30:45
許家印認罪不到24小時,過往被扒,倒霉的有3個女人

許家印認罪不到24小時,過往被扒,倒霉的有3個女人

君笙的拂兮
2026-04-16 05:12:16
以色列設定三個停火條件

以色列設定三個;饤l件

魯中晨報
2026-04-16 07:28:27
你們都是什么時候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
后續(xù)!孕婦200買水果被老公罵:在坐小月子,老公得知后怒砸東西

后續(xù)!孕婦200買水果被老公罵:在坐小月子,老公得知后怒砸東西

青梅侃史啊
2026-04-15 07:51:58
順峰餐廳北京門店全部關(guān)閉:司法糾紛不斷,消費者上萬儲值打水漂?

順峰餐廳北京門店全部關(guān)閉:司法糾紛不斷,消費者上萬儲值打水漂?

北京商報
2026-04-15 20:03:10
北約和多個國家支持美國封鎖霍爾木茲海峽

北約和多個國家支持美國封鎖霍爾木茲海峽

一種觀點
2026-04-13 15:34:58
難怪緊急訪華!阿聯(lián)酋這是求救來了,背后捅刀反被孤立…

難怪緊急訪華!阿聯(lián)酋這是求救來了,背后捅刀反被孤立…

廣西輝哥
2026-04-14 21:01:07
龍蟒空降成都救場!看了王楚欽的傷病報告,才懂這仗有多難打

龍蟒空降成都救場!看了王楚欽的傷病報告,才懂這仗有多難打

七七自駕游
2026-04-16 04:07:55
中央明確了!社保最低繳費年限要提高,70、80后得早做準備

中央明確了!社保最低繳費年限要提高,70、80后得早做準備

云鵬敘事
2026-04-12 16:36:39
Claude Opus 4.7剛剛曝光!Claude Code一夜重構(gòu),7x24小時替你打工

Claude Opus 4.7剛剛曝光!Claude Code一夜重構(gòu),7x24小時替你打工

新智元
2026-04-15 08:44:44
被扔燃燒瓶后,凌晨再遭槍擊!知名巨頭CEO在美高檔社區(qū)住宅48小時內(nèi)連續(xù)遭襲,其中一名嫌疑人稱:人工智能將導致人類“即將滅絕”

被扔燃燒瓶后,凌晨再遭槍擊!知名巨頭CEO在美高檔社區(qū)住宅48小時內(nèi)連續(xù)遭襲,其中一名嫌疑人稱:人工智能將導致人類“即將滅絕”

每日經(jīng)濟新聞
2026-04-14 20:48:49
安賽龍宣布退役:腰傷反復,經(jīng)手術(shù)和無數(shù)次封閉治療,已無法征戰(zhàn);曾兩獲奧運冠軍,一口流利中文引熱議

安賽龍宣布退役:腰傷反復,經(jīng)手術(shù)和無數(shù)次封閉治療,已無法征戰(zhàn);曾兩獲奧運冠軍,一口流利中文引熱議

極目新聞
2026-04-15 14:13:50
被合并34年后,江蘇一大學或“復出”

被合并34年后,江蘇一大學或“復出”

雙一流高校
2026-04-16 00:10:49
2026-04-16 08:43:00
至頂AI實驗室 incentive-icons
至頂AI實驗室
一個專注于探索生成式AI前沿技術(shù)及其應用的實驗室。
3259文章數(shù) 169關(guān)注度
往期回顧 全部

科技要聞

39.98萬!小鵬GX預售“純電增程同價”

頭條要聞

1萬名美軍參與封鎖霍爾木茲 林肯號航母距伊朗200公里

頭條要聞

1萬名美軍參與封鎖霍爾木茲 林肯號航母距伊朗200公里

體育要聞

三球準絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財經(jīng)要聞

油輪被困波斯灣1個多月 船員飽受煎熬

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評測

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
家居
公開課
軍事航空

藝術(shù)要聞

鄭麗文平底鞋爭議未平,馬英九書法引熱議。

數(shù)碼要聞

“反擊”蘋果MacBook Neo,微軟在美推出新一輪學生促銷方案

家居要聞

簡而不減 暖居之道

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

封鎖霍爾木茲海峽后 美釋放雙重信號

無障礙瀏覽 進入關(guān)懷版