国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GLM-4.5技術報告揭秘:如何圍繞Agent構建一個模型

0
分享至

作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

智譜GLM-4.5的發(fā)布,在近期的AI開源社區(qū)中引發(fā)了不小的討論。模型放出后,它在Hugging Face社區(qū)的趨勢榜單上表現(xiàn)亮眼,綜合性能也在多個基準測試中位列前茅。其原生Agent能力的提法和頗具競爭力的定價,都成為了開發(fā)者們關注和討論的焦點。

在模型獲得了一波社區(qū)的實踐和反饋之后,智譜緊接著發(fā)布了長達25頁的詳盡技術報告。這份報告同樣獲得了很高的關注度,登上了Hugging Face Daily Papers的熱度榜首。

這份報告的價值在于,它系統(tǒng)性地闡述了其模型的設計思路,明確將Agent、Reasoning(推理)和Coding(代碼)三種能力的統(tǒng)一,即ARC,作為衡量通才模型的核心標準。

報告鏈接:https://github.com/zai-org/GLM-4.5/blob/main/resources/GLM_4_5_technical_report.pdf

ARC三位一體

GLM-4.5的設計哲學的核心聚焦于Agent、推理和代碼三者的原生統(tǒng)一。報告在開篇就明確提出了這個主張。它認為,大語言模型(LLM)正從通用知識庫演變?yōu)橥ㄓ脝栴}解決者,一個真正的通才模型,需要統(tǒng)一掌握三項相互關聯(lián)的核心能力:

Agentic abilities (Agent能力):與外部工具和真實世界進行交互。

complex Reasoning (復雜推理能力):解決數(shù)學、科學等多步驟問題。

advanced Coding (高級代碼技能):處理真實的軟件工程任務。

這三者之間存在著緊密的內(nèi)在邏輯。一個強大的Agent,必須具備調(diào)用工具的能力,而代碼(Coding)正是與數(shù)字世界交互的終極工具;同時,要完成一個復雜任務,例如根據(jù)用戶需求去修復一個GitHub倉庫里的Bug,必然需要嚴密的邏輯推理(Reasoning)能力來規(guī)劃步驟和理解依賴關系。

因此,GLM-4.5的設計目標就是將這三者進行原生集成,讓Agent能夠基于優(yōu)秀的推理和代碼能力,去思考和行動,后續(xù)大量的技術細節(jié),都是圍繞這個目標展開。

為Agent打造的技術路徑

一個清晰的目標,需要一條嚴謹?shù)募夹g路徑來實現(xiàn)。GLM-4.5的技術報告用大量篇幅介紹了其如何從模型架構、數(shù)據(jù)處理、訓練流程到最終的強化學習,一步步地將Agent能力注入到模型中。

模型架構:更深、更專的MoE設計

GLM-4.5采用了當前大模型領域主流的混合專家(MoE)架構,以在保證性能的同時提升計算效率。報告揭示了其在具體實現(xiàn)上的一些獨特設計選擇,例如“瘦高”結構。與一些模型追求更“寬”(更多的專家數(shù)量、更大的隱藏層維度)不同,GLM-4.5團隊選擇了減少寬度,但增加模型深度的結構。報告提到,他們發(fā)現(xiàn)更深的模型在推理能力上表現(xiàn)更出色,這直接服務于ARC能力中的推理基礎。此外,報告還提到了一些為增強推理能力而做的精細調(diào)整,例如模型使用了倍數(shù)于常規(guī)模型的注意力頭,并引入QK-Norm技術來穩(wěn)定訓練。這些改動共同為模型打下了堅實的推理和代碼功底。

GLM-4.5與DeepSeek-V3 與 Kimi K2的模型架構對比

訓練流程:從“廣積糧”到“中場強攻”

一個好的模型架構需要海量且優(yōu)質(zhì)的數(shù)據(jù)來喂養(yǎng)。報告詳細介紹了其復雜的多階段訓練流程,清晰地展示了從通用到專精的演進過程。在兩階段預訓練中,模型先在15T Tokens的通用語料上進行學習,可以理解為“廣積糧”。隨后,則在一個7T Tokens的數(shù)據(jù)集上繼續(xù)訓練,這個數(shù)據(jù)集會重點上采樣與代碼和推理相關的高質(zhì)量內(nèi)容,相當于開始為ARC能力“定向施肥”。

報告中一個非常有趣的環(huán)節(jié)是獨特的中期訓練(Mid-training)。在完成大規(guī)模預訓練后,模型會進入一個專門的“中期訓練”階段,針對性地“強攻”特定能力。這個階段主要包含三類數(shù)據(jù):一是代碼倉庫級數(shù)據(jù),將同一個代碼庫的多個文件拼接訓練,讓模型學習跨文件的依賴關系;二是合成推理數(shù)據(jù),利用已有模型生成大量帶有推理過程的問答數(shù)據(jù);三是長上下文與Agent軌跡數(shù)據(jù)。這是最關鍵的一步,模型開始接觸并學習大量的、由機器合成的Agent任務軌跡,同時訓練的序列長度也從預訓練時的4K,一路擴展至最終的128K。

Pre-training和Mid-training的多階段流

后訓練:RL注入Agent靈魂

如果說預訓練和中期訓練是為模型打造了強健的“軀體”,那么后訓練,特別是強化學習,則是為其注入“靈魂”的關鍵。正如一位社區(qū)開發(fā)者評論的那樣,這份報告的大部分篇幅都在講述一個復雜的后訓練策略。

報告中的RL訓練設計,處處體現(xiàn)出為Agent服務的思想。例如,Agentic RL的訓練聚焦于兩類可以被程序自動驗證結果的任務:基于信息檢索的問答和軟件工程,因為這類任務有明確的成功或失敗信號,便于模型進行高效的強化學習。報告中一個值得注意的細節(jié),是為模型的工具調(diào)用設計了一套新的XML格式模板,旨在解決常見JSON格式在參數(shù)包含代碼時需要大量轉義字符的痛點,直接提升了Agent最核心的工具調(diào)用環(huán)節(jié)的穩(wěn)定性和效率。

另一個例子體現(xiàn)在模型的交互式解決問題能力上。如下圖所示,在網(wǎng)頁瀏覽這類典型的Agent任務中,模型的準確率會隨著與環(huán)境交互輪次的增多而穩(wěn)步提升。這說明模型學會的不是一次性地給出答案,而是通過持續(xù)的探索、試錯和信息整合來逼近正確解,這正是Agent模式的核心價值所在。

BrowseComp模型的準確率隨交互輪次(測試時計算量)的增加而變化。

為了支撐如此復雜的RL訓練,智譜還專門設計并開源了名為slime的RL訓練框架。根據(jù)報告描述,這個框架的核心設計(如異步、解耦的訓練架構)就是為了高效處理Agent任務中常見的數(shù)據(jù)生成慢、交互耗時長的痛點,體現(xiàn)了其構建開發(fā)者生態(tài)的意圖。

總體來看,GLM-4.5的技術報告用詳盡的數(shù)據(jù),對其以Agent為核心的設計理念進行了驗證。

報告的評測部分體現(xiàn)了模型綜合性能。在涵蓋Agent、推理、代碼的12項基準測試中,GLM-4.5的綜合得分位列全球第三,Agent能力單項排名全球第二。

報告還提供了更深入的Agent能力評測細節(jié)。例如,在一個名為CC-Bench的真實編程任務測試中,GLM-4.5的工具調(diào)用成功率達到了90.6%,超過了多個強有力的競爭對手。這種在實際任務中表現(xiàn)出的高可靠性,也讓一些海外開發(fā)者評價其為“當今最精通工具、最原生的Agent模型”。

不同模型在 CC-Bench 上的平均工具調(diào)用成功率與單輪交互的平均 Token 消耗對比。

社區(qū)的討論也指向了另一個維度:性價比。有用戶評論認為,“性價比才是大模型落地的真正核心指標”。這一點與GLM-4.5的技術選型不謀而合。其采用的MoE架構本身就是一種平衡效果與成本的高效方案,這種技術效率也反映在了它的市場策略上,使其能以一個普惠的價格,鼓勵更多開發(fā)者進行調(diào)用和嘗試,形成生態(tài)的正向循環(huán)。

這份技術報告,本質(zhì)上是智譜將其以Agent為核心的設計思路,完整地攤在了桌面上。當模型權重、技術報告、以及RL訓練框架slime三者同時被推向社區(qū),其意義就不再只是發(fā)布一個供人調(diào)用的工具。這更像是一種開放的邀請,開發(fā)者不僅可以“用”這個模型,更可以深入地“學”它的實現(xiàn)方法,甚至“改”它的訓練流程。這或許是更深層的價值所在。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
江青書信曝光!鋼筆字竟暗藏驚人秘密,書法之爭誰勝出?

江青書信曝光!鋼筆字竟暗藏驚人秘密,書法之爭誰勝出?

書畫相約
2026-04-14 07:21:03
甘肅天水一佳人好漂亮, 身高168cm,體重48kg 美的讓人移不開眼

甘肅天水一佳人好漂亮, 身高168cm,體重48kg 美的讓人移不開眼

鄉(xiāng)野小珥
2026-04-08 00:48:57
利好來了!晚間商業(yè)航天重磅催化

利好來了!晚間商業(yè)航天重磅催化

風風順
2026-04-23 00:00:04
閑魚涌現(xiàn)個人放貸:把借款人變“下線”,多平臺切換收割

閑魚涌現(xiàn)個人放貸:把借款人變“下線”,多平臺切換收割

柒財經(jīng)
2026-04-22 19:43:46
黑絲游走于性感與優(yōu)雅之間的時尚圖騰

黑絲游走于性感與優(yōu)雅之間的時尚圖騰

艾斯萊斯奈斯
2026-04-19 14:43:56
果然!特朗普,徹底失控

果然!特朗普,徹底失控

新浪財經(jīng)
2026-04-22 15:15:54
收視破2,只是開始!陳曉、成毅、楊紫又要掀起一波追劇高潮了

收視破2,只是開始!陳曉、成毅、楊紫又要掀起一波追劇高潮了

落雪聽梅a
2026-04-22 13:06:02
蘋果憋了20年的大招,終于要在iPhone 20上放出來了!

蘋果憋了20年的大招,終于要在iPhone 20上放出來了!

明美無限
2026-04-22 17:42:22
中國軍艦大片震撼上新!“雷達一開,其他都是透明的……”

中國軍艦大片震撼上新!“雷達一開,其他都是透明的……”

環(huán)球網(wǎng)資訊
2026-04-22 09:00:22
余承東再爆金句:“讓他們永遠追不上!”

余承東再爆金句:“讓他們永遠追不上!”

毛啟盈Ai圈
2026-04-22 23:04:53
“磨膝大戶”被公布,是跑步的20倍,醫(yī)生:不想軟骨磨光,早扔掉

“磨膝大戶”被公布,是跑步的20倍,醫(yī)生:不想軟骨磨光,早扔掉

垚垚分享健康
2026-04-19 14:35:09
突發(fā)!伊朗扣留兩艘船,并強調(diào)“紅線”!伊朗致信聯(lián)合國:責令美國釋放被扣貨船“TOUSKA”號,呼吁國際社會“緊急關注”

突發(fā)!伊朗扣留兩艘船,并強調(diào)“紅線”!伊朗致信聯(lián)合國:責令美國釋放被扣貨船“TOUSKA”號,呼吁國際社會“緊急關注”

每日經(jīng)濟新聞
2026-04-22 20:16:08
格力回應鋁線電機爭議:相關工程機已停產(chǎn),海信稱靠多三兩銅多500元時代已終結

格力回應鋁線電機爭議:相關工程機已停產(chǎn),海信稱靠多三兩銅多500元時代已終結

紅星新聞
2026-04-21 20:40:20
離譜!同村女子連嫁8次生8個兒子,全村人都看呆了

離譜!同村女子連嫁8次生8個兒子,全村人都看呆了

另子維愛讀史
2026-02-22 22:57:38
賺再多錢有何用?46歲秦嵐雙親離世,獨生女變孤女,一個人辦葬禮

賺再多錢有何用?46歲秦嵐雙親離世,獨生女變孤女,一個人辦葬禮

動物奇奇怪怪
2026-04-23 00:33:05
HPV疫苗免費接種定在13歲早了么?中科院院士:13周歲接種疫苗可獲更持久保護效力

HPV疫苗免費接種定在13歲早了么?中科院院士:13周歲接種疫苗可獲更持久保護效力

紅星新聞
2026-04-22 17:55:10
娶了一個印度老婆,結婚一年后,我才明白了她們的特殊習俗

娶了一個印度老婆,結婚一年后,我才明白了她們的特殊習俗

千秋文化
2026-04-22 20:31:51
目標中國,美軍越打伊朗越慌:增兵抓緊反華,關鍵時刻又收新噩耗

目標中國,美軍越打伊朗越慌:增兵抓緊反華,關鍵時刻又收新噩耗

民間胡扯老哥
2026-04-20 05:08:46
不是紅牌?中超罕現(xiàn)全身騰空式“雙腿飛鏟”:外援痛苦倒地不起

不是紅牌?中超罕現(xiàn)全身騰空式“雙腿飛鏟”:外援痛苦倒地不起

足球大腕
2026-04-22 12:29:11
東歐“匈奴”哥薩克是烏克蘭人嗎?

東歐“匈奴”哥薩克是烏克蘭人嗎?

史政先鋒
2026-04-22 15:45:33
2026-04-23 05:43:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
272文章數(shù) 37關注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠

頭條要聞

伊朗議長:不可能重新開放霍爾木茲海峽

頭條要聞

伊朗議長:不可能重新開放霍爾木茲海峽

體育要聞

網(wǎng)易傳媒再度簽約法國隊和阿根廷隊

娛樂要聞

蜜雪冰城泰國代言人 被扒出辱華黑歷史

財經(jīng)要聞

醫(yī)院專家號"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

汽車要聞

純電續(xù)航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

教育
時尚
房產(chǎn)
健康
本地

教育要聞

脫不花和張泉靈的對談很適合家長聽

用了8年還心動,這筆錢是花得真值啊

房產(chǎn)要聞

官宣!今年9月起,廣州中小學“重點班”將成歷史!

干細胞抗衰4大誤區(qū),90%的人都中招

本地新聞

春色滿城關不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

無障礙瀏覽 進入關懷版