国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

我們對 Coding Agent 的評測,可能搞錯了方向

0
分享至

我們對 Coding Agent 的評測,可能搞錯了方向。

一個反復(fù)出現(xiàn),但常常被忽略的現(xiàn)象是:用戶對 Agent 的不滿,往往不是因為它「做不到」,而是因為它「做得不好」。

「做得不好」集中表現(xiàn)在:Agent 不遵循明確給出的指令和潛在的工程規(guī)范。比如,系統(tǒng)提示里明確要求「不要使用 emoji」,Agent 卻在代碼注釋里加上笑臉;用戶要求「先備份再修改」,Agent 上手就是一鍵 [rm -rf] 刪除文件。

這些問題的共同特征是:任務(wù)最終可能完成了,但過程違反了規(guī)范。用戶要的不只是「能跑的代碼」,還有「符合團隊協(xié)作規(guī)范的代碼」。

這也暴露了當(dāng)前主流評測體系的盲區(qū)。學(xué)術(shù)榜單,不管是SWE-bench verified,還是各種基于terminal環(huán)境的測試,核心理念幾乎都是結(jié)果導(dǎo)向指標(biāo)。只問兩個問題:測試通過了嗎?Bug 修復(fù)了嗎?

這種評估方式,不看模型在沙盒里的輸出過程,也不看真實場景的交互體驗。最后的結(jié)果是:評估和真實使用場景,完全錯位。

為此,MiniMax 開源了一個新評測集:OctoCodingBench。用來評測 Coding Agent 在完成任務(wù)的過程中,有沒有遵守規(guī)矩。

測評結(jié)果很有意思:即便是最強的模型,在 2/3 的任務(wù)中,代碼可能是對的,但過程是錯的。

Hugging Face 鏈接:

huggingface.co/datasets/MiniMaxAI/OctoCodingBench

??關(guān)注 Founder Park,最及時最干貨的創(chuàng)業(yè)分享

超 19000 人的「AI 產(chǎn)品市集」社群!不錯過每一款有價值的 AI 應(yīng)用。

邀請從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者,飛書掃碼加群:

進(jìn)群后,你有機會得到:

  • 最新、最值得關(guān)注的 AI 新品資訊;

  • 不定期贈送熱門新品的邀請碼、會員碼;

  • 最精準(zhǔn)的AI產(chǎn)品曝光渠道

01為什么 Coding Agent 需要新的 Bench?

如果遵循過程規(guī)范的 Coding Agent,才能被放心地引入真實的軟件工程流程中。那目前主流 Code Agent 的評估體系就出現(xiàn)了明顯的盲區(qū)。隨著 Claude Code、Codex、Cursor、Windsurf 等 Agent 產(chǎn)品的普及,社區(qū)正在形成一套面向 Agent 的倉庫協(xié)議體系。項目不再只是一堆代碼,同時也包含了多層次協(xié)作模式的說明:

  • [CLAUDE.md]/[AGENTS.md]:告訴 Agent「這個項目怎么玩」——命名約定、測試流程、禁用的危險操作等

  • Skills:封裝可復(fù)用的工作流 (如「生成 API 文檔」),Agent 需要正確識別觸發(fā)時機并按規(guī)范調(diào)用

  • Memory:跨會話保存用戶偏好和任務(wù)進(jìn)度,Agent 需要基于歷史狀態(tài)繼續(xù)工作,而非從頭開始

這些機制的出現(xiàn),本質(zhì)上是在構(gòu)建一個多層級的指令系統(tǒng)。舉個例子,當(dāng)用戶說「幫我重構(gòu)這個模塊」時,Agent 需要同時滿足多個層級的約束:系統(tǒng)層面的安全規(guī)則(不能直接刪代碼)、當(dāng)前用戶的即時指令(重構(gòu)到什么程度)、倉庫中明確寫下的工程規(guī)范,以及歷史記憶中已經(jīng)做出的決策(延續(xù)還是推翻)。更復(fù)雜的情況是,這些指令源之間可能沖突。用戶臨時說「這次就先不寫測試了」,但 [AGENTS.md] 里明確要求「每次提交必須有測試覆蓋」——Agent 該聽誰的?

然而一個尷尬的問題是,當(dāng)前的學(xué)術(shù)榜單,無論是 SWE-bench verified,還是各類基于 terminal 環(huán)境的測試,其核心理念幾乎都是Outcome-based Metrics(結(jié)果導(dǎo)向指標(biāo)):測試是否通過? Bug 是否修復(fù)?這種結(jié)果導(dǎo)向的評估方式,根本無法刻畫模型在沙盒環(huán)境下的輸出過程,更不用說復(fù)雜現(xiàn)實場景的真實交互體驗,最終導(dǎo)致了評估和真實使用場景的錯位。

02OctoCodingBench:

面向工程可靠性的過程評估

要解決這個問題,評估范式本身需要發(fā)生根本性轉(zhuǎn)變——需要關(guān)注輸出過程本身。

基于這一動機,MiniMax 引入了 OctoCodingBench,從Check-level 準(zhǔn)確率 (CSR)、 Instance-level 成功率 (ISR)兩個維度來進(jìn)行評估,旨在充分觀測模型的完成任務(wù)時出現(xiàn)的過程指令不遵循問題,以盡可能接近真實用戶體驗。

其中,CSR 用來衡量 Coding Agent 遵循了多大比例的規(guī)則,ISR 則用來衡量 Coding Agent 是否遵循了每條規(guī)則。


一個合格的 Coding Agent,需要在完成任務(wù)的同時遵循:

  • System Prompt中的全局約束 (語言、格式、安全規(guī)則)

  • UserQuery的多輪指令更新

  • System Reminder提供的腳手架指令

  • Repository 規(guī)范文件(如 [CLAUDE.md]/[AGENTS.md]) 中的代碼風(fēng)格、提交規(guī)范

  • Skills 文檔的正確調(diào)用流程

  • Memory/Preferences中記錄的用戶偏好和項目狀態(tài)

基于該評測集,MiniMax 針對現(xiàn)有的開源閉源模型進(jìn)行了廣泛的評估,發(fā)現(xiàn)了一些很有啟發(fā)性的實驗結(jié)果:

  • 所有模型的 Check-level準(zhǔn)確率 (CSR) 可以達(dá)到 80%+,但 Instance-level 成功率 (ISR) 只有 10%-30%。換句話說,模型在單項約束上表現(xiàn)不錯,但一旦要求「全部規(guī)則同時滿足」,成功率就斷崖式下跌。

  • 絕大模型模型的指令遵循能力會隨著輪次的變多逐漸下降。這印證了「過程合規(guī)」在長流程任務(wù)中的脆弱性。


不同交互輪次下 ISR 的變化

  • 現(xiàn)階段模型表現(xiàn)普遍未能達(dá)到生產(chǎn)級要求,過程合規(guī)仍是盲區(qū):

    從榜單數(shù)據(jù)來看,即便是表現(xiàn)最強勁的 Claude 4.5 Opus,其 Instance-level 成功率(ISR)也僅為 36.2%。這意味著,在近三分之二的任務(wù)中,模型雖然可能寫出了能跑的代碼,但在過程規(guī)范上依然存在違規(guī)。這一低分現(xiàn)狀明確揭示了一個事實:Coding Agent 的「過程規(guī)范遵循」尚未被業(yè)界充分關(guān)注和優(yōu)化,目前的模型嚴(yán)重偏科于「結(jié)果正確」,而忽視了「過程正確」。

  • 開源模型正在快速追趕閉源模型:

    觀察榜單可以發(fā)現(xiàn),MiniMax M2.1 和 DeepSeek V3.2 的 ISR 分別達(dá)到了 26.1% 和 26%,已經(jīng)超過了公認(rèn)強大的閉源模型 Claude 4.5 Sonnet (22.8%) 和 Gemini 3 Pro (22.9%),開源模型已經(jīng)展現(xiàn)出了極強的競爭力。


03未來的研究方向

MiniMax 認(rèn)為,下一代 Coding Agent 的訓(xùn)練,需要引入Process Supervision(過程監(jiān)督)

  • 細(xì)粒度的過程監(jiān)督:不只監(jiān)督模型的「測試通過」,還要監(jiān)督模型「遵循命名規(guī)范」、「正確使用 Skills」、「沒有泄露 System 信息」等;

  • 層級化的指令遵循:在訓(xùn)練數(shù)據(jù)中標(biāo)注指令沖突場景,讓模型學(xué)會在沖突情況下如何遵從指令層次的優(yōu)先級行動;

  • 可驗證的 Checklist:把「指令遵循」從模糊的整體印象,拆解成可自動化檢查的原子約束,既能用于評估,也能用于 RL 信號構(gòu)建。

Coding Agent 的能力邊界,正在從「能否寫出能跑的代碼」,轉(zhuǎn)向「能否在復(fù)雜約束下協(xié)作式地完成任務(wù)」。這也映射出產(chǎn)品哲學(xué)的深層轉(zhuǎn)變:Agent 不是要替代人類開發(fā)者,而是要成為懂規(guī)矩、守紀(jì)律的團隊成員。

因此,過程規(guī)范(Process Specification)才是 Coding Agent 進(jìn)化的核心命題

當(dāng)我們開始關(guān)注過程而非僅僅結(jié)果,當(dāng)我們讓評估體系能夠捕捉「違規(guī)但成功」的危險模式,Coding Agent 才能真正從 Demo 走向生產(chǎn)環(huán)境。



轉(zhuǎn)載原創(chuàng)文章請?zhí)砑游⑿牛篺ounderparker

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
江蘇擬建一條過江通道,或?qū)⒃倨啤笆澜缂o(jì)錄”

江蘇擬建一條過江通道,或?qū)⒃倨啤笆澜缂o(jì)錄”

水泥土的搞笑
2026-03-26 14:04:59
破案!陳家政表現(xiàn)神勇杜鋒卻全程黑臉原因找到,現(xiàn)場球迷說出實情

破案!陳家政表現(xiàn)神勇杜鋒卻全程黑臉原因找到,現(xiàn)場球迷說出實情

后仰大風(fēng)車
2026-03-26 08:15:08
中原消費金融為催收“買”借款人手機號碼 三大運營商均中標(biāo) 或涉買賣個人信息惹爭議

中原消費金融為催收“買”借款人手機號碼 三大運營商均中標(biāo) 或涉買賣個人信息惹爭議

信網(wǎng)
2026-03-26 19:12:37
山西太原一學(xué)校職工舉報自己吃空餉6年,多方回應(yīng)

山西太原一學(xué)校職工舉報自己吃空餉6年,多方回應(yīng)

大風(fēng)新聞
2026-03-26 15:41:15
1959年杜聿明被特赦,老蔣得知大驚道:快讓他老婆從美國回來!

1959年杜聿明被特赦,老蔣得知大驚道:快讓他老婆從美國回來!

新一說史
2026-03-26 17:42:42
中國3大長壽食物,茼蒿排第三;第一名天天見,卻很少人愛吃

中國3大長壽食物,茼蒿排第三;第一名天天見,卻很少人愛吃

荷蘭豆愛健康
2026-03-26 14:21:32
陳羽凡現(xiàn)狀:低調(diào)生活,50歲胖到認(rèn)不出,17歲兒子1米8長得像媽

陳羽凡現(xiàn)狀:低調(diào)生活,50歲胖到認(rèn)不出,17歲兒子1米8長得像媽

三公子娛樂丫
2025-05-17 17:59:45
3月26日俄烏:烏克蘭的猛烈回?fù)?>
    </a>
        <h3>
      <a href=山河路口
2026-03-26 17:32:00
上海河道里驚現(xiàn)鱷魚?已立牌警示!官方回應(yīng)↗

上海河道里驚現(xiàn)鱷魚?已立牌警示!官方回應(yīng)↗

看看新聞Knews
2026-03-26 20:01:05
與特朗普密切關(guān)系損害了她,意大利總理梅洛尼公投失敗,提前大選

與特朗普密切關(guān)系損害了她,意大利總理梅洛尼公投失敗,提前大選

越過海面
2026-03-26 10:32:58
血管狹窄超90%,重油重膩且生活不規(guī)律,假如第一時間被搶救,張雪峰能活嗎?

血管狹窄超90%,重油重膩且生活不規(guī)律,假如第一時間被搶救,張雪峰能活嗎?

消化石醫(yī)生
2026-03-26 12:52:28
別想再回國!中國體壇 4 大叛徒,奪冠后否認(rèn)是國人,如今遭報應(yīng)

別想再回國!中國體壇 4 大叛徒,奪冠后否認(rèn)是國人,如今遭報應(yīng)

動物奇奇怪怪
2026-03-25 14:18:48
伊朗接招了,反拋出5條?;饤l件,看來已經(jīng)做好最壞打算了

伊朗接招了,反拋出5條停火條件,看來已經(jīng)做好最壞打算了

羅富強說
2026-03-26 20:18:00
5分鐘開通國家免費電視!不用機頂盒、不連網(wǎng),永久免費

5分鐘開通國家免費電視!不用機頂盒、不連網(wǎng),永久免費

叮當(dāng)當(dāng)科技
2026-03-20 03:29:51
張雪峰經(jīng)典語錄:句句都是人間清醒

張雪峰經(jīng)典語錄:句句都是人間清醒

山東教育
2026-03-26 08:07:56
麥迪:楊瀚森球商高有注定長期競爭力,打法讓我想到約基奇

麥迪:楊瀚森球商高有注定長期競爭力,打法讓我想到約基奇

懂球帝
2026-03-26 11:45:09
德邦將于3月31日退市并摘牌,并入京東物流后品牌獨立運營

德邦將于3月31日退市并摘牌,并入京東物流后品牌獨立運營

南方都市報
2026-03-26 11:30:07
“我用房子貸的款卻進(jìn)了他們口袋”,佛山一男子稱遭遇套路貸;警方立案偵查,3人被批捕后取保候?qū)?>
    </a>
        <h3>
      <a href=大風(fēng)新聞
2026-03-26 16:56:40
10萬億窟窿!比恒大更坑的民企來了,曾力壓許家印,位居第一

10萬億窟窿!比恒大更坑的民企來了,曾力壓許家印,位居第一

孤單是寂寞的毒
2026-03-04 15:38:03
張柏芝機場接大兒子,Lucas主動幫媽媽拎包,母子相擁熱聊關(guān)系好

張柏芝機場接大兒子,Lucas主動幫媽媽拎包,母子相擁熱聊關(guān)系好

白面書誏
2026-03-26 13:38:29
2026-03-26 20:48:49
FounderPark incentive-icons
FounderPark
關(guān)注AI創(chuàng)業(yè),專注和創(chuàng)業(yè)者聊真問題
1183文章數(shù) 160關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

本地
游戲
房產(chǎn)
手機
數(shù)碼

本地新聞

救命,這只醬板鴨已經(jīng)在我手機復(fù)仇了一萬遍

10萬獎池!2026 KKCS1.6 巔峰之路傳奇聯(lián)賽(春季賽)正式開賽!——KK官方對戰(zhàn)平臺

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補償方案出爐!

手機要聞

OPPO K15 Pro系列突然官宣:天璣9500s+主動散熱,4月1日發(fā)布

數(shù)碼要聞

小米Book Pro 14超薄設(shè)計引爆市場!這家國產(chǎn)廠商立功了

無障礙瀏覽 進(jìn)入關(guān)懷版