網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

拜拜了SWE-Bench！Cursor剛發(fā)了個AI Coding評測基準，難哭Claude

2026-03-14 14:23:07　來源: 量子位

北京舉報

分享至

一水發(fā)自凹非寺
量子位 | 公眾號 QbitAI

編程智能體時代，頂流Cursor舉旗發(fā)布新的評測基準——

CursorBench，專門評價Cursor中不同模型誰更“智能體”（即高效執(zhí)行復(fù)雜任務(wù)）。

結(jié)果你猜怎么著？曾在SWE-Bench上威名赫赫的Claude Haiku 4.5/Sonnet 4.5全部歇菜了。

Claude Haiku 4.5的分數(shù)從73.3→29.4；
Claude Sonnet 4.5的分數(shù)從77.2→37.9。

而這，也恰好體現(xiàn)了CursorBench和其他編程基準之間的區(qū)別：

SWE-Bench衡量的是程序能否解決問題，CursorBench衡量的是程序能否高效地解決問題。這種差距正是普通基準測試所無法彌補的——在真實的token約束下完成任務(wù)。

“龍蝦”當?shù)?，誰都知道現(xiàn)在評價AI要看執(zhí)行能力，而且還是要高效執(zhí)行那種。

而CursorBench的出現(xiàn)，恰好填補了相關(guān)空白。

不過問題來了，CursorBench具體咋評的？

線上+線下混合評

關(guān)于咋評的這個問題，Cursor還專門撰寫了一篇博客。

一上來，Cursor就介紹了一個基本背景——

隨著AI編程助手越來越像“智能體”，目前很多公開的benchmark已經(jīng)不夠用了

問題呢主要有這么三個：

一是任務(wù)類型不真實

以大家比較熟知的benchmark為例，SWE-Bench主要是修復(fù)GitHub issue的bug，任務(wù)比較單一。

Terminal-Bench雖然不再局限于代碼倉庫，但更偏向各種“謎題式任務(wù)”，比如根據(jù)給定環(huán)境完成一系列挑戰(zhàn)，此時AI更像是在參加某種競賽而非進行日常開發(fā)。

所以Cursor就說了，“我們發(fā)現(xiàn)，這些任務(wù)與開發(fā)者要求智能體完成的編程工作并不契合”。

現(xiàn)實生活中更常見的是，開發(fā)者會要求AI修改多個文件、分析生產(chǎn)日志、運行實驗……總之比基準更復(fù)雜。

二是評分機制不合理

很多公開基準通常都假設(shè)——一個問題只有一個正確答案。

但現(xiàn)實是，一個需求可能有多種實現(xiàn)方式，不同方案的代碼風(fēng)格、架構(gòu)選擇都有可能不同。

這就往往會導(dǎo)致兩種情況：要么直接給正確的方案打叉（出現(xiàn)誤判）、要么直接為了可評估性而強行消除模糊性（人為施加限制）。

無論是哪一種，基準都無法反映真實情況。

三是公認的數(shù)據(jù)污染問題

這一點就不必多說了，一旦基準出現(xiàn)夠久，后來的模型很可能就會直接抓取這些基準數(shù)據(jù)進行訓(xùn)練。

所以，在這種近乎“透題”的情況下進行評分，其結(jié)果到底有多大價值就可想而知了。

而面對這些問題，Cursor拿出了一套“線上+線下混合評”的全新方案。

線下就是我們說的CursorBench，流程也相對簡單——

讓不同模型都去完成同一批標準任務(wù)，然后系統(tǒng)從正確性、代碼質(zhì)量、效率、交互行為等維度進行打分，最終每個模型都能拿到一個離線benchmark分數(shù)。

采用這種標準化流程的好處顯而易見，包括可以相對而言把模型拉到同一起跑線進行比較、可以重復(fù)測試、成本也相對可控。

不過有人可能就說了，這和其他基準好像沒差??？

別急，CursorBench的“制勝法寶”在這里——選的任務(wù)不一樣

其不一樣體現(xiàn)在三個維度：

一是任務(wù)真

以前的基準更像是“刻意找題”，找GitHub issue、找各種謎題；而CursorBench的題都來自自家Cursor平臺。

Cursor有一個工具叫Cursor Blame，它可以追蹤某一段代碼是由哪個AI請求生成的。

于是就能拿到這樣一對對真實數(shù)據(jù)——開發(fā)者請求+某個模型最終提交的代碼。

而這些，就構(gòu)成了CursorBench絕佳的“出題范本”。而且Cursor補充道：

許多任務(wù)來自我們的內(nèi)部代碼庫和受控來源，從而降低了模型在訓(xùn)練階段見過這些任務(wù)的風(fēng)險。我們每隔幾個月就會更新一次這套基準，以跟蹤開發(fā)者使用智能體方式的變化。

二是任務(wù)規(guī)模大

如今用Cursor的人實在太多了，所以CursorBench的任務(wù)規(guī)模明顯更大。

比如在正確性評估中，無論從代碼行數(shù)還是平均文件數(shù)來看，其問題規(guī)模從初始版本到當前的CursorBench-3大致翻了一倍。Cursor表示：

雖然代碼行數(shù)并不是衡量難度的完美指標，但該指標上的增長反映了我們將更具挑戰(zhàn)性的任務(wù)納入CursorBench 的方式，例如處理monorepo的多工作區(qū)環(huán)境、排查生產(chǎn)日志，以及執(zhí)行長時間運行的實驗。

三是任務(wù)描述刻意保持“模糊”

這點也比較好理解。

很多公開基準里的任務(wù)描述通常非常詳細，但現(xiàn)實中大家和AI說話時往往模棱兩可。

所以太精準反而與真實相悖。

至此，基于以上特殊設(shè)計，CursorBench成了編程智能體時代真正以“真實開發(fā)場景”為原點設(shè)計的基準測試。

當然這還沒完，光做題怎么夠呢？很多AI線下分數(shù)高，但用戶一上手就發(fā)現(xiàn)很拉胯。

對此，Cursor還搞了一套線上評測——直接看真實用戶使用效果

他們會使用A/B Test這種方式，觀察一部分用戶用模型A、另一部分用戶用模型B之后的對比效果。

具體主要看開發(fā)者是否接受AI生成的代碼、是否繼續(xù)追問、是否撤銷修改、任務(wù)是否真正完成等可追蹤的產(chǎn)品指標。

如此一來，線上和線下就可以形成完美互補，甚至形成良性循環(huán)——

線下CursorBench先快速篩選模型能力，然后線上驗證模型是否真的更好，發(fā)現(xiàn)偏差后再去調(diào)整benchmark或模型

飛輪這不就起來了（doge）。

所以，結(jié)果呢？

那么模型們在新基準CursorBench上的表現(xiàn)如何呢？

來看最終performance（越靠近右上角越好，代表“以最低成本實現(xiàn)最高性能”）：

見此圖表，網(wǎng)友們一時討論連連：

嘖，沒想到Claude Sonnet 4.5的“性價比”有點低啊。

這個Composer模型（Cursor自研編碼模型）又是哪里冒出來的。

Anyway，從Cursor公布的結(jié)果來看，一個很明顯的結(jié)論是——

CursorBench在前沿模型之間的區(qū)分度明顯更高

這個其實是自然而然的。基準一飽和，模型們往往拉不開差距，大家分都高、都好。

但一遇到新的、難的，實力差距便自然顯露了。

尤其在CursorBench這種任務(wù)規(guī)模更大、環(huán)境更復(fù)雜的基準上，差距無疑將被進一步放大。

只需對比模型在SWE-Bench和CursorBench上的得分就能看出來了（左邊全擠在一起、右邊呈階梯式）：

以及Cursor還強調(diào)了一點——

CursorBench的排名，與真實用戶體驗更加一致

通過前面提到的線上實驗，他們發(fā)現(xiàn)CursorBench的模型排名，和這些線上指標變化基本是同方向的。

接下來，Cursor還將著手開發(fā)下一代評測套件：

雖然CursorBench-3的任務(wù)比公開基準上的任務(wù)持續(xù)時間更長，但它們?nèi)匀豢梢栽谝淮螘拑?nèi)完成。我們預(yù)計在未來一年里，絕大多數(shù)開發(fā)工作將轉(zhuǎn)向由在各自計算機上獨立運行的長時運行智能體來完成，因此我們也正規(guī)劃對CursorBench作出相應(yīng)調(diào)整。

嗯，瞄準的還是智能體，只不過是運行時間更長的智能體。

[1]https://x.com/cursor_ai/status/2032148125448610145
[2]https://cursor.com/cn/blog/cursorbench
[3]https://www.objectwire.org/technology/cursor

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.