国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

拜拜了SWE-Bench!Cursor剛發(fā)了個AI Coding評測基準,難哭Claude

0
分享至

一水 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

編程智能體時代,頂流Cursor舉旗發(fā)布新的評測基準——

CursorBench,專門評價Cursor中不同模型誰更“智能體”(即高效執(zhí)行復(fù)雜任務(wù))。

結(jié)果你猜怎么著?曾在SWE-Bench上威名赫赫的Claude Haiku 4.5/Sonnet 4.5全部歇菜了。

  • Claude Haiku 4.5的分數(shù)從73.3→29.4;
  • Claude Sonnet 4.5的分數(shù)從77.2→37.9。

而這,也恰好體現(xiàn)了CursorBench和其他編程基準之間的區(qū)別:

  • SWE-Bench衡量的是程序能否解決問題,CursorBench衡量的是程序能否高效地解決問題。這種差距正是普通基準測試所無法彌補的——在真實的token約束下完成任務(wù)。



“龍蝦”當?shù)?,誰都知道現(xiàn)在評價AI要看執(zhí)行能力,而且還是要高效執(zhí)行那種。

而CursorBench的出現(xiàn),恰好填補了相關(guān)空白。

不過問題來了,CursorBench具體咋評的?

線上+線下混合評

關(guān)于咋評的這個問題,Cursor還專門撰寫了一篇博客。



一上來,Cursor就介紹了一個基本背景——

隨著AI編程助手越來越像“智能體”,目前很多公開的benchmark已經(jīng)不夠用了

問題呢主要有這么三個:

一是任務(wù)類型不真實

以大家比較熟知的benchmark為例,SWE-Bench主要是修復(fù)GitHub issue的bug,任務(wù)比較單一。

Terminal-Bench雖然不再局限于代碼倉庫,但更偏向各種“謎題式任務(wù)”,比如根據(jù)給定環(huán)境完成一系列挑戰(zhàn),此時AI更像是在參加某種競賽而非進行日常開發(fā)。

所以Cursor就說了,“我們發(fā)現(xiàn),這些任務(wù)與開發(fā)者要求智能體完成的編程工作并不契合”。

現(xiàn)實生活中更常見的是,開發(fā)者會要求AI修改多個文件、分析生產(chǎn)日志、運行實驗……總之比基準更復(fù)雜。

二是評分機制不合理

很多公開基準通常都假設(shè)——一個問題只有一個正確答案。

但現(xiàn)實是,一個需求可能有多種實現(xiàn)方式,不同方案的代碼風(fēng)格、架構(gòu)選擇都有可能不同。

這就往往會導(dǎo)致兩種情況:要么直接給正確的方案打叉(出現(xiàn)誤判)、要么直接為了可評估性而強行消除模糊性(人為施加限制)。

無論是哪一種,基準都無法反映真實情況。

三是公認的數(shù)據(jù)污染問題

這一點就不必多說了,一旦基準出現(xiàn)夠久,后來的模型很可能就會直接抓取這些基準數(shù)據(jù)進行訓(xùn)練。

所以,在這種近乎“透題”的情況下進行評分,其結(jié)果到底有多大價值就可想而知了。



而面對這些問題,Cursor拿出了一套“線上+線下混合評”的全新方案。

線下就是我們說的CursorBench,流程也相對簡單——

讓不同模型都去完成同一批標準任務(wù),然后系統(tǒng)從正確性、代碼質(zhì)量、效率、交互行為等維度進行打分,最終每個模型都能拿到一個離線benchmark分數(shù)。

采用這種標準化流程的好處顯而易見,包括可以相對而言把模型拉到同一起跑線進行比較、可以重復(fù)測試、成本也相對可控。

不過有人可能就說了,這和其他基準好像沒差???

別急,CursorBench的“制勝法寶”在這里——選的任務(wù)不一樣

其不一樣體現(xiàn)在三個維度:

一是任務(wù)真

以前的基準更像是“刻意找題”,找GitHub issue、找各種謎題;而CursorBench的題都來自自家Cursor平臺。

Cursor有一個工具叫Cursor Blame,它可以追蹤某一段代碼是由哪個AI請求生成的。

于是就能拿到這樣一對對真實數(shù)據(jù)——開發(fā)者請求+某個模型最終提交的代碼。

而這些,就構(gòu)成了CursorBench絕佳的“出題范本”。而且Cursor補充道:

  • 許多任務(wù)來自我們的內(nèi)部代碼庫和受控來源,從而降低了模型在訓(xùn)練階段見過這些任務(wù)的風(fēng)險。我們每隔幾個月就會更新一次這套基準,以跟蹤開發(fā)者使用智能體方式的變化。

二是任務(wù)規(guī)模大

如今用Cursor的人實在太多了,所以CursorBench的任務(wù)規(guī)模明顯更大。

比如在正確性評估中,無論從代碼行數(shù)還是平均文件數(shù)來看,其問題規(guī)模從初始版本到當前的CursorBench-3大致翻了一倍。Cursor表示:

  • 雖然代碼行數(shù)并不是衡量難度的完美指標,但該指標上的增長反映了我們將更具挑戰(zhàn)性的任務(wù)納入CursorBench 的方式,例如處理monorepo的多工作區(qū)環(huán)境、排查生產(chǎn)日志,以及執(zhí)行長時間運行的實驗。



三是任務(wù)描述刻意保持“模糊”

這點也比較好理解。

很多公開基準里的任務(wù)描述通常非常詳細,但現(xiàn)實中大家和AI說話時往往模棱兩可。

所以太精準反而與真實相悖。



至此,基于以上特殊設(shè)計,CursorBench成了編程智能體時代真正以“真實開發(fā)場景”為原點設(shè)計的基準測試。

當然這還沒完,光做題怎么夠呢?很多AI線下分數(shù)高,但用戶一上手就發(fā)現(xiàn)很拉胯。

對此,Cursor還搞了一套線上評測——直接看真實用戶使用效果

他們會使用A/B Test這種方式,觀察一部分用戶用模型A、另一部分用戶用模型B之后的對比效果。

具體主要看開發(fā)者是否接受AI生成的代碼、是否繼續(xù)追問、是否撤銷修改、任務(wù)是否真正完成等可追蹤的產(chǎn)品指標。

如此一來,線上和線下就可以形成完美互補,甚至形成良性循環(huán)——

線下CursorBench先快速篩選模型能力,然后線上驗證模型是否真的更好,發(fā)現(xiàn)偏差后再去調(diào)整benchmark或模型

飛輪這不就起來了(doge)。

所以,結(jié)果呢?

那么模型們在新基準CursorBench上的表現(xiàn)如何呢?

來看最終performance(越靠近右上角越好,代表“以最低成本實現(xiàn)最高性能”):



見此圖表,網(wǎng)友們一時討論連連:

嘖,沒想到Claude Sonnet 4.5的“性價比”有點低啊。



這個Composer模型(Cursor自研編碼模型)又是哪里冒出來的。



Anyway,從Cursor公布的結(jié)果來看,一個很明顯的結(jié)論是——

CursorBench在前沿模型之間的區(qū)分度明顯更高

這個其實是自然而然的。基準一飽和,模型們往往拉不開差距,大家分都高、都好。

但一遇到新的、難的,實力差距便自然顯露了。

尤其在CursorBench這種任務(wù)規(guī)模更大、環(huán)境更復(fù)雜的基準上,差距無疑將被進一步放大。

只需對比模型在SWE-Bench和CursorBench上的得分就能看出來了(左邊全擠在一起、右邊呈階梯式):



以及Cursor還強調(diào)了一點——

CursorBench的排名,與真實用戶體驗更加一致

通過前面提到的線上實驗,他們發(fā)現(xiàn)CursorBench的模型排名,和這些線上指標變化基本是同方向的。



接下來,Cursor還將著手開發(fā)下一代評測套件:

  • 雖然CursorBench-3的任務(wù)比公開基準上的任務(wù)持續(xù)時間更長,但它們?nèi)匀豢梢栽谝淮螘拑?nèi)完成。我們預(yù)計在未來一年里,絕大多數(shù)開發(fā)工作將轉(zhuǎn)向由在各自計算機上獨立運行的長時運行智能體來完成,因此我們也正規(guī)劃對CursorBench作出相應(yīng)調(diào)整。

嗯,瞄準的還是智能體,只不過是運行時間更長的智能體。


[1]https://x.com/cursor_ai/status/2032148125448610145
[2]https://cursor.com/cn/blog/cursorbench
[3]https://www.objectwire.org/technology/cursor

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
48歲茅臺美女董秘被查,年薪曝光,最近照流出,大量私密內(nèi)幕披露

48歲茅臺美女董秘被查,年薪曝光,最近照流出,大量私密內(nèi)幕披露

博士觀察
2026-03-14 10:30:36
生育大局已定:不出意外的話,2026年起中國人口將迎來3大變化

生育大局已定:不出意外的話,2026年起中國人口將迎來3大變化

福建平子
2026-03-13 11:35:56
跟國家級人才讀博,發(fā)了三篇核心,投遞 211 大學(xué)教職,卻因第一學(xué)歷雙非被歧視

跟國家級人才讀博,發(fā)了三篇核心,投遞 211 大學(xué)教職,卻因第一學(xué)歷雙非被歧視

生物學(xué)霸
2026-03-14 17:12:20
邱清泉之子邱國渭大陸堅守三十年,1978年分批將家人送往美國

邱清泉之子邱國渭大陸堅守三十年,1978年分批將家人送往美國

嘮叨說歷史
2026-03-13 11:49:57
A股:周六中午傳來3個重大消息!A股或迎來更大級別大行情?

A股:周六中午傳來3個重大消息!A股或迎來更大級別大行情?

股市皆大事
2026-03-14 11:03:33
剛剛,又反轉(zhuǎn)!霍爾木茲海峽,大消息!

剛剛,又反轉(zhuǎn)!霍爾木茲海峽,大消息!

新浪財經(jīng)
2026-03-13 22:00:40
張召忠預(yù)言或?qū)⒊烧妫好绹坏┧ヂ洌瑏喼捱@2國可能會打起來?

張召忠預(yù)言或?qū)⒊烧妫好绹坏┧ヂ洌瑏喼捱@2國可能會打起來?

知鑒明史
2026-03-13 18:32:38
戰(zhàn)爭,史詩級大逆轉(zhuǎn)!

戰(zhàn)爭,史詩級大逆轉(zhuǎn)!

君臨財富
2026-03-14 09:22:22
凌晨刷屏!中遠海運強硬反擊 巴拿馬港口空箱全撤 所有訂艙悉數(shù)取消

凌晨刷屏!中遠海運強硬反擊 巴拿馬港口空箱全撤 所有訂艙悉數(shù)取消

生活新鮮市
2026-03-14 00:18:55
果然不出外界所料:瞞了3天還是沒瞞住,伊朗公開新領(lǐng)袖受傷內(nèi)幕

果然不出外界所料:瞞了3天還是沒瞞住,伊朗公開新領(lǐng)袖受傷內(nèi)幕

起喜電影
2026-03-12 19:57:35
不要亂吃維生素了!美國研究:長期吃復(fù)合維生素,或增加死亡風(fēng)險

不要亂吃維生素了!美國研究:長期吃復(fù)合維生素,或增加死亡風(fēng)險

消化石醫(yī)生
2026-03-12 07:05:26
中東激戰(zhàn)正酣,中國3萬噸電子偵察船駛?cè)氚⒙鼮常?55編隊護航

中東激戰(zhàn)正酣,中國3萬噸電子偵察船駛?cè)氚⒙鼮常?55編隊護航

兵國大事
2026-03-11 16:03:35
伊朗破獲超級間諜,比川島芳子狠十倍,睡高官套情報

伊朗破獲超級間諜,比川島芳子狠十倍,睡高官套情報

點燃好奇心
2026-03-12 15:16:00
“外交男神”王毅年輕舊照,與妻子罕見同框,岳父曾是周總理秘書

“外交男神”王毅年輕舊照,與妻子罕見同框,岳父曾是周總理秘書

樂趣紀史
2026-02-04 13:45:32
在“平等”的古巴,我重新理解了“貧窮”

在“平等”的古巴,我重新理解了“貧窮”

番外行
2026-03-13 15:10:00
兩艘印度運輸船順利通過霍爾木茲海峽

兩艘印度運輸船順利通過霍爾木茲海峽

界面新聞
2026-03-14 17:42:02
演員金晨處罰結(jié)果公布

演員金晨處罰結(jié)果公布

喬話
2026-03-13 23:12:04
重視,中國足協(xié)主席宋凱、足協(xié)副主席孫雯現(xiàn)場觀戰(zhàn)中國女足比賽

重視,中國足協(xié)主席宋凱、足協(xié)副主席孫雯現(xiàn)場觀戰(zhàn)中國女足比賽

懂球帝
2026-03-14 14:33:06
原來大家都是干一行恨一行!網(wǎng)友:沒有想象中的簡單

原來大家都是干一行恨一行!網(wǎng)友:沒有想象中的簡單

另子維愛讀史
2026-03-13 22:22:51
中超:浙江1-1申花!王鈺棟賽季首球+特謝拉破門,申花差6分清零

中超:浙江1-1申花!王鈺棟賽季首球+特謝拉破門,申花差6分清零

燒體壇
2026-03-14 17:34:18
2026-03-14 19:35:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12283文章數(shù) 176411關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

女子分娩手術(shù)直腸被切漏致陰道漏氣漏便 醫(yī)生未受處罰

頭條要聞

女子分娩手術(shù)直腸被切漏致陰道漏氣漏便 醫(yī)生未受處罰

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

張藝興,犯了大忌

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

本地
教育
健康
家居
數(shù)碼

本地新聞

坐標北京,過敏季反向遷徒

教育要聞

雅思詞匯解析(169)| 規(guī)劃計劃

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

家居要聞

藝術(shù)之家 法式優(yōu)雅

數(shù)碼要聞

余承東、尼格買提現(xiàn)身AWE,Mate 80系列+HarmonyOS 6有何黑科技?

無障礙瀏覽 進入關(guān)懷版