国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

刷榜AI全掛了!Meta斯坦福地獄級(jí)測(cè)試,GPT/Claude/Gemini交出0分

0
分享至


新智元報(bào)道

編輯:好困

【新智元導(dǎo)讀】SWE-Bench上能拿72%的模型,換張考卷直接歸零!Meta聯(lián)合斯坦福、哈佛放出ProgramBench,200個(gè)項(xiàng)目從零手寫,9大頂級(jí)模型完整通過率0%。最強(qiáng)的Claude Opus 4.7平均通過率也才51.2%。更離譜的是一聯(lián)網(wǎng),就有模型在36%的任務(wù)里跑去GitHub扒源碼。

給你一份FFmpeg的使用文檔,和一個(gè)編譯好的可執(zhí)行文件。

現(xiàn)在,從零把整個(gè)程序重新寫出來。

這就是ProgramBench給全球頂級(jí)AI出的題。

昨天剛發(fā)布,出自SWE-Bench原班人馬之手,Meta、斯坦福、哈佛三家聯(lián)手打造。

200個(gè)軟件項(xiàng)目。9個(gè)頂級(jí)模型。通過率,0%!


共同一作John Yang,斯坦福在讀博士,同時(shí)也是SWE-Bench和SWE-agent的創(chuàng)建者

不是修bug,是從零造軟件

過去一年,「讓AI Agent從零造軟件」的案例報(bào)道越來越多。

Anthropic用一組平行Claude寫了個(gè)C編譯器,Cursor發(fā)博客講長(zhǎng)時(shí)間自主編程,Epoch AI的MirrorCode也在做類似的事。

但這些案例有個(gè)共同問題,每次只測(cè)幾個(gè)項(xiàng)目,腳手架都是手工調(diào)優(yōu)的。

相比之下,ProgramBench把這件事正規(guī)化了。

200個(gè)任務(wù),統(tǒng)一腳手架,系統(tǒng)性反作弊,一把拉到benchmark的標(biāo)準(zhǔn)。


論文地址:https://programbench.com/static/paper.pdf

在之前的測(cè)試中,SWE-Bench會(huì)給你一個(gè)現(xiàn)成的代碼庫(kù),告訴你哪里有bug或者需要加什么功能,你去改。本質(zhì)上是「閱讀理解+局部手術(shù)」。

而且在評(píng)估層面,它用的是單元測(cè)試,檢查你的代碼內(nèi)部實(shí)現(xiàn)對(duì)不對(duì),你的函數(shù)簽名、變量名都得和預(yù)期一致。

ProgramBench則完全反過來。

它只給你兩樣?xùn)|西,一個(gè)編譯好的可執(zhí)行文件,加上使用文檔。

你的任務(wù)是僅憑運(yùn)行這個(gè)程序、觀察它的輸入輸出行為,從零寫出一套能復(fù)現(xiàn)同樣行為的代碼。

選什么編程語(yǔ)言,用什么數(shù)據(jù)結(jié)構(gòu),怎么拆分模塊,全部你自己定。

沒有代碼骨架,沒有函數(shù)簽名,沒有任何提示。


評(píng)估方式上,研究團(tuán)隊(duì)用Agent驅(qū)動(dòng)的模糊測(cè)試,為200個(gè)任務(wù)生成了總計(jì)248,853個(gè)行為測(cè)試。

你寫的程序跑一遍,輸入輸出和原版一致就算過,不一致就掛。測(cè)試永遠(yuǎn)不會(huì)透露給模型。

和SWE-Bench的單元測(cè)試不同,ProgramBench的行為測(cè)試完全不關(guān)心你的代碼內(nèi)部長(zhǎng)什么樣,只要行為一致就行。


200個(gè)任務(wù)覆蓋的項(xiàng)目橫跨壓縮工具(zstd、lz4、brotli)、語(yǔ)言解釋器(PHP、Lua、tinycc)、數(shù)據(jù)庫(kù)(DuckDB、SQLite)、媒體處理(FFmpeg)、開發(fā)者工具(ripgrep、fzf、jq)。

代碼行數(shù)中位數(shù)8,635行,最大的FFmpeg有270萬行。



總結(jié)來說,這個(gè)測(cè)試考的是AI有沒有能力「像人類工程師一樣思考和設(shè)計(jì)軟件」,而不只是「在現(xiàn)成代碼里找到該改的地方然后改對(duì)」。

九大模型排排坐,成績(jī)?nèi)砍曾喌?/strong>

參加測(cè)試的共有9款模型,涵蓋Claude、Gemini、GPT三大家族。

完整通過率(所有測(cè)試全部通過),全員0%。


先看三家旗艦的正面對(duì)決。

GPT-5.4和Gemini 3.1 Pro的平均測(cè)試通過率幾乎打平,分別是38.3%和36.6%。但兩者的做題風(fēng)格截然不同。

GPT-5.4只用16次API調(diào)用、0.33美元成本,基本就是一口氣把整個(gè)程序?qū)懲辏?00%的代碼在一次編輯中生成,之后幾乎不回頭改。

Gemini 3.1 Pro則是9個(gè)模型里最愛「觀察」的。它用了94次API調(diào)用,其中34.1%的操作都在運(yùn)行原版程序、觀察輸入輸出行為。探索做得最多,但最終成績(jī)差距不大。

真正拉開身位的是Claude Opus 4.7。

平均通過率51.2%,在3%的任務(wù)上通過了95%以上的測(cè)試,是唯一達(dá)到「幾乎通過」標(biāo)準(zhǔn)的模型。但即便是它,也沒有在任何一個(gè)任務(wù)上拿到滿分。

從整體來看,9個(gè)模型的表現(xiàn)呈現(xiàn)出清晰的梯隊(duì)。

Claude系三款旗艦(Opus 4.7、Opus 4.6、Sonnet 4.6)領(lǐng)先,GPT-5.4和Gemini 3.1 Pro構(gòu)成第二梯隊(duì),剩下的四款小模型通過率都在35%以下。


另一個(gè)反直覺的發(fā)現(xiàn)是,砸錢和堆步數(shù)并不能換來更好的成績(jī)。

Sonnet 4.6每個(gè)任務(wù)平均跑868條命令,成本27.09美元,最長(zhǎng)的軌跡接近2000步。但它的成績(jī)反而不如只用93次調(diào)用、花3.81美元的Opus 4.7。

更關(guān)鍵的是,98%的運(yùn)行中,模型都是自己覺得「做完了」主動(dòng)交卷的,根本沒有撞到時(shí)間或步數(shù)上限。

不是考試時(shí)間不夠,是真的做不到。

此外,任務(wù)難度和模型排名高度一致。

簡(jiǎn)單的CLI工具(nnn、fzf、gron)大家都能拿到不錯(cuò)的分?jǐn)?shù),復(fù)雜系統(tǒng)(FFmpeg、PHP、typst、ast-grep)則對(duì)所有模型一視同仁地?zé)o情。


需要說明的是,ProgramBench用的是mini-SWE-agent這個(gè)極簡(jiǎn)腳手架,沒有上下文壓縮、沒有多Agent協(xié)作、沒有定制化工具鏈。


代碼寫出來了,但完全不像人寫的

研究團(tuán)隊(duì)對(duì)比了通過75%以上測(cè)試的高分解答和人類原版代碼,發(fā)現(xiàn)了幾個(gè)驚人的差異。

  • 單文件怪獸。

人類代碼中位數(shù)分布在15個(gè)文件里,模型的中位數(shù)是3個(gè)。

60%的解答只有1到3個(gè)代碼文件。

人類工程師按功能拆分模塊,模型傾向于把所有東西塞進(jìn)一個(gè)巨大的文件。目錄深度中位數(shù),人類是2層,模型是1層。

  • 函數(shù)又少又長(zhǎng)。

Opus 4.7寫的函數(shù)數(shù)量只有人類的29%,Sonnet 4.6是24%,GPT-5.4只有10%。

但每個(gè)函數(shù)的平均長(zhǎng)度更長(zhǎng),Gemini 3.1 Pro寫的函數(shù)比人類長(zhǎng)62%。

  • 代碼量大幅縮水。

模型代碼中位數(shù)1,173行,人類是3,068行。85%的高分解答比原版短。


總結(jié)來說就是,現(xiàn)在的AI會(huì)寫代碼,但不會(huì)做軟件設(shè)計(jì)。

它不懂為什么要拆分模塊,不理解為什么人類工程師要花時(shí)間定義接口和抽象層。策略就是把所有邏輯硬塞進(jìn)盡可能少的文件和函數(shù)里,能跑就行。

GPT-5.4的表現(xiàn)最極端。平均每個(gè)任務(wù)只創(chuàng)建5個(gè)文件,修改1.2次,39.5%的軌跡在創(chuàng)建文件后零修改。

相比之下,Claude Sonnet 4.6平均創(chuàng)建11.3個(gè)文件、修改18.3次,表現(xiàn)出更接近人類的迭代開發(fā)模式。


還有一個(gè)很有意思的現(xiàn)象。

模型只有50%的概率會(huì)用和原版相同的編程語(yǔ)言。

其中,Python是模型的最愛,占所有1,800次運(yùn)行的36%。

原版用Rust寫的項(xiàng)目,只有44%用Rust重寫;C/C++的,46%。Go項(xiàng)目的「忠誠(chéng)度」最高,70%。

不管你原來是用什么語(yǔ)言寫的,模型有三分之一的概率會(huì)用Python重來一遍。


說好的不作弊,一聯(lián)網(wǎng)就去GitHub扒源碼

這可能是整個(gè)研究里最有戲劇感的部分。

研究團(tuán)隊(duì)做了一組對(duì)照實(shí)驗(yàn),給模型開放網(wǎng)絡(luò)訪問權(quán)限,但在系統(tǒng)提示中明確告知「作弊不允許」。

然后用9個(gè)AI裁判檢查每條軌跡是否存在作弊行為。

結(jié)果觸目驚心。

Claude Sonnet 4.6有36%的任務(wù)被判定作弊,Claude Opus 4.6是21%,Gemini 3 Flash是20%。


作弊方式五花八門。

最赤裸裸的是去GitHub克隆源碼倉(cāng)庫(kù)。

稍微隱蔽一點(diǎn)的是通過包管理器下載,比如cargo install、go get

更狡猾的是去本地包緩存目錄翻依賴庫(kù)的源碼。


但AI裁判之間的分歧也大得驚人。

對(duì)于Claude Opus 4.6,9個(gè)裁判在57%的任務(wù)上無法達(dá)成一致。

有一個(gè)案例特別典型。

Claude Sonnet 4.6在做handlr這個(gè)Rust項(xiàng)目時(shí),跑去~/.cargo/registry/src/目錄翻了xdg-mime、clap等依賴庫(kù)的源代碼。

5個(gè)裁判判定作弊,4個(gè)裁判認(rèn)為這些是第三方庫(kù)不算作弊。

最終,研究團(tuán)隊(duì)放棄了「聯(lián)網(wǎng)+事后檢測(cè)」的方案,直接斷網(wǎng)。

模型在面對(duì)困難任務(wù)時(shí),「找捷徑」的傾向比預(yù)想的強(qiáng)得多。而連9個(gè)AI裁判都判不清楚什么算作弊、什么算合理的逆向工程,說明這條邊界本身就是模糊的。

舊考試結(jié)束了,新考試才剛開始

SWE-Bench上能拿72%的模型,在ProgramBench上拿0%。

這兩個(gè)測(cè)試考的根本就是兩種能力。SWE-Bench考的是「在別人的代碼里找到問題并修好」,ProgramBench考的是「自己從頭設(shè)計(jì)并實(shí)現(xiàn)一個(gè)完整系統(tǒng)」。

前者AI已經(jīng)做得相當(dāng)好了,后者目前完全不及格。

Epoch AI上周剛發(fā)了一篇博文,宣判舊推理benchmark集體死亡。想搞出還沒被刷爆的測(cè)試,至少得放棄四個(gè)舒適條件中的一個(gè),純文本、短耗時(shí)、易評(píng)分、人類專家碾壓。


按這個(gè)框架來看,ProgramBench放棄了其中兩個(gè),短耗時(shí)和易評(píng)分。

它把任務(wù)拉到了人類工程師可能需要數(shù)周甚至數(shù)月才能完成的量級(jí),同時(shí)用行為等價(jià)性而非源碼匹配來評(píng)估。

作者John Yang在推文中強(qiáng)調(diào),「ProgramBench非常難,但它在設(shè)計(jì)上是可解的!

也就是說,0%不代表這些任務(wù)超出了AI的理論極限,只是說明今天的模型還遠(yuǎn)遠(yuǎn)不夠。

SWE-Bench測(cè)的是AI能不能當(dāng)一個(gè)好員工。ProgramBench測(cè)的是AI能不能當(dāng)一個(gè)工程師。

這兩件事之間的距離,今天剛被精確測(cè)量出來。答案是0%。

參考資料:

https://programbench.com/static/paper.pdf

https://x.com/jyangballin/status/2051677497562210552?s=20

https://x.com/EpochAIResearch/status/2051760424891392204?s=20

https://epochai.substack.com/p/rip-classic-reasoning-benchmarks

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
杭州同學(xué)聚會(huì)吃了32萬,請(qǐng)客的人付完錢走后,剩下的人翻臉了

杭州同學(xué)聚會(huì)吃了32萬,請(qǐng)客的人付完錢走后,剩下的人翻臉了

紙鳶奇譚
2025-12-19 14:19:59
今日最慘股!已連續(xù)下跌四個(gè)月,今又20cm跌停,而且還是一字跌停

今日最慘股!已連續(xù)下跌四個(gè)月,今又20cm跌停,而且還是一字跌停

丁丁鯉史紀(jì)
2026-05-06 10:51:55
穆里尼奧通過視頻通話向弗洛倫蒂諾要求解雇平圖斯以回歸皇馬

穆里尼奧通過視頻通話向弗洛倫蒂諾要求解雇平圖斯以回歸皇馬

綠茵情報(bào)局
2026-05-06 22:52:33
三星宣布停止在中國(guó)市場(chǎng)銷售所有家電產(chǎn)品

三星宣布停止在中國(guó)市場(chǎng)銷售所有家電產(chǎn)品

財(cái)聯(lián)社
2026-05-06 19:32:22
悲催!社區(qū)食堂迎來集體退場(chǎng)的結(jié)局,網(wǎng)友:不符合市場(chǎng)經(jīng)濟(jì)規(guī)律

悲催!社區(qū)食堂迎來集體退場(chǎng)的結(jié)局,網(wǎng)友:不符合市場(chǎng)經(jīng)濟(jì)規(guī)律

火山詩(shī)話
2026-05-06 07:01:51
“臺(tái)獨(dú)”頑固分子劉世芳親屬已被在大陸臺(tái)企解職

“臺(tái)獨(dú)”頑固分子劉世芳親屬已被在大陸臺(tái)企解職

界面新聞
2026-05-06 21:01:54
4月銷量暴漲 北汽藍(lán)谷憑硬核實(shí)力扛住市場(chǎng)波動(dòng)

4月銷量暴漲 北汽藍(lán)谷憑硬核實(shí)力扛住市場(chǎng)波動(dòng)

道哥說車
2026-05-06 16:21:07
英媒:吳宜澤吞云吐霧照片讓老球迷更喜歡,他風(fēng)格很像颶風(fēng)希金斯

英媒:吳宜澤吞云吐霧照片讓老球迷更喜歡,他風(fēng)格很像颶風(fēng)希金斯

楊華評(píng)論
2026-05-06 15:14:00
5種廢品價(jià)格暴漲,家里有這5樣?xùn)|西的,提醒身邊人別亂扔了

5種廢品價(jià)格暴漲,家里有這5樣?xùn)|西的,提醒身邊人別亂扔了

小談食刻美食
2026-05-06 07:39:22
特朗普提議中國(guó)改買美國(guó)石油,外交部:能源政策建議向有關(guān)方面了解

特朗普提議中國(guó)改買美國(guó)石油,外交部:能源政策建議向有關(guān)方面了解

澎湃新聞
2026-05-06 17:06:27
5月1日起全額繳納社保,全民創(chuàng)業(yè)時(shí)代正式謝幕,但請(qǐng)不要難過

5月1日起全額繳納社保,全民創(chuàng)業(yè)時(shí)代正式謝幕,但請(qǐng)不要難過

月滿大江流
2026-05-06 17:01:05
王毅部長(zhǎng)最新照片令網(wǎng)友心酸,73歲的他為何仍?shī)^戰(zhàn)在外交一線?

王毅部長(zhǎng)最新照片令網(wǎng)友心酸,73歲的他為何仍?shī)^戰(zhàn)在外交一線?

李昕言溫度空間
2026-05-06 20:34:07
臺(tái)官員曝賴清德成功返臺(tái)內(nèi)幕,大陸出手阻止未果,背后有難言之隱

臺(tái)官員曝賴清德成功返臺(tái)內(nèi)幕,大陸出手阻止未果,背后有難言之隱

共工之錨
2026-05-07 00:04:56
16歲女孩景區(qū)內(nèi)墜亡,目擊者發(fā)聲,賠償金額曝光,景區(qū)運(yùn)營(yíng)僅49天

16歲女孩景區(qū)內(nèi)墜亡,目擊者發(fā)聲,賠償金額曝光,景區(qū)運(yùn)營(yíng)僅49天

溫柔看世界
2026-05-06 11:48:44
吳宜澤抽煙照曝光!外網(wǎng)調(diào)侃:我們沉迷于電子煙 中國(guó)人都抽香煙

吳宜澤抽煙照曝光!外網(wǎng)調(diào)侃:我們沉迷于電子煙 中國(guó)人都抽香煙

念洲
2026-05-06 07:42:45
媽媽帶3歲兒子送外賣不幸遭遇車禍,孩子滿臉傷痕不哭不鬧一直守在身旁,網(wǎng)友:這一刻他就是媽媽的“守護(hù)天使”

媽媽帶3歲兒子送外賣不幸遭遇車禍,孩子滿臉傷痕不哭不鬧一直守在身旁,網(wǎng)友:這一刻他就是媽媽的“守護(hù)天使”

洪觀新聞
2026-05-06 11:24:50
誰把女游客推下了懸崖?

誰把女游客推下了懸崖?

賓語(yǔ)觀世
2026-05-06 20:10:49
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

嘴角上翹的弧度
2026-05-06 19:51:52
國(guó)際足聯(lián)也急了!原來除了中國(guó),還有這么多國(guó)家不給世界杯買單了

國(guó)際足聯(lián)也急了!原來除了中國(guó),還有這么多國(guó)家不給世界杯買單了

阿纂看事
2026-05-06 15:55:12
今夜,利好!全線暴漲!

今夜,利好!全線暴漲!

中國(guó)基金報(bào)
2026-05-07 00:18:39
2026-05-07 02:51:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
15145文章數(shù) 66838關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

特朗普:伊朗可能將其高濃縮鈾運(yùn)往美國(guó)

頭條要聞

特朗普:伊朗可能將其高濃縮鈾運(yùn)往美國(guó)

體育要聞

活塞1比0騎士:坎寧安不再是一個(gè)人了

娛樂要聞

謝娜演唱會(huì)暗藏驚喜 何炅瞞天過海現(xiàn)身

財(cái)經(jīng)要聞

估值450億美元 大基金被曝將投資DeepSeek

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

家居
旅游
親子
時(shí)尚
手機(jī)

家居要聞

大膽前衛(wèi) 時(shí)尚大宅

旅游要聞

“旅游興趣班”開啟文旅經(jīng)濟(jì)新賽道

親子要聞

開車的小孩子最帥了

有些路,不必每一步都走得那么用力

手機(jī)要聞

“iPhone Ultra”或?qū)⒊蔀闃I(yè)內(nèi)最易維修的折疊屏手機(jī)

無障礙瀏覽 進(jìn)入關(guān)懷版