国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

程序員安心了?AI能寫(xiě)代碼,但不能維護(hù)代碼!首次評(píng)測(cè)出爐:大多數(shù)AI會(huì)“越改越糟”

0
分享至

每經(jīng)記者:蘭素英 每經(jīng)編輯:王嘉琦

近年來(lái),AI大模型的編程能力突飛猛進(jìn),各大AI廠商在編程基準(zhǔn)測(cè)試上你追我趕,不斷刷新紀(jì)錄。這讓不少程序員開(kāi)始擔(dān)憂:AI是不是很快就要搶走我們的飯碗了?

然而,中山大學(xué)與阿里巴巴聯(lián)合發(fā)布的一項(xiàng)最新研究給程序員們吃下了一顆“定心丸”。

3月4日,兩家機(jī)構(gòu)聯(lián)合發(fā)布了一項(xiàng)評(píng)測(cè)結(jié)果。這項(xiàng)測(cè)試名為“SWE-CI:通過(guò)持續(xù)集成評(píng)估智能體維護(hù)代碼庫(kù)的能力”(SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration),首次對(duì)包括Anthropic、OpenAI、Kimi和DeepSeek等8家主流廠商的18款A(yù)I大模型的長(zhǎng)期代碼維護(hù)能力進(jìn)行了嚴(yán)苛的系統(tǒng)性評(píng)估測(cè)試。

測(cè)試包含100項(xiàng)任務(wù),總Token消耗超100億。結(jié)果顯示,Claude Opus系列綜合表現(xiàn)領(lǐng)跑。

在控制性能退化方面,千問(wèn)、DeepSeek、MiniMax、Kimi和豆包等大多數(shù)AI大模型的表現(xiàn)明顯不佳。也就是說(shuō),AI在長(zhǎng)期代碼維護(hù)過(guò)程中,可能將代碼“越改越糟”。


100項(xiàng)任務(wù)!中國(guó)團(tuán)隊(duì)推出全球首個(gè)評(píng)估AI大模型長(zhǎng)期代碼維護(hù)能力的評(píng)測(cè)系統(tǒng)

長(zhǎng)期以來(lái),AI編程能力的主流評(píng)測(cè)基準(zhǔn)的共同特點(diǎn)是快照式評(píng)測(cè),以“單次接收需求、一次性輸出解決方案”為核心。

然而,這種評(píng)估方式僅檢驗(yàn)大模型是否能寫(xiě)出功能正確的代碼,無(wú)法反映真實(shí)軟件開(kāi)發(fā)中持續(xù)迭代、長(zhǎng)期維護(hù)的核心需求。

在現(xiàn)實(shí)中,成熟的軟件很少是一蹴而就的,而是長(zhǎng)期維護(hù)的結(jié)果。雷曼定律表明,軟件質(zhì)量會(huì)隨著維護(hù)的進(jìn)行而自然下降。而維護(hù)工作占軟件生命周期總成本的60%到80%。

為評(píng)估AI在長(zhǎng)期代碼維護(hù)中的表現(xiàn),中山大學(xué)與阿里巴巴團(tuán)隊(duì)聯(lián)合推出了SWE?CI評(píng)測(cè)基準(zhǔn)。這是全球首個(gè)專門評(píng)估AI智能體在長(zhǎng)期代碼維護(hù)表現(xiàn)的評(píng)測(cè)系統(tǒng),它不再滿足于考察AI編程的“一次性正確”,而是評(píng)估AI是否像真正的軟件工程師一樣,在數(shù)月甚至數(shù)年的開(kāi)發(fā)過(guò)程中持續(xù)保持代碼質(zhì)量。

SWE?CI基準(zhǔn)測(cè)試的構(gòu)建經(jīng)過(guò)四層嚴(yán)格篩選,最終形成高質(zhì)量評(píng)測(cè)集。

研究團(tuán)隊(duì)先從GitHub全網(wǎng)的Pytho代碼庫(kù)中篩選出維護(hù)三年以上、星標(biāo)超500、包含依賴文件和完整單元測(cè)試套件,以及采用MIT/Apache?2.0等寬松協(xié)議的4923個(gè)代碼庫(kù);再提取依賴穩(wěn)定、代碼修改量超1000行的提交對(duì),得到8311個(gè)候選樣本;通過(guò)自動(dòng)構(gòu)建Docker環(huán)境與自修復(fù)依賴機(jī)制,保留1458組可運(yùn)行候選對(duì);最后經(jīng)測(cè)試啟動(dòng)校驗(yàn)、通過(guò)率差異篩選、時(shí)間跨度與提交量排序,確定100項(xiàng)最終任務(wù)。

研究團(tuán)隊(duì)精心構(gòu)建的100項(xiàng)任務(wù)中,每項(xiàng)任務(wù)都對(duì)應(yīng)著真實(shí)世界中一個(gè)軟件項(xiàng)目的完整進(jìn)化歷程。這些項(xiàng)目平均跨越233天的開(kāi)發(fā)時(shí)間,包含71次連續(xù)的代碼提交記錄。團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)精巧的“架構(gòu)師-程序員”雙智能體協(xié)作機(jī)制。設(shè)計(jì)的靈感來(lái)自真實(shí)軟件團(tuán)隊(duì)中常見(jiàn)的分工模式:架構(gòu)師負(fù)責(zé)分析需求和制定技術(shù)方案,程序員負(fù)責(zé)具體的代碼開(kāi)發(fā)。

為適配長(zhǎng)期迭代評(píng)測(cè),SWE?CI提出了“歸一化變化”與“EvoScore(進(jìn)化得分)”兩大核心指標(biāo)。

“歸一化變化”以測(cè)試用例通過(guò)數(shù)為基礎(chǔ),將代碼狀態(tài)映射到[-1,1]區(qū)間,正向表示功能提升,負(fù)向表示出現(xiàn)功能退化。

EvoScore更側(cè)重衡量AI大模型在未來(lái)修改任務(wù)中的表現(xiàn)。


實(shí)測(cè)結(jié)果:Claude Opus斷層領(lǐng)跑,大多數(shù)大模型在75%的任務(wù)中會(huì)破壞原有代碼

研究團(tuán)隊(duì)對(duì)8家公司——月之暗面、Anthropic、智譜、千問(wèn)、MiniMax、DeepSeek、OpenAI和豆包——的18個(gè)主流AI大模型進(jìn)行了系統(tǒng)性測(cè)試,累計(jì)消耗了超過(guò)100億Token的測(cè)試數(shù)據(jù)。這一實(shí)驗(yàn)規(guī)模在AI編程評(píng)估領(lǐng)域堪稱史無(wú)前例。

研究結(jié)果顯示,從時(shí)間維度來(lái)看,AI大模型在代碼維護(hù)能力上的進(jìn)化呈現(xiàn)出明顯的加速曲線。

從下圖可以發(fā)現(xiàn),同一廠商的大模型新版本普遍穩(wěn)定高于前一代,且2026年后的躍升幅度顯著擴(kuò)大,EvoScore更高。這表明,當(dāng)前大模型的代碼能力正從靜態(tài)缺陷修復(fù),快速向持續(xù)、長(zhǎng)期的代碼維護(hù)演進(jìn)。



8家廠商的主流大模型在SWE?CI測(cè)試中的EvoScore變化情況。圖片來(lái)源:論文截圖

在所有參評(píng)大模型中,Claude Opus系列表現(xiàn)最為突出,從Claude-opus-4.5到Claude-opus-4.6,其EvoScore躍升至約0.9的高位,明顯拉開(kāi)了與所有競(jìng)爭(zhēng)對(duì)手的差距。

中國(guó)的AI大模型中,智譜GLM系列進(jìn)步顯著,成為第二梯隊(duì)中最具競(jìng)爭(zhēng)力的選手。緊隨其后的是Qwen和MiniMax,整體趨勢(shì)向好。而Kimi和豆包雖有提升,但缺乏突破。

研究還發(fā)現(xiàn),不同廠商在大模型訓(xùn)練策略上偏好存在明顯分化。

具體而言,MiniMax、DeepSeek以及OpenAI的GPT系列大模型更偏好長(zhǎng)期效益,顯示出其在長(zhǎng)期代碼維護(hù)任務(wù)中的優(yōu)勢(shì)。這意味著,這類大模型在生成代碼時(shí),更傾向于采用有利于長(zhǎng)期演進(jìn)與穩(wěn)定性的策略,而非追求短期修復(fù)的最優(yōu)解。

相比之下,Kimi與智譜GLM系列更偏向于短期見(jiàn)效的優(yōu)化路徑。

而千問(wèn)、豆包以及Claude系列大模型則呈現(xiàn)出另一種特征:其訓(xùn)練策略在短期效果與長(zhǎng)期維護(hù)之間取得了一定平衡。


隨著權(quán)重參數(shù)γ的變化,各個(gè)大模型的排名也隨之發(fā)生顯著調(diào)整。當(dāng)γ>1時(shí),大模型排名越高,其代碼庫(kù)維護(hù)能力越強(qiáng)。圖片來(lái)源:論文截圖

另外,研究還有一項(xiàng)關(guān)鍵發(fā)現(xiàn):在長(zhǎng)期代碼維護(hù)中,所有大模型在有效控制性能退化(Regression)方面都表現(xiàn)不佳。

性能退化是衡量軟件質(zhì)量穩(wěn)定性的核心指標(biāo)。如果某個(gè)單元測(cè)試在代碼更新前已經(jīng)通過(guò),而更新后失敗了,則判定該變更觸發(fā)了性能退化。一旦出現(xiàn)性能退化,不僅會(huì)直接影響用戶體驗(yàn),在長(zhǎng)期維護(hù)過(guò)程中,隨著修改次數(shù)累積,還可能導(dǎo)致系統(tǒng)質(zhì)量系統(tǒng)性退化。

研究團(tuán)隊(duì)測(cè)量了“零退化率”——即在整個(gè)維護(hù)過(guò)程中完全沒(méi)有破壞原有功能的任務(wù)比例。零退化率越高,維護(hù)的系統(tǒng)越穩(wěn)定。

研究結(jié)果表明,在所有參與測(cè)試的18個(gè)大模型中,只有Anthropic的Claude Opus大模型保持了50%以上的零退化率,大多數(shù)大模型的零退化率都低于25%。


18個(gè)大模型的零退化率(從低到高排序)。圖片來(lái)源:論文截圖

具體而言,Claude-opus-4.6以76%的零退化率遙遙領(lǐng)先。這意味著在絕大多數(shù)測(cè)試場(chǎng)景中,其性能能夠保持穩(wěn)定。Claude-opus-4.5以51%位列第二。相比之下,Kimi-K2.5(37%)與GLM-5(36%)表現(xiàn)接近,構(gòu)成第二梯隊(duì),雖具備一定穩(wěn)定性,但與頭部大模型仍存在顯著差距。

包括GPT-5.2、Qwen3.5-plus、MiniMax-M2.5和DeepSeek-V3.2在內(nèi)的其余14個(gè)AI大模型的零退化率都在25%以下,這意味著在長(zhǎng)期代碼維護(hù)過(guò)程中,大模型在超過(guò)75%的任務(wù)中會(huì)破壞原本正常的代碼功能,引發(fā)性能退化問(wèn)題。

但從版本迭代的角度看,頭部廠商的AI大模型正快速進(jìn)步。例如,Claude-opus系列的“零退化率”從4.5版本的51%提升至4.6版本的76%,智譜GLM系列從GLM-4.6和GLM-4.7的14%躍升至GLM-5的36%。

但即便如此,絕大多數(shù)大模型仍難以在長(zhǎng)期代碼維護(hù)中杜絕性能退化問(wèn)題,距離可靠的自動(dòng)化長(zhǎng)期開(kāi)發(fā)仍有明顯差距。

SWECI基準(zhǔn)測(cè)試結(jié)果的發(fā)布,讓行業(yè)意識(shí)到,“寫(xiě)代碼”和“維護(hù)代碼”是兩種截然不同的能力。對(duì)于大模型廠商而言,持續(xù)優(yōu)化可維護(hù)性、性能退化控制、架構(gòu)設(shè)計(jì)能力,或許將是贏得下半場(chǎng)競(jìng)爭(zhēng)的關(guān)鍵。

免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議,使用前核實(shí)。據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
處長(zhǎng)把我踢出工作群還標(biāo)“編外”,隔天求我救急?我:沒(méi)權(quán)限!

處長(zhǎng)把我踢出工作群還標(biāo)“編外”,隔天求我救急?我:沒(méi)權(quán)限!

曉艾故事匯
2026-03-21 15:19:51
別再說(shuō)微胖的女生穿緊身牛仔褲顯胖了!這身材誰(shuí)看了不迷糊

別再說(shuō)微胖的女生穿緊身牛仔褲顯胖了!這身材誰(shuí)看了不迷糊

牛彈琴123456
2026-03-22 13:59:13
1981年,彭真獄中見(jiàn)江青,江青出言不遜提出:我要見(jiàn)華國(guó)鋒鄧小平

1981年,彭真獄中見(jiàn)江青,江青出言不遜提出:我要見(jiàn)華國(guó)鋒鄧小平

微野談寫(xiě)作
2026-01-27 06:00:03
杜月笙的識(shí)人術(shù):只看對(duì)方的一個(gè)站姿,就能知道他是龍還是蟲(chóng)

杜月笙的識(shí)人術(shù):只看對(duì)方的一個(gè)站姿,就能知道他是龍還是蟲(chóng)

千秋文化
2026-03-23 20:09:06
張雪峰:如果你不好好學(xué)習(xí),一旦掉入社會(huì)底層,和一群沒(méi)有素質(zhì)的人混在一起.....

張雪峰:如果你不好好學(xué)習(xí),一旦掉入社會(huì)底層,和一群沒(méi)有素質(zhì)的人混在一起.....

山東教育
2026-01-27 11:38:18
你知道我在床上有多厲害嗎?

你知道我在床上有多厲害嗎?

果粉之家
2026-03-20 12:35:16
公積金新調(diào)整!4月1日起,職工可自愿提高繳存比例

公積金新調(diào)整!4月1日起,職工可自愿提高繳存比例

另子維愛(ài)讀史
2026-03-25 22:28:47
順德女老板,叫板國(guó)際巨頭,一年賣出5個(gè)億

順德女老板,叫板國(guó)際巨頭,一年賣出5個(gè)億

最華人
2026-03-25 12:33:15
4000噸稀土被轉(zhuǎn)運(yùn)美國(guó)?大陸停供臺(tái)灣稀土!臺(tái)學(xué)者:不如直接統(tǒng)一

4000噸稀土被轉(zhuǎn)運(yùn)美國(guó)?大陸停供臺(tái)灣稀土!臺(tái)學(xué)者:不如直接統(tǒng)一

小舟談歷史
2026-03-19 17:27:44
第六險(xiǎn)來(lái)了!一文讀懂“長(zhǎng)護(hù)險(xiǎn)”

第六險(xiǎn)來(lái)了!一文讀懂“長(zhǎng)護(hù)險(xiǎn)”

極目新聞
2026-03-26 07:21:00
大反轉(zhuǎn)!U23國(guó)足球員勸架染紅原因終于找到了,球迷曝光現(xiàn)場(chǎng)視頻

大反轉(zhuǎn)!U23國(guó)足球員勸架染紅原因終于找到了,球迷曝光現(xiàn)場(chǎng)視頻

侃球熊弟
2026-03-26 00:36:57
短短1年,靈活就業(yè)者暴增4千萬(wàn)

短短1年,靈活就業(yè)者暴增4千萬(wàn)

深度報(bào)
2026-03-23 21:47:58
姐弟鬧掰?李鑫拒絕錄口供,直言這樣下去姐弟沒(méi)得做,李林哭了!

姐弟鬧掰?李鑫拒絕錄口供,直言這樣下去姐弟沒(méi)得做,李林哭了!

李橑在北漂
2026-03-26 01:56:27
譚瑞松,被判死緩

譚瑞松,被判死緩

新京報(bào)政事兒
2026-03-25 17:17:03
致命圍堵!7500人強(qiáng)攻哈爾克島,伊朗生死線告急

致命圍堵!7500人強(qiáng)攻哈爾克島,伊朗生死線告急

孤城落葉
2026-03-25 14:06:37
52年岳飛后人找毛主席求安排工作,主席聽(tīng)完沉默片刻,說(shuō)了句話讓他當(dāng)場(chǎng)愣住

52年岳飛后人找毛主席求安排工作,主席聽(tīng)完沉默片刻,說(shuō)了句話讓他當(dāng)場(chǎng)愣住

老杉說(shuō)歷史
2026-03-13 23:00:06
6歲男孩躲避母親毆打離家22年,長(zhǎng)大方知母親悲慘人生

6歲男孩躲避母親毆打離家22年,長(zhǎng)大方知母親悲慘人生

孤酒老巷QA
2026-03-25 20:19:35
姆巴佩:說(shuō)我在皇馬遭誤診是假的,也怪我留下了可解讀的空間

姆巴佩:說(shuō)我在皇馬遭誤診是假的,也怪我留下了可解讀的空間

懂球帝
2026-03-26 04:09:06
雷軍曬成績(jī):小米SU7、YU7雙雙第一!

雷軍曬成績(jī):小米SU7、YU7雙雙第一!

快科技
2026-03-26 13:09:04
還有誰(shuí)!楊瀚森100%命中率!20+9+5打出完美一戰(zhàn)!

還有誰(shuí)!楊瀚森100%命中率!20+9+5打出完美一戰(zhàn)!

柚子說(shuō)球
2026-03-26 13:07:05
2026-03-26 14:00:49
每日經(jīng)濟(jì)新聞 incentive-icons
每日經(jīng)濟(jì)新聞
中國(guó)主流財(cái)經(jīng)全媒體平臺(tái)。
1518633文章數(shù) 2724746關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

伊朗議長(zhǎng)和外長(zhǎng)暫被移出美以清除名單 時(shí)限4到5天

頭條要聞

伊朗議長(zhǎng)和外長(zhǎng)暫被移出美以清除名單 時(shí)限4到5天

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂(lè)要聞

張雪峰家人首發(fā)聲 不設(shè)追思會(huì)喪事從簡(jiǎn)

財(cái)經(jīng)要聞

黃仁勛:芯片公司的時(shí)代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

健康
游戲
手機(jī)
家居
公開(kāi)課

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

IGN認(rèn)為Xbox機(jī)會(huì)來(lái)了!新主機(jī)要轉(zhuǎn)守為攻 重塑自我

手機(jī)要聞

三星One UI 9前瞻:小部件更方正、Now Bar動(dòng)畫(huà)更絲滑

家居要聞

傍海而居 靜觀蝴蝶海

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版