国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

超6萬GitHub項目實測:Agent寫代碼效率暴漲,通過率仍落后人類

0
分享至

當(dāng) AI 用 3 天完成人類程序員原本3年的代碼任務(wù)量,人類的角色會發(fā)生怎樣的變化?

當(dāng)前,AI 正在從工具變?yōu)槿祟惖摹瓣犛选薄kS著大模型的加速發(fā)展,AI 在軟件工程領(lǐng)域的作用已不再是輔助代碼補全,而是正在成為可自主編碼的智能體(Agent)。

現(xiàn)在,我們只需向 AI 描述代碼想要實現(xiàn)的功能,它就能自動生成完整代碼;借助 Agent,甚至能在十幾分鐘內(nèi)完成千行級別的代碼生成或修改。

近期,加拿大女王大學(xué)博士后李豪與所在團隊在一項研究中首次構(gòu)建了一個大規(guī)模數(shù)據(jù)集 AIDev,系統(tǒng)分析和統(tǒng)計了自主編碼 Agent 在 7,000 多個較流行的軟件中的實際表現(xiàn)和影響。

其覆蓋范圍包括在 GitHub 平臺上已提交的超 45.6 萬條 Agent 代碼合并請求(PR,pull requests),涵蓋 6.1 萬個代碼庫和 4.7 萬名開發(fā)者,包括主流的 AI 編碼工具 OpenAI Codex、GitHub Copilot、Devin、Cursor 和 Claude Code。


圖丨李豪(來源:受訪者)

研究人員在 AI 領(lǐng)域和軟件工程做相關(guān)研究時,往往會選擇用 SWE-bench 做測試,通過交給 AI 一些高質(zhì)量、有測試樣例的任務(wù),來優(yōu)化 AI 性能以及優(yōu)化系統(tǒng)設(shè)計等。

但這也帶來了很多挑戰(zhàn)性的問題。例如,一家公司如果將測試題目用于訓(xùn)練模型,極有可能因“作弊”導(dǎo)致分數(shù)虛高。此外,由于 SWE-bench 是一個靜態(tài)的基準集(benchmark),部分數(shù)據(jù)有可能存在一定滯后性。

李豪指出,該研究最大的不同點在于,AIDev 是真實世界、大規(guī)模、實時采集數(shù)據(jù)的數(shù)據(jù)集,更貼近于業(yè)界實踐和生產(chǎn)。此外,研究人員還可以利用該數(shù)據(jù)集打造更新的 benchmark。


(來源:arXiv)

研究團隊在 AI 編碼 Agent 的速度和質(zhì)量方面找到了有趣的發(fā)現(xiàn)。一項個例分析結(jié)果顯示,有開發(fā)者在使用 AI 編碼 Agent 后,3 天內(nèi)完成的任務(wù)量接近其過去 3 年的總量。

而 AI 在自然語言處理方面的優(yōu)勢,也同樣值得關(guān)注。他們發(fā)現(xiàn),AI 在編寫代碼或文本方面的任務(wù)中表現(xiàn)優(yōu)異,例如從文檔相關(guān)的合并請求接受率來看,OpenAI Codex 和 Claude Code 分別為 88.6% 和 85.7%,而人類在該方面表現(xiàn)為 76.5%。


(來源:arXiv)

合并請求接受率是衡量 AI 產(chǎn)出質(zhì)量和可信度的關(guān)鍵指標(biāo),它與人類開發(fā)者/項目維護者對 AI 貢獻的認可度密切相關(guān)。該團隊還發(fā)現(xiàn),編碼 Agent 的合并請求接受率比人類開發(fā)者低 15% 至 40%(不同任務(wù)類型下區(qū)間差異顯著),尤其是在新功能開發(fā)、修復(fù) Bug 等復(fù)雜的任務(wù)方面。例如,OpenAI Codex 的 PR 接受率為 64%,而人類開發(fā)者的 PR 接受率高達 76.8%。

這意味著,AI 寫代碼并非全面超越了人類。需要看到的是,盡管目前 AI 編碼 Agent 生成速度很快,但性能方面還有一些缺陷,在結(jié)構(gòu)上也相對較簡單,需要研究人員繼續(xù)對其進行增強,以確保代碼的長期可維護性。

李豪對 DeepTech 表示:“短期看,AI Agent 的代碼接受率相對人類較低,效率與質(zhì)量的取舍仍需權(quán)衡(trade-off),但這種磨合期對應(yīng)的是數(shù)據(jù)飛輪的啟動階段,形成飛輪效應(yīng)后,我們有望獲得生產(chǎn)力的顯著提升。”


(來源:arXiv)

該研究通過分析自主編碼 Agent 的表現(xiàn),為未來更好地優(yōu)化人與 AI 協(xié)作提供了數(shù)據(jù)基礎(chǔ)。這也帶來了一種全新的生成模式,開發(fā)者面臨的問題不是如何寫更多的代碼,而是接到一項任務(wù)后,如何拆分成更細的任務(wù),再管理這些 AI 更好地執(zhí)行。

“該方向在學(xué)界和產(chǎn)業(yè)界還存在較大的空白。編程人員的角色也會逐漸從寫代碼的人,轉(zhuǎn)換成提供代碼審查或提供管理模式的人。目前,我們也在做相關(guān)的研究,來探索新一代軟件開發(fā)流程來支持開發(fā)者們利用 AI Agent?!崩詈辣硎?。

此外研究還揭示出,盡管 AI 的出現(xiàn)推動了人機協(xié)同審查流程,但同時也可能會帶來偏見等問題。例如,假如 AI 寫代碼的 Agent 與審查代碼的機器人自同一公司,很有可能在AI審查環(huán)節(jié)忽視某些特定類型的錯誤。

在未來的研究中,該團隊計劃建立更全面的 benchmark,對 AI 編程 Agent 進行真實的表現(xiàn)評測。他們還打算建立新知識庫,推動領(lǐng)域內(nèi)的研究人員共同改進相關(guān)方向,包括如何更好地預(yù)測和分析AI可能的失敗場景,以及失敗原因等。從更長遠的發(fā)展來看,探索更自動化與標(biāo)準化的審查機制,也是一個值得深入研究的方向。

相關(guān)論文以《軟件工程 3.0 中 AI 隊友的崛起:自主編碼 Agent 如何重塑軟件工程》(The Rise of AI Teammates in Software Engineering (SE) 3.0: How Autonomous Coding Agents Are Reshaping Software Engineering)為題發(fā)表在 arXiv[1]。目前,相關(guān)代碼已在 GitHub 開源。

參考資料:

1.相關(guān)論文:https://arxiv.org/abs/2507.15003v1

2.AIDev 數(shù)據(jù)集獲取:https://github.com/SAILResearch/AI_Teammates_in_SE3

排版:胡莉花

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
錢楓近照曝光,肥頭大耳認不出,天天兄弟物是人非:還好退圈了

錢楓近照曝光,肥頭大耳認不出,天天兄弟物是人非:還好退圈了

娛說瑜悅
2026-02-27 17:37:41
彩票出現(xiàn)斷崖式暴跌,“花2元中500萬”沒人信了?原因引人深思

彩票出現(xiàn)斷崖式暴跌,“花2元中500萬”沒人信了?原因引人深思

平說財經(jīng)
2026-02-12 16:27:02
人民幣大幅升值,專家預(yù)測國內(nèi)通脹與資產(chǎn)價格或?qū)⒈q!

人民幣大幅升值,專家預(yù)測國內(nèi)通脹與資產(chǎn)價格或?qū)⒈q!

特約前排觀眾
2026-03-01 00:05:08
哈梅內(nèi)伊死了又如何?四層繼任體系加復(fù)仇劇本 美帝陷無處不戰(zhàn)墳場

哈梅內(nèi)伊死了又如何?四層繼任體系加復(fù)仇劇本 美帝陷無處不戰(zhàn)墳場

馬蹄燙嘴說美食
2026-03-01 10:45:21
幾塊錢的維生素B2,竟是高血壓克星?提醒:還有助改善性生活

幾塊錢的維生素B2,竟是高血壓克星?提醒:還有助改善性生活

橘子約定
2026-02-27 09:33:19
北京一男房東因聯(lián)系不上女租客,擔(dān)心出事,直接開鎖進了房間。

北京一男房東因聯(lián)系不上女租客,擔(dān)心出事,直接開鎖進了房間。

南權(quán)先生
2026-01-12 16:44:03
貴州29歲新娘拒上婚車,撒潑耍賴脫婚服就跑,網(wǎng)友:有備而來

貴州29歲新娘拒上婚車,撒潑耍賴脫婚服就跑,網(wǎng)友:有備而來

農(nóng)村情感故事
2026-02-28 19:52:43
周大福鑲金發(fā)夾賣2080元引熱議,“?!弊植糠纸鹬?.42克,部分已賣斷貨;銷售:是miumiu的“高替”

周大福鑲金發(fā)夾賣2080元引熱議,“?!弊植糠纸鹬?.42克,部分已賣斷貨;銷售:是miumiu的“高替”

臺州交通廣播
2026-03-01 10:55:14
“00后”陳某某被押赴刑場 執(zhí)行死刑

“00后”陳某某被押赴刑場 執(zhí)行死刑

閃電新聞
2026-02-07 16:53:35
王一博盜號風(fēng)波升級!鞋碼衣服相機細節(jié)全對上,連杜華名字都對應(yīng)

王一博盜號風(fēng)波升級!鞋碼衣服相機細節(jié)全對上,連杜華名字都對應(yīng)

萌神木木
2026-02-28 12:49:52
替補獻絕殺,盧卡庫時隔281天再次為那不勒斯進球

替補獻絕殺,盧卡庫時隔281天再次為那不勒斯進球

懂球帝
2026-03-01 03:14:27
撒貝寧一家回武漢走完親戚返京!老婆太漂亮,龍鳳胎身高沒有隨爹

撒貝寧一家回武漢走完親戚返京!老婆太漂亮,龍鳳胎身高沒有隨爹

大中國
2026-02-26 18:05:01
據(jù)以色列稱,伊朗的反擊并沒有給以方造成任何重大損害

據(jù)以色列稱,伊朗的反擊并沒有給以方造成任何重大損害

一種觀點
2026-02-28 20:00:44
與名模離婚凈身出戶5年后,40歲的前男籃國手孫悅,今已判若兩人

與名模離婚凈身出戶5年后,40歲的前男籃國手孫悅,今已判若兩人

小熊侃史
2026-02-16 07:10:12
消息人士稱哈梅內(nèi)伊正掌控戰(zhàn)局

消息人士稱哈梅內(nèi)伊正掌控戰(zhàn)局

界面新聞
2026-03-01 07:16:37
該輪到古巴了!特朗普放話“友好接管”,拉美再現(xiàn)強權(quán)博弈

該輪到古巴了!特朗普放話“友好接管”,拉美再現(xiàn)強權(quán)博弈

老馬拉車莫少裝
2026-03-01 01:01:03
第一天戰(zhàn)況驚人:美以空襲史上最大,伊朗高層團滅,包括哈梅內(nèi)伊

第一天戰(zhàn)況驚人:美以空襲史上最大,伊朗高層團滅,包括哈梅內(nèi)伊

云鵬敘事
2026-03-01 09:41:59
這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關(guān)!

這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關(guān)!

蜉蝣說
2026-01-29 14:46:50
不被任何人拿捏的頂級思維:不要回答別人的問題,要回答別人的目的

不被任何人拿捏的頂級思維:不要回答別人的問題,要回答別人的目的

古代經(jīng)典
2026-02-25 15:40:12
全面開戰(zhàn)!美以對伊朗狂轟濫炸,高層遭斬首、民心盡失

全面開戰(zhàn)!美以對伊朗狂轟濫炸,高層遭斬首、民心盡失

老馬拉車莫少裝
2026-03-01 00:09:55
2026-03-01 12:04:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16340文章數(shù) 514679關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

伊朗伊斯蘭革命衛(wèi)隊總司令身亡

頭條要聞

伊朗伊斯蘭革命衛(wèi)隊總司令身亡

體育要聞

球隊主力全報銷?頂風(fēng)擺爛演都不演了

娛樂要聞

《江山為聘》:吳謹言陳哲遠燃炸朝堂

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

小米汽車2月交付超20000臺 雷軍:為新SU7量產(chǎn)作準備

態(tài)度原創(chuàng)

旅游
親子
藝術(shù)
家居
軍事航空

旅游要聞

春節(jié)假期珠峰景區(qū)游客量創(chuàng)新高

親子要聞

深圳光明以“生態(tài)育人”賦能高質(zhì)量發(fā)展 這所幼兒園提供樣本

藝術(shù)要聞

2025第四屆“精神·圖式”——中國寫意油畫雙年展 | 入選油畫選刊

家居要聞

素色肌理 品意式格調(diào)

軍事要聞

美國以色列聯(lián)合襲擊伊朗 實時戰(zhàn)況

無障礙瀏覽 進入關(guān)懷版