国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

100行代碼打造迷你編程Agent:修復(fù)65%真項(xiàng)目bug,適配所有大模型

0
分享至

只用100行代碼,打造最強(qiáng)輕量編程agent。

SWE-bench、SWE-agent原班人馬再出手,推出全新開源項(xiàng)目——

mini-SWE-agent



不依賴任何額外插件,僅通過基礎(chǔ)命令即可運(yùn)行。而且對(duì)模型沒有限制,幾乎兼容所有主流語言模型,支持直接在本地終端中部署和使用。

而在如此精簡(jiǎn)的架構(gòu)下,僅憑100行核心代碼輕松解決SWE-bench上65%的問題。

這個(gè)65%是啥水平呢?

也就和原版差不多吧~(關(guān)鍵人家還輕量啊)



網(wǎng)友:厲害



百行代碼,實(shí)力不打折

SWE-agent是一個(gè)開源項(xiàng)目(16.8k GitHub Star),它的目標(biāo)是讓agent自動(dòng)修復(fù)GitHub上真實(shí)項(xiàng)目中的代碼Bug



不過,原版的SWE-agent基于LangChain構(gòu)建,從接受issue、理解問題、編輯代碼、到提交PR,涉及多工具、多輪對(duì)話管理,任務(wù)流程繁瑣。

除此之外,開發(fā)者要跑通還需要安裝多個(gè)依賴,精調(diào)工具調(diào)用邏輯,而且項(xiàng)目代碼動(dòng)輒上千行,對(duì)模型、環(huán)境的耦合也比較強(qiáng)。

而隨著語言模型性能越來越強(qiáng)大,構(gòu)建一個(gè)有用的代理已經(jīng)不再需要這些工具和接口了。

由此,團(tuán)隊(duì)開始思考:能否讓SWE-agent小100倍,并保持原有的性能。

mini-SWE-agent由此而來。



那么,相較于SWE-agent,mini-SWE-agent有什么不同呢?

極簡(jiǎn)代碼和依賴:mini-SWE-agent本身僅約100行Python代碼,加上環(huán)境、模型、腳本才共約200行,沒有復(fù)雜的依賴關(guān)系。

取消工具調(diào)用接口:mini版本不集成專用的代碼編輯、搜索等工具;它只使用操作系統(tǒng)的Bash環(huán)境執(zhí)行命令。每一步由語言模型輸出一個(gè)完整的shell命令,不通過獨(dú)立的“tool call”協(xié)議,從而可兼容任何語言模型。

線性歷史記錄:agent的每一步都只是附加到消息中。

獨(dú)立單步執(zhí)行:每條命令通過Python獨(dú)立執(zhí)行,并非保持一個(gè)持續(xù)的shell會(huì)話,這使得在沙盒中執(zhí)行操作變得非常簡(jiǎn)單,并且可以輕松擴(kuò)展。

簡(jiǎn)化配置與接口:取消了SWE-agent依賴的復(fù)雜YAML配置;mini-swe-agent采用代碼內(nèi)置模板,并提供直觀的命令行工具。用戶可以通過mini命令快速啟動(dòng)代理,或使用mini-v啟動(dòng)可視化界面。



多樣的運(yùn)行環(huán)境支持:除了本地Shell,mini-swe-agent還內(nèi)置支持多種容器與虛擬化環(huán)境(如Docker、Podman、Singularity、Apptainer等),這意味著開發(fā)者可以在不同平臺(tái)和容器中輕松部署,而無需額外修改代碼。

保留高性能和工具:雖然架構(gòu)極簡(jiǎn),mini-swe-agent在SWE-bench驗(yàn)證集上仍能解決約65%的問題。同時(shí),它附帶批量推理(batchinference)、軌跡瀏覽器(trajectorybrowser)等工具,幫助用戶進(jìn)行大規(guī)模評(píng)測(cè)和決策分析。代理還提供可視化界面,方便開發(fā)者交互式地觀察執(zhí)行過程



此外,對(duì)于應(yīng)在何種場(chǎng)景下使用 SWE-agent 或 mini-SWE-agent,團(tuán)隊(duì)也根據(jù)不同的需求給出了建議:

mini-swe-agent更適合希望快速本地運(yùn)行、追求簡(jiǎn)潔控制流和更穩(wěn)定評(píng)估環(huán)境的用戶。它非常輕量,適合用于微調(diào)(FT)或強(qiáng)化學(xué)習(xí)(RL)等實(shí)驗(yàn),不容易陷入對(duì)復(fù)雜框架的過擬合。

如果你需要高度可配置的工具鏈、更復(fù)雜的歷史狀態(tài)管理,或希望通過修改YAML文件自由切換組件而無需動(dòng)代碼,那么功能更豐富的SWE-agent會(huì)是更合適的選擇。

總體而言,mini-swe-agent體現(xiàn)了可讀、方便、易擴(kuò)展的開發(fā)理念。

對(duì)于日常開發(fā)者而言,它既可以作為簡(jiǎn)單的命令行工具使用。如在本地終端快速解決問題),也可以作為庫被集成到其他Python應(yīng)用中。

相比于重型框架,它降低了上手成本,讓開發(fā)者可以像使用腳本一樣靈活地“駕馭”智能代理。

One more thing

SWE-bench和SWE-agent是由John Yang、Carlos E. Jimenez、Alexander Wettig、Kilian Lieret、姚順雨(OpenAI研究員,2015年畢業(yè)清華姚班)、Karthik Narasimhan和Ofir Press于2024年在普林斯頓大學(xué)發(fā)起的開源項(xiàng)目。

該項(xiàng)目推動(dòng)了基于大型語言模型的軟件工程代理(Software Engineering Agent)研究。

其中,SWE-bench一經(jīng)發(fā)布后,就成為了評(píng)估大語言模型編程的經(jīng)典benchmark,伴隨SWE-agent一同提出的Agent?Computer-Interface(ACI)則進(jìn)一步定義了“智能體如何與計(jì)算機(jī)交互”的標(biāo)準(zhǔn)接口方式。

而這一杰出的想法最初僅僅來自一次20多分鐘的討論。

在Matthew Berman的播客節(jié)目上,Carlos E. Jimenez分享道:SWE-bench最初的想法源自他和John Yang在閑逛時(shí)的一次頭腦風(fēng)暴:



他們意識(shí)到,GitHub不只是一個(gè)存儲(chǔ)代碼的地方,更是一個(gè)活躍的協(xié)作開發(fā)平臺(tái),充滿了真實(shí)的軟件工程過程:用戶報(bào)告bug,開發(fā)者提交修復(fù),社區(qū)公開審核和合入。

相比傳統(tǒng)的編程競(jìng)賽,這些交互和修改才是真正代表“現(xiàn)實(shí)世界編程”的任務(wù)。于是他們?cè)O(shè)想,能否把這種開源協(xié)作的過程結(jié)構(gòu)化下來,變成一種評(píng)估語言模型能力的標(biāo)準(zhǔn)流程?

這便催生了SWE-bench,一個(gè)基于GitHub上真實(shí)Issue與PullRequest構(gòu)建的benchmark,用來測(cè)試LLM是否能像人類開發(fā)者一樣,理解bug報(bào)告并修復(fù)代碼。

這個(gè)系統(tǒng)不僅更接近現(xiàn)實(shí),也讓模型的“開發(fā)能力”變得可觀察、可比較,而SWE-agent則是他們?yōu)檫@一評(píng)估任務(wù)設(shè)計(jì)的開源agent,目標(biāo)就是成為能在SWE-bench上“修最多bug”的AI程序員。

項(xiàng)目主頁:
[1]https://github.com/SWE-agent/mini-swe-agent
[2]https://github.com/SWE-agent/mini-swe-agent?tab=readme-ov-file

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
我國一小縣城水塘被抽干后,發(fā)現(xiàn)世界第九大奇跡!專家無法解釋?

我國一小縣城水塘被抽干后,發(fā)現(xiàn)世界第九大奇跡!專家無法解釋?

墨蘭史書
2025-12-14 06:10:03
國資委大消息!這些板塊迎重大利好,下周“這類股”有望騰飛大漲

國資委大消息!這些板塊迎重大利好,下周“這類股”有望騰飛大漲

虎哥閑聊
2025-12-20 08:13:29
詩妮娜貴妃成功復(fù)寵!得到提幫功的撫養(yǎng)權(quán),手握兩位王子好得意

詩妮娜貴妃成功復(fù)寵!得到提幫功的撫養(yǎng)權(quán),手握兩位王子好得意

紅袖說事
2025-12-20 14:17:48
停播7年,那個(gè)挽救無數(shù)司機(jī)的“網(wǎng)紅交警”譚喬,卻挽救不了自己

停播7年,那個(gè)挽救無數(shù)司機(jī)的“網(wǎng)紅交警”譚喬,卻挽救不了自己

以茶帶書
2025-12-18 17:14:01
牽出《雙馬圖》!同批偽作230萬成交,徐湖平簽字再添疑點(diǎn)

牽出《雙馬圖》!同批偽作230萬成交,徐湖平簽字再添疑點(diǎn)

犟種美食
2025-12-20 13:30:07
普京嘲諷呂特:美國都說不和我們?yōu)閿,你說準(zhǔn)備開戰(zhàn)是什么意思?

普京嘲諷呂特:美國都說不和我們?yōu)閿常阏f準(zhǔn)備開戰(zhàn)是什么意思?

小濤叨叨
2025-12-20 15:27:40
性能力與壽命關(guān)系被發(fā)現(xiàn)!男性40歲后,睪酮越高,死亡風(fēng)險(xiǎn)越低

性能力與壽命關(guān)系被發(fā)現(xiàn)!男性40歲后,睪酮越高,死亡風(fēng)險(xiǎn)越低

藥師說健康
2025-12-05 09:47:10
隨著中國香港0-2日本,東亞錦標(biāo)賽最新積分榜出爐:中國男足墊底

隨著中國香港0-2日本,東亞錦標(biāo)賽最新積分榜出爐:中國男足墊底

側(cè)身凌空斬
2025-12-20 11:53:42
底層無貴人,社交無意義

底層無貴人,社交無意義

詩詞中國
2025-12-19 20:34:22
宇樹登臺(tái)王力宏演唱會(huì)獲馬斯克點(diǎn)贊,王興興:“機(jī)器人時(shí)刻還差一個(gè)臨界點(diǎn)”

宇樹登臺(tái)王力宏演唱會(huì)獲馬斯克點(diǎn)贊,王興興:“機(jī)器人時(shí)刻還差一個(gè)臨界點(diǎn)”

第一財(cái)經(jīng)資訊
2025-12-20 13:53:16
“阿詩瑪”楊麗坤:精神失常后生下兩個(gè)兒子,丈夫用一生懷念她

“阿詩瑪”楊麗坤:精神失常后生下兩個(gè)兒子,丈夫用一生懷念她

小熊侃史
2025-12-19 11:04:19
托卡耶夫訪問日本,犯了大忌:中日紛爭(zhēng)之際,他參拜了明治神宮!

托卡耶夫訪問日本,犯了大忌:中日紛爭(zhēng)之際,他參拜了明治神宮!

趙釔是個(gè)熱血青年
2025-12-20 14:58:05
史上最搶手皇后,6位帝王輪番霸占60年不停歇,48歲還被人爭(zhēng)著要

史上最搶手皇后,6位帝王輪番霸占60年不停歇,48歲還被人爭(zhēng)著要

小豫講故事
2025-12-08 06:00:07
石破茂卸任后直言:中日若開戰(zhàn),日本百分之百會(huì)亡國

石破茂卸任后直言:中日若開戰(zhàn),日本百分之百會(huì)亡國

丹徒生
2025-11-12 05:53:54
婚禮變?cè)岫Y,浩氣永長(zhǎng)存——香港全城送別殉職消防員何偉豪

婚禮變?cè)岫Y,浩氣永長(zhǎng)存——香港全城送別殉職消防員何偉豪

行者聊官
2025-12-20 10:19:19
僅26歲帥哥睡夢(mèng)中離世,開奔馳家境好,媽媽含淚:8點(diǎn)發(fā)現(xiàn)人沒了

僅26歲帥哥睡夢(mèng)中離世,開奔馳家境好,媽媽含淚:8點(diǎn)發(fā)現(xiàn)人沒了

鋭娛之樂
2025-12-19 08:16:38
佩通坦訪問柬埔寨時(shí),在洪森家中舉行晚宴后留下的照片。

佩通坦訪問柬埔寨時(shí),在洪森家中舉行晚宴后留下的照片。

南權(quán)先生
2025-12-13 16:50:24
王小騫崩潰大哭!11歲女兒患上“正食癥”,心率高達(dá)120心肌損傷

王小騫崩潰大哭!11歲女兒患上“正食癥”,心率高達(dá)120心肌損傷

振華觀史
2025-12-20 10:26:23
勇士追墨菲外還補(bǔ)強(qiáng)內(nèi)線?名記透露3中鋒成意中人 勇媒批判拉科布

勇士追墨菲外還補(bǔ)強(qiáng)內(nèi)線?名記透露3中鋒成意中人 勇媒批判拉科布

顏小白的籃球夢(mèng)
2025-12-20 14:45:43
近30年評(píng)分最高的10部電視劇,《漫長(zhǎng)的季節(jié)》第6,第1實(shí)至名歸

近30年評(píng)分最高的10部電視劇,《漫長(zhǎng)的季節(jié)》第6,第1實(shí)至名歸

皮皮電影
2025-12-19 10:47:48
2025-12-20 16:43:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11884文章數(shù) 176340關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

歐盟動(dòng)用俄資產(chǎn)方案未通過 美媒:馮德萊恩的重大挫敗

頭條要聞

歐盟動(dòng)用俄資產(chǎn)方案未通過 美媒:馮德萊恩的重大挫敗

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

戚薇女兒大變樣,10歲就進(jìn)入“尷尬期”

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測(cè)試 已完成11萬公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

親子
教育
房產(chǎn)
數(shù)碼
公開課

親子要聞

果然是小孩才懂小孩,這兩個(gè)在一起玩的時(shí)候笑得特別開心

教育要聞

小升初易錯(cuò)題,1發(fā)命中目標(biāo)概率是60%,3發(fā)呢?

房產(chǎn)要聞

廣州有態(tài)度,一座國際化社區(qū)給出的城市答案

數(shù)碼要聞

QCY N20耳機(jī)開啟新品預(yù)約,129元享大動(dòng)圈與50dB降噪

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版