国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

專治大模型不懂行:浙大團(tuán)隊(duì)CatCoder解決AI編程水土不服難題

0
分享至

近日,浙江大學(xué)副教授胡星和團(tuán)隊(duì)開發(fā)出一款名為 CatCoder 的 AI 框架,它能夠讀懂一個(gè)完整的軟件項(xiàng)目,生成準(zhǔn)確、可用的代碼。在 Java 任務(wù)上,它在代碼編譯通過率和測試通過率上,比業(yè)內(nèi)表現(xiàn)突出的代表之一 RepoCoder 最高提升了 14.44% 和 17.35%。

同時(shí),它擁有很強(qiáng)的通用性。該團(tuán)隊(duì)使用不同大小和不同類型的 AI 模型對(duì)其進(jìn)行測試,發(fā)現(xiàn)它能夠提升所有被測模型的性能。


圖 | 胡星(來源:胡星)

胡星告訴 DeepTech:“我們考慮到不同公司或團(tuán)隊(duì)使用的編程語言各異,因此選擇了兩種語言進(jìn)行驗(yàn)證:應(yīng)用廣泛的 Java 和較新但日益重要的 Rust。我們發(fā)現(xiàn),即使對(duì)于 Rust 這種相對(duì)低資源(使用人群和訓(xùn)練數(shù)據(jù)較少)的語言,我們的方法也能生成高質(zhì)量的代碼?!?/p>

此外,尤其是對(duì)于那些比較小的模型,提醒效果更是尤為明顯,能夠幫助小模型彌補(bǔ)和大模型之間的差距。同時(shí),它就好比給 AI 配置了一個(gè)超級(jí)助理,這位助理不僅懂得編程語法,而且熟悉所在項(xiàng)目的所有規(guī)定,比如哪些類可以調(diào)用、該怎么使用函數(shù),這樣一來就能寫出既不會(huì)“迷路”也不會(huì)“犯錯(cuò)”的代碼。

胡星還表示:“我們的方法是可插拔的松耦合設(shè)計(jì),不需要對(duì)大模型本身進(jìn)行訓(xùn)練。這意味著它可以靈活地與任何大模型或程序分析技術(shù)組合,適應(yīng)日新月異的大模型發(fā)展,避免了重復(fù)訓(xùn)練的高成本。

其次,它精準(zhǔn)解決了工業(yè)界的實(shí)際痛點(diǎn)——大模型通常不理解企業(yè)內(nèi)部的私有代碼庫和業(yè)務(wù)邏輯。通過引入本地上下文,我們的方法能讓大模型“讀懂”當(dāng)前代碼庫,生成更高質(zhì)量、更領(lǐng)域相關(guān)的代碼?!?/p>


(來源:https://arxiv.org/pdf/2406.03283)

解決代碼世界的尋路難題

在使用 AI 寫代碼時(shí),此前人們所遇到的難題是:當(dāng)你正在參與開發(fā)一個(gè)大型游戲,代碼分散在成百上千個(gè)文件里。假如你需要添加“計(jì)算一個(gè)角色的跳躍軌跡”的新功能。

對(duì)于此前的 AI,即使經(jīng)過了大量訓(xùn)練可能也只知道物理公式,它并不知道在你這個(gè)特定項(xiàng)目中,“角色”這個(gè)對(duì)象應(yīng)該如何創(chuàng)建、它的坐標(biāo)屬性叫什么名字、或者“跳躍”這個(gè)動(dòng)作應(yīng)該調(diào)用哪個(gè)現(xiàn)成的函數(shù)。

CatCoder 的創(chuàng)新之處在于給 AI 提供了兩件關(guān)鍵工具:第一個(gè)工具是相似代碼雷達(dá),能夠在相似項(xiàng)目里尋找功能或結(jié)構(gòu)相似的代碼作為范例;第二個(gè)工具是類型關(guān)系地圖,它能自動(dòng)分析并告訴 AI,在當(dāng)前的代碼環(huán)境中,有哪些類、接口、函數(shù)和屬性是可以直接使用的。

這就好比你要在一個(gè)巨大的圖書館里找資料,CatCoder 不僅可以幫你找到基本主題類似的書籍也就是相關(guān)的代碼,還可以直接給你一張圖書館的樓層索引和書籍關(guān)聯(lián)圖也就是類型上下文,從而讓你生成的代碼更加準(zhǔn)確和專業(yè)。


(來源:https://arxiv.org/pdf/2406.03283)

助力我國發(fā)展底層基礎(chǔ)軟件和工業(yè)軟件

在使用 CatCoder 的時(shí)候,主要分為三大步。

第一步是搜集線索也就是檢索相關(guān)代碼。CatCoder 首先會(huì)把整個(gè)項(xiàng)目所有的源代碼文件智能地切割成小塊。然后,它會(huì)根據(jù)你需要實(shí)現(xiàn)的功能描述,啟動(dòng)兩種搜索引擎。第一種是關(guān)鍵詞搜索,就像傳統(tǒng)搜索引擎一樣,可以匹配函數(shù)名和變量名等關(guān)鍵詞。第二種是語義搜索,其能理解代碼的含義,找到功能上相似的片段。然后,CatCoder 會(huì)把兩種搜索結(jié)果綜合起來,最初最相關(guān)的幾個(gè)代碼片段作為參考范例。

第二步是繪制地圖也就是提取類型上下文。這是 CatCoder 的獨(dú)門絕技。對(duì)于像 Java、Rust 這類靜態(tài)類型語言,CatCoder 會(huì)啟動(dòng)一個(gè)靜態(tài)分析器。這個(gè)分析器可以繪制出項(xiàng)目中所有類和接口之間的依賴關(guān)系圖。比如,假如你的新函數(shù)屬于“角色”類,那么分析器就能找出“角色”類能夠調(diào)用的所有方法,以及它關(guān)聯(lián)的其他類,并把它們的使用說明書整理出來。這張“地圖”的存在確保 AI 不會(huì)調(diào)用一個(gè)不存在的函數(shù)。

第三步是生成代碼。CatCoder 會(huì)將前兩步搜集到的參考范例和類型地圖打包,連帶你的任務(wù)描述一起形成一個(gè)超級(jí)詳細(xì)的提示,提交給背后的 AI 模型。AI 在這樣充分的上下文提示下,就能像一位熟悉項(xiàng)目的開發(fā)者一樣,生出既符合語法、又能完美融入現(xiàn)有項(xiàng)目、甚至能夠通過測試的代碼。


(來源:https://arxiv.org/pdf/2406.03283)

胡星總結(jié)稱:“由于我們的研究覆蓋了 Rust,而 Rust 多用于開發(fā)系統(tǒng)軟件,這對(duì)于我國發(fā)展底層基礎(chǔ)軟件和工業(yè)軟件具有積極意義,能幫助更快地生成高質(zhì)量的代碼?!?/p>


圖 | CatCoder logo(來源:胡星)

基于此成果,她有兩個(gè)后續(xù)計(jì)劃:一是進(jìn)一步探索“低資源”編程語言的代碼生成,即針對(duì)那些大模型訓(xùn)練數(shù)據(jù)覆蓋不足的語言(如 Ruby、Julia),提升其代碼生成質(zhì)量;二是研究“大小模型協(xié)同”的代碼生成,讓強(qiáng)大但昂貴的大模型指導(dǎo)輕量級(jí)小模型,使后者能在計(jì)算資源有限的實(shí)驗(yàn)室或中小企業(yè)中部署,提供優(yōu)質(zhì)的代碼生成服務(wù)。

參考資料:

相關(guān)論文 https://arxiv.org/pdf/2406.03283

運(yùn)營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊能靜真人又矮又胖,臀部好寬大

伊能靜真人又矮又胖,臀部好寬大

TVB的四小花
2026-01-07 01:18:53
你在閑魚都買過什么特別的東西?網(wǎng)友:原來這才是咸魚的意義

你在閑魚都買過什么特別的東西?網(wǎng)友:原來這才是咸魚的意義

夜深愛雜談
2026-01-07 22:00:31
周恩來的母親萬冬兒有多美?才華橫溢眉目如畫,30歲因肺結(jié)核去世

周恩來的母親萬冬兒有多美?才華橫溢眉目如畫,30歲因肺結(jié)核去世

芊芊子吟
2026-01-06 13:50:03
把玄戒O1念成“玄戒零一”,雷軍認(rèn)錯(cuò):確實(shí)是講錯(cuò)了

把玄戒O1念成“玄戒零一”,雷軍認(rèn)錯(cuò):確實(shí)是講錯(cuò)了

三言科技
2026-01-07 22:40:05
王力宏大概是全網(wǎng)最沒有物質(zhì)欲的明星,他是真的毫無偶像包袱

王力宏大概是全網(wǎng)最沒有物質(zhì)欲的明星,他是真的毫無偶像包袱

情感大頭說說
2026-01-06 11:18:22
鄭麗文口氣真大!大陸不安排見高層就不來?國臺(tái)辦回應(yīng)很明確!

鄭麗文口氣真大!大陸不安排見高層就不來?國臺(tái)辦回應(yīng)很明確!

悅心知足
2026-01-08 03:03:00
瘋了?利物浦 8700 萬砸曼聯(lián)舊將!薩拉赫接班人竟是這爭議王

瘋了?利物浦 8700 萬砸曼聯(lián)舊將!薩拉赫接班人竟是這爭議王

瀾歸序
2026-01-08 06:53:53
痛心!湖南14歲男孩意外離世三名少年同遭不幸,母親泣訴前夫失職

痛心!湖南14歲男孩意外離世三名少年同遭不幸,母親泣訴前夫失職

行者聊官
2026-01-08 09:03:47
中國放出可能扣留售臺(tái)武器的信號(hào),美國回應(yīng)來了,還是“雙簧”

中國放出可能扣留售臺(tái)武器的信號(hào),美國回應(yīng)來了,還是“雙簧”

安安說
2026-01-06 14:46:44
跨年僅3天,具俊曄撕破汪小菲面子,馬筱梅悲慘出局!

跨年僅3天,具俊曄撕破汪小菲面子,馬筱梅悲慘出局!

瓜汁橘長Dr
2026-01-07 17:20:23
我國存款最安全的3大銀行,永遠(yuǎn)都不會(huì)倒閉,你知道是哪3家嗎?

我國存款最安全的3大銀行,永遠(yuǎn)都不會(huì)倒閉,你知道是哪3家嗎?

小熊侃史
2026-01-07 11:17:59
深圳信息職業(yè)技術(shù)大學(xué)正式成立

深圳信息職業(yè)技術(shù)大學(xué)正式成立

南方都市報(bào)
2026-01-08 13:01:48
海信發(fā)布136英寸巨型MicroLED電視:2488萬顆LED燈 亮度可達(dá)10000尼特

海信發(fā)布136英寸巨型MicroLED電視:2488萬顆LED燈 亮度可達(dá)10000尼特

快科技
2026-01-06 10:10:07
直懟老馬丁,里奇-保羅:說塔圖姆回歸會(huì)傷害綠軍的都瘋了

直懟老馬丁,里奇-保羅:說塔圖姆回歸會(huì)傷害綠軍的都瘋了

懂球帝
2026-01-08 16:10:10
庫里砍31分6板7助,成為歷史上30+得分場次最多的控球后衛(wèi)

庫里砍31分6板7助,成為歷史上30+得分場次最多的控球后衛(wèi)

懂球帝
2026-01-08 14:39:02
國務(wù)院最新任命!成立2年多的國家局,領(lǐng)導(dǎo)班子有調(diào)整

國務(wù)院最新任命!成立2年多的國家局,領(lǐng)導(dǎo)班子有調(diào)整

上觀新聞
2026-01-08 12:40:13
向太曝馬伊琍已再婚:當(dāng)年文章過不了心理那關(guān)

向太曝馬伊琍已再婚:當(dāng)年文章過不了心理那關(guān)

娛樂看阿敞
2025-12-12 15:50:00
離岸人民幣兌美元跌127.0個(gè)基點(diǎn),報(bào)6.9935

離岸人民幣兌美元跌127.0個(gè)基點(diǎn),報(bào)6.9935

每日經(jīng)濟(jì)新聞
2026-01-08 06:16:03
“慰安婦”韋紹蘭:忍辱生下日本兵后代,兒子:母親去世就喝農(nóng)藥

“慰安婦”韋紹蘭:忍辱生下日本兵后代,兒子:母親去世就喝農(nóng)藥

何氽簡史
2025-12-31 18:45:15
拆解三峽集團(tuán) 2026 校招名單:這屆畢業(yè)生想進(jìn)國企,得卷到什么程度?

拆解三峽集團(tuán) 2026 校招名單:這屆畢業(yè)生想進(jìn)國企,得卷到什么程度?

老滿說高考
2026-01-07 20:56:46
2026-01-08 16:32:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16094文章數(shù) 514462關(guān)注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

中方被指正考慮進(jìn)一步收緊中重稀土出口 日本業(yè)界慌了

頭條要聞

中方被指正考慮進(jìn)一步收緊中重稀土出口 日本業(yè)界慌了

體育要聞

約基奇倒下后,一位故人邪魅一笑

娛樂要聞

2026春節(jié)檔將有六部電影強(qiáng)勢上映

財(cái)經(jīng)要聞

微軟CTO韋青:未來人類會(huì)花錢"戒手機(jī)"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

藝術(shù)
時(shí)尚
本地
公開課
軍事航空

藝術(shù)要聞

頤和園金光穿洞

藍(lán)色+灰色、紅色+棕色,這4組配色怎么搭都好看!

本地新聞

1986-2026,一通電話的時(shí)空旅程

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普提出將美國軍費(fèi)提升至1.5萬億美元

無障礙瀏覽 進(jìn)入關(guān)懷版