国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

開源屠刀!400美元煉成「代碼副腦」,硅谷天價(jià)模型成廢鐵

0
分享至


新智元報(bào)道

編輯:peter東

【新智元導(dǎo)讀】Claude Code這樣私有的編程智能體雖然能力強(qiáng)大,但有著封閉、昂貴、難以定制的局限。艾倫研究院推出的Open Coding Agents,讓你只需要400美元就能訓(xùn)練一個(gè)32B的專屬編程智能體。

一個(gè)行業(yè)的價(jià)格體系,往往不是被更強(qiáng)的技術(shù)」擊穿,而是被「更便宜的復(fù)制」改寫。

今天,AI2直接把編程智能體的入場(chǎng)費(fèi)從「實(shí)驗(yàn)室級(jí)預(yù)算」砍到「團(tuán)隊(duì)報(bào)銷級(jí)」:公開開源Open Coding Agents,用最低數(shù)百美元的算力成本,就能訓(xùn)練出能跑SWE-Bench Verified、還能貼合私有代碼庫(kù)的專屬編程智能體。

封閉、昂貴、難定制的「巨頭護(hù)城河」,第一次被開源用成本刀鋒切開一道口子。

開源編程智能體適配私人風(fēng)格

過去一年,AI編碼智能體徹底改寫了軟件開發(fā)的游戲規(guī)則——

從代碼生成、調(diào)試到重構(gòu)甚至提交拉取請(qǐng)求,AI正以前所未有的深度介入開發(fā)流程。

然而繁榮背后,一個(gè)殘酷的現(xiàn)實(shí)是:最強(qiáng)大的編碼智能體幾乎都被科技巨頭封閉,訓(xùn)練成本動(dòng)輒百萬美元,更無法適配企業(yè)的私有代碼庫(kù)。


現(xiàn)在有了Allen AI發(fā)布的Open Coding Agents,為任何代碼庫(kù)構(gòu)建自己的編程智能體變得異常容易,你可以使用個(gè)人代碼庫(kù)或所在組織的內(nèi)部代碼庫(kù),輕松訓(xùn)練一個(gè)能夠用于包括代碼生成、代碼審查、調(diào)試、維護(hù)和代碼解釋等任務(wù)的智能體。

用上這套方法,達(dá)到先前最佳開源模型只需約400 美元的計(jì)算成本,而要微調(diào)出一個(gè)與32B最佳行業(yè)模型相當(dāng)性能的編程大模型,成本最高也不過12,000美元,僅需40個(gè)GPU日訓(xùn)練(2塊NVIDIA Hopper或Blackwell GPU)。

這個(gè)價(jià)格比許多傳統(tǒng)方法便宜25倍以上,對(duì)實(shí)驗(yàn)室和小型團(tuán)隊(duì)來說都觸手可及。


圖1:SERA-32B在編程任務(wù)上的表現(xiàn)

在標(biāo)準(zhǔn)編碼基準(zhǔn)測(cè)試SWE-Bench中,SERA-32B交出了一份令人驚艷的成績(jī)單:在64K上下文長(zhǎng)度下,解決率達(dá)到54.2%,超越了所有同規(guī)模開源模型。

推理速度更是驚人,在4×H100上達(dá)到每秒3,700個(gè)token,在Blackwell 4×B200上更是達(dá)到每秒8,600個(gè)token。

但更顛覆認(rèn)知的是在特定代碼庫(kù)上的表現(xiàn)。當(dāng)針對(duì)Django和SymPy等大型開源項(xiàng)目進(jìn)行專業(yè)化訓(xùn)練后,僅用8,000個(gè)樣本、1,300美元成本微調(diào)的SERA-32B,竟然在多項(xiàng)任務(wù)上超越了其老師,擁有1100億參數(shù)的GLM-4.5-Air。

這說明模型規(guī)模并非決定性能的唯一因素,高質(zhì)量、針對(duì)性的訓(xùn)練數(shù)據(jù)可以讓小模型在特定領(lǐng)域表現(xiàn)出色。這為資源有限的研究團(tuán)隊(duì)和企業(yè)提供了新的可能性。他們不再需要追逐千億參數(shù)規(guī)模的模型,而是可以通過有針對(duì)性的訓(xùn)練,讓較小的模型在特定任務(wù)上達(dá)到頂尖水平。

軟驗(yàn)證生成與工作流高保真模擬

SERA的核心突破源于其在合成數(shù)據(jù)生成方法上的根本性創(chuàng)新。傳統(tǒng)方法需要精確驗(yàn)證生成的代碼補(bǔ)丁是否正確,這一過程計(jì)算成本高昂,成為大規(guī)模應(yīng)用的瓶頸。

而SERA引入的軟驗(yàn)證生成(SVG Soft-verified generation)技術(shù),徹底改變了這一范式。

之前的編程智能體訓(xùn)練之所以成本高,是因?yàn)橛?xùn)練數(shù)據(jù)需要包含錯(cuò)誤和修正代碼的代碼示例對(duì),這就意味著需要花費(fèi)很多人力成本來生成并驗(yàn)證訓(xùn)練數(shù)據(jù)集。

AllenAI的研究者發(fā)現(xiàn),訓(xùn)練數(shù)據(jù)不需要完美無缺才能有效。

就像不同的代碼可以實(shí)現(xiàn)相同功能一樣,部分正確的代碼補(bǔ)丁同樣可以訓(xùn)練出強(qiáng)大的編碼智能體。這一發(fā)現(xiàn)解放了數(shù)據(jù)生成過程,使其從昂貴的全驗(yàn)證循環(huán)中解脫出來。

AllenAI團(tuán)隊(duì)通過系統(tǒng)實(shí)驗(yàn)證明,軟驗(yàn)證數(shù)據(jù)與完全驗(yàn)證數(shù)據(jù)在訓(xùn)練效果上具有相似的縮放規(guī)律,但生成成本卻大幅降低。

這意味著研究者可以將資源集中在數(shù)據(jù)量和多樣性上,而非追求每個(gè)樣本的完美正確性。

為了讓訓(xùn)練數(shù)據(jù)多樣化,AllenAI團(tuán)隊(duì)從51種常見錯(cuò)誤模式中系統(tǒng)化生成多樣化的訓(xùn)練數(shù)據(jù),避免數(shù)據(jù)單調(diào)性。對(duì)于代碼庫(kù)中的每個(gè)函數(shù),分別生成多個(gè)不同的 bug 風(fēng)格的提示詞,這樣一個(gè)包含數(shù)千個(gè)函數(shù)的代碼庫(kù)可以以低成本產(chǎn)生數(shù)萬個(gè)多樣化的用于編程智能體的訓(xùn)練數(shù)據(jù)。


圖2:SERA訓(xùn)練過程

在訓(xùn)練時(shí),SERA通過「教師模型」結(jié)合「錯(cuò)誤指令集」,在目標(biāo)代碼庫(kù)上自動(dòng)化生成兩輪數(shù)據(jù):第一輪模擬開發(fā)者引入錯(cuò)誤(Rollout 1),第二輪模擬審查與修復(fù)(Rollout 2)。最關(guān)鍵的是,系統(tǒng)并不驗(yàn)證第二輪生成的補(bǔ)?。≒2)是否絕對(duì)正確,而是通過r = |P2 ∩ P1| / |P1|來衡量新舊補(bǔ)丁的重疊度。只要重疊度超過50%(r ≥ 0.5),修復(fù)補(bǔ)丁即被視為有效。

上述SERA的訓(xùn)練數(shù)據(jù)的生成方式,模擬的是開發(fā)者的工作過程,而不僅僅是代碼結(jié)果。這意味著AI學(xué)習(xí)的是如何發(fā)現(xiàn)問題、分析問題、解決問題的完整思維鏈,而不僅僅是記憶正確的代碼片段。

SERA項(xiàng)目負(fù)責(zé)人表示,「軟驗(yàn)證捕捉的是開發(fā)者的思維過程,而非簡(jiǎn)單的代碼正確性」。這一設(shè)計(jì)實(shí)現(xiàn)了根本性的成本革命。它放棄了追求「完美正確」的樣本,轉(zhuǎn)而捕捉「部分正確但邏輯合理」的開發(fā)者工作流。

這使得從任何私有代碼庫(kù)大規(guī)模、低成本生成高質(zhì)量訓(xùn)練數(shù)據(jù)成為可能,最終產(chǎn)出的軌跡與補(bǔ)丁數(shù)據(jù)可用于高效的監(jiān)督微調(diào),讓中小團(tuán)隊(duì)也能訓(xùn)練出理解自身代碼的專屬編程智能體。

高性能、易部署、兼容Claude Code

此次開源的代碼,包括了從8B到32B的所有規(guī)模模型,以及在SERA上進(jìn)行據(jù)生成、訓(xùn)練參數(shù)、優(yōu)化策略以微調(diào)、測(cè)試和構(gòu)建私有AI編程智能體的全過程,僅需兩行代碼即可啟動(dòng)推理服務(wù)器。

Allen AI還開發(fā)了一個(gè)設(shè)置腳本和推理優(yōu)化,使SERA直接兼容Claude Code。


優(yōu)化后的SERA在消費(fèi)級(jí)硬件就可以運(yùn)行,這對(duì)于想使用AI編程智能體的公司,意味著不必?fù)?dān)心自身數(shù)據(jù)外泄,就可以用一個(gè)和更大參數(shù)模型性能相近,還適配自身編程規(guī)范的本地智能體。這對(duì)于金融,醫(yī)療等關(guān)注數(shù)據(jù)安全的行業(yè)尤為適用。

一個(gè)充分理解特定代碼庫(kù)的小模型,完全可以戰(zhàn)勝通用的巨無霸模型。這對(duì)于企業(yè)來說,意味著定制化的編碼智能體不再是科技巨頭的特權(quán),只需要用1/3的參數(shù)規(guī)模、更少的內(nèi)存、更快的推理速度,就能獲得更好的編程效果。


SERA展示出的小模型+高質(zhì)量數(shù)據(jù)的技術(shù)路徑,減少了對(duì)極端算力資源的依賴,使得在更接近數(shù)據(jù)源的地方進(jìn)行訓(xùn)練和推理成為可能。這將改變AI智能體的發(fā)展方向。

SERA的出現(xiàn),將會(huì)有利于垂直類的編程智能體。企業(yè)現(xiàn)在可以構(gòu)建理解自身代碼基的智能體,而非試圖讓通用模型適應(yīng)自己的特定需求。醫(yī)療、金融、制造等特定行業(yè)的編碼規(guī)范將被快速學(xué)習(xí),催生領(lǐng)域?qū)俚腁I編碼助手。

就像Linux開啟了操作系統(tǒng)的開源時(shí)代,SERA可能開啟編碼智能體的開源時(shí)代。當(dāng)每個(gè)開發(fā)者都能擁有理解自己代碼庫(kù)的AI伙伴時(shí),編碼智能體的平民化時(shí)代將會(huì)到來。最強(qiáng)大的AI工具不應(yīng)被鎖在科技巨頭的服務(wù)器里,而應(yīng)該掌握在每個(gè)創(chuàng)造者手中。

參考資料:

https://allenai.org/blog/open-coding-agents


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
海底撈回應(yīng)“員工因顧客投訴被強(qiáng)制自費(fèi)買禮物”:情況屬實(shí),一定依法對(duì)該伙伴進(jìn)行賠償,已通知一千多家門店進(jìn)行內(nèi)部排查

海底撈回應(yīng)“員工因顧客投訴被強(qiáng)制自費(fèi)買禮物”:情況屬實(shí),一定依法對(duì)該伙伴進(jìn)行賠償,已通知一千多家門店進(jìn)行內(nèi)部排查

大象新聞
2026-04-11 19:45:04
以色列襲擊黎巴嫩被譴責(zé),內(nèi)塔尼亞胡:“以軍是世界上最有道德的軍隊(duì)”;此前以色列對(duì)黎巴嫩發(fā)動(dòng)襲擊,造成包括兒童在內(nèi)數(shù)百名平民死傷

以色列襲擊黎巴嫩被譴責(zé),內(nèi)塔尼亞胡:“以軍是世界上最有道德的軍隊(duì)”;此前以色列對(duì)黎巴嫩發(fā)動(dòng)襲擊,造成包括兒童在內(nèi)數(shù)百名平民死傷

揚(yáng)子晚報(bào)
2026-04-11 11:33:21
賈平凹之女賈淺淺被調(diào)查,連米芾的芾字都不認(rèn)識(shí),引起書法界震怒

賈平凹之女賈淺淺被調(diào)查,連米芾的芾字都不認(rèn)識(shí),引起書法界震怒

潮鹿逐夢(mèng)
2026-04-10 12:43:59
公安部新規(guī)落地!70歲駕照免年審真相,這件事不做駕照直接注銷

公安部新規(guī)落地!70歲駕照免年審真相,這件事不做駕照直接注銷

復(fù)轉(zhuǎn)這些年
2026-04-10 12:01:32
鹵菜店使用“四姐”二字被索賠50萬元,店主:大家都叫我四姐,為什么告我侵權(quán)

鹵菜店使用“四姐”二字被索賠50萬元,店主:大家都叫我四姐,為什么告我侵權(quán)

環(huán)球網(wǎng)資訊
2026-04-11 21:50:22
鄭麗文一聲“毛主席”,打破了國(guó)民黨一個(gè)禁忌

鄭麗文一聲“毛主席”,打破了國(guó)民黨一個(gè)禁忌

月明風(fēng)清1029
2026-04-11 17:27:07
全紅嬋后續(xù):陳芋汐網(wǎng)暴案刑拘三人,對(duì)比差距大,教練組態(tài)度明顯

全紅嬋后續(xù):陳芋汐網(wǎng)暴案刑拘三人,對(duì)比差距大,教練組態(tài)度明顯

眼光很亮
2026-04-11 19:25:54
國(guó)內(nèi)套現(xiàn)7個(gè)億后,她露出了身后的美國(guó)國(guó)旗,整個(gè)家族共套現(xiàn)20億

國(guó)內(nèi)套現(xiàn)7個(gè)億后,她露出了身后的美國(guó)國(guó)旗,整個(gè)家族共套現(xiàn)20億

云舟史策
2026-04-11 07:54:43
血戰(zhàn)臺(tái)兒莊:中國(guó)參戰(zhàn)29萬人、犧牲5萬人,日軍傷亡令人難以置信

血戰(zhàn)臺(tái)兒莊:中國(guó)參戰(zhàn)29萬人、犧牲5萬人,日軍傷亡令人難以置信

冰語歷史
2026-04-11 17:05:58
理想汽車CEO李想朋友圈飆臟話后二次發(fā)聲:怒斥某日系品牌持續(xù)拉踩

理想汽車CEO李想朋友圈飆臟話后二次發(fā)聲:怒斥某日系品牌持續(xù)拉踩

快科技
2026-04-11 18:08:11
各國(guó)不吃的食物:韓國(guó)人不吃香菜,俄羅斯人不吃海參,中國(guó)人呢?

各國(guó)不吃的食物:韓國(guó)人不吃香菜,俄羅斯人不吃海參,中國(guó)人呢?

阿纂看事
2026-04-11 19:24:41
美國(guó)繞月飛船成功降落!宇航員能自己走路,隔熱罩扛住2700℃灼燒

美國(guó)繞月飛船成功降落!宇航員能自己走路,隔熱罩扛住2700℃灼燒

火星一號(hào)
2026-04-11 13:42:49
1980年,66軍炮兵團(tuán)“叛亂”,鄧小平大驚:華國(guó)鋒不宜留在領(lǐng)導(dǎo)層

1980年,66軍炮兵團(tuán)“叛亂”,鄧小平大驚:華國(guó)鋒不宜留在領(lǐng)導(dǎo)層

帝哥說史
2026-04-10 06:30:03
突發(fā)!巴基斯坦被激怒了!

突發(fā)!巴基斯坦被激怒了!

財(cái)經(jīng)要參
2026-04-11 16:00:03
48架F-35壓境,美日撕破臉!王毅專機(jī)直插平壤,中朝抄了美軍后路

48架F-35壓境,美日撕破臉!王毅專機(jī)直插平壤,中朝抄了美軍后路

策略述
2026-04-11 16:41:05
萬茜蹲火了

萬茜蹲火了

動(dòng)物奇奇怪怪
2026-04-11 17:32:32
4月“斷網(wǎng)”風(fēng)暴:“翻墻”時(shí)代迎來終局?

4月“斷網(wǎng)”風(fēng)暴:“翻墻”時(shí)代迎來終局?

虔青
2026-04-11 12:28:42
美國(guó)前情報(bào)局長(zhǎng)爆出俄烏戰(zhàn)場(chǎng)驚人內(nèi)幕,烏軍重新殺回紅軍城

美國(guó)前情報(bào)局長(zhǎng)爆出俄烏戰(zhàn)場(chǎng)驚人內(nèi)幕,烏軍重新殺回紅軍城

史政先鋒
2026-04-11 20:44:50
剛從朝鮮回來,說點(diǎn)不中聽的:朝鮮的真實(shí)面目,可能讓你很意外

剛從朝鮮回來,說點(diǎn)不中聽的:朝鮮的真實(shí)面目,可能讓你很意外

老特有話說
2026-04-11 17:33:51
為何停火只是伊朗下半場(chǎng)苦難的開端?

為何停火只是伊朗下半場(chǎng)苦難的開端?

高博新視野
2026-04-11 08:00:18
2026-04-11 23:19:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14947文章數(shù) 66765關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

霍爾木茲海峽突傳大消息 特朗普最新發(fā)聲

頭條要聞

霍爾木茲海峽突傳大消息 特朗普最新發(fā)聲

體育要聞

換帥之后,他們從降級(jí)區(qū)沖到升級(jí)區(qū)

娛樂要聞

鄭鈞回應(yīng)兒子走路:會(huì)監(jiān)督他挺直腰板

財(cái)經(jīng)要聞

從日本翻身看:這次誰能扛住高油價(jià)?

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬起

態(tài)度原創(chuàng)

房產(chǎn)
手機(jī)
本地
時(shí)尚
公開課

房產(chǎn)要聞

土地供應(yīng)突然暴跌!2026??跇鞘校窬执笞?!

手機(jī)要聞

小屏不妥協(xié)配置反升級(jí)!一加15T手機(jī)深度評(píng)測(cè):小巧玲瓏的滿血性能旗艦

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

普通人穿衣其實(shí)很簡(jiǎn)單!構(gòu)造腰線、一衣多穿,大方舒適又自然

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版