国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AP2O-Coder 讓大模型擁有「錯(cuò)題本」,像人類一樣按題型高效刷題

0
分享至



作者:上交博士,在騰訊codebuddy 實(shí)習(xí),發(fā)表一作頂會(huì)頂刊論文10篇(含best paper 等),開源PFLlib等明星項(xiàng)目,獲得社區(qū)贊譽(yù)。主要研究AI強(qiáng)化學(xué)習(xí)、AI合成數(shù)據(jù)、Agent 記憶等。

在 AI 輔助 Coding 技術(shù)快速發(fā)展的背景下,大語(yǔ)言模型(LLMs)雖顯著提升了軟件開發(fā)效率,但開源的 LLMs 生成的代碼依舊存在運(yùn)行時(shí)錯(cuò)誤,增加了開發(fā)者調(diào)試成本。

現(xiàn)有基于偏好優(yōu)化的改進(jìn)方法,多依賴「通過 / 失敗」二元信號(hào)構(gòu)建訓(xùn)練數(shù)據(jù),難以知曉「錯(cuò)在哪」,也忽視了模型能力在訓(xùn)練時(shí)的動(dòng)態(tài)變化特性。

針對(duì)此缺口,在騰訊 CodeBuddy 實(shí)習(xí)期間,我們提出自適應(yīng)漸進(jìn)式偏好優(yōu)化方法(AP2O),并構(gòu)建 AP2O-Coder 框架。該方法借鑒人類的「按題型高效刷題」經(jīng)驗(yàn)出發(fā),通過「考試 - 分析 - 糾錯(cuò) - 小測(cè)」的系統(tǒng)性流程提升模型代碼糾錯(cuò)能力,在多款主流開源模型上實(shí)現(xiàn)最高 3% 的 pass@k 性能提升,同時(shí)降低訓(xùn)練數(shù)據(jù)需求量。



  • 論文標(biāo)題:AP2O-Coder: Adaptively Progressive Preference Optimization for Reducing Compilation and Runtime Errors in LLM-Generated Code
  • 論文鏈接:https://arxiv.org/pdf/2510.02393
  • 開源代碼:https://github.com/TsingZ0/AP2O

一、現(xiàn)有方法的核心挑戰(zhàn)

與 AP2O-Coder 的針對(duì)性設(shè)計(jì)

當(dāng)前離線偏好優(yōu)化方法(如 DPO 等)在 LLM 代碼糾錯(cuò)任務(wù)中面臨三大核心挑戰(zhàn):

  • 錯(cuò)誤類型感知缺失:僅依賴單元測(cè)試的二元反饋信號(hào),無(wú)法知曉類型錯(cuò)誤(如 KeyError、ValueError 等),導(dǎo)致模型難以定位錯(cuò)誤原因;
  • 訓(xùn)練聚焦性不足:訓(xùn)練數(shù)據(jù)采用隨機(jī)打亂的方式批量輸入,模型需在多種錯(cuò)誤類型間頻繁切換適應(yīng),糾錯(cuò)學(xué)習(xí)的針對(duì)性不強(qiáng);
  • 動(dòng)態(tài)適配能力薄弱:靜態(tài)構(gòu)建的訓(xùn)練集無(wú)法匹配模型訓(xùn)練過程中不斷變化的能力短板,易引發(fā)災(zāi)難性遺忘或訓(xùn)練資源浪費(fèi)。

為應(yīng)對(duì)上述挑戰(zhàn),AP2O-Coder 借鑒人類按題型進(jìn)行的「錯(cuò)題整理 - 專題突破 - 定期復(fù)盤」的學(xué)習(xí)模式,構(gòu)建了包含四大核心模塊的優(yōu)化框架,旨在實(shí)現(xiàn)錯(cuò)誤信息的深度利用與模型能力的動(dòng)態(tài)適配。

二、AP2O-Coder 的

核心技術(shù)框架與工作機(jī)制

AP2O-Coder 的核心設(shè)計(jì)思路是通過系統(tǒng)化流程實(shí)現(xiàn)錯(cuò)誤類型的精準(zhǔn)捕捉、漸進(jìn)式優(yōu)化與動(dòng)態(tài)適配,其整體框架包含四個(gè)關(guān)鍵步驟(如圖 1 所示):



圖 1:AP2O-Coder 框架流程圖

代碼生成評(píng)估(Exam)

為全面掌握目標(biāo)模型的初始能力邊界,該模塊讓 LLM 在 M 個(gè)編程任務(wù)上生成 N 個(gè)候選答案(采用溫度系數(shù) 1.0 的設(shè)置以充分探索能力范圍),通過配套的單元測(cè)試獲取每個(gè)答案的「通過 / 失敗」標(biāo)簽,形成初始訓(xùn)練數(shù)據(jù)集,為后續(xù)錯(cuò)誤分析提供基礎(chǔ)。

錯(cuò)誤診斷分析(Analysis)

借助編程語(yǔ)言專用分析工具(如 Python 解釋器)對(duì)所有失敗答案進(jìn)行結(jié)構(gòu)化解析,標(biāo)注具體錯(cuò)誤類型并統(tǒng)計(jì)各類錯(cuò)誤的出現(xiàn)頻率,按錯(cuò)誤題型構(gòu)建結(jié)構(gòu)化的「錯(cuò)題本」。該過程實(shí)現(xiàn)了從二元反饋到精細(xì)化錯(cuò)誤信息的轉(zhuǎn)化,為針對(duì)性優(yōu)化提供數(shù)據(jù)支撐。

漸進(jìn)式偏好優(yōu)化(Correction)



自適應(yīng)錯(cuò)誤回放(Quiz)

為適配模型訓(xùn)練過程中的能力變化,該模塊定期在一個(gè)小驗(yàn)證集上評(píng)估模型性能,實(shí)時(shí)捕捉當(dāng)前階段的高頻錯(cuò)誤類型,找出模型依舊犯錯(cuò)的題型,將其對(duì)應(yīng)的失敗答案重新納入訓(xùn)練流程。通過動(dòng)態(tài)調(diào)整訓(xùn)練數(shù)據(jù)分布,確保模型始終聚焦于當(dāng)前的能力短板,有效緩解災(zāi)難性遺忘問題。

三、實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

研究團(tuán)隊(duì)在 6 款主流 LLM(含代碼專用模型 CodeLlama、DeepSeek-Coder、Qwen2.5-Coder 與通用模型 Llama3、Qwen2.5、Qwen3)上開展了系統(tǒng)驗(yàn)證,參數(shù)規(guī)模覆蓋 0.5B - 34B,實(shí)驗(yàn)基準(zhǔn)包括 EvalPlus(HumanEval/MBPP)與 LiveCodeBench v6,主要取得以下研究發(fā)現(xiàn):

性能提升的有效性

在不同類型與參數(shù)規(guī)模的模型上,AP2O-Coder 均展現(xiàn)出穩(wěn)定的性能改進(jìn)。如下表所示,在 EvalPlus(HumanEval)基準(zhǔn)上,AP2O-Coder (H2L) 即使對(duì)于 30B+ 的大參數(shù)模型,也能實(shí)現(xiàn) 2.8% - 3.4% 的性能優(yōu)化,且未出現(xiàn)現(xiàn)有后訓(xùn)練方法中性能退化現(xiàn)象。



表 1:各種類型和規(guī)模代碼的 LLM 在 Pass@1 on EvalPlus (HumanEval) 上的表現(xiàn)。

錯(cuò)誤抑制效果與泛化能力



圖 2:使用 Qwen2.5-Coder-7B 在測(cè)試基準(zhǔn)上出現(xiàn)錯(cuò)誤的統(tǒng)計(jì)數(shù)據(jù)。



圖 3:使用 Qwen2.5-Coder-7B 在測(cè)驗(yàn)階段對(duì)驗(yàn)證集上的錯(cuò)誤統(tǒng)計(jì)結(jié)果。我們的 AP2O-Coder 能夠逐步減少錯(cuò)誤。

如圖 2 所示,相較于 SFT、DPO 等基線方法,AP2O-Coder 能夠有效降低各類錯(cuò)誤的發(fā)生頻率,且未引入新的錯(cuò)誤類型。如圖 3,在 Qwen2.5-Coder-7B 的實(shí)驗(yàn)中,高頻錯(cuò)誤「WrongResult」的發(fā)生率顯著下降,IndexError 等小眾錯(cuò)誤在訓(xùn)練后期實(shí)現(xiàn)清零。同時(shí),該方法在 pass@5、pass@10 等指標(biāo)上的穩(wěn)定提升(如圖 4),表明其增強(qiáng)了模型代碼生成的泛化能力。



圖 4:在不同模型規(guī)模下,使用 DeepSeek-Coder 在 EvalPlus (HumanEval) 基準(zhǔn)上的 pass@5 和 pass@10 表現(xiàn)。

樣本效率的優(yōu)化



圖 5:用于在 MBPP 訓(xùn)練集上對(duì)不同規(guī)模的 Qwen2.5-Coder 進(jìn)行訓(xùn)練并達(dá)到最優(yōu)性能的偏好數(shù)據(jù)對(duì)需求。

AP2O-Coder 通過錯(cuò)誤類型的精準(zhǔn)聚焦,顯著提升了訓(xùn)練數(shù)據(jù)的利用效率。實(shí)驗(yàn)結(jié)果顯示,該方法僅需 4% - 60% 的偏好數(shù)據(jù)即可達(dá)到傳統(tǒng) DPO 方法的最優(yōu)性能,在 32B 參數(shù)規(guī)模的模型上,數(shù)據(jù)需求量減少更為明顯(如圖 5),這就和班上刷題時(shí),優(yōu)等生所需刷題量更少類似,為低資源場(chǎng)景下的 LLM 代碼優(yōu)化提供了可行路徑。

通用 LLM 適配性



圖 6:在將通用 LLM(如 Qwen2.5、Qwen3 和 Llama3)適配到代碼領(lǐng)域時(shí),其在 EvalPlus (MBPP) 上的 pass@1 表現(xiàn)。

AP2O-Coder 不僅適用于代碼專用 LLM,也能有效支持通用 LLM 向代碼領(lǐng)域的適配。在 Qwen3、Llama3 等通用模型的實(shí)驗(yàn)中,經(jīng)過該方法優(yōu)化后,模型在 MBPP 基準(zhǔn)上的 pass@1 分?jǐn)?shù)顯著提升,驗(yàn)證了其跨模型類型的適配能力(如圖 6)。

四、研究發(fā)現(xiàn)與方法特性

實(shí)驗(yàn)過程中,團(tuán)隊(duì)發(fā)現(xiàn)了優(yōu)化策略與模型規(guī)模的適配規(guī)律:

對(duì)于Qwen2.5-Coder,小參數(shù)模型(≤ 3B)采用「低頻錯(cuò)誤 -> 高頻錯(cuò)誤」的優(yōu)化順序更具優(yōu)勢(shì),這一策略可避免模型因能力有限而陷入高頻常見錯(cuò)誤的學(xué)習(xí)困境,而讓小模型一開始能看到不同種類的錯(cuò)誤,跳出局部最優(yōu);

大參數(shù)模型(≥ 7B)采用「高頻錯(cuò)誤 -> 低頻錯(cuò)誤」的順序效果更優(yōu),能夠充分發(fā)揮其強(qiáng)學(xué)習(xí)能力,快速實(shí)現(xiàn)整體錯(cuò)誤率的下降。這一發(fā)現(xiàn)為不同規(guī)模 LLM 的代碼優(yōu)化提供了針對(duì)性參考。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
面多加水,水多加面?外媒痛批:電車3噸重,填鴨式造車不可取!

面多加水,水多加面?外媒痛批:電車3噸重,填鴨式造車不可??!

少數(shù)派報(bào)告Report
2026-04-17 07:03:05
俞強(qiáng)聲叛逃美國(guó)始末:一場(chǎng)美人計(jì),讓諜王37年潛伏功虧一簣

俞強(qiáng)聲叛逃美國(guó)始末:一場(chǎng)美人計(jì),讓諜王37年潛伏功虧一簣

干史人
2026-04-14 15:05:03
別再尬演“萬(wàn)人迷”!滿臉褶子疙瘩、鼻孔朝天,這皮囊能迷倒誰(shuí)?

別再尬演“萬(wàn)人迷”!滿臉褶子疙瘩、鼻孔朝天,這皮囊能迷倒誰(shuí)?

雨月海星
2026-04-18 05:25:40
太難了!青島一公司全員降薪,高至20%,稱無(wú)力承擔(dān)新增繳費(fèi)成本

太難了!青島一公司全員降薪,高至20%,稱無(wú)力承擔(dān)新增繳費(fèi)成本

火山詩(shī)話
2026-04-18 07:01:26
NBA內(nèi)部人士:巴特勒的忠誠(chéng)度將在勇士隊(duì)繁忙的休賽期受到考驗(yàn)

NBA內(nèi)部人士:巴特勒的忠誠(chéng)度將在勇士隊(duì)繁忙的休賽期受到考驗(yàn)

好火子
2026-04-19 05:57:29
Claude Design連夜突襲,F(xiàn)igma市值瞬間蒸發(fā)!或搶走全球UI設(shè)計(jì)師飯碗

Claude Design連夜突襲,F(xiàn)igma市值瞬間蒸發(fā)!或搶走全球UI設(shè)計(jì)師飯碗

新智元
2026-04-18 12:55:26
出大事了,特朗普癡呆已晚期?和伊朗開戰(zhàn),竟是內(nèi)塔尼亞胡的圈套

出大事了,特朗普癡呆已晚期?和伊朗開戰(zhàn),竟是內(nèi)塔尼亞胡的圈套

阿紿聊社會(huì)
2026-04-19 04:44:48
訪華門票來(lái)之不易,特朗普兒子兒媳齊上陣,為以后發(fā)展提前鋪路?

訪華門票來(lái)之不易,特朗普兒子兒媳齊上陣,為以后發(fā)展提前鋪路?

浪子阿邴聊體育
2026-04-18 05:14:39
“窮人過生日的模板”,19歲男孩生日宴火了,家長(zhǎng)費(fèi)盡心思反被嘲

“窮人過生日的模板”,19歲男孩生日宴火了,家長(zhǎng)費(fèi)盡心思反被嘲

妍妍教育日記
2026-04-18 08:15:03
對(duì)高市不再留情,中方全面斷供開始!30國(guó)代表赴日,岸田重新出山

對(duì)高市不再留情,中方全面斷供開始!30國(guó)代表赴日,岸田重新出山

娛樂圈的筆娛君
2026-04-19 04:35:26
阿拉格齊闖下大禍,伊朗內(nèi)部爆發(fā)沖突,革命衛(wèi)隊(duì)宣布:有條件封海

阿拉格齊闖下大禍,伊朗內(nèi)部爆發(fā)沖突,革命衛(wèi)隊(duì)宣布:有條件封海

丁鸊驚悚影視解說(shuō)
2026-04-18 20:13:02
中超積分榜:蓉城繼續(xù)領(lǐng)跑,英博四連勝升第三,國(guó)安積分清零

中超積分榜:蓉城繼續(xù)領(lǐng)跑,英博四連勝升第三,國(guó)安積分清零

懂球帝
2026-04-18 22:15:11
陪玩陪睡已淘汰!繼關(guān)曉彤風(fēng)波、注射不明物后,娛樂圈再曝潛規(guī)則

陪玩陪睡已淘汰!繼關(guān)曉彤風(fēng)波、注射不明物后,娛樂圈再曝潛規(guī)則

阿纂看事
2026-04-16 19:31:39
5-6!小蜘蛛絕平+失點(diǎn),馬競(jìng)難破5年冠軍荒,皇家社會(huì)爆冷奪冠

5-6!小蜘蛛絕平+失點(diǎn),馬競(jìng)難破5年冠軍荒,皇家社會(huì)爆冷奪冠

我的護(hù)球最獨(dú)特
2026-04-19 06:01:32
專家呼吁:馬上停用5種調(diào)味醬,它是腸癌催化劑!再下飯也別沾

專家呼吁:馬上停用5種調(diào)味醬,它是腸癌催化劑!再下飯也別沾

路醫(yī)生健康科普
2026-04-18 16:18:55
不得不說(shuō),這個(gè)大姐年輕時(shí)候,肯定是一個(gè)美人胚子!

不得不說(shuō),這個(gè)大姐年輕時(shí)候,肯定是一個(gè)美人胚子!

TVB的四小花
2026-04-19 00:51:05
王志文安排好后事僅4月,擔(dān)心事發(fā)生,私生活被扒,王寶強(qiáng)拒和解

王志文安排好后事僅4月,擔(dān)心事發(fā)生,私生活被扒,王寶強(qiáng)拒和解

白面書誏
2026-04-16 18:04:33
NBA戰(zhàn)報(bào):騎士126-113猛龍,米切爾32+3+4

NBA戰(zhàn)報(bào):騎士126-113猛龍,米切爾32+3+4

懂球帝
2026-04-19 03:54:27
為什么感覺快遞員、外賣員、保安員等工作人員越來(lái)越不能投訴了?

為什么感覺快遞員、外賣員、保安員等工作人員越來(lái)越不能投訴了?

黯泉
2026-04-18 16:24:10
吃相太難看!莫氏雞煲爆火后,惡心一幕出現(xiàn),終走上呆呆妹的老路

吃相太難看!莫氏雞煲爆火后,惡心一幕出現(xiàn),終走上呆呆妹的老路

以茶帶書
2026-04-15 17:30:12
2026-04-19 06:35:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12792文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時(shí)隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財(cái)經(jīng)要聞

"影子萬(wàn)科"2.0:管理層如何吸血萬(wàn)物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬(wàn)元起

態(tài)度原創(chuàng)

房產(chǎn)
教育
親子
時(shí)尚
藝術(shù)

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!??跇鞘?,突然殺入神秘房企!

教育要聞

杭州老師解讀古人如何說(shuō)愛你,陌上花開,可緩緩歸矣

親子要聞

退燒藥怎么用?90%家長(zhǎng)都搞錯(cuò)了

選對(duì)發(fā)型,真的能少走很多變美彎路

藝術(shù)要聞

夜色下的歐洲

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版