国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AP2O-Coder 讓大模型擁有「錯題本」,像人類一樣按題型高效刷題

0
分享至



作者:上交博士,在騰訊codebuddy 實習(xí),發(fā)表一作頂會頂刊論文10篇(含best paper 等),開源PFLlib等明星項目,獲得社區(qū)贊譽。主要研究AI強化學(xué)習(xí)、AI合成數(shù)據(jù)、Agent 記憶等。

在 AI 輔助 Coding 技術(shù)快速發(fā)展的背景下,大語言模型(LLMs)雖顯著提升了軟件開發(fā)效率,但開源的 LLMs 生成的代碼依舊存在運行時錯誤,增加了開發(fā)者調(diào)試成本。

現(xiàn)有基于偏好優(yōu)化的改進方法,多依賴「通過 / 失敗」二元信號構(gòu)建訓(xùn)練數(shù)據(jù),難以知曉「錯在哪」,也忽視了模型能力在訓(xùn)練時的動態(tài)變化特性。

針對此缺口,在騰訊 CodeBuddy 實習(xí)期間,我們提出自適應(yīng)漸進式偏好優(yōu)化方法(AP2O),并構(gòu)建 AP2O-Coder 框架。該方法借鑒人類的「按題型高效刷題」經(jīng)驗出發(fā),通過「考試 - 分析 - 糾錯 - 小測」的系統(tǒng)性流程提升模型代碼糾錯能力,在多款主流開源模型上實現(xiàn)最高 3% 的 pass@k 性能提升,同時降低訓(xùn)練數(shù)據(jù)需求量。



  • 論文標(biāo)題:AP2O-Coder: Adaptively Progressive Preference Optimization for Reducing Compilation and Runtime Errors in LLM-Generated Code
  • 論文鏈接:https://arxiv.org/pdf/2510.02393
  • 開源代碼:https://github.com/TsingZ0/AP2O

一、現(xiàn)有方法的核心挑戰(zhàn)

與 AP2O-Coder 的針對性設(shè)計

當(dāng)前離線偏好優(yōu)化方法(如 DPO 等)在 LLM 代碼糾錯任務(wù)中面臨三大核心挑戰(zhàn):

  • 錯誤類型感知缺失:僅依賴單元測試的二元反饋信號,無法知曉類型錯誤(如 KeyError、ValueError 等),導(dǎo)致模型難以定位錯誤原因;
  • 訓(xùn)練聚焦性不足:訓(xùn)練數(shù)據(jù)采用隨機打亂的方式批量輸入,模型需在多種錯誤類型間頻繁切換適應(yīng),糾錯學(xué)習(xí)的針對性不強;
  • 動態(tài)適配能力薄弱:靜態(tài)構(gòu)建的訓(xùn)練集無法匹配模型訓(xùn)練過程中不斷變化的能力短板,易引發(fā)災(zāi)難性遺忘或訓(xùn)練資源浪費。

為應(yīng)對上述挑戰(zhàn),AP2O-Coder 借鑒人類按題型進行的「錯題整理 - 專題突破 - 定期復(fù)盤」的學(xué)習(xí)模式,構(gòu)建了包含四大核心模塊的優(yōu)化框架,旨在實現(xiàn)錯誤信息的深度利用與模型能力的動態(tài)適配。

二、AP2O-Coder 的

核心技術(shù)框架與工作機制

AP2O-Coder 的核心設(shè)計思路是通過系統(tǒng)化流程實現(xiàn)錯誤類型的精準(zhǔn)捕捉、漸進式優(yōu)化與動態(tài)適配,其整體框架包含四個關(guān)鍵步驟(如圖 1 所示):



圖 1:AP2O-Coder 框架流程圖

代碼生成評估(Exam)

為全面掌握目標(biāo)模型的初始能力邊界,該模塊讓 LLM 在 M 個編程任務(wù)上生成 N 個候選答案(采用溫度系數(shù) 1.0 的設(shè)置以充分探索能力范圍),通過配套的單元測試獲取每個答案的「通過 / 失敗」標(biāo)簽,形成初始訓(xùn)練數(shù)據(jù)集,為后續(xù)錯誤分析提供基礎(chǔ)。

錯誤診斷分析(Analysis)

借助編程語言專用分析工具(如 Python 解釋器)對所有失敗答案進行結(jié)構(gòu)化解析,標(biāo)注具體錯誤類型并統(tǒng)計各類錯誤的出現(xiàn)頻率,按錯誤題型構(gòu)建結(jié)構(gòu)化的「錯題本」。該過程實現(xiàn)了從二元反饋到精細化錯誤信息的轉(zhuǎn)化,為針對性優(yōu)化提供數(shù)據(jù)支撐。

漸進式偏好優(yōu)化(Correction)



自適應(yīng)錯誤回放(Quiz)

為適配模型訓(xùn)練過程中的能力變化,該模塊定期在一個小驗證集上評估模型性能,實時捕捉當(dāng)前階段的高頻錯誤類型,找出模型依舊犯錯的題型,將其對應(yīng)的失敗答案重新納入訓(xùn)練流程。通過動態(tài)調(diào)整訓(xùn)練數(shù)據(jù)分布,確保模型始終聚焦于當(dāng)前的能力短板,有效緩解災(zāi)難性遺忘問題。

三、實驗驗證與結(jié)果分析

研究團隊在 6 款主流 LLM(含代碼專用模型 CodeLlama、DeepSeek-Coder、Qwen2.5-Coder 與通用模型 Llama3、Qwen2.5、Qwen3)上開展了系統(tǒng)驗證,參數(shù)規(guī)模覆蓋 0.5B - 34B,實驗基準(zhǔn)包括 EvalPlus(HumanEval/MBPP)與 LiveCodeBench v6,主要取得以下研究發(fā)現(xiàn):

性能提升的有效性

在不同類型與參數(shù)規(guī)模的模型上,AP2O-Coder 均展現(xiàn)出穩(wěn)定的性能改進。如下表所示,在 EvalPlus(HumanEval)基準(zhǔn)上,AP2O-Coder (H2L) 即使對于 30B+ 的大參數(shù)模型,也能實現(xiàn) 2.8% - 3.4% 的性能優(yōu)化,且未出現(xiàn)現(xiàn)有后訓(xùn)練方法中性能退化現(xiàn)象。



表 1:各種類型和規(guī)模代碼的 LLM 在 Pass@1 on EvalPlus (HumanEval) 上的表現(xiàn)。

錯誤抑制效果與泛化能力



圖 2:使用 Qwen2.5-Coder-7B 在測試基準(zhǔn)上出現(xiàn)錯誤的統(tǒng)計數(shù)據(jù)。



圖 3:使用 Qwen2.5-Coder-7B 在測驗階段對驗證集上的錯誤統(tǒng)計結(jié)果。我們的 AP2O-Coder 能夠逐步減少錯誤。

如圖 2 所示,相較于 SFT、DPO 等基線方法,AP2O-Coder 能夠有效降低各類錯誤的發(fā)生頻率,且未引入新的錯誤類型。如圖 3,在 Qwen2.5-Coder-7B 的實驗中,高頻錯誤「WrongResult」的發(fā)生率顯著下降,IndexError 等小眾錯誤在訓(xùn)練后期實現(xiàn)清零。同時,該方法在 pass@5、pass@10 等指標(biāo)上的穩(wěn)定提升(如圖 4),表明其增強了模型代碼生成的泛化能力。



圖 4:在不同模型規(guī)模下,使用 DeepSeek-Coder 在 EvalPlus (HumanEval) 基準(zhǔn)上的 pass@5 和 pass@10 表現(xiàn)。

樣本效率的優(yōu)化



圖 5:用于在 MBPP 訓(xùn)練集上對不同規(guī)模的 Qwen2.5-Coder 進行訓(xùn)練并達到最優(yōu)性能的偏好數(shù)據(jù)對需求。

AP2O-Coder 通過錯誤類型的精準(zhǔn)聚焦,顯著提升了訓(xùn)練數(shù)據(jù)的利用效率。實驗結(jié)果顯示,該方法僅需 4% - 60% 的偏好數(shù)據(jù)即可達到傳統(tǒng) DPO 方法的最優(yōu)性能,在 32B 參數(shù)規(guī)模的模型上,數(shù)據(jù)需求量減少更為明顯(如圖 5),這就和班上刷題時,優(yōu)等生所需刷題量更少類似,為低資源場景下的 LLM 代碼優(yōu)化提供了可行路徑。

通用 LLM 適配性



圖 6:在將通用 LLM(如 Qwen2.5、Qwen3 和 Llama3)適配到代碼領(lǐng)域時,其在 EvalPlus (MBPP) 上的 pass@1 表現(xiàn)。

AP2O-Coder 不僅適用于代碼專用 LLM,也能有效支持通用 LLM 向代碼領(lǐng)域的適配。在 Qwen3、Llama3 等通用模型的實驗中,經(jīng)過該方法優(yōu)化后,模型在 MBPP 基準(zhǔn)上的 pass@1 分?jǐn)?shù)顯著提升,驗證了其跨模型類型的適配能力(如圖 6)。

四、研究發(fā)現(xiàn)與方法特性

實驗過程中,團隊發(fā)現(xiàn)了優(yōu)化策略與模型規(guī)模的適配規(guī)律:

對于Qwen2.5-Coder,小參數(shù)模型(≤ 3B)采用「低頻錯誤 -> 高頻錯誤」的優(yōu)化順序更具優(yōu)勢,這一策略可避免模型因能力有限而陷入高頻常見錯誤的學(xué)習(xí)困境,而讓小模型一開始能看到不同種類的錯誤,跳出局部最優(yōu);

大參數(shù)模型(≥ 7B)采用「高頻錯誤 -> 低頻錯誤」的順序效果更優(yōu),能夠充分發(fā)揮其強學(xué)習(xí)能力,快速實現(xiàn)整體錯誤率的下降。這一發(fā)現(xiàn)為不同規(guī)模 LLM 的代碼優(yōu)化提供了針對性參考。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
美伊如果拖持久戰(zhàn),是否會像俄烏戰(zhàn)爭一樣深陷泥潭,趁機拖垮美國

美伊如果拖持久戰(zhàn),是否會像俄烏戰(zhàn)爭一樣深陷泥潭,趁機拖垮美國

小軻搞笑解說
2026-03-02 12:10:23
自家名宿不護著,賴特:賴斯的動作絕對是一個點球

自家名宿不護著,賴特:賴斯的動作絕對是一個點球

懂球帝
2026-03-02 09:48:07
戰(zhàn)火升級!烈度或超“12日戰(zhàn)爭”,本輪美伊沖突五大疑問待解

戰(zhàn)火升級!烈度或超“12日戰(zhàn)爭”,本輪美伊沖突五大疑問待解

中國網(wǎng)
2026-03-01 11:35:05
體制內(nèi)情商高能帶來啥意外驚喜?網(wǎng)友:別在地鐵看,別問我為什么

體制內(nèi)情商高能帶來啥意外驚喜?網(wǎng)友:別在地鐵看,別問我為什么

帶你感受人間冷暖
2026-02-24 01:03:13
騎士106-102籃網(wǎng)!阿特金森賽后把話挑明,哈登復(fù)出帶來一大變化

騎士106-102籃網(wǎng)!阿特金森賽后把話挑明,哈登復(fù)出帶來一大變化

魚崖大話籃球
2026-03-02 10:21:28
“最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

“最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

地理三體說
2026-01-29 21:40:34
中國電網(wǎng)砸5萬億鎖死優(yōu)勢!越南被迫限電減產(chǎn),歐洲電價暴漲10倍

中國電網(wǎng)砸5萬億鎖死優(yōu)勢!越南被迫限電減產(chǎn),歐洲電價暴漲10倍

財經(jīng)保探長
2026-02-23 19:10:05
隔扣楊瀚森!庫明加三戰(zhàn)轟64+23太炸裂 老鷹全場高呼謝謝勇士隊

隔扣楊瀚森!庫明加三戰(zhàn)轟64+23太炸裂 老鷹全場高呼謝謝勇士隊

星Xin辰大海
2026-03-02 13:27:42
24小時之內(nèi),賴清德喊話大陸,鄭麗文向民進黨妥協(xié),日本部署導(dǎo)彈

24小時之內(nèi),賴清德喊話大陸,鄭麗文向民進黨妥協(xié),日本部署導(dǎo)彈

野史日記
2026-03-01 09:25:03
一汽豐田第六代RAV4榮放雙擎精英版上線限時煥新價,15.18萬元

一汽豐田第六代RAV4榮放雙擎精英版上線限時煥新價,15.18萬元

IT之家
2026-03-02 09:08:37
哈梅內(nèi)伊之死和伊朗性史

哈梅內(nèi)伊之死和伊朗性史

哲空空
2026-03-01 11:14:17
知名演員秦嵐自曝患病,已做手術(shù)!

知名演員秦嵐自曝患病,已做手術(shù)!

極目新聞
2026-02-28 23:12:57
別當(dāng)廢品扔!2026這5類舊物暴漲,有的漲10倍,家家都有

別當(dāng)廢品扔!2026這5類舊物暴漲,有的漲10倍,家家都有

愛下廚的阿釃
2026-03-01 16:51:26
鄒市明一家國外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

鄒市明一家國外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

小徐講八卦
2026-03-01 05:51:11
汪小菲首次回應(yīng)包機事件,談到S家直呼無語,對黑粉毫不客氣

汪小菲首次回應(yīng)包機事件,談到S家直呼無語,對黑粉毫不客氣

小徐講八卦
2026-03-01 06:14:05
港股暴跌,亞太股市全線走低,A股跳水后拉回,下午能全線收紅嗎

港股暴跌,亞太股市全線走低,A股跳水后拉回,下午能全線收紅嗎

有范又有料
2026-03-02 12:16:58
梅西2球1助導(dǎo)演大逆轉(zhuǎn),任意球破門次數(shù)追平貝利

梅西2球1助導(dǎo)演大逆轉(zhuǎn),任意球破門次數(shù)追平貝利

體壇周報
2026-03-02 11:19:11
不是那個年代的,你真看不懂

不是那個年代的,你真看不懂

深度報
2026-02-15 23:01:53
3月2日人民幣對美元中間價調(diào)貶8個基點

3月2日人民幣對美元中間價調(diào)貶8個基點

證券時報
2026-03-02 09:31:54
一場34分慘敗,讓開拓者看清楊瀚森,中國球迷開始理解斯普利特

一場34分慘敗,讓開拓者看清楊瀚森,中國球迷開始理解斯普利特

球場沒跑道
2026-03-02 11:15:40
2026-03-02 15:00:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12388文章數(shù) 142574關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

體育要聞

卡里克主場5連勝!隊史第2人通過最大考驗

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

中東局勢影響如何?十大券商策略來了

汽車要聞

預(yù)售11.28萬起 狐全新阿爾法S5標(biāo)配寧德時代

態(tài)度原創(chuàng)

教育
時尚
健康
本地
游戲

教育要聞

【張捷雜談】對涉考舞弊處罰過輕與幕后潛規(guī)則

從每天只睡4小時到8小時:一個失眠者的自救指南

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

本地新聞

津南好·四時總相宜

voice38回應(yīng)攻破D加密游戲順序 工具齊備就會攻破!

無障礙瀏覽 進入關(guān)懷版