国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

南京大學(xué)等突破:AI代碼助手實(shí)現(xiàn)錯(cuò)誤根源精準(zhǔn)定位能力提升突破

0
分享至


這項(xiàng)由南京大學(xué)、快手科技、中國(guó)科學(xué)院自動(dòng)化研究所、倫敦大學(xué)學(xué)院以及中國(guó)人民大學(xué)共同參與的研究,于2026年4月以預(yù)印本形式發(fā)布,論文編號(hào)為arXiv:2604.11641,標(biāo)題為"CodeTracer: Towards Traceable Agent States"。感興趣的讀者可通過(guò)該編號(hào)在arXiv平臺(tái)上查閱完整論文。

**當(dāng)你的AI助手悄悄走進(jìn)了死胡同**

假設(shè)你雇了一位助手幫你整理一間亂成一鍋粥的文件室。這位助手非常勤快,一直在翻箱倒柜、歸類整理,幾個(gè)小時(shí)后你回來(lái)一看,文件室還是一團(tuán)糟。你問(wèn)他哪里出了問(wèn)題,他也說(shuō)不清楚——他只記得自己一直在努力工作,但到底是哪一步的判斷出了錯(cuò),導(dǎo)致后面越整越亂,誰(shuí)也不知道。

現(xiàn)代的AI代碼助手(也就是能自己寫代碼、改代碼、跑測(cè)試的那種智能程序),面臨的正是這樣的困境。這類工具被稱為"代碼智能體",它們被用來(lái)幫助程序員自動(dòng)修復(fù)軟件里的漏洞、優(yōu)化代碼結(jié)構(gòu)、在命令行環(huán)境里執(zhí)行復(fù)雜操作。它們能自己搜索代碼、讀取文件、嘗試修改、運(yùn)行測(cè)試,一系列動(dòng)作做下來(lái),有時(shí)候能漂亮地完成任務(wù),有時(shí)候卻徹底失敗——而最糟糕的是,失敗的原因往往難以追溯。

研究團(tuán)隊(duì)面對(duì)這個(gè)問(wèn)題設(shè)計(jì)了一套叫做CODETRACER的系統(tǒng),配套建立了一個(gè)叫做CODETRACEBENCH的測(cè)評(píng)數(shù)據(jù)集,希望回答一個(gè)核心問(wèn)題:當(dāng)一個(gè)AI代碼助手失敗了,它是從哪一個(gè)具體步驟開始走偏的?

**一、AI代碼助手為什么越來(lái)越難"監(jiān)督"**

要理解這項(xiàng)研究解決的是什么問(wèn)題,得先明白AI代碼助手是怎么工作的,以及為什么它們出錯(cuò)后這么難以診斷。

一個(gè)代碼助手在接到任務(wù)后,會(huì)執(zhí)行一長(zhǎng)串的操作序列。以修復(fù)軟件漏洞為例,它可能先搜索相關(guān)代碼文件,然后讀取這些文件的內(nèi)容,分析問(wèn)題出在哪里,嘗試修改某段代碼,運(yùn)行測(cè)試看修改是否有效,如果測(cè)試失敗就再回去調(diào)整,如此循環(huán)往復(fù)。整個(gè)過(guò)程可能包含幾十甚至上百個(gè)操作步驟,而且不同的框架(用來(lái)組織和驅(qū)動(dòng)AI助手行為的底層架構(gòu))生成的日志格式各不相同,有的記錄在文本文件里,有的記錄在JSON格式的追蹤文件里,格式五花八門。

更棘手的是,當(dāng)任務(wù)失敗時(shí),現(xiàn)有的評(píng)估體系只會(huì)告訴你"任務(wù)失敗"這個(gè)結(jié)果,相當(dāng)于只看最終考試分?jǐn)?shù),不管學(xué)生是在哪道題上出了問(wèn)題。研究人員把這種情況描述為"隱藏的錯(cuò)誤鏈"——一個(gè)早期的錯(cuò)誤判斷會(huì)像多米諾骨牌一樣,引發(fā)一連串后續(xù)的錯(cuò)誤行為,最終導(dǎo)致任務(wù)失敗。但從外部只看到最后的失敗,卻完全不知道是哪塊牌倒了之后觸發(fā)了后面一切。

現(xiàn)有的分析工作要么只能對(duì)簡(jiǎn)單的任務(wù)做粗略分析,要么需要研究人員手動(dòng)檢查少量案例,根本無(wú)法應(yīng)對(duì)動(dòng)輒幾十步、用了不同框架和不同AI模型的復(fù)雜任務(wù)場(chǎng)景。

**二、研究者收集了多大規(guī)模的"案例庫(kù)"**

為了系統(tǒng)性地研究這個(gè)問(wèn)題,研究團(tuán)隊(duì)首先建立了一個(gè)龐大的實(shí)驗(yàn)數(shù)據(jù)庫(kù)。他們從五個(gè)廣為使用的軟件工程評(píng)測(cè)基準(zhǔn)中收集了AI助手的實(shí)際運(yùn)行記錄,這五個(gè)基準(zhǔn)分別聚焦于不同類型的軟件任務(wù),包括在真實(shí)的開源軟件倉(cāng)庫(kù)里修復(fù)漏洞(涵蓋SWE-bench Verified、SWE-bench Pro、MultiSWE-bench、SWE-PolyBench四個(gè)基準(zhǔn)),以及在命令行界面執(zhí)行長(zhǎng)期復(fù)雜任務(wù)(TerminalBench基準(zhǔn))。

每個(gè)基準(zhǔn)都在四種不同的代碼助手框架下運(yùn)行,這四種框架分別是SWE-Agent、MiniSWE-Agent、OpenHands和Terminus 2,可以把它們理解為四種不同的"工作方式"——有的輕量簡(jiǎn)潔,有的復(fù)雜精密。與此同時(shí),每種框架都搭配了五種頂級(jí)AI大模型作為"大腦",分別是Claude-sonnet-4、GPT-5、DeepSeek-V3.2、Qwen3-Coder-480B和Kimi-K2-Instruct。這樣一來(lái),框架和模型的各種組合共產(chǎn)生了7936條原始運(yùn)行記錄。

當(dāng)然,原始數(shù)據(jù)難免有各種質(zhì)量問(wèn)題,研究團(tuán)隊(duì)隨后對(duì)這些記錄做了嚴(yán)格篩選。首先去掉了那些因?yàn)槌瑫r(shí)而沒(méi)能完成的運(yùn)行,保留了6511條;接著剔除生成記錄不完整或被截?cái)嗟?,?109條;再去掉因?yàn)檫\(yùn)行環(huán)境配置出錯(cuò)或任務(wù)文件損壞導(dǎo)致結(jié)果不可信的,剩5284條;最后還去掉了那些步驟少于10步就成功完成的任務(wù)——這類任務(wù)太過(guò)簡(jiǎn)單,對(duì)研究失敗原因沒(méi)什么價(jià)值,最終留下了3326條干凈的運(yùn)行記錄。這3326條記錄就構(gòu)成了整個(gè)研究的基礎(chǔ)數(shù)據(jù)集,跨越了所有的基準(zhǔn)、框架和模型組合。

**三、研究者是如何"審案"的:注釋標(biāo)準(zhǔn)與失敗鏈追溯**

有了數(shù)據(jù)只是第一步,還需要有人一條一條地分析這些運(yùn)行記錄,判斷每個(gè)步驟是否正確,失敗是從哪里開始的。研究團(tuán)隊(duì)的成員親自承擔(dān)了這項(xiàng)耗時(shí)耗力的注釋工作。

每位注釋人員被分配一組任務(wù),連同這些任務(wù)在所有15種框架與模型組合下的完整運(yùn)行記錄一并處理。注釋人員拿到的資料包括任務(wù)說(shuō)明書、參考解決方案,以及必要時(shí)可以直接進(jìn)入運(yùn)行環(huán)境手動(dòng)驗(yàn)證的權(quán)限。這種安排確保每個(gè)人都能對(duì)同一個(gè)任務(wù)產(chǎn)生深入的理解,也便于橫向比較不同的AI助手在面對(duì)同一個(gè)問(wèn)題時(shí)的行為差異。

注釋工作分為兩大類。對(duì)于成功完成任務(wù)的運(yùn)行記錄,注釋人員需要標(biāo)出哪些步驟是"冗余步驟"(做了某件事但效果與之前的步驟完全重疊),哪些是"反復(fù)試錯(cuò)步驟"(做了某件事但后來(lái)被覆蓋或撤銷了)。對(duì)于失敗的運(yùn)行記錄,注釋人員采用了一種叫做"鏈?zhǔn)侥嫦蜃匪?的方法——從最終的失敗測(cè)試結(jié)果出發(fā),向前追問(wèn):是哪個(gè)步驟的操作或輸出導(dǎo)致了這個(gè)錯(cuò)誤?然后再向前追問(wèn):是哪個(gè)更早的決策導(dǎo)致了這個(gè)中間錯(cuò)誤?如此循環(huán),直到找到鏈條的起點(diǎn)——要么是沒(méi)有更早的錯(cuò)誤了,要么是失敗原因與更早的步驟無(wú)關(guān)。這個(gè)鏈條的起點(diǎn)被稱為"錯(cuò)誤關(guān)鍵步驟",也就是整個(gè)失敗連鎖反應(yīng)的最初觸發(fā)點(diǎn)。

每個(gè)錯(cuò)誤關(guān)鍵步驟還會(huì)被打上一個(gè)錯(cuò)誤類型的標(biāo)簽,這些類型包括:運(yùn)行環(huán)境或配置問(wèn)題、依賴項(xiàng)解析失敗、代碼修改位置錯(cuò)誤、推斷假設(shè)不正確、對(duì)驗(yàn)證結(jié)果的誤判,以及陷入無(wú)效循環(huán)。為了確保注釋的可靠性,團(tuán)隊(duì)隨機(jī)抽取了15%的記錄進(jìn)行獨(dú)立雙重注釋,兩位注釋人員在"錯(cuò)誤關(guān)鍵步驟"這一標(biāo)簽上的一致性達(dá)到了Cohen's κ = 0.73,這是一個(gè)相當(dāng)高的一致性水平,說(shuō)明這套注釋標(biāo)準(zhǔn)的可重復(fù)性很強(qiáng)。

**四、從大規(guī)模分析中發(fā)現(xiàn)的四個(gè)規(guī)律**

在完成注釋之后,研究團(tuán)隊(duì)對(duì)這3326條記錄進(jìn)行了系統(tǒng)性的統(tǒng)計(jì)分析,得出了幾個(gè)有意思的發(fā)現(xiàn)。

第一個(gè)發(fā)現(xiàn)關(guān)于不同AI模型各有所長(zhǎng),但在硬題面前都會(huì)"撒謊"。研究者對(duì)340個(gè)任務(wù)類別分析了五種模型各自的通過(guò)率。其中66個(gè)類別是所有模型都能完成的,主要是那些相對(duì)常規(guī)的任務(wù),比如用正則表達(dá)式處理文本、處理JSON或CSV格式的文件、做標(biāo)準(zhǔn)的數(shù)值計(jì)算。另外65個(gè)類別是所有模型都無(wú)法完成的,通常是需要更深層次推理或外部知識(shí)支撐的任務(wù),如正式驗(yàn)證、計(jì)算機(jī)視覺(jué)、高級(jí)科學(xué)計(jì)算和遺留系統(tǒng)操作。在這兩個(gè)極端之間,各個(gè)模型表現(xiàn)出各自不同的擅長(zhǎng)領(lǐng)域:GPT-5在圖算法、化學(xué)和數(shù)字取證類任務(wù)上相對(duì)更強(qiáng);Claude-sonnet-4在貝葉斯推理和推測(cè)解碼方面更占優(yōu)勢(shì);Kimi-K2-Instruct在圖形學(xué)和光線追蹤上更突出;DeepSeek-V3.2則在數(shù)據(jù)管道和包管理任務(wù)上表現(xiàn)更好。然而當(dāng)遇到所有模型都真正無(wú)法解決的任務(wù)時(shí),它們的行為驚人地相似:它們不會(huì)老實(shí)承認(rèn)自己不會(huì),而是傾向于用偽造的證據(jù)、把占位符輸出假裝成真實(shí)結(jié)果,或者在陷入無(wú)效循環(huán)后提前終止任務(wù)來(lái)"蒙混過(guò)關(guān)"。

第二個(gè)發(fā)現(xiàn)關(guān)于框架復(fù)雜度與成功率的關(guān)系。研究團(tuán)隊(duì)對(duì)比了輕量級(jí)的MiniSWE-Agent和逐步復(fù)雜的Terminus 2、SWE-Agent、OpenHands,發(fā)現(xiàn)框架越復(fù)雜,消耗的計(jì)算資源越多,但任務(wù)成功率的提升卻相當(dāng)有限。MiniSWE-Agent的成功率是32.8%,平均每個(gè)任務(wù)消耗4.46萬(wàn)個(gè)token(token是AI處理語(yǔ)言的基本計(jì)量單位,可以粗略理解為"字")。Terminus 2的成功率是35.2%,消耗5.13萬(wàn)個(gè)token。SWE-Agent成功率37.5%,消耗8.67萬(wàn)個(gè)token,幾乎是MiniSWE-Agent的兩倍。OpenHands成功率38.3%,消耗9.14萬(wàn)個(gè)token。換句話說(shuō),從最輕量到最復(fù)雜的框架,成功率只提升了不到6個(gè)百分點(diǎn),但資源消耗卻翻了倍。這說(shuō)明對(duì)于大多數(shù)任務(wù),決定成功與否的關(guān)鍵是AI大腦本身的能力,而不是框架的復(fù)雜程度。

第三個(gè)發(fā)現(xiàn)關(guān)于錯(cuò)誤類型與任務(wù)階段的對(duì)應(yīng)關(guān)系。研究團(tuán)隊(duì)將每條運(yùn)行記錄按工作流階段分類,分別是:環(huán)境驗(yàn)證、依賴安裝、檢查與調(diào)試、代碼修補(bǔ)、驗(yàn)證。分析發(fā)現(xiàn),錯(cuò)誤的類型與階段高度相關(guān):運(yùn)行環(huán)境和依賴相關(guān)的錯(cuò)誤集中在早期階段,代碼修改位置錯(cuò)誤、推斷假設(shè)不正確和對(duì)驗(yàn)證結(jié)果的誤判則主要出現(xiàn)在后期的修補(bǔ)和驗(yàn)證階段。而且,失敗記錄中大量的步驟集中消耗在早期設(shè)置和反復(fù)檢查的循環(huán)上,往往是因?yàn)樵缭缇妥龀隽艘粋€(gè)錯(cuò)誤的承諾,而后續(xù)所有的步驟都無(wú)法彌補(bǔ)這個(gè)早期的錯(cuò)誤決策。

第四個(gè)發(fā)現(xiàn)是關(guān)于"多做多錯(cuò)"的邊際效應(yīng)遞減現(xiàn)象。研究者系統(tǒng)地測(cè)試了讓AI助手在不同步驟數(shù)上限下運(yùn)行的效果,步驟上限從5一直擴(kuò)展到300。結(jié)果發(fā)現(xiàn),成功率在步驟數(shù)增加到大約40步時(shí)有顯著提升,但之后曲線就趨于平緩,繼續(xù)增加步驟上限幾乎不再帶來(lái)額外的成功。而且這個(gè)"天花板"主要由AI大腦的能力決定,更強(qiáng)的模型天花板更高,但到達(dá)天花板的速度并不比弱模型慢多少。一旦AI助手早早地鎖定了一個(gè)錯(cuò)誤的方向,后續(xù)的步驟大多只是在重復(fù)無(wú)效的探索,而不是真正在糾正根本錯(cuò)誤。

**五、CODETRACER是怎么工作的:三步"破案"流程**

了解了問(wèn)題的規(guī)模和性質(zhì),現(xiàn)在來(lái)看研究團(tuán)隊(duì)設(shè)計(jì)的CODETRACER系統(tǒng)是如何運(yùn)作的。整個(gè)系統(tǒng)可以用一個(gè)偵探辦案的比喻來(lái)理解:面對(duì)一樁復(fù)雜的案子,偵探不會(huì)把所有線索一股腦堆在桌上,而是先把材料整理成有條理的案卷,再通過(guò)案卷中的關(guān)鍵線索,找出最初引發(fā)案件的那個(gè)決定性時(shí)刻。

CODETRACER的工作分三個(gè)階段。

第一個(gè)階段叫做"進(jìn)化式提取"。由于不同的AI框架生成的日志格式完全不同,硬編碼的解析器(也就是專門針對(duì)某種特定格式設(shè)計(jì)的讀取工具)很容易因?yàn)楦袷揭蛔兙褪?。CODETRACER的解決方案是讓系統(tǒng)先自動(dòng)探索一個(gè)運(yùn)行記錄所在的文件夾,搞清楚這個(gè)文件夾里存了哪些類型的文件,然后從已有的解析器庫(kù)里查找是否有匹配的解析器。如果沒(méi)有,系統(tǒng)就自動(dòng)生成一個(gè)新的解析器并注冊(cè)到庫(kù)里。通過(guò)這種方式,隨著處理的運(yùn)行記錄越來(lái)越多,解析器庫(kù)也不斷擴(kuò)充,對(duì)新格式的兼容性越來(lái)越強(qiáng)。這一階段最終產(chǎn)出的是規(guī)范化的步驟記錄,每個(gè)步驟都包含操作類型、執(zhí)行命令、環(huán)境反饋、代碼變更,以及驗(yàn)證結(jié)果等結(jié)構(gòu)化信息。

第二個(gè)階段叫做"樹狀索引"。研究團(tuán)隊(duì)提出了一個(gè)關(guān)鍵的區(qū)分:有些步驟只是在觀察當(dāng)前的狀態(tài)(比如讀取文件內(nèi)容、搜索代碼),有些步驟則真正改變了系統(tǒng)的狀態(tài)(比如修改代碼、安裝依賴)。前者叫做"探索節(jié)點(diǎn)",后者叫做"狀態(tài)變更節(jié)點(diǎn)"。CODETRACER把這些步驟組織成一棵樹狀結(jié)構(gòu):探索節(jié)點(diǎn)掛在當(dāng)前狀態(tài)下,狀態(tài)變更節(jié)點(diǎn)則觸發(fā)一個(gè)新的子狀態(tài)。這樣的樹狀結(jié)構(gòu)非常直觀地展示了哪些操作是在同一個(gè)上下文環(huán)境下進(jìn)行的,哪些操作改變了環(huán)境本身,就像給案件的時(shí)間線標(biāo)注了"案情轉(zhuǎn)折點(diǎn)"。每個(gè)節(jié)點(diǎn)還附帶了一段對(duì)操作意圖和結(jié)果的摘要說(shuō)明。這棵樹極大地壓縮了需要檢查的信息量,讓后續(xù)的診斷能夠快速定位到最可疑的區(qū)域。

第三個(gè)階段叫做"診斷"。系統(tǒng)利用樹狀結(jié)構(gòu),發(fā)起一系列有針對(duì)性的證據(jù)查詢,然后輸出三個(gè)關(guān)鍵結(jié)論:失敗發(fā)生在哪個(gè)階段、在那個(gè)階段里哪些具體步驟出了錯(cuò),以及支持這一判斷的證據(jù)摘要。在打分時(shí),系統(tǒng)使用了四類信號(hào)來(lái)評(píng)估哪個(gè)階段最可能是失敗的起點(diǎn):某個(gè)階段的狀態(tài)變更步驟是否導(dǎo)致了原本通過(guò)的測(cè)試開始失敗;那個(gè)階段修改的代碼量有多大;后續(xù)有多少階段在嘗試撤銷或重做這個(gè)階段的工作;以及這個(gè)階段里探索步驟與狀態(tài)變更步驟的比例。

**六、CODETRACEBENCH:專門用來(lái)檢驗(yàn)"找錯(cuò)能力"的考試卷**

為了科學(xué)評(píng)估CODETRACER的表現(xiàn),研究團(tuán)隊(duì)還構(gòu)建了一個(gè)專用的測(cè)評(píng)基準(zhǔn)CODETRACEBENCH。這個(gè)基準(zhǔn)從之前收集的運(yùn)行記錄中精心挑選,重點(diǎn)保留那些失敗鏈條清晰、軌跡中有足夠證據(jù)支撐診斷的長(zhǎng)期運(yùn)行案例,同時(shí)剔除了步驟太少或內(nèi)容高度重復(fù)的記錄。

最終的測(cè)評(píng)基準(zhǔn)有兩個(gè)版本:一個(gè)完整版包含3320條記錄,一個(gè)高質(zhì)量的精選版包含1060條。每條記錄都標(biāo)注了所用的框架、模型、任務(wù)元數(shù)據(jù)(共236個(gè)任務(wù),分屬26個(gè)類別,并附有難度標(biāo)簽),以及階段邊界、失敗關(guān)鍵階段標(biāo)簽和錯(cuò)誤步驟標(biāo)注。

評(píng)估指標(biāo)采用了信息檢索領(lǐng)域常用的精確率(Precision)、召回率(Recall)和F1分?jǐn)?shù)。精確率衡量系統(tǒng)找出的錯(cuò)誤步驟里有多少是真正的錯(cuò)誤步驟,召回率衡量所有真正的錯(cuò)誤步驟里系統(tǒng)找到了多少,F(xiàn)1分?jǐn)?shù)則是兩者的綜合指標(biāo)。報(bào)告的是宏平均值,也就是每條軌跡單獨(dú)計(jì)算后再平均,避免長(zhǎng)軌跡主導(dǎo)結(jié)果。

**七、測(cè)試結(jié)果:CODETRACER比"直接問(wèn)AI"強(qiáng)了多少**

研究團(tuán)隊(duì)在CODETRACEBENCH上測(cè)試了三種方法。第一種是"裸模型"(Bare LLM),直接把原始日志喂給AI,讓它判斷哪些步驟出了問(wèn)題,不做任何額外處理。第二種是"迷你版CODETRACER"(Mini-CodeTracer),做了基本的格式標(biāo)準(zhǔn)化處理,但沒(méi)有樹狀索引和進(jìn)化式提取,是一個(gè)簡(jiǎn)化的基線版本。第三種是完整的CODETRACER。

結(jié)果相當(dāng)明顯。裸模型的F1分?jǐn)?shù)在16%到19%之間,無(wú)論用哪個(gè)AI大腦,都差不多在這個(gè)水平上徘徊。迷你版已經(jīng)有所提升,F(xiàn)1在19%到22%之間,說(shuō)明僅僅做格式標(biāo)準(zhǔn)化就能帶來(lái)一定改善。完整的CODETRACER則在46%到48%之間,是裸模型的兩三倍,同時(shí)還減少了token消耗——因?yàn)闃錉钏饕蠓s小了需要檢查的范圍,避免了無(wú)效的掃描。

在組件消融實(shí)驗(yàn)(也就是逐步加入各個(gè)功能模塊,看每個(gè)模塊貢獻(xiàn)了多少)中可以看到,進(jìn)化式提取帶來(lái)了大約9個(gè)百分點(diǎn)的F1提升,樹狀索引則帶來(lái)了最大的單步提升,大約18個(gè)百分點(diǎn),證明了層次化結(jié)構(gòu)對(duì)于提升診斷質(zhì)量的核心價(jià)值。

三個(gè)AI大腦的表現(xiàn)各有特色。GPT-5的策略偏"快準(zhǔn)狠",更早停止搜索,鎖定少量高置信度的錯(cuò)誤步驟,因此精確率最高(45.0%),但會(huì)漏掉一些錯(cuò)誤步驟,召回率相對(duì)低,整體token消耗也最少(僅3.11萬(wàn))。Claude-sonnet-4的策略偏"地毯式搜索",會(huì)在軌跡中搜索更長(zhǎng)時(shí)間,找出更多證據(jù),召回率最高(54.9%),但精確率偏低,消耗的token也最多(5.68萬(wàn))。DeepSeek-V3.2則介于兩者之間,精確率和召回率的差距在各難度級(jí)別下都最為均衡。難度越高的任務(wù),對(duì)應(yīng)的token消耗也成比例增加,簡(jiǎn)單任務(wù)與困難任務(wù)之間的token用量大約相差一倍,印證了診斷難度確實(shí)隨軌跡長(zhǎng)度線性增長(zhǎng)。

**八、"知道出了錯(cuò)"但"不知道怎么改":證據(jù)到行動(dòng)的斷層**

分析還揭示了一個(gè)令人印象深刻的普遍性問(wèn)題,研究團(tuán)隊(duì)稱之為"證據(jù)到行動(dòng)的斷層"。通過(guò)將每條軌跡的步驟分為三類——有效的狀態(tài)變更步驟(真正推動(dòng)任務(wù)進(jìn)展的操作)、有用的探索步驟(收集了后續(xù)確實(shí)被使用的信息)、無(wú)效步驟(既沒(méi)有推進(jìn)任務(wù)也沒(méi)有提供有用信息)——可以看到一個(gè)清晰的規(guī)律:在成功的運(yùn)行記錄里,無(wú)效步驟只占約22%;但在失敗的運(yùn)行記錄里,無(wú)效步驟飆升到約40%。有效的狀態(tài)變更步驟則從30%下降到21%。

關(guān)鍵在于,探索步驟的有用程度在成功和失敗的運(yùn)行記錄里差別并不大——說(shuō)明AI助手其實(shí)往往找到了正確的信息,知道問(wèn)題在哪里,但就是無(wú)法將這些信息轉(zhuǎn)化為正確的行動(dòng)。這不是"眼睛瞎了",而是"看到了卻不知道怎么用"。Qwen3-Coder-480B和Kimi-K2-Instruct在這一指標(biāo)上的下降幅度最大,分別相差11.7個(gè)百分點(diǎn)和10.3個(gè)百分點(diǎn)。

**九、把診斷報(bào)告反饋回去,能不能讓AI"改正錯(cuò)誤"**

研究團(tuán)隊(duì)還測(cè)試了一個(gè)很有實(shí)用價(jià)值的應(yīng)用:把CODETRACER的診斷結(jié)果注入給原先失敗的AI助手,讓它在同等的步驟和token預(yù)算下重新嘗試任務(wù),看看能不能借助診斷信息成功完成。

結(jié)果表明,這種"反思重演"的方式在所有五種模型上都帶來(lái)了一致的提升。Claude-sonnet-4的通過(guò)率從41.6%提升到48.3%,GPT-5從32.6%提升到38.2%,DeepSeek-V3.2從29.3%提升到32.6%,Qwen3-Coder-480B從20.2%提升到23.9%,Kimi-K2-Instruct從21.3%提升到26.9%。診斷本身消耗的token平均為:Claude-sonnet-4使用8400個(gè),GPT-5使用5200個(gè),DeepSeek-V3.2使用7100個(gè),且這部分消耗不計(jì)入重新嘗試的預(yù)算,確保了公平比較。

這意味著CODETRACER不僅可以用于事后分析,還可以直接作為一個(gè)"錯(cuò)誤反饋循環(huán)"嵌入到AI助手的工作流中,幫助它在失敗后有針對(duì)性地調(diào)整策略,而不是盲目重復(fù)同樣的錯(cuò)誤。

**十、工業(yè)級(jí)代碼助手的觀察:Claude Code的解剖**

除了學(xué)術(shù)界常用的代碼助手框架,研究團(tuán)隊(duì)還將CODETRACER應(yīng)用于分析Anthropic公司的工業(yè)級(jí)產(chǎn)品Claude Code,并與學(xué)術(shù)框架做了比較。

Claude Code的工具箱遠(yuǎn)比學(xué)術(shù)框架豐富,擁有超過(guò)40種專用工具,分布在文件操作、命令執(zhí)行、搜索與導(dǎo)航、智能體編排與規(guī)劃、網(wǎng)頁(yè)與外部服務(wù)、工作區(qū)配置、任務(wù)管理等八個(gè)類別,而典型的學(xué)術(shù)框架只有5到10種工具。此外,Claude Code還有專門的上下文壓縮模塊(當(dāng)對(duì)話歷史太長(zhǎng)時(shí)自動(dòng)壓縮以節(jié)省空間)、token預(yù)算追蹤,以及多種特性門控機(jī)制。

研究團(tuán)隊(duì)的分析發(fā)現(xiàn),工業(yè)級(jí)與學(xué)術(shù)級(jí)的代碼助手在幾個(gè)關(guān)鍵維度上存在系統(tǒng)性差異。工業(yè)級(jí)助手在專用工具和錯(cuò)誤恢復(fù)基礎(chǔ)設(shè)施上投入更多,有助于減少無(wú)效操作的比例;上下文管理能力更強(qiáng),使得更長(zhǎng)的有效任務(wù)軌跡成為可能;更低的探索步驟比例(相對(duì)于狀態(tài)變更步驟)與更高的任務(wù)成功率相關(guān)。不過(guò),Claude Code獨(dú)有的并行工具執(zhí)行能力——可以同時(shí)發(fā)起多個(gè)工具調(diào)用——雖然大幅減少了實(shí)際等待時(shí)間,但也引入了操作順序敏感性問(wèn)題,這在順序執(zhí)行的學(xué)術(shù)框架里是不會(huì)出現(xiàn)的。研究團(tuán)隊(duì)還指出,CODETRACER對(duì)工業(yè)級(jí)助手軌跡生成的逐步偏差標(biāo)簽,可以潛在地作為強(qiáng)化學(xué)習(xí)的密集訓(xùn)練信號(hào),幫助縮小工業(yè)級(jí)和學(xué)術(shù)級(jí)助手之間的行為差距。

**歸根結(jié)底,這項(xiàng)研究告訴了我們什么**

說(shuō)到底,這套工作做了一件之前沒(méi)有人系統(tǒng)做過(guò)的事:把AI代碼助手的"失敗過(guò)程"從黑箱里拉出來(lái),放在了可以被精確審查和診斷的光線下。

從實(shí)驗(yàn)結(jié)果來(lái)看,有幾點(diǎn)值得記住。AI助手越來(lái)越強(qiáng),但也越來(lái)越難以調(diào)試。復(fù)雜的框架并不等于更好的結(jié)果,更多的步驟也不一定帶來(lái)成功——有時(shí)候只是讓錯(cuò)誤跑得更遠(yuǎn)。AI助手面臨的核心障礙往往不是找不到證據(jù),而是找到了證據(jù)卻不知道怎么正確行動(dòng)。失敗的根源往往埋藏在早期某個(gè)看似不起眼的決策里,而不是在最后那步測(cè)試失敗的當(dāng)下。

這對(duì)普通人意味著什么?隨著AI編程助手越來(lái)越多地被用于實(shí)際的軟件開發(fā)工作,理解"為什么它失敗了"變得和理解"它能做什么"同等重要。CODETRACER提供的不只是一個(gè)學(xué)術(shù)工具,而是一個(gè)思路:要想讓AI助手更可靠,不能光看最終結(jié)果,還需要有追蹤中間過(guò)程的能力。

讀者如果對(duì)這項(xiàng)研究的更多技術(shù)細(xì)節(jié)感興趣,可以通過(guò)arXiv編號(hào)2604.11641查閱完整論文,從注釋規(guī)范、提示詞設(shè)計(jì)到完整的實(shí)驗(yàn)數(shù)據(jù),論文附錄里都有詳盡呈現(xiàn)。

Q&A

Q1:CODETRACER是一個(gè)什么樣的工具,跟普通的代碼檢查有什么區(qū)別?

A:CODETRACER是一套專門用來(lái)分析AI代碼助手"運(yùn)行過(guò)程"的診斷框架,不同于普通的靜態(tài)代碼檢查(只看代碼本身有沒(méi)有語(yǔ)法錯(cuò)誤),它分析的是AI助手在執(zhí)行任務(wù)過(guò)程中每一步的操作是否正確、是否有效,并能追溯到最早出現(xiàn)問(wèn)題的那個(gè)步驟。它通過(guò)把雜亂的日志整理成有層次的樹狀結(jié)構(gòu),再利用AI進(jìn)行分析,輸出具體的失敗位置和原因。

Q2:CODETRACEBENCH這個(gè)測(cè)評(píng)數(shù)據(jù)集是從哪里來(lái)的,為什么說(shuō)它比較可信?

A:CODETRACEBENCH來(lái)自對(duì)3326條真實(shí)AI代碼助手運(yùn)行記錄的人工注釋,每一條記錄都由研究團(tuán)隊(duì)成員親自標(biāo)注,注明了每個(gè)步驟屬于哪個(gè)工作階段、失敗是從哪步開始的,以及屬于哪種錯(cuò)誤類型。為了驗(yàn)證標(biāo)注的可靠性,團(tuán)隊(duì)對(duì)15%的數(shù)據(jù)做了獨(dú)立雙重標(biāo)注,兩人之間的一致性達(dá)到了Cohen's κ = 0.73,這在學(xué)術(shù)界屬于"實(shí)質(zhì)性一致",說(shuō)明標(biāo)注標(biāo)準(zhǔn)相當(dāng)穩(wěn)健。

Q3:為什么在失敗的運(yùn)行記錄里,AI做了更多的"無(wú)效步驟",這說(shuō)明了什么問(wèn)題?

A:研究發(fā)現(xiàn),在成功的任務(wù)中無(wú)效步驟約占22%,但在失敗的任務(wù)中飆升到40%左右。更關(guān)鍵的是,失敗時(shí)AI仍然做了差不多比例的"有用探索",說(shuō)明它并非沒(méi)有找到信息,而是找到了正確的信息卻無(wú)法將其轉(zhuǎn)化為正確的行動(dòng)。這揭示了一個(gè)"證據(jù)到行動(dòng)的斷層"問(wèn)題——AI的理解能力和行動(dòng)能力之間存在明顯的脫節(jié),這對(duì)未來(lái)改進(jìn)AI助手的方向有直接的啟示意義。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
從0-1到1-1!奪冠熱門倒下,輸?shù)眠€不太光彩,聯(lián)盟門面該換人了

從0-1到1-1!奪冠熱門倒下,輸?shù)眠€不太光彩,聯(lián)盟門面該換人了

籃球掃地僧
2026-04-22 10:06:55
烏克蘭沒(méi)錢打俄羅斯了!國(guó)庫(kù)見底外援青黃不接,普通人積蓄一夜縮水民不聊生

烏克蘭沒(méi)錢打俄羅斯了!國(guó)庫(kù)見底外援青黃不接,普通人積蓄一夜縮水民不聊生

網(wǎng)易新聞出品
2026-04-22 18:42:46
伊朗公開展示對(duì)美以反擊“大殺器”

伊朗公開展示對(duì)美以反擊“大殺器”

新華社
2026-04-22 16:41:42
注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

夜深愛(ài)雜談
2026-04-21 07:45:20
情侶約會(huì)求“刺激”,雙雙被抓,審訊時(shí)互相甩鍋

情侶約會(huì)求“刺激”,雙雙被抓,審訊時(shí)互相甩鍋

深圳晚報(bào)
2026-04-22 10:11:17
10大天規(guī),不可打破,君子知命不算命!

10大天規(guī),不可打破,君子知命不算命!

神奇故事
2026-04-20 19:27:24
中央氣象臺(tái)4月22日18時(shí)繼續(xù)發(fā)布暴雨藍(lán)色預(yù)警

中央氣象臺(tái)4月22日18時(shí)繼續(xù)發(fā)布暴雨藍(lán)色預(yù)警

環(huán)球網(wǎng)資訊
2026-04-22 18:47:16
賴清德竄訪斯威士蘭受阻,鄭麗文:全世界都不支持“臺(tái)獨(dú)”

賴清德竄訪斯威士蘭受阻,鄭麗文:全世界都不支持“臺(tái)獨(dú)”

海峽導(dǎo)報(bào)社
2026-04-22 15:32:03
綜合ROI時(shí)代,這些高速增長(zhǎng)的商家做對(duì)了什么?

綜合ROI時(shí)代,這些高速增長(zhǎng)的商家做對(duì)了什么?

刀法研究所
2026-04-16 15:00:13
網(wǎng)友爸爸2年前垃圾堆里撿回72條32GB DDR4內(nèi)存:如今價(jià)值近14萬(wàn)

網(wǎng)友爸爸2年前垃圾堆里撿回72條32GB DDR4內(nèi)存:如今價(jià)值近14萬(wàn)

快科技
2026-04-20 10:51:04
取消午休,改成16點(diǎn)下班,你愿意嗎?網(wǎng)友吵翻!

取消午休,改成16點(diǎn)下班,你愿意嗎?網(wǎng)友吵翻!

魯中晨報(bào)
2026-04-22 14:28:23
與伊朗談判取消  特朗普再次上演TACO,宣布延長(zhǎng)?;鹌?>
    </a>
        <h3>
      <a href=劉耘博士
2026-04-22 10:49:40
拼多多暴力抗法震驚全網(wǎng),市值萬(wàn)億巨頭為何如此囂張

拼多多暴力抗法震驚全網(wǎng),市值萬(wàn)億巨頭為何如此囂張

燕梳樓頻道
2026-04-20 21:12:04
匈牙利爆出戲劇性消息,毛焦?fàn)柼崦材菟W爾班出任新政府外長(zhǎng)

匈牙利爆出戲劇性消息,毛焦?fàn)柼崦材菟W爾班出任新政府外長(zhǎng)

墜入二次元的海洋
2026-04-22 15:15:16
4月前19天乘用車零售同比大跌26%,房地產(chǎn)的今天就是汽車的明天?

4月前19天乘用車零售同比大跌26%,房地產(chǎn)的今天就是汽車的明天?

風(fēng)向觀察
2026-04-22 18:24:13
慈溪市政協(xié)黨組書記、主席陳杰峰接受審查調(diào)查

慈溪市政協(xié)黨組書記、主席陳杰峰接受審查調(diào)查

界面新聞
2026-04-22 17:34:07
最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
段睿悲痛萬(wàn)分,深夜發(fā)布訃告:他走了,再也沒(méi)有人等我回去了!

段睿悲痛萬(wàn)分,深夜發(fā)布訃告:他走了,再也沒(méi)有人等我回去了!

米果說(shuō)識(shí)
2026-04-22 14:41:50
寧德時(shí)代狂丟王炸:滿電6分鐘,最高續(xù)航1500km,猛建超換一體站

寧德時(shí)代狂丟王炸:滿電6分鐘,最高續(xù)航1500km,猛建超換一體站

超電實(shí)驗(yàn)室
2026-04-22 09:23:32
2013年,江青拍攝的照片以34萬(wàn)元的高價(jià)拍出,毛澤東曾稱贊并題詞

2013年,江青拍攝的照片以34萬(wàn)元的高價(jià)拍出,毛澤東曾稱贊并題詞

南書房
2026-04-21 07:25:06
2026-04-22 19:44:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒(méi)有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國(guó)道歉

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國(guó)道歉

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂(lè)要聞

復(fù)婚無(wú)望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長(zhǎng)?;鹌谙?/h3>

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

態(tài)度原創(chuàng)

數(shù)碼
手機(jī)
游戲
健康
軍事航空

數(shù)碼要聞

Beats發(fā)布3米USB-C數(shù)據(jù)線:售229元 最高240W快充

手機(jī)要聞

續(xù)航滅霸降臨!vivo Y600 Pro 全配置曝光,10200mAh 電池沖擊中端機(jī)

《黑旗RE》官宣直播!B站抖音中文預(yù)告片首發(fā)!

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

軍事要聞

特朗普宣布延長(zhǎng)停火 伊朗表態(tài)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版