国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI 寫代碼太快,人類測試跟不上了,Meta 用新方法把 bug 檢出率提升 4 倍

0
分享至


作者 | Leela Kumili

譯者 | 田橙

Meta 報告稱,通過一種 即時(Just-in-Time,JiT)測試方法 提升了軟件質量。該方法在代碼評審期間動態(tài)生成測試,而不是依賴長期存在、需要人工維護的測試套件。根據(jù) Meta 的工程博客及相關研究,這一方法在 AI 輔助開發(fā)環(huán)境中將缺陷檢測能力提升了約 4 倍。

這一轉變源于代理式工作流的興起,在這種工作流中,AI 系統(tǒng)越來越多地生成或修改大段代碼。在這種環(huán)境下,傳統(tǒng)測試套件面臨更高的維護開銷且效果下降,因為脆弱的斷言和過時的覆蓋率難以及時跟上快速變化。

正如 ICT 系統(tǒng)測試工程師 Ankit K. 所 觀察到的:

AI 生成代碼和測試的速度已經超過了人類的維護能力,JiT 測試因此幾乎成了必然選擇。

JiT 測試通過在拉取請求階段基于具體代碼差異生成測試來解決這一問題。與靜態(tài)驗證不同,該系統(tǒng)會推斷開發(fā)者意圖,識別潛在的失效模式,并構建有針對性的測試,在存在回歸問題時使其失敗。它專注于捕獲回歸的測試——這些測試在提議的更改上失敗,但在父版本上通過。這是通過一個結合大語言模型、程序分析和變異測試的流水線實現(xiàn)的,其中會注入合成缺陷以驗證生成的測試是否能夠檢測到它們。

正如 Meta 研究科學家 Mark Harman 所 指出 的:

這項工作體現(xiàn)了一種根本性的轉變:不再只是讓現(xiàn)有測試更穩(wěn),而是轉向去發(fā)現(xiàn)未來可能出現(xiàn)的問題。

一個關鍵組件是 Dodgy Diff 與意圖感知工作流架構,它將代碼變更重新定義為語義信號,而非文本差異。系統(tǒng)會分析 diff,以提取行為意圖和風險區(qū)域,然后執(zhí)行意圖重建和變更風險建模,以理解哪些內容可能因此而出錯。這些信號被輸入到變異引擎中,生成“可疑”的代碼變體,用以模擬真實的失敗場景。隨后,一個基于 LLM 的測試合成層會生成與推斷意圖一致的測試,并通過過濾去除噪聲或低價值測試,最終在拉取請求中呈現(xiàn)結果。

Meta 報告稱,通過一種 即時(Just-in-Time,JiT)測試方法 提升了軟件質量。該方法在代碼評審期間動態(tài)生成測試,而不是依賴長期存在、需要人工維護的測試套件。根據(jù) Meta 的工程博客及相關研究,這一方法在 AI 輔助開發(fā)環(huán)境中將缺陷檢測能力提升了約 4 倍。

這一轉變源于代理式工作流的興起,在這種工作流中,AI 系統(tǒng)越來越多地生成或修改大段代碼。在這種環(huán)境下,傳統(tǒng)測試套件面臨更高的維護開銷且效果下降,因為脆弱的斷言和過時的覆蓋率難以及時跟上快速變化。

正如 ICT 系統(tǒng)測試工程師 Ankit K. 所 觀察到的:

AI 生成代碼和測試的速度已經超過了人類的維護能力,JiT 測試因此幾乎成了必然選擇。

JiT 測試通過在拉取請求階段基于具體代碼差異生成測試來解決這一問題。與靜態(tài)驗證不同,該系統(tǒng)會推斷開發(fā)者意圖,識別潛在的失效模式,并構建有針對性的測試,在存在回歸問題時使其失敗。它專注于捕獲回歸的測試——這些測試在提議的更改上失敗,但在父版本上通過。這是通過一個結合大語言模型、程序分析和變異測試的流水線實現(xiàn)的,其中會注入合成缺陷以驗證生成的測試是否能夠檢測到它們。

正如 Meta 研究科學家 Mark Harman 所 指出 的:

這項工作體現(xiàn)了一種根本性的轉變:不再只是讓現(xiàn)有測試更穩(wěn),而是轉向去發(fā)現(xiàn)未來可能出現(xiàn)的問題。

一個關鍵組件是 Dodgy Diff 與意圖感知工作流架構,它將代碼變更重新定義為語義信號,而非文本差異。系統(tǒng)會分析 diff,以提取行為意圖和風險區(qū)域,然后執(zhí)行意圖重建和變更風險建模,以理解哪些內容可能因此而出錯。這些信號被輸入到變異引擎中,生成“可疑”的代碼變體,用以模擬真實的失敗場景。隨后,一個基于 LLM 的測試合成層會生成與推斷意圖一致的測試,并通過過濾去除噪聲或低價值測試,最終在拉取請求中呈現(xiàn)結果。


Dodgy diff 和意圖感知工作流用于生成即時捕獲(Just-in-Time Catches)的架構

Meta 表示,該系統(tǒng)在超過 22,000 個生成測試上進行了評估。結果顯示,與基線生成測試相比,缺陷檢測能力提升了 4 倍;與偶然結果相比,在檢測有意義失敗方面最高提升達 20 倍。在一個評估子集中,共識別出 41 個問題,其中 8 個被確認是真實缺陷,包括若干可能影響生產環(huán)境的問題。

Mark Harman 在另一篇 LinkedIn 帖子 中強調:

變異測試在學術圈沉寂了幾十年之后,終于開始走向工業(yè)界,并正在重塑實用且可擴展的軟件測試 2.0。

捕獲型 JiT 測試專為 AI 驅動的開發(fā)設計,按每次變更生成,用于在無需持續(xù)維護的情況下檢測嚴重且意外的缺陷。它們通過隨著代碼演進自動適配并將工作從人類轉移到機器,從而減少脆弱的測試套件。只有在發(fā)現(xiàn)有意義的問題時才需要人工審查。這將測試從靜態(tài)正確性驗證重新定義為面向特定變更的故障檢測。

https://www.infoq.com/news/2026/04/meta-jit-testing-ai-detection/

聲明:本文由 InfoQ 翻譯,未經許可禁止轉載。

會議推薦

世界模型的下一個突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發(fā)體系不重構,還能撐多久?

AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態(tài)智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業(yè)級研發(fā)體系重構。14 個專題全面開放征稿。

誠摯邀請你登臺分享實戰(zhàn)經驗。AICon 2026,期待與你同行。

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
其實從某個角度來說,李自成才是真正挽救了華夏民族的人

其實從某個角度來說,李自成才是真正挽救了華夏民族的人

掠影后有感
2026-05-06 09:58:38
汽油稅幾乎占了油價的5成,如果未來路上都是電動車,稅從哪收?

汽油稅幾乎占了油價的5成,如果未來路上都是電動車,稅從哪收?

講者普拉斯
2026-05-04 17:58:00
FIFA急瘋了!2000萬美元打發(fā)叫花子?許多國家和中國一樣不買單了

FIFA急瘋了!2000萬美元打發(fā)叫花子?許多國家和中國一樣不買單了

春序娛樂
2026-05-07 04:52:17
吳宜澤奪冠后首度現(xiàn)身國內,在西安機場受球迷接機送花,之后還將舉行見面會,此前他曾表示想回國吃美食、見朋友

吳宜澤奪冠后首度現(xiàn)身國內,在西安機場受球迷接機送花,之后還將舉行見面會,此前他曾表示想回國吃美食、見朋友

極目新聞
2026-05-07 07:12:51
申京再遭打擊!場均20+9+6仍不被認可?最被高估球員榜,他排第一

申京再遭打擊!場均20+9+6仍不被認可?最被高估球員榜,他排第一

熊哥愛籃球
2026-05-07 12:38:28
炸裂!32歲長子弒殺全家!父母三弟全遇害,二弟死里逃生!

炸裂!32歲長子弒殺全家!父母三弟全遇害,二弟死里逃生!

北國向錫安
2026-05-07 09:54:40
英國車手哈蒙德飛赴上海試駕張雪機車,直言燃油時代已無長久!

英國車手哈蒙德飛赴上海試駕張雪機車,直言燃油時代已無長久!

林子說事
2026-05-07 10:48:53
中美同時向全球下達禁令,各國都傻眼了!美媒:中國此舉史無前例

中美同時向全球下達禁令,各國都傻眼了!美媒:中國此舉史無前例

桑啟紅原
2026-05-06 05:00:41
“機車女神”痞幼拿下張雪!評論區(qū)淪陷了!

“機車女神”痞幼拿下張雪!評論區(qū)淪陷了!

4A廣告文案
2026-05-07 09:13:48
俄羅斯尷尬了!5月9日勝利日核心嘉賓拒絕參加!

俄羅斯尷尬了!5月9日勝利日核心嘉賓拒絕參加!

回京歷史夢
2026-05-07 12:36:26
東體:內地媒體遲遲無法辦理世界杯簽證,體育版權定價應回歸理性

東體:內地媒體遲遲無法辦理世界杯簽證,體育版權定價應回歸理性

懂球帝
2026-05-07 11:16:09
奪冠僅1天,人民日報接連點名吳宜澤,釋放3個強烈信號,字字珠璣

奪冠僅1天,人民日報接連點名吳宜澤,釋放3個強烈信號,字字珠璣

尋墨閣
2026-05-06 06:33:51
“臺獨”頑固分子劉世芳親屬已被在大陸臺企解職

“臺獨”頑固分子劉世芳親屬已被在大陸臺企解職

界面新聞
2026-05-06 21:01:54
游戲中的中國背景永遠都是臟亂差,“不隨地吐痰”顯得格外刺眼

游戲中的中國背景永遠都是臟亂差,“不隨地吐痰”顯得格外刺眼

街機時代
2026-05-06 15:00:03
馬克龍說已向伊朗提議法英牽頭霍爾木茲海峽護航行動

馬克龍說已向伊朗提議法英牽頭霍爾木茲海峽護航行動

新華社
2026-05-07 10:42:05
東北一家五一游蘇州,曬8菜一湯團餐引熱議,網(wǎng)友:餓急眼了才吃

東北一家五一游蘇州,曬8菜一湯團餐引熱議,網(wǎng)友:餓急眼了才吃

神牛
2026-05-06 09:53:44
高市這一跪,“里外不是人”!

高市這一跪,“里外不是人”!

國是直通車
2026-05-06 17:38:18
突然發(fā)現(xiàn)一個殘忍真相:極度自律,每天鍛煉的人,不一定能長壽,但是,極度自私,不為任何人、任何事操心的人很可能長壽

突然發(fā)現(xiàn)一個殘忍真相:極度自律,每天鍛煉的人,不一定能長壽,但是,極度自私,不為任何人、任何事操心的人很可能長壽

LULU生活家
2026-05-02 08:35:04
特德·特納逝世

特德·特納逝世

澎湃新聞
2026-05-07 09:56:09
把瑜伽褲穿成日常的松弛感美女

把瑜伽褲穿成日常的松弛感美女

只要高興就好
2026-04-13 14:30:30
2026-05-07 13:15:00
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學家,提供AI領域技術資訊。
1476文章數(shù) 149關注度
往期回顧 全部

科技要聞

凌晨突發(fā)!馬斯克租22萬塊GPU給“死敵”

頭條要聞

北京三位女大學生青海自駕游2死1傷 傷者一審獲刑4年

頭條要聞

北京三位女大學生青海自駕游2死1傷 傷者一審獲刑4年

體育要聞

阿森納巴黎會師歐冠決賽!5月31日開戰(zhàn)

娛樂要聞

小S阿雅重返大S母校,翻看大S畢業(yè)照

財經要聞

特朗普:美伊“很有可能”達成協(xié)議

汽車要聞

理想為什么不做轎車,有了解釋……

態(tài)度原創(chuàng)

本地
親子
數(shù)碼
健康
公開課

本地新聞

用青花瓷的方式,打開西溪濕地

親子要聞

大家好呀,我是優(yōu)奈!四個月啦

數(shù)碼要聞

三星筆記本版Exynos 2800芯片曝光:1.4nm十核CPU

干細胞治燒燙傷面臨這些“瓶頸”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版