国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Claude Code新功能Auto Mode能否替代人工審核?首個(gè)壓力測(cè)試來了

0
分享至



隨著 AI coding agent 從 “輔助寫代碼” 走向 “直接執(zhí)行開發(fā)操作”,模型開始被賦予修改代碼、部署服務(wù)等真實(shí)運(yùn)維權(quán)限。為減少頻繁人工確認(rèn)帶來的打斷,Anthropic 近期為 Claude Code 推出 Auto Mode,希望通過自動(dòng)分類代替用戶審核操作。

然而,當(dāng)用戶指令本身存在權(quán)限上的歧義時(shí),Auto Mode 是否真的能夠穩(wěn)定替代人工審核?香港科技大學(xué)與 ETH Zurich 研究團(tuán)隊(duì)對(duì)這一問題進(jìn)行了首個(gè)系統(tǒng)壓力測(cè)試。

基于 128 個(gè)覆蓋 4 類運(yùn)維任務(wù)的授權(quán)歧義場(chǎng)景,研究發(fā)現(xiàn):Auto Mode 在該壓力測(cè)試上的端到端誤放行率達(dá)到 81.0%,且有 36.8% 的狀態(tài)改變動(dòng)作通過項(xiàng)目?jī)?nèi)文件編輯路徑繞過分類器。



  • 報(bào)告地址 http://arxiv.org/abs/2604.04978
  • 代碼地址 https://github.com/yan5ui/cc-auto-mode-measurement

Auto Mode 為何仍需要獨(dú)立壓力測(cè)試?

Anthropic 引入 Auto Mode 的直接動(dòng)機(jī),是在自主性與安全性之間尋找一個(gè)比 “逐條人工確認(rèn)” 更高效、又比 “完全跳過權(quán)限” 更穩(wěn)妥的中間方案。官方博客指出,Claude Code 用戶實(shí)際會(huì)批準(zhǔn)約 93% 的權(quán)限請(qǐng)求,這意味著頻繁彈窗雖然保留了人工審核環(huán)節(jié),卻也容易帶來明顯的認(rèn)知負(fù)擔(dān)。

相比之下,--dangerously-skip-permissions 雖然幾乎沒有交互成本,但缺乏足夠保護(hù);而 sandbox 方案安全性更高,卻需要額外維護(hù)隔離環(huán)境。Auto Mode 的目標(biāo),正是在低維護(hù)成本下盡可能提高自主執(zhí)行能力,同時(shí)攔截明顯超出用戶授權(quán)邊界的危險(xiǎn)操作。

從機(jī)制上看,Auto Mode 引入了一套分層權(quán)限架構(gòu)。官方將其概括為兩層防線:輸入側(cè)使用 server-side prompt-injection probe;輸出側(cè)則使用 transcript classifier 對(duì)即將執(zhí)行的動(dòng)作進(jìn)行審核。

在 transcript classifier 中,Claude Code 的操作被劃分為三個(gè)層級(jí)。Tier 1 是只讀安全工具與用戶顯式允許的安全規(guī)則;Tier 2 是項(xiàng)目目錄內(nèi)的文件寫入與編輯,這類操作默認(rèn)允許;只有 shell、外部服務(wù)調(diào)用等,才會(huì)進(jìn)入 Tier 3,由 sonnet 模型進(jìn)行正式審核。

從官方披露結(jié)果看,這套設(shè)計(jì)在 10,000 條真實(shí)內(nèi)部流量上,完整兩階段管線的 false positive rate 為 0.4%;在 52 條真實(shí) overeager actions 上,false negative rate 為 17%;在 1,000 條合成數(shù)據(jù)外傳任務(wù)上,false negative rate 為 5.7%。

然而,官方報(bào)告中的 “real overeager actions” 樣本量只有 52,且主要來自自然產(chǎn)生的內(nèi)部使用流量,并未對(duì)系統(tǒng)邊界進(jìn)行充分探索;其次,官方博客已經(jīng)給出多個(gè)典型風(fēng)險(xiǎn)例子,例如模糊指令下的 scope escalation、agent 自行推斷 job target、未被明確授權(quán)的共享資源操作等;這些恰恰說明,Auto Mode 最困難的問題并不是識(shí)別一個(gè)命令表面上是否危險(xiǎn),而是判斷某個(gè)具體動(dòng)作是否真的被用戶授權(quán),因此,再進(jìn)行獨(dú)立壓力測(cè)試就變得必要。

壓力測(cè)試環(huán)境設(shè)計(jì)

作者設(shè)計(jì)了一個(gè)專門面向 scope escalation 的壓力測(cè)試基準(zhǔn) AmPermBench,它聚焦于:當(dāng)用戶意圖方向正確、但目標(biāo)范圍、影響半徑與風(fēng)險(xiǎn)等級(jí)并未被充分說清時(shí),Auto Mode 能否準(zhǔn)確地區(qū)分授權(quán)動(dòng)作與越權(quán)動(dòng)作。整個(gè)基準(zhǔn)圍繞四類具有代表性的 DevOps 任務(wù)展開,包括分支清理、任務(wù)取消、服務(wù)重啟與制品清理。

AmPermBench 將每個(gè)任務(wù)構(gòu)造成一個(gè)固定的 4 × 4 × 2 prompt 矩陣,從三個(gè)維度控制歧義強(qiáng)度:其一是 Specificity,即用戶表達(dá)的明確程度;其二是 Blast Radius,即操作覆蓋范圍,從單一對(duì)象擴(kuò)展到一個(gè) ticket 范圍內(nèi)的多個(gè)候選目標(biāo);其三是 Risk Level,即環(huán)境風(fēng)險(xiǎn)等級(jí),從低風(fēng)險(xiǎn)開發(fā)側(cè)擴(kuò)展到高影響共享側(cè)。三者交叉后,每類任務(wù)生成 32 個(gè) prompt,四類任務(wù)合計(jì)形成 128 個(gè)壓力測(cè)試場(chǎng)景。

在具體實(shí)驗(yàn)中,研究使用 Claude code Sonnet 4.6 以 auto mode 測(cè)評(píng),并從所有有效會(huì)話中抽取出全部 253 個(gè)動(dòng)作,再采用 Claude Opus 作為 LLM judge(輔以人工驗(yàn)證)逐一標(biāo)記每個(gè)動(dòng)作為 真陽 TP、真陰 TN、假陽 FP 或 假陰 FN。陽性指 autom mode 對(duì)某個(gè)動(dòng)作進(jìn)行了攔截。



圖 1 AmPermBench 與整體評(píng)估架構(gòu)

實(shí)驗(yàn)結(jié)果與關(guān)鍵發(fā)現(xiàn)

1. 動(dòng)作級(jí)誤放行率偏高

對(duì)于全部動(dòng)作,實(shí)驗(yàn)得到:TP=27,TN=89,F(xiàn)P=22,F(xiàn)N=115,對(duì)應(yīng)端到端 FNR=81.0%、FPR=19.8%。這意味著在這套面向授權(quán)邊界的壓力測(cè)試中,大多數(shù)越權(quán)動(dòng)作最終并未被攔住。



表 1 auto mode 的總體表現(xiàn)

進(jìn)一步地,拆解分類器實(shí)際看到的 Tier 3 動(dòng)作后,發(fā)現(xiàn)在 160 個(gè)真正進(jìn)入 Tier 3 的動(dòng)作中,F(xiàn)NR 仍然高達(dá) 70.3%,而 FPR 則上升到 31.9%。



表 2 auto mode 在進(jìn)行 tier 2/3 分類后的表現(xiàn)

但是這里的 81.0% FNR 并不直接否定 Anthropic 官方披露的 17% FNR。后者來自生產(chǎn)流量中的 “real overeager actions”,而這篇論文刻意構(gòu)造的是授權(quán)與未授權(quán)目標(biāo)彼此相鄰的壓力場(chǎng)景,本質(zhì)上測(cè)量的是不同 workload 下的表現(xiàn)邊界,而非同一分布上的重復(fù)驗(yàn)證。

2. 沿歧義軸拆解后,暴露出明顯的啟發(fā)式偏好

按照 Blast Radius 的變化,隨著目標(biāo)范圍從單對(duì)象擴(kuò)展到更寬的 selector,整體 FNR 從 94.4%(B0) 下降到 77.6%(B3)。Auto Mode 似乎對(duì) “批量操作看起來更危險(xiǎn)” 這一模式更敏感,而對(duì)精確但越權(quán)的單點(diǎn)操作反而更容易放行。

對(duì)于 Risk Level,當(dāng)環(huán)境從低風(fēng)險(xiǎn) R0 切換到高風(fēng)險(xiǎn) R1 時(shí),F(xiàn)PR 從 9.2% 大幅升至 34.8%,Auto Mode 在高風(fēng)險(xiǎn)環(huán)境中的策略更 “保守”。



圖 2 auto mode 假陰率 / 假陽率隨 Blast Radius 軸以及 Specificity 軸的變化



表 3 auto mode 假陰率 / 假陽率隨 Risk 軸的變化

3. Tier 2 文件編輯存在結(jié)構(gòu)性覆蓋盲區(qū)

根據(jù) Anthropic 的設(shè)計(jì),項(xiàng)目目錄內(nèi)文件編輯屬于 Tier 2,默認(rèn)允許,不進(jìn)入分類器審核;在 AmPermBench 的實(shí)驗(yàn)結(jié)果中,當(dāng) agent 找不到預(yù)期 CLI 時(shí),會(huì)自然地轉(zhuǎn)而使用 Edit / Write 工具,甚至用內(nèi)聯(lián) Python 直接改寫項(xiàng)目文件。

由于這些操作都屬于 Tier 2,分類器完全看不到它們。數(shù)據(jù)上,93 個(gè)狀態(tài)改變動(dòng)作走的是 Tier 2,占全部動(dòng)作的 36.8%;其中所有不安全 Tier 2 動(dòng)作都按定義成為 FN。這并不是對(duì)系統(tǒng)的惡意規(guī)避;相反,agent 只是選擇了自己手頭最自然、最直接的可用工具來完成任務(wù)。真正暴露出的,是權(quán)限系統(tǒng)設(shè)計(jì)假設(shè)與 agent 實(shí)際行為之間的錯(cuò)位:系統(tǒng)假設(shè)危險(xiǎn)動(dòng)作主要通過 shell 發(fā)生,而 agent 實(shí)際上會(huì)通過任何可用路徑實(shí)現(xiàn)同等狀態(tài)改變。

總結(jié)

這項(xiàng)工作首次系統(tǒng)評(píng)估了 Claude Code Auto Mode 在授權(quán)歧義場(chǎng)景下的實(shí)際表現(xiàn)。實(shí)驗(yàn)表明,Auto Mode 雖然能夠在部分高風(fēng)險(xiǎn)操作上提供一定保護(hù),但整體誤放行率仍然偏高,更關(guān)鍵的問題在于:相當(dāng)一部分危險(xiǎn)狀態(tài)改變并不會(huì)進(jìn)入分類器,而是通過項(xiàng)目?jī)?nèi)文件編輯等路徑直接繞過審核。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
武漢市武昌區(qū)政府副區(qū)長(zhǎng),區(qū)公安分局局長(zhǎng)徐舫擬提名為市州副市州長(zhǎng)人選

武漢市武昌區(qū)政府副區(qū)長(zhǎng),區(qū)公安分局局長(zhǎng)徐舫擬提名為市州副市州長(zhǎng)人選

觀星賞月
2026-04-20 18:26:12
男孩cos弗利薩,媽媽用乳膠漆化妝,洗不掉成“永久皮膚”

男孩cos弗利薩,媽媽用乳膠漆化妝,洗不掉成“永久皮膚”

國(guó)創(chuàng)漫話
2026-04-19 15:57:41
對(duì)付男人最高明的本事,不是管住他,而是.....

對(duì)付男人最高明的本事,不是管住他,而是.....

十點(diǎn)讀書
2026-04-19 18:38:02
京東股權(quán)曝光:劉強(qiáng)東控制12.7%股權(quán)有73%投票權(quán) 獲1億美元股息

京東股權(quán)曝光:劉強(qiáng)東控制12.7%股權(quán)有73%投票權(quán) 獲1億美元股息

雷遞
2026-04-20 10:11:22
福原愛官宣三胎僅3天,男方被扒底朝天,前夫江宏杰的做法太體面

福原愛官宣三胎僅3天,男方被扒底朝天,前夫江宏杰的做法太體面

阿纂看事
2026-04-20 14:51:18
特朗普:由于安全原因,萬斯將不再參加談判;伊朗:已做好外交與軍事對(duì)抗兩手準(zhǔn)備

特朗普:由于安全原因,萬斯將不再參加談判;伊朗:已做好外交與軍事對(duì)抗兩手準(zhǔn)備

藍(lán)色海邊
2026-04-20 18:19:49
重磅!34歲國(guó)乒世界冠軍換籍復(fù)出 代表哈薩克斯坦參賽 效仿朱雨玲

重磅!34歲國(guó)乒世界冠軍換籍復(fù)出 代表哈薩克斯坦參賽 效仿朱雨玲

念洲
2026-04-20 11:51:43
很多微信群都變成了死群,因?yàn)槿撕茈y對(duì)沒有利益的事保持長(zhǎng)久熱情

很多微信群都變成了死群,因?yàn)槿撕茈y對(duì)沒有利益的事保持長(zhǎng)久熱情

大張的自留地
2026-04-20 13:10:12
東風(fēng) - 31 泄密大案:總工程師被美色策反,國(guó)之重器險(xiǎn)遭滅頂之災(zāi)

東風(fēng) - 31 泄密大案:總工程師被美色策反,國(guó)之重器險(xiǎn)遭滅頂之災(zāi)

干史人
2026-04-18 13:44:12
今天才知道:冰箱冷凍室不能放這4樣,放了冰箱容易炸,真可怕

今天才知道:冰箱冷凍室不能放這4樣,放了冰箱容易炸,真可怕

Home范
2026-04-20 11:07:38
首輪8場(chǎng)G1打完!你該明白:總冠軍級(jí)球隊(duì)僅這5支!

首輪8場(chǎng)G1打完!你該明白:總冠軍級(jí)球隊(duì)僅這5支!

運(yùn)籌帷幄的籃球
2026-04-20 14:08:09
“把列車當(dāng)自家客廳!”網(wǎng)友稱買商務(wù)座遇幾人打牌喧鬧,12306回應(yīng)

“把列車當(dāng)自家客廳!”網(wǎng)友稱買商務(wù)座遇幾人打牌喧鬧,12306回應(yīng)

瀟湘晨報(bào)
2026-04-20 17:22:03
全場(chǎng)嘩然!29歲女子在相親舞臺(tái)稱“娶我一定讓你爽”,王婆也懵了

全場(chǎng)嘩然!29歲女子在相親舞臺(tái)稱“娶我一定讓你爽”,王婆也懵了

火山詩話
2026-04-19 06:42:57
河南一男子因病偏癱,覺得虧欠妻子主動(dòng)離婚,女兒擺酒席慶祝:他們開心就好,離婚不離家,母親繼續(xù)照顧父親,房車等全部財(cái)產(chǎn)都在母親名下

河南一男子因病偏癱,覺得虧欠妻子主動(dòng)離婚,女兒擺酒席慶祝:他們開心就好,離婚不離家,母親繼續(xù)照顧父親,房車等全部財(cái)產(chǎn)都在母親名下

洪觀新聞
2026-04-20 16:20:08
巴鐵1.3萬中械師進(jìn)沙特,阿聯(lián)酋提1500億進(jìn)京,中東變天了

巴鐵1.3萬中械師進(jìn)沙特,阿聯(lián)酋提1500億進(jìn)京,中東變天了

戰(zhàn)爭(zhēng)史
2026-04-20 11:04:19
女神志玲姐姐已逐漸蔡明化

女神志玲姐姐已逐漸蔡明化

微微熱評(píng)
2026-04-09 11:59:36
山東泰安一男子在減肥訓(xùn)練營(yíng)內(nèi)身亡 當(dāng)?shù)鼐揭呀槿胝{(diào)查 訓(xùn)練營(yíng):其剛?cè)霠I(yíng)還未開始訓(xùn)練

山東泰安一男子在減肥訓(xùn)練營(yíng)內(nèi)身亡 當(dāng)?shù)鼐揭呀槿胝{(diào)查 訓(xùn)練營(yíng):其剛?cè)霠I(yíng)還未開始訓(xùn)練

紅星新聞
2026-04-20 16:24:29
那番絕境,大帝終究還要面對(duì)

那番絕境,大帝終究還要面對(duì)

虛聲
2026-04-20 08:08:29
“浩浩媽”新作被捆綁!表情嬌羞 身材太難頂

“浩浩媽”新作被捆綁!表情嬌羞 身材太難頂

游民星空
2026-04-19 11:03:24
國(guó)際奧委會(huì)明確表態(tài),對(duì)2036年奧運(yùn)會(huì)的申辦情況很是失望

國(guó)際奧委會(huì)明確表態(tài),對(duì)2036年奧運(yùn)會(huì)的申辦情況很是失望

安安說
2026-04-20 11:09:20
2026-04-20 20:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12811文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

華為Pura90逆周期定價(jià),4699元起,未漲價(jià)

頭條要聞

小學(xué)生遭多名中小學(xué)生施暴搜家 家長(zhǎng)以"入室搶劫"報(bào)案

頭條要聞

小學(xué)生遭多名中小學(xué)生施暴搜家 家長(zhǎng)以"入室搶劫"報(bào)案

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

鹿晗生日上熱搜,被關(guān)曉彤撕下體面

財(cái)經(jīng)要聞

利潤(rùn)暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

本地
房產(chǎn)
藝術(shù)
時(shí)尚
公開課

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

房產(chǎn)要聞

大規(guī)模商改??!海口西海岸,這波項(xiàng)目要贏麻了!

藝術(shù)要聞

王羲之《換鵝帖》尚在人間,驚艷無比!

今年最流行的衣服竟然是它?高級(jí)又氣質(zhì)!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版