国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Anthropic再發(fā)Agent神文:像人類工程師一樣思考,解決「長程任務(wù)」難題

0
分享至


↑閱讀之前記得關(guān)注+星標(biāo)??,,每天才能第一時(shí)間接收到更新

Anthropic再發(fā)Agent工程實(shí)踐神文:Effective harnesses for long-running agents(適用于長期運(yùn)行Agents的有效工具),強(qiáng)烈建議大家圍觀閱讀

之前我介紹過Anthropic Agent文章合集這里:

隨著AI Agent能力的提升,開發(fā)者開始要求它們承擔(dān)跨越數(shù)小時(shí)甚至數(shù)天的復(fù)雜任務(wù)。然而,如何讓Agent在多個(gè)上下文窗口之間保持一致的進(jìn)度,仍然是一個(gè)未解難題

長程Agent面臨的核心挑戰(zhàn)在于,它們必須分“會(huì)話”(Session)工作,而每個(gè)新會(huì)話開始時(shí)都像是一個(gè)沒有過往記憶的新工程師接班。由于上下文窗口有限,且復(fù)雜項(xiàng)目無法在單一窗口內(nèi)完成,Agent需要一種機(jī)制來彌合編碼會(huì)話之間的鴻溝

Anthropic工程團(tuán)隊(duì)通過觀察人類工程師的工作方式,為Claude Agent SDK開發(fā)了一套包含兩個(gè)部分的解決方案:初始化Agent(Initializer Agent)和編碼Agent(Coding Agent)

核心挑戰(zhàn):上下文壓縮還不夠

Claude Agent SDK是一個(gè)通用的Agent框架,具備上下文管理功能(如壓縮),理論上應(yīng)能讓Agent無限期工作

但在實(shí)際測試中(例如要求最新的Opus 4.5構(gòu)建一個(gè)claude.ai的克隆版),僅靠上下文壓縮是不夠的。Claude主要表現(xiàn)出兩種失敗模式:

1.試圖一次性完成所有工作:Agent傾向于在一次會(huì)話中做太多事,導(dǎo)致中途耗盡上下文,留下的功能只完成了一半且缺乏文檔。下一個(gè)會(huì)話的Agent必須猜測之前發(fā)生了什么,浪費(fèi)大量時(shí)間修復(fù)基礎(chǔ)應(yīng)用

2.過早宣布完工: 在項(xiàng)目后期,新的Agent實(shí)例看到已經(jīng)有一些功能,就誤以為整個(gè)工作已完成

解決方案:雙Agent架構(gòu)

Anthropic將問題分解,提出了雙重解決方案:

初始化Agent:第一個(gè)會(huì)話使用專用提示詞,負(fù)責(zé)搭建環(huán)境。包括生成init.sh腳本、記錄進(jìn)度的claude-progress.txt文件,以及展示文件添加情況的初始Git提交

編碼Agent:后續(xù)的每一個(gè)會(huì)話都致力于取得增量進(jìn)展,并留下結(jié)構(gòu)化的更新

這一方案的關(guān)鍵在于讓Agent在開啟新窗口時(shí)能迅速理解工作狀態(tài)——這主要通過claude-progress.txt文件和Git歷史記錄來實(shí)現(xiàn)

環(huán)境管理的三大支柱

為了支持這種工作流,環(huán)境設(shè)置包含以下關(guān)鍵組件:

1. 功能列表(Feature List)

為了防止Agent一次性蠻干或過早結(jié)束,初始化Agent被要求編寫一個(gè)包含所有功能需求的詳細(xì)文件。在claude.ai克隆案例中,這包含超過200個(gè)功能點(diǎn)。

這些功能最初都被標(biāo)記為“failing”(未通過),為后續(xù)Agent提供了清晰的工作全景圖

JSON文件示例:

{
"category": "functional",
"description": "New chat button creates a fresh conversation",
"steps": [
"Navigate to main interface",
"Click the 'New Chat' button",
"Verify a new conversation is created",
"Check that chat area shows welcome state",
"Verify conversation appears in sidebar"
],
"passes": false
}

實(shí)驗(yàn)發(fā)現(xiàn),使用JSON格式優(yōu)于Markdown,因?yàn)槟P筒惶菀族e(cuò)誤地更改或覆蓋JSON文件。同時(shí),提示詞需包含強(qiáng)硬指令,禁止刪除或編輯測試,只允許更改passes字段的狀態(tài)

2. 增量進(jìn)展(Incremental Progress)

有了初始腳手架后,編碼Agent被要求一次只做一個(gè)功能

為了保持環(huán)境整潔,Agent需要在每次代碼變更后:

通過Git提交代碼,并附帶描述性信息;

在進(jìn)度文件中撰寫摘要

這使得模型可以利用Git回滾錯(cuò)誤代碼,恢復(fù)到工作狀態(tài),避免了后續(xù)Agent需要猜測前任做了什么的情況。

3. 端到端測試

Claude的另一個(gè)主要失敗模式是:在沒有適當(dāng)測試的情況下標(biāo)記功能為完成。它往往只做單元測試或簡單的curl命令,卻忽略了端到端的驗(yàn)證。

解決方案是明確提示Claude使用瀏覽器自動(dòng)化工具(如Puppeteer MCP server),像人類用戶一樣進(jìn)行測試。通過讓Claude看到屏幕截圖,它能識(shí)別并修復(fù)代碼中不明顯的Bug

快速上手流程(Getting up to speed)

基于上述架構(gòu),每個(gè)編碼Agent在會(huì)話開始時(shí)都會(huì)被提示執(zhí)行一系列標(biāo)準(zhǔn)步驟:

  1. 1. 運(yùn)行pwd查看當(dāng)前工作目錄。

  2. 2. 閱讀Git日志和進(jìn)度文件,了解最近完成了什么。

  3. 3. 閱讀功能列表文件,選擇一個(gè)未完成的最高優(yōu)先級(jí)功能。

  4. 4. 運(yùn)行init.sh啟動(dòng)開發(fā)服務(wù)器。

  5. 5. 在實(shí)現(xiàn)新功能前,先運(yùn)行基本的端到端測試,確保應(yīng)用未處于損壞狀態(tài)。

典型會(huì)話流程示例:

[Assistant] 我先了解一下項(xiàng)目當(dāng)前狀態(tài)。 [Tool Use] [Tool Use] [Tool Use] [Assistant] 檢查Git日志... [Tool Use] [Assistant] 檢查是否有啟動(dòng)腳本并重啟服務(wù)器... [Assistant] 現(xiàn)在驗(yàn)證基本功能是否正常... [Assistant] 驗(yàn)證通過。現(xiàn)在我查看 tests.json 決定下一步做什么。
常見故障模式與修復(fù)方案總結(jié)

問題

初始化Agent行為

編碼Agent行為

Claude過早宣布項(xiàng)目全部完成

根據(jù)輸入規(guī)格,建立包含詳細(xì)功能描述的結(jié)構(gòu)化JSON文件。

會(huì)話開始時(shí)讀取功能列表,只選擇一個(gè)功能開始工作。

環(huán)境遺留Bug或無文檔記錄

建立初始Git倉庫和進(jìn)度筆記文件。

開始時(shí)讀取進(jìn)度文件和Git日志;運(yùn)行基礎(chǔ)測試發(fā)現(xiàn)潛在Bug;結(jié)束時(shí)提交Git和進(jìn)度更新。

過早標(biāo)記功能為“完成”

建立功能列表文件。

自我驗(yàn)證所有功能。僅在仔細(xì)測試后標(biāo)記功能為“通過”。

浪費(fèi)時(shí)間研究如何運(yùn)行App

編寫能運(yùn)行開發(fā)服務(wù)器的init.sh腳本。

會(huì)話開始時(shí)直接讀取并運(yùn)行init.sh。

這項(xiàng)研究展示了長程Agent框架的一種可行方案,但仍有未解決的問題:

單Agent vs 多Agent:目前尚不清楚是通用的編碼Agent表現(xiàn)最好,還是采用多Agent架構(gòu)(如專門的測試Agent、QA Agent、代碼清理Agent)更優(yōu)

領(lǐng)域泛化:本演示針對(duì)全棧Web開發(fā)。未來方向是將這些經(jīng)驗(yàn)推廣到科學(xué)研究或金融建模等其他長程任務(wù)領(lǐng)域

參考:

https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

--end--

最后記得??我,這對(duì)我非常重要,每天都在更新:

歡迎點(diǎn)贊轉(zhuǎn)發(fā)推薦評(píng)論,別忘了關(guān)注我

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美軍B2轟炸機(jī)空襲伊朗導(dǎo)彈設(shè)施

美軍B2轟炸機(jī)空襲伊朗導(dǎo)彈設(shè)施

財(cái)聯(lián)社
2026-03-02 01:22:05
美軍方稱摧毀伊朗伊斯蘭革命衛(wèi)隊(duì)總部

美軍方稱摧毀伊朗伊斯蘭革命衛(wèi)隊(duì)總部

財(cái)聯(lián)社
2026-03-02 03:44:09
伊朗前總統(tǒng)內(nèi)賈德身亡細(xì)節(jié):住所遭空襲,和保鏢一同遇害;其以“反美戰(zhàn)士”著稱,任內(nèi)堅(jiān)定推進(jìn)伊朗核計(jì)劃

伊朗前總統(tǒng)內(nèi)賈德身亡細(xì)節(jié):住所遭空襲,和保鏢一同遇害;其以“反美戰(zhàn)士”著稱,任內(nèi)堅(jiān)定推進(jìn)伊朗核計(jì)劃

揚(yáng)子晚報(bào)
2026-03-01 22:28:50
據(jù)稱伊朗首次使用“法塔赫-2”導(dǎo)彈襲擊美軍基地

據(jù)稱伊朗首次使用“法塔赫-2”導(dǎo)彈襲擊美軍基地

環(huán)球網(wǎng)資訊
2026-03-01 20:05:07
美以軍事行動(dòng)引發(fā)伊朗“最猛烈”回?fù)?中東危局40小時(shí)一文速覽

美以軍事行動(dòng)引發(fā)伊朗“最猛烈”回?fù)?中東危局40小時(shí)一文速覽

環(huán)球網(wǎng)資訊
2026-03-02 07:21:11
“獅子的咆哮”之下,伊朗進(jìn)入后哈梅內(nèi)伊?xí)r代

“獅子的咆哮”之下,伊朗進(jìn)入后哈梅內(nèi)伊?xí)r代

秋月獨(dú)朗
2026-03-01 15:32:10
哈梅內(nèi)衣同志犧牲細(xì)節(jié)曝光,40骨干一起帶走

哈梅內(nèi)衣同志犧牲細(xì)節(jié)曝光,40骨干一起帶走

難得君
2026-03-01 21:11:01
金銀全線高開,國際油價(jià)飆升

金銀全線高開,國際油價(jià)飆升

界面新聞
2026-03-02 07:30:04
中國男籃為何能逆轉(zhuǎn)臺(tái)北隊(duì)?蘇群點(diǎn)評(píng)一針見血!4人滿分3人不合格

中國男籃為何能逆轉(zhuǎn)臺(tái)北隊(duì)?蘇群點(diǎn)評(píng)一針見血!4人滿分3人不合格

籃球掃地僧
2026-03-01 18:54:46
哈梅內(nèi)伊死后,有伊朗人分析:現(xiàn)在還沒到慶祝的時(shí)候

哈梅內(nèi)伊死后,有伊朗人分析:現(xiàn)在還沒到慶祝的時(shí)候

小蘿卜絲
2026-03-01 09:56:11
胡塞武裝、黎巴嫩真主黨和哈馬斯就哈梅內(nèi)伊遇害發(fā)聲

胡塞武裝、黎巴嫩真主黨和哈馬斯就哈梅內(nèi)伊遇害發(fā)聲

參考消息
2026-03-01 20:06:21
哈梅內(nèi)伊開會(huì)時(shí)遭襲身亡,細(xì)節(jié)披露!美媒:伊朗防長等約40名官員在襲擊中死亡!伊方:總統(tǒng)等將領(lǐng)導(dǎo)國家

哈梅內(nèi)伊開會(huì)時(shí)遭襲身亡,細(xì)節(jié)披露!美媒:伊朗防長等約40名官員在襲擊中死亡!伊方:總統(tǒng)等將領(lǐng)導(dǎo)國家

每日經(jīng)濟(jì)新聞
2026-03-01 12:09:04
比張鎮(zhèn)麟還差!中國男籃逆轉(zhuǎn)夜最失意之人:失誤被換下 出場30秒

比張鎮(zhèn)麟還差!中國男籃逆轉(zhuǎn)夜最失意之人:失誤被換下 出場30秒

侃球熊弟
2026-03-02 00:23:37
特朗普稱美方“基本摧毀”伊朗海軍總部

特朗普稱美方“基本摧毀”伊朗海軍總部

財(cái)聯(lián)社
2026-03-02 01:29:13
巴拿馬變天,大清算開始了!真正的大國力量,有人根本一無所知!

巴拿馬變天,大清算開始了!真正的大國力量,有人根本一無所知!

阿訊說天下
2026-03-01 14:33:45
今年,北京已無離職潮

今年,北京已無離職潮

微微熱評(píng)
2026-03-01 18:45:40
一覺醒來,美軍巨大傷亡,14個(gè)基地遭轟炸,伊朗打得很慘烈

一覺醒來,美軍巨大傷亡,14個(gè)基地遭轟炸,伊朗打得很慘烈

策略述
2026-03-01 14:29:56
震驚!網(wǎng)傳天津一中學(xué)未返校學(xué)生超100人,三分之二沒寫寒假作業(yè)

震驚!網(wǎng)傳天津一中學(xué)未返校學(xué)生超100人,三分之二沒寫寒假作業(yè)

火山詩話
2026-03-01 07:24:21
伊朗為什么不學(xué)澤連斯基給民眾發(fā)槍?

伊朗為什么不學(xué)澤連斯基給民眾發(fā)槍?

昊軒看世界
2026-03-01 11:02:14
哈梅內(nèi)伊身亡,布達(dá)諾夫:俄羅斯會(huì)接受美國為烏克蘭提供的安全保證 | 狼叔看世界

哈梅內(nèi)伊身亡,布達(dá)諾夫:俄羅斯會(huì)接受美國為烏克蘭提供的安全保證 | 狼叔看世界

狼叔看世界
2026-03-01 11:40:52
2026-03-02 08:56:49
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專注于人工智能,科技領(lǐng)域
1034文章數(shù) 396關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財(cái)經(jīng)要聞

中東國際機(jī)場滯留者:機(jī)場像“難民所”

汽車要聞

理想汽車2月交付26421輛 歷史累計(jì)交付超159萬輛

態(tài)度原創(chuàng)

家居
數(shù)碼
房產(chǎn)
健康
軍事航空

家居要聞

素色肌理 品意式格調(diào)

數(shù)碼要聞

小米拍攝眼鏡奪2025年銷量第一 份額獨(dú)占超50%

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

軍事要聞

美軍動(dòng)用新型武器:山寨伊朗的

無障礙瀏覽 進(jìn)入關(guān)懷版