国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

Anthropic再發(fā)Agent神文:像人類工程師一樣思考,解決「長程任務」難題

0
分享至


↑閱讀之前記得關注+星標??,,每天才能第一時間接收到更新

Anthropic再發(fā)Agent工程實踐神文:Effective harnesses for long-running agents(適用于長期運行Agents的有效工具),強烈建議大家圍觀閱讀

之前我介紹過Anthropic Agent文章合集這里:

隨著AI Agent能力的提升,開發(fā)者開始要求它們承擔跨越數小時甚至數天的復雜任務。然而,如何讓Agent在多個上下文窗口之間保持一致的進度,仍然是一個未解難題

長程Agent面臨的核心挑戰(zhàn)在于,它們必須分“會話”(Session)工作,而每個新會話開始時都像是一個沒有過往記憶的新工程師接班。由于上下文窗口有限,且復雜項目無法在單一窗口內完成,Agent需要一種機制來彌合編碼會話之間的鴻溝

Anthropic工程團隊通過觀察人類工程師的工作方式,為Claude Agent SDK開發(fā)了一套包含兩個部分的解決方案:初始化Agent(Initializer Agent)和編碼Agent(Coding Agent)

核心挑戰(zhàn):上下文壓縮還不夠

Claude Agent SDK是一個通用的Agent框架,具備上下文管理功能(如壓縮),理論上應能讓Agent無限期工作

但在實際測試中(例如要求最新的Opus 4.5構建一個claude.ai的克隆版),僅靠上下文壓縮是不夠的。Claude主要表現出兩種失敗模式:

1.試圖一次性完成所有工作:Agent傾向于在一次會話中做太多事,導致中途耗盡上下文,留下的功能只完成了一半且缺乏文檔。下一個會話的Agent必須猜測之前發(fā)生了什么,浪費大量時間修復基礎應用

2.過早宣布完工: 在項目后期,新的Agent實例看到已經有一些功能,就誤以為整個工作已完成

解決方案:雙Agent架構

Anthropic將問題分解,提出了雙重解決方案:

初始化Agent:第一個會話使用專用提示詞,負責搭建環(huán)境。包括生成init.sh腳本、記錄進度的claude-progress.txt文件,以及展示文件添加情況的初始Git提交

編碼Agent:后續(xù)的每一個會話都致力于取得增量進展,并留下結構化的更新

這一方案的關鍵在于讓Agent在開啟新窗口時能迅速理解工作狀態(tài)——這主要通過claude-progress.txt文件和Git歷史記錄來實現

環(huán)境管理的三大支柱

為了支持這種工作流,環(huán)境設置包含以下關鍵組件:

1. 功能列表(Feature List)

為了防止Agent一次性蠻干或過早結束,初始化Agent被要求編寫一個包含所有功能需求的詳細文件。在claude.ai克隆案例中,這包含超過200個功能點。

這些功能最初都被標記為“failing”(未通過),為后續(xù)Agent提供了清晰的工作全景圖

JSON文件示例:

{
"category": "functional",
"description": "New chat button creates a fresh conversation",
"steps": [
"Navigate to main interface",
"Click the 'New Chat' button",
"Verify a new conversation is created",
"Check that chat area shows welcome state",
"Verify conversation appears in sidebar"
],
"passes": false
}

實驗發(fā)現,使用JSON格式優(yōu)于Markdown,因為模型不太容易錯誤地更改或覆蓋JSON文件。同時,提示詞需包含強硬指令,禁止刪除或編輯測試,只允許更改passes字段的狀態(tài)

2. 增量進展(Incremental Progress)

有了初始腳手架后,編碼Agent被要求一次只做一個功能

為了保持環(huán)境整潔,Agent需要在每次代碼變更后:

通過Git提交代碼,并附帶描述性信息;

在進度文件中撰寫摘要

這使得模型可以利用Git回滾錯誤代碼,恢復到工作狀態(tài),避免了后續(xù)Agent需要猜測前任做了什么的情況。

3. 端到端測試

Claude的另一個主要失敗模式是:在沒有適當測試的情況下標記功能為完成。它往往只做單元測試或簡單的curl命令,卻忽略了端到端的驗證。

解決方案是明確提示Claude使用瀏覽器自動化工具(如Puppeteer MCP server),像人類用戶一樣進行測試。通過讓Claude看到屏幕截圖,它能識別并修復代碼中不明顯的Bug

快速上手流程(Getting up to speed)

基于上述架構,每個編碼Agent在會話開始時都會被提示執(zhí)行一系列標準步驟:

  1. 1. 運行pwd查看當前工作目錄。

  2. 2. 閱讀Git日志和進度文件,了解最近完成了什么。

  3. 3. 閱讀功能列表文件,選擇一個未完成的最高優(yōu)先級功能。

  4. 4. 運行init.sh啟動開發(fā)服務器。

  5. 5. 在實現新功能前,先運行基本的端到端測試,確保應用未處于損壞狀態(tài)。

典型會話流程示例:

[Assistant] 我先了解一下項目當前狀態(tài)。 [Tool Use] [Tool Use] [Tool Use] [Assistant] 檢查Git日志... [Tool Use] [Assistant] 檢查是否有啟動腳本并重啟服務器... [Assistant] 現在驗證基本功能是否正常... [Assistant] 驗證通過?,F在我查看 tests.json 決定下一步做什么。
常見故障模式與修復方案總結

問題

初始化Agent行為

編碼Agent行為

Claude過早宣布項目全部完成

根據輸入規(guī)格,建立包含詳細功能描述的結構化JSON文件。

會話開始時讀取功能列表,只選擇一個功能開始工作。

環(huán)境遺留Bug或無文檔記錄

建立初始Git倉庫和進度筆記文件。

開始時讀取進度文件和Git日志;運行基礎測試發(fā)現潛在Bug;結束時提交Git和進度更新。

過早標記功能為“完成”

建立功能列表文件。

自我驗證所有功能。僅在仔細測試后標記功能為“通過”。

浪費時間研究如何運行App

編寫能運行開發(fā)服務器的init.sh腳本。

會話開始時直接讀取并運行init.sh。

這項研究展示了長程Agent框架的一種可行方案,但仍有未解決的問題:

單Agent vs 多Agent:目前尚不清楚是通用的編碼Agent表現最好,還是采用多Agent架構(如專門的測試Agent、QA Agent、代碼清理Agent)更優(yōu)

領域泛化:本演示針對全棧Web開發(fā)。未來方向是將這些經驗推廣到科學研究或金融建模等其他長程任務領域

參考:

https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

--end--

最后記得??我,這對我非常重要,每天都在更新:

歡迎點贊轉發(fā)推薦評論,別忘了關注我

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
郵報:高層3天前便決定解雇阿莫林,因為踢狼隊他重啟三后衛(wèi)

郵報:高層3天前便決定解雇阿莫林,因為踢狼隊他重啟三后衛(wèi)

懂球帝
2026-01-05 21:26:11
1942年,章亞若抱著雙胞胎兒子孝嚴孝慈,這是母子三人唯一的合影

1942年,章亞若抱著雙胞胎兒子孝嚴孝慈,這是母子三人唯一的合影

萬物知識圈
2026-01-05 09:01:06
衛(wèi)報:切爾西正計劃1.35億鎊簽維尼修斯,皇馬可能考慮出售他

衛(wèi)報:切爾西正計劃1.35億鎊簽維尼修斯,皇馬可能考慮出售他

懂球帝
2026-01-05 21:37:09
養(yǎng)老金發(fā)放新通知!2月到賬時間有變,速查賬戶

養(yǎng)老金發(fā)放新通知!2月到賬時間有變,速查賬戶

李博世財經
2026-01-05 10:58:56
無緣國乒任職后,辭去鐵飯碗轉到圈外工作,郭躍如今級別年薪多少

無緣國乒任職后,辭去鐵飯碗轉到圈外工作,郭躍如今級別年薪多少

白面書誏
2026-01-05 18:24:44
徐鶯的博士論文致謝了許多人,仔細一看,真的是大家云集!

徐鶯的博士論文致謝了許多人,仔細一看,真的是大家云集!

穿透
2026-01-05 11:38:54
國乒教練競聘結束僅3天,令人擔心的一幕上演,樊振東果然沒說錯

國乒教練競聘結束僅3天,令人擔心的一幕上演,樊振東果然沒說錯

雅兒姐愛追劇
2026-01-05 02:52:01
看完電影版《尋秦記》,為古天樂一聲嘆息!終于理解江華為何拒演

看完電影版《尋秦記》,為古天樂一聲嘆息!終于理解江華為何拒演

頭號電影院
2026-01-05 13:56:04
痛心溫州16歲女孩玩迷室逃脫去世,家屬悲痛,商家回應,姐姐發(fā)聲

痛心溫州16歲女孩玩迷室逃脫去世,家屬悲痛,商家回應,姐姐發(fā)聲

可愛的羅
2026-01-05 12:50:56
2999元,這可能是蘋果今年最香的新機

2999元,這可能是蘋果今年最香的新機

劉奔跑
2026-01-04 23:56:41
我爸在大哥家養(yǎng)老,我們每年給6萬,我爸走后大哥拿出賬本:算賬

我爸在大哥家養(yǎng)老,我們每年給6萬,我爸走后大哥拿出賬本:算賬

風起見你
2026-01-04 05:03:15
要出大招救房地產了?

要出大招救房地產了?

混知房產
2026-01-05 07:38:54
頭號內奸?委副總統與美通話,特朗普稱贊:她愿意做任何必要的事

頭號內奸?委副總統與美通話,特朗普稱贊:她愿意做任何必要的事

吃貨的分享
2026-01-05 20:47:15
總決賽變東部墊底!步行者12連敗平隊史紀錄:卡萊爾繼續(xù)無緣千勝

總決賽變東部墊底!步行者12連敗平隊史紀錄:卡萊爾繼續(xù)無緣千勝

羅說NBA
2026-01-05 07:15:05
17+10+7!廣東大將填滿數據欄 決戰(zhàn)時刻助攻和罰籃難阻敗局

17+10+7!廣東大將填滿數據欄 決戰(zhàn)時刻助攻和罰籃難阻敗局

胖子噴球
2026-01-05 22:11:58
后果來了,中俄雙雙向美施壓,特朗普南美后花園夢碎,或要被彈劾

后果來了,中俄雙雙向美施壓,特朗普南美后花園夢碎,或要被彈劾

玫瑰與花海
2026-01-05 21:12:02
嫁黎明4年敗光7億家產,離婚后再嫁美國富豪,如今胖成大媽不敢認

嫁黎明4年敗光7億家產,離婚后再嫁美國富豪,如今胖成大媽不敢認

流史歲月
2026-01-04 15:14:02
中美軍事實力深度對比:妄自菲薄,是我們所犯的最大錯誤!

中美軍事實力深度對比:妄自菲薄,是我們所犯的最大錯誤!

老范談史
2025-12-21 19:43:17
龍永圖:暫不討論中國崛起,先回答三個更重要的問題

龍永圖:暫不討論中國崛起,先回答三個更重要的問題

深度報
2026-01-04 23:16:34
辣眼睛!艾格努從隊友背后,做出不雅動作,曾有同性戀史

辣眼睛!艾格努從隊友背后,做出不雅動作,曾有同性戀史

跑者排球視角
2026-01-05 06:38:05
2026-01-05 22:28:49
AI寒武紀 incentive-icons
AI寒武紀
專注于人工智能,科技領域
1025文章數 393關注度
往期回顧 全部

科技要聞

4100家科技企業(yè)集結賭城,CES揭開AI新戰(zhàn)場

頭條要聞

臺官員稱美抓捕馬杜羅是對大陸的有力威懾 外交部回應

頭條要聞

臺官員稱美抓捕馬杜羅是對大陸的有力威懾 外交部回應

體育要聞

50年最差曼聯主帥!盤點阿莫林尷尬紀錄

娛樂要聞

《探索新境2》王一博挑戰(zhàn)酋長巖

財經要聞

丁一凡:中美進入相對穩(wěn)定的競爭共存期

汽車要聞

海獅06EV冬季續(xù)航挑戰(zhàn) "電"這事比亞迪絕對玩明白了

態(tài)度原創(chuàng)

本地
親子
手機
房產
公開課

本地新聞

云游內蒙|初見呼和浩特,古今交融的北疆都會

親子要聞

寶媽必學,孩子做噩夢,警惕這樣的反應!

手機要聞

榮耀Magic8 Air再次被確認:天璣9500+長焦鏡頭,電池竟超5000mAh

房產要聞

再次登頂海南樓市!超越阿那亞的,只有阿那亞!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版