網易首頁 > 網易號 > 正文申請入駐

解決智能體手工構造難題！浙大&騰訊提出 ReCreate，從零自動構建領域智能體

2026-01-27 18:44:52　來源: AI科技評論

廣東舉報

分享至

AI 的「自我制造」時代正在到來。

如果你用過 Cursor、Copilot、CodeBuddy、Claude Code 這類 LLM Agent 產品，很快就會有這樣的感受：強大的基座模型固然重要，而優(yōu)質的智能體才是把模型能力兌現成 “可靠交付” 的關鍵。

智能體往往通過搭建一套腳手架來實現—— 它包含提示詞設計、工作流編排、工具設計、失敗反思機制、記憶組織方式等關鍵模塊。正是這套看不見的 “底層架構”，決定了智能體的行為模式：在一套成熟的腳手架支撐下，同一個基座模型能按部就班完成復雜任務：讀 repo → 跑測試 → 定位失敗 → 輸出最小補丁；而換一套粗糙的腳手架，模型就可能陷入盲目修改、重復試錯的困境，甚至越做越偏。

提示詞怎么寫、工作流怎么編排、工具怎么調用、失敗后如何反思、記憶如何組織 —— 這些智能體腳手架的實現細節(jié)，直接決定了這個智能體是 “高效助手” 還是 “麻煩制造者”。

但現實是，這些腳手架幾乎全靠手工打磨，這帶來兩方面的問題。

1、成本方面：對于每個細分領域，都要投入若干智能體研發(fā)工程師長期跟進效果，帶來高昂的成本，這阻礙了智能體向更多細分領域的普及；

2、性能方面：現實場景中，智能體研發(fā)工程師對智能體細節(jié)優(yōu)化能力良莠不齊，導致無法長期對智能體優(yōu)化做出有效的迭代。一個好的智能體腳手架和差的腳手架的差別很大；例如，測試發(fā)現， SWE-bench Verified 中 37% 的錯誤換個腳手架就能夠被解決。

想象一下：如果 AI 能像人類工程師一樣，從一次次試錯中摸清門道，自己設計出適配特定領域的智能體，而不是靠人類從零開始搭建 —— 這會不會徹底改變我們使用大模型的方式？

為了探索這種范式的可能性，來自浙大、騰訊等機構的研究者提出了ReCreate框架：它不依賴人類手工設計，而是讓智能體自主分析交互經驗、定位優(yōu)化方向、迭代完善腳手架，最終實現 “用智能體構建智能體” 的全新范式。

01
核心觀念：從 “看結果” 到 “學過程”

傳統(tǒng)方法的致命缺陷，在于把智能體的執(zhí)行過程壓縮成了一個冰冷的性能數值 —— 就像只看考試分數，卻不管學生哪個題沒做對、也不管學生如何思考的，自然無法精準改進。而 ReCreate 的核心洞察是：交互經驗里藏著成功與失敗的全部密碼。

智能體在解決任務時留下的每一步推理、每一次工具調用、每一次環(huán)境反饋，甚至是那些看似無用的嘗試，都是寶貴的教學素材。比如在數據科學任務中，智能體可能會直接用訓練集評估模型性能，導致誤以為模型效果很好；在軟件工程任務中，可能因為提交前的操作順序錯誤，導致生成的補丁為空。這些細節(jié)，光看最終分數永遠無法發(fā)現，但恰恰是優(yōu)化腳手架的關鍵。

ReCreate 的優(yōu)越性，就在于把 “黑箱優(yōu)化” 變成了 “白箱調試”—— 它不依賴抽象的性能指標，而是直接剖析智能體的交互軌跡、執(zhí)行日志和環(huán)境狀態(tài)，從中提煉出可落地的改進方案。這就像醫(yī)生不再只看體檢報告上的異常數值，而是通過完整病歷和癥狀軌跡精準診斷病因，治療自然更有效。

這里的圖示能直觀展示ReCreate框架的雙循環(huán)結構——Agent在內層循環(huán)解決問題，ReCreate-Agent 在外層循環(huán)分析經驗并優(yōu)化自身?，F有Agent搜索的方法只依賴于Agent的執(zhí)行分數（Scores），而ReCreate通過分析完整的交互經驗（Experience）來找到Agent優(yōu)化的方向。

02
技術內核：Agent as Optimizer的三重設計

要實現從交互經驗到腳手架改進的跨越，ReCreate 搭建了一套 “Agent as Optimizer” 的架構，靠三個核心組件打通了 “經驗提取 - 推理歸因 - 迭代優(yōu)化” 的閉環(huán)：

1、經驗存儲與檢索：在海量日志中精準定位關鍵線索

智能體的交互數據往往龐大且雜亂，直接投喂給 LLM 會造成信息過載。ReCreate 把每一次任務交互都整理成一系列可檢索的文件，這個文件系統(tǒng)構成了ReCreate-Agent的環(huán)境，專門用于檢索和分析軌跡中的證據。

這個由交互經驗構成的環(huán)境中還內置了證據檢索器 —— 它會自動索引錯誤、測試失敗、文件操作等關鍵事件，讓ReCreate-Agent能像偵探查案一樣，從最終結果反向追溯到問題根源。比如發(fā)現一個任務失敗了，優(yōu)化器可以直接定位到哪一步工具調用導致失敗，而不用在海量日志里大海撈針。

2、推理歸因 - 把交互經驗轉化為精準改進

光有經驗還不夠，關鍵是要把交互經驗變成腳手架的 “升級包”。ReCreate 的優(yōu)化器會先通過推理環(huán)節(jié)分析經驗：這個失敗是因為缺少某個規(guī)則？還是因為重復操作沒有自動化？或是工作流程順序錯了？然后通過創(chuàng)造環(huán)節(jié)生成針對性改進：需要加規(guī)則就補充約束，需要自動化就創(chuàng)建工具，需要調整流程就優(yōu)化步驟。

除此之外，ReCreate-Agent還配有“行動路由器”，能根據成功或失敗的證據決定修改或創(chuàng)造腳手架的哪個部分 —— 是調整智能體的規(guī)則流程，還是優(yōu)化推理策略；需要新增工具，還是調整記憶模式。

例如，在成功案例中，如果ReCreate-Agent發(fā)現可復用的模式，會自動將其提取為skills，作為后續(xù)任務的工具和經驗；在失敗案例中，ReCreate-Agent發(fā)現缺少某種規(guī)則而導致失敗，則會更新規(guī)則庫，加入可以規(guī)避這類失敗的規(guī)則。

這就像一位精準的工匠，不會對著作品盲目敲打，而是哪里有問題就針對性修補。

3、分層更新機制：從個體經驗到通用規(guī)律

如果只針對單個任務優(yōu)化，智能體很容易 “學死” —— 在這個任務上表現很好，換個任務就失靈。ReCreate 的分層更新機制解決了這個問題：首先收集多個任務的實例級改進建議，再通過領域級更新提煉出通用模式。

比如多個數據科學任務都出現了 “未劃分驗證集” 的問題，就會把 “必須使用訓練 - 驗證分割進行評估” 變成通用規(guī)則，而不是只在某個任務中臨時添加。這樣一來，智能體學到的就是領域通用知識，而不是單個任務的 “特化技巧”。

值得注意的是，ReCreate 和同類方法完全不同：它不依賴粗粒度性能指標，也不用預定義模塊池（區(qū)別于現有的ADAS、AgentSquare），更能從 0 開始創(chuàng)建智能體（區(qū)別于只能現有Self-Evolve方法），真正實現了 “經驗驅動的白箱優(yōu)化”。

另外，ReCreate的工具實現方式采用skills，完全可以實現在不同智能體之間的遷移和組合。

03
實驗結果：小成本，大提升

為驗證 ReCreate 框架的實際效能，研究者在軟件工程（SWE）、數據科學（DS）、數學（Math）、數字助理（Digital）四大核心領域，選取 13 個權威基準測試集展開全面評估。實驗不僅對比了傳統(tǒng)手工設計方案、自進化方法及自動化智能體生成技術，還通過消融實驗、成本分析等多維度驗證。

1、相比于傳統(tǒng)方案，多個領域任務通過率大幅提升

在所有測試場景中，ReCreate 的平均性能較當前最強對比方法提升超 5%，多個核心任務實現大幅提升：

? 數據科學領域的 NumPy 任務，通過率從 62% 提升至 77%，解決了數據處理中工具調用不規(guī)范、流程缺失等關鍵問題；

? 數學領域表現尤為突出，代數任務通過率從 81.45% 提升至 92.74%，數論與概率統(tǒng)計任務更是實現 100% 通過率，展現了對復雜推理場景的強大適配能力；

? 數據科學下的機器學習子任務，通過率從 34.32% 提升至 42.88%，成功規(guī)避了模型評估無驗證集、特征工程不規(guī)范等常見陷阱。

2、突破手工腳手架性能壁壘，超越人類專家設計

長期以來，手工設計的腳手架被視為領域智能體的通用范式，但ReCreate 憑借經驗驅動的迭代優(yōu)化實現了突破：

? 數據科學領域的 Data Wrangling 任務，手工方案通過率僅 42.81%，ReCreate 優(yōu)化后達到 51.94%，成功解決了數據清洗、格式轉換中的流程混亂問題；

? 可視化任務 Matplotlib 中，ReCreate 將通過率從 78.52% 提升至 85.19%，自動生成的圖表優(yōu)化工具和流程規(guī)范大幅降低了語法錯誤和邏輯偏差。

? 在軟件工程領域的 Django 項目測試中，人類專家設計的腳手架通過率為 58.29%，而 ReCreate 將這一數值提升至 60.19%；

3、成本指數級下降，無需大規(guī)模評估快速收斂

與 ADAS 等依賴預定義模塊池和大規(guī)模重復評估的自動化生成方法相比，ReCreate 憑借精準的經驗歸因機制，實現了成本與性能的平衡：

? 成本較 ADAS 降低 36%-82%，在相同大小的開發(fā)集下，ADAS 單次智能體生成15輪以上的迭代，而 ReCreate 僅需 2 輪開發(fā)集上的迭代即可實現更優(yōu)的性能；

? 迭代效率顯著提升，無需海量任務試錯，僅通過分析關鍵交互軌跡就能定位優(yōu)化方向，在 Django 項目中，從初始腳手架到最優(yōu)狀態(tài)僅需 4 個任務批次的經驗積累；

04
進一步驗證：消融實驗與分析實驗

1、消融實驗：經驗組件的不可替代性

為明確各核心組件的作用，研究者開展了針對性消融實驗，結果顯示：

? 移除完整交互軌跡后，性能平均下降 8.3%，證明 step-by-step 的推理過程、工具調用記錄是精準診斷失敗原因的關鍵，缺失后無法定位流程順序錯誤、重復操作等隱性問題；

? 去除執(zhí)行結果與評估反饋后，性能下降 6.7%，說明任務執(zhí)行結果、測試結果等具象反饋是錨定優(yōu)化方向的核心依據，缺少后易導致優(yōu)化脫離實際場景；

? 關閉環(huán)境狀態(tài)訪問后，性能下降 3.2%，驗證了 Docker 沙箱中的代碼庫狀態(tài)、文件系統(tǒng)信息等環(huán)境數據，對解決 “提交空補丁”” 文件路徑錯誤 “ 等場景化問題的重要性。

2、領域適配性：不同領域的優(yōu)化路徑差異化展現

ReCreate 在不同領域展現出高度自適應的優(yōu)化能力，其行為模式與領域特性深度匹配：

? 軟件工程領域：ReCreate重點優(yōu)化代碼編輯工具與提交流程，自動創(chuàng)建 “方法替換工具”（replace_method.py）等工具，避免手工修改的語法錯誤，同時明確”提交前必須運行特定測試” 等流程和記憶；

? 數據科學領域：ReCreate聚焦評估流程規(guī)范與特征工程工具，自動添加多個特征工程skills，把領域內可泛化的成功案例提煉成為可復用的skills；

? 數字助理領域：ReCreate傾向于進行軌跡分析與記憶更新，針對多步驟工具調用場景優(yōu)化流程順序，挑戰(zhàn)級任務通過率從 34.05% 提升至 40.29%，復雜指令理解準確率顯著提高。

3、推理能力消融：核心能力的決定性作用

ReCreate 的優(yōu)化效果高度依賴 ReCreate-Agent 的推理能力，針對性消融實驗清晰展現了這一核心前提：

? 當使用推理能力較弱的 GPT-5-mini 作為 ReCreate-Agent 時，在多數領域無法超越人類設計的腳手架。其中軟件工程領域通過率僅 57.09%，數據科學領域 DA-Code 任務通過率 37.13%，較 Claude-4.5-opus 版本平均下降 8.5%；

? 僅保留初始領域信息、移除 ReCreate-Agent 的推理優(yōu)化環(huán)節(jié)后，除數學領域因任務邏輯相對固定仍有一定表現外，其余領域性能大幅滑坡。數字助理挑戰(zhàn)級任務通過率從 40.29% 降至 34.05%，數據科學機器學習任務從 42.88% 回落至 34.32%，與原始基線持平；

? 采用 Claude-4.5-opus 作為 ReCreate-Agent 時，憑借強大的推理歸因能力，能精準定位交互軌跡中的各類問題，并轉化為針對性優(yōu)化，最終在全領域實現對人類設計腳手架的超越，驗證了強推理能力是 ReCreate 實現 “白箱優(yōu)化” 的關鍵支撐。這說明當前最強的模型已經可以在設計Agent這樣的任務上超越人類了。

4、魯棒性驗證：溫度敏感性與泛化能力測試

? 溫度穩(wěn)定性：在 ReCreate-Agent 的不同采樣溫度（0.0、0.5、1.0）下，平均性能波動不超過 1%，證明前沿大模型的推理能力已足夠支撐穩(wěn)定的智能體優(yōu)化，無需依賴特定的推理方式；

? 泛化能力：通過分層更新機制，ReCreate 將多個任務的實例級改進提煉為領域通用規(guī)則，在未見過的測試任務中，性能保持率達 95% 以上，遠高于傳統(tǒng)方法的 80%，避免了 “單任務特化” 陷阱。

更值得關注的是，在多個Case Study中可以發(fā)現：即使從極其簡陋的初始腳手架開始, ReCreate 也能在交互經驗的驅動下，逐步進化出復雜的工具集、嚴謹的推理規(guī)則和高效的記憶機制。比如在 Django 任務中，它會自動創(chuàng)建 “函數替換”工具，避免手動修改代碼的語法錯誤；還會積累 “提交前必須運行特定測試” 的經驗記憶，從而降低失敗率。

05
未來啟示：AI 的 “自我制造” 時代正在到來

ReCreate 的價值，核心在于為領域智能體的構建提供了一條更務實的路徑 —— 用經驗驅動的方式解決了手工設計的痛點。對開發(fā)者而言，這意味著無需投入大量精力從零搭建適配特定領域的腳手架：無論是缺少成熟方案的小眾科研場景，還是需求快速迭代的工業(yè)任務，只要提供基礎任務數據和環(huán)境，ReCreate 就能自主沉淀規(guī)律、優(yōu)化流程，生成貼合需求的專業(yè)智能體，大幅降低開發(fā)成本和試錯周期。

ReCreate 契合了人類學習的本質：不是靠他人灌輸的完美指令，而是在實踐中試錯、在反思中沉淀、在迭代中成長。隨著模型的能力逐漸突破某個邊界，Agent 開始像人類一樣 “從做中學”，智能體的創(chuàng)造或許將不再是少數專家的專利，而是Agent自身的本能。這一天，已經不再遙遠。

06
搭建 ReCreate 框架的人

本研究的第一作者郝哲正，現為浙江大學計算機學院2025級博士研究生，研究方向聚焦于 AI Agents 與 LLM RL，導師為陳佳偉研究員。

2023年-2024年，郝哲正曾師從李學龍、聶飛平教授，在機器學習領域發(fā)表多篇研究工作。2025 年以來，郝哲正從事代碼智能體的研究與構建。

本研究的通訊作者為董漢德、陳佳偉。

董漢德，騰訊技術專家，畢業(yè)于中國科學技術大學，負責騰訊CodeBuddy產品大模型研發(fā)。在大模型領域具有豐富的研究和落地經驗，包括大模型訓練、智能體等細分領域，谷歌學術引用超1500次。當下，主要致力于研發(fā)利用AI Agent產品收集到的用戶數據訓練高質量大模型的訓練范式。

陳佳偉，浙江大學計算機學院“百人計劃”研究員，博士生導師，于2020年獲得浙江大學計算機科學與技術博士學位，曾師從陳純院士、何向南教授，主要致力于推薦系統(tǒng)、大語言模型、智能體等領域的研究，谷歌學術引用超5000次，特別是在用戶行為分析與建模方面取得了一系列成果，曾獲SIGIR 2023最佳論文提名獎（CCF-A類）、WSDM 2025最佳論文獎（清華A類），多項成果也在快手、抖音、螞蟻、省公安等企事業(yè)單位落地應用，服務于上億用戶。

Paper: ReCreate: Reasoning and Creating Domain Agents Driven by Experience

Arxiv: https://arxiv.org/pdf/2601.11100

Github: https://github.com/zz-haooo/ReCreate

Huggingface: https://huggingface.co/papers/2601.11100

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區(qū)進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.