国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

解決智能體手工構造難題! 浙大&騰訊提出 ReCreate,從零自動構建領域智能體

0
分享至


AI 的「自我制造」 時代正在到來。

如果你用過 Cursor、Copilot、CodeBuddy、Claude Code 這類 LLM Agent 產品,很快就會有這樣的感受:強大的基座模型固然重要,而優(yōu)質的智能體才是把模型能力兌現成 “可靠交付” 的關鍵。

智能體往往通過搭建一套腳手架來實現—— 它包含提示詞設計、工作流編排、工具設計、失敗反思機制、記憶組織方式等關鍵模塊。正是這套看不見的 “底層架構”,決定了智能體的行為模式:在一套成熟的腳手架支撐下,同一個基座模型能按部就班完成復雜任務:讀 repo → 跑測試 → 定位失敗 → 輸出最小補丁;而換一套粗糙的腳手架,模型就可能陷入盲目修改、重復試錯的困境,甚至越做越偏。

提示詞怎么寫、工作流怎么編排、工具怎么調用、失敗后如何反思、記憶如何組織 —— 這些智能體腳手架的實現細節(jié),直接決定了這個智能體是 “高效助手” 還是 “麻煩制造者”。

但現實是,這些腳手架幾乎全靠手工打磨,這帶來兩方面的問題。

1、成本方面:對于每個細分領域,都要投入若干智能體研發(fā)工程師長期跟進效果,帶來高昂的成本,這阻礙了智能體向更多細分領域的普及;

2、性能方面:現實場景中,智能體研發(fā)工程師對智能體細節(jié)優(yōu)化能力良莠不齊,導致無法長期對智能體優(yōu)化做出有效的迭代。一個好的智能體腳手架和差的腳手架的差別很大;例如,測試發(fā)現, SWE-bench Verified 中 37% 的錯誤換個腳手架就能夠被解決。

想象一下:如果 AI 能像人類工程師一樣,從一次次試錯中摸清門道,自己設計出適配特定領域的智能體,而不是靠人類從零開始搭建 —— 這會不會徹底改變我們使用大模型的方式?

為了探索這種范式的可能性,來自浙大、騰訊等機構的研究者提出了ReCreate框架:它不依賴人類手工設計,而是讓智能體自主分析交互經驗、定位優(yōu)化方向、迭代完善腳手架,最終實現 “用智能體構建智能體” 的全新范式。

01
核心觀念:從 “看結果” 到 “學過程”

傳統(tǒng)方法的致命缺陷,在于把智能體的執(zhí)行過程壓縮成了一個冰冷的性能數值 —— 就像只看考試分數,卻不管學生哪個題沒做對、也不管學生如何思考的,自然無法精準改進。而 ReCreate 的核心洞察是:交互經驗里藏著成功與失敗的全部密碼。

智能體在解決任務時留下的每一步推理、每一次工具調用、每一次環(huán)境反饋,甚至是那些看似無用的嘗試,都是寶貴的教學素材。比如在數據科學任務中,智能體可能會直接用訓練集評估模型性能,導致誤以為模型效果很好;在軟件工程任務中,可能因為提交前的操作順序錯誤,導致生成的補丁為空。這些細節(jié),光看最終分數永遠無法發(fā)現,但恰恰是優(yōu)化腳手架的關鍵。

ReCreate 的優(yōu)越性,就在于把 “黑箱優(yōu)化” 變成了 “白箱調試”—— 它不依賴抽象的性能指標,而是直接剖析智能體的交互軌跡、執(zhí)行日志和環(huán)境狀態(tài),從中提煉出可落地的改進方案。這就像醫(yī)生不再只看體檢報告上的異常數值,而是通過完整病歷和癥狀軌跡精準診斷病因,治療自然更有效。


這里的圖示能直觀展示ReCreate框架的雙循環(huán)結構——Agent在內層循環(huán)解決問題,ReCreate-Agent 在外層循環(huán)分析經驗并優(yōu)化自身?,F有Agent搜索的方法只依賴于Agent的執(zhí)行分數(Scores),而ReCreate通過分析完整的交互經驗(Experience)來找到Agent優(yōu)化的方向。

02
技術內核:Agent as Optimizer的三重設計

要實現從交互經驗到腳手架改進的跨越,ReCreate 搭建了一套 “Agent as Optimizer” 的架構,靠三個核心組件打通了 “經驗提取 - 推理歸因 - 迭代優(yōu)化” 的閉環(huán):

1、經驗存儲與檢索:在海量日志中精準定位關鍵線索

智能體的交互數據往往龐大且雜亂,直接投喂給 LLM 會造成信息過載。ReCreate 把每一次任務交互都整理成一系列可檢索的文件,這個文件系統(tǒng)構成了ReCreate-Agent的環(huán)境,專門用于檢索和分析軌跡中的證據。

這個由交互經驗構成的環(huán)境中還內置了證據檢索器 —— 它會自動索引錯誤、測試失敗、文件操作等關鍵事件,讓ReCreate-Agent能像偵探查案一樣,從最終結果反向追溯到問題根源。比如發(fā)現一個任務失敗了,優(yōu)化器可以直接定位到哪一步工具調用導致失敗,而不用在海量日志里大海撈針。

2、推理歸因 - 把交互經驗轉化為精準改進

光有經驗還不夠,關鍵是要把交互經驗變成腳手架的 “升級包”。ReCreate 的優(yōu)化器會先通過推理環(huán)節(jié)分析經驗:這個失敗是因為缺少某個規(guī)則?還是因為重復操作沒有自動化?或是工作流程順序錯了?然后通過創(chuàng)造環(huán)節(jié)生成針對性改進:需要加規(guī)則就補充約束,需要自動化就創(chuàng)建工具,需要調整流程就優(yōu)化步驟。

除此之外,ReCreate-Agent還配有“行動路由器”,能根據成功或失敗的證據決定修改或創(chuàng)造腳手架的哪個部分 —— 是調整智能體的規(guī)則流程,還是優(yōu)化推理策略;需要新增工具,還是調整記憶模式。

例如,在成功案例中,如果ReCreate-Agent發(fā)現可復用的模式,會自動將其提取為skills,作為后續(xù)任務的工具和經驗;在失敗案例中,ReCreate-Agent發(fā)現缺少某種規(guī)則而導致失敗,則會更新規(guī)則庫,加入可以規(guī)避這類失敗的規(guī)則。

這就像一位精準的工匠,不會對著作品盲目敲打,而是哪里有問題就針對性修補。

3、分層更新機制:從個體經驗到通用規(guī)律

如果只針對單個任務優(yōu)化,智能體很容易 “學死” —— 在這個任務上表現很好,換個任務就失靈。ReCreate 的分層更新機制解決了這個問題:首先收集多個任務的實例級改進建議,再通過領域級更新提煉出通用模式。

比如多個數據科學任務都出現了 “未劃分驗證集” 的問題,就會把 “必須使用訓練 - 驗證分割進行評估” 變成通用規(guī)則,而不是只在某個任務中臨時添加。這樣一來,智能體學到的就是領域通用知識,而不是單個任務的 “特化技巧”。


值得注意的是,ReCreate 和同類方法完全不同:它不依賴粗粒度性能指標,也不用預定義模塊池(區(qū)別于現有的ADAS、AgentSquare),更能從 0 開始創(chuàng)建智能體(區(qū)別于只能現有Self-Evolve方法),真正實現了 “經驗驅動的白箱優(yōu)化”。

另外,ReCreate的工具實現方式采用skills,完全可以實現在不同智能體之間的遷移和組合。

03
實驗結果:小成本,大提升

為驗證 ReCreate 框架的實際效能,研究者在軟件工程(SWE)、數據科學(DS)、數學(Math)、數字助理(Digital)四大核心領域,選取 13 個權威基準測試集展開全面評估。實驗不僅對比了傳統(tǒng)手工設計方案、自進化方法及自動化智能體生成技術,還通過消融實驗、成本分析等多維度驗證。

1、相比于傳統(tǒng)方案,多個領域任務通過率大幅提升

在所有測試場景中,ReCreate 的平均性能較當前最強對比方法提升超 5%,多個核心任務實現大幅提升:

? 數據科學領域的 NumPy 任務,通過率從 62% 提升至 77%,解決了數據處理中工具調用不規(guī)范、流程缺失等關鍵問題;

? 數學領域表現尤為突出,代數任務通過率從 81.45% 提升至 92.74%,數論與概率統(tǒng)計任務更是實現 100% 通過率,展現了對復雜推理場景的強大適配能力;

? 數據科學下的機器學習子任務,通過率從 34.32% 提升至 42.88%,成功規(guī)避了模型評估無驗證集、特征工程不規(guī)范等常見陷阱。

2、突破手工腳手架性能壁壘,超越人類專家設計

長期以來,手工設計的腳手架被視為領域智能體的通用范式,但ReCreate 憑借經驗驅動的迭代優(yōu)化實現了突破:

? 數據科學領域的 Data Wrangling 任務,手工方案通過率僅 42.81%,ReCreate 優(yōu)化后達到 51.94%,成功解決了數據清洗、格式轉換中的流程混亂問題;

? 可視化任務 Matplotlib 中,ReCreate 將通過率從 78.52% 提升至 85.19%,自動生成的圖表優(yōu)化工具和流程規(guī)范大幅降低了語法錯誤和邏輯偏差。

? 在軟件工程領域的 Django 項目測試中,人類專家設計的腳手架通過率為 58.29%,而 ReCreate 將這一數值提升至 60.19%;


3、成本指數級下降,無需大規(guī)模評估快速收斂

與 ADAS 等依賴預定義模塊池和大規(guī)模重復評估的自動化生成方法相比,ReCreate 憑借精準的經驗歸因機制,實現了成本與性能的平衡:

? 成本較 ADAS 降低 36%-82%,在相同大小的開發(fā)集下,ADAS 單次智能體生成15輪以上的迭代,而 ReCreate 僅需 2 輪開發(fā)集上的迭代即可實現更優(yōu)的性能;

? 迭代效率顯著提升,無需海量任務試錯,僅通過分析關鍵交互軌跡就能定位優(yōu)化方向,在 Django 項目中,從初始腳手架到最優(yōu)狀態(tài)僅需 4 個任務批次的經驗積累;


04
進一步驗證:消融實驗與分析實驗

1、消融實驗:經驗組件的不可替代性

為明確各核心組件的作用,研究者開展了針對性消融實驗,結果顯示:

? 移除完整交互軌跡后,性能平均下降 8.3%,證明 step-by-step 的推理過程、工具調用記錄是精準診斷失敗原因的關鍵,缺失后無法定位流程順序錯誤、重復操作等隱性問題;

? 去除執(zhí)行結果與評估反饋后,性能下降 6.7%,說明任務執(zhí)行結果、測試結果等具象反饋是錨定優(yōu)化方向的核心依據,缺少后易導致優(yōu)化脫離實際場景;

? 關閉環(huán)境狀態(tài)訪問后,性能下降 3.2%,驗證了 Docker 沙箱中的代碼庫狀態(tài)、文件系統(tǒng)信息等環(huán)境數據,對解決 “提交空補丁”” 文件路徑錯誤 “ 等場景化問題的重要性。


2、領域適配性:不同領域的優(yōu)化路徑差異化展現

ReCreate 在不同領域展現出高度自適應的優(yōu)化能力,其行為模式與領域特性深度匹配:

? 軟件工程領域:ReCreate重點優(yōu)化代碼編輯工具與提交流程,自動創(chuàng)建 “方法替換工具”(replace_method.py)等工具,避免手工修改的語法錯誤,同時明確”提交前必須運行特定測試” 等流程和記憶;

? 數據科學領域:ReCreate聚焦評估流程規(guī)范與特征工程工具,自動添加多個特征工程skills,把領域內可泛化的成功案例提煉成為可復用的skills;

? 數字助理領域:ReCreate傾向于進行軌跡分析與記憶更新,針對多步驟工具調用場景優(yōu)化流程順序,挑戰(zhàn)級任務通過率從 34.05% 提升至 40.29%,復雜指令理解準確率顯著提高。

3、推理能力消融:核心能力的決定性作用

ReCreate 的優(yōu)化效果高度依賴 ReCreate-Agent 的推理能力,針對性消融實驗清晰展現了這一核心前提:

? 當使用推理能力較弱的 GPT-5-mini 作為 ReCreate-Agent 時,在多數領域無法超越人類設計的腳手架。其中軟件工程領域通過率僅 57.09%,數據科學領域 DA-Code 任務通過率 37.13%,較 Claude-4.5-opus 版本平均下降 8.5%;

? 僅保留初始領域信息、移除 ReCreate-Agent 的推理優(yōu)化環(huán)節(jié)后,除數學領域因任務邏輯相對固定仍有一定表現外,其余領域性能大幅滑坡。數字助理挑戰(zhàn)級任務通過率從 40.29% 降至 34.05%,數據科學機器學習任務從 42.88% 回落至 34.32%,與原始基線持平;

? 采用 Claude-4.5-opus 作為 ReCreate-Agent 時,憑借強大的推理歸因能力,能精準定位交互軌跡中的各類問題,并轉化為針對性優(yōu)化,最終在全領域實現對人類設計腳手架的超越,驗證了強推理能力是 ReCreate 實現 “白箱優(yōu)化” 的關鍵支撐。這說明當前最強的模型已經可以在設計Agent這樣的任務上超越人類了。


4、魯棒性驗證:溫度敏感性與泛化能力測試

? 溫度穩(wěn)定性:在 ReCreate-Agent 的不同采樣溫度(0.0、0.5、1.0)下,平均性能波動不超過 1%,證明前沿大模型的推理能力已足夠支撐穩(wěn)定的智能體優(yōu)化,無需依賴特定的推理方式;

? 泛化能力:通過分層更新機制,ReCreate 將多個任務的實例級改進提煉為領域通用規(guī)則,在未見過的測試任務中,性能保持率達 95% 以上,遠高于傳統(tǒng)方法的 80%,避免了 “單任務特化” 陷阱。


更值得關注的是,在多個Case Study中可以發(fā)現:即使從極其簡陋的初始腳手架開始, ReCreate 也能在交互經驗的驅動下,逐步進化出復雜的工具集、嚴謹的推理規(guī)則和高效的記憶機制。比如在 Django 任務中,它會自動創(chuàng)建 “函數替換”工具,避免手動修改代碼的語法錯誤;還會積累 “提交前必須運行特定測試” 的經驗記憶,從而降低失敗率。

05
未來啟示:AI 的 “自我制造” 時代正在到來

ReCreate 的價值,核心在于為領域智能體的構建提供了一條更務實的路徑 —— 用經驗驅動的方式解決了手工設計的痛點。對開發(fā)者而言,這意味著無需投入大量精力從零搭建適配特定領域的腳手架:無論是缺少成熟方案的小眾科研場景,還是需求快速迭代的工業(yè)任務,只要提供基礎任務數據和環(huán)境,ReCreate 就能自主沉淀規(guī)律、優(yōu)化流程,生成貼合需求的專業(yè)智能體,大幅降低開發(fā)成本和試錯周期。

ReCreate 契合了人類學習的本質:不是靠他人灌輸的完美指令,而是在實踐中試錯、在反思中沉淀、在迭代中成長。隨著模型的能力逐漸突破某個邊界,Agent 開始像人類一樣 “從做中學”,智能體的創(chuàng)造或許將不再是少數專家的專利,而是Agent自身的本能。這一天,已經不再遙遠。

06
搭建 ReCreate 框架的人

本研究的第一作者郝哲正,現為浙江大學計算機學院2025級博士研究生,研究方向聚焦于 AI Agents 與 LLM RL,導師為陳佳偉研究員。

2023年-2024年,郝哲正曾師從李學龍、聶飛平教授,在機器學習領域發(fā)表多篇研究工作。2025 年以來,郝哲正從事代碼智能體的研究與構建。


本研究的通訊作者為董漢德、陳佳偉。

董漢德,騰訊技術專家,畢業(yè)于中國科學技術大學,負責騰訊CodeBuddy產品大模型研發(fā)。在大模型領域具有豐富的研究和落地經驗,包括大模型訓練、智能體等細分領域,谷歌學術引用超1500次。當下,主要致力于研發(fā)利用AI Agent產品收集到的用戶數據訓練高質量大模型的訓練范式。


陳佳偉,浙江大學計算機學院“百人計劃”研究員,博士生導師,于2020年獲得浙江大學計算機科學與技術博士學位,曾師從陳純院士、何向南教授,主要致力于推薦系統(tǒng)、大語言模型、智能體等領域的研究,谷歌學術引用超5000次,特別是在用戶行為分析與建模方面取得了一系列成果,曾獲SIGIR 2023最佳論文提名獎(CCF-A類)、WSDM 2025最佳論文獎(清華A類),多項成果也在快手、抖音、螞蟻、省公安等企事業(yè)單位落地應用,服務于上億用戶。


Paper: ReCreate: Reasoning and Creating Domain Agents Driven by Experience

Arxiv: https://arxiv.org/pdf/2601.11100

Github: https://github.com/zz-haooo/ReCreate

Huggingface: https://huggingface.co/papers/2601.11100

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區(qū)進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中醫(yī)怒斥:軟化血管騙了國人幾十年,洋蔥、黑木耳、魚油全都胡扯

中醫(yī)怒斥:軟化血管騙了國人幾十年,洋蔥、黑木耳、魚油全都胡扯

岐黃傳人孫大夫
2026-03-07 21:55:03
女生主動起來有多黏人?網友:這些女的太開放了

女生主動起來有多黏人?網友:這些女的太開放了

帶你感受人間冷暖
2026-01-27 00:20:06
1955年副軍職只授大校 他看了三遍名單:我二十年老紅軍不夠將軍

1955年副軍職只授大校 他看了三遍名單:我二十年老紅軍不夠將軍

鍋鍋愛歷史
2026-03-10 23:41:40
蘇聯式解體將重演?俄羅斯專家大膽預測:美國或將分裂成3個國家

蘇聯式解體將重演?俄羅斯專家大膽預測:美國或將分裂成3個國家

文史旺旺旺
2026-01-16 20:50:38
讀秒破門!歐冠神奇1戰(zhàn):紐卡一聲長嘆,亞馬爾助巴薩驚險身退

讀秒破門!歐冠神奇1戰(zhàn):紐卡一聲長嘆,亞馬爾助巴薩驚險身退

話體壇
2026-03-11 06:38:10
伊朗方面回應了,戰(zhàn)爭即將結束!

伊朗方面回應了,戰(zhàn)爭即將結束!

新浪財經
2026-03-11 02:56:10
中方最擔心的事情發(fā)生了,伊朗越過紅線,秘密武器直逼以方心臟?

中方最擔心的事情發(fā)生了,伊朗越過紅線,秘密武器直逼以方心臟?

小蘭聊歷史
2026-03-10 17:09:37
55歲主持人李靜自曝絕經過程,很快失去性魅力,連男人也沒興趣了

55歲主持人李靜自曝絕經過程,很快失去性魅力,連男人也沒興趣了

林輕吟
2026-02-23 07:16:08
奉勸男性:若不想被前列腺炎折磨下半生,盡早改掉這4大習慣!

奉勸男性:若不想被前列腺炎折磨下半生,盡早改掉這4大習慣!

全球軍事記
2026-03-02 10:13:18
在真正的代表呼吁提高養(yǎng)老金時,某些人連別“落石”,都那么難?

在真正的代表呼吁提高養(yǎng)老金時,某些人連別“落石”,都那么難?

走讀新生
2026-03-10 21:07:29
西方觀察家認為:這次的美伊以沖突會導致永久改寫臺海戰(zhàn)爭的規(guī)則

西方觀察家認為:這次的美伊以沖突會導致永久改寫臺海戰(zhàn)爭的規(guī)則

安安說
2026-03-06 11:28:08
別再裝修這些“家務刺客”!只是好看,難伺候卻是一輩子

別再裝修這些“家務刺客”!只是好看,難伺候卻是一輩子

裝修秀
2026-03-08 11:35:03
爸媽!真的不要再往馬桶里倒水了!

爸媽!真的不要再往馬桶里倒水了!

家居設計師宅哥
2026-03-08 18:21:44
消金圈大地震:M1、M2全面禁止委外催收

消金圈大地震:M1、M2全面禁止委外催收

新浪財經
2026-03-10 18:26:59
比賽還沒開打 山東泰山先迎來一個利好喜訊 取勝北京國安概率大增

比賽還沒開打 山東泰山先迎來一個利好喜訊 取勝北京國安概率大增

零度眼看球
2026-03-11 06:45:58
老板跑路澳洲,讓26名員工背債坐牢,上海“富婆會所”藏著什么?

老板跑路澳洲,讓26名員工背債坐牢,上海“富婆會所”藏著什么?

帥真商業(yè)
2026-03-09 18:50:01
賽季報銷被裁!被伊森毀掉職業(yè)生涯,剛展現天賦,才25歲無球可打

賽季報銷被裁!被伊森毀掉職業(yè)生涯,剛展現天賦,才25歲無球可打

你的籃球頻道
2026-03-10 08:09:57
恐怖!美軍的陰暗操作令世界不寒而栗

恐怖!美軍的陰暗操作令世界不寒而栗

補壹刀
2026-03-09 15:41:03
“地球上最危險的工作”:伊朗彈道導彈發(fā)射機組人員的生活

“地球上最危險的工作”:伊朗彈道導彈發(fā)射機組人員的生活

鐵錘妹妹是只貓
2026-03-09 02:15:52
再次提醒!中國公民暫勿前往;人臉驗證時千萬記得穿衣服;女子起訴離婚遭威脅,丈夫獲刑|早安,你好

再次提醒!中國公民暫勿前往;人臉驗證時千萬記得穿衣服;女子起訴離婚遭威脅,丈夫獲刑|早安,你好

全國婦聯女性之聲
2026-03-11 07:24:12
2026-03-11 08:04:49
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7111文章數 20739關注度
往期回顧 全部

科技要聞

蔚來今年要少虧150億,沖擊年度盈利

頭條要聞

"一對老夫妻雙雙129歲相戀100年"視頻引熱議 當地回應

頭條要聞

"一對老夫妻雙雙129歲相戀100年"視頻引熱議 當地回應

體育要聞

加蘭沒那么差,但鱸魚會用嗎?

娛樂要聞

《逐玉》注水風波升級!315評論區(qū)淪陷

財經要聞

“龍蝦補貼”密集出爐 最高1000萬!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

本地
數碼
時尚
公開課
軍事航空

本地新聞

云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

數碼要聞

蘋果MacBook Neo筆記本SSD速度約為MacBook Pro的1/8

看來看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

剛說完戰(zhàn)爭很快結束 特朗普改口

無障礙瀏覽 進入關懷版