国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

告別昂貴賬單,Token直降68%,多智能體動態(tài)協(xié)作編程來了

0
分享至



本文的主要作者來自上海交通大學(xué)自動化與感知學(xué)院 i-WiN 中心團(tuán)隊,團(tuán)隊負(fù)責(zé)人是上海交通大學(xué)講席教授關(guān)新平。本文的通訊作者為 i-WiN 中心陳彩蓮教授和關(guān)新平教授,指導(dǎo)老師還包括中心的許齊敏副研究員、徐磊和張延洲助理研究員。本文的第一作者為上海交通大學(xué)博士生王思宇,研究方向涉及多模態(tài)大模型、CAD 生成、多智能體、Agentic RL 等。

在當(dāng)下 Vibe Coding 火熱的背景下,軟件開發(fā)正迅速從 “人寫代碼” 轉(zhuǎn)向 “人指揮智能體寫代碼”。以 Claude Code、OpenClaw 為代表的系統(tǒng),讓智能體能夠自主完成編碼、調(diào)試乃至完整任務(wù)流程。然而,面對系統(tǒng)級開發(fā)或競賽級算法等復(fù)雜問題,單一模型的能力邊界依然明顯,多智能體協(xié)作逐漸成為主流范式

但現(xiàn)有方法大多仍停留在兩種典型路徑。一類如 Claude Code 的Agent Teams,通過并行調(diào)用多個模型來提升能力上限,但也帶來了極高的 Token 成本;另一類則以當(dāng)下熱門的 OpenClaw 為代表,通過技能組合與流程編排實(shí)現(xiàn)多智能體管理,在工程上更可控。

然而,這類方法的協(xié)作結(jié)構(gòu)大多仍依賴預(yù)定義規(guī)則或靜態(tài)流程,本質(zhì)上解決的是 “如何組織調(diào)用”,而非 “如何根據(jù)任務(wù)動態(tài)調(diào)整協(xié)作方式”。這就像不論修自行車還是造火箭,都派同一個十人專家組開三天會,導(dǎo)致智能體冗余通訊與大量的 Token 消耗,最終給用戶帶來了極高的自主編程成本

上海交通大學(xué) i-WiN 團(tuán)隊最新提出多智能體框架AgentConductor,通過引入一個經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練后的3B 參數(shù)指揮智能體,從根本上解決了這個問題。它會先評估任務(wù)難度,并生成一張以 YAML 表示的交互拓?fù)鋱D:簡單任務(wù)使用輕量團(tuán)隊,復(fù)雜任務(wù)則使用更復(fù)雜的交互圖,實(shí)現(xiàn)能力與成本的自適應(yīng)匹配。



圖 1.(a) 拓?fù)浣Y(jié)構(gòu)的 YAML 表示與實(shí)際圖結(jié)構(gòu)的映射;(b) AgentConductor 拓?fù)渖膳c演化過程展示

更關(guān)鍵的是,AgentConductor 并非一次性規(guī)劃:當(dāng)生成代碼運(yùn)行失敗時,指揮智能體會根據(jù)環(huán)境反饋的錯誤信息,結(jié)合記憶中的歷史軌跡,對拓?fù)溥M(jìn)行端到端重新生成,從而探索新的協(xié)作形式。實(shí)驗(yàn)結(jié)果表明,該方法在顯著提升編碼準(zhǔn)確率(+14.6%)的同時,將 Token 成本降低了 68%。這說明真正高效的 AI 編程團(tuán)隊需要的是一種面向任務(wù)、可隨執(zhí)行反饋動態(tài)演化的協(xié)作結(jié)構(gòu),而非僵化的一刀切工作流。相關(guān)論文已經(jīng)公開,代碼將于近期開源。



  • 論文名稱:AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation
  • 論文鏈接:https://arxiv.org/abs/2602.17100

社區(qū)影響力

圖 2 展示了 AgentConductor 工作在國際 AI 社區(qū) (X, 前身 Twitter) 引發(fā)的廣泛關(guān)注與認(rèn)可。這項工作被知名 AI 分享博主 DAIR.AI 當(dāng)日置頂宣傳并評為 2026 年 2 月 23 日–3 月 1 日 Top AI Papers,并獲得新銳 AI 科技博主 Rohan Paul 對 i-WiN 團(tuán)隊和論文的高度評價。



圖 2.AgentConductor 得到 DAIR.AI 與 Rohan Paul 等賬號推薦

核心特色與方法介紹

1. 基于 YAML 的新型多智能體交互圖結(jié)構(gòu)

相比傳統(tǒng)多智能體拓?fù),我們在表示形式與交互機(jī)制兩個層面進(jìn)行了設(shè)計與優(yōu)化。

1.1 表示形式

傳統(tǒng)方法多采用連接矩陣等數(shù)學(xué)形式來描述交互圖,不僅可讀性差,也難以直接編輯與校驗(yàn),更無法由大模型端到端生成;近期工作嘗試使用自然語言描述,但存在拓?fù)洳粐?yán)格、難以結(jié)構(gòu)化約束等問題。我們使用 YAML 結(jié)構(gòu)化表示交互圖 (圖 1 (a)),使其既具備可讀性,又支持程序化校驗(yàn)與約束,并可由 LLM 直接生成。這種形式在設(shè)計上與當(dāng)前流行的Skill 配置文件具有一致性,便于理解與落地。



圖 3. 本文交互拓?fù)浣Y(jié)構(gòu)與傳統(tǒng)方法的對比

1.2 交互形式

如圖 3 所示,傳統(tǒng)鏈?zhǔn)、樹狀拓(fù)浞謩e限制并行性、通信范圍或連接靈活性,而全連接結(jié)構(gòu)又過于復(fù)雜。我們?nèi)诤隙喾N拓?fù)鋬?yōu)勢,支持層內(nèi)并行和跨層通訊且每個智能體可任意鏈接之前的歷史節(jié)點(diǎn),在提升表達(dá)能力的同時避免不必要的通信開銷

2. 訓(xùn)練范式

2.1 SFT + GRPO 的兩階段訓(xùn)練范式

AgentConductor 采用兩階段訓(xùn)練策略,只訓(xùn)練一個指揮智能體:

監(jiān)督微調(diào)(SFT):基于 GPT-4o 生成的 4,500 個高質(zhì)量拓?fù)錁颖荆ǜ采w三檔難度),賦予基礎(chǔ)模型拓?fù)湎闰?yàn);

基于 GRPO 的多輪端到端 Agentic 強(qiáng)化學(xué)習(xí)訓(xùn)練:將環(huán)境反饋的代碼報錯和多輪的拓?fù)湮谋疽黄鹱鳛檐壽E (Trajectory) 來用于智能體的強(qiáng)化學(xué)習(xí)訓(xùn)練,基于 GRPO 算法優(yōu)化模型的拓?fù)渖刹呗砸宰畲蠡瘡?fù)合獎勵,最終實(shí)現(xiàn)低 Token 成本的高質(zhì)量代碼生成。



圖 4. AgentConductor 的總體框架

2.2 拓?fù)涿芏仍u估函數(shù)

為實(shí)現(xiàn)任務(wù)自適應(yīng),我們將問題分成三檔難度,并根據(jù)從 Token 成本到拓?fù)涿芏鹊男问交成,提出了拓(fù)涿芏仍u估函數(shù)并作為獎勵函數(shù)一部分。綜合刻畫節(jié)點(diǎn)數(shù)、邊密度與圖深度對通信成本的影響。

我們在論文中證明,多智能體系統(tǒng)的平均通信成本可形式化為:



其中 d 為圖深度, m 為提示詞最大長度。相比之下,傳統(tǒng)方法大多簡單的通過矩陣的秩來衡量交互密度,丟失了多智能體交互的數(shù)學(xué)含義

實(shí)驗(yàn)結(jié)果展示

我們在三個競賽級(APPS, LiveCodeBench, CodeContests)與兩個基礎(chǔ)代碼數(shù)據(jù)集(HumanEval, MBPP)上評估 AgentConductor(基于 Qwen-2.5-3B-Instruct):



表 1. AgentConductor 的 pass@1 準(zhǔn)確率對比



表 2. AgentConductor 在性能、成本及平均拓?fù)涿芏确矫娴谋容^結(jié)果

表 1 說明,AgentConductor 以僅 3B 參數(shù)量,在 APPS 上顯著超越最強(qiáng)基線,同時減少了最多 68% 的 completion token 消耗,并實(shí)現(xiàn)最高拓?fù)湎∈瓒。更重要的是,系統(tǒng)展現(xiàn)出細(xì)粒度難度適配能力:在 easy 任務(wù)上使用極簡拓?fù)洌ㄆ骄?3–4 節(jié)點(diǎn)),在 hard 任務(wù)上自動擴(kuò)展至 8–10 節(jié)點(diǎn),而多數(shù)基線無論難度均維持固定密度。(* 更多結(jié)果詳見論文)

結(jié)語:多智能體系統(tǒng)正在學(xué)會組織自己

過去,多智能體系統(tǒng)常被視為“堆人力”的暴力解法:越多AI越好。但AgentConductor 證明,智能協(xié)作的關(guān)鍵不在于數(shù)量,更在于結(jié)構(gòu)的適應(yīng)性。它標(biāo)志著多智能體研究從“靜態(tài)工作流”邁向“動態(tài)生態(tài)系統(tǒng)”。 AgentConductor 不僅是一項工程優(yōu)化,更代表了一種新范式:將多智能體協(xié)作視為可學(xué)習(xí)、可演化的結(jié)構(gòu)化決策過程。 通過將任務(wù)難度、執(zhí)行反饋與通信成本統(tǒng)一納入強(qiáng)化學(xué)習(xí)框架,我們實(shí)現(xiàn)了準(zhǔn)確率與效率的協(xié)同提升。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
痛心!湖南永州清明掃墓突發(fā)慘。阂患依闲3死2傷,現(xiàn)場太慘烈了

痛心!湖南永州清明掃墓突發(fā)慘。阂患依闲3死2傷,現(xiàn)場太慘烈了

天天熱點(diǎn)見聞
2026-04-07 06:13:58
獨(dú)占兒子遺產(chǎn)攆走5歲孫女,28年后又要求養(yǎng)老,孫女:等死了再見

獨(dú)占兒子遺產(chǎn)攆走5歲孫女,28年后又要求養(yǎng)老,孫女:等死了再見

哄動一時啊
2026-04-04 12:03:37
任天堂用戶體驗(yàn)再升級!NS2迎來系統(tǒng)更新

任天堂用戶體驗(yàn)再升級!NS2迎來系統(tǒng)更新

游民星空
2026-04-07 13:24:06
女生主動起來有多黏人?網(wǎng)友:這些女的太開放了

女生主動起來有多黏人?網(wǎng)友:這些女的太開放了

帶你感受人間冷暖
2026-01-27 00:20:06
小雨+中雨!局地雨夾雪!明起,河北大范圍降水來襲→

小雨+中雨!局地雨夾雪!明起,河北大范圍降水來襲→

魯中晨報
2026-04-07 13:13:05
那年我河邊放牛,撞見女同學(xué)洗澡,她擰著我耳朵:不娶我,告你爸

那年我河邊放牛,撞見女同學(xué)洗澡,她擰著我耳朵:不娶我,告你爸

媛來這樣
2026-04-06 14:34:36
安慶6歲失聯(lián)女童確認(rèn)遇害,嫌疑人柳某某(女,35歲)被抓,指認(rèn)現(xiàn)場引圍觀一度交通堵塞,女童父親不愿多言,鎮(zhèn)政府:一直在安撫家屬情緒

安慶6歲失聯(lián)女童確認(rèn)遇害,嫌疑人柳某某(女,35歲)被抓,指認(rèn)現(xiàn)場引圍觀一度交通堵塞,女童父親不愿多言,鎮(zhèn)政府:一直在安撫家屬情緒

極目新聞
2026-04-07 12:16:29
少跟孩子生氣,因?yàn)檫@一世的相遇,背后藏著你看不見的因果

少跟孩子生氣,因?yàn)檫@一世的相遇,背后藏著你看不見的因果

杏花煙雨江南的碧園
2026-04-03 15:15:03
國足又迎喜訊!24歲華裔悍將愿意歸化,但提了一個條件,不算過分

國足又迎喜訊!24歲華裔悍將愿意歸化,但提了一個條件,不算過分

零度眼看球
2026-04-07 06:48:41
17分大逆轉(zhuǎn),騎士鎖定前四!哈登攜5人缺陣施羅德22+11助強(qiáng)勢自證

17分大逆轉(zhuǎn),騎士鎖定前四!哈登攜5人缺陣施羅德22+11助強(qiáng)勢自證

鍋?zhàn)踊@球
2026-04-07 12:35:32
深圳男子買彩票中2億,6天后去兌獎,卻被工作人員趕了出去

深圳男子買彩票中2億,6天后去兌獎,卻被工作人員趕了出去

今天說故事
2025-05-28 14:49:59
6歲女童遇害,受害者父親被隔離,當(dāng)?shù)厝罕妵聝词,要求?yán)懲!

6歲女童遇害,受害者父親被隔離,當(dāng)?shù)厝罕妵聝词,要求?yán)懲!

眼光很亮
2026-04-07 12:11:52
16歲就是人間尤物,4年換19個男人,找老實(shí)人接盤后,變買菜媽媽

16歲就是人間尤物,4年換19個男人,找老實(shí)人接盤后,變買菜媽媽

一盅情懷
2026-03-28 15:38:13
每天被活取膽汁,疼到咬爛自己手掌!曾轟動一時的膽熊怎么樣了?

每天被活取膽汁,疼到咬爛自己手掌!曾轟動一時的膽熊怎么樣了?

蜉蝣說
2026-04-03 16:26:35
女子赴發(fā)小婚禮穿瑜伽褲,打扮過于火辣,網(wǎng)友直呼跟沒穿似的

女子赴發(fā)小婚禮穿瑜伽褲,打扮過于火辣,網(wǎng)友直呼跟沒穿似的

一盅情懷
2026-03-16 17:28:45
霍思燕帶狗泰國奪冠!肥肚三層、發(fā)際線好假,女兒出鏡像女版杜江

霍思燕帶狗泰國奪冠!肥肚三層、發(fā)際線好假,女兒出鏡像女版杜江

每一次點(diǎn)擊
2026-04-07 12:01:22
女富豪陳麗華在京去世:遺產(chǎn)分配曝光,遲重瑞一句話讓網(wǎng)友淚目!

女富豪陳麗華在京去世:遺產(chǎn)分配曝光,遲重瑞一句話讓網(wǎng)友淚目!

眼光很亮
2026-04-07 12:39:20
蒙古大變天,就在所有人以為新總理必反華時,他卻對華正式交底了

蒙古大變天,就在所有人以為新總理必反華時,他卻對華正式交底了

共工之錨
2026-04-04 19:42:32
7年敗光數(shù)億,55歲王中磊落魄,被迫拍短視頻還債,兒子在美瀟灑

7年敗光數(shù)億,55歲王中磊落魄,被迫拍短視頻還債,兒子在美瀟灑

以茶帶書
2026-03-30 18:03:47
王思聰舅舅林友涉連殺兩任妻子+雇兇殺害肢解鄰居,為啥還能逍遙法外21年?

王思聰舅舅林友涉連殺兩任妻子+雇兇殺害肢解鄰居,為啥還能逍遙法外21年?

不二表姐
2026-03-30 23:30:07
2026-04-07 15:07:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12700文章數(shù) 142616關(guān)注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

美被困飛行員靠定位器求救 回答其父私密問題驗(yàn)明身份

頭條要聞

美被困飛行員靠定位器求救 回答其父私密問題驗(yàn)明身份

體育要聞

官宣簽約“AI球員”,這支球隊被罵慘了...

娛樂要聞

張藝上浪姐惹爭議 黃景瑜前妻發(fā)文內(nèi)涵

財經(jīng)要聞

2026年,全國租房市場還有波降價潮

汽車要聞

不止是大 極狐首款MPV問道V9靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

親子
藝術(shù)
房產(chǎn)
手機(jī)
軍事航空

親子要聞

記錄下人生最勇敢的一天,我們就是一家三口啦

藝術(shù)要聞

美麗風(fēng)光看不盡

房產(chǎn)要聞

小陽春全面啟動!現(xiàn)房,才是這波行情里最穩(wěn)的上車票

手機(jī)要聞

你們都錯了!REDMI K90再添新成員,盧偉冰又換玩法了

軍事要聞

美軍營救飛行員出動155架飛機(jī)

無障礙瀏覽 進(jìn)入關(guān)懷版