国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

華為諾亞&港中文發(fā)布SCOPE:Prompt自我進化,讓HLE成功率翻倍

0
分享至



機器之心發(fā)布

在 LLM Agent 領域,有一個常見的問題:Agent 明明 "看到了" 錯誤信息,卻總是重蹈覆轍。

當 Agent 遇到工具調用錯誤時,錯誤日志里往往已經包含了解決方案 —— 正確的參數格式、有效的 API 用法、甚至是直接可用的替代方案。然而,靜態(tài)的 Prompt 無法讓 Agent 從這些反饋中 “學到教訓”,導致它們陷入 “錯誤循環(huán)”:承認失敗,卻重復同樣的動作。

華為諾亞方舟實驗室與香港中文大學聯合發(fā)布的 SCOPE 框架,旨在解決這一問題。



  • 論文:《SCOPE: Prompt Evolution for Enhancing Agent Effectiveness》
  • 論文地址:https://arxiv.org/abs/2512.15374
  • 開源地址:https://github.com/JarvisPei/SCOPE

SCOPE 的核心思想是:既然 Agent 會被反復調用,那么它的 Prompt 就可以在執(zhí)行過程中不斷進化。通過從執(zhí)行軌跡中自動提煉指導規(guī)則,SCOPE 讓 Agent 能夠 "從錯誤中學習",并將經驗固化到 Prompt 中,實現自我進化。





Agent 的兩大失敗模式

研究團隊分析了 GAIA 和 DeepSearch 基準上的 Agent 執(zhí)行日志,發(fā)現了兩類典型的失敗模式:

第一類是「糾正型失敗」(Corrective Failure):當錯誤發(fā)生時,執(zhí)行軌跡中包含明確的信號(錯誤消息、堆棧跟蹤、有效參數列表),本應指導 Agent 進行修正。然而,靜態(tài)的 Agent 把這些信息當作泛泛的 “警報”,而不是可操作的反饋。研究者觀察到大量案例,Agent 在錯誤消息明確列出正確用法的情況下仍然誤用工具,形成 “錯誤循環(huán)”。更嚴重的情況下,Agent 甚至會為了繼續(xù)執(zhí)行而 “編造數據”。

第二類是「增強型失敗」(Enhancement Failure):即使沒有明顯錯誤,Agent 也會錯過優(yōu)化機會。比如當搜索結果不理想時,上下文往往暗示可以嘗試同義詞(如 “base on balls” 與 “walks”),但 Agent 卻固守單一關鍵詞策略。這種失敗更加隱蔽,但同樣影響任務成功率。



這兩類失敗的根本原因是相同的:靜態(tài) Prompt 缺乏從執(zhí)行反饋中學習的機制。

SCOPE 框架:從執(zhí)行軌跡中學習



針對上述問題,SCOPE 將上下文管理從手動工程任務轉變?yōu)樽詣觾?yōu)化過程。其核心洞察是:Agent 自身的執(zhí)行軌跡就是最好的學習信號。

SCOPE 框架由四個核心組件構成:

1. 指導規(guī)則合成(Guideline Synthesis)

當 Agent 遇到錯誤或完成子任務時,SCOPE 的生成器(Generator)會分析執(zhí)行軌跡,合成候選指導規(guī)則。這里采用 Best-of-N 策略:生成多個候選規(guī)則,然后由選擇器(Selector)挑選最佳的一條。

針對不同場景,SCOPE 使用兩種合成模式:糾正型合成從錯誤中提取教訓,增強型合成從成功模式中挖掘優(yōu)化機會。實驗表明,增強型規(guī)則占所有合成規(guī)則的 61%,說明 SCOPE 不僅僅是 “錯誤修復器”,更是一個主動的優(yōu)化器。

2. 雙流路由機制(Dual-Stream Routing)

合成的規(guī)則并非同等對待。SCOPE 引入分類器(Classifier)將規(guī)則路由到兩個記憶流:

  • 戰(zhàn)術記憶(Tactical Memory):存儲任務特定的規(guī)則,如 “當前數據集的‘Amount’列包含貨幣符號,計算前需進行清洗”。這些規(guī)則僅在當前任務的數據上下文中有效。
  • 戰(zhàn)略記憶(Strategic Memory):存儲跨任務通用的規(guī)則,如 “當 Web 搜索返回結果為空時,嘗試泛化搜索關鍵詞而不是重復搜索”。這些規(guī)則會持久化保存,應用于未來所有任務。

只有高置信度(閾值設為 0.85)的通用規(guī)則才會被提升到戰(zhàn)略記憶,避免過擬合到特定任務。

3. 記憶優(yōu)化(Memory Optimization)

隨著規(guī)則積累,戰(zhàn)略記憶可能包含冗余或沖突的內容。SCOPE 的優(yōu)化器(Optimizer)會執(zhí)行三步清理:沖突解決(合并矛盾規(guī)則)、冗余剪枝(移除被更通用規(guī)則覆蓋的具體規(guī)則)、整合歸并(將相似規(guī)則合并為綜合性規(guī)則)。

4. 視角驅動探索(Perspective-Driven Exploration)

單一進化路徑可能收斂到某種策略,在部分任務上表現較好但在其他任務上失效。為了提高策略覆蓋,SCOPE 初始化多個并行流,每個流由不同的 "視角" 引導(如效率優(yōu)先 vs. 周全優(yōu)先),各自進化出不同的 Prompt。測試時選擇最佳結果。

實驗結果:HLE 成功率從 14% 提升到 39%

研究團隊在三個基準上進行了評估:HLE(2500 道專家級問題)、GAIA 和 DeepSearch。

實驗結果表明,SCOPE 在所有基準上都取得了提升:



在 HLE 基準上,SCOPE 將任務成功率從 14.23% 提升到 38.64%。在 GAIA 基準上,成功率從 32.73% 提升到 56.97%。

為了更準確地表達不同組件的貢獻,論文中給出了消融實驗。如下圖所示,指導規(guī)則生成器提供 + 4.85% 的初始提升,雙流路由貢獻 + 3.63%,Best-of-N 選擇貢獻 + 3.03%,記憶優(yōu)化貢獻 + 1.82%,而視角驅動探索帶來 + 10.91% 的提升。



值得注意的是,在知識密集型領域(如生物 / 醫(yī)學、化學),SCOPE 的提升較為明顯:生物 / 醫(yī)學從 14.9% 提升到 43.2%,化學從 14.1% 提升到 50.3%。這些領域的問題往往涉及復雜的專業(yè)概念和嚴格的推理流程,SCOPE 合成的領域特定規(guī)則能夠幫助 Agent 更好地理解和遵循這些要求。



Agent 真的在 "聽話" 嗎?

一個關鍵問題是:合成的規(guī)則是否真正影響了 Agent 的行為?

如下圖所示,研究團隊觀察到了 "語言采納" 現象:當 SCOPE 合成了 "始終列出所有可能的標簽同義詞和短語變體" 這一規(guī)則后,Agent 后續(xù)輸出中直接引用了相同的措辭。這表明規(guī)則被整合到了 Agent 的決策過程中。此外,行為變化通常在規(guī)則合成后幾秒內就會發(fā)生,展示了單個任務內的實時適應能力。



視角驅動策略多樣性

視角驅動探索的設計得到了實驗驗證。如下圖所示,效率流(Efficiency Stream)和周全流(Thoroughness Stream)的總體準確率相近(44.85% vs 46.06%),但兩者解決的問題重合度僅為 33.94%,這意味著約 23% 的問題只能被其中一個視角解決。

效率流在 GAIA 的 Level 3 任務上表現更好(26.92% vs 11.54%),說明精簡的上下文管理對復雜長程任務更有效;而周全流在 Level 2 任務上更強。全局集成捕獲了兩種策略的優(yōu)勢。



定性分析顯示,面對同一個 HTTP 403 訪問拒絕錯誤,效率流學會 “快速失敗”—— 立即升級到搜索 Agent,不再重試;而周全流則學會 “尋找替代來源”—— 嘗試 Archive.org 或轉錄工具。這種二元性讓 SCOPE 能夠同時處理時間緊迫型和深度檢索型任務。



SCOPE 的意義

華為諾亞方舟實驗室與香港中文大學聯合提出的 SCOPE 框架,通過將執(zhí)行軌跡作為學習信號、將 Prompt 視為可進化的參數,實現了 Agent 的在線自我優(yōu)化。

與現有方法相比,SCOPE 具有三個主要特點:

  • 步級別適應(Step-level adaptation):在執(zhí)行過程中更新 Prompt,允許從任務中途的失敗中恢復,而非等到任務結束才學習。
  • 單 Agent 優(yōu)化(Per-agent optimization):每個 Agent 角色基于自身特定的模式進化 Prompt,而非使用 "一刀切" 的策略庫。
  • 主動優(yōu)化:61% 的規(guī)則來自成功模式的增強型合成,而非僅僅修復錯誤。



SCOPE 的代碼已在 GitHub 開源。正如論文所總結的:“與其工程化靜態(tài) Prompt,不如讓 Agent 在線進化自己的 Prompt。” 這一思路可能為下一代 Agent 系統(tǒng)的設計提供新的方向。

值得一提的是,SCOPE 的開源實現具有較好的實用性:

  • 即插即用:只需在 Agent 執(zhí)行循環(huán)中調用 `on_step_complete ()` 接口,即可為現有 Agent 系統(tǒng)添加自我進化能力,無需修改原有架構。
  • 模型無關:通過統(tǒng)一的適配器接口支持 OpenAI、Anthropic 以及 100 + 其他模型提供商(via LiteLLM),方便開發(fā)者使用自己偏好的模型。
  • 輕量部署:核心依賴精簡,可通過 `pip install scope-optimizer` 一鍵安裝。

SCOPE 提供了一套完整的實現框架,其核心洞察是:Agent 的執(zhí)行軌跡本身就是最好的學習素材 —— 關鍵在于如何將這些經驗有效地編碼到 Prompt 中。對于希望增強 Agent 系統(tǒng)效能的開發(fā)者而言,SCOPE 提供了一個可直接使用的解決方案。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
奶奶深夜狂扇孫女后續(xù):媽媽哭了一晚上,女孩嘴被打腫,爸爸發(fā)聲

奶奶深夜狂扇孫女后續(xù):媽媽哭了一晚上,女孩嘴被打腫,爸爸發(fā)聲

千言娛樂記
2025-12-27 18:55:00
最快護士張水華遭中國田協(xié)除名?官方競賽系統(tǒng)業(yè)余跑者唯獨沒有她

最快護士張水華遭中國田協(xié)除名?官方競賽系統(tǒng)業(yè)余跑者唯獨沒有她

楊華評論
2025-12-27 13:10:15
李嘉誠:有正常的政治氛圍良好的商業(yè)環(huán)境,就不存在跑不跑的問題

李嘉誠:有正常的政治氛圍良好的商業(yè)環(huán)境,就不存在跑不跑的問題

紫京講談
2025-12-26 16:59:51
合租5年的男室友,突然說要回老家訂婚,我調侃說:干脆娶我算了

合租5年的男室友,突然說要回老家訂婚,我調侃說:干脆娶我算了

朝暮書屋
2025-12-22 18:14:10
方博這次直播真是把話說得明明白白,一點情面都沒給某些人留。

方博這次直播真是把話說得明明白白,一點情面都沒給某些人留。

小光侃娛樂
2025-12-28 05:40:03
2026宜蘭縣長藍營人選首次協(xié)調失敗,若二次協(xié)調不成將辦初選

2026宜蘭縣長藍營人選首次協(xié)調失敗,若二次協(xié)調不成將辦初選

海峽導報社
2025-12-28 09:00:03
詹俊:曼城又要上演“疾速追殺”;謝爾基是英超夏窗最佳引援

詹?。郝怯忠涎荨凹菜僮窔ⅰ?;謝爾基是英超夏窗最佳引援

懂球帝
2025-12-27 22:59:27
目標明確!海港敲定3大后衛(wèi)后,要強挖中超第一鐵腰,強徐新十倍

目標明確!海港敲定3大后衛(wèi)后,要強挖中超第一鐵腰,強徐新十倍

零度眼看球
2025-12-28 08:22:32
賴昌星發(fā)妻曾明娜現狀:逃亡10年后回國,守著3000平老宅安靜養(yǎng)老

賴昌星發(fā)妻曾明娜現狀:逃亡10年后回國,守著3000平老宅安靜養(yǎng)老

古書記史
2025-12-12 11:21:38
2026做什么都順的星座,沒有之一

2026做什么都順的星座,沒有之一

同道大叔
2025-12-27 22:04:48
任期超10年!廣東金融學院女書記李建軍卸任,曾在5所高校工作

任期超10年!廣東金融學院女書記李建軍卸任,曾在5所高校工作

百家論大學
2025-12-28 07:10:06
中足聯官宣!新賽季首支解散球隊浮現

中足聯官宣!新賽季首支解散球隊浮現

徽派體育
2025-12-27 22:48:12
東北人口危機爆發(fā),1456萬消失,空城現象震驚全國

東北人口危機爆發(fā),1456萬消失,空城現象震驚全國

沒有偏旁的常慶
2025-12-27 09:10:45
姜昆團隊越澄清越露餡!網友扒出18日北京天氣,老藝術家們太抗凍

姜昆團隊越澄清越露餡!網友扒出18日北京天氣,老藝術家們太抗凍

好賢觀史記
2025-12-27 18:09:59
兒子結婚不讓我去,竟邀請前夫和小三?我退婚慶、賣婚房,他慌了

兒子結婚不讓我去,竟邀請前夫和小三?我退婚慶、賣婚房,他慌了

磊子講史
2025-06-25 14:43:26
宇航員登月回歸后精神失常,死前坦言:人類不應踏足遠方

宇航員登月回歸后精神失常,死前坦言:人類不應踏足遠方

清茶淺談
2024-12-20 22:30:46
東引島:距離大陸僅50公里,武裝嚴密,山體竟早就已被全面挖空!

東引島:距離大陸僅50公里,武裝嚴密,山體竟早就已被全面挖空!

boss外傳
2025-12-27 00:00:04
上海民警猥褻繼女案二審維持原判:劉某濤因猥褻兒童罪、強制猥褻罪數罪并罰,被判處有期徒刑八年

上海民警猥褻繼女案二審維持原判:劉某濤因猥褻兒童罪、強制猥褻罪數罪并罰,被判處有期徒刑八年

揚子晚報
2025-12-27 22:04:10
NBA傳聞:老鷹隊和獨行俠隊正在就安東尼·戴維斯的交易進行談判

NBA傳聞:老鷹隊和獨行俠隊正在就安東尼·戴維斯的交易進行談判

好火子
2025-12-28 03:44:56
300 萬支 95 式步槍迎來退役潮,它們的歸宿在哪?既不適合外銷,就連朝鮮、巴鐵也對此沒有需要

300 萬支 95 式步槍迎來退役潮,它們的歸宿在哪?既不適合外銷,就連朝鮮、巴鐵也對此沒有需要

史海孤雁
2025-12-24 14:20:17
2025-12-28 10:24:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12000文章數 142522關注度
往期回顧 全部

科技要聞

新任NASA掌門放話:特朗普任期內必將重返月球

頭條要聞

四川原副省長葉寒冰被通報:長期出入私人會所聚餐飲酒

頭條要聞

四川原副省長葉寒冰被通報:長期出入私人會所聚餐飲酒

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風波落幕:法院認定朋友造謠

財經要聞

英偉達的收購史

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

藝術
時尚
本地
數碼
軍事航空

藝術要聞

手串種類大盤點,全見過的算得上是文玩老手了!

這些穿搭才最適合普通人!不露腿、不花哨,簡約舒適又顯氣質

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

數碼要聞

彩殼版蘋果初代AirPods耳機曝光:風格酷似iPhone 5C

軍事要聞

與特朗普會晤前 澤連斯基亮明“紅線”

無障礙瀏覽 進入關懷版