国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓AI越用越聰明——斯坦福這篇ICLR論文讓微調(diào)信仰開始動搖

0
分享至

這是一篇來自斯坦福大學(xué)、SambaNova Systems與UC Berkeley的聯(lián)合研究,標(biāo)題叫《Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models》,中文可以譯作"智能體上下文工程:為自我進(jìn)化的語言模型構(gòu)建動態(tài)語境"。

論文的核心主張只有一句話:與其修改模型的權(quán)重,不如讓模型的"記憶"越來越好用。發(fā)表后,這篇論文在AI社區(qū)引發(fā)了不小的討論,甚至有工程師直接喊出"微調(diào)已死"。原因在于,他們用一個更小的開源模型,通過這套方法,在公開榜單上追平了IBM用GPT-4.1構(gòu)建的生產(chǎn)級智能體——而且沒有花一分錢去做微調(diào)。

這個結(jié)果足夠令人吃驚,值得認(rèn)真拆解一遍。

先說一個被低估的問題:上下文工程

在深入ACE之前,需要先厘清一個術(shù)語:上下文適配(Context Adaptation),或者更通俗地說,"上下文工程"。

對LLM來說,提升性能有兩條路:一條是改模型本身,也就是微調(diào)(fine-tuning);另一條是改模型的輸入,也就是往prompt里塞更好的指令、策略、示例、領(lǐng)域知識。后者就是上下文工程。

這條路并不新鮮。每個認(rèn)真做過RAG、寫過system prompt、調(diào)過few-shot的工程師都在無意識地做上下文工程。它的優(yōu)勢顯而易見:不需要動模型權(quán)重,改起來快、看得見、可以隨時回滾。

但它的天花板在哪里?

研究者在論文里指出了兩個老對手從未解決的根本缺陷。

第一個:簡潔偏差(Brevity Bias)。 現(xiàn)有的提示優(yōu)化方法,比如GEPA,傾向于把上下文壓縮成簡短的通用指令。這在某些場景里夠用,但在需要大量領(lǐng)域知識的任務(wù)里,把"當(dāng)分頁API返回為空時停止循環(huán)"這類具體的工程經(jīng)驗(yàn)濃縮成"請注意API規(guī)范",就等于把最有價值的東西扔掉了。

第二個:上下文崩塌(Context Collapse)。 這個現(xiàn)象更危險。當(dāng)讓一個LLM在每次更新時全量重寫上下文,隨著內(nèi)容越來越多,模型會傾向于把它壓縮成更短的摘要。論文里給出了一個實(shí)測數(shù)據(jù):在AppWorld基準(zhǔn)測試的第60步,上下文里有18,282個token,準(zhǔn)確率達(dá)到66.7。但下一步,LLM全量重寫后,上下文直接塌縮到了122個token,準(zhǔn)確率跌到57.1,比什么都不做(基準(zhǔn)線63.7)還要差。一次重寫,把60步積累的所有經(jīng)驗(yàn)清零了。


這就是ACE要解決的核心問題。

ACE的核心思路:把上下文當(dāng)成一本會生長的手冊

ACE的設(shè)計(jì)哲學(xué)可以用一句話概括:"上下文不是摘要,而是劇本(playbook)。"

背后有一個關(guān)鍵判斷——人類和LLM的處理習(xí)慣恰好相反。人類喜歡高度濃縮的信息,靠背景知識和直覺填補(bǔ)空白;而LLM在接收詳細(xì)、具體、豐富的上下文時,表現(xiàn)往往更好,它們有能力在推理時自己判斷哪些內(nèi)容有用。

所以,與其幫LLM"提煉",不如幫它"積累"。

ACE的架構(gòu)由三個角色協(xié)同完成:


Generator(生成器)執(zhí)行實(shí)際任務(wù),產(chǎn)出推理軌跡——哪些步驟走通了,哪些報錯了,哪些API用錯了,完整記錄。

Reflector(反思器)拿著這份軌跡做診斷。它會分析哪里出了問題,為什么出問題,正確做法應(yīng)該是什么,并提煉出"關(guān)鍵洞察"。它還會對劇本里現(xiàn)有的每個知識條目打標(biāo)簽:這次有沒有幫上忙?

Curator(整理器)把反思器的輸出轉(zhuǎn)化為結(jié)構(gòu)化的"增量條目"(delta entries),然后用非LLM的確定性邏輯合并進(jìn)劇本。合并、去重、修改計(jì)數(shù)器——全部不需要再跑一次大模型。

這里有一個細(xì)節(jié)值得注意:Curator在合并時用的是代碼邏輯,而不是讓LLM重寫整個劇本。這直接消除了上下文崩塌的根源。更新是原子的、局部的,過去積累的內(nèi)容不會因?yàn)橐淮涡碌牡А?/p>

增量更新與"生長再精煉"機(jī)制

ACE的防崩塌設(shè)計(jì)有兩個具體機(jī)制,值得展開說。

增量delta更新:劇本由一條條帶ID的知識條目(bullets)組成,每個條目記錄著它被標(biāo)記為"有用"和"有害"的次數(shù)。新的經(jīng)驗(yàn)只會追加或修改已有條目,不會觸發(fā)全量重寫。多個增量可以并行處理,然后一次性合并——這也是為什么ACE的延遲能大幅低于傳統(tǒng)方法。

生長再精煉(Grow-and-Refine):劇本會持續(xù)變長,但這不能無限膨脹。ACE用語義嵌入做相似度比較,把語義相近的條目合并或去重。這個精煉操作可以主動觸發(fā)(每次delta之后),也可以懶觸發(fā)(只有當(dāng)上下文窗口快撐不住了才運(yùn)行)。

論文里展示了一個AppWorld生成的劇本樣例,里面分成"策略與硬規(guī)則"、"可用代碼片段與模板"、"故障排查與陷阱"三個板塊。比如其中一條寫道:如果身份驗(yàn)證失敗,按順序嘗試用手機(jī)號而非郵箱作為用戶名,清除supervisor里的憑證,查閱API文檔確認(rèn)正確參數(shù),不要使用變通方法(workaround)。

這不是一條抽象的"注意認(rèn)證問題",而是一條可以直接指導(dǎo)下一次操作的具體經(jīng)驗(yàn)。這正是ACE與之前方法的本質(zhì)區(qū)別。

實(shí)驗(yàn)結(jié)果:更小的模型,頂尖的成績

研究團(tuán)隊(duì)在兩類任務(wù)上做了系統(tǒng)評測。

智能體基準(zhǔn)(AppWorld):這是一個要求LLM通過Python代碼調(diào)用API、完成日常任務(wù)的復(fù)雜環(huán)境,包含郵件、文件系統(tǒng)、音樂、支付等場景。任務(wù)分"普通"和"挑戰(zhàn)"兩個難度級別,公開榜單上有來自工業(yè)界的對標(biāo)系統(tǒng)。

在離線適配(先用訓(xùn)練集優(yōu)化劇本,再在測試集上評估)的設(shè)置下,ReAct + ACE的平均準(zhǔn)確率達(dá)到59.4%,而ICL基準(zhǔn)線是46.0%,GEPA是46.4%,提升幅度接近13個百分點(diǎn)。在線適配(邊測試邊更新劇本)的設(shè)置下,ACE達(dá)到59.5%,比Dynamic Cheatsheet高出7.6個點(diǎn)。


更重要的比較來自公開榜單快照(2025年9月20日)。榜首是IBM的CUGA,使用GPT-4.1,平均準(zhǔn)確率60.3%。ACE使用的是DeepSeek-V3.1(一個更小的開源模型),平均59.4%,基本持平。在更難的test-challenge分項(xiàng)上,ACE的TGC(任務(wù)目標(biāo)完成率)比CUGA高8.4個百分點(diǎn)。

金融領(lǐng)域基準(zhǔn)(FiNER + Formula):這兩個任務(wù)要求對XBRL格式的財(cái)務(wù)文件做實(shí)體識別和數(shù)值推理,需要大量金融領(lǐng)域的專門知識。有標(biāo)注監(jiān)督時,ACE在FiNER上比基線提升7.6個點(diǎn),在Formula上提升高達(dá)18個點(diǎn)。平均來看,比GEPA高出10.9個點(diǎn)。

還有一個值得關(guān)注的數(shù)字:在無標(biāo)注場景下(只靠執(zhí)行反饋,沒有人工標(biāo)注的正確答案),ACE在AppWorld上仍然比基準(zhǔn)線高14.8個點(diǎn)。這說明ACE的自我改進(jìn)機(jī)制不依賴人工監(jiān)督,代碼執(zhí)行的成功或失敗本身就是足夠強(qiáng)的信號。

效率的對比同樣戲劇性。在離線適配上,ACE的適配延遲比GEPA低82.3%,需要的rollout數(shù)量少75.1%。在線適配上,比Dynamic Cheatsheet的延遲低91.5%,token費(fèi)用低83.6%。

消融實(shí)驗(yàn)揭示了什么

論文花了不少篇幅做消融(逐步拆掉某個組件,看性能如何變化),結(jié)論比較清晰。

去掉Reflector和多輪迭代,只保留基本框架,AppWorld平均準(zhǔn)確率從59.4%跌到55.1%,損失4.3個點(diǎn)。只去掉多輪迭代,保留Reflector,準(zhǔn)確率56.8%,損失2.6個點(diǎn)。這說明Reflector的存在本身就有價值,而多輪迭代在此基礎(chǔ)上進(jìn)一步改善了質(zhì)量。

在線適配中,加入"離線預(yù)熱"(先用訓(xùn)練集跑一遍積累初始劇本,再進(jìn)入在線測試)從56.1%提升到59.5%,增益明顯。這個設(shè)置在實(shí)際部署中是可行的——對于確定的業(yè)務(wù)場景,提前用歷史數(shù)據(jù)初始化劇本,然后在生產(chǎn)環(huán)境里繼續(xù)在線更新。

這套方法的邊界在哪里

論文在Limitations一節(jié)坦誠地討論了幾個限制。

ACE的表現(xiàn)強(qiáng)依賴Reflector的質(zhì)量。如果模型本身連有效的反思都做不到,劇本就會被噪聲污染。金融任務(wù)在無標(biāo)注場景下,ACE和DC都出現(xiàn)了性能下降,就是因?yàn)槿狈煽康男盘?,錯誤的反思反而干擾了劇本。

不是所有任務(wù)都適合這套方法。HotPotQA這類問答任務(wù)更需要的是如何檢索和整合證據(jù)的高層策略,而不是堆砌細(xì)節(jié);Game of 24這類有固定解法的游戲,一條規(guī)則就夠了,多余的上下文只是負(fù)擔(dān)。

ACE最適合的場景是:需要掌握大量領(lǐng)域知識、工具使用有很多細(xì)節(jié)、或者環(huán)境交互有很多特定經(jīng)驗(yàn)值得積累的任務(wù)——恰好是當(dāng)下企業(yè)級AI應(yīng)用最集中的方向。

長上下文不等于高成本

這個點(diǎn)被論文單獨(dú)拿出來討論,因?yàn)樗且粋€常見的誤解。

ACE會生成比GEPA更長的上下文,有人擔(dān)心這意味著更高的推理成本。但作者指出,現(xiàn)代推理基礎(chǔ)設(shè)施對長上下文做了專門優(yōu)化——KV cache復(fù)用、壓縮和卸載等技術(shù)讓重復(fù)使用的上下文段不需要反復(fù)做prefill計(jì)算。隨著長上下文推理的效率持續(xù)提升,ACE這類方法的攤銷成本會越來越低,而它帶來的性能收益會持續(xù)存在。

更深的一層含義是,上下文里存儲的知識是"可解釋的"。合規(guī)官員可以直接閱讀劇本,知道AI學(xué)到了什么;發(fā)現(xiàn)問題時可以直接編輯或刪除某條知識,而不是重新跑一遍微調(diào)。這在金融、法律、醫(yī)療等受監(jiān)管行業(yè)里,是一個實(shí)質(zhì)性的優(yōu)勢。

論文地址:

https://arxiv.org/pdf/2510.04618

END本文來自至頂AI實(shí)驗(yàn)室,一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。致力于推動生成式AI在各個領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場景,為企業(yè)和個人提供切實(shí)可行的解決方案。

Q&A

Q1:ACE與傳統(tǒng)prompt優(yōu)化方法(如GEPA)的本質(zhì)區(qū)別是什么?

GEPA等方法會不斷重寫整個提示,傾向于生成越來越簡短的通用指令,以此來滿足驗(yàn)證指標(biāo)。ACE的不同之處在于它不做全量重寫。每次迭代只生成"增量條目",用非LLM的代碼邏輯合并進(jìn)劇本,保證舊知識不會因?yàn)橐淮涡碌母露А_@直接解決了"簡潔偏差"和"上下文崩塌"兩個問題。

Q2:沒有人工標(biāo)注的正確答案,ACE怎么知道該學(xué)什么?

在智能體任務(wù)中,代碼執(zhí)行本身就是天然的反饋信號——代碼跑通了、任務(wù)完成了,就是正確的;報錯了、任務(wù)失敗了,就是錯誤的。ACE的Reflector利用這些執(zhí)行結(jié)果做反思,不需要人工標(biāo)注。這使得ACE可以在生產(chǎn)環(huán)境中持續(xù)自我改進(jìn),而不需要持續(xù)的人工干預(yù)。

Q3:這套方法是否意味著模型微調(diào)變得不必要了?

不是這個意思,但它確實(shí)改變了微調(diào)的必要性邊界。對于需要快速適配、知識需要頻繁更新、或者領(lǐng)域知識量大但結(jié)構(gòu)清晰的場景,ACE提供了一條更輕量的替代路徑。微調(diào)在需要改變模型底層推理能力或語言風(fēng)格時仍然有價值,但在"讓模型知道更多領(lǐng)域經(jīng)驗(yàn)"這件事上,ACE表明上下文工程可以做到原來認(rèn)為需要微調(diào)才能實(shí)現(xiàn)的效果。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
遼寧連續(xù)8天全天-0.1元/kWh!負(fù)電價現(xiàn)象正在全國“肆虐”!

遼寧連續(xù)8天全天-0.1元/kWh!負(fù)電價現(xiàn)象正在全國“肆虐”!

老楊說光伏
2026-02-27 21:07:40
又一“星二代”想出道,網(wǎng)友:沒他爸當(dāng)年帥,媽媽回應(yīng):還沒長開

又一“星二代”想出道,網(wǎng)友:沒他爸當(dāng)年帥,媽媽回應(yīng):還沒長開

娛人細(xì)品
2026-02-26 20:38:29
1秒3億、單日突破10億!老鋪黃金創(chuàng)下天貓大促最快銷售紀(jì)錄

1秒3億、單日突破10億!老鋪黃金創(chuàng)下天貓大促最快銷售紀(jì)錄

財(cái)聞
2026-02-27 15:05:28
2026兩會即將召開,官媒“點(diǎn)名”霍啟剛,信息量大,郭晶晶安心了

2026兩會即將召開,官媒“點(diǎn)名”霍啟剛,信息量大,郭晶晶安心了

小徐講八卦
2026-02-28 06:09:35
畸形審美?這4位男演員長相平平,卻總當(dāng)主角演帥哥,實(shí)在不理解

畸形審美?這4位男演員長相平平,卻總當(dāng)主角演帥哥,實(shí)在不理解

淚滿過眼
2026-02-25 05:03:57
伊朗退了,敘利亞退了,巴勒斯坦退了,黎巴嫩退了,塞爾維亞退了

伊朗退了,敘利亞退了,巴勒斯坦退了,黎巴嫩退了,塞爾維亞退了

南權(quán)先生
2026-01-29 15:57:27
阿爾茨海默病者逐漸增多,醫(yī)生提醒:55歲后,盡量改掉6個壞習(xí)慣

阿爾茨海默病者逐漸增多,醫(yī)生提醒:55歲后,盡量改掉6個壞習(xí)慣

39健康網(wǎng)
2026-02-17 18:31:37
年前100多元一斤,年后價格腰斬!有湖北人已迫不及待下單

年前100多元一斤,年后價格腰斬!有湖北人已迫不及待下單

環(huán)球網(wǎng)資訊
2026-02-27 09:52:19
以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

八斗小先生
2025-12-26 09:33:27
特朗普“低俗玩笑”惹眾怒!美國冰球女隊(duì)隊(duì)長奈特強(qiáng)勢回?fù)簦毫钊瞬豢欤?>
    </a>
        <h3>
      <a href=去山野間追風(fēng)
2026-02-27 15:08:16
冬奧會剛結(jié)束!2歸化或離開國家隊(duì),谷愛凌年賺1.6億+還獲贈3臺車

冬奧會剛結(jié)束!2歸化或離開國家隊(duì),谷愛凌年賺1.6億+還獲贈3臺車

法老不說教
2026-02-27 17:10:58
WTT大滿貫女單4強(qiáng)名單揭曉,張本美和橫掃晉級,王曼昱逆轉(zhuǎn)

WTT大滿貫女單4強(qiáng)名單揭曉,張本美和橫掃晉級,王曼昱逆轉(zhuǎn)

呂彍極限手工
2026-02-27 10:11:18
女演員長相多重要?《好好時光》34歲陳昊宇VS31歲李雪琴差別明顯

女演員長相多重要?《好好時光》34歲陳昊宇VS31歲李雪琴差別明顯

娛君墜星河
2026-02-27 23:00:08
知名主持人骨瘦如柴,五年進(jìn)4次ICU,前妻卷走500平別墅和豪車

知名主持人骨瘦如柴,五年進(jìn)4次ICU,前妻卷走500平別墅和豪車

銀河史記
2026-02-27 15:06:09
歐聯(lián)淘汰賽16強(qiáng)對陣:維拉vs里爾,羅馬博洛尼亞意甲內(nèi)戰(zhàn)

歐聯(lián)淘汰賽16強(qiáng)對陣:維拉vs里爾,羅馬博洛尼亞意甲內(nèi)戰(zhàn)

懂球帝
2026-02-27 20:22:13
開炮真管用!中國海警船果斷開炮,菲律賓50多艘艦船奪命而逃!

開炮真管用!中國海警船果斷開炮,菲律賓50多艘艦船奪命而逃!

頭條爆料007
2026-02-26 08:30:30
解放戰(zhàn)爭關(guān)鍵時期,毛主席突然宣布處決一名重要將領(lǐng):不能原諒

解放戰(zhàn)爭關(guān)鍵時期,毛主席突然宣布處決一名重要將領(lǐng):不能原諒

大運(yùn)河時空
2026-02-27 15:20:03
朝鮮"忘記"中國恩情?教科書這樣記錄歷史,看完后很多人被刺痛了

朝鮮"忘記"中國恩情?教科書這樣記錄歷史,看完后很多人被刺痛了

小莜讀史
2026-02-23 14:28:01
上海一女子突然失蹤,5年后12歲女兒收到母親托夢:媽媽在這等你

上海一女子突然失蹤,5年后12歲女兒收到母親托夢:媽媽在這等你

第四思維
2025-09-09 09:35:32
NBA MVP榜:亞歷山大繼續(xù)榜首,坎寧安升至第三,東契奇降至第五

NBA MVP榜:亞歷山大繼續(xù)榜首,坎寧安升至第三,東契奇降至第五

懂球帝
2026-02-28 00:57:07
2026-02-28 07:24:49
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
1958文章數(shù) 162關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

特朗普警告伊朗:“有時候不得不打”

頭條要聞

特朗普警告伊朗:“有時候不得不打”

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

教育
家居
房產(chǎn)
手機(jī)
公開課

教育要聞

圓與旋轉(zhuǎn)第1講,一個視頻學(xué)明白

家居要聞

素色肌理 品意式格調(diào)

房產(chǎn)要聞

重磅!海南“十五五”規(guī)劃出爐!未來五年,方向定了!

手機(jī)要聞

澎湃OS 3 Beta新版本,涵蓋5款機(jī)型,堆疊排布+超級小愛全落地

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版