国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

人大&通義:IterResearch用40K上下文輕松實(shí)現(xiàn)2048輪交互不退化

0
分享至



以 40K 上下文,讓 Agent 搜索 2048 輪,性能還能一路漲?這幾乎是不可想象的。

當(dāng)前主流的 Search Agent 都面臨同一個(gè)尷尬:Agent 需要反復(fù)搜索網(wǎng)頁(yè)、比對(duì)線索、驗(yàn)證假設(shè)、回溯修正,交互輪次動(dòng)輒數(shù)十上百輪。但以 ReAct 為代表的傳統(tǒng)范式,把每一輪的思考和工具返回結(jié)果不斷追加到同一個(gè)上下文窗口中 —— 做得越多,上下文越臃腫,留給推理的空間越少,早期的噪聲和錯(cuò)誤路徑還被永久「焊死」在記憶里。

結(jié)果就是:Agent 搜得越深入,反而「想」得越糊涂。

能不能讓 Agent 在探索過(guò)程中不斷「清理工作臺(tái)」,始終在一個(gè)干凈的空間里思考?

來(lái)自中國(guó)人民大學(xué)與阿里巴巴通義實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了 IterResearch,一種全新的迭代式深度研究范式。

通過(guò)馬爾可夫式的工作空間重構(gòu),IterResearch 讓 Agent 在僅 40K 上下文長(zhǎng)度下完成了 2048 次工具交互且性能不衰減,在 BrowseComp 上從 3.5% 一路攀升至 42.5%。

目前,該論文已被 ICLR 2026 接收。



  • 論文鏈接:https://arxiv.org/pdf/2511.07327
  • 代碼鏈接:https://github.com/Chen-GX/IterResearch

「堆上下文」為什么難以實(shí)現(xiàn) Interaction Scaling?

在 Search Agent 場(chǎng)景下,Agent 的工作本質(zhì)上是一個(gè)與外部環(huán)境不斷交互的循環(huán)。傳統(tǒng) ReAct 范式將這一過(guò)程建模為「單上下文堆疊」:每一輪的推理和工具返回被持續(xù)追加到同一個(gè)上下文窗口中,形成線性增長(zhǎng)的記憶鏈。

這種看似自然的設(shè)計(jì),在長(zhǎng)程任務(wù)中會(huì)引發(fā)兩個(gè)結(jié)構(gòu)性問(wèn)題:

  • 其一是上下文窒息(context suffocation):上下文窗口的總?cè)萘渴怯邢薜?,歷史信息不斷堆積意味著留給后續(xù)推理的「生成預(yù)算」被持續(xù)壓縮。Agent 被迫給出更短、更淺的回答,最終滑向草率的結(jié)論;
  • 其二是噪聲污染(noise contamination):搜索過(guò)程中產(chǎn)生的大量網(wǎng)頁(yè)摘要、早期的錯(cuò)誤路徑和無(wú)關(guān)線索被永久寫(xiě)入上下文,對(duì)后續(xù)推理產(chǎn)生級(jí)聯(lián)干擾,信噪比持續(xù)走低。

社區(qū)已經(jīng)意識(shí)到了這些問(wèn)題,陸續(xù)提出了 context folding、summary 等緩解策略,試圖為搖搖欲墜的上下文「續(xù)命」。但這些方法本質(zhì)上是在補(bǔ)救,并未從根本上改變上下文線性增長(zhǎng)的結(jié)構(gòu) —— 給 Agent 256K 甚至更長(zhǎng)的窗口,也只是推遲崩潰,而非避免崩潰。

不再「堆疊」,而是「重構(gòu)」:IterResearch 的核心思路

IterResearch 對(duì)這一問(wèn)題的回應(yīng)不是修修補(bǔ)補(bǔ),而是從范式層面重新思考:與其不斷往上下文里塞東西,不如讓 Agent 學(xué)會(huì)「邊做邊清理」。



研究團(tuán)隊(duì)將長(zhǎng)程研究過(guò)程形式化為一個(gè)馬爾可夫決策過(guò)程(MDP)。核心思想是:Agent 不再維護(hù)一個(gè)不斷膨脹的完整歷史,而是通過(guò)一個(gè)持續(xù)進(jìn)化的「演進(jìn)式報(bào)告」(evolving report)來(lái)綜合已有成果、壓縮無(wú)關(guān)信息、更新推理狀態(tài)。每一輪推理都在一個(gè)被重構(gòu)過(guò)的、恒定復(fù)雜度的工作空間中展開(kāi)。

具體來(lái)說(shuō),Agent 的每一步包含兩個(gè)核心動(dòng)作:

  • 決策階段:Agent 基于當(dāng)前狀態(tài),輸出三部分 —— 思考過(guò)程(Think)、更新后的演進(jìn)報(bào)告(Report)和本輪工具調(diào)用請(qǐng)求(Action)。報(bào)告在這里扮演了「壓縮記憶」的角色,Agent 需要在每一輪主動(dòng)決定哪些信息值得保留,哪些應(yīng)該被丟棄。
  • 狀態(tài)轉(zhuǎn)移階段:進(jìn)入下一輪時(shí),完整的歷史軌跡被有意丟棄,Agent 僅保留更新后的報(bào)告、上一輪的工具調(diào)用及其返回結(jié)果,三者共同構(gòu)成新的推理起點(diǎn)。

從上下文管理的視角看,傳統(tǒng) ReAct 的狀態(tài)空間隨交互輪次 t 線性增長(zhǎng)(O (t)),而 IterResearch 的工作空間始終保持恒定(O (1))。

研究團(tuán)隊(duì)指出,這種機(jī)制與 RNN/LSTM 中的隱狀態(tài)更新有結(jié)構(gòu)上的相似性 —— 都通過(guò)一個(gè)隱狀態(tài)來(lái)承載記憶并逐步更新。不同之處在于,IterResearch 的「隱狀態(tài)」是一份顯式、可解釋的研究報(bào)告,既能濃縮歷史,又能為下一步推理提供清晰的起點(diǎn)。



40K 上下文,2048 輪交互不退化:Interaction Scaling 的威力

這項(xiàng)工作中最核心的發(fā)現(xiàn),就是 Interaction Scaling 特性 ——給 Agent 更多的交互預(yù)算,性能就能持續(xù)提升,而不會(huì)像傳統(tǒng)方法那樣因?yàn)樯舷挛囊绯龆罎ⅰ?/p>



在 BrowseComp 基準(zhǔn)上,研究團(tuán)隊(duì)將 Agent 的最大交互輪次從 2 逐步放寬到 2048。結(jié)果顯示,IterResearch 的準(zhǔn)確率從 3.5% 一路攀升到 42.5%,且在 2048 輪時(shí)依然沒(méi)有出現(xiàn)明顯的退化跡象。而傳統(tǒng)單上下文方法在幾十輪后就已經(jīng)不堪重負(fù)。

值得強(qiáng)調(diào)的是,2048 并非 IterResearch 的交互上限,而僅是實(shí)驗(yàn)評(píng)測(cè)范圍的終點(diǎn)。模型在 2048 輪時(shí)性能曲線仍保持上升趨勢(shì),表明該范式在理論上具備進(jìn)一步擴(kuò)展的潛力。

這一結(jié)果傳遞了一個(gè)重要信號(hào):長(zhǎng)程任務(wù)的「難」,可能并非完全來(lái)自模型推理能力不足,更有可能是探索深度受限。當(dāng) Agent 擁有一個(gè)干凈的思維空間并被允許充分探索時(shí),它確實(shí)有能力在超長(zhǎng)任務(wù)中持續(xù)進(jìn)步。

另一個(gè)有意思的發(fā)現(xiàn)是:盡管最大輪次被設(shè)置為 2048,Agent 實(shí)際上平均只用了約 80 輪。它學(xué)會(huì)了在獲取足夠信息后主動(dòng)終止,而非機(jī)械地耗盡預(yù)算 —— 這說(shuō)明Agent 不僅學(xué)會(huì)了「走得遠(yuǎn)」,還學(xué)會(huì)了「知道何時(shí)?!?。

「即插即用」的推理范式:不訓(xùn)練也能提升閉源模型

如果僅把 IterResearch 的迭代邏輯作為提示策略(prompting strategy),直接應(yīng)用于閉源模型而不做任何訓(xùn)練,效果會(huì)怎樣?

研究團(tuán)隊(duì)在 o3 和 DeepSeek-V3.1 上做了驗(yàn)證。在完全相同的任務(wù)設(shè)定下,相比傳統(tǒng)的 ReAct 提示范式,IterResearch 在最具挑戰(zhàn)性的 BrowseComp 上分別為 o3 帶來(lái)了 12.7 個(gè)百分點(diǎn)、為 DeepSeek-V3.1 帶來(lái)了 19.2 個(gè)百分點(diǎn)的提升。



這說(shuō)明IterResearch 的核心優(yōu)勢(shì)在于結(jié)構(gòu)性的認(rèn)知機(jī)制,而非依賴特定數(shù)據(jù)或微調(diào)技巧。無(wú)論底層模型是什么架構(gòu),它觸及的都是長(zhǎng)程推理中的共性瓶頸。

總結(jié)

IterResearch 提出了一個(gè)簡(jiǎn)潔而有效的范式轉(zhuǎn)換:與其不斷修補(bǔ)一個(gè)注定會(huì)崩潰的線性上下文,不如從結(jié)構(gòu)上讓 Agent 學(xué)會(huì)「邊做邊重構(gòu)思維」。

這一思路在訓(xùn)練框架、提示策略和跨范式遷移三個(gè)層面都展現(xiàn)了一致的有效性,而其揭示的 Interaction Scaling 特性更是為長(zhǎng)程 Agent 的能力邊界打開(kāi)了新的想象空間。在 Agent 走向真正長(zhǎng)期、持續(xù)運(yùn)行的未來(lái),IterResearch 提供了一個(gè)值得關(guān)注的方向。

作者介紹

第一作者陳國(guó)鑫,中國(guó)人民大學(xué)高瓴人工智能學(xué)院博士生,導(dǎo)師為趙鑫教授和宋睿華教授,研究方向?yàn)?LLM 推理與 Agent,聚焦搜索智能體與代碼智能體。曾在阿里巴巴通義實(shí)驗(yàn)室等機(jī)構(gòu)實(shí)習(xí),在 ICLR、ICML、NeurIPS、ACL 等頂級(jí)會(huì)議發(fā)表多篇論文。本工作由中國(guó)人民大學(xué)與阿里巴巴通義實(shí)驗(yàn)室合作完成。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
前高考數(shù)學(xué)出題人葛軍開(kāi)通社交賬號(hào),簡(jiǎn)介內(nèi)容“求生欲拉滿”

前高考數(shù)學(xué)出題人葛軍開(kāi)通社交賬號(hào),簡(jiǎn)介內(nèi)容“求生欲拉滿”

凱旋學(xué)長(zhǎng)
2026-02-28 10:47:22
1949年傅作義任水利部長(zhǎng)遭閑置,主席當(dāng)面質(zhì)問(wèn),周恩來(lái)聽(tīng)聞當(dāng)即發(fā)火

1949年傅作義任水利部長(zhǎng)遭閑置,主席當(dāng)面質(zhì)問(wèn),周恩來(lái)聽(tīng)聞當(dāng)即發(fā)火

磊子講史
2026-01-14 10:12:21
給機(jī)會(huì)也不中用,林肯號(hào)距伊朗僅350公里,90度急轉(zhuǎn)甩掉高超彈

給機(jī)會(huì)也不中用,林肯號(hào)距伊朗僅350公里,90度急轉(zhuǎn)甩掉高超彈

策前論
2026-03-02 23:39:12
“芯片戰(zhàn)”輸?shù)脧氐??日媒:芯片崛起,全球芯片商壓力山?>
    </a>
        <h3>
      <a href=瘋狂小菠蘿
2026-03-01 23:15:17
超級(jí)迪馬爾科現(xiàn)世,齊沃功勞卓著!神鬼莫測(cè)卡博內(nèi),續(xù)約理所應(yīng)當(dāng)

超級(jí)迪馬爾科現(xiàn)世,齊沃功勞卓著!神鬼莫測(cè)卡博內(nèi),續(xù)約理所應(yīng)當(dāng)

狗哥是一名內(nèi)拉
2026-03-02 21:24:41
凌晨浦東機(jī)場(chǎng):四女孩險(xiǎn)飛泰國(guó),兩分鐘之差險(xiǎn)釀悲劇

凌晨浦東機(jī)場(chǎng):四女孩險(xiǎn)飛泰國(guó),兩分鐘之差險(xiǎn)釀悲劇

劉拕?wù)f體壇
2026-03-02 09:03:39
羅永浩不知要卸妝一年沒(méi)卸 結(jié)果長(zhǎng)了黃褐斑 現(xiàn)狀已失控

羅永浩不知要卸妝一年沒(méi)卸 結(jié)果長(zhǎng)了黃褐斑 現(xiàn)狀已失控

快科技
2026-03-02 09:27:07
黎筍之子黎堅(jiān)誠(chéng)坦言:父親選擇同中國(guó)開(kāi)戰(zhàn),是其畢生最大的失策

黎筍之子黎堅(jiān)誠(chéng)坦言:父親選擇同中國(guó)開(kāi)戰(zhàn),是其畢生最大的失策

磊子講史
2025-12-24 11:04:05
媒體人:不了解楊瀚森場(chǎng)下訓(xùn)練情況,但英語(yǔ)進(jìn)步速度讓人憂慮

媒體人:不了解楊瀚森場(chǎng)下訓(xùn)練情況,但英語(yǔ)進(jìn)步速度讓人憂慮

懂球帝
2026-03-02 13:29:16
沙特堅(jiān)決否認(rèn):我們沒(méi)有!

沙特堅(jiān)決否認(rèn):我們沒(méi)有!

環(huán)球時(shí)報(bào)國(guó)際
2026-03-02 13:33:37
采訪現(xiàn)場(chǎng),英國(guó)綠黨領(lǐng)袖激動(dòng)拍桌:國(guó)際法在美以面前到底算啥!

采訪現(xiàn)場(chǎng),英國(guó)綠黨領(lǐng)袖激動(dòng)拍桌:國(guó)際法在美以面前到底算啥!

南宗歷史
2026-03-03 03:42:11
小鼠研究表明,挖鼻孔與阿爾茨海默病之間存在令人驚訝的聯(lián)系

小鼠研究表明,挖鼻孔與阿爾茨海默病之間存在令人驚訝的聯(lián)系

心中的麥田
2026-01-21 20:18:15
上海影院現(xiàn)場(chǎng)意外捉奸,女子露面身材姣好,丈夫目睹后聲音都變了

上海影院現(xiàn)場(chǎng)意外捉奸,女子露面身材姣好,丈夫目睹后聲音都變了

阿訊說(shuō)天下
2026-03-02 11:46:36
科學(xué)家讓一對(duì)情侶在核磁共振里實(shí)戰(zhàn),才發(fā)現(xiàn)人體驚人真相!

科學(xué)家讓一對(duì)情侶在核磁共振里實(shí)戰(zhàn),才發(fā)現(xiàn)人體驚人真相!

徐德文科學(xué)頻道
2026-01-06 19:51:55
破防了!原來(lái)只要失業(yè),所有人都一樣!網(wǎng)友:人都快抑郁了

破防了!原來(lái)只要失業(yè),所有人都一樣!網(wǎng)友:人都快抑郁了

另子維愛(ài)讀史
2026-01-16 21:03:12
反轉(zhuǎn)!內(nèi)賈德大難不死,伊朗反擊不設(shè)限,特朗普:美軍將死傷更多

反轉(zhuǎn)!內(nèi)賈德大難不死,伊朗反擊不設(shè)限,特朗普:美軍將死傷更多

阿腩講娛樂(lè)
2026-03-03 02:51:47
窮可以讓一個(gè)女人卑微到什么程度?看網(wǎng)友的評(píng)論引起萬(wàn)千共鳴

窮可以讓一個(gè)女人卑微到什么程度?看網(wǎng)友的評(píng)論引起萬(wàn)千共鳴

夜深愛(ài)雜談
2026-03-01 21:28:54
上海電影院捉奸后續(xù),女子帶情夫公然出軌,視頻流出高清照片曝光

上海電影院捉奸后續(xù),女子帶情夫公然出軌,視頻流出高清照片曝光

壹月情感
2026-03-02 21:09:52
阿聯(lián)酋航空確認(rèn)部分航班將于周一晚間恢復(fù)運(yùn)營(yíng)

阿聯(lián)酋航空確認(rèn)部分航班將于周一晚間恢復(fù)運(yùn)營(yíng)

財(cái)聯(lián)社
2026-03-02 22:55:06
從伊朗的情況來(lái)看,中國(guó)有可能存在特務(wù)的人群不只是出國(guó)留學(xué)人員

從伊朗的情況來(lái)看,中國(guó)有可能存在特務(wù)的人群不只是出國(guó)留學(xué)人員

忠于法紀(jì)
2025-12-09 21:28:55
2026-03-03 04:32:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關(guān)注度
往期回顧 全部

科技要聞

蘋(píng)果中國(guó)官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

特朗普:對(duì)伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

頭條要聞

特朗普:對(duì)伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂(lè)要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

數(shù)碼
教育
時(shí)尚
房產(chǎn)
藝術(shù)

數(shù)碼要聞

高通MWC 2026發(fā)布多項(xiàng)通信技術(shù),定檔2029年開(kāi)啟6G商用

教育要聞

3月13日截止!山東綜評(píng)云平臺(tái)填寫(xiě)教程!有視頻!

今年春天一定要擁有的4件衣服,太好看了!

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫?,又有書(shū)包大盤(pán)殺出!

藝術(shù)要聞

這四位老人的花鳥(niǎo)畫(huà),竟讓人欲罷不能!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版