網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

遞歸語言模型

2026-02-12 08:59:28　來源: CreateAMind

上海舉報

分享至

Recursive Language Models

遞歸語言模型

https://arxiv.org/pdf/2512.24601v1

摘要：

本文從推理時擴(kuò)展（inference-time scaling）視角研究如何使大語言模型（LLMs）處理任意長度的提示。我們提出遞歸語言模型（RLMs），一種通用推理策略：將長提示視為外部環(huán)境的一部分，使LLM能以程序化方式檢視、分解提示片段并遞歸調(diào)用自身。實(shí)驗(yàn)表明，RLMs可成功處理超出模型上下文窗口兩個數(shù)量級的輸入；即便對于較短提示，在四項(xiàng)多樣化長上下文任務(wù)中，其質(zhì)量亦顯著優(yōu)于基礎(chǔ)LLM及常見長上下文框架，且單次查詢成本相當(dāng)或更低。

引言

盡管推理與工具使用能力快速進(jìn)步，現(xiàn)代語言模型的上下文長度仍受限，且即使在此限制內(nèi)，亦不可避免地表現(xiàn)出“上下文腐化”（context rot）現(xiàn)象（Hong et al., 2025）——如圖1左側(cè)所示，即便是GPT-5等前沿模型，其性能亦隨上下文增長而迅速下降。盡管我們預(yù)期通過訓(xùn)練、架構(gòu)與基礎(chǔ)設(shè)施的改進(jìn)，上下文長度將持續(xù)提升，但我們關(guān)注的是：是否有可能將通用大語言模型的上下文規(guī)模提升數(shù)個數(shù)量級。這一問題日益緊迫，因LLM正被廣泛應(yīng)用于長周期任務(wù)，需常規(guī)處理數(shù)千萬乃至數(shù)億個token。

我們從擴(kuò)展推理時計算（inference-time compute）的視角研究此問題。我們的靈感廣泛來源于核外算法（out-of-core algorithms）：具備小而快主存的數(shù)據(jù)處理系統(tǒng)，可通過巧妙管理數(shù)據(jù)載入內(nèi)存的方式處理遠(yuǎn)超內(nèi)存容量的數(shù)據(jù)集。針對本質(zhì)上屬于長上下文問題的推理時方法已十分常見，但通常局限于特定任務(wù)。該領(lǐng)域中一種通用且日益流行的方法是上下文壓縮（context condensation/compaction）（Khattab et al., 2021; Smith, 2025; OpenAI, 2025; Wu et al., 2025），即當(dāng)上下文超過長度閾值時對其進(jìn)行重復(fù)摘要。遺憾的是，對于需要密集訪問提示多處細(xì)節(jié)的任務(wù)，壓縮方法的表達(dá)能力往往不足，因其本質(zhì)上預(yù)設(shè)了提示早期出現(xiàn)的某些細(xì)節(jié)可被安全遺忘，以為新內(nèi)容騰出空間。

我們提出遞歸語言模型（Recursive Language Models, RLMs），一種通用推理范式，可顯著擴(kuò)展現(xiàn)代LLM的有效輸入與輸出長度。其核心洞見在于：長提示不應(yīng)直接輸入神經(jīng)網(wǎng)絡(luò)（如Transformer），而應(yīng)被視為LLM可通過符號方式交互的外部環(huán)境的一部分。

如圖2所示，RLM對外暴露與LLM相同的接口：接受任意結(jié)構(gòu)的字符串提示并生成字符串響應(yīng)。給定提示 P P，RLM初始化一個讀取-求值-打印循環(huán)（REPL）編程環(huán)境，其中 P P被設(shè)為某變量的值。隨后，RLM向LLM提供關(guān)于REPL環(huán)境的通用上下文信息（如字符串 P P的長度），并允許其編寫代碼以窺探、分解 P P，并迭代觀察執(zhí)行產(chǎn)生的副作用。關(guān)鍵在于，RLM鼓勵LLM在其生成的代碼中以程序化方式構(gòu)建子任務(wù)，并可對這些子任務(wù)遞歸調(diào)用自身。

通過將提示視為外部環(huán)境中的對象，RLM這一簡潔設(shè)計克服了眾多先前方法（Anthropic, 2025; Sentient, 2025; Schroeder et al., 2025; Sun et al., 2025）的根本局限——這些方法雖聚焦于任務(wù)的遞歸分解，卻無法使其輸入規(guī)模突破底層LLM的上下文窗口限制。

我們使用前沿閉源模型（GPT-5; OpenAI 2025）與前沿開源模型（Qwen3-Coder-480B-A35B; Team 2025），在四項(xiàng)復(fù)雜度各異的多樣化任務(wù)上評估RLM：深度研究（Chen et al., 2025）、信息聚合（Bertsch et al., 2025）、代碼倉庫理解（Bai et al., 2025），以及一項(xiàng)連前沿模型亦會災(zāi)難性失敗的合成成對推理任務(wù)。我們將RLM與直接調(diào)用LLM、上下文壓縮、檢索工具調(diào)用智能體及代碼生成智能體進(jìn)行比較。結(jié)果表明，RLM即使在1000萬+ token規(guī)模下仍表現(xiàn)出極強(qiáng)性能，在長上下文處理任務(wù)中顯著優(yōu)于所有其他方法，多數(shù)情況下性能提升達(dá)兩位數(shù)百分比，同時保持相當(dāng)或更低的成本。特別如圖1所示，RLM在更長上下文與更復(fù)雜任務(wù)中表現(xiàn)出遠(yuǎn)為輕微的性能退化。

2 長上下文任務(wù)的擴(kuò)展

近期研究（Hsieh et al., 2024; Goldman et al., 2025; Hong et al., 2025）已成功論證：LLM的有效上下文窗口通常遠(yuǎn)小于模型物理上支持的最大token數(shù)量。進(jìn)一步地，我們假設(shè)LLM的有效上下文窗口無法脫離具體任務(wù)而獨(dú)立理解。換言之，更“復(fù)雜”的問題將在更短的長度上即出現(xiàn)性能退化。因此，我們必須依據(jù)任務(wù)復(fù)雜度如何隨提示長度縮放來刻畫任務(wù)特性。

例如，"大海撈針"（needle-in-a-haystack, NIAH）問題在擴(kuò)展提示長度時通常保持"針"的內(nèi)容不變。因此，盡管早期模型在NIAH任務(wù)上表現(xiàn)掙扎，前沿模型在RULER（Hsieh et al., 2024）中即使面對100萬+ token的設(shè)置亦能可靠解決此類任務(wù)。然而，同一模型在OOLONG（Bertsch et al., 2025）任務(wù)上即便面對更短上下文亦表現(xiàn)困難——該任務(wù)的答案明確依賴于提示中幾乎每一行內(nèi)容。

2.1 任務(wù)

基于此直覺，我們在經(jīng)驗(yàn)評估中設(shè)計了若干任務(wù)，不僅能夠變化提示長度，亦可考察問題復(fù)雜度的不同縮放模式。我們粗略地以信息密度（即智能體為回答任務(wù)所需處理的信息量，及其如何隨輸入規(guī)模縮放）來刻畫每項(xiàng)任務(wù)。

S-NIAH。沿用RULER（Hsieh et al., 2024）中的單針大海撈針任務(wù)，我們考慮一組50個單針任務(wù)，要求在大量無關(guān)文本中查找特定短語或數(shù)字。此類任務(wù)無論輸入規(guī)模如何均只需查找單一答案，因此其處理成本相對于輸入長度近似恒定縮放。

BrowseComp-Plus（1K文檔）（Chen et al., 2025）。面向DeepResearch（OpenAI, 2025）問題的多跳問答基準(zhǔn)，要求對多個不同文檔進(jìn)行推理。該基準(zhǔn)提供一個經(jīng)驗(yàn)證的離線語料庫（含10萬文檔），保證每個任務(wù)均包含黃金答案文檔、證據(jù)文檔與困難負(fù)例文檔。參照Sun et al. (2025)，我們使用150個隨機(jī)采樣任務(wù)作為評估集；向模型或智能體提供1000個隨機(jī)選擇的文檔，其中保證包含黃金答案與證據(jù)文檔。我們報告正確答案的百分比。每項(xiàng)任務(wù)需拼接來自多個文檔的信息，因此盡管同樣只需恒定數(shù)量的文檔作答，其復(fù)雜度仍高于S-NIAH。

OOLONG（Bertsch et al., 2025）。一項(xiàng)長推理基準(zhǔn)任務(wù)，要求對輸入的語義塊進(jìn)行檢視與變換，再聚合這些塊以形成最終答案。我們采用原論文的評分方式：數(shù)值答案評分為，其他答案采用精確匹配。我們特別聚焦于trec coarse劃分，該劃分包含50個任務(wù)，基于帶有語義標(biāo)簽的問題數(shù)據(jù)集。每項(xiàng)任務(wù)需使用數(shù)據(jù)集中近乎全部條目，因此其處理成本相對于輸入長度呈線性縮放。

OOLONG-Pairs。我們手動修改OOLONG的trec coarse劃分，加入20個新查詢，這些查詢明確要求聚合成對的語義塊以構(gòu)建最終答案。附錄E.1中明確列出了該基準(zhǔn)的所有查詢。我們報告答案的F1分?jǐn)?shù)。每項(xiàng)任務(wù)需使用數(shù)據(jù)集中近乎全部條目對，因此其處理成本相對于輸入長度呈二次方縮放。

LongBench-v2 CodeQA（Bai et al., 2025）。LongBench-v2中面向代碼倉庫理解的多選題劃分，對現(xiàn)代前沿模型頗具挑戰(zhàn)性。我們以正確答案百分比作為評分。每項(xiàng)任務(wù)需對代碼庫中固定數(shù)量的文件進(jìn)行推理以找出正確答案。

2.2 方法與基線

我們將RLM與其它常用的任務(wù)無關(guān)方法進(jìn)行比較。針對以下每種方法，我們使用兩個當(dāng)代語言模型：具備中等推理能力的GPT-5（OpenAI, 2025），采用默認(rèn)采樣參數(shù)；以及Qwen3-Coder-480B-A35B（Yang et al., 2025），采用Team (2025)所述的采樣參數(shù)。二者分別代表商業(yè)與開源前沿模型。除在所有任務(wù)上評估基礎(chǔ)模型外，我們還評估以下方法與基線：

帶REPL的RLM。我們實(shí)現(xiàn)了一種RLM，將其上下文作為字符串加載至Python REPL環(huán)境的內(nèi)存中。該REPL環(huán)境同時加載一個模塊，使其能夠在環(huán)境中查詢子語言模型。系統(tǒng)提示詞在所有實(shí)驗(yàn)中保持固定（見附錄D）。在GPT-5實(shí)驗(yàn)中，我們對遞歸調(diào)用使用GPT-5-mini，對根調(diào)用使用GPT-5，因該選擇在RLM能力與遞歸調(diào)用成本之間取得了良好權(quán)衡。

帶REPL但無子調(diào)用的RLM。我們提供本方法的消融實(shí)驗(yàn)：REPL環(huán)境雖加載了上下文，但無法使用子語言模型調(diào)用。在此設(shè)定下，語言模型仍可在REPL環(huán)境中與其上下文交互，之后再提供最終答案。

摘要智能體。參照Sun et al. (2025)、Wu et al. (2025)與Yu et al. (2025)，我們考慮一種迭代式智能體，當(dāng)上下文被填滿時即對其進(jìn)行摘要。例如，給定文檔語料庫，該智能體會迭代瀏覽文檔并在填滿時進(jìn)行摘要。當(dāng)提供上下文超出模型窗口時，智能體會將輸入分塊以適配模型上下文窗口，并在這些分塊上應(yīng)用相同策略。對于GPT-5，鑒于處理大token輸入的極高成本，我們使用GPT-5-nano進(jìn)行壓縮，使用GPT-5提供最終答案。

CodeAct（+ BM25）。我們直接與CodeAct（Wang et al., 2024）智能體進(jìn)行比較，該智能體可在ReAct（Yao et al., 2023）循環(huán)內(nèi)執(zhí)行代碼。與RLM不同，它不將提示卸載至代碼環(huán)境，而是直接提供給語言模型。此外，參照J(rèn)imenez et al. (2024)與Chen et al. (2025)，我們?yōu)樵撝悄荏w配備BM25（Robertson & Zaragoza, 2009）檢索器，對適用任務(wù)將其輸入上下文建立索引。

3 結(jié)果與討論

我們在表1中聚焦于§2.1所述的基準(zhǔn)測試開展主要實(shí)驗(yàn)。此外，我們在圖1中探究了前沿模型與RLM的性能如何隨輸入上下文增長而退化。

觀察1：RLM可擴(kuò)展至1000萬+ token規(guī)模，且在長上下文任務(wù)上優(yōu)于基礎(chǔ)語言模型及現(xiàn)有任務(wù)無關(guān)的智能體框架。在所有任務(wù)中，RLM在遠(yuǎn)超前沿語言模型有效上下文窗口的輸入任務(wù)上均展現(xiàn)出強(qiáng)勁性能，相較基礎(chǔ)模型與常見長上下文框架，性能提升最高達(dá)2倍，同時保持相當(dāng)或更低的平均token成本。值得注意的是，RLM的成本可良好擴(kuò)展至基礎(chǔ)模型上下文窗口的理論擴(kuò)展成本——在BrowseComp-Plus（1K）任務(wù)上，GPT-5-mini處理600–1100萬輸入token的成本為1.50–2.75美元，而RLM(GPT-5)的平均成本僅為0.99美元，且性能較摘要與檢索基線分別提升逾29%。

此外，在處理成本隨輸入上下文縮放的任務(wù)上，即便任務(wù)完全適配模型上下文窗口，RLM相較基礎(chǔ)模型仍取得顯著改進(jìn)。在OOLONG任務(wù)上，采用GPT-5與Qwen3-Coder的RLM分別較基礎(chǔ)模型提升28.4%與33.3%。在OOLONG-Pairs任務(wù)上，GPT-5與Qwen3-Coder基礎(chǔ)模型幾乎無進(jìn)展（F1分?jǐn)?shù)<0.1%），而采用這些模型的RLM則分別達(dá)到58.00%與23.11%的F1分?jǐn)?shù)，凸顯RLM處理極高信息密度任務(wù)的涌現(xiàn)能力。

觀察2：REPL環(huán)境對處理長輸入必不可少，而RLM的遞歸子調(diào)用在信息密集型輸入上帶來顯著增益。RLM的關(guān)鍵特征是將上下文作為變量卸載至模型可交互的環(huán)境 E E中。即便不具備子調(diào)用能力，我們的RLM消融實(shí)驗(yàn)仍能突破模型上下文限制，在多數(shù)長上下文場景下優(yōu)于基礎(chǔ)模型及其他任務(wù)無關(guān)基線。在Qwen3-Coder的CodeQA與BrowseComp+任務(wù)上，該消融版本甚至分別較完整RLM提升17.9%與3%。

在OOLONG或OOLONG-Pairs等信息密集型任務(wù)上，我們觀察到若干遞歸語言模型子調(diào)用必不可少的情形。在§3.1中可見，RLM(Qwen3-Coder)通過遞歸子調(diào)用逐行執(zhí)行必要的語義變換，而無子調(diào)用的消融版本則被迫依賴關(guān)鍵詞啟發(fā)式方法求解此類任務(wù)。在所有信息密集型任務(wù)上，RLM相較無子調(diào)用的消融版本性能提升10%–59%。

觀察3：語言模型性能隨輸入長度與問題復(fù)雜度增加而退化，而RLM性能縮放表現(xiàn)更優(yōu)?；鶞?zhǔn)測試S-NIAH、OOLONG與OOLONG-Pairs在長度范圍為的上下文中包含固定數(shù)量的任務(wù)。此外，每項(xiàng)基準(zhǔn)可依據(jù)輸入上下文相對于長度的處理成本（分別近似為常數(shù)、線性與二次方）進(jìn)行粗略分類。在圖1中，我們直接比較了使用GPT-5的RLM與基礎(chǔ)GPT-5在各項(xiàng)任務(wù)上的表現(xiàn)——我們發(fā)現(xiàn)，對于更復(fù)雜的任務(wù)，GPT-5性能退化顯著更快，而RLM性能雖亦退化，但速率慢得多，這與Goldman et al. (2025)的發(fā)現(xiàn)一致。當(dāng)上下文長度超過時，RLM持續(xù)優(yōu)于GPT-5。

此外，RLM成本與任務(wù)復(fù)雜度成比例縮放，但仍保持與GPT-5同數(shù)量級（見附錄C中圖9）。在§3.1中，我們探討了RLM在此類設(shè)置中所做的選擇如何導(dǎo)致成本差異。最后，在此設(shè)置下，我們亦觀察到基礎(chǔ)語言模型在小規(guī)模輸入上下文場景中優(yōu)于RLM。從構(gòu)造上看，RLM的表征能力嚴(yán)格強(qiáng)于語言模型：選擇調(diào)用根語言模型的環(huán)境等價于基礎(chǔ)語言模型；然而實(shí)踐中我們觀察到，RLM在較小輸入長度下性能略遜，表明在何時使用基礎(chǔ)語言模型與何時使用RLM之間存在權(quán)衡點(diǎn)。

觀察4：RLM的推理成本與基礎(chǔ)模型調(diào)用相當(dāng)，但因軌跡長度差異而呈現(xiàn)高方差。RLM迭代式地與其上下文交互直至找到合適答案，導(dǎo)致迭代長度因任務(wù)復(fù)雜度不同而產(chǎn)生巨大差異。在圖3中，我們繪制了表1中除BrowseComp-Plus（1K）外所有實(shí)驗(yàn)中各方法的成本四分位數(shù)（因基礎(chǔ)模型無法將任何此類任務(wù)納入上下文）。對于GPT-5，RLM運(yùn)行的中位成本低于基礎(chǔ)模型運(yùn)行的中位成本，但許多RLM運(yùn)行的異常值顯著高于任何基礎(chǔ)模型查詢。然而，相較于需攝入全部輸入上下文的摘要基線，RLM因能夠選擇性查看上下文，在所有任務(wù)上成本最高可降低3倍，同時保持更強(qiáng)性能。

我們還在附錄C的圖5、6中報告了各方法的運(yùn)行時間，但需注意若干重要限制。與API成本不同，這些數(shù)值高度依賴于實(shí)現(xiàn)細(xì)節(jié)，如所用機(jī)器、API請求延遲及語言模型調(diào)用的異步性。在我們的基線與RLM實(shí)現(xiàn)中，所有語言模型調(diào)用均為阻塞式/串行執(zhí)行。盡管如此，與成本類似，我們?nèi)杂^察到運(yùn)行時間范圍廣泛，尤其對于RLM。

觀察5：RLM是一種模型無關(guān)的推理策略，但不同模型在上下文管理與子調(diào)用方面表現(xiàn)出不同的整體決策。盡管GPT-5與Qwen3-Coder-480B作為RLM均相對其基礎(chǔ)模型及其他基線展現(xiàn)出強(qiáng)勁性能，但二者在所有任務(wù)上亦表現(xiàn)出不同的性能與行為。尤其在BrowseComp-Plus任務(wù)上，RLM(GPT-5)幾乎解決了所有任務(wù)，而RLM(Qwen3-Coder)僅能解決約半數(shù)任務(wù)。我們注意到，RLM系統(tǒng)提示詞在各模型的所有實(shí)驗(yàn)中保持固定，且未針對任何特定基準(zhǔn)進(jìn)行調(diào)優(yōu)。GPT-5與Qwen3-Coder之間提示詞的唯一差異在于：RLM(Qwen3-Coder)的提示詞中額外增加了一行警告，提示避免過多使用子調(diào)用（見附錄D）。我們在示例B.3中明確展示了這一差異：RLM(Qwen3-Coder)在OOLONG任務(wù)中對每行執(zhí)行語義變換時均作為獨(dú)立的子語言模型調(diào)用，而GPT-5則對子查詢語言模型持保守態(tài)度。

3.1 RLM軌跡中的涌現(xiàn)模式

即便未經(jīng)顯式訓(xùn)練，RLM亦展現(xiàn)出有趣的上下文管理與問題分解行為。我們選取若干RLM軌跡片段示例，以理解其如何解決長上下文問題及可改進(jìn)之處。此處討論若干有趣行為的典型示例，更多示例見附錄B。

基于模型先驗(yàn)、利用代碼執(zhí)行過濾輸入信息。RLM抽象之所以能在處理超大輸入時維持強(qiáng)勁性能而不導(dǎo)致成本爆炸，其關(guān)鍵直覺在于：語言模型無需顯式查看即可過濾輸入上下文。此外，模型先驗(yàn)使RLM能夠縮小搜索空間，從而處理更少的輸入token。例如，如圖4a所示，我們觀察到RLM(GPT-5)使用正則表達(dá)式查詢，在原始提示中搜索包含關(guān)鍵詞（如" festival"）及模型具備先驗(yàn)知識的短語（如"La Union"）的語義塊。在多數(shù)軌跡中，我們觀察到的一種常見策略是：先向根語言模型打印回顯若干行以探查上下文，再基于觀察結(jié)果進(jìn)行過濾。

分塊與遞歸子調(diào)用語言模型。RLM將本質(zhì)上無界長度的推理鏈推遲至子（R）LM調(diào)用中執(zhí)行。分解方式的選擇會極大影響任務(wù)性能，尤其對于信息密集型問題。在我們的實(shí)驗(yàn)中，除均勻分塊或關(guān)鍵詞搜索外，未觀察到更復(fù)雜的劃分策略。如圖4b所示，RLM(Qwen3-Coder)在OOLONG任務(wù)中對包含1000余行的上下文按換行符進(jìn)行分塊。

通過小上下文的子LM調(diào)用進(jìn)行答案驗(yàn)證。我們觀察到RLM通過子LM調(diào)用進(jìn)行答案驗(yàn)證的若干實(shí)例。其中部分策略隱式地通過子LM執(zhí)行驗(yàn)證以規(guī)避上下文腐化（見示例B.1），另一些則單純利用代碼執(zhí)行以程序化方式驗(yàn)證答案正確性。然而在某些情況下，答案驗(yàn)證是冗余的，會顯著增加單任務(wù)成本——在示例B.3中，我們觀察到OOLONG任務(wù)上的一條軌跡：模型在最終選擇錯誤答案前，曾五次以上嘗試復(fù)現(xiàn)其正確答案。

通過變量傳遞遞歸LM輸出以處理長輸出任務(wù)。RLM能夠通過將REPL中的變量作為輸出返回，生成遠(yuǎn)超基礎(chǔ)語言模型限制的、本質(zhì)上無界的token。借助REPL環(huán)境，RLM可迭代地構(gòu)建這些變量，將其作為程序化操作與子（R）LM輸出調(diào)用的混合結(jié)果。我們在OOLONG-Pairs任務(wù)的軌跡中大量觀察到該策略：RLM將針對輸入的子LM調(diào)用輸出存儲于變量中，再將其拼接形成最終答案（見圖4c）。

4 相關(guān)工作

長上下文語言模型系統(tǒng)。語言模型系統(tǒng)中的長上下文管理主要沿兩個正交方向發(fā)展：1）直接修改基礎(chǔ)語言模型的架構(gòu)并重新訓(xùn)練以處理更長上下文（Press et al., 2022; Gu et al., 2022; Munkhdalai et al., 2024）；2）在語言模型周圍構(gòu)建腳手架以隱式處理上下文——RLM聚焦于后者。此類策略中廣受歡迎的一類是有損上下文管理，即通過摘要或截斷壓縮輸入上下文，代價是可能丟失細(xì)粒度信息。例如，MemWalker（Chen et al., 2023）為輸入構(gòu)建樹狀數(shù)據(jù)結(jié)構(gòu)，供語言模型在回答長上下文問題時導(dǎo)航；ReSum（Wu et al., 2025）則為多輪智能體周期性壓縮上下文而添加摘要工具。另一類策略在智能體腳手架中實(shí)現(xiàn)顯式記憶層次結(jié)構(gòu)（Packer et al., 2024; Chhikara et al., 2025; Zhang et al., 2025）。RLM與先前工作的不同之處在于：所有上下文窗口管理均由語言模型自身隱式處理。

通過子LM調(diào)用進(jìn)行任務(wù)分解。許多基于語言模型的智能體（Guo et al., 2024; Anthropic, 2025）利用多次精心安排的語言模型調(diào)用來解決問題，但其中許多調(diào)用基于人工設(shè)計的工作流。ViperGPT（Surís et al., 2023）、THREAD（Schroeder et al., 2025）、DisCIPL（Grand et al., 2025）、ReDel（Zhu et al., 2024）、Context Folding（Sun et al., 2025）與AgentFold（Ye et al., 2025）等若干方法已探索將子LM調(diào)用的選擇權(quán)交予語言模型本身。這些技術(shù)強(qiáng)調(diào)通過遞歸語言模型調(diào)用進(jìn)行任務(wù)分解，但無法處理超出基礎(chǔ)語言模型長度限制的長上下文輸入。相比之下，RLM得益于一個極為簡潔的直覺（即將提示視為外部環(huán)境的一部分），從而能夠符號化操作任意長度的字符串，并通過持久化REPL環(huán)境的執(zhí)行反饋迭代優(yōu)化其遞歸過程。

5 局限性與未來工作

盡管RLM在合理推理成本下對超出現(xiàn)有語言模型上下文窗口限制的任務(wù)展現(xiàn)出強(qiáng)勁性能，其實(shí)現(xiàn)RLM的最優(yōu)機(jī)制仍有待探索。我們聚焦于Python REPL環(huán)境內(nèi)的同步子調(diào)用，但需指出：涉及異步子調(diào)用與沙箱化REPL的替代策略有望顯著降低RLM的運(yùn)行時間與推理成本。此外，我們選擇最大遞歸深度為1（即子調(diào)用為語言模型）；盡管在現(xiàn)有長上下文基準(zhǔn)測試中取得了強(qiáng)勁性能，我們認(rèn)為未來工作應(yīng)探究更深層次的遞歸。最后，我們的實(shí)驗(yàn)聚焦于使用現(xiàn)有前沿模型評估RLM。顯式訓(xùn)練專用于RLM的模型（如作為根模型或子模型）或可帶來額外性能提升——正如§3.1中所發(fā)現(xiàn)，當(dāng)前模型在上下文決策方面效率低下。我們假設(shè)RLM軌跡可視為一種推理形式（OpenAI et al., 2024; DeepSeek-AI et al., 2025），可通過引導(dǎo)現(xiàn)有前沿模型進(jìn)行訓(xùn)練（Zelikman et al., 2022; 2024）。

6 結(jié)論

我們提出了遞歸語言模型（Recursive Language Models, RLMs），一種通用的語言模型推理框架：該框架將輸入上下文卸載至外部環(huán)境，并使語言模型能夠在輸出前遞歸地子查詢其他語言模型。我們探索了該框架的一種具體實(shí)現(xiàn)：將上下文作為內(nèi)存中的變量卸載至Python REPL環(huán)境，使語言模型能夠通過代碼與遞歸語言模型調(diào)用對其上下文進(jìn)行推理，而非僅在token空間中操作。我們在多種設(shè)置與模型上的實(shí)驗(yàn)結(jié)果表明，RLM是一種有效的任務(wù)無關(guān)范式，既適用于長上下文問題，亦適用于一般性推理任務(wù)。我們期待未來工作能顯式訓(xùn)練模型以RLM方式推理，這或?qū)⒊蔀橄乱淮Z言模型系統(tǒng)的又一擴(kuò)展維度。

原文鏈接：https://arxiv.org/pdf/2512.24601v1

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.