網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

阿里通義實(shí)驗(yàn)室"變形金剛":當(dāng)AI探索助手學(xué)會(huì)了按需切換記憶模式

2026-04-20 21:30:13　來源: 科技行者

北京舉報(bào)

分享至

這篇研究來自阿里巴巴集團(tuán)通義實(shí)驗(yàn)室，于2026年3月29日以預(yù)印本形式發(fā)布，論文編號(hào)為arXiv:2603.27490v1，有興趣深入了解的讀者可通過該編號(hào)查詢完整原文。

**一個(gè)悄然涌現(xiàn)的瓶頸**

假設(shè)你有一位助理，需要幫你在浩如煙海的互聯(lián)網(wǎng)上追查一個(gè)極為隱秘的答案——也許是某位鮮為人知的說唱歌手在哪一年發(fā)布了哪首歌，也許是一道連頂級(jí)學(xué)者都撓頭的硬核題目。這位助理需要連續(xù)搜索、訪問網(wǎng)頁、核查信息、推翻假設(shè)、重新出發(fā)，整個(gè)過程可能要進(jìn)行數(shù)十步甚至上百步。

問題就藏在這里：這位助理的"工作桌"——也就是它能同時(shí)看到的內(nèi)容——是有限的。隨著搜索進(jìn)行，工作桌越擺越滿，舊的搜索記錄、錯(cuò)誤的推測(cè)、已經(jīng)沒用的網(wǎng)頁內(nèi)容全都堆在上面，新的線索反而越來越難以落腳。最終，工作桌被徹底塞滿，助理不得不停下來——哪怕答案就在眼前一步之遙。

這就是當(dāng)前大語言模型（AI大腦）驅(qū)動(dòng)的自主搜索助手所面臨的核心困境：有限的"記憶容量"與無限延伸的搜索需求之間，存在一道難以逾越的鴻溝。

通義實(shí)驗(yàn)室的研究團(tuán)隊(duì)針對(duì)這一困境，提出了一個(gè)名為**AgentSwing**的新框架。簡單來說，這套框架讓AI搜索助手能夠在恰當(dāng)?shù)臅r(shí)機(jī)，以恰當(dāng)?shù)姆绞?，主?dòng)整理和切換自己的"工作桌"，而不是死守一種固定的清桌策略走到底。這篇文章將帶你完整理解這項(xiàng)研究的來龍去脈。

**一、工作桌塞滿了，到底是誰的錯(cuò)**

要理解AgentSwing解決的問題，先得弄清楚AI搜索助手的工作方式。

當(dāng)你向一個(gè)深度搜索AI提問時(shí)，它并不像人類那樣漫無目的地刷網(wǎng)頁。它會(huì)按照一套"思考—調(diào)用工具—獲取結(jié)果"的循環(huán)來工作：先在腦子里想想下一步該查什么，然后調(diào)用搜索引擎或者直接訪問某個(gè)網(wǎng)址，獲得結(jié)果之后再繼續(xù)思考。每一輪這樣的循環(huán)，就是一個(gè)"交互回合"。一道復(fù)雜的題目，可能需要幾百個(gè)這樣的回合。

整個(gè)過程中，AI的"工作記憶"（也就是它能同時(shí)處理的文本長度，通常被稱為"上下文窗口"）會(huì)被每一輪的思考內(nèi)容、搜索指令、搜索結(jié)果逐漸填滿。大多數(shù)主流AI模型的上下文窗口雖然已經(jīng)很大，但面對(duì)動(dòng)輒幾百輪的深度搜索任務(wù)，依然是杯水車薪。

更麻煩的是，隨著搜索深入，早期的內(nèi)容往往變成了"污染"而非"營養(yǎng)"。那些已經(jīng)被推翻的錯(cuò)誤假設(shè)、反復(fù)出現(xiàn)的無效搜索結(jié)果、越來越長的重復(fù)記錄……它們不僅占據(jù)寶貴空間，還會(huì)實(shí)實(shí)在在地干擾AI的判斷，讓它在給出最終答案時(shí)出現(xiàn)偏差。研究者把這種現(xiàn)象形象地稱為"上下文腐敗"（Context Rot）——就像一個(gè)工作桌上堆滿了發(fā)霉的舊文件，反而讓新來的重要文件找不到地方放，而且那些腐爛的氣息還會(huì)影響你的判斷。

面對(duì)這個(gè)問題，現(xiàn)有的解決方案主要有三種。第一種叫"拋棄一切"（Discard-All）：工作桌滿了就全清空，只留下最初的問題，從頭再來。第二種叫"只留最近"（Keep-Last-N）：清桌時(shí)只保留最近幾輪的內(nèi)容，前面的全扔掉。第三種叫"壓縮總結(jié)"（Summary）：請(qǐng)另一個(gè)AI來把積累的內(nèi)容濃縮成一段摘要，再繼續(xù)工作。

這三種策略各有千秋，但它們有一個(gè)共同的致命弱點(diǎn)——**它們都是"一招鮮吃遍天"的固定策略**。不管當(dāng)前工作桌上的內(nèi)容是什么狀態(tài)，它們都照章辦事，不加區(qū)分。

**二、研究團(tuán)隊(duì)給"成功"下了一個(gè)新定義**

在提出解決方案之前，研究團(tuán)隊(duì)做了一件非常有意義的事情：他們?yōu)樯疃人阉魅蝿?wù)的"成功"建立了一套全新的衡量框架。

在此之前，衡量一個(gè)AI搜索助手好不好，通常就看一個(gè)數(shù)字：Pass@1，也就是一次性給出正確答案的比例。但研究團(tuán)隊(duì)發(fā)現(xiàn)，這個(gè)數(shù)字其實(shí)是兩件完全不同的事情混在一起的結(jié)果。

他們把這兩件事拆開來看。第一件事叫**搜索效率（η，讀作"伊塔"）**：AI在用完允許的回合數(shù)之前，能不能成功給出一個(gè)答案（不管對(duì)不對(duì)）。就像考試時(shí)，你能不能在鈴聲響之前至少寫完答案——哪怕寫錯(cuò)了。第二件事叫**終止精度（ρ，讀作"羅"）**：在AI確實(shí)給出了答案的那些題目里，答對(duì)了多少。就像考試交卷的那些同學(xué)里，真正寫對(duì)的比例。

最終的成績（Pass@1）= 搜索效率 × 終止精度。這個(gè)公式看起來簡單，卻揭示了深刻的內(nèi)在矛盾。

以"拋棄一切"策略為例。這種策略每次清空工作桌，讓AI從零開始，每次重啟的嘗試都只有一個(gè)相對(duì)短小的上下文，答案的質(zhì)量會(huì)更高——終止精度很強(qiáng)。但問題是，每次重啟都等于浪費(fèi)了前面積累的信息，而且每次重啟后能用的工作空間很小，完成任務(wù)的概率相對(duì)較低——搜索效率較弱。

反過來，不做任何清桌處理的"基礎(chǔ)版"AI，有著最高的搜索效率（工作桌一直在用，能持續(xù)到最后），但也有著最低的終止精度（工作桌上垃圾太多，干擾判斷）。

研究團(tuán)隊(duì)用實(shí)際數(shù)據(jù)驗(yàn)證了這一點(diǎn)。他們?cè)趯?shí)驗(yàn)中逐漸增大"拋棄一切"策略觸發(fā)前允許使用的上下文空間，發(fā)現(xiàn)隨著允許的上下文越來越大，答題的正確率（終止精度）會(huì)穩(wěn)步下降——這正是"上下文腐敗"在起作用。而基礎(chǔ)版AI對(duì)應(yīng)的是最大上下文場(chǎng)景，因此它的終止精度在所有配置中是最低的。

此外，研究團(tuán)隊(duì)還引入了一個(gè)更公平的比較指標(biāo)——**對(duì)齊終止精度（ρ對(duì)齊）**：只在那些"所有策略都給出了答案"的題目上進(jìn)行比較，這樣就排除了"某個(gè)策略根本沒給出答案"對(duì)比較造成的干擾。

這套框架為后續(xù)的分析和設(shè)計(jì)提供了清晰的坐標(biāo)系：任何新策略，都可以在這張"效率—精度"的二維地圖上找到自己的位置。

**三、四種策略在地圖上的位置各不相同**

有了這張"效率—精度"地圖，研究團(tuán)隊(duì)把四種策略（基礎(chǔ)版、拋棄一切、只留最近、壓縮總結(jié)）全都畫了上去，結(jié)果發(fā)現(xiàn)它們分布在地圖的不同角落，形成了一條彎曲的"靜態(tài)策略邊界"。

基礎(chǔ)版（不做任何清桌）占據(jù)了高效率低精度的角落——它幾乎總能給出答案，但答案的質(zhì)量不太可靠。拋棄一切策略占據(jù)了低效率高精度的角落——它給出的答案質(zhì)量很高，但常常還沒給出答案就已經(jīng)把回合數(shù)用完了。壓縮總結(jié)和只留最近這兩種策略則處于中間地帶，在效率和精度之間各有取舍。

研究團(tuán)隊(duì)還在多個(gè)真實(shí)評(píng)測(cè)基準(zhǔn)上做了對(duì)比實(shí)驗(yàn)。這些基準(zhǔn)包括**BrowseComp**（一個(gè)專門測(cè)試深度網(wǎng)絡(luò)搜索能力的英文評(píng)測(cè)集，共選取200道題）、**BrowseComp-ZH**（對(duì)應(yīng)的中文版本，289道題全部參與評(píng)測(cè)）和**HLE**（"人類最后的考試"，一個(gè)匯集了各領(lǐng)域極難題目的綜合評(píng)測(cè)集，選取了500道純文字題）。

在這些評(píng)測(cè)上，所有的清桌策略都比基礎(chǔ)版好——只要允許的回合數(shù)足夠多。但當(dāng)回合數(shù)很少時(shí)，清桌策略反而可能不如基礎(chǔ)版，因?yàn)槊看沃貑⒍紩?huì)浪費(fèi)寶貴的機(jī)會(huì)。

這個(gè)發(fā)現(xiàn)揭示了一個(gè)根本性的局限：**任何固定策略都只是在地圖上的某個(gè)點(diǎn)上優(yōu)化，而真正的最優(yōu)路徑應(yīng)該是能夠在地圖上自由游走的**。

**四、AgentSwing：給AI助手裝上"情景切換"能力**

正是基于這個(gè)洞察，AgentSwing誕生了。

AgentSwing的核心思想，類似于一支探險(xiǎn)隊(duì)在深山中尋路時(shí)，遇到岔路口不是隨便選一條走，而是先讓幾個(gè)小分隊(duì)各走幾步，然后根據(jù)每個(gè)小分隊(duì)實(shí)際探出的情況，再?zèng)Q定大部隊(duì)跟著哪個(gè)小分隊(duì)走。

具體來說，AgentSwing的運(yùn)作分為兩個(gè)階段。

**第一個(gè)階段叫"并行上下文管理"**：當(dāng)AI助手的工作桌使用量超過預(yù)設(shè)閾值（例如占滿了工作桌的20%或40%），系統(tǒng)就會(huì)同時(shí)啟動(dòng)三種清桌策略，把當(dāng)前的工作桌內(nèi)容分別按照"拋棄一切""只留最近""壓縮總結(jié)"三種方式處理一遍，生成三個(gè)不同的"清桌后版本"。此時(shí)，原始的未清桌狀態(tài)和三個(gè)清桌后的版本同時(shí)存在。

**第二個(gè)階段叫"前瞻路由機(jī)制"**：系統(tǒng)不會(huì)立刻選擇哪個(gè)版本繼續(xù)。相反，它讓每個(gè)清桌后的版本各自獨(dú)立地繼續(xù)工作K個(gè)回合（實(shí)驗(yàn)證明K=3時(shí)效果最好），相當(dāng)于讓三支小分隊(duì)各自向前探了三步。探完之后，系統(tǒng)把三支小分隊(duì)的實(shí)際進(jìn)展情況，連同原始的未清桌版本，一起展示給AI，讓AI自己判斷哪個(gè)方向看起來最有希望。AI選定一個(gè)方向后，其他分支被丟棄，被選中的那個(gè)版本成為新的主線，繼續(xù)工作。

這個(gè)設(shè)計(jì)的精妙之處在于：路由決策不是基于"清桌后的樣子好不好看"，而是基于"清桌后實(shí)際走了幾步，走得好不好"。就像你評(píng)價(jià)一條山路，不是看它在地圖上畫得好不好，而是實(shí)際走幾步感受一下坡度和障礙。

值得一提的是，AgentSwing中所有的清桌操作和前瞻探索，都由同一個(gè)AI模型來完成——包括最后的選擇決策。這種設(shè)計(jì)簡單而實(shí)用，也意味著它可以應(yīng)用在任何支持工具調(diào)用的AI模型上，無需額外訓(xùn)練或?qū)ｉT的判斷模型。

**五、實(shí)驗(yàn)結(jié)果：在多個(gè)維度上全面領(lǐng)先**

研究團(tuán)隊(duì)用三個(gè)不同規(guī)模和來源的開源AI模型來驗(yàn)證AgentSwing的效果，分別是GPT-OSS-120B（OpenAI開源的120億參數(shù)模型）、DeepSeek-v3.2（深度求索的最新版本）、以及通義實(shí)驗(yàn)室自己研發(fā)的Tongyi-DR-30B-A3B（一個(gè)300億參數(shù)的混合專家架構(gòu)模型）。

結(jié)果顯示，AgentSwing在所有模型、所有評(píng)測(cè)基準(zhǔn)上，都超過了最好的單一固定策略。以BrowseComp英文版為例，GPT-OSS-120B使用AgentSwing得分60.0，而最好的單一策略"只留最近"只有52.5，基礎(chǔ)版更是只有39.5。DeepSeek-v3.2配合AgentSwing在BrowseComp中文版上達(dá)到了71.3，在HLE上達(dá)到了44.4，超越了包括Claude-4.5-Opus、Gemini-3.0-Pro等多個(gè)知名閉源商業(yè)模型的成績。通義自家的30B模型配合AgentSwing，也在同等規(guī)模的開源模型中排到了前列。

更值得關(guān)注的是AgentSwing的**回合效率**。在BrowseComp上，AgentSwing在僅使用約200個(gè)回合時(shí)，就能達(dá)到"拋棄一切"策略需要600個(gè)回合才能達(dá)到的成績——也就是說，效果相同，成本只需三分之一。同時(shí)，AgentSwing的最終成績上限也比任何單一策略更高，隨著回合數(shù)增加，它的提升空間更大。

在那張"效率—精度"的二維地圖上，AgentSwing突破了靜態(tài)策略邊界，占據(jù)了一個(gè)此前沒有任何固定策略能到達(dá)的位置——既有接近"只留最近"的搜索效率，又有接近"拋棄一切"的終止精度。

研究團(tuán)隊(duì)還專門分析了AgentSwing在"所有策略都觸發(fā)了清桌操作"的那些困難題目上的表現(xiàn)。在GPT-OSS-120B上，這樣的題目共有122道。"拋棄一切"策略在其中完成了51道，答對(duì)35道，Pass@1為28.7%。AgentSwing完成了90道，答對(duì)51道，Pass@1為41.8%，同時(shí)平均用了190.3個(gè)回合，比"拋棄一切"的297.2個(gè)回合少了約三分之一。這組數(shù)據(jù)清楚地說明：AgentSwing的優(yōu)勢(shì)不是靠消耗更多資源換來的，而是靠更聰明的策略選擇獲得的。

**六、前瞻探索到底有多重要：一組消融實(shí)驗(yàn)**

為了驗(yàn)證"向前探幾步再做決定"這個(gè)設(shè)計(jì)的必要性，研究團(tuán)隊(duì)做了一組對(duì)比實(shí)驗(yàn)。

如果把前瞻機(jī)制去掉，改成"清桌后隨機(jī)選一個(gè)方向走"，成績會(huì)從60.0下滑到51.0（GPT-OSS-120B在BrowseComp上）。如果"看了清桌后的樣子但不讓各路繼續(xù)走，直接選"，成績是50.0。而加上前瞻探索3步之后，成績跳到了60.0。前瞻探索5步的成績則略有回落（55.0），這是因?yàn)樽咛嗖娇赡軙?huì)導(dǎo)致某個(gè)分支提前把上下文窗口撐滿。

這組實(shí)驗(yàn)說明，AgentSwing的關(guān)鍵不只是"并行運(yùn)行多個(gè)策略"，更關(guān)鍵的是"讓每個(gè)策略都實(shí)際跑幾步，再根據(jù)真實(shí)表現(xiàn)做決策"。選擇的依據(jù)是前瞻中真實(shí)發(fā)生了什么，而不是清桌后看起來的樣子。

研究團(tuán)隊(duì)還研究了不同策略組合方式的效果。只用"拋棄一切"單策略做AgentSwing，得分58.0；同時(shí)納入"拋棄一切+壓縮總結(jié)"兩種策略，得分上升到60.0；納入全部三種策略，得分進(jìn)一步提升到60.5。這說明候選策略的多樣性本身也是有價(jià)值的——不同策略在不同情境下各有優(yōu)勢(shì)，選擇池越豐富，路由機(jī)制能發(fā)揮的空間就越大。

研究團(tuán)隊(duì)還統(tǒng)計(jì)了在實(shí)際運(yùn)行中，AgentSwing最終選擇了哪種策略，發(fā)現(xiàn)這個(gè)選擇并不均勻，而且不同的底層AI模型有不同的偏好。DeepSeek-v3.2和通義模型更傾向于選"壓縮總結(jié)"，而GPT-OSS-120B則更常選"拋棄一切"。這說明路由行為是真實(shí)反映了不同模型對(duì)不同上下文管理方式的適應(yīng)性差異，而非隨機(jī)選擇。

**七、一個(gè)真實(shí)案例：AgentSwing如何在關(guān)鍵時(shí)刻撥開迷霧**

抽象的數(shù)字有時(shí)難以讓人真切感受到差異，研究團(tuán)隊(duì)提供的一個(gè)具體案例或許更有說服力。

題目大意是這樣的：有一位美國說唱歌手，1990年代出生，生于十月，14歲加入了一個(gè)幫派，星座是天秤座。在2015到2020年之間，他發(fā)布了一首病毒式傳播的熱門歌曲，出自他在2015到2019年間發(fā)布的某張專輯，這首歌里還有另一位美國說唱歌手作為合唱嘉賓，而那位嘉賓的父親在監(jiān)獄里待了15年（以2016年1月21日為基準(zhǔn)）。請(qǐng)問這首病毒式傳播的歌曲叫什么名字？

使用DeepSeek-v3.2的AI助手工作了23個(gè)回合后觸發(fā)了清桌操作。在這23個(gè)回合里，它經(jīng)歷了一段曲折的偵查過程：一開始鎖定了Nipsey Hussle，但發(fā)現(xiàn)他是八月生的，排除；然后鎖定了Lil Durk，跟蹤了很多線索，但發(fā)現(xiàn)他的幫派入伙時(shí)間對(duì)不上（是17歲而非14歲），而且相關(guān)歌曲也超出了時(shí)間范圍；最后，在第21到23回合，AI嘗試了新的搜索角度，終于找到了一個(gè)關(guān)鍵線索：$tupid Young。

此時(shí)工作桌已經(jīng)很滿。它同時(shí)包含了有用的新線索（$tupid Young），也充斥著大量無關(guān)的舊內(nèi)容（對(duì)Nipsey Hussle、Lil Durk、Hit-Boy的錯(cuò)誤追蹤記錄）。

三個(gè)清桌策略在前瞻階段表現(xiàn)截然不同。"拋棄一切"策略把一切清空重來，重新開始搜索"十月出生的說唱歌手"，完全放棄了好不容易找到的$tupid Young線索，回到了起點(diǎn)。"壓縮總結(jié)"策略保留了一個(gè)以Lil Durk為中心的總結(jié)，但這個(gè)總結(jié)繼承了前期錯(cuò)誤假設(shè)的偏見，在前瞻階段繼續(xù)花時(shí)間驗(yàn)證Lil Durk，浪費(fèi)了三步。"只留最近"策略只保留了最近幾輪的內(nèi)容，恰好包含了$tupid Young這條關(guān)鍵線索。在前瞻的第一步，它就嘗試訪問$tupid Young的維基百科頁面；第二步確認(rèn)了他生于1992年10月3日，天秤座，符合所有身份線索；第三步已經(jīng)開始搜索他的熱門歌曲和合唱嘉賓信息，找到了候選歌曲"Mando"。

路由機(jī)制看到這三路的探索結(jié)果，毫不猶豫地選擇了"只留最近"。隨后，AI在幾個(gè)回合內(nèi)驗(yàn)證了Mozzy（"Mando"的合唱嘉賓）的父親確實(shí)曾在監(jiān)獄服刑15年，確認(rèn)了歌曲發(fā)布于2017年，最終給出了正確答案："Mando"。

這個(gè)案例完整展示了AgentSwing的工作原理：不是給每種情況規(guī)定死答案，而是讓實(shí)際情況說話。

**八、代價(jià)幾何：額外的計(jì)算開銷值得嗎**

有一個(gè)合理的疑問：AgentSwing需要并行運(yùn)行三套前瞻探索，這肯定要花更多的計(jì)算資源。這額外的開銷究竟有多大？

研究團(tuán)隊(duì)專門做了對(duì)比分析。他們?cè)谀切?各策略都觸發(fā)了清桌"的困難題目上，統(tǒng)計(jì)了每道題完成時(shí)的總回合數(shù)和總處理的token數(shù)量（token可以理解為AI處理文字的基本計(jì)量單位）。

結(jié)果顯示，AgentSwing的總回合數(shù)處于中間水平，比"拋棄一切"少很多，和"壓縮總結(jié)""只留最近"相近。在token總量上，AgentSwing雖然因?yàn)榍罢疤剿髟黾恿艘恍?，?只留最近"這種策略因?yàn)樵诿總€(gè)回合都保留了較長的歷史，累計(jì)token其實(shí)也不少。"拋棄一切"在token數(shù)量上最省，但代價(jià)是需要更多回合才能完成任務(wù)。

綜合來看，AgentSwing的額外開銷是真實(shí)存在的，但并不夸張。考慮到它帶來的性能提升，這個(gè)代價(jià)是值得的。

**九、這項(xiàng)研究的邊界在哪里**

研究團(tuán)隊(duì)在文章末尾坦率地討論了這項(xiàng)工作的局限。

AgentSwing目前是一個(gè)"外掛"式的機(jī)制——它控制的是AI工作桌的管理方式，而不是AI本身的能力。一個(gè)更根本的方向，是訓(xùn)練出天生就能在小上下文里高效工作、在長上下文里保持精準(zhǔn)的AI模型，把這些能力內(nèi)化為模型本身的素質(zhì)，而不是靠外部控制來補(bǔ)償。

另一個(gè)局限是路由決策的質(zhì)量。目前AgentSwing的選擇是由AI模型自己來做的，這在大多數(shù)情況下是有效的，但AI模型的自我評(píng)估能力并不總是可靠。如果有一個(gè)專門訓(xùn)練的路由器、驗(yàn)證器或軌跡評(píng)估器，能更準(zhǔn)確地預(yù)判哪條路更有希望，路由決策的質(zhì)量還能進(jìn)一步提高。

此外，研究團(tuán)隊(duì)也指出，候選策略集合的多樣性和互補(bǔ)性對(duì)AgentSwing的效果有直接影響。目前使用的三種策略（拋棄一切、只留最近、壓縮總結(jié)）已經(jīng)覆蓋了效率—精度譜系的主要位置，但未來探索更多專門化、更有針對(duì)性的候選策略，可能會(huì)帶來進(jìn)一步提升。

歸根結(jié)底，AgentSwing做的事情，本質(zhì)上就是把一個(gè)原本"死板"的機(jī)制變成了一個(gè)能"看情況"的機(jī)制。當(dāng)AI搜索助手的工作桌快滿的時(shí)候，與其機(jī)械地按照同一套清桌規(guī)則處理，不如先讓幾種不同的處理方式各自試走幾步，再根據(jù)實(shí)際走出來的路況做決定。這個(gè)思路樸素而有效，卻讓整體性能產(chǎn)生了顯著的飛躍。

對(duì)于普通用戶來說，這項(xiàng)研究意味著未來的AI搜索助手在處理那些需要大量步驟、反復(fù)查證的復(fù)雜問題時(shí)，將變得更加可靠和高效——無論是幫你查一個(gè)冷門問題的答案，還是協(xié)助專業(yè)人員進(jìn)行學(xué)術(shù)文獻(xiàn)梳理、市場(chǎng)情報(bào)收集，都將因?yàn)檫@類機(jī)制的進(jìn)步而受益。

有興趣進(jìn)一步了解的讀者，可以通過論文編號(hào)arXiv:2603.27490在arXiv平臺(tái)上找到完整原文，代碼也已開放在Alibaba-NLP/DeepResearch這個(gè)代碼倉庫中。

**Q&A**

Q1：AgentSwing和普通AI搜索助手的清桌策略有什么區(qū)別？

A：普通的清桌策略（比如"拋棄一切"或"只留最近"）是固定不變的，無論當(dāng)前搜索到了什么狀態(tài)，都按同一套規(guī)則處理。AgentSwing的區(qū)別在于：它會(huì)在每次需要清桌時(shí)，同時(shí)運(yùn)行三種不同的清桌方式，讓每種方式各自獨(dú)立地往前走三步，再根據(jù)實(shí)際走出來的效果選出最合適的一條路繼續(xù)。相當(dāng)于"先試探，再?zèng)Q定"，而不是"無腦執(zhí)行固定動(dòng)作"。

Q2：AgentSwing的"搜索效率"和"終止精度"分別是什么意思？

A："搜索效率"指的是AI助手在用完允許的交互回合之前，能不能給出一個(gè)答案（哪怕答錯(cuò)了），衡量的是"能不能完賽"。"終止精度"指的是在那些確實(shí)給出了答案的題目里，答對(duì)的比例，衡量的是"完賽了答得準(zhǔn)不準(zhǔn)"。最終成績等于兩者相乘。AgentSwing的優(yōu)勢(shì)在于，它同時(shí)在這兩個(gè)維度上都表現(xiàn)得更好，而不是只顧一頭。

Q3：AgentSwing用DeepSeek-v3.2在HLE上達(dá)到44.4分意味著什么？

A：HLE（人類最后的考試）是一個(gè)匯集了各領(lǐng)域極難題目的測(cè)試集，被認(rèn)為是目前公開基準(zhǔn)中最具挑戰(zhàn)性的之一。DeepSeek-v3.2配合AgentSwing達(dá)到44.4分，超過了Claude-4.5-Opus的43.4分和Gemini-3.0-Pro的45.8分（接近持平），以及GPT-5.1 High的42.7分?？紤]到DeepSeek-v3.2是一個(gè)開源模型，而對(duì)比的都是定價(jià)昂貴的閉源商業(yè)模型，這個(gè)成績的意義在于說明：通過更聰明的上下文管理策略，開源模型完全有能力在最頂級(jí)的評(píng)測(cè)上與商業(yè)模型一較高下。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.