国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

阿里通義實(shí)驗(yàn)室"變形金剛":當(dāng)AI探索助手學(xué)會(huì)了按需切換記憶模式

0
分享至


這篇研究來自阿里巴巴集團(tuán)通義實(shí)驗(yàn)室,于2026年3月29日以預(yù)印本形式發(fā)布,論文編號(hào)為arXiv:2603.27490v1,有興趣深入了解的讀者可通過該編號(hào)查詢完整原文。

**一個(gè)悄然涌現(xiàn)的瓶頸**

假設(shè)你有一位助理,需要幫你在浩如煙海的互聯(lián)網(wǎng)上追查一個(gè)極為隱秘的答案——也許是某位鮮為人知的說唱歌手在哪一年發(fā)布了哪首歌,也許是一道連頂級(jí)學(xué)者都撓頭的硬核題目。這位助理需要連續(xù)搜索、訪問網(wǎng)頁、核查信息、推翻假設(shè)、重新出發(fā),整個(gè)過程可能要進(jìn)行數(shù)十步甚至上百步。

問題就藏在這里:這位助理的"工作桌"——也就是它能同時(shí)看到的內(nèi)容——是有限的。隨著搜索進(jìn)行,工作桌越擺越滿,舊的搜索記錄、錯(cuò)誤的推測(cè)、已經(jīng)沒用的網(wǎng)頁內(nèi)容全都堆在上面,新的線索反而越來越難以落腳。最終,工作桌被徹底塞滿,助理不得不停下來——哪怕答案就在眼前一步之遙。

這就是當(dāng)前大語言模型(AI大腦)驅(qū)動(dòng)的自主搜索助手所面臨的核心困境:有限的"記憶容量"與無限延伸的搜索需求之間,存在一道難以逾越的鴻溝。

通義實(shí)驗(yàn)室的研究團(tuán)隊(duì)針對(duì)這一困境,提出了一個(gè)名為**AgentSwing**的新框架。簡單來說,這套框架讓AI搜索助手能夠在恰當(dāng)?shù)臅r(shí)機(jī),以恰當(dāng)?shù)姆绞?,主?dòng)整理和切換自己的"工作桌",而不是死守一種固定的清桌策略走到底。這篇文章將帶你完整理解這項(xiàng)研究的來龍去脈。

**一、工作桌塞滿了,到底是誰的錯(cuò)**

要理解AgentSwing解決的問題,先得弄清楚AI搜索助手的工作方式。

當(dāng)你向一個(gè)深度搜索AI提問時(shí),它并不像人類那樣漫無目的地刷網(wǎng)頁。它會(huì)按照一套"思考—調(diào)用工具—獲取結(jié)果"的循環(huán)來工作:先在腦子里想想下一步該查什么,然后調(diào)用搜索引擎或者直接訪問某個(gè)網(wǎng)址,獲得結(jié)果之后再繼續(xù)思考。每一輪這樣的循環(huán),就是一個(gè)"交互回合"。一道復(fù)雜的題目,可能需要幾百個(gè)這樣的回合。

整個(gè)過程中,AI的"工作記憶"(也就是它能同時(shí)處理的文本長度,通常被稱為"上下文窗口")會(huì)被每一輪的思考內(nèi)容、搜索指令、搜索結(jié)果逐漸填滿。大多數(shù)主流AI模型的上下文窗口雖然已經(jīng)很大,但面對(duì)動(dòng)輒幾百輪的深度搜索任務(wù),依然是杯水車薪。

更麻煩的是,隨著搜索深入,早期的內(nèi)容往往變成了"污染"而非"營養(yǎng)"。那些已經(jīng)被推翻的錯(cuò)誤假設(shè)、反復(fù)出現(xiàn)的無效搜索結(jié)果、越來越長的重復(fù)記錄……它們不僅占據(jù)寶貴空間,還會(huì)實(shí)實(shí)在在地干擾AI的判斷,讓它在給出最終答案時(shí)出現(xiàn)偏差。研究者把這種現(xiàn)象形象地稱為"上下文腐敗"(Context Rot)——就像一個(gè)工作桌上堆滿了發(fā)霉的舊文件,反而讓新來的重要文件找不到地方放,而且那些腐爛的氣息還會(huì)影響你的判斷。

面對(duì)這個(gè)問題,現(xiàn)有的解決方案主要有三種。第一種叫"拋棄一切"(Discard-All):工作桌滿了就全清空,只留下最初的問題,從頭再來。第二種叫"只留最近"(Keep-Last-N):清桌時(shí)只保留最近幾輪的內(nèi)容,前面的全扔掉。第三種叫"壓縮總結(jié)"(Summary):請(qǐng)另一個(gè)AI來把積累的內(nèi)容濃縮成一段摘要,再繼續(xù)工作。

這三種策略各有千秋,但它們有一個(gè)共同的致命弱點(diǎn)——**它們都是"一招鮮吃遍天"的固定策略**。不管當(dāng)前工作桌上的內(nèi)容是什么狀態(tài),它們都照章辦事,不加區(qū)分。

**二、研究團(tuán)隊(duì)給"成功"下了一個(gè)新定義**

在提出解決方案之前,研究團(tuán)隊(duì)做了一件非常有意義的事情:他們?yōu)樯疃人阉魅蝿?wù)的"成功"建立了一套全新的衡量框架。

在此之前,衡量一個(gè)AI搜索助手好不好,通常就看一個(gè)數(shù)字:Pass@1,也就是一次性給出正確答案的比例。但研究團(tuán)隊(duì)發(fā)現(xiàn),這個(gè)數(shù)字其實(shí)是兩件完全不同的事情混在一起的結(jié)果。

他們把這兩件事拆開來看。第一件事叫**搜索效率(η,讀作"伊塔")**:AI在用完允許的回合數(shù)之前,能不能成功給出一個(gè)答案(不管對(duì)不對(duì))。就像考試時(shí),你能不能在鈴聲響之前至少寫完答案——哪怕寫錯(cuò)了。第二件事叫**終止精度(ρ,讀作"羅")**:在AI確實(shí)給出了答案的那些題目里,答對(duì)了多少。就像考試交卷的那些同學(xué)里,真正寫對(duì)的比例。

最終的成績(Pass@1)= 搜索效率 × 終止精度。這個(gè)公式看起來簡單,卻揭示了深刻的內(nèi)在矛盾。

以"拋棄一切"策略為例。這種策略每次清空工作桌,讓AI從零開始,每次重啟的嘗試都只有一個(gè)相對(duì)短小的上下文,答案的質(zhì)量會(huì)更高——終止精度很強(qiáng)。但問題是,每次重啟都等于浪費(fèi)了前面積累的信息,而且每次重啟后能用的工作空間很小,完成任務(wù)的概率相對(duì)較低——搜索效率較弱。

反過來,不做任何清桌處理的"基礎(chǔ)版"AI,有著最高的搜索效率(工作桌一直在用,能持續(xù)到最后),但也有著最低的終止精度(工作桌上垃圾太多,干擾判斷)。

研究團(tuán)隊(duì)用實(shí)際數(shù)據(jù)驗(yàn)證了這一點(diǎn)。他們?cè)趯?shí)驗(yàn)中逐漸增大"拋棄一切"策略觸發(fā)前允許使用的上下文空間,發(fā)現(xiàn)隨著允許的上下文越來越大,答題的正確率(終止精度)會(huì)穩(wěn)步下降——這正是"上下文腐敗"在起作用。而基礎(chǔ)版AI對(duì)應(yīng)的是最大上下文場(chǎng)景,因此它的終止精度在所有配置中是最低的。

此外,研究團(tuán)隊(duì)還引入了一個(gè)更公平的比較指標(biāo)——**對(duì)齊終止精度(ρ對(duì)齊)**:只在那些"所有策略都給出了答案"的題目上進(jìn)行比較,這樣就排除了"某個(gè)策略根本沒給出答案"對(duì)比較造成的干擾。

這套框架為后續(xù)的分析和設(shè)計(jì)提供了清晰的坐標(biāo)系:任何新策略,都可以在這張"效率—精度"的二維地圖上找到自己的位置。

**三、四種策略在地圖上的位置各不相同**

有了這張"效率—精度"地圖,研究團(tuán)隊(duì)把四種策略(基礎(chǔ)版、拋棄一切、只留最近、壓縮總結(jié))全都畫了上去,結(jié)果發(fā)現(xiàn)它們分布在地圖的不同角落,形成了一條彎曲的"靜態(tài)策略邊界"。

基礎(chǔ)版(不做任何清桌)占據(jù)了高效率低精度的角落——它幾乎總能給出答案,但答案的質(zhì)量不太可靠。拋棄一切策略占據(jù)了低效率高精度的角落——它給出的答案質(zhì)量很高,但常常還沒給出答案就已經(jīng)把回合數(shù)用完了。壓縮總結(jié)和只留最近這兩種策略則處于中間地帶,在效率和精度之間各有取舍。

研究團(tuán)隊(duì)還在多個(gè)真實(shí)評(píng)測(cè)基準(zhǔn)上做了對(duì)比實(shí)驗(yàn)。這些基準(zhǔn)包括**BrowseComp**(一個(gè)專門測(cè)試深度網(wǎng)絡(luò)搜索能力的英文評(píng)測(cè)集,共選取200道題)、**BrowseComp-ZH**(對(duì)應(yīng)的中文版本,289道題全部參與評(píng)測(cè))和**HLE**("人類最后的考試",一個(gè)匯集了各領(lǐng)域極難題目的綜合評(píng)測(cè)集,選取了500道純文字題)。

在這些評(píng)測(cè)上,所有的清桌策略都比基礎(chǔ)版好——只要允許的回合數(shù)足夠多。但當(dāng)回合數(shù)很少時(shí),清桌策略反而可能不如基礎(chǔ)版,因?yàn)槊看沃貑⒍紩?huì)浪費(fèi)寶貴的機(jī)會(huì)。

這個(gè)發(fā)現(xiàn)揭示了一個(gè)根本性的局限:**任何固定策略都只是在地圖上的某個(gè)點(diǎn)上優(yōu)化,而真正的最優(yōu)路徑應(yīng)該是能夠在地圖上自由游走的**。

**四、AgentSwing:給AI助手裝上"情景切換"能力**

正是基于這個(gè)洞察,AgentSwing誕生了。

AgentSwing的核心思想,類似于一支探險(xiǎn)隊(duì)在深山中尋路時(shí),遇到岔路口不是隨便選一條走,而是先讓幾個(gè)小分隊(duì)各走幾步,然后根據(jù)每個(gè)小分隊(duì)實(shí)際探出的情況,再?zèng)Q定大部隊(duì)跟著哪個(gè)小分隊(duì)走。

具體來說,AgentSwing的運(yùn)作分為兩個(gè)階段。

**第一個(gè)階段叫"并行上下文管理"**:當(dāng)AI助手的工作桌使用量超過預(yù)設(shè)閾值(例如占滿了工作桌的20%或40%),系統(tǒng)就會(huì)同時(shí)啟動(dòng)三種清桌策略,把當(dāng)前的工作桌內(nèi)容分別按照"拋棄一切""只留最近""壓縮總結(jié)"三種方式處理一遍,生成三個(gè)不同的"清桌后版本"。此時(shí),原始的未清桌狀態(tài)和三個(gè)清桌后的版本同時(shí)存在。

**第二個(gè)階段叫"前瞻路由機(jī)制"**:系統(tǒng)不會(huì)立刻選擇哪個(gè)版本繼續(xù)。相反,它讓每個(gè)清桌后的版本各自獨(dú)立地繼續(xù)工作K個(gè)回合(實(shí)驗(yàn)證明K=3時(shí)效果最好),相當(dāng)于讓三支小分隊(duì)各自向前探了三步。探完之后,系統(tǒng)把三支小分隊(duì)的實(shí)際進(jìn)展情況,連同原始的未清桌版本,一起展示給AI,讓AI自己判斷哪個(gè)方向看起來最有希望。AI選定一個(gè)方向后,其他分支被丟棄,被選中的那個(gè)版本成為新的主線,繼續(xù)工作。

這個(gè)設(shè)計(jì)的精妙之處在于:路由決策不是基于"清桌后的樣子好不好看",而是基于"清桌后實(shí)際走了幾步,走得好不好"。就像你評(píng)價(jià)一條山路,不是看它在地圖上畫得好不好,而是實(shí)際走幾步感受一下坡度和障礙。

值得一提的是,AgentSwing中所有的清桌操作和前瞻探索,都由同一個(gè)AI模型來完成——包括最后的選擇決策。這種設(shè)計(jì)簡單而實(shí)用,也意味著它可以應(yīng)用在任何支持工具調(diào)用的AI模型上,無需額外訓(xùn)練或?qū)iT的判斷模型。

**五、實(shí)驗(yàn)結(jié)果:在多個(gè)維度上全面領(lǐng)先**

研究團(tuán)隊(duì)用三個(gè)不同規(guī)模和來源的開源AI模型來驗(yàn)證AgentSwing的效果,分別是GPT-OSS-120B(OpenAI開源的120億參數(shù)模型)、DeepSeek-v3.2(深度求索的最新版本)、以及通義實(shí)驗(yàn)室自己研發(fā)的Tongyi-DR-30B-A3B(一個(gè)300億參數(shù)的混合專家架構(gòu)模型)。

結(jié)果顯示,AgentSwing在所有模型、所有評(píng)測(cè)基準(zhǔn)上,都超過了最好的單一固定策略。以BrowseComp英文版為例,GPT-OSS-120B使用AgentSwing得分60.0,而最好的單一策略"只留最近"只有52.5,基礎(chǔ)版更是只有39.5。DeepSeek-v3.2配合AgentSwing在BrowseComp中文版上達(dá)到了71.3,在HLE上達(dá)到了44.4,超越了包括Claude-4.5-Opus、Gemini-3.0-Pro等多個(gè)知名閉源商業(yè)模型的成績。通義自家的30B模型配合AgentSwing,也在同等規(guī)模的開源模型中排到了前列。

更值得關(guān)注的是AgentSwing的**回合效率**。在BrowseComp上,AgentSwing在僅使用約200個(gè)回合時(shí),就能達(dá)到"拋棄一切"策略需要600個(gè)回合才能達(dá)到的成績——也就是說,效果相同,成本只需三分之一。同時(shí),AgentSwing的最終成績上限也比任何單一策略更高,隨著回合數(shù)增加,它的提升空間更大。

在那張"效率—精度"的二維地圖上,AgentSwing突破了靜態(tài)策略邊界,占據(jù)了一個(gè)此前沒有任何固定策略能到達(dá)的位置——既有接近"只留最近"的搜索效率,又有接近"拋棄一切"的終止精度。

研究團(tuán)隊(duì)還專門分析了AgentSwing在"所有策略都觸發(fā)了清桌操作"的那些困難題目上的表現(xiàn)。在GPT-OSS-120B上,這樣的題目共有122道。"拋棄一切"策略在其中完成了51道,答對(duì)35道,Pass@1為28.7%。AgentSwing完成了90道,答對(duì)51道,Pass@1為41.8%,同時(shí)平均用了190.3個(gè)回合,比"拋棄一切"的297.2個(gè)回合少了約三分之一。這組數(shù)據(jù)清楚地說明:AgentSwing的優(yōu)勢(shì)不是靠消耗更多資源換來的,而是靠更聰明的策略選擇獲得的。

**六、前瞻探索到底有多重要:一組消融實(shí)驗(yàn)**

為了驗(yàn)證"向前探幾步再做決定"這個(gè)設(shè)計(jì)的必要性,研究團(tuán)隊(duì)做了一組對(duì)比實(shí)驗(yàn)。

如果把前瞻機(jī)制去掉,改成"清桌后隨機(jī)選一個(gè)方向走",成績會(huì)從60.0下滑到51.0(GPT-OSS-120B在BrowseComp上)。如果"看了清桌后的樣子但不讓各路繼續(xù)走,直接選",成績是50.0。而加上前瞻探索3步之后,成績跳到了60.0。前瞻探索5步的成績則略有回落(55.0),這是因?yàn)樽咛嗖娇赡軙?huì)導(dǎo)致某個(gè)分支提前把上下文窗口撐滿。

這組實(shí)驗(yàn)說明,AgentSwing的關(guān)鍵不只是"并行運(yùn)行多個(gè)策略",更關(guān)鍵的是"讓每個(gè)策略都實(shí)際跑幾步,再根據(jù)真實(shí)表現(xiàn)做決策"。選擇的依據(jù)是前瞻中真實(shí)發(fā)生了什么,而不是清桌后看起來的樣子。

研究團(tuán)隊(duì)還研究了不同策略組合方式的效果。只用"拋棄一切"單策略做AgentSwing,得分58.0;同時(shí)納入"拋棄一切+壓縮總結(jié)"兩種策略,得分上升到60.0;納入全部三種策略,得分進(jìn)一步提升到60.5。這說明候選策略的多樣性本身也是有價(jià)值的——不同策略在不同情境下各有優(yōu)勢(shì),選擇池越豐富,路由機(jī)制能發(fā)揮的空間就越大。

研究團(tuán)隊(duì)還統(tǒng)計(jì)了在實(shí)際運(yùn)行中,AgentSwing最終選擇了哪種策略,發(fā)現(xiàn)這個(gè)選擇并不均勻,而且不同的底層AI模型有不同的偏好。DeepSeek-v3.2和通義模型更傾向于選"壓縮總結(jié)",而GPT-OSS-120B則更常選"拋棄一切"。這說明路由行為是真實(shí)反映了不同模型對(duì)不同上下文管理方式的適應(yīng)性差異,而非隨機(jī)選擇。

**七、一個(gè)真實(shí)案例:AgentSwing如何在關(guān)鍵時(shí)刻撥開迷霧**

抽象的數(shù)字有時(shí)難以讓人真切感受到差異,研究團(tuán)隊(duì)提供的一個(gè)具體案例或許更有說服力。

題目大意是這樣的:有一位美國說唱歌手,1990年代出生,生于十月,14歲加入了一個(gè)幫派,星座是天秤座。在2015到2020年之間,他發(fā)布了一首病毒式傳播的熱門歌曲,出自他在2015到2019年間發(fā)布的某張專輯,這首歌里還有另一位美國說唱歌手作為合唱嘉賓,而那位嘉賓的父親在監(jiān)獄里待了15年(以2016年1月21日為基準(zhǔn))。請(qǐng)問這首病毒式傳播的歌曲叫什么名字?

使用DeepSeek-v3.2的AI助手工作了23個(gè)回合后觸發(fā)了清桌操作。在這23個(gè)回合里,它經(jīng)歷了一段曲折的偵查過程:一開始鎖定了Nipsey Hussle,但發(fā)現(xiàn)他是八月生的,排除;然后鎖定了Lil Durk,跟蹤了很多線索,但發(fā)現(xiàn)他的幫派入伙時(shí)間對(duì)不上(是17歲而非14歲),而且相關(guān)歌曲也超出了時(shí)間范圍;最后,在第21到23回合,AI嘗試了新的搜索角度,終于找到了一個(gè)關(guān)鍵線索:$tupid Young。

此時(shí)工作桌已經(jīng)很滿。它同時(shí)包含了有用的新線索($tupid Young),也充斥著大量無關(guān)的舊內(nèi)容(對(duì)Nipsey Hussle、Lil Durk、Hit-Boy的錯(cuò)誤追蹤記錄)。

三個(gè)清桌策略在前瞻階段表現(xiàn)截然不同。"拋棄一切"策略把一切清空重來,重新開始搜索"十月出生的說唱歌手",完全放棄了好不容易找到的$tupid Young線索,回到了起點(diǎn)。"壓縮總結(jié)"策略保留了一個(gè)以Lil Durk為中心的總結(jié),但這個(gè)總結(jié)繼承了前期錯(cuò)誤假設(shè)的偏見,在前瞻階段繼續(xù)花時(shí)間驗(yàn)證Lil Durk,浪費(fèi)了三步。"只留最近"策略只保留了最近幾輪的內(nèi)容,恰好包含了$tupid Young這條關(guān)鍵線索。在前瞻的第一步,它就嘗試訪問$tupid Young的維基百科頁面;第二步確認(rèn)了他生于1992年10月3日,天秤座,符合所有身份線索;第三步已經(jīng)開始搜索他的熱門歌曲和合唱嘉賓信息,找到了候選歌曲"Mando"。

路由機(jī)制看到這三路的探索結(jié)果,毫不猶豫地選擇了"只留最近"。隨后,AI在幾個(gè)回合內(nèi)驗(yàn)證了Mozzy("Mando"的合唱嘉賓)的父親確實(shí)曾在監(jiān)獄服刑15年,確認(rèn)了歌曲發(fā)布于2017年,最終給出了正確答案:"Mando"。

這個(gè)案例完整展示了AgentSwing的工作原理:不是給每種情況規(guī)定死答案,而是讓實(shí)際情況說話。

**八、代價(jià)幾何:額外的計(jì)算開銷值得嗎**

有一個(gè)合理的疑問:AgentSwing需要并行運(yùn)行三套前瞻探索,這肯定要花更多的計(jì)算資源。這額外的開銷究竟有多大?

研究團(tuán)隊(duì)專門做了對(duì)比分析。他們?cè)谀切?各策略都觸發(fā)了清桌"的困難題目上,統(tǒng)計(jì)了每道題完成時(shí)的總回合數(shù)和總處理的token數(shù)量(token可以理解為AI處理文字的基本計(jì)量單位)。

結(jié)果顯示,AgentSwing的總回合數(shù)處于中間水平,比"拋棄一切"少很多,和"壓縮總結(jié)""只留最近"相近。在token總量上,AgentSwing雖然因?yàn)榍罢疤剿髟黾恿艘恍?,?只留最近"這種策略因?yàn)樵诿總€(gè)回合都保留了較長的歷史,累計(jì)token其實(shí)也不少。"拋棄一切"在token數(shù)量上最省,但代價(jià)是需要更多回合才能完成任務(wù)。

綜合來看,AgentSwing的額外開銷是真實(shí)存在的,但并不夸張。考慮到它帶來的性能提升,這個(gè)代價(jià)是值得的。

**九、這項(xiàng)研究的邊界在哪里**

研究團(tuán)隊(duì)在文章末尾坦率地討論了這項(xiàng)工作的局限。

AgentSwing目前是一個(gè)"外掛"式的機(jī)制——它控制的是AI工作桌的管理方式,而不是AI本身的能力。一個(gè)更根本的方向,是訓(xùn)練出天生就能在小上下文里高效工作、在長上下文里保持精準(zhǔn)的AI模型,把這些能力內(nèi)化為模型本身的素質(zhì),而不是靠外部控制來補(bǔ)償。

另一個(gè)局限是路由決策的質(zhì)量。目前AgentSwing的選擇是由AI模型自己來做的,這在大多數(shù)情況下是有效的,但AI模型的自我評(píng)估能力并不總是可靠。如果有一個(gè)專門訓(xùn)練的路由器、驗(yàn)證器或軌跡評(píng)估器,能更準(zhǔn)確地預(yù)判哪條路更有希望,路由決策的質(zhì)量還能進(jìn)一步提高。

此外,研究團(tuán)隊(duì)也指出,候選策略集合的多樣性和互補(bǔ)性對(duì)AgentSwing的效果有直接影響。目前使用的三種策略(拋棄一切、只留最近、壓縮總結(jié))已經(jīng)覆蓋了效率—精度譜系的主要位置,但未來探索更多專門化、更有針對(duì)性的候選策略,可能會(huì)帶來進(jìn)一步提升。

歸根結(jié)底,AgentSwing做的事情,本質(zhì)上就是把一個(gè)原本"死板"的機(jī)制變成了一個(gè)能"看情況"的機(jī)制。當(dāng)AI搜索助手的工作桌快滿的時(shí)候,與其機(jī)械地按照同一套清桌規(guī)則處理,不如先讓幾種不同的處理方式各自試走幾步,再根據(jù)實(shí)際走出來的路況做決定。這個(gè)思路樸素而有效,卻讓整體性能產(chǎn)生了顯著的飛躍。

對(duì)于普通用戶來說,這項(xiàng)研究意味著未來的AI搜索助手在處理那些需要大量步驟、反復(fù)查證的復(fù)雜問題時(shí),將變得更加可靠和高效——無論是幫你查一個(gè)冷門問題的答案,還是協(xié)助專業(yè)人員進(jìn)行學(xué)術(shù)文獻(xiàn)梳理、市場(chǎng)情報(bào)收集,都將因?yàn)檫@類機(jī)制的進(jìn)步而受益。

有興趣進(jìn)一步了解的讀者,可以通過論文編號(hào)arXiv:2603.27490在arXiv平臺(tái)上找到完整原文,代碼也已開放在Alibaba-NLP/DeepResearch這個(gè)代碼倉庫中。

**Q&A**

Q1:AgentSwing和普通AI搜索助手的清桌策略有什么區(qū)別?

A:普通的清桌策略(比如"拋棄一切"或"只留最近")是固定不變的,無論當(dāng)前搜索到了什么狀態(tài),都按同一套規(guī)則處理。AgentSwing的區(qū)別在于:它會(huì)在每次需要清桌時(shí),同時(shí)運(yùn)行三種不同的清桌方式,讓每種方式各自獨(dú)立地往前走三步,再根據(jù)實(shí)際走出來的效果選出最合適的一條路繼續(xù)。相當(dāng)于"先試探,再?zèng)Q定",而不是"無腦執(zhí)行固定動(dòng)作"。

Q2:AgentSwing的"搜索效率"和"終止精度"分別是什么意思?

A:"搜索效率"指的是AI助手在用完允許的交互回合之前,能不能給出一個(gè)答案(哪怕答錯(cuò)了),衡量的是"能不能完賽"。"終止精度"指的是在那些確實(shí)給出了答案的題目里,答對(duì)的比例,衡量的是"完賽了答得準(zhǔn)不準(zhǔn)"。最終成績等于兩者相乘。AgentSwing的優(yōu)勢(shì)在于,它同時(shí)在這兩個(gè)維度上都表現(xiàn)得更好,而不是只顧一頭。

Q3:AgentSwing用DeepSeek-v3.2在HLE上達(dá)到44.4分意味著什么?

A:HLE(人類最后的考試)是一個(gè)匯集了各領(lǐng)域極難題目的測(cè)試集,被認(rèn)為是目前公開基準(zhǔn)中最具挑戰(zhàn)性的之一。DeepSeek-v3.2配合AgentSwing達(dá)到44.4分,超過了Claude-4.5-Opus的43.4分和Gemini-3.0-Pro的45.8分(接近持平),以及GPT-5.1 High的42.7分??紤]到DeepSeek-v3.2是一個(gè)開源模型,而對(duì)比的都是定價(jià)昂貴的閉源商業(yè)模型,這個(gè)成績的意義在于說明:通過更聰明的上下文管理策略,開源模型完全有能力在最頂級(jí)的評(píng)測(cè)上與商業(yè)模型一較高下。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
看到如今的伊朗,才懂左宗棠當(dāng)年多偉大!沒有他,西北或無險(xiǎn)可守

看到如今的伊朗,才懂左宗棠當(dāng)年多偉大!沒有他,西北或無險(xiǎn)可守

賤議你讀史
2026-04-17 01:48:21
降壓藥飯前吃還是飯后吃?再三提醒:牢記3個(gè)原則,否則等于白吃

降壓藥飯前吃還是飯后吃?再三提醒:牢記3個(gè)原則,否則等于白吃

DrX說
2026-04-22 14:55:06
乘聯(lián)分會(huì):4月1-19日全國乘用車市場(chǎng)零售62.7萬輛 同比下降26%

乘聯(lián)分會(huì):4月1-19日全國乘用車市場(chǎng)零售62.7萬輛 同比下降26%

財(cái)聯(lián)社
2026-04-22 16:38:09
中國鐵礦石談判大獲全勝!“鎖喉”必和必拓:不降價(jià)?那就別賣了

中國鐵礦石談判大獲全勝!“鎖喉”必和必拓:不降價(jià)?那就別賣了

動(dòng)漫里的童話
2026-04-22 05:35:55
4月22日俄烏:兩個(gè)意義非凡的軍事行動(dòng)

4月22日俄烏:兩個(gè)意義非凡的軍事行動(dòng)

山河路口
2026-04-22 18:15:08
安徽省交通控股集團(tuán)有限公司黨委委員盛明宏接受審查調(diào)查

安徽省交通控股集團(tuán)有限公司黨委委員盛明宏接受審查調(diào)查

界面新聞
2026-04-22 17:07:51
4月21日俄烏最新:俄羅斯創(chuàng)造的神話

4月21日俄烏最新:俄羅斯創(chuàng)造的神話

西樓飲月
2026-04-21 20:24:18
五連敗切爾西徹底崩盤!主帥放豪言:6年合同在手,絕不下課!

五連敗切爾西徹底崩盤!主帥放豪言:6年合同在手,絕不下課!

田先生籃球
2026-04-22 06:57:15
連虧5年,越虧越多!知名超市學(xué)胖東來效果不佳,去年關(guān)店414家,巨虧9.57億元,最新市值僅35億元

連虧5年,越虧越多!知名超市學(xué)胖東來效果不佳,去年關(guān)店414家,巨虧9.57億元,最新市值僅35億元

每日經(jīng)濟(jì)新聞
2026-04-22 18:31:06
36億罰單背后,30名被開除員工的代價(jià)

36億罰單背后,30名被開除員工的代價(jià)

慕容律師
2026-04-21 22:31:56
穆鐵柱的最后一天:在家中蹬自行車健身,突然兩眼一黑癱倒在地

穆鐵柱的最后一天:在家中蹬自行車健身,突然兩眼一黑癱倒在地

大運(yùn)河時(shí)空
2026-04-21 16:30:03
曾經(jīng)那些真實(shí)的特供,超出普通人的想象…

曾經(jīng)那些真實(shí)的特供,超出普通人的想象…

深度報(bào)
2026-04-21 22:56:47
火箭丟了G2后,烏度卡全方位甩鍋,杜蘭特主動(dòng)攬責(zé),申京自我反思

火箭丟了G2后,烏度卡全方位甩鍋,杜蘭特主動(dòng)攬責(zé),申京自我反思

萌蘭聊個(gè)球
2026-04-22 17:47:03
2032奧運(yùn)主辦地確定,結(jié)果吃驚全球,奧運(yùn)格局將重塑

2032奧運(yùn)主辦地確定,結(jié)果吃驚全球,奧運(yùn)格局將重塑

天馬幸福的人生
2026-04-22 06:41:59
NBA官方:亞歷山大當(dāng)選年度最佳關(guān)鍵球員 多項(xiàng)關(guān)鍵數(shù)據(jù)聯(lián)盟第一

NBA官方:亞歷山大當(dāng)選年度最佳關(guān)鍵球員 多項(xiàng)關(guān)鍵數(shù)據(jù)聯(lián)盟第一

羅說NBA
2026-04-22 06:18:26
炸翻全球軍界!沙特怒砸120億買斷中國神裝,美軍徹底被踢出局

炸翻全球軍界!沙特怒砸120億買斷中國神裝,美軍徹底被踢出局

風(fēng)信子的花
2026-04-21 14:31:44
男子買彩票中了5340萬 偷偷轉(zhuǎn)給別的女人2100萬 前妻起訴返還 法院判了

男子買彩票中了5340萬 偷偷轉(zhuǎn)給別的女人2100萬 前妻起訴返還 法院判了

閃電新聞
2026-04-21 10:35:14
當(dāng)年張柏芝抱著lucas后面居然是大s,到現(xiàn)在才發(fā)現(xiàn),真美呀

當(dāng)年張柏芝抱著lucas后面居然是大s,到現(xiàn)在才發(fā)現(xiàn),真美呀

可樂談情感
2026-04-22 00:14:41
解決掉提問的人,問題就解決了?北師大“神操作”火了

解決掉提問的人,問題就解決了?北師大“神操作”火了

虔青
2026-04-20 14:07:53
有錢真能改變?nèi)说纳顔峥淳W(wǎng)友講述父親有錢沒錢真實(shí)現(xiàn)狀,驚呆了

有錢真能改變?nèi)说纳顔峥淳W(wǎng)友講述父親有錢沒錢真實(shí)現(xiàn)狀,驚呆了

侃神評(píng)故事
2026-04-22 11:15:03
2026-04-22 19:40:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

體育要聞

網(wǎng)易傳媒再度簽約法國隊(duì)和阿根廷隊(duì)

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長?;鹌谙?/h3>

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

本地
教育
親子
健康
家居

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

教育要聞

【媒體聚焦】南方工報(bào) | 廣東省教育研究院走進(jìn)湛江開展教研幫扶

親子要聞

今起幼兒信息登記!登記后這兩樣保存好,后續(xù)報(bào)名都要用

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

家居要聞

極簡繪夢(mèng) 克制和諧

無障礙瀏覽 進(jìn)入關(guān)懷版