卡內(nèi)基梅隆大學(xué)揭示通用AI助手的真實表現(xiàn)與擴展極限

2026-02-28 17:44:05　來源: 科技行者

北京舉報

分享至

這項由卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所和Meta公司聯(lián)合進行的研究發(fā)表于2026年2月，論文編號為arXiv:2602.18998v1。研究團隊開發(fā)了General AgentBench基準(zhǔn)測試平臺，專門用于評估通用AI智能體在真實使用場景下的表現(xiàn)能力。

當(dāng)我們談?wù)揂I智能體時，通常會想到那些能夠搜索信息、編寫代碼、進行推理并使用各種工具的智能助手。目前大多數(shù)AI智能體的測試都是在特定領(lǐng)域進行的，就像讓一個廚師只在意大利餐廳展示手藝，然后就宣稱他是全能廚師。但現(xiàn)實中的用戶需求往往跨越多個領(lǐng)域，需要智能體在同一個對話中既能搜索信息，又能編寫代碼，還能進行復(fù)雜推理。

這種差距促使研究團隊開發(fā)了General AgentBench，這是首個專門評估通用AI智能體的綜合性基準(zhǔn)測試平臺。與以往的測試不同，這個平臺將所有工具和任務(wù)整合在一個統(tǒng)一的環(huán)境中，更貼近真實的用戶使用場景。研究團隊不僅評估了AI智能體的基礎(chǔ)能力，還深入研究了它們在面對復(fù)雜任務(wù)時通過增加計算資源來提升性能的能力，這被稱為"測試時縮放"。

結(jié)果發(fā)現(xiàn)，即使是最先進的AI智能體，當(dāng)從專門化環(huán)境轉(zhuǎn)移到通用環(huán)境時，性能都會出現(xiàn)顯著下降。更令人意外的是，傳統(tǒng)認(rèn)為有效的兩種性能提升策略——延長推理時間和并行生成多個答案——在實際應(yīng)用中都遇到了明顯的局限性。這些發(fā)現(xiàn)對理解AI智能體的真實能力邊界具有重要意義。

一、從專家到通才：AI智能體面臨的現(xiàn)實挑戰(zhàn)

當(dāng)前的AI智能體評估就像讓一位專業(yè)醫(yī)生在配備齊全的醫(yī)院里看病，然后聲稱他能處理任何情況。但現(xiàn)實中的AI助手更像是一位全科醫(yī)生，需要在資源有限、情況復(fù)雜的環(huán)境中處理各種突發(fā)問題。這種差異正是研究團隊關(guān)注的核心問題。

傳統(tǒng)的AI智能體測試通常針對單一領(lǐng)域設(shè)計，比如專門測試軟件開發(fā)能力的會提供完整的編程環(huán)境和相關(guān)工具，測試網(wǎng)頁瀏覽能力的會提供專門的瀏覽器界面。這種方法雖然能準(zhǔn)確評估特定能力，但無法反映智能體在面對跨領(lǐng)域任務(wù)時的真實表現(xiàn)。

研究團隊設(shè)計的General AgentBench包含了四個核心領(lǐng)域：搜索、編程、推理和工具使用。每個領(lǐng)域都來自已有的權(quán)威測試集，但關(guān)鍵創(chuàng)新在于將所有工具統(tǒng)一到一個共享接口中。這意味著智能體在處理任何任務(wù)時都能看到全部301個可用工具，而不是只看到與當(dāng)前任務(wù)相關(guān)的工具。這種設(shè)計更真實地模擬了用戶與AI助手的實際交互方式。

這個統(tǒng)一環(huán)境的構(gòu)建基于模型上下文協(xié)議(MCP)，采用了主機-客戶端-服務(wù)器的架構(gòu)。當(dāng)智能體需要使用某個工具時，請求會通過中央主機路由到相應(yīng)的服務(wù)器執(zhí)行。這種設(shè)計確保了不同領(lǐng)域的工具能夠無縫協(xié)作，同時也暴露了智能體在面對大量選擇時的決策能力。

在這種統(tǒng)一環(huán)境下，僅工具描述就可能占用數(shù)萬個token的上下文空間。加上用戶查詢和多輪交互歷史，整個對話很容易進入長上下文處理范圍。這與許多現(xiàn)有的長上下文測試（主要關(guān)注靜態(tài)文檔理解）有著根本不同，因為這里的上下文是動態(tài)演化的，包含了任務(wù)指令、工具文檔、執(zhí)行反饋和智能體自己的歷史決策。

二、性能大跌眼鏡：通用環(huán)境下的表現(xiàn)實況

研究團隊測試了十個頂尖的AI模型，結(jié)果令人深思。當(dāng)這些在專門測試中表現(xiàn)優(yōu)異的模型轉(zhuǎn)移到通用環(huán)境時，幾乎所有模型都出現(xiàn)了顯著的性能下降，平均降幅在10%到30%之間。這就像讓一位在專業(yè)廚房里得心應(yīng)手的廚師轉(zhuǎn)到一個什么都有但擺放混亂的大廚房，突然發(fā)現(xiàn)做菜變得困難重重。

最引人注目的是Claude Sonnet 4.5表現(xiàn)出了最強的魯棒性，平均性能僅下降0.2%，展現(xiàn)出了在通用環(huán)境中的出色適應(yīng)能力。相比之下，GPT-5在搜索和推理領(lǐng)域表現(xiàn)最佳，但在工具使用方面遇到了較大挑戰(zhàn)。開源模型中，DeepSeek-V3.2的綜合表現(xiàn)最為突出，甚至超越了部分專有模型。

然而，幾乎所有模型在BrowseComp任務(wù)上的表現(xiàn)都相當(dāng)糟糕，這個任務(wù)要求智能體在網(wǎng)絡(luò)上尋找稀有且精確的信息。這揭示了當(dāng)前AI智能體在處理超出訓(xùn)練數(shù)據(jù)范圍的復(fù)雜信息檢索任務(wù)時的根本局限性。這種表現(xiàn)差距提醒我們，盡管AI技術(shù)發(fā)展迅速，但在處理真實世界的復(fù)雜、開放性任務(wù)時仍然面臨重大挑戰(zhàn)。

有趣的是，一些模型在特定領(lǐng)域?qū)嶋H上表現(xiàn)得更好了。深入分析發(fā)現(xiàn)，這些改進來自于跨領(lǐng)域工具的創(chuàng)造性使用。比如在處理搜索任務(wù)時，一些智能體學(xué)會了使用專門的學(xué)術(shù)論文搜索API、地圖API或者模型庫API，而不是僅僅依賴通用的網(wǎng)絡(luò)搜索。Claude Sonnet 4.5在26%的搜索任務(wù)中使用了超出傳統(tǒng)搜索范圍的專業(yè)工具，包括78次谷歌地圖API調(diào)用、60次學(xué)術(shù)論文搜索，以及36次機器學(xué)習(xí)模型API調(diào)用。

這種跨領(lǐng)域工具使用行為展現(xiàn)了AI智能體的一個重要能力：在面對復(fù)雜任務(wù)時，它們能夠動態(tài)地選擇和組合最適合的工具，而不是拘泥于傳統(tǒng)的工具分類。這種能力在專門化測試中無法體現(xiàn)，只有在通用環(huán)境中才能觀察到。這也解釋了為什么通用評估對于理解AI智能體的真實能力如此重要。

三、延長思考時間的迷思：序列縮放的意外發(fā)現(xiàn)

在人類學(xué)習(xí)中，給更多時間思考通常會帶來更好的結(jié)果?；谶@種直覺，研究團隊測試了讓AI智能體進行更長時間推理的效果，這被稱為序列縮放。然而，結(jié)果與預(yù)期截然不同。

序列縮放的基本思路是延長智能體與環(huán)境的交互歷史。當(dāng)智能體試圖結(jié)束一次對話時，系統(tǒng)會注入額外的環(huán)境反饋，鼓勵它進行進一步的反思和探索。這種方法在理論上應(yīng)該允許智能體糾正錯誤、完善推理過程，并探索替代解決方案。

但實際觀察到的行為模式令研究團隊意外。大多數(shù)模型要么在某個性能水平上停滯不前，要么出現(xiàn)不穩(wěn)定的波動。更令人困惑的是，一些模型在達到某個交互長度后，性能開始持續(xù)下降，再也無法恢復(fù)到之前的水平。

深入分析發(fā)現(xiàn)了兩種典型的失敗模式。第一種是"停滯波動"：智能體在推理領(lǐng)域表現(xiàn)出這種模式，它們在一個狹窄的性能范圍內(nèi)反復(fù)震蕩，無法突破到更高水平。這表明智能體雖然能夠進行更長時間的思考，但缺乏探索全新解決路徑的能力，同時也無法保持長期的推理一致性。

第二種是"飽和退化"：這在編程任務(wù)中最為明顯。智能體最初會從額外的推理步驟中受益，性能有所提升。但一旦超過某個關(guān)鍵轉(zhuǎn)折點，性能就開始持續(xù)下降，仿佛陷入了某種負(fù)面循環(huán)。

研究團隊通過追蹤具體任務(wù)實例的正確性變化發(fā)現(xiàn)了問題的根源。智能體要么在已經(jīng)能夠解決的問題上重復(fù)成功，而在失敗的問題上毫無進展，要么在正確和錯誤答案之間來回?fù)u擺，表現(xiàn)出不穩(wěn)定的行為模式。

更深層的分析揭示了"上下文天花板"現(xiàn)象。每個模型都有一個有效的上下文長度限制，當(dāng)累積的交互歷史接近這個限制時，性能會達到峰值。但一旦超過這個閾值，額外的上下文反而會壓倒智能體的推理能力，導(dǎo)致性能下降。有趣的是，這個天花板在不同領(lǐng)域有所不同，反映了各類任務(wù)對上下文利用和計算效率的不同需求。

例如，Qwen3-235B在搜索領(lǐng)域的上下文天花板大約是112K token，而Gemini 2.5-Flash約為96K token。超過這些限制后，額外的交互歷史不僅無法帶來收益，反而會干擾智能體的決策過程。這一發(fā)現(xiàn)挑戰(zhàn)了"更多計算時間總是有益"的傳統(tǒng)觀念，揭示了當(dāng)前AI架構(gòu)在處理超長上下文時的根本限制。

四、多管齊下的困境：并行縮放的驗證差距

除了延長單次推理時間，另一個常見的性能提升策略是并行生成多個答案，然后選擇最佳的一個。這種方法在數(shù)學(xué)推理等領(lǐng)域已被證明有效，理論上應(yīng)該通過增加搜索空間來提高找到正確答案的概率。

研究團隊測試了這種并行縮放策略，結(jié)果發(fā)現(xiàn)了一個有趣的矛盾現(xiàn)象。一方面，隨著生成答案數(shù)量的增加，正確解決方案確實更頻繁地出現(xiàn)在候選集合中。這個被稱為"pass@K"的指標(biāo)表明，理論上的性能上限隨著K值增加而穩(wěn)步提升，平均改進約50%。

但關(guān)鍵問題在于：如何從這些候選答案中識別和選擇正確的一個？在實際應(yīng)用中，AI智能體不能同時向用戶提供多個答案，而必須選擇一個最終答案。這就需要智能體具備準(zhǔn)確的自我評估能力。

研究團隊設(shè)計了兩種自我選擇策略來測試這種能力。第一種是"逐一評估"，讓智能體獨立評估每個候選答案并給出二元判斷。第二種是"兩兩比較"，通過類似冒泡排序的過程，讓智能體比較候選答案并逐步篩選出最佳選項。

然而，兩種策略的表現(xiàn)都遠(yuǎn)低于理論上限。在某些情況下，智能體的自我選擇性能甚至?xí)S著候選數(shù)量增加而下降。這種現(xiàn)象被研究團隊稱為"驗證差距"——即智能體生成正確答案的能力與識別正確答案的能力之間存在顯著差異。

為了驗證這是否僅僅是評估能力不足的問題，研究團隊使用了更強大的外部評估器GPT-5來替代智能體的自我判斷。出乎意料的是，GPT-5的表現(xiàn)普遍不如模型的自我評估。這個反直覺的結(jié)果揭示了一個重要現(xiàn)象：模型更善于評估自己生成的內(nèi)容，而外部評估器可能難以準(zhǔn)確理解不熟悉的執(zhí)行軌跡。

這種"解決方案熟悉性"效應(yīng)表明，智能體在評估與其內(nèi)部推理模式一致的答案時表現(xiàn)更好，而在面對外部生成或風(fēng)格迥異的解決方案時則容易出錯。這一發(fā)現(xiàn)對并行縮放策略的實際應(yīng)用提出了根本性挑戰(zhàn)，因為即使生成了正確答案，智能體也可能無法可靠地識別它們。

這些發(fā)現(xiàn)綜合起來表明，雖然并行縮放在理論上能夠提升性能上限，但由于驗證能力的根本局限，其實際收益往往有限。這種現(xiàn)象在編程領(lǐng)域相對較輕，但在其他領(lǐng)域普遍存在，限制了并行縮放策略的實用性。

五、架構(gòu)決定命運：注意力機制的深層影響

研究過程中的一個意外發(fā)現(xiàn)涉及不同注意力架構(gòu)對性能的影響。Qwen3-Next采用了混合線性注意力機制，在序列縮放測試中表現(xiàn)明顯不如采用全注意力機制的Qwen3-235B，盡管兩個模型在其他方面相當(dāng)接近。

為了理解這種差異的根源，研究團隊進行了詳細(xì)的注意力行為分析。他們從智能體的推理軌跡中提取關(guān)鍵決策片段，分析模型在做出重要決策時關(guān)注了哪些歷史信息。這種分析揭示了全注意力和線性注意力機制在處理復(fù)雜任務(wù)時的根本差異。

全注意力模型展現(xiàn)出更廣泛的上下文視野，能夠關(guān)注到距離當(dāng)前決策較遠(yuǎn)的歷史信息。相比之下，線性注意力由于其類似卷積的感受野限制，主要關(guān)注較近的上下文信息。在需要整合長期信息來做出決策的任務(wù)中，這種差異會導(dǎo)致顯著的性能差距。

注意力頭的專業(yè)化分析也很有啟發(fā)性。全注意力模型呈現(xiàn)出清晰的V型模式：中間層的不同注意力頭關(guān)注不同類型的模式，展現(xiàn)出功能分化，而后續(xù)層則逐漸收斂到相似的關(guān)注點，反映了決策過程中的確定性增加。線性注意力模型缺乏這種清晰的結(jié)構(gòu)模式，注意力頭之間的重疊度更高，表明功能分化不足。

層間重疊度分析進一步證實了這一觀察。全注意力模型顯示出漸進的"低到高"趨勢，相鄰層的功能相似，但層間距離越大，功能差異越明顯。這種漸進式的功能分化有利于復(fù)雜推理任務(wù)的處理。而在線性注意力模型中，這種層次化的功能組織不夠明顯，可能影響了其在需要多步推理的任務(wù)中的表現(xiàn)。

這些分析結(jié)果表明，注意力架構(gòu)的選擇不僅影響計算效率，也深刻影響了模型在復(fù)雜任務(wù)中的推理能力。盡管線性注意力在計算成本上有顯著優(yōu)勢，但在需要復(fù)雜上下文整合的任務(wù)中，全注意力機制仍然具有不可替代的優(yōu)勢。

六、跨領(lǐng)域工具使用的新發(fā)現(xiàn)

General AgentBench的一個意外收獲是觀察到了智能體的跨領(lǐng)域工具使用行為。在傳統(tǒng)的專門化測試中，智能體只能接觸到與當(dāng)前任務(wù)相關(guān)的工具，無法展現(xiàn)這種創(chuàng)造性的工具組合能力。

以搜索任務(wù)為例，傳統(tǒng)方法通常依賴通用的網(wǎng)絡(luò)搜索引擎。但在統(tǒng)一工具環(huán)境中，一些智能體學(xué)會了根據(jù)查詢的特定需求選擇最合適的專業(yè)工具。當(dāng)需要查找學(xué)術(shù)論文時，它們會使用arXiv、PubMed或Google Scholar的專門API。當(dāng)查詢涉及地理位置時，它們會調(diào)用Google Maps API獲取更準(zhǔn)確的信息。當(dāng)需要了解機器學(xué)習(xí)模型時，它們會直接查詢Hugging Face的模型庫。

這種行為的一個典型案例是查找最新的Hugging Face文本分類模型。傳統(tǒng)的網(wǎng)絡(luò)搜索方法需要通過6輪迭代查詢，最終只能找到表面信息。而使用專門工具的智能體只需3步：首先通過Hugging Face的搜索API獲取按下載量排序的模型列表，然后通過網(wǎng)絡(luò)搜索了解新興模型，最后通過模型信息API獲取詳細(xì)的架構(gòu)和訓(xùn)練信息。

這種跨領(lǐng)域工具使用不僅提高了任務(wù)完成的效率，也展現(xiàn)了智能體在面對復(fù)雜需求時的適應(yīng)能力。它們能夠根據(jù)任務(wù)的具體特點動態(tài)選擇最合適的工具組合，而不是拘泥于預(yù)設(shè)的工具分類。這種能力在專門化測試中完全無法觀察到，只有在通用環(huán)境中才能顯現(xiàn)。

更重要的是，這種行為模式揭示了智能體的一種元認(rèn)知能力：它們不僅能夠使用工具，還能夠理解不同工具的優(yōu)勢和局限性，并據(jù)此做出合理的選擇。這種能力對于真實世界的AI助手應(yīng)用至關(guān)重要，因為現(xiàn)實中的用戶需求往往跨越多個領(lǐng)域，需要靈活的工具組合來解決。

七、靜態(tài)測試與動態(tài)應(yīng)用的鴻溝

研究團隊還發(fā)現(xiàn)了一個重要問題：傳統(tǒng)的靜態(tài)長上下文測試與動態(tài)智能體應(yīng)用之間存在根本差異?，F(xiàn)有的長上下文基準(zhǔn)測試主要關(guān)注文檔理解、摘要生成或針在草垛中找針等靜態(tài)任務(wù)，而智能體的長上下文是通過多輪交互動態(tài)演化的。

靜態(tài)測試通常涉及長文檔問答，交互模式保持單輪靜態(tài)，輸出相對簡短。而智能體場景中的長上下文包含異構(gòu)信息源：除了長文檔，還有環(huán)境反饋、工具執(zhí)行結(jié)果和模型自己的歷史決策。這種動態(tài)演化的上下文對模型的處理能力提出了完全不同的要求。

為了驗證這種差異的實際影響，研究團隊比較了十個模型在傳統(tǒng)長上下文基準(zhǔn)（LongBench、HELMET、MRCR）和General AgentBench上的表現(xiàn)。結(jié)果顯示，兩者之間的相關(guān)性出人意料地低，表明在靜態(tài)任務(wù)上的優(yōu)秀表現(xiàn)并不能預(yù)測在動態(tài)智能體任務(wù)中的表現(xiàn)。

唯一顯示出中等相關(guān)性的是MRCR與推理任務(wù)之間的關(guān)系。這并不意外，因為推理任務(wù)主要涉及從長文檔中提取和計算信息，與MRCR的多輪指代解析任務(wù)較為相似。但對于編程和工具使用任務(wù)，靜態(tài)測試的預(yù)測能力極其有限。

這種差異的根源在于任務(wù)性質(zhì)的根本不同。靜態(tài)測試主要評估信息檢索和理解能力，而動態(tài)智能體任務(wù)需要決策制定、執(zhí)行監(jiān)控和自適應(yīng)調(diào)整等高階能力。這些能力在靜態(tài)環(huán)境中無法充分評估，只有在真實的交互環(huán)境中才能體現(xiàn)。

這一發(fā)現(xiàn)對AI模型的評估和選擇具有重要意義。僅僅依據(jù)傳統(tǒng)基準(zhǔn)測試的結(jié)果來預(yù)測模型在智能體應(yīng)用中的表現(xiàn)可能會產(chǎn)生誤導(dǎo)。需要專門針對智能體應(yīng)用場景設(shè)計的評估方法，才能準(zhǔn)確衡量模型在真實應(yīng)用中的能力。

八、模型間的表現(xiàn)差異與特點

通過對十個領(lǐng)先模型的綜合評估，研究團隊發(fā)現(xiàn)了各個模型在通用智能體任務(wù)中的獨特特征和優(yōu)勢領(lǐng)域。這些發(fā)現(xiàn)為實際應(yīng)用中的模型選擇提供了寶貴的參考。

Claude Sonnet 4.5展現(xiàn)出了最強的整體魯棒性，不僅在通用環(huán)境下保持了穩(wěn)定的性能，還在跨領(lǐng)域工具使用方面表現(xiàn)出色。它的這種表現(xiàn)可能歸功于其訓(xùn)練過程中對多領(lǐng)域任務(wù)的平衡關(guān)注，以及在工具使用方面的特殊優(yōu)化。在序列縮放測試中，Claude Sonnet 4.5也表現(xiàn)出了良好的穩(wěn)定性，很少出現(xiàn)性能退化現(xiàn)象。

GPT-5在搜索和推理任務(wù)中表現(xiàn)最佳，展現(xiàn)出了強大的信息檢索和復(fù)雜推理能力。但在工具使用方面相對較弱，特別是在需要精確參數(shù)控制的復(fù)雜工具調(diào)用中容易出錯。這種不平衡的表現(xiàn)表明，盡管GPT-5在某些核心能力上領(lǐng)先，但在綜合應(yīng)用中仍有改進空間。

在開源模型中，DeepSeek-V3.2的表現(xiàn)最為突出，甚至在某些任務(wù)上超越了商業(yè)模型。這個模型展現(xiàn)出了稀疏注意力架構(gòu)在大規(guī)模應(yīng)用中的潛力。相比之下，DeepSeek-R1雖然在推理任務(wù)中表現(xiàn)不錯，但在其他領(lǐng)域的表現(xiàn)較為平庸，可能反映了其訓(xùn)練重點的偏向性。

Qwen系列模型中，Qwen3-235B整體表現(xiàn)均衡，特別是在并行縮放測試中展現(xiàn)出了較好的自我選擇能力。而Qwen3-Next由于線性注意力架構(gòu)的限制，在需要長期依賴的任務(wù)中表現(xiàn)較差，但在計算效率上有顯著優(yōu)勢。

Gemini 2.5系列顯示出了有趣的版本差異。Flash版本在效率和成本方面有優(yōu)勢，但在復(fù)雜推理任務(wù)中不如Pro版本。Pro版本在某些高難度任務(wù)中表現(xiàn)出色，但在通用環(huán)境下的適應(yīng)性不夠理想。

這些差異反映了不同模型在架構(gòu)設(shè)計、訓(xùn)練策略和優(yōu)化目標(biāo)上的不同選擇。對于實際應(yīng)用而言，選擇合適的模型需要根據(jù)具體的使用場景和性能要求進行平衡考慮。

說到底，這項研究為我們展現(xiàn)了AI智能體發(fā)展的現(xiàn)狀和挑戰(zhàn)的真實圖景。當(dāng)前最先進的AI智能體在面對真實世界的復(fù)雜需求時，仍然存在顯著的局限性。從專門化環(huán)境到通用環(huán)境的性能下降提醒我們，真正的通用人工智能仍有很長的路要走。

更令人深思的是，傳統(tǒng)認(rèn)為有效的性能提升策略——無論是延長思考時間還是并行生成多個答案——在實際應(yīng)用中都遇到了意想不到的障礙。序列縮放受到上下文天花板的限制，并行縮放則面臨驗證差距的挑戰(zhàn)。這些發(fā)現(xiàn)揭示了當(dāng)前AI架構(gòu)的根本局限性，也為未來的研究方向指明了道路。

跨領(lǐng)域工具使用的發(fā)現(xiàn)為我們展示了AI智能體的創(chuàng)造潛力，同時也說明了通用評估的重要性。只有在真實的使用環(huán)境中，我們才能觀察到這些意想不到的能力涌現(xiàn)。這提醒我們，評估AI系統(tǒng)不能僅僅依賴簡化的基準(zhǔn)測試，而需要更貼近實際應(yīng)用場景的綜合評估。

這項研究的意義不僅在于揭示了當(dāng)前技術(shù)的局限性，更在于為構(gòu)建更強大、更可靠的通用AI智能體指明了方向。未來的研究需要重點關(guān)注上下文管理、推理穩(wěn)定性和自我評估能力的提升，同時開發(fā)更有效的測試時縮放策略。對于有興趣深入了解技術(shù)細(xì)節(jié)的讀者，可以通過論文編號arXiv:2602.18998v1查詢完整的研究報告。

Q&A

Q1：General AgentBench與傳統(tǒng)AI測試有什么不同？

A：General AgentBench將所有領(lǐng)域的工具整合在一個統(tǒng)一環(huán)境中，智能體需要從301個工具中選擇合適的來完成任務(wù)，這更接近真實使用場景。而傳統(tǒng)測試只提供特定領(lǐng)域的工具，就像讓廚師只在意大利餐廳展示手藝。

Q2：為什么給AI更多思考時間反而表現(xiàn)變差？

A：研究發(fā)現(xiàn)了"上下文天花板"現(xiàn)象，當(dāng)交互歷史超過模型的有效處理長度時，額外信息會壓倒智能體的推理能力。就像記憶力有限的人，信息太多反而會混亂，無法做出好的決策。

Q3：AI智能體的跨領(lǐng)域工具使用能力如何？

A：表現(xiàn)出色的智能體能根據(jù)任務(wù)特點選擇最合適的專業(yè)工具，比如用學(xué)術(shù)搜索API查論文，用地圖API查位置。Claude Sonnet 4.5在26%的搜索任務(wù)中使用了超出傳統(tǒng)范圍的專業(yè)工具，展現(xiàn)了良好的工具組合能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.