SkillsBench：斯坦福大學(xué)等機構(gòu)揭秘AI代理"技能包"的真實威力

2026-02-25 20:40:24　來源: 科技行者

北京舉報

分享至

這項由斯坦福大學(xué)、加州大學(xué)伯克利分校、俄亥俄州立大學(xué)等多所知名院校聯(lián)合開展的研究發(fā)表于2026年2月，論文編號為arXiv:2602.12670v1。有興趣深入了解的讀者可以通過這個編號查詢完整論文。

在當(dāng)今AI快速發(fā)展的時代，你可能聽說過ChatGPT、Claude這些聊天機器人，但你知道它們正在進化成能夠自主完成復(fù)雜任務(wù)的"AI代理"嗎？這些AI代理不再僅僅是回答問題，而是能夠像人類助手一樣，操作電腦、編寫代碼、分析數(shù)據(jù)，甚至制作報告。然而，就像一個剛?cè)肼毜男聠T工需要培訓(xùn)手冊一樣，AI代理也需要專門的"技能包"來指導(dǎo)它們完成特定領(lǐng)域的工作。

但這些"技能包"真的有用嗎？它們到底能讓AI代理變得多厲害？這正是這項大規(guī)模研究想要回答的問題。研究團隊就像是在測試不同品牌的工具箱對工匠工作效率的影響，他們設(shè)計了一個名為SkillsBench的評測體系，涵蓋了84個不同難度的真實任務(wù)，從簡單的數(shù)據(jù)分析到復(fù)雜的軟件開發(fā)，從醫(yī)療保健到金融分析，幾乎涉及了現(xiàn)代職場的各個角落。

這項研究的特別之處在于，它不是簡單地測試AI代理能否完成任務(wù)，而是專門比較了三種不同情況下的表現(xiàn)：完全沒有技能包的"裸奔"狀態(tài)、使用專家精心編寫的技能包，以及讓AI代理自己臨時編寫技能包。研究團隊測試了7種不同的AI模型-代理組合，總共進行了7,308次任務(wù)嘗試，這個規(guī)模相當(dāng)于一個小型企業(yè)一年的工作量評估。

結(jié)果令人眼前一亮，但也帶來了一些意外發(fā)現(xiàn)。專家編寫的技能包平均讓AI代理的成功率提升了16.2個百分點，這就像是給一個工匠配備了專業(yè)工具箱后，工作效率顯著提升。然而，不同領(lǐng)域的效果差異巨大：在醫(yī)療保健領(lǐng)域，成功率提升了驚人的51.9個百分點，而在軟件工程領(lǐng)域，提升幅度只有4.5個百分點。更有趣的是，當(dāng)AI代理試圖自己編寫技能包時，不僅沒有幫助，反而平均降低了1.3個百分點的成功率，這說明AI雖然聰明，但還無法可靠地為自己制作"使用手冊"。

一、技能包的本質(zhì)：AI代理的專業(yè)培訓(xùn)手冊

回到最基本的問題：什么是AI代理的"技能包"？如果把AI代理比作一個萬能的實習(xí)生，那么技能包就像是針對特定崗位的培訓(xùn)手冊。這個手冊不是簡單的知識介紹，而是詳細的操作指南，告訴AI代理"在這種情況下應(yīng)該怎么做"、"使用哪些工具"、"按什么步驟執(zhí)行"。

技能包的核心是程序性知識，也就是"如何做"的知識，而不是"是什么"的知識。就像烹飪食譜一樣，它不會花大篇幅解釋什么是面粉或雞蛋，而是直接告訴你"先在碗里打兩個雞蛋，然后加入200克面粉，順時針攪拌五分鐘"。這種具體的步驟指導(dǎo)正是AI代理最需要的。

研究團隊發(fā)現(xiàn)，一個合格的技能包必須滿足四個條件。第一是包含程序性內(nèi)容，也就是具體的操作步驟和工作流程，而不是純粹的事實性信息。第二是具有任務(wù)類別適用性，能夠應(yīng)用于一類問題而不僅僅是單個任務(wù)。第三是結(jié)構(gòu)化組件，包含一個名為SKILL.md的核心文件以及可選的腳本、模板和示例。第四是便攜性，技能包完全基于文件系統(tǒng)，容易編輯、版本控制、分享，并能在不同的代理系統(tǒng)中使用。

這種定義排除了許多看似相關(guān)但實際不同的概念。系統(tǒng)提示詞雖然能指導(dǎo)AI行為，但缺乏結(jié)構(gòu)和資源；少樣本示例雖然有用，但是聲明性的而非程序性的；檢索增強生成主要提供事實信息而非操作指導(dǎo)；工具文檔描述的是功能而非具體使用步驟。技能包的獨特之處在于它將程序性指導(dǎo)與可執(zhí)行資源結(jié)合，同時保持跨模型和跨代理系統(tǒng)的兼容性。

在實際應(yīng)用中，每個技能包就像一個迷你的專業(yè)培訓(xùn)課程。它位于環(huán)境的skills目錄中，包含必需的SKILL.md文件和可選的資源文件。SKILL.md文件用自然語言描述如何處理某類任務(wù)的具體方法，比如工作流程、標(biāo)準操作程序或領(lǐng)域規(guī)范。資源文件則可能包含可執(zhí)行腳本、代碼模板、參考文檔或?qū)嶋H工作示例，供代理在需要時調(diào)用或參考。

二、實驗設(shè)計：像測試新員工一樣評估AI代理

為了科學(xué)地評估技能包的效果，研究團隊設(shè)計了一套完整的評測體系，就像企業(yè)HR部門設(shè)計員工能力測試一樣周密。他們首先面臨的挑戰(zhàn)是如何收集足夠多樣化的任務(wù)。研究團隊采用了社區(qū)驅(qū)動的開源貢獻模式，邀請了105名來自學(xué)術(shù)界和工業(yè)界的貢獻者提交候選任務(wù)，最終收到了322個任務(wù)提案。

這些任務(wù)的篩選過程非常嚴格，就像招聘過程一樣有多個環(huán)節(jié)。每個提交的任務(wù)都必須滿足明確的要求：任務(wù)說明必須由人類編寫而非AI生成，技能包必須提供適用于一類問題的程序性指導(dǎo)，成功標(biāo)準必須可以通過程序化斷言進行測試。系統(tǒng)會自動進行結(jié)構(gòu)驗證、預(yù)言解決方案執(zhí)行和指令質(zhì)量檢查，通過后才進入人工審核階段。

人工審核階段評估五個關(guān)鍵標(biāo)準：數(shù)據(jù)有效性要求輸入數(shù)據(jù)反映真實世界的復(fù)雜性，拒絕合成或玩具數(shù)據(jù)；任務(wù)現(xiàn)實性要求場景反映真實的專業(yè)工作流程，避免人為的困難；預(yù)言質(zhì)量要求參考解決方案應(yīng)該匹配領(lǐng)域?qū)＜医鉀Q任務(wù)的方式；技能質(zhì)量要求技能包必須無錯誤、內(nèi)部一致且對類似任務(wù)真正有用；防作弊措施要求任務(wù)必須防止快捷解決方案，如編輯輸入數(shù)據(jù)或從測試文件中提取答案。

審核者還會使用有技能包和無技能包兩種條件在多個代理上運行基準實驗，以確認每個任務(wù)都能提供關(guān)于技能包效果的有意義信號。經(jīng)過這個嚴格的篩選過程，最終有86個任務(wù)通過了所有審核階段并被納入基準測試，其中84個任務(wù)參與了最終評估。

這84個任務(wù)覆蓋了11個不同的領(lǐng)域，從軟件工程到醫(yī)療保健，從金融分析到機器人控制。任務(wù)難度按照估計的人類完成時間進行分層：核心任務(wù)（17個）需要少于60分鐘，擴展任務(wù)（43個）需要1-4小時，極端任務(wù)（26個）需要超過4小時。這種分層確保了基準測試能夠評估不同復(fù)雜程度的任務(wù)。

三、測試對象：七種AI代理的全面比拼

研究團隊選擇了當(dāng)前最先進的三種商業(yè)代理系統(tǒng)進行測試，這些系統(tǒng)代表了不同公司在AI代理領(lǐng)域的最新成果。Claude Code來自Anthropic公司，具有原生的技能包集成能力；Gemini CLI來自Google，是開源的終端代理；Codex CLI來自O(shè)penAI，是輕量級的編程代理。這些代理系統(tǒng)與不同的語言模型配對，形成了七種不同的配置組合。

Claude Code系統(tǒng)測試了四種不同能力級別的Claude模型：Opus 4.5和4.6代表頂級能力，Sonnet 4.5提供平衡的性能，Haiku 4.5則是效率優(yōu)化版本。Gemini CLI測試了兩種Google模型：Gemini 3 Pro提供強大性能，Gemini 3 Flash則優(yōu)化了速度和成本效率。Codex CLI使用GPT-5.2模型，專門針對代碼生成進行了優(yōu)化。

每個任務(wù)都在三種不同的條件下進行測試，就像對比實驗一樣控制變量。無技能包條件下，代理只接收任務(wù)說明，環(huán)境中沒有任何技能包；有技能包條件下，完整的技能包目錄提供所有示例、代碼片段和資源；自生成技能包條件下，不提供預(yù)制技能包，但提示代理在解決任務(wù)前生成相關(guān)的程序性知識。

實驗的執(zhí)行過程嚴格控制了各種變量。所有模型都使用溫度0進行確定性采樣，超時限制根據(jù)任務(wù)難度在600到1200秒之間變化，上下文管理采用8000令牌限制的滑動窗口。每個條件下的主要測試進行5次試驗，自生成條件進行3次試驗，總計產(chǎn)生了7,308個有效軌跡供分析。

技能包通過將環(huán)境的skills目錄復(fù)制到代理特定路徑的方式注入到每個任務(wù)的Docker容器中。每個代理系統(tǒng)使用其原生的技能包發(fā)現(xiàn)機制在運行時發(fā)現(xiàn)和加載技能包。重要的是，任務(wù)說明從不引用要使用哪些技能包，代理必須自主發(fā)現(xiàn)并應(yīng)用它們。

四、驚人發(fā)現(xiàn)：技能包效果的巨大差異

研究結(jié)果揭示了技能包效果的復(fù)雜圖景。整體而言，精心策劃的技能包將代理的平均通過率提升了16.2個百分點，這相當(dāng)于將成功率從約24%提升到約41%。然而，這個平均數(shù)字掩蓋了巨大的變異性，就像平均工資數(shù)字無法反映不同行業(yè)之間的巨大差距一樣。

不同代理-模型配置的效果差異顯著，改進幅度從13.6個百分點到23.3個百分點不等。Gemini CLI配合Gemini 3 Flash實現(xiàn)了最高的絕對通過率48.7%，而Claude Code配合Opus 4.5顯示了最大的改進幅度，增長了23.3個百分點。有趣的是，Claude Code在各個模型上都表現(xiàn)出了持續(xù)的技能包利用能力，這可能與其原生的技能包集成優(yōu)化有關(guān)。

領(lǐng)域?qū)用娴牟町惛討騽⌒?。醫(yī)療保健領(lǐng)域顯示了最大的改進，技能包將通過率從34.2%提升到86.1%，凈增長51.9個百分點。制造業(yè)緊隨其后，從1.0%提升到42.9%，增長41.9個百分點。這些領(lǐng)域的巨大改進反映了它們需要專門的程序性知識，而這些知識在模型的預(yù)訓(xùn)練中代表性不足。

相比之下，數(shù)學(xué)領(lǐng)域的改進相對較小，從41.3%提升到47.3%，僅增長6.0個百分點。軟件工程顯示了最小的改進，從34.4%提升到38.9%，僅增長4.5個百分點。這種模式表明，在模型預(yù)訓(xùn)練覆蓋較好的領(lǐng)域，外部程序性指導(dǎo)的邊際效用較低。

任務(wù)級別的分析揭示了更多細節(jié)。表現(xiàn)最好的任務(wù)如mario-coin-counting和sales-pivot-analysis顯示了超過85個百分點的改進，從接近0%的基線躍升到接近90%的成功率。這些任務(wù)涉及需要特定程序性知識的專門操作，如Excel透視表API或圖像處理管道，這些知識很難從一般訓(xùn)練中獲得。

然而，并非所有任務(wù)都從技能包中受益。84個任務(wù)中有16個顯示了負面的技能包增量，最大的負面影響是taxonomy-tree-merge任務(wù)，下降了39.3個百分點。這些失敗表明技能包可能引入沖突的指導(dǎo)或為模型已經(jīng)能夠很好處理的任務(wù)增加不必要的復(fù)雜性。

五、自生成技能包的失敗：AI還無法為自己編寫手冊

研究中最令人意外的發(fā)現(xiàn)之一是自生成技能包的表現(xiàn)。當(dāng)提示代理在解決任務(wù)之前生成自己的程序性知識時，它們平均顯示了-1.3個百分點的性能下降，這與精心策劃的技能包的+16.2個百分點改進形成鮮明對比。

這種失敗模式在軌跡分析中得到了解釋。研究團隊發(fā)現(xiàn)了兩種主要的失敗模式。第一種是模型識別需要領(lǐng)域特定知識，但生成的程序不精確或不完整。例如，模型可能列出"使用pandas進行數(shù)據(jù)處理"而不提供具體的API模式或處理步驟。第二種失敗模式出現(xiàn)在高領(lǐng)域知識任務(wù)中，模型完全無法識別需要專門技能包的需求，而是嘗試使用通用方法解決問題。

只有Claude Opus 4.6顯示了適度的改進（+1.4個百分點），而Codex配合GPT-5.2顯示了實質(zhì)性的退化（-5.6個百分點）。這種模式表明，雖然模型在消費程序性知識方面表現(xiàn)出色，但在創(chuàng)作有效的程序性知識方面仍有很大差距。

自生成條件的失敗凸顯了精心策劃的技能包的價值。有效的技能包不僅包含正確的信息，還以代理能夠有效處理和應(yīng)用的方式進行結(jié)構(gòu)化。這需要對任務(wù)領(lǐng)域的深度理解，以及對代理能力和限制的洞察，這些通常超出了當(dāng)前語言模型的能力范圍。

這一發(fā)現(xiàn)對技能包生態(tài)系統(tǒng)具有重要意義。它表明，至少在當(dāng)前的技術(shù)水平下，人工策劃的技能包仍然是必要的。自動化技能包生成可能需要更先進的方法，可能結(jié)合領(lǐng)域?qū)I(yè)知識、任務(wù)特定的示例以及對代理行為的更深入理解。

六、設(shè)計原則：少即是多的技能包哲學(xué)

研究深入分析了技能包設(shè)計對效果的影響，得出了幾個重要的設(shè)計原則。首先是數(shù)量的影響。分析顯示，包含2-3個技能包的任務(wù)表現(xiàn)最佳，平均改進18.6個百分點，而包含4個或更多技能包的任務(wù)僅改進5.9個百分點。這種非單調(diào)關(guān)系表明過多的技能包內(nèi)容會產(chǎn)生認知開銷或沖突指導(dǎo)。

技能包復(fù)雜性的分析同樣有啟發(fā)性。研究團隊根據(jù)內(nèi)容長度和深度將技能包分類為詳細、緊湊、標(biāo)準和全面四種類型。詳細技能包（+18.8個百分點）和緊湊技能包（+17.1個百分點）提供了最大的效益，而全面技能包實際上損害了性能（-2.9個百分點）。這表明聚焦的程序性指導(dǎo)比詳盡的文檔更有效，代理可能難以從冗長的技能包內(nèi)容中提取相關(guān)信息。

模型規(guī)模效應(yīng)揭示了技能包的另一個重要價值主張。Claude Haiku 4.5配合技能包（27.7%）超過了Haiku無技能包（11.0%）的性能16.7個百分點，同時Claude Opus 4.5無技能包僅達到22.0%。這證明技能包可以部分補償模型能力限制，使較小的模型在程序性任務(wù)上與較大的模型相匹配。

這些發(fā)現(xiàn)對技能包創(chuàng)作實踐具有直接影響。有效的技能包應(yīng)該優(yōu)先考慮簡潔的、逐步的指導(dǎo)，包含至少一個工作示例，而避免詳盡的文檔。模塊化技能包似乎在多部分任務(wù)上組合得更好，技能包應(yīng)該明確匹配代理約束，例如為僅限JSON協(xié)議重復(fù)格式提醒。

七、代理系統(tǒng)的可靠性差異

研究還揭示了不同商業(yè)代理系統(tǒng)在技能包利用方面的顯著差異。Claude Code在所有Claude模型中顯示了一致的技能包效益，改進范圍從13.9個百分點（Opus 4.6）到23.3個百分點（Opus 4.5）。這種一致性可能反映了Claude Code為Agent Skills規(guī)范進行的原生技能包集成優(yōu)化。

Gemini CLI實現(xiàn)了最高的原始性能，Gemini 3 Flash配合技能包達到48.7%的通過率，但標(biāo)準化增益相對較低。改進范圍從13.6個百分點到17.4個百分點。軌跡分析顯示Gemini CLI代理可靠地檢索和使用技能包內(nèi)容，但有時會執(zhí)行獨立于提供指導(dǎo)的解決方案。

Codex CLI顯示了競爭性的原始性能，技能包配置達到44.7%，但經(jīng)常忽略提供的技能包。代理承認技能包內(nèi)容但經(jīng)常獨立實施解決方案，這表明技能包發(fā)現(xiàn)和應(yīng)用之間存在斷裂。這種模式強調(diào)了評估多個代理系統(tǒng)而不是將"配合技能包"視為單一條件的重要性。

這些系統(tǒng)間的差異突出了代理架構(gòu)在調(diào)解技能包使用中的關(guān)鍵作用。技能包效果不僅取決于技能包質(zhì)量，還取決于代理系統(tǒng)如何實施技能包發(fā)現(xiàn)、上下文管理和應(yīng)用策略。一些系統(tǒng)引入的結(jié)構(gòu)化接口也可能導(dǎo)致長軌跡失敗模式，如格式漂移，減少早期注入技能包的影響。

八、成功案例分析：技能包如何改變游戲規(guī)則

為了更深入地理解技能包的作用機制，研究團隊分析了幾個代表性的成功案例，這些案例展示了技能包如何將失敗轉(zhuǎn)化為成功。

sales-pivot-analysis任務(wù)為技能包如何彌合特定API差距提供了完美示例。在沒有技能包的情況下，所有7個模型都獲得了0%的分數(shù)。這個任務(wù)需要從人口和收入數(shù)據(jù)以程序方式創(chuàng)建Excel透視表。代理始終正確加載數(shù)據(jù)，但在透視表創(chuàng)建時失敗。Codex嘗試手動DataFrame重塑而不是使用openpyxl的透視表API，產(chǎn)生結(jié)構(gòu)錯誤的輸出，23個測試中有10個因缺少透視對象而失敗，出現(xiàn)"列表索引超出范圍"錯誤。配合提供openpyxl透視表工作流程逐步指導(dǎo)的技能包，7個模型中的6個達到了≥80%的通過率，平均改進+85.7個百分點。

flood-risk-analysis任務(wù)展示了技能包如何提供關(guān)鍵的數(shù)據(jù)處理管道。這個任務(wù)需要使用回歸周期估計從USGS流量數(shù)據(jù)識別洪水風(fēng)險站點。沒有技能包時，代理嘗試臨時統(tǒng)計方法，如簡單的基于閾值的檢測或不正確的分布擬合，僅獲得2.9%的通過率。策劃的技能包指定了Log-Pearson Type III分布，這是洪水頻率分析的標(biāo)準USGS方法，包括確切的scipy函數(shù)調(diào)用和參數(shù)解釋。配合技能包，通過率上升到80.0%（+77.1個百分點），所有模型都正確應(yīng)用了USGS標(biāo)準方法。

sec-financial-report任務(wù)說明了技能包如何編碼監(jiān)管知識。從SEC 13F文件分析對沖基金活動需要理解特定的監(jiān)管格式、CIK查找程序和文件比較方法。沒有技能包時，沒有模型能夠完成任務(wù)（0%通過率），代理要么未能找到正確的文件，要么誤解了表格數(shù)據(jù)格式。策劃的技能包記錄了SEC EDGAR API端點、13F-HR文件結(jié)構(gòu)和跨季度比較方法。配合技能包，通過率達到75.0%（+75.0個百分點）。

manufacturing-fjsp-optimization任務(wù)展示了技能包如何防止常見的實施陷阱。靈活作業(yè)車間調(diào)度問題需要具有機器停機時間窗口的約束感知優(yōu)化。沒有技能包時，代理產(chǎn)生了忽略維護約束的簡單調(diào)度（0%通過率）。策劃的技能包概述了約束傳播方法、目標(biāo)函數(shù)公式和OR-Tools求解器配置。配合技能包，代理成功制定并解決了優(yōu)化問題（68.6%通過率，+68.6個百分點）。

這些案例展示了技能包最有效的三個場景：彌合特定API或工具知識差距，提供領(lǐng)域特定的方法和標(biāo)準，以及指導(dǎo)復(fù)雜的多步驟工作流程。在每種情況下，技能包不僅提供信息，還提供可操作的程序性指導(dǎo)，代理可以直接遵循。

九、失敗模式分析：當(dāng)技能包反而幫倒忙

盡管技能包總體上提高了性能，但研究也發(fā)現(xiàn)了它們可能有害的情況。對5,171個代理失敗的綜合分析揭示了技能包如何改變失敗模式的分布。

最常見的失敗模式是"質(zhì)量低于閾值"（49.8%的失敗），這表明代理通常理解任務(wù)結(jié)構(gòu)并產(chǎn)生輸出，但他們的解決方案不夠準確。代理超時是第二常見的（17.8%），其次是不完整解決方案（10.2%）和無輸出產(chǎn)生（7.9%）。

比較無技能包和有技能包條件下的失敗模式分布揭示了技能包的主要影響在哪里。技能包主要減少驗證失敗，質(zhì)量低于閾值失敗的絕對數(shù)量從1,184個（無技能包）下降到819個（有技能包），減少30.8%。這占了改進的大部分：技能包提供領(lǐng)域特定指導(dǎo)，幫助代理在結(jié)構(gòu)上理解的任務(wù)上產(chǎn)生更高質(zhì)量的輸出。

然而，技能包略微增加了超時的相對份額。雖然絕對超時計數(shù)從367個減少到328個，但其在失敗中的份額從16.1%增加到18.6%。這是因為技能包減少簡單失敗的速度快于困難失敗，以前產(chǎn)生低質(zhì)量輸出的代理現(xiàn)在花更長時間追求更好的解決方案，有時超過時間限制。

一些具體的失敗案例說明了技能包何時會產(chǎn)生反效果。taxonomy-tree-merge任務(wù)顯示了-39.3個百分點的下降，這是最大的負面影響。在這種情況下，技能包可能引入了與代理已經(jīng)有效方法沖突的指導(dǎo)。energy-ac-optimal-power-flow顯示了-14.3個百分點的下降，表明對于模型已經(jīng)有強先驗的任務(wù)，技能包可能增加不必要的復(fù)雜性。

這些失敗模式強調(diào)了技能包設(shè)計和選擇的重要性。并非所有任務(wù)都能從外部指導(dǎo)中受益，特別是那些模型已經(jīng)表現(xiàn)良好的任務(wù)。技能包也可能引入自己的復(fù)雜性和潛在錯誤，特別是當(dāng)它們與代理的現(xiàn)有知識或偏好沖突時。

十、成本效益分析：技能包的經(jīng)濟價值

研究還分析了技能包使用的令牌使用和成本影響。令牌使用數(shù)據(jù)顯示，技能包將輸入令牌使用增加6-13%，這反映了技能包文檔的額外上下文。然而，每次試驗的成本增加是適度的，從每次試驗增加$0.03（Gemini 3 Flash）到$0.22（GPT-5.2）。

有趣的是，Gemini 3 Pro在配合技能包時顯示了令牌使用的輕微減少（-6%），表明技能包幫助Pro更有效地解決任務(wù)，減少探索輪次。這種模式在高級模型中可能更常見，它們能夠更有效地利用提供的指導(dǎo)。

成本-性能權(quán)衡分析顯示技能包將成本-性能前沿向上移動。Gemini 3 Flash每任務(wù)消耗的輸入令牌比Gemini 3 Pro多2.3倍（配合技能包時1.08M對0.47M），這是一種補償策略，較小模型用迭代探索替代推理深度。在標(biāo)準API定價下，F(xiàn)lash的4倍更低每令牌成本超過了較高令牌量，使Flash每任務(wù)便宜44%（$0.55對$0.98）。

緩存效率分析顯示所有模型都有高緩存命中率：GPT-5.2為91-92%，Gemini 3 Pro為75-76%，Gemini 3 Flash為63-67%。Claude Code模型顯示>99%的緩存率，反映了積極的提示緩存。在實踐中，緩存定價將實際成本降低到表中顯示的標(biāo)準費率的50-90%。

這些發(fā)現(xiàn)表明，雖然技能包確實增加了計算成本，但性能改進（平均+16.2個百分點）大大超過了邊際成本增加。對于大多數(shù)應(yīng)用，技能包代表了一個有吸引力的成本-效益權(quán)衡。

說到底，這項研究為我們揭示了AI代理技能包的真實面貌。就像給工匠配備專業(yè)工具箱一樣，精心設(shè)計的技能包確實能顯著提升AI代理的工作能力，平均提升16.2個百分點的成功率。但這種提升并不是萬能的靈丹妙藥，不同領(lǐng)域、不同任務(wù)、不同代理系統(tǒng)的效果差異巨大。更重要的是，AI代理目前還無法為自己可靠地編寫有效的"使用手冊"，人工精心編寫的技能包仍然是必需品。

這項研究的價值不僅在于證明了技能包的有效性，更在于揭示了其局限性和設(shè)計原則。"少即是多"的哲學(xué)、聚焦而非全面的指導(dǎo)、適量而非過多的技能包數(shù)量，這些都是實用的指導(dǎo)原則。同時，研究也提醒我們，不是所有任務(wù)都需要技能包，有時候過多的指導(dǎo)反而會幫倒忙。

歸根結(jié)底，這項研究為AI代理技能包的發(fā)展指明了方向：精心策劃的人工技能包在當(dāng)前技術(shù)水平下仍然不可替代，但隨著技術(shù)進步，自動化技能包生成和更智能的技能包應(yīng)用可能會成為現(xiàn)實。對于普通用戶而言，這意味著在選擇和使用AI代理工具時，了解其技能包支持情況將成為一個重要考慮因素。這項研究為整個行業(yè)提供了寶貴的實證基礎(chǔ)，有興趣的讀者可以通過論文編號arXiv:2602.12670v1查詢完整研究內(nèi)容。

Q&A

Q1：什么是AI代理的技能包？

A：AI代理的技能包就像是專門的培訓(xùn)手冊，它不是簡單的知識介紹，而是詳細的操作指南，告訴AI代理在特定情況下應(yīng)該怎么做、使用哪些工具、按什么步驟執(zhí)行。比如在處理Excel數(shù)據(jù)時，技能包會提供具體的API調(diào)用方法和操作步驟，而不只是解釋什么是Excel。

Q2：技能包能讓AI代理提升多少能力？

A：根據(jù)SkillsBench研究，精心編寫的技能包平均能讓AI代理的成功率提升16.2個百分點。但不同領(lǐng)域差異巨大，醫(yī)療保健領(lǐng)域能提升51.9個百分點，而軟件工程領(lǐng)域只提升4.5個百分點。有些情況下技能包甚至?xí)档托阅堋?/p>

Q3：AI代理能自己編寫技能包嗎？

A：目前不行。研究發(fā)現(xiàn)當(dāng)AI代理嘗試自己編寫技能包時，平均性能反而下降了1.3個百分點。AI雖然擅長使用別人編寫的指南，但還無法可靠地為自己創(chuàng)作有效的操作手冊，人工精心編寫的技能包仍然是必需的。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.