国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

Claude悄悄更新了Skills生成器,這絕對是一次史詩級(jí)升級(jí)。

0
分享至

  上周直播的時(shí)候,發(fā)現(xiàn)Anthropic的skills倉庫居然有更新了。

  點(diǎn)進(jìn)去一看,然后居然發(fā)現(xiàn)了一個(gè)超級(jí)剛需的Skills迎來了更新。

  就是這個(gè),甚至可以說是整個(gè)Skills生態(tài)的基石。

  Skill-creator。

  可以說,現(xiàn)在小龍蝦的能力能這么強(qiáng),有一半的原因都要?dú)w功于Skills,而這些Skills能被創(chuàng)造出來,幾乎都要?dú)w功于這個(gè)母Skills,Skill-creator。

  我相信,任何一個(gè)看過我們過去關(guān)于Skills的文章,或者玩過Skills的朋友,都絕對不可能對這個(gè)Skill-creator陌生。

  簡單總結(jié)就是,這是Anthropic官方出的Skills生成器。

  你可以用嘴描述出你的需求,然后直接用Skill-creator,幫你做成一個(gè)Skill。

  如果有不了解的,可以去看一下我們過去的這一篇文章:自認(rèn)為寫的還是比較詳細(xì)的。

  這周終于有時(shí)間,詳細(xì)翻了一下這次更新的Skill-creator的文檔,然后發(fā)現(xiàn),這次真的可以說,是史詩級(jí)更新也不為過,強(qiáng)了太多太多了。

  

  所以我覺得,值得寫一篇文章,來給大家聊聊,這次Skill-creator更新的新特性和新功能。

  真的,所有的skills,都值得重新優(yōu)化一遍。

  非常簡單的說,這次他們一口加了4個(gè)全新的能力,分別是:

  1. 評(píng)估系統(tǒng),跑完直接告訴你這個(gè)skill到底行不行。

  2. 基準(zhǔn)測試,把通過率、耗時(shí)、token用量,全都量化。

  3. 多代理并行測試,每個(gè)測試在干凈的環(huán)境里獨(dú)立跑,支持A/B盲評(píng),結(jié)果不互相污染。

  4. 描述調(diào)優(yōu),可以自動(dòng)幫你改skill描述,該觸發(fā)的觸發(fā),不該觸發(fā)的就別亂觸發(fā)。

  之前的Skill-creator其實(shí)一直有個(gè)痛點(diǎn),就是你生成完的Skills,其實(shí)是個(gè)黑盒,你完全不知道,這個(gè)Skills到底好不好用,它的質(zhì)量怎么樣,它的觸發(fā)機(jī)制合不合理。

  用我們現(xiàn)代經(jīng)常提的工業(yè)化體系來說,就是缺少了一個(gè)很重要的東西,評(píng)估機(jī)制。

  評(píng)估太重要了,一個(gè)好的評(píng)估,是真的可以引領(lǐng)方向的。

  而現(xiàn)在,新版的Skill-creator,直接把整個(gè)評(píng)估體系,全都補(bǔ)上了。

  我極力推薦大家,一定要更新到最新版。

  更新方式也究極無敵簡單,你直接把這段話,發(fā)給你的Agent就行,無論是Claude code、OpenClaw、OpenCode等等等等:

  https://github.com/anthropics/skills/tree/main/skills/skill-creator,這個(gè)skills更新了,幫我更新到最新版本

  對,就這么一句話。

  然后你的Agent,就會(huì)自己去更新了。

  

  很快,就更新完了。

  

  我用一個(gè)案例,來給大家演示一下新版Skill-creator的能力。

  在之前有一篇文章中,我把Github上的yt-dlp做成了一個(gè)Skill,能從YouTube、B站等各種視頻網(wǎng)站下載視頻。

  

  但其實(shí)我們后來發(fā)現(xiàn),光能下載視頻還不夠。

  我還希望拿到視頻鏈接之后,能直接生成文字版的講稿。

  而且如果是英文或其他語言的視頻,最好能直接給我中英雙語的講稿文檔。

  所以正好,借著這個(gè)機(jī)會(huì),我就用skill-creator又搓了一個(gè)新skill。

  提示詞很簡單。

  我想創(chuàng)建一個(gè)skill,我希望能夠?qū)崿F(xiàn)我給了一個(gè)視頻鏈接,它能夠把文字版的講稿發(fā)給我,如果是別的語言,最好是把原語言版和中文版的講稿文檔給我。

  它會(huì)先問你幾個(gè)問題,確認(rèn)需求細(xì)節(jié),然后開始幫你設(shè)計(jì)整個(gè)skill。

  

  大概3到5分鐘,這個(gè)Skill就設(shè)計(jì)完了。

  我拿一個(gè)OpenClaw創(chuàng)始人的YouTube訪談視頻來試一下。

  

  就給了一個(gè)YouTube的鏈接。

  五分鐘后,中文版的講稿就出來了。

  

  但是,其實(shí)有個(gè)問題。。。

  這一大坨文字堆在一起,字又小又?jǐn)D。

  根本沒法看。

  這時(shí)候你就可以繼續(xù)對話,讓它給你優(yōu)化,幫你改進(jìn)這個(gè)skill。

  

  新版的Skill-creator,在改進(jìn)的能力上,也有一些提升。

  改進(jìn)之后的效果:

  

  幾乎完美。

  排版清晰,段落分明,這才像個(gè)文檔該有的樣子。

  但這還沒完。

  但這個(gè)時(shí)候,一個(gè)頭疼的問題就來了,我害怕我的skills觸發(fā)會(huì)打架。

  因?yàn)槲椰F(xiàn)在有兩個(gè)skill都跟視頻鏈接相關(guān)。

  一個(gè)是yt-dlp,負(fù)責(zé)下載視頻到本地。

  一個(gè)是剛做的講稿生成,負(fù)責(zé)把視頻轉(zhuǎn)成文字。

  兩個(gè)skill的觸發(fā)條件都是給一個(gè)視頻鏈接,我害怕他們會(huì)打架,就是出現(xiàn)該觸發(fā)的不觸發(fā),不該觸發(fā)的亂觸發(fā)。

  那就可以使用Skill-creator的評(píng)估體系了,讓它來幫你,進(jìn)行優(yōu)化skill描述。

  它受會(huì)先讀取你當(dāng)前skill的描述,然后告訴你接下來要做四件事:

  

  自動(dòng)生成兩組查詢,應(yīng)觸發(fā)的10條和不應(yīng)觸發(fā)的10條。

  設(shè)計(jì)得很有意思。

  故意把邊界情況都擺進(jìn)去,逼模型在模糊地帶做判斷。

  

  然后,直接生成了一個(gè)網(wǎng)頁,讓你確認(rèn),特別牛逼。

  真的,我用到的時(shí)候都驚呆了。

  

  所有查詢排在界面里,每一條右邊有個(gè)開關(guān),標(biāo)著是否應(yīng)該觸發(fā)。

  你可以逐條看一遍,覺得哪條判斷不對,直接關(guān)就行。

  打個(gè)比方,第三條這種情況,我不想讓它再觸發(fā)了,我就直接讓它關(guān)掉就行。

  

  然后還有不應(yīng)該觸發(fā)的10條,我看了一遍,沒啥問題。

  

  所有的都確認(rèn)之后,這時(shí)候,你點(diǎn)導(dǎo)出評(píng)估集,就完事啦。

  確認(rèn)完樣本之后,優(yōu)化循環(huán)會(huì)在后臺(tái)啟動(dòng),最多跑5輪迭代。

  每一輪做三件事來幫你進(jìn)行測試和評(píng)估,整個(gè)過程大約需要10-20分鐘。

  

  它害會(huì)定期匯報(bào)進(jìn)度。

  跑完之后就是你就能看到一個(gè)巨型表格。

  

  每一列是一個(gè)查詢樣本,每一行是一個(gè)迭代版本的描述。

  綠色勾對勾表示觸發(fā)成功,紅色叉×表示沒觸發(fā)。

  

  藍(lán)色列是測試集,其余是訓(xùn)練集。

  

  它把樣本分成60%訓(xùn)練集和40%測試集,在訓(xùn)練集上迭代優(yōu)化,最終用測試集上的表現(xiàn)來選,防止過擬合。

  跑完之后,最優(yōu)的描述會(huì)自動(dòng)寫回你的SKILL.md,全程不用你動(dòng)手。

  Anthropic官方在自己6個(gè)文檔類skill上測了一下,5個(gè)觸發(fā)率都有提升。

  僅僅就用新版的skill-creator優(yōu)化了一下,真的很牛逼。

  

  通過這一步,能大大提升你的Skills的觸發(fā)準(zhǔn)確率。

  但觸發(fā)對了,并不等于OK。

  所以,你的Skill裝上并且能穩(wěn)定觸發(fā)之后,到底在實(shí)際任務(wù)上表現(xiàn)如何,這個(gè)能力,也還要評(píng)估一下。

  我就繼續(xù)拿這個(gè)剛做好的skill來跑一遍,帶你大家看看整個(gè)過程。

  直接對剛剛那個(gè)skill進(jìn)行一下評(píng)估。

  

  它會(huì)先把你的skill文件完整讀一遍,搞清楚這個(gè)skill的核心流程是什么。

  

  然后它會(huì)問你:你更想測哪個(gè)方面?

  我選了全面評(píng)估。

  它根據(jù)skill的功能,自動(dòng)設(shè)計(jì)了三類測試場景,同時(shí)設(shè)計(jì)了量化驗(yàn)收標(biāo)準(zhǔn)。

  

  確認(rèn)方案之后,它一次性啟動(dòng)了4個(gè)獨(dú)立子代理,同時(shí)跑。

  

  這次4個(gè)并行的Agent來進(jìn)行測試,就很香了。

  以前其實(shí)你也可以做一些簡單的評(píng)估,但是,最大的問題,就是會(huì)按順序跑,一個(gè)跑完再跑下一個(gè)。

  但是大家都知道,上下文管理有多重要,前一個(gè)任務(wù)積累的上下文,會(huì)污染后一個(gè)的結(jié)果。

  你以為是skill的功勞,但,其實(shí)完全是對話歷史幫了忙。

  這次的評(píng)估,就對味了很多。

  每個(gè)代理都在完全干凈的環(huán)境里獨(dú)立運(yùn)行,有自己的token 計(jì)數(shù)和時(shí)間指標(biāo)。

  互相之間零交叉。

  結(jié)果更快,數(shù)據(jù)更干凈。

  等待的時(shí)候,它也順手就把量化評(píng)分腳本也準(zhǔn)備好了。

  等測試結(jié)果回來之后,就直接自動(dòng)檢查格式是否符合要求,很多小細(xì)節(jié)全都在里面。

  

  測試跑完,瀏覽器會(huì)里彈出評(píng)估查看頁面,有兩個(gè)標(biāo)簽頁。

  輸出標(biāo)簽頁,可以直接看每個(gè)測試用例的輸出。

  下面還有一個(gè)反饋框,你可以直接標(biāo)注哪里不對、哪里需要改進(jìn)。

  這些反饋會(huì)被存起來,下次改進(jìn)skill的時(shí)候直接用。

  

  另一個(gè)是基準(zhǔn)測試標(biāo)簽頁,可以看有skill vs 無skill。

  通過量化對比,一目了然。

  

  數(shù)據(jù)這塊,也是極度量化。

  

  有skill的通過率100%,無skill基線9%,差值91.5%。

  費(fèi)用上,有skill每次大約4000token,無skill1750token,差了2250。

  但這是skill帶來的額外消耗,對比產(chǎn)出的結(jié)果,值得。

  但評(píng)估的價(jià)值遠(yuǎn)不止于此。

  Anthropic官方也舉了個(gè)例子。

  他們有個(gè)PDF skill,之前在處理表格時(shí)會(huì)出錯(cuò)。

  Claude需要把文字精確的放在特定坐標(biāo)上,但因?yàn)闆]有明確的字段做引導(dǎo),經(jīng)常放歪。

  這個(gè)問題在評(píng)估過程中被發(fā)現(xiàn),再進(jìn)行修復(fù)改進(jìn)定位邏輯后,問題就解決了。

  

  也就是說,找到問題之后不用從頭來過。

  評(píng)估結(jié)果會(huì)存在本地,下次你用skill-creator改進(jìn)這個(gè)skill的時(shí)候,它會(huì)把上次標(biāo)注的問題直接帶進(jìn)去,針對那里改。

  改完再跑一遍評(píng)估,看有沒有提升。

  測試、發(fā)現(xiàn)、修、再測,這個(gè)循環(huán)是完整的。

  Anthropic把軟件開發(fā)的一些嚴(yán)謹(jǐn)做法,比如測試、基準(zhǔn)、迭代改進(jìn)等等,這次引入Skills的創(chuàng)作流程。

  真的,牛逼太多了。

  這絕對對于所有人來說,都是一個(gè)史詩級(jí)增強(qiáng)。

  你要知道,小龍蝦為什么那么強(qiáng),能做那么多的事,其實(shí)真不是因?yàn)樗旧碛卸嗯1?,純粹是因?yàn)?,它身上掛的SKills,太多了,那都是一個(gè)一個(gè)的技能包。

  可以說,Skills,就是整個(gè)Agent未來大繁榮生態(tài)的基石,而我自己,也一直極力的看好和強(qiáng)力推廣各種各樣的Skills。

  所以,我極度建議,大家把Skill-creator更新到最新版,然后把你自己所有的Skills,都進(jìn)行優(yōu)化和評(píng)估一遍。

  當(dāng)然,你得先分清楚,你寫的Skills是哪種。

  因?yàn)楸举|(zhì)上,Skills其實(shí)分兩種。

  第一種是能力提升型。

  就是教Claude做它本來不擅長的事。

  比如官方的前端設(shè)計(jì)skill、文檔創(chuàng)建skill,里面寫了大量技巧,是你光靠Prompt根本拿不到的效果。

  我們大多數(shù)人自己搓的skill,基本也都是這類。

  第二種官方叫編碼偏好型。

  就是告訴Claude按你的規(guī)矩來。

  Claude本身每一步都能做,但你的skill把這些步驟按你團(tuán)隊(duì)的流程串起來了。

  比如一個(gè)會(huì)議紀(jì)要整理skill,按你們公司固定的格式,自動(dòng)把錄音轉(zhuǎn)成帶行動(dòng)項(xiàng)的文檔。

  或者一個(gè)周報(bào)生成skill,從各個(gè)平臺(tái)里拉數(shù)據(jù),按你要的格式排好。

  你可以把這種,理解成一個(gè)Workflow,就是一個(gè)工作流。

  對這兩種類型,評(píng)估的方向會(huì)稍微不太一樣。

  對于能力提升型,測的是模型更新之后這個(gè)skill還有沒有存在的必要。

  用A/B測試對比,有skill和沒skill各跑一次。

  結(jié)果如果差不多,這個(gè)skill就可以退休了。

  

  編碼偏好型測的是另一件事,它有沒有老老實(shí)實(shí)按你的流程走?

  有沒有漏步驟?有沒有自作主張改了順序?有沒有忘了你特別說過的某個(gè)要求?

  所以會(huì)稍稍有一些區(qū)別,這個(gè)大家在自己評(píng)估的時(shí)候,可以注意一下。

  回頭想想,以前造完一個(gè)skill,其實(shí)也就是自我感覺良好。

  但說實(shí)話,全是黑盒,根本不知道該怎么評(píng)估。

  現(xiàn)在就舒服多了。

  評(píng)估跑一遍,數(shù)據(jù)擺出來,好不好用,一眼就見真章。

  所有的Skills,真的都值得重新優(yōu)化和評(píng)估一遍。

  Skills生態(tài)。

  感覺又要迎來一波大繁榮了。

  以上,既然看到這里了,如果覺得不錯(cuò),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?~謝謝你看我的文章,我們,下次再見。

  >/ 作者:卡茲克、可達(dá)

  >/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
造謠日本小學(xué)生拋尸案嫌疑人為“中國籍”,臺(tái)媒被“打臉”后道歉

造謠日本小學(xué)生拋尸案嫌疑人為“中國籍”,臺(tái)媒被“打臉”后道歉

觀察者網(wǎng)
2026-04-17 22:42:10
第2次開早香檳 22歲巨星脫衣慶祝+反遭絕平后哭了 熱刺真要降級(jí)了

第2次開早香檳 22歲巨星脫衣慶祝+反遭絕平后哭了 熱刺真要降級(jí)了

風(fēng)過鄉(xiāng)
2026-04-19 06:58:51
雷軍拼了!15小時(shí)直播1265公里只充一次電,京滬高速全程無剪輯

雷軍拼了!15小時(shí)直播1265公里只充一次電,京滬高速全程無剪輯

聽心堂
2026-04-17 10:37:54
車輛卸沙現(xiàn)場,一男性尸體隨沙料傾瀉而出!事發(fā)一攪拌站

車輛卸沙現(xiàn)場,一男性尸體隨沙料傾瀉而出!事發(fā)一攪拌站

南方都市報(bào)
2026-04-18 17:47:39
約基奇三雙穆雷16罰全中 掘金先勝森林狼 但這輪有搶七可能?

約基奇三雙穆雷16罰全中 掘金先勝森林狼 但這輪有搶七可能?

仰臥撐FTUer
2026-04-19 09:51:11
70歲畢彥君:北京養(yǎng)老,沒豪車沒保姆,工資卡上交,生活低調(diào)愜意

70歲畢彥君:北京養(yǎng)老,沒豪車沒保姆,工資卡上交,生活低調(diào)愜意

白面書誏
2026-04-11 16:57:15
全歐看不懂的豪賭!帶隊(duì)降級(jí)的孔帕尼,把拜仁焊成了歐洲頭號(hào)噩夢

全歐看不懂的豪賭!帶隊(duì)降級(jí)的孔帕尼,把拜仁焊成了歐洲頭號(hào)噩夢

老骾體育解說
2026-04-15 21:21:31
伊朗副外長:不接受臨時(shí)?;?要求徹底結(jié)束沖突

伊朗副外長:不接受臨時(shí)?;?要求徹底結(jié)束沖突

新京報(bào)
2026-04-18 09:23:04
騙走50億被央視曝光!用小鮮肉的血抗衰,“撈金女王”這次真栽了

騙走50億被央視曝光!用小鮮肉的血抗衰,“撈金女王”這次真栽了

翰飛觀事
2026-04-08 17:13:46
巴薩皇馬狂喜!馬競5-6爆冷丟國王杯:決賽輸給皇社 小蜘蛛2年0冠

巴薩皇馬狂喜!馬競5-6爆冷丟國王杯:決賽輸給皇社 小蜘蛛2年0冠

風(fēng)過鄉(xiāng)
2026-04-19 06:22:13
印度虧慘了!花80 億買全套中國設(shè)備,運(yùn)回國內(nèi)后直接落灰開不了

印度虧慘了!花80 億買全套中國設(shè)備,運(yùn)回國內(nèi)后直接落灰開不了

杰絲聊古今
2026-04-18 11:39:25
泰國潑水節(jié)7天交通事故共致242死,中國游客回憶:有人額頭受傷被擔(dān)架抬走,當(dāng)?shù)啬ν熊囀⑿校糠纸值朗謸頂D

泰國潑水節(jié)7天交通事故共致242死,中國游客回憶:有人額頭受傷被擔(dān)架抬走,當(dāng)?shù)啬ν熊囀⑿校糠纸值朗謸頂D

極目新聞
2026-04-18 10:45:22
犯規(guī)罰退一位!WSBK荷蘭站第一回合:張雪機(jī)車車手德比斯獲第4名

犯規(guī)罰退一位!WSBK荷蘭站第一回合:張雪機(jī)車車手德比斯獲第4名

全景體育V
2026-04-18 20:43:20
臺(tái)灣突然宣布重磅決定,島內(nèi)數(shù)萬人聯(lián)名反對,鄭麗文成眾望所歸

臺(tái)灣突然宣布重磅決定,島內(nèi)數(shù)萬人聯(lián)名反對,鄭麗文成眾望所歸

共工之錨
2026-04-19 00:08:10
岸田文雄出山!當(dāng)著30國的面,對國民發(fā)出呼吁:日本不能重演悲劇

岸田文雄出山!當(dāng)著30國的面,對國民發(fā)出呼吁:日本不能重演悲劇

愛意隨風(fēng)起呀
2026-04-19 05:07:49
7球?qū)Z+絕殺!皇馬三冠夢碎,姆巴佩15球成背景板

7球?qū)Z+絕殺!皇馬三冠夢碎,姆巴佩15球成背景板

茅塞盾開本尊
2026-04-18 12:44:10
八千里路云和月:看懂田家泰對玉嬌的私心,才知他為何認(rèn)太爺當(dāng)?shù)?>
    </a>
        <h3>
      <a href=阿纂看事
2026-04-18 19:32:13
阿薩德沒做到的事,朱拉尼完成了,美軍全部撤離,敘利亞浴火重生

阿薩德沒做到的事,朱拉尼完成了,美軍全部撤離,敘利亞浴火重生

浪子阿邴聊體育
2026-04-18 06:15:21
徐湖平幾近葬送臺(tái)北故宮文物回歸之路

徐湖平幾近葬送臺(tái)北故宮文物回歸之路

雪中風(fēng)車
2026-04-19 08:36:53
伊朗一仗點(diǎn)醒普京,俄羅斯或不再是世界大國,中國不是第二強(qiáng)?

伊朗一仗點(diǎn)醒普京,俄羅斯或不再是世界大國,中國不是第二強(qiáng)?

阿雹娛樂
2026-04-16 07:46:23
2026-04-19 10:40:49
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
501文章數(shù) 626關(guān)注度
往期回顧 全部

科技要聞

50分26秒!榮耀獲得人形機(jī)器人半馬冠軍

頭條要聞

牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結(jié)果印度遭了殃

頭條要聞

牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結(jié)果印度遭了殃

體育要聞

掘金擒狼開門紅:五花肉與小辣椒

娛樂要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
房產(chǎn)
手機(jī)
軍事航空

藝術(shù)要聞

鄭麗文大陸之行引發(fā)熱議,孫中山贈(zèng)對聯(lián)成焦點(diǎn)!

數(shù)碼要聞

聯(lián)想ThinkPlus 190W移動(dòng)電源開售,售價(jià)349元

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!??跇鞘校蝗粴⑷肷衩胤科?!

手機(jī)要聞

蘋果調(diào)整App Store更新入口位置,網(wǎng)頁端新增外區(qū)訪問限制!

軍事要聞

伊朗宣布關(guān)閉霍爾木茲海峽

無障礙瀏覽 進(jìn)入關(guān)懷版