国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

研究發(fā)現(xiàn):AI 智能體無(wú)法自學(xué)新技能,只有人類才能教會(huì)它們技能

0
分享至

據(jù)《The Register》報(bào)道,授人以魚(yú)不如授人以漁,對(duì) AI 智能體而言也是同理:教會(huì)它如何搜集信息,它就能自己持續(xù)獲取數(shù)據(jù);但如果讓它完全自主摸索,結(jié)果往往只會(huì)更糟。

AI 智能體是一類機(jī)器學(xué)習(xí)模型(例如 Claude Opus 4.6),它們可通過(guò) CLI 控制層(例如 Claude Code)調(diào)用其他軟件,并以迭代循環(huán)的方式運(yùn)行。這類智能體可被指派處理各類任務(wù),其中一些可能并不在其訓(xùn)練數(shù)據(jù)覆蓋范圍內(nèi)。

當(dāng)缺乏相應(yīng)訓(xùn)練時(shí),我們可以為智能體賦予新的“技能”——這些技能本質(zhì)上是補(bǔ)充的參考資料,用于讓智能體具備特定領(lǐng)域的能力。此處所說(shuō)的“技能”,包括指令、元數(shù)據(jù),以及智能體加載用于獲取程序性知識(shí)的腳本、模板等其他資源。



例如,我們可以通過(guò)一項(xiàng)技能指導(dǎo) AI 智能體如何處理 PDF 文件,這項(xiàng)技能包含 Markdown 文本、代碼、依賴庫(kù)以及相關(guān) API 參考資料。盡管智能體從訓(xùn)練數(shù)據(jù)中可能已掌握一定處理方法,但只有在更具體的指導(dǎo)下,它的表現(xiàn)才會(huì)更出色。

但近期一項(xiàng)名為《SkillsBench:基準(zhǔn)測(cè)試智能體技能在多任務(wù)中的表現(xiàn)效果》的研究表明:要求智能體自主生成這類技能,結(jié)果往往令人失望。人工智能中的“智能”成分,在一定程度上被夸大了(The "intelligence" part of artificial intelligence is somewhat overstated)。

至少對(duì)于大語(yǔ)言模型(LLM)在推理階段而言確實(shí)如此——也就是訓(xùn)練完成后的實(shí)際使用階段,而非訓(xùn)練過(guò)程本身。



全新標(biāo)桿

某些機(jī)器學(xué)習(xí)形式(如深度學(xué)習(xí))的應(yīng)用方式,可使神經(jīng)網(wǎng)絡(luò)模型在電子游戲等特定領(lǐng)域任務(wù)中不斷提升性能。

AI 智能體呈現(xiàn)爆發(fā)式增長(zhǎng)——例如 Anthropic 的 Claude Code、谷歌的 Gemini CLI、OpenAI 的 Codex CLI,這推動(dòng)了用于增強(qiáng)智能體能力的各類技能快速發(fā)展,技能庫(kù)如雨后春筍般不斷涌現(xiàn)。

而鑒于 OpenClaw 智能體已在 Moltbook 自動(dòng)化社區(qū)網(wǎng)絡(luò)中實(shí)現(xiàn)相互學(xué)習(xí),如今早已到了該評(píng)估它們學(xué)習(xí)效果究竟如何的時(shí)候(And given how OpenClaw agents have been teaching each other in the Moltbook automated community network, it seems well past time to figure out how good a job they do at it)。



迄今為止,尚無(wú)統(tǒng)一方法來(lái)檢驗(yàn)這些技能是否能兌現(xiàn)其承諾。為此,一支由40名計(jì)算機(jī)科學(xué)家組成的團(tuán)隊(duì)著手開(kāi)發(fā)了一套基準(zhǔn)測(cè)試,用以評(píng)估智能體技能在推理過(guò)程中如何提升性能。

該團(tuán)隊(duì)成員來(lái)自亞馬遜、BenchFlow、字節(jié)跳動(dòng)、富士康、Zennity等企業(yè),以及卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)、加州大學(xué)伯克利分校、牛津大學(xué)等多所高校。

這項(xiàng)研究由智能體評(píng)測(cè)初創(chuàng)公司BenchFlow的創(chuàng)始人李祥一(音譯)牽頭,研究團(tuán)隊(duì)開(kāi)發(fā)了名為SkillsBench的測(cè)試,并在上述預(yù)印本論文中闡述了相關(guān)研究成果。



研究人員針對(duì)7種智能體模型配置、84項(xiàng)任務(wù)、共7308條執(zhí)行軌跡展開(kāi)了分析——每條軌跡代表一個(gè)智能體在特定技能條件下嘗試解決單個(gè)任務(wù)的過(guò)程。

團(tuán)隊(duì)測(cè)試了三種條件:無(wú)技能、人工精選技能和自主生成技能(Three conditions were tested: no skills, curated skills, and self-generated skills)。

使用人工設(shè)計(jì)的精選技能的智能體,其任務(wù)完成率平均比無(wú)技能智能體高出16.2%,不過(guò)數(shù)據(jù)波動(dòng)較大(The agents using curated skills – designed by people – completed tasks 16.2 percent more frequently than no-skill agents on average, though with high variance)。



研究中列舉了一個(gè)洪水風(fēng)險(xiǎn)分析任務(wù)的例子:不具備技能的智能體未采用合適的統(tǒng)計(jì)方法,通過(guò)率僅為2.9%

而在配備精選技能后——即指導(dǎo)智能體使用皮爾遜Ⅲ型概率分布、遵循美國(guó)地質(zhì)調(diào)查局標(biāo)準(zhǔn)方法,并明確調(diào)用SciPy函數(shù)與參數(shù)解讀等細(xì)節(jié)——其任務(wù)通過(guò)率提升至80%。

從具體知識(shí)領(lǐng)域來(lái)看,醫(yī)療健康領(lǐng)域(提升51.9個(gè)百分點(diǎn))和制造業(yè)領(lǐng)域(提升41.9個(gè)百分點(diǎn))的人工定制技能對(duì)AI智能體幫助最大,而數(shù)學(xué)(提升6.0個(gè)百分點(diǎn))和軟件工程(提升4.5個(gè)百分點(diǎn))相關(guān)技能帶來(lái)的提升較小。



研究作者解釋道,這是因?yàn)樾枰獙I(yè)知識(shí)的領(lǐng)域在訓(xùn)練數(shù)據(jù)中占比通常偏低,因此由人類為這些領(lǐng)域的智能體補(bǔ)充技能是合理有效的。

并且在補(bǔ)充技能時(shí),少即是多:只包含少量(2–3個(gè))模塊的技能,效果遠(yuǎn)優(yōu)于大量數(shù)據(jù)堆砌(And when doing so, less is more – skills with only a few (2-3) modules performed better than massive data dumps)。

這一點(diǎn)同樣適用于模型規(guī)模——經(jīng)過(guò)人工整理的技能能讓小模型在任務(wù)完成率上越級(jí)表現(xiàn)(That applies to model scale too – curated skills help smaller models punch above their weight class in terms of task completion)。



配備技能的 Anthropic Claude Haiku 4.5 模型(27.7%)表現(xiàn)優(yōu)于無(wú)技能的 Haiku 4.5(11%),也優(yōu)于無(wú)技能的 Claude Opus 4.5(22%)。

當(dāng)研究人員讓智能體自學(xué)技能時(shí),要求它們:

- 分析任務(wù)需求、領(lǐng)域知識(shí)和所需API;

- 編寫(xiě) 1–5 個(gè)模塊化技能文檔來(lái)解決任務(wù);

- 將每個(gè)技能保存為 Markdown 文件;

- 再利用生成的參考資料完成任務(wù)。



結(jié)果是:嘗試自學(xué)的智能體,表現(xiàn)反而比完全不嘗試自學(xué)的更差(Agents that tried this did worse than if they hadn't tried at all)。

至少就目前而言,人工智能革命無(wú)法完全自動(dòng)化——機(jī)器仍需要人類導(dǎo)師為其指引正確方向。

聲明:取材網(wǎng)絡(luò),謹(jǐn)慎辨別

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
74歲陳凱歌在三亞豪宅過(guò)年,穿5萬(wàn)元皮鞋戴大金表,臉上有老年斑

74歲陳凱歌在三亞豪宅過(guò)年,穿5萬(wàn)元皮鞋戴大金表,臉上有老年斑

離離言幾許
2026-02-25 16:07:01
深夜,全線大跌!“大空頭”空襲!

深夜,全線大跌!“大空頭”空襲!

券商中國(guó)
2026-02-27 07:21:56
梅西:我有機(jī)會(huì)見(jiàn)一些大人物!卻因?yàn)闊o(wú)法溝通感覺(jué)無(wú)知!

梅西:我有機(jī)會(huì)見(jiàn)一些大人物!卻因?yàn)闊o(wú)法溝通感覺(jué)無(wú)知!

氧氣是個(gè)地鐵
2026-02-26 21:37:09
35歲中國(guó)音樂(lè)家在美身亡:路邊換輪胎不幸被卡車撞倒,曾是中美音樂(lè)交流中堅(jiān)力量

35歲中國(guó)音樂(lè)家在美身亡:路邊換輪胎不幸被卡車撞倒,曾是中美音樂(lè)交流中堅(jiān)力量

紅星新聞
2026-02-26 12:36:32
廣西給物業(yè)公司發(fā)通牒:限期在3月15日前

廣西給物業(yè)公司發(fā)通牒:限期在3月15日前

廣西地產(chǎn)
2026-02-26 16:40:05
今天凌晨,5胞胎(1男4女)在武漢出生,“六千萬(wàn)分之一的奇跡”

今天凌晨,5胞胎(1男4女)在武漢出生,“六千萬(wàn)分之一的奇跡”

一口娛樂(lè)
2026-02-27 00:30:23
終于!DDR5開(kāi)始降價(jià)了!

終于!DDR5開(kāi)始降價(jià)了!

中國(guó)半導(dǎo)體論壇
2026-02-26 20:57:18
一覺(jué)醒來(lái),中國(guó)斯諾克3勝2負(fù)!吳宜澤迎德比,趙心童無(wú)緣3連冠!

一覺(jué)醒來(lái),中國(guó)斯諾克3勝2負(fù)!吳宜澤迎德比,趙心童無(wú)緣3連冠!

劉姚堯的文字城堡
2026-02-27 07:40:04
廣東主持區(qū)志航現(xiàn)狀:66歲很油膩,轉(zhuǎn)行成行為藝術(shù)家,女兒很漂亮

廣東主持區(qū)志航現(xiàn)狀:66歲很油膩,轉(zhuǎn)行成行為藝術(shù)家,女兒很漂亮

白面書(shū)誏
2026-02-26 19:24:47
最后10天:2026年北京搖號(hào)倒計(jì)時(shí),中簽率背后殘酷真相與破局之道

最后10天:2026年北京搖號(hào)倒計(jì)時(shí),中簽率背后殘酷真相與破局之道

小怪吃美食
2026-02-26 18:06:17
為何毛澤東說(shuō)誰(shuí)投降都能談,唯獨(dú)何應(yīng)欽,絕對(duì)不行?

為何毛澤東說(shuō)誰(shuí)投降都能談,唯獨(dú)何應(yīng)欽,絕對(duì)不行?

老謝談史
2026-02-26 20:35:01
蔚盛斌,新職明確

蔚盛斌,新職明確

上觀新聞
2026-02-26 22:03:15
還沒(méi)有開(kāi)始流行,就逐漸被“淘汰”的5個(gè)電器,建議別跟風(fēng)買(mǎi)!

還沒(méi)有開(kāi)始流行,就逐漸被“淘汰”的5個(gè)電器,建議別跟風(fēng)買(mǎi)!

家居設(shè)計(jì)師蘇哥
2026-02-13 10:57:27
Block美股盤(pán)后漲22%

Block美股盤(pán)后漲22%

每日經(jīng)濟(jì)新聞
2026-02-27 05:21:08
董璇曬溫馨全家福,小酒窩顏值太出眾,小小年紀(jì)美成小公主

董璇曬溫馨全家福,小酒窩顏值太出眾,小小年紀(jì)美成小公主

風(fēng)月得自難尋
2026-02-26 13:29:54
我國(guó)唯一未完全解放的省份,福建,到底有多牛!

我國(guó)唯一未完全解放的省份,福建,到底有多牛!

小虎新車推薦員
2026-02-26 14:22:19
曼城5500萬(wàn)坐穿板凳!19歲小將打臉天價(jià)引援,真相太扎心

曼城5500萬(wàn)坐穿板凳!19歲小將打臉天價(jià)引援,真相太扎心

卿子書(shū)
2026-02-26 08:29:54
“陰偉達(dá)”來(lái)了?首個(gè)兒童小陰莖專用藥獲批

“陰偉達(dá)”來(lái)了?首個(gè)兒童小陰莖專用藥獲批

中國(guó)新聞周刊
2026-02-26 19:01:05
三大艦隊(duì)已無(wú)法滿足需求?一旦組建第四艦隊(duì),駐地在哪最為精妙?

三大艦隊(duì)已無(wú)法滿足需求?一旦組建第四艦隊(duì),駐地在哪最為精妙?

燦若銀爛
2026-02-27 07:58:22
摩擦升級(jí)!無(wú)視外交部門(mén)召見(jiàn),美大使被法國(guó)強(qiáng)硬反制

摩擦升級(jí)!無(wú)視外交部門(mén)召見(jiàn),美大使被法國(guó)強(qiáng)硬反制

環(huán)球網(wǎng)資訊
2026-02-26 06:54:07
2026-02-27 09:00:49
談點(diǎn)世
談點(diǎn)世
說(shuō)說(shuō)國(guó)內(nèi)國(guó)外,聊聊世間百態(tài)。
2959文章數(shù) 4383關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)業(yè)績(jī)亮眼仍跌5% 兩大因素成核心隱憂

頭條要聞

牛彈琴:中國(guó)的兩個(gè)鄰國(guó)大打出手 傷亡相當(dāng)慘重

頭條要聞

牛彈琴:中國(guó)的兩個(gè)鄰國(guó)大打出手 傷亡相當(dāng)慘重

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂(lè)要聞

向華強(qiáng)公開(kāi)表態(tài) 財(cái)產(chǎn)留給兒媳婦郭碧婷

財(cái)經(jīng)要聞

魅族手機(jī),終成棄子?

汽車要聞

40歲的吉利,不惑于內(nèi)外

態(tài)度原創(chuàng)

教育
親子
游戲
公開(kāi)課
軍事航空

教育要聞

圓內(nèi)接四邊形第2講,一個(gè)視頻學(xué)會(huì)!

親子要聞

孩子咳嗽總不好,家長(zhǎng)的治療方向錯(cuò)了!

Steam Deck滿四歲!繼任機(jī)型依然杳無(wú)音信

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國(guó)11架F-22隱形戰(zhàn)機(jī)抵達(dá)以色列

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版