国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

女王大學(xué)開(kāi)創(chuàng)性研究:AI智能助手的工具說(shuō)明書(shū)竟然99%都有問(wèn)題!

0
分享至


這項(xiàng)由加拿大女王大學(xué)計(jì)算機(jī)科學(xué)團(tuán)隊(duì)主導(dǎo)的開(kāi)創(chuàng)性研究,發(fā)表于2026年2月的ACM軟件工程期刊第1卷第1期,論文編號(hào)為arXiv:2602.14878v2。有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢完整論文。

當(dāng)我們使用智能手機(jī)上的各種應(yīng)用時(shí),每個(gè)應(yīng)用都會(huì)有簡(jiǎn)單明了的功能介紹,告訴我們這個(gè)應(yīng)用是干什么的、怎么用、有什么限制。但是在AI智能助手的世界里,情況卻大不相同。女王大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人震驚的現(xiàn)象:幾乎所有AI助手在使用外部工具時(shí),這些工具的說(shuō)明書(shū)都存在嚴(yán)重問(wèn)題。

現(xiàn)代AI助手就像是一個(gè)萬(wàn)能的數(shù)字管家,它們能夠幫我們查天氣、訂餐廳、發(fā)郵件、處理文檔等等。但是AI助手本身并不直接具備這些能力,就像一個(gè)管家需要使用各種家用工具一樣,AI助手需要調(diào)用各種外部工具來(lái)完成這些任務(wù)。這些外部工具通過(guò)一種叫做"模型上下文協(xié)議"(MCP)的標(biāo)準(zhǔn)來(lái)與AI助手進(jìn)行交流。

想象一下,如果你雇傭了一個(gè)新管家,但是家里所有電器的說(shuō)明書(shū)都寫(xiě)得模糊不清、缺乏關(guān)鍵信息,這個(gè)管家就很難正確使用這些工具為你服務(wù)。這就是目前AI助手面臨的困境。研究團(tuán)隊(duì)深入調(diào)查了856個(gè)不同的AI工具,涵蓋了103個(gè)不同的服務(wù)提供商,結(jié)果發(fā)現(xiàn)令人震驚的事實(shí):超過(guò)97%的工具說(shuō)明書(shū)都存在各種問(wèn)題。

這些問(wèn)題就像是一個(gè)個(gè)"壞味道",讓AI助手在選擇和使用工具時(shí)經(jīng)常出錯(cuò)。研究團(tuán)隊(duì)把這些問(wèn)題稱為"工具描述異味",就像代碼中的"代碼異味"一樣,雖然不會(huì)讓系統(tǒng)完全崩潰,但會(huì)嚴(yán)重影響效率和準(zhǔn)確性。

具體來(lái)說(shuō),這些異味主要表現(xiàn)在六個(gè)方面。首先是"目的不明"的問(wèn)題,有56%的工具說(shuō)明書(shū)沒(méi)有清楚地說(shuō)明這個(gè)工具到底是用來(lái)做什么的。這就像是你買了一個(gè)電器,但是說(shuō)明書(shū)上只寫(xiě)著"這是一個(gè)設(shè)備",卻不告訴你它是用來(lái)做什么的。

更嚴(yán)重的是,有89.3%的工具缺乏使用指導(dǎo),也就是說(shuō)它們沒(méi)有告訴AI助手什么時(shí)候應(yīng)該使用這個(gè)工具,什么時(shí)候不應(yīng)該使用。這就像是給你一把錘子,但是不告訴你什么情況下用錘子,什么情況下應(yīng)該用螺絲刀。

同時(shí),89.8%的工具沒(méi)有說(shuō)明自己的局限性,也就是不告訴AI助手這個(gè)工具不能做什么、在什么情況下可能會(huì)失效。這就像是一輛汽車的說(shuō)明書(shū)沒(méi)有告訴你它不能在水中行駛、不能承載超過(guò)一定重量的貨物。

另外,84.3%的工具對(duì)于輸入?yún)?shù)的解釋很模糊,79.1%的工具說(shuō)明書(shū)過(guò)于簡(jiǎn)單或不完整,77.9%的工具在提供使用例子方面存在問(wèn)題。這就像是烹飪食譜只告訴你需要"一些鹽"和"一些糖",卻不說(shuō)具體需要多少,也不提供完整的制作步驟。

研究團(tuán)隊(duì)為了驗(yàn)證這些問(wèn)題的影響,進(jìn)行了一個(gè)有趣的實(shí)驗(yàn)。他們改進(jìn)了這些有問(wèn)題的工具說(shuō)明書(shū),讓它們變得更加清晰、完整。結(jié)果發(fā)現(xiàn),當(dāng)AI助手使用這些改進(jìn)后的說(shuō)明書(shū)時(shí),任務(wù)成功率平均提高了5.85個(gè)百分點(diǎn),部分目標(biāo)完成率提高了15.12%。這就像是給一個(gè)廚師提供了更清晰的食譜后,他做出美味佳肴的成功率大大提高了。

但是,這種改進(jìn)也帶來(lái)了代價(jià)。使用更詳細(xì)說(shuō)明書(shū)的AI助手需要更多的計(jì)算步驟,平均增加了67.46%。這就像是使用更詳細(xì)食譜的廚師需要更多的時(shí)間和精力來(lái)完成烹飪,雖然成功率更高,但成本也更高。

有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)并不是所有的說(shuō)明書(shū)組件都同等重要。通過(guò)精心的篩選和組合,可以用更簡(jiǎn)潔的說(shuō)明書(shū)達(dá)到幾乎同樣的效果。這就像是發(fā)現(xiàn)了烹飪的關(guān)鍵技巧,只要掌握了核心要點(diǎn),就不需要冗長(zhǎng)復(fù)雜的食譜也能做出好菜。

研究團(tuán)隊(duì)還有一個(gè)意外發(fā)現(xiàn):在工具說(shuō)明書(shū)的完善程度方面,官方維護(hù)的工具和社區(qū)志愿者維護(hù)的工具之間沒(méi)有顯著差異。這說(shuō)明工具說(shuō)明書(shū)質(zhì)量問(wèn)題是整個(gè)行業(yè)的通病,不分官方還是民間。

這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)層面。隨著AI助手越來(lái)越多地融入我們的日常生活,工具說(shuō)明書(shū)的質(zhì)量直接影響到我們的用戶體驗(yàn)。一個(gè)說(shuō)明書(shū)不清楚的工具可能會(huì)讓AI助手做出錯(cuò)誤的決定,比如訂錯(cuò)餐廳、發(fā)錯(cuò)郵件,或者處理文檔時(shí)出現(xiàn)問(wèn)題。

研究團(tuán)隊(duì)提出了一套完整的解決方案。他們開(kāi)發(fā)了一個(gè)自動(dòng)檢測(cè)系統(tǒng),能夠識(shí)別工具說(shuō)明書(shū)中的各種問(wèn)題,就像是一個(gè)專門檢查說(shuō)明書(shū)質(zhì)量的"質(zhì)檢員"。同時(shí),他們還開(kāi)發(fā)了一個(gè)自動(dòng)改進(jìn)系統(tǒng),能夠幫助開(kāi)發(fā)者改善工具說(shuō)明書(shū)的質(zhì)量。

更重要的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)"智能路由器"的概念。這個(gè)系統(tǒng)能夠根據(jù)不同的使用場(chǎng)景,選擇最合適的說(shuō)明書(shū)版本。就像是一個(gè)智能的圖書(shū)管理員,能夠根據(jù)讀者的需求推薦最合適的書(shū)籍版本——簡(jiǎn)化版給初學(xué)者,詳細(xì)版給專家。

這項(xiàng)研究還揭示了一個(gè)有趣的現(xiàn)象:并不是說(shuō)明書(shū)越詳細(xì)越好。過(guò)于詳細(xì)的說(shuō)明書(shū)會(huì)增加AI助手的處理負(fù)擔(dān),就像是給一個(gè)新手司機(jī)提供了過(guò)于復(fù)雜的導(dǎo)航信息,反而可能讓他們感到困惑。關(guān)鍵是要找到詳細(xì)程度和實(shí)用性之間的平衡點(diǎn)。

研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),不同類型的任務(wù)需要不同類型的說(shuō)明書(shū)。比如,在金融分析任務(wù)中,強(qiáng)調(diào)工具用途和使用指南的簡(jiǎn)化版說(shuō)明書(shū)效果最好;而在位置導(dǎo)航任務(wù)中,包含所有信息的完整版說(shuō)明書(shū)效果更佳。這就像是不同的烹飪?nèi)蝿?wù)需要不同詳細(xì)程度的食譜一樣。

另一個(gè)重要發(fā)現(xiàn)是,傳統(tǒng)認(rèn)為很重要的"使用例子"組件實(shí)際上對(duì)AI助手的幫助并不大。研究發(fā)現(xiàn),移除使用例子并不會(huì)顯著影響AI助手的表現(xiàn)。這顛覆了傳統(tǒng)的觀念,就像是發(fā)現(xiàn)學(xué)開(kāi)車時(shí)看教學(xué)視頻的幫助并沒(méi)有想象中那么大,關(guān)鍵還是要理解基本原理。

研究團(tuán)隊(duì)還注意到一個(gè)有趣的現(xiàn)象:較小的AI模型在使用改進(jìn)后的工具說(shuō)明書(shū)時(shí),能夠達(dá)到與大型模型相當(dāng)?shù)男阅?。這意味著好的說(shuō)明書(shū)可能比強(qiáng)大的AI模型更重要,就像是一個(gè)好的操作手冊(cè)能讓普通技工達(dá)到專家級(jí)的操作水平。

這項(xiàng)研究對(duì)整個(gè)AI行業(yè)具有深遠(yuǎn)的影響。首先,它提醒工具開(kāi)發(fā)者要重視說(shuō)明書(shū)的質(zhì)量,將其視為產(chǎn)品的重要組成部分,而不是可有可無(wú)的附屬品。其次,它為AI系統(tǒng)開(kāi)發(fā)者提供了優(yōu)化性能的新思路——與其一味追求更大更強(qiáng)的模型,不如先改善工具說(shuō)明書(shū)的質(zhì)量。

研究團(tuán)隊(duì)建議,未來(lái)的模型上下文協(xié)議應(yīng)該支持更靈活的說(shuō)明書(shū)結(jié)構(gòu),讓AI助手能夠根據(jù)具體情況選擇最合適的信息詳細(xì)程度。這就像是建造一個(gè)智能的信息展示系統(tǒng),能夠根據(jù)用戶的需求和背景提供最恰當(dāng)?shù)男畔ⅰ?/p>

對(duì)于普通用戶來(lái)說(shuō),這項(xiàng)研究意味著未來(lái)的AI助手將變得更加可靠和高效。當(dāng)工具說(shuō)明書(shū)變得更加清晰準(zhǔn)確時(shí),AI助手犯錯(cuò)的概率會(huì)大大降低,我們的數(shù)字生活體驗(yàn)也會(huì)變得更加順暢。

值得注意的是,這項(xiàng)研究還發(fā)現(xiàn)了成本與效果之間的權(quán)衡關(guān)系。雖然更好的說(shuō)明書(shū)能提高AI助手的表現(xiàn),但也會(huì)增加計(jì)算成本。這就像是高質(zhì)量的服務(wù)往往需要更高的價(jià)格一樣。因此,未來(lái)需要在性能提升和成本控制之間找到最佳平衡點(diǎn)。

研究團(tuán)隊(duì)的工作不僅僅是發(fā)現(xiàn)問(wèn)題,更重要的是提供了完整的解決方案。他們開(kāi)發(fā)的工具和方法已經(jīng)開(kāi)源發(fā)布,任何開(kāi)發(fā)者都可以使用這些工具來(lái)改善自己的產(chǎn)品。這種開(kāi)放分享的精神體現(xiàn)了學(xué)術(shù)研究的價(jià)值,也為整個(gè)行業(yè)的發(fā)展做出了貢獻(xiàn)。

說(shuō)到底,這項(xiàng)研究告訴我們一個(gè)簡(jiǎn)單而深刻的道理:在AI時(shí)代,"說(shuō)明書(shū)"可能比我們想象的更重要。一個(gè)清晰、準(zhǔn)確、恰到好處的工具說(shuō)明書(shū),能夠讓AI助手更好地理解和使用各種工具,從而為我們提供更優(yōu)質(zhì)的服務(wù)。這就像是一個(gè)好的地圖能讓旅行者更容易到達(dá)目的地一樣,好的工具說(shuō)明書(shū)能讓AI助手更準(zhǔn)確地完成我們交給它的任務(wù)。

這項(xiàng)開(kāi)創(chuàng)性的研究不僅揭示了當(dāng)前AI工具生態(tài)系統(tǒng)中的普遍問(wèn)題,更為改善這一狀況指明了方向。隨著越來(lái)越多的開(kāi)發(fā)者開(kāi)始重視工具說(shuō)明書(shū)的質(zhì)量,我們有理由相信,未來(lái)的AI助手將變得更加智能、可靠和高效。

Q&A

Q1:模型上下文協(xié)議工具描述異味是什么意思?

A:工具描述異味是指AI工具說(shuō)明書(shū)中的質(zhì)量問(wèn)題,就像代碼異味一樣。主要包括目的不明、缺乏使用指導(dǎo)、沒(méi)說(shuō)明局限性、參數(shù)解釋模糊、說(shuō)明書(shū)過(guò)簡(jiǎn)或例子有問(wèn)題等六種情況,這些問(wèn)題會(huì)讓AI助手選錯(cuò)工具或用錯(cuò)參數(shù)。

Q2:改善工具說(shuō)明書(shū)質(zhì)量對(duì)AI助手性能有多大影響?

A:研究發(fā)現(xiàn),使用改進(jìn)后的工具說(shuō)明書(shū),AI助手的任務(wù)成功率平均提高了5.85個(gè)百分點(diǎn),部分目標(biāo)完成率提高了15.12%。但代價(jià)是執(zhí)行步驟增加67.46%,意味著計(jì)算成本更高,需要在性能提升和成本之間找平衡。

Q3:為什么97%的AI工具說(shuō)明書(shū)都有問(wèn)題?

A:研究團(tuán)隊(duì)分析了856個(gè)工具發(fā)現(xiàn),無(wú)論是官方還是社區(qū)維護(hù)的工具,在說(shuō)明書(shū)編寫(xiě)方面都缺乏統(tǒng)一標(biāo)準(zhǔn)和質(zhì)量控制。開(kāi)發(fā)者往往把重點(diǎn)放在功能實(shí)現(xiàn)上,忽視了說(shuō)明書(shū)質(zhì)量,導(dǎo)致這成為整個(gè)行業(yè)的通病。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
4名少女網(wǎng)上結(jié)伴開(kāi)“旅游盲盒”,機(jī)票抽到泰國(guó),在路上被民警緊急勸返,網(wǎng)友:出去了你就是盲盒

4名少女網(wǎng)上結(jié)伴開(kāi)“旅游盲盒”,機(jī)票抽到泰國(guó),在路上被民警緊急勸返,網(wǎng)友:出去了你就是盲盒

臺(tái)州交通廣播
2026-03-02 14:54:16
韓媒:無(wú)法代替伊朗進(jìn)世界杯,中國(guó)隊(duì)陷入絕望 配了王鈺棟哭泣圖

韓媒:無(wú)法代替伊朗進(jìn)世界杯,中國(guó)隊(duì)陷入絕望 配了王鈺棟哭泣圖

風(fēng)過(guò)鄉(xiāng)
2026-03-01 22:15:54
女員工“胸大奶多”惹爭(zhēng)議,椰樹(shù)大尺度自爆炸裂全網(wǎng)

女員工“胸大奶多”惹爭(zhēng)議,椰樹(shù)大尺度自爆炸裂全網(wǎng)

首席品牌觀察
2026-03-02 11:09:54
奧美拉唑被列為重點(diǎn)監(jiān)控藥物!醫(yī)生提醒:長(zhǎng)期服用,注意5大細(xì)節(jié)

奧美拉唑被列為重點(diǎn)監(jiān)控藥物!醫(yī)生提醒:長(zhǎng)期服用,注意5大細(xì)節(jié)

醫(yī)學(xué)原創(chuàng)故事會(huì)
2026-03-01 00:07:02
“91女神”琪琪堪稱該系列知名度最高的女生,男方只給自己打碼

“91女神”琪琪堪稱該系列知名度最高的女生,男方只給自己打碼

挪威森林
2026-03-02 14:18:46
雷軍直播再提新一代SU7門把手:極端情況下,大小電池同時(shí)斷電,門把手依然保留純機(jī)械解鎖能力

雷軍直播再提新一代SU7門把手:極端情況下,大小電池同時(shí)斷電,門把手依然保留純機(jī)械解鎖能力

時(shí)代財(cái)經(jīng)
2026-02-28 10:46:20
美伊大戰(zhàn),日本右翼慌了:中國(guó)若對(duì)日動(dòng)手,理由或?qū)⒑兔来蛞烈粯?>
    </a>
        <h3>
      <a href=霽寒飄雪
2026-03-02 19:23:27
俄羅斯沒(méi)想到,美國(guó)更沒(méi)想到,中國(guó)幾乎所有“關(guān)鍵”技術(shù)遙遙領(lǐng)先

俄羅斯沒(méi)想到,美國(guó)更沒(méi)想到,中國(guó)幾乎所有“關(guān)鍵”技術(shù)遙遙領(lǐng)先

流史歲月
2026-01-18 17:20:06
法國(guó)美女嫁到中國(guó)后,直言:錢可以借中國(guó)婆婆卻不會(huì)給父母,為何

法國(guó)美女嫁到中國(guó)后,直言:錢可以借中國(guó)婆婆卻不會(huì)給父母,為何

哄動(dòng)一時(shí)啊
2026-02-15 11:28:54
中國(guó)核工業(yè)集團(tuán),總工程師羅琦,突然從一個(gè)極重要位置上被撤下來(lái)

中國(guó)核工業(yè)集團(tuán),總工程師羅琦,突然從一個(gè)極重要位置上被撤下來(lái)

百態(tài)人間
2026-02-25 15:36:52
沖前四!卡里克給曼聯(lián)的致命一課:錯(cuò)了10年,根本不是主帥的鍋

沖前四!卡里克給曼聯(lián)的致命一課:錯(cuò)了10年,根本不是主帥的鍋

佳佳說(shuō)奇事故事
2026-02-19 20:49:33
冰火兩重天!孫穎莎4-2奪冠,與頒獎(jiǎng)嘉賓熱聊,王曼昱神情落寞

冰火兩重天!孫穎莎4-2奪冠,與頒獎(jiǎng)嘉賓熱聊,王曼昱神情落寞

TVB的四小花
2026-03-02 12:39:30
“吸血”親爹、寵妾滅妻,侄女再曝大瓜,楊議徹底活成了全網(wǎng)笑話

“吸血”親爹、寵妾滅妻,侄女再曝大瓜,楊議徹底活成了全網(wǎng)笑話

秋楓凋零
2026-03-02 06:07:06
科爾功勛籃球成笑柄!庫(kù)明加三戰(zhàn)31中21登場(chǎng)全勝 老鷹解說(shuō)諷勇士

科爾功勛籃球成笑柄!庫(kù)明加三戰(zhàn)31中21登場(chǎng)全勝 老鷹解說(shuō)諷勇士

顏小白的籃球夢(mèng)
2026-03-02 17:44:42
56歲大媽心梗離世,醫(yī)生:吃他汀時(shí)除了牛奶,這6種食物盡量少碰

56歲大媽心梗離世,醫(yī)生:吃他汀時(shí)除了牛奶,這6種食物盡量少碰

岐黃傳人孫大夫
2026-02-28 22:15:03
美國(guó)發(fā)出警告:中國(guó)不還100年前的舊債,美國(guó)絕不承認(rèn)欠中國(guó)的錢

美國(guó)發(fā)出警告:中國(guó)不還100年前的舊債,美國(guó)絕不承認(rèn)欠中國(guó)的錢

霽寒飄雪
2026-01-26 16:18:59
賀希寧曬合影慶祝男籃勝利,胡明軒評(píng)論:樂(lè)邦詹士先生

賀希寧曬合影慶祝男籃勝利,胡明軒評(píng)論:樂(lè)邦詹士先生

懂球帝
2026-03-02 10:09:20
2026鐵飯碗排名出爐!教師竟然跌到第9,第1名讓所有人都沉默了!

2026鐵飯碗排名出爐!教師竟然跌到第9,第1名讓所有人都沉默了!

金哥說(shuō)新能源車
2026-02-27 05:18:50
印度游客添亂,泰國(guó)悔悟:還是中國(guó)游客香

印度游客添亂,泰國(guó)悔悟:還是中國(guó)游客香

華山穹劍
2026-02-27 19:47:38
“太恐怖,iPhone半夜自己給陌生人打47分鐘電話!”

“太恐怖,iPhone半夜自己給陌生人打47分鐘電話!”

都市快報(bào)橙柿互動(dòng)
2026-02-25 11:28:41
2026-03-02 20:12:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7408文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

美記者詢問(wèn)就伊朗局勢(shì)中方會(huì)采取什么行動(dòng) 外交部回應(yīng)

頭條要聞

美記者詢問(wèn)就伊朗局勢(shì)中方會(huì)采取什么行動(dòng) 外交部回應(yīng)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂(lè)要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

金銀大漲 市場(chǎng)仍在評(píng)估沖突會(huì)否長(zhǎng)期化

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

教育
藝術(shù)
親子
家居
公開(kāi)課

教育要聞

26考研:理工專業(yè)成高分重災(zāi)區(qū),401分排名128位,390分只能調(diào)劑

藝術(shù)要聞

簡(jiǎn)約的風(fēng)景畫(huà),美國(guó)畫(huà)家Ben Bauer作品

親子要聞

阿寶和藏區(qū)老二居然就差一天的生日時(shí)間,今天我們給他們過(guò)生日哦

家居要聞

萬(wàn)物互聯(lián) 享科技福祉

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版