国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

中科大團(tuán)隊(duì)發(fā)現(xiàn)工具調(diào)用背后的硬件成本真相

0
分享至

要說(shuō)現(xiàn)在最熱門的人工智能話題,大語(yǔ)言模型絕對(duì)算一個(gè)。而在這個(gè)領(lǐng)域里,有一個(gè)特別有趣的現(xiàn)象:這些AI不僅會(huì)聊天,還學(xué)會(huì)了使用各種工具——比如調(diào)用搜索引擎查資料、運(yùn)行代碼計(jì)算數(shù)字,甚至訪問網(wǎng)頁(yè)獲取最新信息。就像一個(gè)聰明的助手,不僅腦子靈活,手也很巧。


不過,最近中國(guó)科學(xué)技術(shù)大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)被大家忽略的問題:當(dāng)AI使用這些工具時(shí),背后的計(jì)算成本遠(yuǎn)比我們想象的要復(fù)雜。這項(xiàng)研究發(fā)表于2026年4月的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2604.05404v1,為我們揭開了工具集成推理效率評(píng)估的神秘面紗。

想象一下這樣的場(chǎng)景:你請(qǐng)一個(gè)很聰明的朋友幫你解決數(shù)學(xué)題。這個(gè)朋友不僅要在腦子里思考,還要時(shí)不時(shí)拿出計(jì)算器按幾下,或者翻翻參考書查資料。表面上看,朋友解題的速度可能很快,但如果我們仔細(xì)觀察就會(huì)發(fā)現(xiàn),每次他停下來(lái)使用工具時(shí),都會(huì)打斷思考的連續(xù)性,而且每次重新開始思考時(shí),都需要重新回憶之前的思路和已經(jīng)獲得的信息。

這正是研究團(tuán)隊(duì)發(fā)現(xiàn)的核心問題。在AI領(lǐng)域,這種現(xiàn)象被稱為"工具集成推理"。當(dāng)AI模型需要調(diào)用外部工具時(shí),就像那個(gè)朋友停下來(lái)用計(jì)算器一樣,AI的"思考過程"會(huì)被中斷。更關(guān)鍵的是,每次中斷后重新開始時(shí),AI需要重新加載之前的所有信息到內(nèi)存中,這就好比朋友每次用完計(jì)算器后都要重新翻看之前的草稿紙,回憶整個(gè)解題過程。

研究團(tuán)隊(duì)用一個(gè)巧妙的比喻來(lái)解釋這個(gè)問題:就像烹飪一樣。傳統(tǒng)的AI推理過程就像一個(gè)廚師在灶臺(tái)前連續(xù)烹飪一道菜,動(dòng)作流暢,效率很高。但工具集成推理就像廚師要在烹飪過程中不斷停下來(lái)去冰箱拿食材,每次回來(lái)都要重新熱鍋,重新適應(yīng)烹飪節(jié)奏。看起來(lái)只是增加了幾個(gè)步驟,但實(shí)際的時(shí)間和能源消耗卻大大增加了。

更有意思的是,研究團(tuán)隊(duì)發(fā)現(xiàn)現(xiàn)有的效率評(píng)估方法就像用"食材重量"來(lái)衡量烹飪的復(fù)雜程度一樣不準(zhǔn)確。傳統(tǒng)方法只是簡(jiǎn)單地?cái)?shù)AI生成了多少個(gè)字,或者調(diào)用了多少次工具,就像只看廚師用了多少斤肉、多少顆菜一樣。但實(shí)際上,真正耗費(fèi)成本的是那些看不見的過程:重新熱鍋、重新整理工具、重新找回烹飪狀態(tài)。

為了解決這個(gè)問題,中科大團(tuán)隊(duì)提出了一個(gè)叫做"預(yù)填充token等價(jià)"(PTE)的新指標(biāo)。這個(gè)指標(biāo)就像一個(gè)精明的餐廳老板,不僅要算食材成本,還要算燃?xì)赓M(fèi)、廚師的時(shí)間成本,甚至連重新熱鍋浪費(fèi)的能源都要計(jì)算在內(nèi)。這樣算出來(lái)的"真實(shí)成本"才能反映一道菜到底有多"貴"。

具體來(lái)說(shuō),PTE指標(biāo)考慮了兩個(gè)關(guān)鍵因素:一個(gè)是AI"思考"時(shí)的計(jì)算成本,就像廚師切菜、配料時(shí)需要的技巧和時(shí)間;另一個(gè)是AI"回憶"時(shí)的內(nèi)存成本,就像廚師每次停頓后重新整理思路需要的時(shí)間。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)AI調(diào)用的工具返回很長(zhǎng)的信息時(shí),第二種成本會(huì)急劇上升,就像廚師的工作臺(tái)越來(lái)越亂,每次重新開始都要花更多時(shí)間整理。

研究團(tuán)隊(duì)為了驗(yàn)證他們的發(fā)現(xiàn),就像一個(gè)嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)室做了大量的對(duì)比實(shí)驗(yàn)。他們測(cè)試了從7億參數(shù)到235億參數(shù)的各種AI模型,涵蓋了數(shù)學(xué)推理、編程計(jì)算、信息檢索等多個(gè)領(lǐng)域的任務(wù)。結(jié)果令人驚訝:同樣能得到正確答案的不同模型,計(jì)算成本竟然能相差幾十倍甚至上百倍。這就好比兩個(gè)廚師都能做出美味的菜,但一個(gè)用了一個(gè)小時(shí)和十度電,另一個(gè)卻用了十個(gè)小時(shí)和一百度電。

更有趣的是,研究團(tuán)隊(duì)還發(fā)現(xiàn)了四種典型的"效率陷阱",就像烹飪中常見的浪費(fèi)現(xiàn)象。第一種叫"確認(rèn)式工具使用",就像廚師已經(jīng)知道菜熟了,但還要用溫度計(jì)再測(cè)一次,純屬多余。第二種叫"工具混用",就像做一道菜時(shí)既用燃?xì)庠钣钟秒姶艩t,看起來(lái)很專業(yè),實(shí)際上浪費(fèi)時(shí)間。第三種叫"缺乏工具先驗(yàn)知識(shí)",就像廚師拿到一個(gè)新工具不知道怎么用,折騰半天才搞明白。第四種叫"工具格式崩潰",就像廚師按錯(cuò)了微波爐的按鈕,結(jié)果什么都沒加熱成功。

通過深入分析這些現(xiàn)象,研究團(tuán)隊(duì)得出了一個(gè)重要結(jié)論:那些計(jì)算成本高的AI推理過程,往往也更容易出錯(cuò)。這就像一個(gè)經(jīng)驗(yàn)法則:越復(fù)雜、越折騰的烹飪過程,往往越容易把菜做糊。簡(jiǎn)單高效的方法不僅節(jié)省成本,通常也能得到更好的結(jié)果。

研究團(tuán)隊(duì)的發(fā)現(xiàn)對(duì)整個(gè)AI行業(yè)都有重要意義。目前的AI評(píng)估就像餐廳只看菜品好不好吃,不考慮制作成本,這在實(shí)際應(yīng)用中顯然是不夠的。特別是在大規(guī)模商業(yè)應(yīng)用中,效率成本往往決定了技術(shù)是否具有實(shí)用價(jià)值。一個(gè)看起來(lái)很厲害但成本極高的AI系統(tǒng),就像一道需要米其林大廚花一整天制作的家常菜,雖然美味但缺乏實(shí)用性。

這項(xiàng)研究還揭示了一個(gè)有趣的現(xiàn)象:那些號(hào)稱具有"思考"能力的AI模型在處理復(fù)雜任務(wù)時(shí)確實(shí)表現(xiàn)更好,但在簡(jiǎn)單任務(wù)上卻可能過度浪費(fèi)資源。這就像讓一個(gè)頂級(jí)廚師去煮白米飯,雖然技藝精湛,但可能會(huì)過度復(fù)雜化這個(gè)簡(jiǎn)單過程,反而不如普通廚師來(lái)得高效實(shí)用。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)重要規(guī)律:AI使用工具的效率很大程度上取決于它對(duì)這些工具的"熟悉程度"。就像廚師對(duì)自己常用的工具得心應(yīng)手,但面對(duì)陌生工具時(shí)就會(huì)手忙腳亂。這提示我們,在訓(xùn)練AI時(shí),不僅要教它推理能力,還要讓它充分熟悉各種工具的使用方法。

為了讓這些發(fā)現(xiàn)更具實(shí)用價(jià)值,研究團(tuán)隊(duì)還開發(fā)了一套完整的評(píng)估框架,并計(jì)劃開源給學(xué)術(shù)界和工業(yè)界使用。這套框架就像一個(gè)精密的成本計(jì)算器,能夠準(zhǔn)確評(píng)估不同AI方案的真實(shí)效率,幫助開發(fā)者在性能和成本之間找到最佳平衡點(diǎn)。

從更宏觀的角度來(lái)看,這項(xiàng)研究揭示了AI發(fā)展過程中的一個(gè)重要趨勢(shì):簡(jiǎn)單粗暴的性能指標(biāo)已經(jīng)不足以指導(dǎo)技術(shù)發(fā)展,我們需要更精細(xì)、更全面的評(píng)估體系。就像評(píng)判一個(gè)餐廳不能只看菜品口味,還要看服務(wù)效率、成本控制、能源消耗等多個(gè)維度一樣,評(píng)估AI系統(tǒng)也需要綜合考慮準(zhǔn)確性、效率、可持續(xù)性等多個(gè)因素。

這個(gè)發(fā)現(xiàn)對(duì)普通用戶也有實(shí)際意義。當(dāng)我們使用各種AI服務(wù)時(shí),那些響應(yīng)快速、成本低廉的服務(wù)往往背后有著更優(yōu)秀的效率設(shè)計(jì)。而那些功能強(qiáng)大但運(yùn)行緩慢的AI服務(wù),可能就存在著類似研究中發(fā)現(xiàn)的效率問題。了解這些原理,可以幫助我們更好地選擇和使用AI工具。

研究團(tuán)隊(duì)的工作還為未來(lái)的AI發(fā)展指明了一個(gè)重要方向:在追求更強(qiáng)大功能的同時(shí),必須重視效率優(yōu)化。這不僅關(guān)乎成本控制,更關(guān)乎AI技術(shù)的可持續(xù)發(fā)展。畢竟,一個(gè)需要消耗巨額電力和計(jì)算資源的AI系統(tǒng),即使功能再?gòu)?qiáng)大,也難以大規(guī)模普及應(yīng)用。

最終,這項(xiàng)研究告訴我們一個(gè)樸素的道理:在AI的世界里,聰明不僅體現(xiàn)在能力上,更體現(xiàn)在效率上。就像最好的廚師不僅能做出美味的菜肴,更能在最短時(shí)間內(nèi)用最少資源達(dá)到最佳效果一樣,最優(yōu)秀的AI系統(tǒng)應(yīng)該在保證性能的前提下,實(shí)現(xiàn)資源的最優(yōu)配置。這不僅是技術(shù)挑戰(zhàn),更是AI走向?qū)嵱没谋亟?jīng)之路。

Q&A

Q1:PTE指標(biāo)是什么,為什么比傳統(tǒng)指標(biāo)更準(zhǔn)確?

A:PTE(預(yù)填充token等價(jià))是中科大團(tuán)隊(duì)提出的新效率指標(biāo),就像精明餐廳老板不僅算食材成本,還算燃?xì)赓M(fèi)和廚師時(shí)間成本一樣。它考慮了AI思考時(shí)的計(jì)算成本和回憶時(shí)的內(nèi)存成本,比傳統(tǒng)的簡(jiǎn)單計(jì)數(shù)方法更能反映真實(shí)的硬件消耗。

Q2:工具集成推理中的四種效率陷阱是什么?

A:四種陷阱分別是:確認(rèn)式工具使用(明知答案還要工具驗(yàn)證)、工具混用(不必要地混合使用多種工具)、缺乏工具先驗(yàn)知識(shí)(不熟悉工具使用方法)、工具格式崩潰(工具調(diào)用格式錯(cuò)誤)。這些都會(huì)大大增加計(jì)算成本而不帶來(lái)實(shí)際價(jià)值。

Q3:這項(xiàng)研究對(duì)普通AI用戶有什么實(shí)際意義?

A:這項(xiàng)研究幫助我們理解為什么有些AI服務(wù)響應(yīng)快速成本低廉,而有些功能強(qiáng)大卻運(yùn)行緩慢。了解效率原理可以幫助我們更好地選擇AI工具,同時(shí)這項(xiàng)研究也推動(dòng)了整個(gè)行業(yè)向更高效、更可持續(xù)的方向發(fā)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
綜合ROI時(shí)代,這些高速增長(zhǎng)的商家做對(duì)了什么?

綜合ROI時(shí)代,這些高速增長(zhǎng)的商家做對(duì)了什么?

刀法研究所
2026-04-16 15:00:13
G2湖人101-94戰(zhàn)勝火箭 球員評(píng)價(jià):4人優(yōu)秀,3人及格,2人低迷

G2湖人101-94戰(zhàn)勝火箭 球員評(píng)價(jià):4人優(yōu)秀,3人及格,2人低迷

籃球資訊達(dá)人
2026-04-22 13:27:16
注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

夜深愛雜談
2026-04-21 07:45:20
iPhone Fold 國(guó)內(nèi)售價(jià)1.4萬(wàn)元?散熱方案曝光,這次信息量有點(diǎn)大

iPhone Fold 國(guó)內(nèi)售價(jià)1.4萬(wàn)元?散熱方案曝光,這次信息量有點(diǎn)大

數(shù)碼Antenna
2026-04-22 11:47:48
建國(guó)后外逃級(jí)別最高的貪官!至今未落網(wǎng),23年來(lái)逃跑方式仍是謎

建國(guó)后外逃級(jí)別最高的貪官!至今未落網(wǎng),23年來(lái)逃跑方式仍是謎

老范談史
2026-04-22 16:45:31
段睿悲痛萬(wàn)分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

段睿悲痛萬(wàn)分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

米果說(shuō)識(shí)
2026-04-22 14:41:50
到賬230億,賈躍亭起飛!

到賬230億,賈躍亭起飛!

鳴金網(wǎng)
2026-04-21 19:58:22
華為乾崑的3次“死磕”舉動(dòng),成了車圈最難抄的作業(yè)

華為乾崑的3次“死磕”舉動(dòng),成了車圈最難抄的作業(yè)

金錯(cuò)刀
2026-04-21 14:22:17
炸裂!網(wǎng)傳寧波某豪宅業(yè)主群夫妻大戰(zhàn),虎狼之詞流出,444人圍觀

炸裂!網(wǎng)傳寧波某豪宅業(yè)主群夫妻大戰(zhàn),虎狼之詞流出,444人圍觀

火山詩(shī)話
2026-04-22 17:56:13
拼多多暴力抗法震驚全網(wǎng),市值萬(wàn)億巨頭為何如此囂張

拼多多暴力抗法震驚全網(wǎng),市值萬(wàn)億巨頭為何如此囂張

燕梳樓頻道
2026-04-20 21:12:04
你寫的Skill,正在拖慢模型?策略式Gene才是正確答案

你寫的Skill,正在拖慢模型?策略式Gene才是正確答案

機(jī)器之心Pro
2026-04-21 18:54:52
5月1日起正式嚴(yán)打!8類灰色行為直接入刑,所有人務(wù)必警惕

5月1日起正式嚴(yán)打!8類灰色行為直接入刑,所有人務(wù)必警惕

另子維愛讀史
2026-04-22 07:39:03
曾高喊打敗美帝:如今卻全家跑去美國(guó),84歲活成這樣,引人熱議!

曾高喊打敗美帝:如今卻全家跑去美國(guó),84歲活成這樣,引人熱議!

小莜讀史
2026-04-20 22:58:35
演員王大陸一審被判刑

演員王大陸一審被判刑

極目新聞
2026-04-22 12:35:08
情侶約會(huì)求“刺激”,雙雙被抓,審訊時(shí)互相甩鍋

情侶約會(huì)求“刺激”,雙雙被抓,審訊時(shí)互相甩鍋

深圳晚報(bào)
2026-04-22 10:11:17
讓華北的地下水上一次熱搜吧!

讓華北的地下水上一次熱搜吧!

細(xì)雨中的呼喊
2026-04-22 13:29:31
2013年,江青拍攝的照片以34萬(wàn)元的高價(jià)拍出,毛澤東曾稱贊并題詞

2013年,江青拍攝的照片以34萬(wàn)元的高價(jià)拍出,毛澤東曾稱贊并題詞

南書房
2026-04-21 07:25:06
俄羅斯為什么刪除20年法院數(shù)據(jù):審判記錄一夜清空

俄羅斯為什么刪除20年法院數(shù)據(jù):審判記錄一夜清空

律法刑道
2026-04-22 08:53:34
把 DeepSeek、Kimi、智譜和 MiniMax 拉進(jìn)群聊

把 DeepSeek、Kimi、智譜和 MiniMax 拉進(jìn)群聊

愛范兒
2026-04-21 22:36:25
出海更難了!俄朝圖們江公路大橋合攏,預(yù)計(jì)今年6月正式通車

出海更難了!俄朝圖們江公路大橋合攏,預(yù)計(jì)今年6月正式通車

全城探秘
2026-04-22 16:41:13
2026-04-22 19:39:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國(guó)道歉

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國(guó)道歉

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂要聞

復(fù)婚無(wú)望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長(zhǎng)停火期限

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

態(tài)度原創(chuàng)

旅游
家居
手機(jī)
藝術(shù)
公開課

旅游要聞

江蘇兩地入選!蘇州再登“2025年游客滿意十佳城市”

家居要聞

極簡(jiǎn)繪夢(mèng) 克制和諧

手機(jī)要聞

續(xù)航滅霸降臨!vivo Y600 Pro 全配置曝光,10200mAh 電池沖擊中端機(jī)

藝術(shù)要聞

無(wú)花不風(fēng)景

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版