国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

威斯康星大學(xué)和Salesforce聯(lián)合推出技能編排框架

0
分享至


這項(xiàng)由威斯康星大學(xué)麥迪遜分校與Salesforce AI Research聯(lián)合完成的研究發(fā)表于2026年2月23日的arXiv預(yù)印本網(wǎng)站,論文編號(hào)為arXiv:2602.19672v1。研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為"SkillOrchestra"的全新框架,徹底改變了多個(gè)AI模型協(xié)同工作的方式。

當(dāng)今的AI世界正在經(jīng)歷一場(chǎng)深刻變革。過(guò)去我們習(xí)慣讓一個(gè)AI模型獨(dú)自處理所有任務(wù),但現(xiàn)在越來(lái)越多的AI系統(tǒng)開(kāi)始像交響樂(lè)團(tuán)一樣,讓多個(gè)不同能力的AI模型協(xié)同合作。就如同一個(gè)交響樂(lè)團(tuán)需要指揮家來(lái)協(xié)調(diào)各種樂(lè)器一樣,這些復(fù)合AI系統(tǒng)也需要一個(gè)"指揮家"來(lái)決定什么時(shí)候讓哪個(gè)AI模型出場(chǎng),這個(gè)過(guò)程被稱(chēng)為"編排"(orchestration)。

然而,當(dāng)前的AI編排方式面臨著嚴(yán)重的問(wèn)題。現(xiàn)有的路由方法就像一個(gè)只能在演出開(kāi)始前就決定整場(chǎng)音樂(lè)會(huì)安排的指揮家,無(wú)法根據(jù)演出過(guò)程中的實(shí)際情況進(jìn)行調(diào)整。更糟糕的是,許多通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的編排系統(tǒng)容易陷入"路由崩塌"的困境——就像指揮家過(guò)度依賴(lài)首席小提琴手,不管什么曲目都讓他獨(dú)奏一樣,這些系統(tǒng)往往反復(fù)調(diào)用同一個(gè)強(qiáng)大但昂貴的模型。

面對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)提出了SkillOrchestra這個(gè)創(chuàng)新解決方案。這個(gè)框架的核心思想是讓AI編排系統(tǒng)學(xué)會(huì)識(shí)別和管理細(xì)致入微的"技能",而不是簡(jiǎn)單地在模型之間做選擇。就像一個(gè)經(jīng)驗(yàn)豐富的指揮家不僅知道每個(gè)樂(lè)手的特長(zhǎng),還知道什么時(shí)候需要什么樣的演奏技巧一樣,SkillOrchestra能夠理解每項(xiàng)任務(wù)需要什么樣的能力,然后選擇最適合的AI智能體來(lái)執(zhí)行。

SkillOrchestra的工作原理可以比作一個(gè)智能的美食節(jié)策劃師。傳統(tǒng)的方法就像是在節(jié)目開(kāi)始前就固定安排每個(gè)廚師做什么菜,而SkillOrchestra則會(huì)觀察現(xiàn)場(chǎng)情況:如果發(fā)現(xiàn)觀眾對(duì)辣味菜品反應(yīng)熱烈,它會(huì)立即安排擅長(zhǎng)川菜的廚師上場(chǎng);如果需要精美的甜點(diǎn),它會(huì)選擇最擅長(zhǎng)法式糕點(diǎn)的師傅。更重要的是,它還會(huì)考慮成本效益——不會(huì)為了做一道簡(jiǎn)單的家常菜而請(qǐng)米其林星級(jí)廚師出馬。

這個(gè)框架包含三個(gè)核心組件。首先是技能發(fā)現(xiàn)機(jī)制,它像一個(gè)敏銳的人才發(fā)掘者,能夠從AI智能體的工作歷史中識(shí)別出各種細(xì)致的能力特征。比如,它能發(fā)現(xiàn)某個(gè)AI模型特別擅長(zhǎng)處理數(shù)字計(jì)算,而另一個(gè)更適合理解復(fù)雜的文本邏輯。其次是智能體能力建模,這就像給每個(gè)AI智能體建立詳細(xì)的能力檔案,記錄它們?cè)诓煌寄芊矫娴谋憩F(xiàn)水平和使用成本。最后是性能-成本權(quán)衡的選擇機(jī)制,確保每次都能在效果和經(jīng)濟(jì)性之間找到最佳平衡點(diǎn)。

研究團(tuán)隊(duì)在十個(gè)不同的基準(zhǔn)測(cè)試中驗(yàn)證了SkillOrchestra的效果。結(jié)果令人印象深刻:在問(wèn)答任務(wù)中,SkillOrchestra比目前最先進(jìn)的強(qiáng)化學(xué)習(xí)方法提高了22.5%的準(zhǔn)確率,同時(shí)學(xué)習(xí)成本分別降低了700倍和300倍。這就像找到了一種既能提升音樂(lè)會(huì)質(zhì)量,又能大幅降低排練成本的指揮方法。

一、技能感知編排的核心理念

傳統(tǒng)的AI模型路由就像一個(gè)只會(huì)簡(jiǎn)單分工的工廠管理員,看到任務(wù)就直接分配給某個(gè)工人,不考慮這個(gè)工人具體擅長(zhǎng)什么,也不關(guān)心任務(wù)的具體要求。SkillOrchestra則完全不同,它像一個(gè)經(jīng)驗(yàn)豐富的項(xiàng)目經(jīng)理,會(huì)仔細(xì)分析每個(gè)任務(wù)需要什么樣的專(zhuān)業(yè)技能,然后從團(tuán)隊(duì)中選擇最合適的人選。

這種差異的關(guān)鍵在于對(duì)"技能"的理解。在SkillOrchestra的世界里,技能是一種可重復(fù)使用的能力抽象,它描述了在特定操作模式下執(zhí)行任務(wù)所需的具體能力類(lèi)型。比如,在編程模式下,可能需要"符號(hào)邏輯編程"技能來(lái)處理基于規(guī)則的推理任務(wù),而在搜索模式下,可能需要"多跳橋接推理"技能來(lái)組合多個(gè)相關(guān)事實(shí)。

想象一下一個(gè)高端餐廳的運(yùn)營(yíng)場(chǎng)景。傳統(tǒng)的管理方式可能是簡(jiǎn)單地安排"廚師A負(fù)責(zé)前菜,廚師B負(fù)責(zé)主菜"。而SkillOrchestra的方式則是深入了解每道菜需要什么樣的烹飪技巧:這道菜需要精確的溫度控制嗎?需要復(fù)雜的刀工技巧嗎?需要對(duì)香料的深度理解嗎?然后根據(jù)每個(gè)廚師在這些技能方面的專(zhuān)長(zhǎng)水平來(lái)做分配。

這種技能感知的方法帶來(lái)了三個(gè)重要優(yōu)勢(shì)。首先是狀態(tài)感知的精細(xì)編排能力,系統(tǒng)可以根據(jù)當(dāng)前交互狀態(tài)的具體需求來(lái)選擇最合適的模型,而不是一刀切地使用同一個(gè)模型。其次是穩(wěn)定均衡的路由行為,通過(guò)明確的技能建模,系統(tǒng)能夠避免過(guò)度依賴(lài)某個(gè)強(qiáng)大模型的陷阱,實(shí)現(xiàn)更好的負(fù)載均衡。最后是可遷移的編排知識(shí),一旦建立了技能手冊(cè),它就可以在不同的編排系統(tǒng)之間重復(fù)使用,無(wú)需重新訓(xùn)練。

技能手冊(cè)的建立過(guò)程類(lèi)似于編寫(xiě)一本詳盡的烹飪百科全書(shū)。研究團(tuán)隊(duì)首先收集大量的AI智能體執(zhí)行歷史,就像收集各種菜譜和烹飪記錄。然后通過(guò)對(duì)比成功和失敗的執(zhí)行案例來(lái)識(shí)別關(guān)鍵技能差異,這就像分析為什么有些菜做得特別成功而有些失敗。最后,系統(tǒng)會(huì)為每個(gè)智能體建立詳細(xì)的技能檔案,記錄它們?cè)诟鱾€(gè)技能方面的勝任程度和使用成本。

二、技能手冊(cè)的構(gòu)建與完善

SkillOrchestra的核心是一個(gè)被稱(chēng)為"技能手冊(cè)"的知識(shí)庫(kù),它就像一個(gè)詳盡記錄每個(gè)員工專(zhuān)長(zhǎng)的人力資源檔案系統(tǒng)。這個(gè)手冊(cè)不是一蹴而就的,而是通過(guò)系統(tǒng)化的學(xué)習(xí)過(guò)程逐步建立和完善的。

技能發(fā)現(xiàn)過(guò)程就像一個(gè)細(xì)心的人力資源經(jīng)理在觀察員工的日常工作表現(xiàn)。系統(tǒng)會(huì)收集AI智能體的執(zhí)行軌跡,然后對(duì)比同一任務(wù)的成功和失敗案例。當(dāng)面對(duì)相同查詢(xún)和操作模式時(shí),如果智能體A成功完成了任務(wù)而智能體B失敗了,系統(tǒng)就會(huì)分析兩者之間的能力差異,從而識(shí)別出完成這類(lèi)任務(wù)所需的特定技能。

例如,在處理復(fù)雜數(shù)學(xué)問(wèn)題時(shí),系統(tǒng)可能會(huì)發(fā)現(xiàn)某些智能體在"符號(hào)邏輯推理"方面表現(xiàn)出色,能夠準(zhǔn)確處理代數(shù)方程和幾何證明;而另一些智能體則在"數(shù)值計(jì)算"方面更強(qiáng),擅長(zhǎng)處理統(tǒng)計(jì)分析和數(shù)值優(yōu)化。這些發(fā)現(xiàn)會(huì)被抽象成可重復(fù)使用的技能定義,記錄在技能手冊(cè)中。

智能體檔案建立則像是為每個(gè)員工建立詳細(xì)的技能評(píng)估報(bào)告。對(duì)于每個(gè)智能體,系統(tǒng)會(huì)在各個(gè)操作模式下評(píng)估其在不同技能上的表現(xiàn)水平。這種評(píng)估采用貝塔分布來(lái)建模成功概率,就像通過(guò)多次考試來(lái)評(píng)估學(xué)生在不同科目上的掌握程度。每當(dāng)智能體執(zhí)行一個(gè)任務(wù),系統(tǒng)就會(huì)根據(jù)結(jié)果更新其技能評(píng)估分?jǐn)?shù)。

技能手冊(cè)還包含模式級(jí)別的執(zhí)行洞察,這些洞察像是經(jīng)驗(yàn)豐富的項(xiàng)目經(jīng)理總結(jié)出的工作規(guī)律。比如,系統(tǒng)可能發(fā)現(xiàn)"當(dāng)涉及多個(gè)算術(shù)運(yùn)算或任何聚合操作時(shí),應(yīng)該切換到編程模式而不是搜索模式",或者"對(duì)于需要精確時(shí)間差異和多個(gè)時(shí)間跨度的任務(wù),避免使用主要需求是新信息檢索的工具"。

為了防止技能過(guò)度細(xì)分或產(chǎn)生冗余,系統(tǒng)還設(shè)置了手冊(cè)完善機(jī)制。就像定期整理圖書(shū)館一樣,系統(tǒng)會(huì)周期性地審查技能集合。如果某個(gè)技能在智能體表現(xiàn)上顯示出高方差,說(shuō)明它可能包含多種潛在能力,系統(tǒng)就會(huì)考慮將其分拆成更具體的子技能。相反,如果兩個(gè)技能的智能體表現(xiàn)檔案在統(tǒng)計(jì)上無(wú)法區(qū)分,系統(tǒng)就會(huì)考慮將它們合并,以減少冗余。

這種動(dòng)態(tài)完善過(guò)程確保了技能手冊(cè)既不會(huì)過(guò)于粗糙而失去指導(dǎo)價(jià)值,也不會(huì)過(guò)于細(xì)致而難以可靠使用。就像一個(gè)好的分類(lèi)系統(tǒng),它需要在詳細(xì)性和實(shí)用性之間找到恰當(dāng)?shù)钠胶狻?/p>

三、帕累托最優(yōu)的技能手冊(cè)選擇

并非所有的技能細(xì)節(jié)都適合每個(gè)編排系統(tǒng)。就像不同經(jīng)驗(yàn)水平的指揮家需要不同詳細(xì)程度的樂(lè)譜一樣,不同能力的編排系統(tǒng)也需要適合其推理能力的技能手冊(cè)版本。SkillOrchestra創(chuàng)新性地提出了一個(gè)帕累托最優(yōu)的手冊(cè)選擇策略。

這個(gè)選擇過(guò)程的核心理念是匹配編排系統(tǒng)的推理能力與技能手冊(cè)的細(xì)致程度。一個(gè)強(qiáng)大的編排系統(tǒng)可能能夠準(zhǔn)確區(qū)分"符號(hào)邏輯"和"數(shù)值近似"這樣的細(xì)致技能差異,從而做出精確的路由決策。但對(duì)于能力較弱的編排系統(tǒng),如果強(qiáng)行使用這種細(xì)致的技能分類(lèi),反而可能導(dǎo)致誤判,比如將需要符號(hào)推理的任務(wù)錯(cuò)誤地路由到數(shù)值計(jì)算專(zhuān)家那里。

為了解決這個(gè)問(wèn)題,系統(tǒng)會(huì)從完整的技能手冊(cè)開(kāi)始,生成不同粒度的候選版本。就像從一張?jiān)敿?xì)的城市地圖中提取出不同比例尺的簡(jiǎn)化版本一樣,系統(tǒng)會(huì)創(chuàng)建包含不同技能數(shù)量和詳細(xì)程度的手冊(cè)版本。某些版本可能包含98個(gè)具體技能,而其他版本可能只包含10個(gè)更寬泛的技能類(lèi)別。

選擇過(guò)程采用帕累托最優(yōu)驗(yàn)證策略。系統(tǒng)會(huì)在驗(yàn)證數(shù)據(jù)集上測(cè)試每個(gè)候選手冊(cè)版本,評(píng)估使用該版本時(shí)編排系統(tǒng)能達(dá)到的性能和成本效益。這個(gè)評(píng)估不僅考慮單次路由決策的準(zhǔn)確性,更重要的是評(píng)估整個(gè)任務(wù)執(zhí)行軌跡的成功率和總成本。

帕累托最優(yōu)原則確保選擇出的手冊(cè)版本在性能-成本權(quán)衡上達(dá)到最佳平衡。就像在購(gòu)買(mǎi)商品時(shí)尋找性?xún)r(jià)比最高的選項(xiàng)一樣,系統(tǒng)會(huì)選擇那些在給定成本約束下能提供最高性能,或者在給定性能要求下成本最低的手冊(cè)版本。

這種選擇策略的一個(gè)重要優(yōu)勢(shì)是它考慮了編排系統(tǒng)的認(rèn)知負(fù)荷。過(guò)于細(xì)致的技能分類(lèi)可能會(huì)讓編排系統(tǒng)在做決策時(shí)"想太多",反而影響決策質(zhì)量。通過(guò)選擇適當(dāng)粒度的技能手冊(cè),系統(tǒng)可以在提供足夠指導(dǎo)信息的同時(shí),避免認(rèn)知超載。

實(shí)驗(yàn)結(jié)果表明,不同的編排系統(tǒng)確實(shí)需要不同粒度的技能手冊(cè)。強(qiáng)大的編排系統(tǒng)通常能夠有效利用更細(xì)致的技能分類(lèi),而較簡(jiǎn)單的編排系統(tǒng)則在使用更寬泛的技能類(lèi)別時(shí)表現(xiàn)更好。這種個(gè)性化的手冊(cè)選擇確保了每個(gè)編排系統(tǒng)都能發(fā)揮其最大潛力。

四、實(shí)時(shí)技能感知路由機(jī)制

當(dāng)SkillOrchestra系統(tǒng)投入實(shí)際使用時(shí),它的工作過(guò)程就像一個(gè)經(jīng)驗(yàn)豐富的音樂(lè)會(huì)藝術(shù)總監(jiān)在現(xiàn)場(chǎng)指揮演出。整個(gè)路由決策過(guò)程分為兩個(gè)緊密相連的步驟:模式選擇和基于勝任能力的智能體路由。

模式選擇階段就像決定接下來(lái)應(yīng)該演奏什么類(lèi)型的曲目。系統(tǒng)會(huì)分析當(dāng)前的交互狀態(tài),結(jié)合技能手冊(cè)中記錄的模式級(jí)別洞察,來(lái)決定下一步應(yīng)該采用什么操作模式。比如,如果當(dāng)前任務(wù)需要外部信息檢索,系統(tǒng)可能選擇"搜索"模式;如果需要復(fù)雜的數(shù)值計(jì)算,則可能選擇"編程"模式;如果已經(jīng)收集了足夠信息可以給出最終答案,則選擇"回答"模式。

這種模式選擇不是隨意的,而是基于技能手冊(cè)中積累的經(jīng)驗(yàn)?zāi)J?。系統(tǒng)學(xué)會(huì)了什么情況下應(yīng)該使用什么工具,就像經(jīng)驗(yàn)豐富的工匠知道什么時(shí)候該用錘子,什么時(shí)候該用螺絲刀一樣。例如,手冊(cè)可能記錄了這樣的洞察:"如果涉及超過(guò)一個(gè)算術(shù)運(yùn)算或任何聚合操作,應(yīng)該切換到編程模式而不是搜索模式",或者"對(duì)于多步計(jì)算或涉及多個(gè)日期/時(shí)間跨度的任務(wù),切換到編程模式而不是搜索模式"。

一旦確定了操作模式,系統(tǒng)就進(jìn)入基于勝任能力的智能體路由階段。這個(gè)過(guò)程就像在確定了要演奏協(xié)奏曲之后,需要選擇最合適的獨(dú)奏家一樣。系統(tǒng)首先會(huì)識(shí)別當(dāng)前交互狀態(tài)所需的活躍技能集合,然后根據(jù)技能手冊(cè)中的智能體檔案來(lái)選擇最合適的智能體。

選擇過(guò)程采用了一個(gè)明確的性能-成本權(quán)衡公式。對(duì)于每個(gè)候選智能體,系統(tǒng)會(huì)計(jì)算其在所需技能上的預(yù)期勝任程度,同時(shí)考慮其使用成本。最終選擇能夠在滿(mǎn)足性能要求的同時(shí)實(shí)現(xiàn)最佳成本效益的智能體。這就像在選擇餐廳時(shí)既要考慮菜品質(zhì)量,也要考慮價(jià)格一樣。

具體的計(jì)算過(guò)程使用了貝塔分布的后驗(yàn)均值來(lái)估計(jì)智能體的勝任程度。對(duì)每個(gè)相關(guān)技能,系統(tǒng)會(huì)根據(jù)歷史表現(xiàn)數(shù)據(jù)計(jì)算該智能體的成功概率估計(jì)值,然后將所有相關(guān)技能的估計(jì)值進(jìn)行加權(quán)聚合,減去模式特定的成本,得到最終的效用分?jǐn)?shù)。選擇效用分?jǐn)?shù)最高的智能體來(lái)執(zhí)行任務(wù)。

這種路由機(jī)制的一個(gè)關(guān)鍵優(yōu)勢(shì)是它能夠?qū)崿F(xiàn)動(dòng)態(tài)的負(fù)載均衡。與傳統(tǒng)方法容易陷入的"路由崩塌"問(wèn)題不同,SkillOrchestra會(huì)根據(jù)具體的技能需求來(lái)分配任務(wù)。如果某個(gè)任務(wù)只需要基礎(chǔ)的信息檢索能力,系統(tǒng)不會(huì)浪費(fèi)昂貴的高端模型資源;但當(dāng)遇到需要復(fù)雜推理的任務(wù)時(shí),系統(tǒng)會(huì)毫不猶豫地調(diào)用最強(qiáng)大的模型。

系統(tǒng)還考慮了語(yǔ)義對(duì)齊因素,會(huì)評(píng)估當(dāng)前任務(wù)狀態(tài)與智能體檔案之間的相似性。這確保了選擇的智能體不僅在抽象技能上合適,在具體任務(wù)背景下也是最佳選擇。這種多層次的匹配機(jī)制使得整個(gè)編排過(guò)程既精確又高效。

五、突破性實(shí)驗(yàn)成果與性能提升

SkillOrchestra的有效性通過(guò)一系列全面的實(shí)驗(yàn)得到了驗(yàn)證,這些實(shí)驗(yàn)就像對(duì)一個(gè)新的管理方法進(jìn)行全方位的效果測(cè)試。研究團(tuán)隊(duì)在兩個(gè)主要場(chǎng)景下測(cè)試了這個(gè)系統(tǒng):多輪模型路由和完整的智能體編排。

在多輪模型路由測(cè)試中,研究團(tuán)隊(duì)使用了Qwen2.5-3B作為編排器,在包含知識(shí)問(wèn)答、多跳推理和數(shù)學(xué)推理在內(nèi)的十個(gè)不同基準(zhǔn)數(shù)據(jù)集上進(jìn)行了測(cè)試。這些測(cè)試就像在不同類(lèi)型的考試中驗(yàn)證一個(gè)新的學(xué)習(xí)方法是否真的有效。模型池包含了從小型的7B參數(shù)模型到大型的70B參數(shù)模型,涵蓋了不同的專(zhuān)業(yè)領(lǐng)域和性能水平。

實(shí)驗(yàn)結(jié)果令人印象深刻。在一般性問(wèn)答任務(wù)中,SkillOrchestra達(dá)到了47.4%的準(zhǔn)確率,相比目前最先進(jìn)的Router-R1方法的41.6%有了顯著提升。更重要的是,SkillOrchestra+(通過(guò)在同一智能體池中切換不同編排器模型而獲得的最佳性能)達(dá)到了51.6%的準(zhǔn)確率,提升幅度高達(dá)10個(gè)百分點(diǎn)。

在數(shù)學(xué)推理任務(wù)上,SkillOrchestra的優(yōu)勢(shì)更為明顯。在MATH數(shù)據(jù)集上,SkillOrchestra達(dá)到了55.8%的準(zhǔn)確率,相比Router-R1的25.0%提升了30.8個(gè)百分點(diǎn)。在AMC23數(shù)據(jù)集上,提升幅度更是達(dá)到了驚人的22.5個(gè)百分點(diǎn)(從52.5%提升到75.6%)。這種提升幅度在AI研究中是非常罕見(jiàn)的。

成本效益分析顯示了SkillOrchestra的另一個(gè)重要優(yōu)勢(shì)。雖然有些模型的單次調(diào)用價(jià)格更高,但SkillOrchestra通過(guò)智能的模型選擇和更短的推理鏈,實(shí)際上降低了總體成本。比如,Router-R1在達(dá)到41.6%準(zhǔn)確率時(shí)花費(fèi)了51.8美分,而SkillOrchestra在達(dá)到更高的47.4%準(zhǔn)確率時(shí)只花費(fèi)了38.4美分。

路由行為分析揭示了SkillOrchestra解決"路由崩塌"問(wèn)題的能力。Router-R1顯示出嚴(yán)重的路由崩塌現(xiàn)象,98.02%的調(diào)用都集中在LLaMA-3.1-70B這一個(gè)昂貴的大型模型上,其他模型幾乎沒(méi)有被使用。相比之下,SkillOrchestra展現(xiàn)出更均衡的路由模式:Mixtral-8×22B被使用44.53%的時(shí)間,Qwen2.5-7B被使用25.99%的時(shí)間,LLaMA-3.1-70B只被使用15.38%的時(shí)間,其余時(shí)間使用更輕量的模型。

這種均衡的路由模式反映了真正基于能力的專(zhuān)業(yè)化分工。強(qiáng)大的模型只在真正需要時(shí)被調(diào)用,而較簡(jiǎn)單的任務(wù)則由相對(duì)輕量的模型處理。這不僅提高了成本效益,也確保了系統(tǒng)資源的合理利用。

在完整智能體編排測(cè)試中,SkillOrchestra在FRAMES基準(zhǔn)上達(dá)到了84.3%的準(zhǔn)確率,同時(shí)將成本控制在72.7美元。相比之下,通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的ToolOrchestra雖然準(zhǔn)確率也不錯(cuò)(76.3%),但成本高達(dá)92.7美元。SkillOrchestra不僅在準(zhǔn)確率上提升了8個(gè)百分點(diǎn),還在成本上節(jié)省了21.6%。

更令人印象深刻的是,SkillOrchestra甚至超越了一些強(qiáng)大的專(zhuān)有模型編排器,如GPT-5(74.6%準(zhǔn)確率,120.4美元成本)和Claude Opus 4.5(77.9%準(zhǔn)確率,758.1美元成本)。這證明了通過(guò)明確的技能建模和智能編排,即使使用相對(duì)較小的開(kāi)源模型,也能達(dá)到甚至超越大型專(zhuān)有模型的性能。

六、技能手冊(cè)的可遷移性驗(yàn)證

SkillOrchestra最令人興奮的特性之一是其學(xué)習(xí)到的技能手冊(cè)可以在不同的編排器之間遷移使用,這就像一本精心編寫(xiě)的操作手冊(cè)可以幫助不同經(jīng)驗(yàn)水平的操作員都提高工作效率一樣。這種可遷移性解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)方法的一個(gè)重大痛點(diǎn):每當(dāng)更換編排器模型或更新模型池時(shí),都需要重新進(jìn)行昂貴的訓(xùn)練過(guò)程。

研究團(tuán)隊(duì)通過(guò)一個(gè)精心設(shè)計(jì)的遷移實(shí)驗(yàn)驗(yàn)證了這種可遷移性。他們首先使用Qwen2.5-3B作為編排器來(lái)學(xué)習(xí)技能手冊(cè),然后將這個(gè)手冊(cè)直接應(yīng)用到其他不同的編排器模型上,包括Qwen2.5-7B、Llama3.1-8B、Mistral-7B和Mixtral-8x22B,無(wú)需進(jìn)行任何額外的訓(xùn)練。

實(shí)驗(yàn)結(jié)果令人印象深刻。原本使用的Qwen2.5-3B編排器本身就從40.7%的準(zhǔn)確率提升到了56.1%,凈提升15.4個(gè)百分點(diǎn)。當(dāng)技能手冊(cè)遷移到其他模型時(shí),提升效果同樣顯著甚至更好:Qwen2.5-7B從35.7%提升到60.0%,提升24.3個(gè)百分點(diǎn);Llama3.1-8B從35.5%提升到58.0%,提升22.5個(gè)百分點(diǎn);Mistral-7B從36.5%提升到59.8%,提升23.3個(gè)百分點(diǎn);即便是更大規(guī)模的Mixtral-8x22B也從46.5%提升到61.3%,提升14.8個(gè)百分點(diǎn)。

這種遷移性能的一致性提升表明,技能手冊(cè)捕獲了與特定模型無(wú)關(guān)的通用編排知識(shí)。就像一個(gè)好的項(xiàng)目管理方法論可以被不同背景的項(xiàng)目經(jīng)理成功運(yùn)用一樣,SkillOrchestra學(xué)習(xí)到的技能知識(shí)具有普遍適用性。

特別值得注意的是,更強(qiáng)大的編排器模型在使用遷移的技能手冊(cè)時(shí)往往能達(dá)到更高的絕對(duì)性能。這表明技能手冊(cè)和編排器能力是互補(bǔ)的:好的技能指導(dǎo)能讓有能力的編排器發(fā)揮出更大潛力。這種協(xié)同效應(yīng)就像優(yōu)秀的樂(lè)譜能讓技藝高超的音樂(lè)家演奏出更完美的音樂(lè)一樣。

遷移實(shí)驗(yàn)還揭示了技能手冊(cè)的另一個(gè)重要特性:它是模型無(wú)關(guān)的。這意味著隨著新的、更強(qiáng)大的編排器模型的出現(xiàn),現(xiàn)有的技能手冊(cè)可以立即被利用,而無(wú)需從零開(kāi)始重新學(xué)習(xí)。這大大降低了系統(tǒng)升級(jí)和維護(hù)的成本,使得SkillOrchestra具有很好的可持續(xù)性和擴(kuò)展性。

這種可遷移性在實(shí)際部署中具有巨大的價(jià)值。在真實(shí)的生產(chǎn)環(huán)境中,模型池可能會(huì)頻繁更新,新的模型會(huì)被添加進(jìn)來(lái),舊的模型可能會(huì)被替換。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法每次都需要重新訓(xùn)練,這不僅成本高昂,還可能導(dǎo)致系統(tǒng)性能的臨時(shí)下降。而SkillOrchestra的技能手冊(cè)可以立即適用于新的配置,大大提高了系統(tǒng)的靈活性和維護(hù)效率。

七、組件貢獻(xiàn)度分析與系統(tǒng)優(yōu)化

為了深入理解SkillOrchestra各個(gè)組件的重要性,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),就像拆解一臺(tái)精密機(jī)器來(lái)了解每個(gè)部件的作用一樣。這些實(shí)驗(yàn)在100個(gè)隨機(jī)選擇的FRAMES任務(wù)上進(jìn)行,系統(tǒng)性地測(cè)試了移除不同組件對(duì)整體性能的影響。

實(shí)驗(yàn)結(jié)果揭示了技能手冊(cè)對(duì)系統(tǒng)性能的關(guān)鍵作用。當(dāng)完全移除技能手冊(cè)時(shí),系統(tǒng)準(zhǔn)確率從85.0%急劇下降到71.0%,同時(shí)成本從9.3美元飆升到122.9美元。這種性能和效率的雙重惡化說(shuō)明,沒(méi)有結(jié)構(gòu)化的技能指導(dǎo),編排系統(tǒng)就像失去導(dǎo)航的船只,不僅找不到正確方向,還會(huì)浪費(fèi)大量資源在錯(cuò)誤的路徑上。

使用未經(jīng)完善的原始技能集時(shí),系統(tǒng)仍能達(dá)到79.0%的合理準(zhǔn)確率,成本控制在5.5美元的較低水平。這表明即使是粗糙的技能分類(lèi)也能提供有價(jià)值的路由信號(hào)。然而,當(dāng)啟用技能完善機(jī)制后,成本進(jìn)一步降低到3.4美元,準(zhǔn)確率保持在79.3%的相似水平。這說(shuō)明通過(guò)合并冗余技能和分拆模糊技能,系統(tǒng)能夠提高決策效率。

細(xì)致技能分類(lèi)的重要性通過(guò)另一個(gè)對(duì)比實(shí)驗(yàn)得到驗(yàn)證。當(dāng)禁用細(xì)致技能而只使用寬泛類(lèi)別時(shí),準(zhǔn)確率下降到80.4%,成本上升到15.1美元。這種性能和效率的雙重下降表明,適當(dāng)?shù)募寄芗?xì)致程度對(duì)于精確的編排決策至關(guān)重要。過(guò)于寬泛的技能類(lèi)別無(wú)法提供足夠的區(qū)分度,導(dǎo)致次優(yōu)的智能體選擇。

最完整的系統(tǒng)配置(包含技能發(fā)現(xiàn)、完善、選擇和細(xì)致技能分類(lèi))達(dá)到了85.0%的準(zhǔn)確率和9.3美元的成本,在所有配置中實(shí)現(xiàn)了最佳的性能-成本平衡。這證明了SkillOrchestra各個(gè)組件之間的協(xié)同效應(yīng),每個(gè)組件都為整體性能做出了獨(dú)特的貢獻(xiàn)。

這些實(shí)驗(yàn)還揭示了一個(gè)重要的設(shè)計(jì)原則:更多的技能并不總是更好。關(guān)鍵在于找到與編排器能力相匹配的適當(dāng)技能粒度。就像給不同技能水平的廚師提供不同詳細(xì)程度的食譜一樣,編排器也需要適合其推理能力的技能指導(dǎo)。過(guò)于復(fù)雜的技能分類(lèi)可能會(huì)讓簡(jiǎn)單的編排器"消化不良",而過(guò)于簡(jiǎn)單的分類(lèi)則無(wú)法充分發(fā)揮強(qiáng)大編排器的潛力。

組件分析還顯示了技能選擇機(jī)制的價(jià)值。通過(guò)帕累托最優(yōu)驗(yàn)證來(lái)選擇合適的技能手冊(cè)版本,系統(tǒng)能夠在不同的性能-成本權(quán)衡點(diǎn)之間做出明智選擇。這種個(gè)性化的手冊(cè)選擇確保了每個(gè)編排器都能在其能力范圍內(nèi)實(shí)現(xiàn)最佳表現(xiàn)。

這些發(fā)現(xiàn)對(duì)系統(tǒng)部署具有重要的指導(dǎo)意義。它們表明,雖然完整的SkillOrchestra系統(tǒng)能夠提供最佳性能,但即使是簡(jiǎn)化版本也能帶來(lái)顯著改進(jìn)。這為在不同資源約束和性能要求下的系統(tǒng)部署提供了靈活性。

說(shuō)到底,SkillOrchestra代表了AI編排領(lǐng)域的一次重要突破。它不是簡(jiǎn)單地教會(huì)AI系統(tǒng)如何在模型之間做選擇,而是讓它們學(xué)會(huì)了理解能力的本質(zhì)和任務(wù)的需求。就像從簡(jiǎn)單的工人分配發(fā)展到專(zhuān)業(yè)化的項(xiàng)目管理一樣,這種從模型路由到技能編排的轉(zhuǎn)變,標(biāo)志著復(fù)合AI系統(tǒng)走向了更加智能和高效的時(shí)代。

更令人興奮的是,這項(xiàng)技術(shù)的影響遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)研究的范圍。在實(shí)際應(yīng)用中,SkillOrchestra可能會(huì)改變我們構(gòu)建和部署AI系統(tǒng)的方式。企業(yè)不再需要為每個(gè)新任務(wù)重新訓(xùn)練整套編排系統(tǒng),而是可以利用已有的技能知識(shí)快速適應(yīng)新的需求。這種可遷移性和可擴(kuò)展性使得高質(zhì)量的AI編排不再是大公司的專(zhuān)利,中小企業(yè)和研究機(jī)構(gòu)也能以更低的成本獲得先進(jìn)的AI協(xié)調(diào)能力。

當(dāng)然,這項(xiàng)研究也為未來(lái)的發(fā)展指明了方向。隨著AI模型變得越來(lái)越專(zhuān)業(yè)化,技能感知編排的重要性只會(huì)繼續(xù)增長(zhǎng)。未來(lái)的研究可能會(huì)探索如何讓系統(tǒng)自動(dòng)發(fā)現(xiàn)新的技能類(lèi)別,如何處理技能之間的復(fù)雜依賴(lài)關(guān)系,以及如何在更大規(guī)模的模型生態(tài)系統(tǒng)中進(jìn)行高效編排。

對(duì)于普通人來(lái)說(shuō),SkillOrchestra的成功意味著我們將看到更智能、更高效、成本更低的AI應(yīng)用。無(wú)論是在客戶(hù)服務(wù)、內(nèi)容創(chuàng)作、數(shù)據(jù)分析還是科學(xué)研究中,這種技能感知的編排方法都能讓AI系統(tǒng)更好地理解我們的需求,提供更精準(zhǔn)的服務(wù)。這不僅是技術(shù)的進(jìn)步,更是向著真正智能化的人機(jī)協(xié)作邁出的重要一步。

Q&A

Q1:SkillOrchestra是什么?

A:SkillOrchestra是威斯康星大學(xué)和Salesforce聯(lián)合開(kāi)發(fā)的AI編排框架,它讓多個(gè)AI模型像交響樂(lè)團(tuán)一樣協(xié)同工作。不同于傳統(tǒng)方法簡(jiǎn)單分配任務(wù),SkillOrchestra會(huì)分析任務(wù)需要什么技能,然后選擇最擅長(zhǎng)這些技能且成本合適的AI模型來(lái)執(zhí)行,就像根據(jù)菜譜需求選擇最合適的廚師一樣。

Q2:SkillOrchestra比現(xiàn)有方法強(qiáng)在哪里?

A:SkillOrchestra在準(zhǔn)確率上比最先進(jìn)方法提升了22.5%,同時(shí)學(xué)習(xí)成本降低了幾百倍。更重要的是它解決了"路由崩塌"問(wèn)題——傳統(tǒng)方法會(huì)過(guò)度依賴(lài)某個(gè)昂貴模型,而SkillOrchestra能夠均衡使用不同模型,實(shí)現(xiàn)更好的性能和成本控制。

Q3:技能手冊(cè)可以在不同AI系統(tǒng)之間共享嗎?

A:可以的,這是SkillOrchestra的一大優(yōu)勢(shì)。一旦建立了技能手冊(cè),它就可以直接應(yīng)用到其他AI編排系統(tǒng)中,無(wú)需重新訓(xùn)練。實(shí)驗(yàn)顯示,將技能手冊(cè)遷移到不同模型后,性能提升都在15-24個(gè)百分點(diǎn)之間,大大降低了系統(tǒng)更新和維護(hù)成本。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國(guó)石油歷史上9次漲停

中國(guó)石油歷史上9次漲停

貝殼財(cái)經(jīng)
2026-03-02 15:43:25
為何說(shuō)美國(guó)打伊朗實(shí)際針對(duì)的是中國(guó)?我們會(huì)不會(huì)出手取決一個(gè)條件

為何說(shuō)美國(guó)打伊朗實(shí)際針對(duì)的是中國(guó)?我們會(huì)不會(huì)出手取決一個(gè)條件

阿胡
2026-03-02 11:53:54
36歲副鎮(zhèn)長(zhǎng)開(kāi)會(huì)時(shí)腦出血暈倒,除夕當(dāng)天不幸離世:上任僅10余天,最后一條動(dòng)態(tài)為督促社火排練,留下3個(gè)孩子

36歲副鎮(zhèn)長(zhǎng)開(kāi)會(huì)時(shí)腦出血暈倒,除夕當(dāng)天不幸離世:上任僅10余天,最后一條動(dòng)態(tài)為督促社火排練,留下3個(gè)孩子

極目新聞
2026-03-02 15:45:15
哈梅內(nèi)伊的繼任者們沒(méi)有顯示任何投降跡象,甚至可能更激進(jìn)

哈梅內(nèi)伊的繼任者們沒(méi)有顯示任何投降跡象,甚至可能更激進(jìn)

Nee看
2026-03-02 18:16:41
以軍轟炸黎巴嫩首都

以軍轟炸黎巴嫩首都

界面新聞
2026-03-02 08:53:26
伊朗反擊太快,只給以2小時(shí),導(dǎo)彈從天而降,以色列民眾抱頭鼠竄

伊朗反擊太快,只給以2小時(shí),導(dǎo)彈從天而降,以色列民眾抱頭鼠竄

書(shū)紀(jì)文譚
2026-03-02 17:24:46
內(nèi)賈德沒(méi)有死,秘書(shū)公布遇襲細(xì)節(jié)

內(nèi)賈德沒(méi)有死,秘書(shū)公布遇襲細(xì)節(jié)

世家寶
2026-03-02 14:06:27
伊朗貨幣一夜貶值97%,對(duì)普通人來(lái)說(shuō)這否是時(shí)代的塵埃落在肩上?

伊朗貨幣一夜貶值97%,對(duì)普通人來(lái)說(shuō)這否是時(shí)代的塵埃落在肩上?

聞號(hào)說(shuō)經(jīng)濟(jì)
2026-03-02 17:08:38
3月3日元宵節(jié),牢記:1不留,2不洗,3不穿,4不空!馬年大吉

3月3日元宵節(jié),牢記:1不留,2不洗,3不穿,4不空!馬年大吉

阿龍美食記
2026-03-01 16:17:49
涉美伊局勢(shì),復(fù)旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國(guó)內(nèi)的一些自媒體造謠,這些人臉都不要了”

涉美伊局勢(shì),復(fù)旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國(guó)內(nèi)的一些自媒體造謠,這些人臉都不要了”

都市快報(bào)橙柿互動(dòng)
2026-03-02 15:33:41
《大西洋月刊》丨所有人的目光都投向了古巴

《大西洋月刊》丨所有人的目光都投向了古巴

邸報(bào)
2026-03-02 10:33:45
報(bào)告!伊朗戰(zhàn)場(chǎng)導(dǎo)彈精準(zhǔn)命中恒生科技

報(bào)告!伊朗戰(zhàn)場(chǎng)導(dǎo)彈精準(zhǔn)命中恒生科技

民工看市
2026-03-02 12:21:21
參宿四爆炸后,地球夜空會(huì)亮如白晝,至少半年不用開(kāi)燈了

參宿四爆炸后,地球夜空會(huì)亮如白晝,至少半年不用開(kāi)燈了

觀察宇宙
2026-03-02 19:09:35
78:72爆冷!世預(yù)賽B組大亂,中國(guó)男籃自挖苦坑,日本隊(duì)坐收漁利

78:72爆冷!世預(yù)賽B組大亂,中國(guó)男籃自挖苦坑,日本隊(duì)坐收漁利

行舟問(wèn)茶
2026-03-02 12:06:53
演都不演了!剛復(fù)出就開(kāi)演唱會(huì),票價(jià)賣(mài)到1280,到底誰(shuí)給的自信

演都不演了!剛復(fù)出就開(kāi)演唱會(huì),票價(jià)賣(mài)到1280,到底誰(shuí)給的自信

樂(lè)悠悠娛樂(lè)
2026-03-01 10:27:25
中國(guó)與伊朗接近達(dá)成超音速導(dǎo)彈采購(gòu)協(xié)議?外交部:不屬實(shí)!

中國(guó)與伊朗接近達(dá)成超音速導(dǎo)彈采購(gòu)協(xié)議?外交部:不屬實(shí)!

澎湃新聞
2026-03-02 15:36:40
黃金都靠邊站!2026年最瘋漲的,竟是你隨手扔的舊東西

黃金都靠邊站!2026年最瘋漲的,竟是你隨手扔的舊東西

小陸搞笑日常
2026-03-02 01:34:50
西班牙拒絕美方使用其基地打擊伊朗

西班牙拒絕美方使用其基地打擊伊朗

新華社
2026-03-02 23:40:05
伊朗4枚彈道導(dǎo)彈“突襲”美軍航母,卻變成一場(chǎng)“昂貴的煙花秀”

伊朗4枚彈道導(dǎo)彈“突襲”美軍航母,卻變成一場(chǎng)“昂貴的煙花秀”

矚望云霄
2026-03-02 10:49:12
英國(guó)、法國(guó)和德國(guó)聯(lián)合聲明

英國(guó)、法國(guó)和德國(guó)聯(lián)合聲明

澎湃新聞
2026-03-02 10:11:31
2026-03-03 02:15:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7408文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

蘋(píng)果中國(guó)官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國(guó)留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國(guó)留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂(lè)要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車(chē)要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

教育
房產(chǎn)
藝術(shù)
數(shù)碼
手機(jī)

教育要聞

特別猛,但在留學(xué)生心中存在感很低的英國(guó)大學(xué)!

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫#钟袝?shū)包大盤(pán)殺出!

藝術(shù)要聞

這四位老人的花鳥(niǎo)畫(huà),竟讓人欲罷不能!

數(shù)碼要聞

高通MWC 2026發(fā)布多項(xiàng)通信技術(shù),定檔2029年開(kāi)啟6G商用

手機(jī)要聞

iPhone 17e發(fā)布:4499元起,e系列首次搭載靈動(dòng)島

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版