国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI助手實(shí)現(xiàn)關(guān)系網(wǎng)絡(luò)驅(qū)動(dòng)工具檢索超越搜索引擎能力突破

0
分享至


這項(xiàng)由賓夕法尼亞大學(xué)、馬里蘭大學(xué)、布朗大學(xué)、卡內(nèi)基梅隆大學(xué)和里海大學(xué)聯(lián)合開展的研究,以預(yù)印本形式于2026年4月8日發(fā)布在arXiv平臺(tái),論文編號(hào)為arXiv:2604.05333v2,歸屬計(jì)算機(jī)人工智能領(lǐng)域。感興趣的讀者可以通過該編號(hào)查閱完整論文。

一、從"工具箱太大"說起

假設(shè)你是一名廚師,要做一道復(fù)雜的法式菜肴。你的廚房里有兩千種調(diào)料、器具和食材,但每次做菜前,你的助手會(huì)把所有東西一股腦兒堆在你的料理臺(tái)上。料理臺(tái)只有那么大,東西太多,你反而不知道從哪里下手,甚至把鹽和糖搞混了,把最重要的黃油壓在最底層找不到。

這個(gè)場(chǎng)景幾乎完美地描述了現(xiàn)代AI助手在處理大型技能庫(kù)時(shí)面臨的困境。今天的AI"代理"系統(tǒng)(可以理解為能夠自主完成任務(wù)的智能助手)越來越依賴外部"技能包"來增強(qiáng)能力。這些技能包就像是一份份操作手冊(cè):告訴AI如何調(diào)用某個(gè)API、如何處理特定格式的數(shù)據(jù)、如何完成某個(gè)特定的技術(shù)任務(wù)。當(dāng)技能庫(kù)規(guī)模還小的時(shí)候,把所有手冊(cè)一次性塞給AI沒什么問題。但當(dāng)技能庫(kù)增長(zhǎng)到幾百、幾千個(gè)技能時(shí),麻煩就來了。

研究團(tuán)隊(duì)把這個(gè)核心矛盾描述得很清晰:把整個(gè)技能庫(kù)塞進(jìn)AI的"工作記憶"(也就是上下文窗口)會(huì)導(dǎo)致三個(gè)連鎖問題。第一是費(fèi)錢,處理的文字越多,消耗的計(jì)算資源就越多,成本線性增長(zhǎng)。第二是出錯(cuò),當(dāng)信息量過載時(shí),AI反而容易忽略關(guān)鍵的限制條件和操作規(guī)范,就像那位被堆滿料理臺(tái)搞暈的廚師。第三是變慢,處理大量無關(guān)信息讓整個(gè)系統(tǒng)響應(yīng)遲緩。

面對(duì)這個(gè)問題,已有的解決方案是"向量檢索"——通過語(yǔ)義相似度搜索,提前篩選出和當(dāng)前任務(wù)最相關(guān)的幾個(gè)技能推送給AI,而不是把所有技能都塞過去。這就像給廚師配了一個(gè)助手,會(huì)根據(jù)今天要做什么菜提前備好幾樣最相關(guān)的食材,而不是把整個(gè)倉(cāng)庫(kù)搬過來。這個(gè)思路本身沒錯(cuò),但問題在于,語(yǔ)義上"相關(guān)"并不等于"能用"。

以一道復(fù)雜菜肴為例:AI需要的頂層技能(比如"用Gemini模型計(jì)數(shù)視頻中的行人")通過語(yǔ)義搜索可以很容易找到,因?yàn)槿蝿?wù)描述里有"行人""計(jì)數(shù)""視頻"這些關(guān)鍵詞。但要真正完成這個(gè)任務(wù),AI還需要一個(gè)"視頻幀提取"技能來先把視頻切成一幀幀圖片,再喂給計(jì)數(shù)模型。"視頻幀提取"這個(gè)技能在語(yǔ)義上跟"行人計(jì)數(shù)"并不那么接近,純靠語(yǔ)義搜索很可能漏掉它。缺了這個(gè)關(guān)鍵的"前置步驟",整個(gè)任務(wù)就無法完成。研究團(tuán)隊(duì)把這個(gè)現(xiàn)象稱為"前置條件缺口"(prerequisite gap),它是純向量檢索在復(fù)雜任務(wù)上頻頻失手的根本原因。

二、用"人脈網(wǎng)絡(luò)"而非"關(guān)鍵詞搜索"來找技能

研究團(tuán)隊(duì)提出的解決方案叫做"技能圖譜"(Graph of Skills,簡(jiǎn)稱GoS)。核心思路是:與其單獨(dú)評(píng)估每個(gè)技能和任務(wù)的相似程度,不如先把所有技能之間的依賴關(guān)系和協(xié)作關(guān)系梳理成一張網(wǎng)絡(luò)圖,然后在檢索時(shí)順著這張關(guān)系網(wǎng)去找。

可以用求職時(shí)的"人脈推薦"來理解這個(gè)邏輯。假設(shè)你要找一位擅長(zhǎng)機(jī)器學(xué)習(xí)的工程師??亢?jiǎn)歷關(guān)鍵詞搜索,你能快速找到那些簡(jiǎn)歷里寫著"機(jī)器學(xué)習(xí)"的人。但靠人脈網(wǎng)絡(luò),你還能順藤摸瓜:認(rèn)識(shí)機(jī)器學(xué)習(xí)工程師的人,往往也認(rèn)識(shí)數(shù)據(jù)工程師、算法研究員,甚至是云計(jì)算專家——這些人可能簡(jiǎn)歷里沒有直接寫"機(jī)器學(xué)習(xí)",但他們對(duì)于完成一個(gè)完整的機(jī)器學(xué)習(xí)項(xiàng)目同樣不可或缺。GoS對(duì)技能庫(kù)做的事情,正是如此。

整個(gè)系統(tǒng)分成兩個(gè)階段運(yùn)行,就像一家公司同時(shí)維護(hù)著"內(nèi)部知識(shí)地圖"和"即時(shí)查詢服務(wù)"兩套系統(tǒng)一樣。

第一個(gè)階段是"離線建圖",這個(gè)階段在任務(wù)到來之前就已經(jīng)完成。系統(tǒng)會(huì)把技能庫(kù)里的每一個(gè)技能包解析成標(biāo)準(zhǔn)化的記錄,提取出這個(gè)技能的名稱、核心能力描述、輸入輸出格式、所屬領(lǐng)域、使用的工具、示例任務(wù)等關(guān)鍵信息。這個(gè)解析過程優(yōu)先依賴確定性規(guī)則,從每個(gè)技能包的規(guī)范文檔(SKILL.md文件)里直接讀取結(jié)構(gòu)化字段,只有當(dāng)文檔信息不完整時(shí),才會(huì)調(diào)用一個(gè)輕量級(jí)的語(yǔ)言模型來補(bǔ)全缺失的語(yǔ)義字段——但即便這樣,語(yǔ)言模型只被允許填充單個(gè)技能節(jié)點(diǎn)的屬性,絕對(duì)不被允許自行編造技能之間的關(guān)系。這種設(shè)計(jì)哲學(xué)體現(xiàn)了一種工程上的謹(jǐn)慎:寧可信息少一些,也不要引入錯(cuò)誤的關(guān)系。

在梳理完每個(gè)技能的基本屬性之后,系統(tǒng)開始在技能之間建立連接關(guān)系,共有四種類型的邊。最重要的是"依賴邊":如果技能A的輸出恰好是技能B的輸入,那么A和B之間就存在依賴關(guān)系——A是B的前置條件。其次是"流程邊",描述兩個(gè)技能在實(shí)際工作中經(jīng)常被順序組合使用。再有"語(yǔ)義邊",連接功能上高度相近的技能。最后是"替代邊",標(biāo)記那些解決同一個(gè)子問題但實(shí)現(xiàn)方式不同的技能。每種連接類型被賦予了不同的權(quán)重,依賴關(guān)系的權(quán)重最高(1.0),依次是流程關(guān)系(0.5)、語(yǔ)義關(guān)系(0.2)和替代關(guān)系(0.1),反映了它們?cè)趲椭鶤I完成任務(wù)時(shí)的重要程度差異。

值得特別說明的是,非依賴類的關(guān)系并非通過全量比較所有技能對(duì)來建立,而是先用詞法相似度、語(yǔ)義近鄰搜索和輸入輸出擴(kuò)展三種方式為每個(gè)節(jié)點(diǎn)生成一個(gè)小的候選池,再在這個(gè)候選池內(nèi)部進(jìn)行精確驗(yàn)證。這種"粗篩后精驗(yàn)"的設(shè)計(jì)保證了建圖過程的效率,也保證了最終圖譜的精準(zhǔn)度。

第二個(gè)階段是"在線檢索",每當(dāng)新任務(wù)到來時(shí)實(shí)時(shí)觸發(fā)。給定一個(gè)任務(wù)描述,系統(tǒng)首先進(jìn)行混合播種:同時(shí)運(yùn)行向量語(yǔ)義檢索和詞法關(guān)鍵詞檢索,將二者的評(píng)分按照一個(gè)可調(diào)節(jié)的權(quán)重參數(shù)η融合起來,得到初始的"種子技能"集合。語(yǔ)義檢索擅長(zhǎng)找到主題相關(guān)的技能,詞法檢索則對(duì)具體的文件名、API名稱、操作類型等具體表述更敏感,兩者互補(bǔ)形成的種子集比任何單一方式都更全面。

接下來,系統(tǒng)以這些種子技能為起點(diǎn),在技能圖譜上進(jìn)行"反向感知傳播"。這里用到的算法叫做個(gè)性化PageRank(PPR),它的名字來自于谷歌最初用來給網(wǎng)頁(yè)排名的核心算法,但在GoS中被做了一個(gè)關(guān)鍵改造:除了沿著邊的正向方向傳播相關(guān)性分值,系統(tǒng)還會(huì)沿著邊的反向方向傳播。這意味著一旦一個(gè)高層次的技能被識(shí)別為相關(guān),系統(tǒng)會(huì)自動(dòng)追溯它的上游——那些提供輸入、進(jìn)行預(yù)處理的前置技能。就像順著一條河流不僅能找到它流向哪里,還能往上游追溯找到它從哪里來。反向傳播的力度對(duì)依賴邊最強(qiáng),對(duì)其他類型的邊依次減弱,與之前賦予各類邊的權(quán)重體系保持一致。

傳播收斂之后,得到了每個(gè)技能的圖譜分值。但這個(gè)分值還不是最終結(jié)果。系統(tǒng)會(huì)進(jìn)一步將圖譜分值與字段級(jí)的直接證據(jù)(技能名稱、能力描述、輸入輸出信息是否與任務(wù)描述有直接匹配)結(jié)合起來進(jìn)行重排序。最后,按照重排序的結(jié)果,在既定的上下文預(yù)算限制下,依次將技能具體化為AI可以直接使用的內(nèi)容包,每個(gè)包含穩(wěn)定的本地路徑、簡(jiǎn)潔的能力描述和最相關(guān)的執(zhí)行說明。最終交付給AI的,是一個(gè)精煉的、依賴關(guān)系盡可能完整的技能執(zhí)行包。

這整個(gè)流程可以用一個(gè)生動(dòng)的比喻來描述:GoS像一個(gè)經(jīng)驗(yàn)豐富的圖書館員,不但知道你問的那本書在哪里,還知道要讀懂這本書,你還需要先看哪幾本參考書,而且會(huì)把它們一起整理好放在你的桌上,而不只是遞給你那一本你點(diǎn)名要的書。

三、實(shí)驗(yàn)結(jié)果:在兩個(gè)測(cè)試場(chǎng)地上"考試"

研究團(tuán)隊(duì)在兩個(gè)不同性質(zhì)的測(cè)試平臺(tái)上驗(yàn)證了GoS的效果,分別是SkillsBench和ALFWorld。

SkillsBench是一個(gè)專門為評(píng)估技能增強(qiáng)AI代理設(shè)計(jì)的基準(zhǔn)測(cè)試,包含來自11個(gè)不同技術(shù)領(lǐng)域的真實(shí)任務(wù),覆蓋了宏觀經(jīng)濟(jì)去趨勢(shì)化分析、電力網(wǎng)絡(luò)可行性分析、三維掃描數(shù)據(jù)處理、金融建模、地震相位拾取等高度專業(yè)化的場(chǎng)景。這些任務(wù)的共同特點(diǎn)是"長(zhǎng)鏈?zhǔn)?——需要把多個(gè)步驟串聯(lián)起來,缺少任何一個(gè)環(huán)節(jié)都無法完成。

ALFWorld則是一個(gè)完全不同風(fēng)格的測(cè)試:它模擬的是一個(gè)文字描述的家庭環(huán)境,AI代理需要通過一系列指令(比如"走進(jìn)臥室,找到枕頭,把它放到床上")完成多步驟的家居任務(wù)。在這個(gè)測(cè)試中,任務(wù)獎(jiǎng)勵(lì)是二值的——要么完成(得1分),要么沒完成(得0分),所以平均獎(jiǎng)勵(lì)就等于成功率。研究團(tuán)隊(duì)使用了完整的140個(gè)測(cè)試場(chǎng)景。

對(duì)比實(shí)驗(yàn)設(shè)置了兩個(gè)基準(zhǔn)方法。"全量加載"基準(zhǔn)(Vanilla Skills)把整個(gè)技能庫(kù)原封不動(dòng)地塞給AI,代表最樸素的"啥都給你"策略。"向量檢索"基準(zhǔn)(Vector Skills)用和GoS完全相同的embedding模型(OpenAI的text-embedding-3-large,3072維)進(jìn)行語(yǔ)義檢索,檢索出一個(gè)有限大小的技能集合,代表"只給相關(guān)的"但不考慮結(jié)構(gòu)依賴的策略。GoS使用相同的embedding模型,但在向量檢索的基礎(chǔ)上疊加了圖譜結(jié)構(gòu)感知的檢索。三個(gè)方法都在三個(gè)不同的語(yǔ)言模型上運(yùn)行:Claude Sonnet 4.5、MiniMax M2.7和GPT-5.2 Codex,每個(gè)設(shè)置運(yùn)行兩次取平均值。

實(shí)驗(yàn)結(jié)果相當(dāng)有說服力。在SkillsBench上,GoS在所有三個(gè)模型下均超越了全量加載和向量檢索兩個(gè)基準(zhǔn)。具體數(shù)字是:在Claude Sonnet 4.5下,全量加載平均獎(jiǎng)勵(lì)25.0分,向量檢索19.3分,GoS達(dá)到31.0分;在MiniMax M2.7下,三者分別是17.2分、10.4分和18.7分;在GPT-5.2 Codex下,是27.4分、21.5分和34.4分。

這里有一個(gè)非常有意思的現(xiàn)象值得關(guān)注:向量檢索在SkillsBench上的表現(xiàn)不但沒有超過全量加載,反而全部低于全量加載。換句話說,"只給相關(guān)技能"比"給所有技能"效果更差。原因正是前置條件缺口——向量檢索找到了最頂層的相關(guān)技能,但漏掉了那些語(yǔ)義上不夠顯眼卻功能上必不可少的前置工具,導(dǎo)致AI拿著"不完整的菜譜"反而更容易出錯(cuò),還不如直接把整個(gè)菜譜庫(kù)都給它翻。GoS通過圖譜傳播補(bǔ)上了這個(gè)缺口,在減少上下文負(fù)擔(dān)的同時(shí)反而提升了完成質(zhì)量。

ALFWorld上的結(jié)果顯示了另一個(gè)角度的優(yōu)勢(shì)。在這個(gè)更接近"日常操作"而非"專業(yè)技術(shù)"的測(cè)試中,GoS依然是最優(yōu)的:Claude下成功率從89.3%(全量)或93.6%(向量)提升到97.9%,同時(shí)把平均令牌消耗從152萬降到2.7萬,節(jié)省了98%的上下文用量。MiniMax下,GoS把成功率從47.1%提升到54.3%,同時(shí)也實(shí)現(xiàn)了最低的令牌消耗和最短的運(yùn)行時(shí)間。GPT下,GoS和向量檢索的成功率接近(93.6%對(duì)比92.9%),但GoS依然遠(yuǎn)比全量加載節(jié)省資源。

值得一提的是,在GPT-5.2 Codex上,全量加載的運(yùn)行時(shí)間有時(shí)反而比檢索方法更短,研究團(tuán)隊(duì)認(rèn)為這可能是由于GPT對(duì)固定技能庫(kù)有某種緩存機(jī)制,而Claude和MiniMax則沒有這種優(yōu)化——在這兩個(gè)模型上,全量加載的運(yùn)行時(shí)間顯著高于檢索方法。

四、規(guī)模敏感性:技能庫(kù)越大,GoS的優(yōu)勢(shì)越明顯

研究團(tuán)隊(duì)還專門做了一組規(guī)模敏感性實(shí)驗(yàn),把技能庫(kù)的大小從200個(gè)技能逐步擴(kuò)展到500、1000和2000個(gè),在GPT-5.2 Codex上觀察三種方法的變化趨勢(shì)。

令牌消耗的變化趨勢(shì)最為戲劇性。全量加載的消耗幾乎和技能庫(kù)大小成正比:500個(gè)技能時(shí)平均消耗193萬令牌,2000個(gè)技能時(shí)飆升到584萬令牌,增長(zhǎng)了整整三倍。向量檢索和GoS則展現(xiàn)出幾乎"免疫"于規(guī)模增長(zhǎng)的特性:向量檢索始終維持在110萬到124萬之間,GoS在114萬到138萬之間,規(guī)模擴(kuò)大四倍但令牌消耗幾乎紋絲不動(dòng)。這種差異意味著,隨著技能庫(kù)的擴(kuò)張,GoS帶來的成本節(jié)省效益只會(huì)越來越大。

獎(jiǎng)勵(lì)方面的規(guī)律同樣清晰。在200個(gè)技能的小庫(kù)規(guī)模下,全量加載還保有微弱優(yōu)勢(shì)(32.5分對(duì)比GoS的32.1分),但一旦庫(kù)規(guī)模達(dá)到500個(gè)及以上,GoS就全面領(lǐng)先:500技能時(shí)31.4對(duì)26.0對(duì)20.7,1000技能時(shí)34.4對(duì)27.4對(duì)21.5,2000技能時(shí)31.3對(duì)26.7對(duì)23.8(GoS對(duì)全量對(duì)向量)。這個(gè)規(guī)律表明,GoS的優(yōu)勢(shì)不是來自某個(gè)特殊的數(shù)據(jù)點(diǎn),而是一個(gè)隨著規(guī)模增大而越來越穩(wěn)固的系統(tǒng)性特征。

從最直觀的角度理解:當(dāng)技能庫(kù)只有200本操作手冊(cè)時(shí),把全部200本都推給AI還勉強(qiáng)可以接受;當(dāng)技能庫(kù)增長(zhǎng)到2000本時(shí),推全量不但負(fù)擔(dān)極重,而且AI在一大堆不相關(guān)手冊(cè)中找到正確的那幾本的難度也急劇上升,此時(shí)GoS提前按照依賴關(guān)系整理好"恰好夠用的那幾本"的價(jià)值就格外凸顯。

五、拆解GoS的內(nèi)部機(jī)制:哪個(gè)零件最關(guān)鍵

為了弄清楚GoS內(nèi)部各個(gè)組件的具體貢獻(xiàn),研究團(tuán)隊(duì)在1000技能規(guī)模的SkillsBench上用GPT-5.2 Codex做了消融實(shí)驗(yàn)——也就是每次關(guān)掉系統(tǒng)的一個(gè)功能,看看效果如何變化。

完整GoS的平均獎(jiǎng)勵(lì)是34.4分,平均令牌消耗138萬。拿掉圖譜傳播(即只用混合種子檢索,不做圖譜擴(kuò)散)之后,平均獎(jiǎng)勵(lì)降到29.3分,下降了5.1分,令牌消耗則降到89萬——說明圖譜傳播確實(shí)在帶來更多令牌消耗的同時(shí),有效補(bǔ)充了更多有用的前置技能,從而提升了完成質(zhì)量。拿掉詞法檢索和重排序(即只用語(yǔ)義向量檢索作為種子,不進(jìn)行詞法擴(kuò)充和重排序),平均獎(jiǎng)勵(lì)降到26.7分,下降了7.7分,令牌消耗降到101萬。這個(gè)下降幅度比拿掉圖譜傳播更大,說明在SkillsBench這類高度技術(shù)性的任務(wù)上,初始種子的質(zhì)量極為關(guān)鍵——如果一開始就找到了錯(cuò)誤的或不完整的種子,圖譜傳播也無從補(bǔ)救,就像一張地圖,你出發(fā)點(diǎn)就選錯(cuò)了,再好的導(dǎo)航系統(tǒng)也很難帶你到正確的目的地。

這個(gè)發(fā)現(xiàn)傳遞了一個(gè)重要的設(shè)計(jì)洞察:混合語(yǔ)義-詞法種子和圖譜傳播這兩個(gè)機(jī)制是相互依賴的,它們的價(jià)值不只是簡(jiǎn)單疊加,而是互相放大——更好的種子讓圖譜傳播有更好的起點(diǎn),圖譜傳播再把這個(gè)優(yōu)質(zhì)起點(diǎn)轉(zhuǎn)化成一個(gè)依賴關(guān)系更完整的執(zhí)行束。

六、真實(shí)案例中的對(duì)比:看得見的差距

研究團(tuán)隊(duì)詳細(xì)記錄了10個(gè)真實(shí)任務(wù)案例,對(duì)比三種方法在每個(gè)任務(wù)上實(shí)際使用的技能包和最終得分,讓數(shù)字背后的故事更加具體。

行人流量計(jì)數(shù)任務(wù)非常典型。GoS檢索到了一個(gè)以"Gemini視頻計(jì)數(shù)""視頻幀提取"和"OpenAI視覺"為核心的緊湊技能包,得分0.417。全量加載最終也打開了這些工具,但在整個(gè)龐大的技能庫(kù)里摸索之后只得到0.267分。向量檢索則檢索到了一些奇怪的不相關(guān)技能(比如"Google課堂自動(dòng)化""Salesforce自動(dòng)化"),得分只有0.041分——在向量語(yǔ)義空間里,"行人計(jì)數(shù)"可能碰巧和某些"自動(dòng)化監(jiān)控"主題的技能相近,但這些技能根本無法構(gòu)成一個(gè)可執(zhí)行的視覺分析流水線。

洪水風(fēng)險(xiǎn)分析任務(wù)則展示了GoS在減少"搜索摩擦"上的價(jià)值。正確的執(zhí)行鏈?zhǔn)牵合扔肬SGS數(shù)據(jù)下載技能獲取測(cè)量數(shù)據(jù),再用NWS洪水閾值技能獲取警戒水位,最后用洪水探測(cè)技能進(jìn)行聚合比較。GoS精確地檢索到了這三個(gè)技能,得分1.0。全量加載同樣最終得分1.0,但代價(jià)是AI需要在整個(gè)技能庫(kù)里搜尋才找到正確組合。向量檢索完全失敗,得分0.0——因?yàn)?洪水探測(cè)"的語(yǔ)義空間里混進(jìn)了完全不相關(guān)的技能,無法形成有效的分析鏈。

地震相位關(guān)聯(lián)任務(wù)則是GoS一個(gè)清醒的反面案例。全量加載的AI拼出了一個(gè)更完整的地震處理?xiàng)?,包含了gamma相位關(guān)聯(lián)器、obspy數(shù)據(jù)API、obspy數(shù)據(jù)中心客戶端、SeisBench模型API和地震相位選擇五個(gè)技能,任務(wù)通過。GoS的圖譜檢索只找到了其中三個(gè),混入了一個(gè)不相關(guān)的干擾技能,最終失敗。這說明結(jié)構(gòu)檢索并不是萬能的——當(dāng)圖譜本身在某個(gè)特定領(lǐng)域的覆蓋不夠完整時(shí),檢索到的鄰域也是不完整的,再好的傳播算法也無法彌補(bǔ)圖譜本身的信息缺失。

自適應(yīng)巡航控制任務(wù)提供了另一個(gè)維度的警示。三種方法都檢索到了或多或少相關(guān)的控制技能(PID控制器、車輛動(dòng)力學(xué)、MPC優(yōu)化調(diào)參等),但三種方法全部失敗,得分均為0。這意味著在某些任務(wù)上,檢索質(zhì)量不是決定性瓶頸,能否把一個(gè)合格的技能包轉(zhuǎn)化成通過驗(yàn)證器的解決方案,更多取決于AI本身的推理和規(guī)劃能力。GoS能改善的是"把對(duì)的技能送到對(duì)的地方",但它改變不了"拿到對(duì)的材料之后能否做出正確決策"。

七、系統(tǒng)設(shè)計(jì)背后的工程哲學(xué)

研究團(tuán)隊(duì)在設(shè)計(jì)GoS時(shí)展現(xiàn)出了一種克制而精確的工程哲學(xué),這一點(diǎn)在整個(gè)系統(tǒng)的每個(gè)環(huán)節(jié)都有體現(xiàn)。

在內(nèi)部提示設(shè)計(jì)上,用于補(bǔ)全技能節(jié)點(diǎn)語(yǔ)義信息的語(yǔ)言模型提示被故意寫得極其約束:只允許模型填充節(jié)點(diǎn)自身的屬性字段,明確要求返回空的"邊列表",禁止模型憑借聯(lián)想生成任何關(guān)系。這種設(shè)計(jì)是為了避免AI圖譜構(gòu)建中一個(gè)常見的陷阱——語(yǔ)言模型在沒有足夠證據(jù)的情況下,非常容易"編造"看似合理但實(shí)際錯(cuò)誤的關(guān)系。關(guān)系過度生成會(huì)污染圖譜,讓后續(xù)的傳播步驟沿著錯(cuò)誤的路徑擴(kuò)散。寧可讓圖譜稀疏一些,也要保證它是準(zhǔn)確的。

用于驗(yàn)證技能間關(guān)系的提示同樣遵循這個(gè)原則:只允許輸出四種預(yù)定義的關(guān)系類型之一,要求精確保留技能的原始名稱,并明確指示"不確定時(shí)不輸出任何內(nèi)容"。這讓關(guān)系驗(yàn)證模塊更像是一個(gè)精確的審計(jì)員,而不是一個(gè)腦洞大開的創(chuàng)作者。

在用戶端的接口設(shè)計(jì)上,AI代理被明確要求在寫任何代碼之前必須先調(diào)用GoS的檢索工具,檢索狀態(tài)會(huì)直接反饋給代理("找到匹配技能"或"未找到匹配技能"),代理必須根據(jù)這個(gè)狀態(tài)決定后續(xù)行為。如果找到了匹配的技能包,代理被要求直接使用返回的本地路徑,優(yōu)先復(fù)用檢索到的腳本而非從頭實(shí)現(xiàn),并優(yōu)先采用最短路徑來通過任務(wù)驗(yàn)證器。這種設(shè)計(jì)讓檢索真正"操作化"了——它不只是給AI一個(gè)參考背景,而是直接約束了AI的后續(xù)行為。

系統(tǒng)的整個(gè)運(yùn)行基礎(chǔ)建立在一個(gè)同時(shí)維護(hù)HNSW向量索引和類型化有向圖的檢索底層基礎(chǔ)設(shè)施上。這意味著語(yǔ)義相近性和結(jié)構(gòu)連接性在同一個(gè)推理時(shí)間內(nèi)部管道中被統(tǒng)一處理,而不是被分成兩個(gè)獨(dú)立的檢索系統(tǒng)后再拼合,從根本上保證了兩類信號(hào)可以流暢融合。

八、局限與未來方向

研究團(tuán)隊(duì)對(duì)系統(tǒng)的局限做了坦誠(chéng)的說明。最根本的限制來自圖譜本身的質(zhì)量:如果技能文檔寫得模糊、輸入輸出格式描述不清、元數(shù)據(jù)缺失,那么依賴規(guī)則提取的邊就會(huì)不準(zhǔn)確甚至缺失,后續(xù)的圖譜傳播再精妙也是無源之水。地震相位關(guān)聯(lián)任務(wù)的失敗案例正是這一局限的直接體現(xiàn)。

另一個(gè)局限是系統(tǒng)的靜態(tài)性:目前的圖譜在建立之后就固定下來,不會(huì)根據(jù)AI代理實(shí)際運(yùn)行的軌跡、任務(wù)的成功或失敗反饋來動(dòng)態(tài)更新。換句話說,系統(tǒng)無法從經(jīng)驗(yàn)中學(xué)習(xí)——如果某個(gè)依賴關(guān)系在實(shí)際執(zhí)行中被反復(fù)證明是正確的,這個(gè)證據(jù)并不會(huì)讓對(duì)應(yīng)的邊權(quán)重增加;如果某個(gè)圖譜關(guān)系被證明是錯(cuò)誤的,它也不會(huì)被自動(dòng)糾正。

研究團(tuán)隊(duì)提出了若干未來工作方向:基于實(shí)際執(zhí)行軌跡動(dòng)態(tài)調(diào)整圖譜邊的權(quán)重,用成功的任務(wù)軌跡來更新圖譜結(jié)構(gòu),在候選技能包的級(jí)別上引入更強(qiáng)的重排序模型,以及把GoS擴(kuò)展到多模態(tài)和交互式智能體場(chǎng)景中驗(yàn)證。

說到底,這項(xiàng)研究做的事情并不復(fù)雜,但解決了一個(gè)實(shí)實(shí)在在的工程痛點(diǎn)。當(dāng)AI的工具箱越來越大,告訴它"所有工具都在這里,自己找"不僅浪費(fèi)資源,還可能讓它眼花繚亂;告訴它"跟你的任務(wù)關(guān)鍵詞最像的那幾個(gè)工具在這里"又容易漏掉那些"不起眼但關(guān)鍵"的前置步驟。GoS的方案是:提前把工具之間的依賴關(guān)系梳理成一張圖,檢索時(shí)沿著這張圖往上游追溯,把一個(gè)完整的、依賴關(guān)系盡可能封閉的工具包交給AI,而不只是把"最相關(guān)"的那幾個(gè)工具扔過去。

這對(duì)于構(gòu)建能夠穩(wěn)定處理復(fù)雜任務(wù)的AI助手系統(tǒng)來說,是一個(gè)具體而實(shí)用的改進(jìn)。在技能庫(kù)規(guī)模從幾百增長(zhǎng)到幾千乃至更大的今天,檢索層的設(shè)計(jì)質(zhì)量正在成為整個(gè)系統(tǒng)性能的關(guān)鍵瓶頸之一。如果你對(duì)其中的技術(shù)細(xì)節(jié)感興趣,可以在arXiv上通過編號(hào)2604.05333查閱完整論文,或訪問研究團(tuán)隊(duì)在GitHub上開放的代碼倉(cāng)庫(kù)(項(xiàng)目名稱為graph-of-skills)。

Q&A

Q1:Graph of Skills(GoS)和普通的向量檢索有什么本質(zhì)區(qū)別?

A:普通向量檢索只看任務(wù)描述和技能描述在語(yǔ)義上有多像,找出最相似的幾個(gè)技能推給AI。GoS在此基礎(chǔ)上還會(huì)沿著技能之間預(yù)先建好的依賴關(guān)系圖往"上游"追溯,把那些語(yǔ)義上不顯眼但功能上必不可少的前置技能也一起檢索出來。打個(gè)比方:向量檢索找到了"做蛋糕"的食譜,GoS則同時(shí)找到了"做蛋糕"以及它依賴的"打發(fā)黃油"和"預(yù)熱烤箱"步驟。

Q2:為什么向量檢索在SkillsBench上的表現(xiàn)比全量加載還差?

A:SkillsBench的任務(wù)大多是長(zhǎng)鏈?zhǔn)降膹?fù)雜技術(shù)任務(wù),需要多個(gè)技能按依賴順序配合使用。向量檢索只找到了語(yǔ)義最相關(guān)的頂層技能,漏掉了那些處理數(shù)據(jù)格式轉(zhuǎn)換、環(huán)境初始化等前置步驟的技能。AI拿到的是一個(gè)"不完整的工具包",反而不如直接拿到整個(gè)技能庫(kù)時(shí)偶爾能翻出正確工具。這個(gè)現(xiàn)象證明了前置條件缺口問題的真實(shí)存在。

Q3:GoS的技能圖譜是怎么建立技能之間的依賴關(guān)系的?

A:系統(tǒng)檢查每個(gè)技能的"輸出類型"是否與另一個(gè)技能的"輸入類型"相匹配,如果技能A產(chǎn)出的東西恰好是技能B需要的輸入,就在A和B之間建立一條依賴邊,表示A是B的前置條件。這個(gè)匹配過程是基于規(guī)則的,不依賴語(yǔ)言模型,保證了準(zhǔn)確性。其他類型的關(guān)系(工作流、語(yǔ)義近鄰、替代關(guān)系)則通過在小候選池內(nèi)用語(yǔ)言模型做驗(yàn)證來建立,但語(yǔ)言模型只被允許確認(rèn)或否認(rèn)候選關(guān)系,不被允許自行創(chuàng)造關(guān)系。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美國(guó)提三大要求全被中國(guó)拒絕!特朗普放狠話:中國(guó)有牌,美國(guó)也有

美國(guó)提三大要求全被中國(guó)拒絕!特朗普放狠話:中國(guó)有牌,美國(guó)也有

娛樂的宅急便
2026-04-22 11:23:38
2-1!皇馬西甲沒希望了:落后榜首6分,巴薩后7場(chǎng)拿13分奪冠

2-1!皇馬西甲沒希望了:落后榜首6分,巴薩后7場(chǎng)拿13分奪冠

體育知多少
2026-04-22 07:01:54
老百姓、益豐大藥房等涉醫(yī)保違規(guī) 湖南省醫(yī)保局緊急約談

老百姓、益豐大藥房等涉醫(yī)保違規(guī) 湖南省醫(yī)保局緊急約談

中國(guó)經(jīng)營(yíng)報(bào)
2026-04-22 18:04:24
饒毅教授發(fā)文:“再刪試試看”

饒毅教授發(fā)文:“再刪試試看”

雙一流高校
2026-04-22 00:09:48
407米!深圳在建的第一高樓即將完工!實(shí)景比效果圖還酷!

407米!深圳在建的第一高樓即將完工!實(shí)景比效果圖還酷!

GA環(huán)球建筑
2026-04-21 23:43:59
報(bào)復(fù)說來就來!伊朗三倍扣押巨輪,現(xiàn)代版海盜開打,美國(guó)不好收?qǐng)?>
    </a>
        <h3>
      <a href=軍機(jī)Talk
2026-04-22 18:00:11
布倫特原油期貨漲幅擴(kuò)大至2%,報(bào)100.49美元/桶

布倫特原油期貨漲幅擴(kuò)大至2%,報(bào)100.49美元/桶

每日經(jīng)濟(jì)新聞
2026-04-22 20:59:09
未公開的1972年尼克松訪華全套高清照

未公開的1972年尼克松訪華全套高清照

深度知局
2026-04-15 00:16:09
視頻|美國(guó)學(xué)者:前車之鑒讓伊朗懷疑美方談判的誠(chéng)意

視頻|美國(guó)學(xué)者:前車之鑒讓伊朗懷疑美方談判的誠(chéng)意

國(guó)際在線
2026-04-21 17:09:40
太陽(yáng)報(bào):孔帕尼降價(jià)賣掉了英國(guó)柴郡豪宅,345萬英鎊左右成交

太陽(yáng)報(bào):孔帕尼降價(jià)賣掉了英國(guó)柴郡豪宅,345萬英鎊左右成交

懂球帝
2026-04-22 08:56:03
上海發(fā)布一組人事任免信息:童科任陳云紀(jì)念館館長(zhǎng)

上海發(fā)布一組人事任免信息:童科任陳云紀(jì)念館館長(zhǎng)

澎湃新聞
2026-04-22 18:50:32
忽然發(fā)現(xiàn)家里很有錢是什么感覺? 網(wǎng)友:三十多年了一直等著這句話

忽然發(fā)現(xiàn)家里很有錢是什么感覺? 網(wǎng)友:三十多年了一直等著這句話

另子維愛讀史
2026-02-28 21:19:15
日本突然出手!28萬億市場(chǎng),中國(guó)被踢出局,高市早苗亮出3張底牌

日本突然出手!28萬億市場(chǎng),中國(guó)被踢出局,高市早苗亮出3張底牌

墜入二次元的海洋
2026-04-22 00:29:23
不露面不知道,一露面嚇一跳,這些明星怎么都老成這個(gè)樣子了

不露面不知道,一露面嚇一跳,這些明星怎么都老成這個(gè)樣子了

孤城落日
2026-04-20 19:26:14
李小鵬女兒14歲奧莉近照刷屏!都說女大十八變,這回真信了。

李小鵬女兒14歲奧莉近照刷屏!都說女大十八變,這回真信了。

今古深日?qǐng)?bào)
2026-04-22 09:56:50
真沒想到!伊朗有救了,美國(guó)吃不了兜著走!

真沒想到!伊朗有救了,美國(guó)吃不了兜著走!

喀秋莎大世界
2026-04-18 22:19:04
央視八套殺瘋了!一晚三部王炸劇收視霸榜

央視八套殺瘋了!一晚三部王炸劇收視霸榜

動(dòng)物奇奇怪怪
2026-04-22 14:34:02
博主:英博將在客隊(duì)看臺(tái)展示TIFO,大連遠(yuǎn)征軍有1w+

博主:英博將在客隊(duì)看臺(tái)展示TIFO,大連遠(yuǎn)征軍有1w+

懂球帝
2026-04-22 18:15:09
快訊!哪吒汽車徹底火上熱搜!

快訊!哪吒汽車徹底火上熱搜!

達(dá)文西看世界
2026-04-22 16:46:22
3連冠!香港隊(duì)瘋狂慶祝奪冠,頒獎(jiǎng)?wù)l注意鞏曉彬動(dòng)作,下季將升CBA

3連冠!香港隊(duì)瘋狂慶祝奪冠,頒獎(jiǎng)?wù)l注意鞏曉彬動(dòng)作,下季將升CBA

老吳說體育
2026-04-21 21:48:26
2026-04-22 21:40:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

媒體:伊朗用“不怕死”三個(gè)字 勸退特朗普

頭條要聞

媒體:伊朗用“不怕死”三個(gè)字 勸退特朗普

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

醫(yī)院專家號(hào)"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

親子
家居
旅游
數(shù)碼
公開課

親子要聞

媽媽看不到的時(shí)候,孩子能拒絕才真的放心!

家居要聞

極簡(jiǎn)繪夢(mèng) 克制和諧

旅游要聞

“五一”玩轉(zhuǎn)徐匯:從爵士鐺鐺車到二次元痛街,四大主題活動(dòng)貫穿全域

數(shù)碼要聞

Beats發(fā)布3米USB-C數(shù)據(jù)線:售229元 最高240W快充

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版