網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI助手實(shí)現(xiàn)關(guān)系網(wǎng)絡(luò)驅(qū)動(dòng)工具檢索超越搜索引擎能力突破

2026-04-17 23:35:47　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由賓夕法尼亞大學(xué)、馬里蘭大學(xué)、布朗大學(xué)、卡內(nèi)基梅隆大學(xué)和里海大學(xué)聯(lián)合開展的研究，以預(yù)印本形式于2026年4月8日發(fā)布在arXiv平臺(tái)，論文編號(hào)為arXiv:2604.05333v2，歸屬計(jì)算機(jī)人工智能領(lǐng)域。感興趣的讀者可以通過該編號(hào)查閱完整論文。

一、從"工具箱太大"說起

假設(shè)你是一名廚師，要做一道復(fù)雜的法式菜肴。你的廚房里有兩千種調(diào)料、器具和食材，但每次做菜前，你的助手會(huì)把所有東西一股腦兒堆在你的料理臺(tái)上。料理臺(tái)只有那么大，東西太多，你反而不知道從哪里下手，甚至把鹽和糖搞混了，把最重要的黃油壓在最底層找不到。

這個(gè)場(chǎng)景幾乎完美地描述了現(xiàn)代AI助手在處理大型技能庫(kù)時(shí)面臨的困境。今天的AI"代理"系統(tǒng)（可以理解為能夠自主完成任務(wù)的智能助手）越來越依賴外部"技能包"來增強(qiáng)能力。這些技能包就像是一份份操作手冊(cè)：告訴AI如何調(diào)用某個(gè)API、如何處理特定格式的數(shù)據(jù)、如何完成某個(gè)特定的技術(shù)任務(wù)。當(dāng)技能庫(kù)規(guī)模還小的時(shí)候，把所有手冊(cè)一次性塞給AI沒什么問題。但當(dāng)技能庫(kù)增長(zhǎng)到幾百、幾千個(gè)技能時(shí)，麻煩就來了。

研究團(tuán)隊(duì)把這個(gè)核心矛盾描述得很清晰：把整個(gè)技能庫(kù)塞進(jìn)AI的"工作記憶"（也就是上下文窗口）會(huì)導(dǎo)致三個(gè)連鎖問題。第一是費(fèi)錢，處理的文字越多，消耗的計(jì)算資源就越多，成本線性增長(zhǎng)。第二是出錯(cuò)，當(dāng)信息量過載時(shí)，AI反而容易忽略關(guān)鍵的限制條件和操作規(guī)范，就像那位被堆滿料理臺(tái)搞暈的廚師。第三是變慢，處理大量無關(guān)信息讓整個(gè)系統(tǒng)響應(yīng)遲緩。

面對(duì)這個(gè)問題，已有的解決方案是"向量檢索"——通過語(yǔ)義相似度搜索，提前篩選出和當(dāng)前任務(wù)最相關(guān)的幾個(gè)技能推送給AI，而不是把所有技能都塞過去。這就像給廚師配了一個(gè)助手，會(huì)根據(jù)今天要做什么菜提前備好幾樣最相關(guān)的食材，而不是把整個(gè)倉(cāng)庫(kù)搬過來。這個(gè)思路本身沒錯(cuò)，但問題在于，語(yǔ)義上"相關(guān)"并不等于"能用"。

以一道復(fù)雜菜肴為例：AI需要的頂層技能（比如"用Gemini模型計(jì)數(shù)視頻中的行人"）通過語(yǔ)義搜索可以很容易找到，因?yàn)槿蝿?wù)描述里有"行人""計(jì)數(shù)""視頻"這些關(guān)鍵詞。但要真正完成這個(gè)任務(wù)，AI還需要一個(gè)"視頻幀提取"技能來先把視頻切成一幀幀圖片，再喂給計(jì)數(shù)模型。"視頻幀提取"這個(gè)技能在語(yǔ)義上跟"行人計(jì)數(shù)"并不那么接近，純靠語(yǔ)義搜索很可能漏掉它。缺了這個(gè)關(guān)鍵的"前置步驟"，整個(gè)任務(wù)就無法完成。研究團(tuán)隊(duì)把這個(gè)現(xiàn)象稱為"前置條件缺口"（prerequisite gap），它是純向量檢索在復(fù)雜任務(wù)上頻頻失手的根本原因。

二、用"人脈網(wǎng)絡(luò)"而非"關(guān)鍵詞搜索"來找技能

研究團(tuán)隊(duì)提出的解決方案叫做"技能圖譜"（Graph of Skills，簡(jiǎn)稱GoS）。核心思路是：與其單獨(dú)評(píng)估每個(gè)技能和任務(wù)的相似程度，不如先把所有技能之間的依賴關(guān)系和協(xié)作關(guān)系梳理成一張網(wǎng)絡(luò)圖，然后在檢索時(shí)順著這張關(guān)系網(wǎng)去找。

可以用求職時(shí)的"人脈推薦"來理解這個(gè)邏輯。假設(shè)你要找一位擅長(zhǎng)機(jī)器學(xué)習(xí)的工程師?？亢?jiǎn)歷關(guān)鍵詞搜索，你能快速找到那些簡(jiǎn)歷里寫著"機(jī)器學(xué)習(xí)"的人。但靠人脈網(wǎng)絡(luò)，你還能順藤摸瓜：認(rèn)識(shí)機(jī)器學(xué)習(xí)工程師的人，往往也認(rèn)識(shí)數(shù)據(jù)工程師、算法研究員，甚至是云計(jì)算專家——這些人可能簡(jiǎn)歷里沒有直接寫"機(jī)器學(xué)習(xí)"，但他們對(duì)于完成一個(gè)完整的機(jī)器學(xué)習(xí)項(xiàng)目同樣不可或缺。GoS對(duì)技能庫(kù)做的事情，正是如此。

整個(gè)系統(tǒng)分成兩個(gè)階段運(yùn)行，就像一家公司同時(shí)維護(hù)著"內(nèi)部知識(shí)地圖"和"即時(shí)查詢服務(wù)"兩套系統(tǒng)一樣。

第一個(gè)階段是"離線建圖"，這個(gè)階段在任務(wù)到來之前就已經(jīng)完成。系統(tǒng)會(huì)把技能庫(kù)里的每一個(gè)技能包解析成標(biāo)準(zhǔn)化的記錄，提取出這個(gè)技能的名稱、核心能力描述、輸入輸出格式、所屬領(lǐng)域、使用的工具、示例任務(wù)等關(guān)鍵信息。這個(gè)解析過程優(yōu)先依賴確定性規(guī)則，從每個(gè)技能包的規(guī)范文檔（SKILL.md文件）里直接讀取結(jié)構(gòu)化字段，只有當(dāng)文檔信息不完整時(shí)，才會(huì)調(diào)用一個(gè)輕量級(jí)的語(yǔ)言模型來補(bǔ)全缺失的語(yǔ)義字段——但即便這樣，語(yǔ)言模型只被允許填充單個(gè)技能節(jié)點(diǎn)的屬性，絕對(duì)不被允許自行編造技能之間的關(guān)系。這種設(shè)計(jì)哲學(xué)體現(xiàn)了一種工程上的謹(jǐn)慎：寧可信息少一些，也不要引入錯(cuò)誤的關(guān)系。

在梳理完每個(gè)技能的基本屬性之后，系統(tǒng)開始在技能之間建立連接關(guān)系，共有四種類型的邊。最重要的是"依賴邊"：如果技能A的輸出恰好是技能B的輸入，那么A和B之間就存在依賴關(guān)系——A是B的前置條件。其次是"流程邊"，描述兩個(gè)技能在實(shí)際工作中經(jīng)常被順序組合使用。再有"語(yǔ)義邊"，連接功能上高度相近的技能。最后是"替代邊"，標(biāo)記那些解決同一個(gè)子問題但實(shí)現(xiàn)方式不同的技能。每種連接類型被賦予了不同的權(quán)重，依賴關(guān)系的權(quán)重最高（1.0），依次是流程關(guān)系（0.5）、語(yǔ)義關(guān)系（0.2）和替代關(guān)系（0.1），反映了它們?cè)趲椭鶤I完成任務(wù)時(shí)的重要程度差異。

值得特別說明的是，非依賴類的關(guān)系并非通過全量比較所有技能對(duì)來建立，而是先用詞法相似度、語(yǔ)義近鄰搜索和輸入輸出擴(kuò)展三種方式為每個(gè)節(jié)點(diǎn)生成一個(gè)小的候選池，再在這個(gè)候選池內(nèi)部進(jìn)行精確驗(yàn)證。這種"粗篩后精驗(yàn)"的設(shè)計(jì)保證了建圖過程的效率，也保證了最終圖譜的精準(zhǔn)度。

第二個(gè)階段是"在線檢索"，每當(dāng)新任務(wù)到來時(shí)實(shí)時(shí)觸發(fā)。給定一個(gè)任務(wù)描述，系統(tǒng)首先進(jìn)行混合播種：同時(shí)運(yùn)行向量語(yǔ)義檢索和詞法關(guān)鍵詞檢索，將二者的評(píng)分按照一個(gè)可調(diào)節(jié)的權(quán)重參數(shù)η融合起來，得到初始的"種子技能"集合。語(yǔ)義檢索擅長(zhǎng)找到主題相關(guān)的技能，詞法檢索則對(duì)具體的文件名、API名稱、操作類型等具體表述更敏感，兩者互補(bǔ)形成的種子集比任何單一方式都更全面。

接下來，系統(tǒng)以這些種子技能為起點(diǎn)，在技能圖譜上進(jìn)行"反向感知傳播"。這里用到的算法叫做個(gè)性化PageRank（PPR），它的名字來自于谷歌最初用來給網(wǎng)頁(yè)排名的核心算法，但在GoS中被做了一個(gè)關(guān)鍵改造：除了沿著邊的正向方向傳播相關(guān)性分值，系統(tǒng)還會(huì)沿著邊的反向方向傳播。這意味著一旦一個(gè)高層次的技能被識(shí)別為相關(guān)，系統(tǒng)會(huì)自動(dòng)追溯它的上游——那些提供輸入、進(jìn)行預(yù)處理的前置技能。就像順著一條河流不僅能找到它流向哪里，還能往上游追溯找到它從哪里來。反向傳播的力度對(duì)依賴邊最強(qiáng)，對(duì)其他類型的邊依次減弱，與之前賦予各類邊的權(quán)重體系保持一致。

傳播收斂之后，得到了每個(gè)技能的圖譜分值。但這個(gè)分值還不是最終結(jié)果。系統(tǒng)會(huì)進(jìn)一步將圖譜分值與字段級(jí)的直接證據(jù)（技能名稱、能力描述、輸入輸出信息是否與任務(wù)描述有直接匹配）結(jié)合起來進(jìn)行重排序。最后，按照重排序的結(jié)果，在既定的上下文預(yù)算限制下，依次將技能具體化為AI可以直接使用的內(nèi)容包，每個(gè)包含穩(wěn)定的本地路徑、簡(jiǎn)潔的能力描述和最相關(guān)的執(zhí)行說明。最終交付給AI的，是一個(gè)精煉的、依賴關(guān)系盡可能完整的技能執(zhí)行包。

這整個(gè)流程可以用一個(gè)生動(dòng)的比喻來描述：GoS像一個(gè)經(jīng)驗(yàn)豐富的圖書館員，不但知道你問的那本書在哪里，還知道要讀懂這本書，你還需要先看哪幾本參考書，而且會(huì)把它們一起整理好放在你的桌上，而不只是遞給你那一本你點(diǎn)名要的書。

三、實(shí)驗(yàn)結(jié)果：在兩個(gè)測(cè)試場(chǎng)地上"考試"

研究團(tuán)隊(duì)在兩個(gè)不同性質(zhì)的測(cè)試平臺(tái)上驗(yàn)證了GoS的效果，分別是SkillsBench和ALFWorld。

SkillsBench是一個(gè)專門為評(píng)估技能增強(qiáng)AI代理設(shè)計(jì)的基準(zhǔn)測(cè)試，包含來自11個(gè)不同技術(shù)領(lǐng)域的真實(shí)任務(wù)，覆蓋了宏觀經(jīng)濟(jì)去趨勢(shì)化分析、電力網(wǎng)絡(luò)可行性分析、三維掃描數(shù)據(jù)處理、金融建模、地震相位拾取等高度專業(yè)化的場(chǎng)景。這些任務(wù)的共同特點(diǎn)是"長(zhǎng)鏈?zhǔn)?——需要把多個(gè)步驟串聯(lián)起來，缺少任何一個(gè)環(huán)節(jié)都無法完成。

ALFWorld則是一個(gè)完全不同風(fēng)格的測(cè)試：它模擬的是一個(gè)文字描述的家庭環(huán)境，AI代理需要通過一系列指令（比如"走進(jìn)臥室，找到枕頭，把它放到床上"）完成多步驟的家居任務(wù)。在這個(gè)測(cè)試中，任務(wù)獎(jiǎng)勵(lì)是二值的——要么完成（得1分），要么沒完成（得0分），所以平均獎(jiǎng)勵(lì)就等于成功率。研究團(tuán)隊(duì)使用了完整的140個(gè)測(cè)試場(chǎng)景。

對(duì)比實(shí)驗(yàn)設(shè)置了兩個(gè)基準(zhǔn)方法。"全量加載"基準(zhǔn)（Vanilla Skills）把整個(gè)技能庫(kù)原封不動(dòng)地塞給AI，代表最樸素的"啥都給你"策略。"向量檢索"基準(zhǔn)（Vector Skills）用和GoS完全相同的embedding模型（OpenAI的text-embedding-3-large，3072維）進(jìn)行語(yǔ)義檢索，檢索出一個(gè)有限大小的技能集合，代表"只給相關(guān)的"但不考慮結(jié)構(gòu)依賴的策略。GoS使用相同的embedding模型，但在向量檢索的基礎(chǔ)上疊加了圖譜結(jié)構(gòu)感知的檢索。三個(gè)方法都在三個(gè)不同的語(yǔ)言模型上運(yùn)行：Claude Sonnet 4.5、MiniMax M2.7和GPT-5.2 Codex，每個(gè)設(shè)置運(yùn)行兩次取平均值。

實(shí)驗(yàn)結(jié)果相當(dāng)有說服力。在SkillsBench上，GoS在所有三個(gè)模型下均超越了全量加載和向量檢索兩個(gè)基準(zhǔn)。具體數(shù)字是：在Claude Sonnet 4.5下，全量加載平均獎(jiǎng)勵(lì)25.0分，向量檢索19.3分，GoS達(dá)到31.0分；在MiniMax M2.7下，三者分別是17.2分、10.4分和18.7分；在GPT-5.2 Codex下，是27.4分、21.5分和34.4分。

這里有一個(gè)非常有意思的現(xiàn)象值得關(guān)注：向量檢索在SkillsBench上的表現(xiàn)不但沒有超過全量加載，反而全部低于全量加載。換句話說，"只給相關(guān)技能"比"給所有技能"效果更差。原因正是前置條件缺口——向量檢索找到了最頂層的相關(guān)技能，但漏掉了那些語(yǔ)義上不夠顯眼卻功能上必不可少的前置工具，導(dǎo)致AI拿著"不完整的菜譜"反而更容易出錯(cuò)，還不如直接把整個(gè)菜譜庫(kù)都給它翻。GoS通過圖譜傳播補(bǔ)上了這個(gè)缺口，在減少上下文負(fù)擔(dān)的同時(shí)反而提升了完成質(zhì)量。

ALFWorld上的結(jié)果顯示了另一個(gè)角度的優(yōu)勢(shì)。在這個(gè)更接近"日常操作"而非"專業(yè)技術(shù)"的測(cè)試中，GoS依然是最優(yōu)的：Claude下成功率從89.3%（全量）或93.6%（向量）提升到97.9%，同時(shí)把平均令牌消耗從152萬降到2.7萬，節(jié)省了98%的上下文用量。MiniMax下，GoS把成功率從47.1%提升到54.3%，同時(shí)也實(shí)現(xiàn)了最低的令牌消耗和最短的運(yùn)行時(shí)間。GPT下，GoS和向量檢索的成功率接近（93.6%對(duì)比92.9%），但GoS依然遠(yuǎn)比全量加載節(jié)省資源。

值得一提的是，在GPT-5.2 Codex上，全量加載的運(yùn)行時(shí)間有時(shí)反而比檢索方法更短，研究團(tuán)隊(duì)認(rèn)為這可能是由于GPT對(duì)固定技能庫(kù)有某種緩存機(jī)制，而Claude和MiniMax則沒有這種優(yōu)化——在這兩個(gè)模型上，全量加載的運(yùn)行時(shí)間顯著高于檢索方法。

四、規(guī)模敏感性：技能庫(kù)越大，GoS的優(yōu)勢(shì)越明顯

研究團(tuán)隊(duì)還專門做了一組規(guī)模敏感性實(shí)驗(yàn)，把技能庫(kù)的大小從200個(gè)技能逐步擴(kuò)展到500、1000和2000個(gè)，在GPT-5.2 Codex上觀察三種方法的變化趨勢(shì)。

令牌消耗的變化趨勢(shì)最為戲劇性。全量加載的消耗幾乎和技能庫(kù)大小成正比：500個(gè)技能時(shí)平均消耗193萬令牌，2000個(gè)技能時(shí)飆升到584萬令牌，增長(zhǎng)了整整三倍。向量檢索和GoS則展現(xiàn)出幾乎"免疫"于規(guī)模增長(zhǎng)的特性：向量檢索始終維持在110萬到124萬之間，GoS在114萬到138萬之間，規(guī)模擴(kuò)大四倍但令牌消耗幾乎紋絲不動(dòng)。這種差異意味著，隨著技能庫(kù)的擴(kuò)張，GoS帶來的成本節(jié)省效益只會(huì)越來越大。

獎(jiǎng)勵(lì)方面的規(guī)律同樣清晰。在200個(gè)技能的小庫(kù)規(guī)模下，全量加載還保有微弱優(yōu)勢(shì)（32.5分對(duì)比GoS的32.1分），但一旦庫(kù)規(guī)模達(dá)到500個(gè)及以上，GoS就全面領(lǐng)先：500技能時(shí)31.4對(duì)26.0對(duì)20.7，1000技能時(shí)34.4對(duì)27.4對(duì)21.5，2000技能時(shí)31.3對(duì)26.7對(duì)23.8（GoS對(duì)全量對(duì)向量）。這個(gè)規(guī)律表明，GoS的優(yōu)勢(shì)不是來自某個(gè)特殊的數(shù)據(jù)點(diǎn)，而是一個(gè)隨著規(guī)模增大而越來越穩(wěn)固的系統(tǒng)性特征。

從最直觀的角度理解：當(dāng)技能庫(kù)只有200本操作手冊(cè)時(shí)，把全部200本都推給AI還勉強(qiáng)可以接受；當(dāng)技能庫(kù)增長(zhǎng)到2000本時(shí)，推全量不但負(fù)擔(dān)極重，而且AI在一大堆不相關(guān)手冊(cè)中找到正確的那幾本的難度也急劇上升，此時(shí)GoS提前按照依賴關(guān)系整理好"恰好夠用的那幾本"的價(jià)值就格外凸顯。

五、拆解GoS的內(nèi)部機(jī)制：哪個(gè)零件最關(guān)鍵

為了弄清楚GoS內(nèi)部各個(gè)組件的具體貢獻(xiàn)，研究團(tuán)隊(duì)在1000技能規(guī)模的SkillsBench上用GPT-5.2 Codex做了消融實(shí)驗(yàn)——也就是每次關(guān)掉系統(tǒng)的一個(gè)功能，看看效果如何變化。

完整GoS的平均獎(jiǎng)勵(lì)是34.4分，平均令牌消耗138萬。拿掉圖譜傳播（即只用混合種子檢索，不做圖譜擴(kuò)散）之后，平均獎(jiǎng)勵(lì)降到29.3分，下降了5.1分，令牌消耗則降到89萬——說明圖譜傳播確實(shí)在帶來更多令牌消耗的同時(shí)，有效補(bǔ)充了更多有用的前置技能，從而提升了完成質(zhì)量。拿掉詞法檢索和重排序（即只用語(yǔ)義向量檢索作為種子，不進(jìn)行詞法擴(kuò)充和重排序），平均獎(jiǎng)勵(lì)降到26.7分，下降了7.7分，令牌消耗降到101萬。這個(gè)下降幅度比拿掉圖譜傳播更大，說明在SkillsBench這類高度技術(shù)性的任務(wù)上，初始種子的質(zhì)量極為關(guān)鍵——如果一開始就找到了錯(cuò)誤的或不完整的種子，圖譜傳播也無從補(bǔ)救，就像一張地圖，你出發(fā)點(diǎn)就選錯(cuò)了，再好的導(dǎo)航系統(tǒng)也很難帶你到正確的目的地。

這個(gè)發(fā)現(xiàn)傳遞了一個(gè)重要的設(shè)計(jì)洞察：混合語(yǔ)義-詞法種子和圖譜傳播這兩個(gè)機(jī)制是相互依賴的，它們的價(jià)值不只是簡(jiǎn)單疊加，而是互相放大——更好的種子讓圖譜傳播有更好的起點(diǎn)，圖譜傳播再把這個(gè)優(yōu)質(zhì)起點(diǎn)轉(zhuǎn)化成一個(gè)依賴關(guān)系更完整的執(zhí)行束。

六、真實(shí)案例中的對(duì)比：看得見的差距

研究團(tuán)隊(duì)詳細(xì)記錄了10個(gè)真實(shí)任務(wù)案例，對(duì)比三種方法在每個(gè)任務(wù)上實(shí)際使用的技能包和最終得分，讓數(shù)字背后的故事更加具體。

行人流量計(jì)數(shù)任務(wù)非常典型。GoS檢索到了一個(gè)以"Gemini視頻計(jì)數(shù)""視頻幀提取"和"OpenAI視覺"為核心的緊湊技能包，得分0.417。全量加載最終也打開了這些工具，但在整個(gè)龐大的技能庫(kù)里摸索之后只得到0.267分。向量檢索則檢索到了一些奇怪的不相關(guān)技能（比如"Google課堂自動(dòng)化""Salesforce自動(dòng)化"），得分只有0.041分——在向量語(yǔ)義空間里，"行人計(jì)數(shù)"可能碰巧和某些"自動(dòng)化監(jiān)控"主題的技能相近，但這些技能根本無法構(gòu)成一個(gè)可執(zhí)行的視覺分析流水線。

洪水風(fēng)險(xiǎn)分析任務(wù)則展示了GoS在減少"搜索摩擦"上的價(jià)值。正確的執(zhí)行鏈?zhǔn)牵合扔肬SGS數(shù)據(jù)下載技能獲取測(cè)量數(shù)據(jù)，再用NWS洪水閾值技能獲取警戒水位，最后用洪水探測(cè)技能進(jìn)行聚合比較。GoS精確地檢索到了這三個(gè)技能，得分1.0。全量加載同樣最終得分1.0，但代價(jià)是AI需要在整個(gè)技能庫(kù)里搜尋才找到正確組合。向量檢索完全失敗，得分0.0——因?yàn)?洪水探測(cè)"的語(yǔ)義空間里混進(jìn)了完全不相關(guān)的技能，無法形成有效的分析鏈。

地震相位關(guān)聯(lián)任務(wù)則是GoS一個(gè)清醒的反面案例。全量加載的AI拼出了一個(gè)更完整的地震處理?xiàng)?，包含了gamma相位關(guān)聯(lián)器、obspy數(shù)據(jù)API、obspy數(shù)據(jù)中心客戶端、SeisBench模型API和地震相位選擇五個(gè)技能，任務(wù)通過。GoS的圖譜檢索只找到了其中三個(gè)，混入了一個(gè)不相關(guān)的干擾技能，最終失敗。這說明結(jié)構(gòu)檢索并不是萬能的——當(dāng)圖譜本身在某個(gè)特定領(lǐng)域的覆蓋不夠完整時(shí)，檢索到的鄰域也是不完整的，再好的傳播算法也無法彌補(bǔ)圖譜本身的信息缺失。

自適應(yīng)巡航控制任務(wù)提供了另一個(gè)維度的警示。三種方法都檢索到了或多或少相關(guān)的控制技能（PID控制器、車輛動(dòng)力學(xué)、MPC優(yōu)化調(diào)參等），但三種方法全部失敗，得分均為0。這意味著在某些任務(wù)上，檢索質(zhì)量不是決定性瓶頸，能否把一個(gè)合格的技能包轉(zhuǎn)化成通過驗(yàn)證器的解決方案，更多取決于AI本身的推理和規(guī)劃能力。GoS能改善的是"把對(duì)的技能送到對(duì)的地方"，但它改變不了"拿到對(duì)的材料之后能否做出正確決策"。

七、系統(tǒng)設(shè)計(jì)背后的工程哲學(xué)

研究團(tuán)隊(duì)在設(shè)計(jì)GoS時(shí)展現(xiàn)出了一種克制而精確的工程哲學(xué)，這一點(diǎn)在整個(gè)系統(tǒng)的每個(gè)環(huán)節(jié)都有體現(xiàn)。

在內(nèi)部提示設(shè)計(jì)上，用于補(bǔ)全技能節(jié)點(diǎn)語(yǔ)義信息的語(yǔ)言模型提示被故意寫得極其約束：只允許模型填充節(jié)點(diǎn)自身的屬性字段，明確要求返回空的"邊列表"，禁止模型憑借聯(lián)想生成任何關(guān)系。這種設(shè)計(jì)是為了避免AI圖譜構(gòu)建中一個(gè)常見的陷阱——語(yǔ)言模型在沒有足夠證據(jù)的情況下，非常容易"編造"看似合理但實(shí)際錯(cuò)誤的關(guān)系。關(guān)系過度生成會(huì)污染圖譜，讓后續(xù)的傳播步驟沿著錯(cuò)誤的路徑擴(kuò)散。寧可讓圖譜稀疏一些，也要保證它是準(zhǔn)確的。

用于驗(yàn)證技能間關(guān)系的提示同樣遵循這個(gè)原則：只允許輸出四種預(yù)定義的關(guān)系類型之一，要求精確保留技能的原始名稱，并明確指示"不確定時(shí)不輸出任何內(nèi)容"。這讓關(guān)系驗(yàn)證模塊更像是一個(gè)精確的審計(jì)員，而不是一個(gè)腦洞大開的創(chuàng)作者。

在用戶端的接口設(shè)計(jì)上，AI代理被明確要求在寫任何代碼之前必須先調(diào)用GoS的檢索工具，檢索狀態(tài)會(huì)直接反饋給代理（"找到匹配技能"或"未找到匹配技能"），代理必須根據(jù)這個(gè)狀態(tài)決定后續(xù)行為。如果找到了匹配的技能包，代理被要求直接使用返回的本地路徑，優(yōu)先復(fù)用檢索到的腳本而非從頭實(shí)現(xiàn)，并優(yōu)先采用最短路徑來通過任務(wù)驗(yàn)證器。這種設(shè)計(jì)讓檢索真正"操作化"了——它不只是給AI一個(gè)參考背景，而是直接約束了AI的后續(xù)行為。

系統(tǒng)的整個(gè)運(yùn)行基礎(chǔ)建立在一個(gè)同時(shí)維護(hù)HNSW向量索引和類型化有向圖的檢索底層基礎(chǔ)設(shè)施上。這意味著語(yǔ)義相近性和結(jié)構(gòu)連接性在同一個(gè)推理時(shí)間內(nèi)部管道中被統(tǒng)一處理，而不是被分成兩個(gè)獨(dú)立的檢索系統(tǒng)后再拼合，從根本上保證了兩類信號(hào)可以流暢融合。

八、局限與未來方向

研究團(tuán)隊(duì)對(duì)系統(tǒng)的局限做了坦誠(chéng)的說明。最根本的限制來自圖譜本身的質(zhì)量：如果技能文檔寫得模糊、輸入輸出格式描述不清、元數(shù)據(jù)缺失，那么依賴規(guī)則提取的邊就會(huì)不準(zhǔn)確甚至缺失，后續(xù)的圖譜傳播再精妙也是無源之水。地震相位關(guān)聯(lián)任務(wù)的失敗案例正是這一局限的直接體現(xiàn)。

另一個(gè)局限是系統(tǒng)的靜態(tài)性：目前的圖譜在建立之后就固定下來，不會(huì)根據(jù)AI代理實(shí)際運(yùn)行的軌跡、任務(wù)的成功或失敗反饋來動(dòng)態(tài)更新。換句話說，系統(tǒng)無法從經(jīng)驗(yàn)中學(xué)習(xí)——如果某個(gè)依賴關(guān)系在實(shí)際執(zhí)行中被反復(fù)證明是正確的，這個(gè)證據(jù)并不會(huì)讓對(duì)應(yīng)的邊權(quán)重增加；如果某個(gè)圖譜關(guān)系被證明是錯(cuò)誤的，它也不會(huì)被自動(dòng)糾正。

研究團(tuán)隊(duì)提出了若干未來工作方向：基于實(shí)際執(zhí)行軌跡動(dòng)態(tài)調(diào)整圖譜邊的權(quán)重，用成功的任務(wù)軌跡來更新圖譜結(jié)構(gòu)，在候選技能包的級(jí)別上引入更強(qiáng)的重排序模型，以及把GoS擴(kuò)展到多模態(tài)和交互式智能體場(chǎng)景中驗(yàn)證。

說到底，這項(xiàng)研究做的事情并不復(fù)雜，但解決了一個(gè)實(shí)實(shí)在在的工程痛點(diǎn)。當(dāng)AI的工具箱越來越大，告訴它"所有工具都在這里，自己找"不僅浪費(fèi)資源，還可能讓它眼花繚亂；告訴它"跟你的任務(wù)關(guān)鍵詞最像的那幾個(gè)工具在這里"又容易漏掉那些"不起眼但關(guān)鍵"的前置步驟。GoS的方案是：提前把工具之間的依賴關(guān)系梳理成一張圖，檢索時(shí)沿著這張圖往上游追溯，把一個(gè)完整的、依賴關(guān)系盡可能封閉的工具包交給AI，而不只是把"最相關(guān)"的那幾個(gè)工具扔過去。

這對(duì)于構(gòu)建能夠穩(wěn)定處理復(fù)雜任務(wù)的AI助手系統(tǒng)來說，是一個(gè)具體而實(shí)用的改進(jìn)。在技能庫(kù)規(guī)模從幾百增長(zhǎng)到幾千乃至更大的今天，檢索層的設(shè)計(jì)質(zhì)量正在成為整個(gè)系統(tǒng)性能的關(guān)鍵瓶頸之一。如果你對(duì)其中的技術(shù)細(xì)節(jié)感興趣，可以在arXiv上通過編號(hào)2604.05333查閱完整論文，或訪問研究團(tuán)隊(duì)在GitHub上開放的代碼倉(cāng)庫(kù)（項(xiàng)目名稱為graph-of-skills）。

Q&A

Q1：Graph of Skills（GoS）和普通的向量檢索有什么本質(zhì)區(qū)別？

A：普通向量檢索只看任務(wù)描述和技能描述在語(yǔ)義上有多像，找出最相似的幾個(gè)技能推給AI。GoS在此基礎(chǔ)上還會(huì)沿著技能之間預(yù)先建好的依賴關(guān)系圖往"上游"追溯，把那些語(yǔ)義上不顯眼但功能上必不可少的前置技能也一起檢索出來。打個(gè)比方：向量檢索找到了"做蛋糕"的食譜，GoS則同時(shí)找到了"做蛋糕"以及它依賴的"打發(fā)黃油"和"預(yù)熱烤箱"步驟。

Q2：為什么向量檢索在SkillsBench上的表現(xiàn)比全量加載還差？

A：SkillsBench的任務(wù)大多是長(zhǎng)鏈?zhǔn)降膹?fù)雜技術(shù)任務(wù)，需要多個(gè)技能按依賴順序配合使用。向量檢索只找到了語(yǔ)義最相關(guān)的頂層技能，漏掉了那些處理數(shù)據(jù)格式轉(zhuǎn)換、環(huán)境初始化等前置步驟的技能。AI拿到的是一個(gè)"不完整的工具包"，反而不如直接拿到整個(gè)技能庫(kù)時(shí)偶爾能翻出正確工具。這個(gè)現(xiàn)象證明了前置條件缺口問題的真實(shí)存在。

Q3：GoS的技能圖譜是怎么建立技能之間的依賴關(guān)系的？

A：系統(tǒng)檢查每個(gè)技能的"輸出類型"是否與另一個(gè)技能的"輸入類型"相匹配，如果技能A產(chǎn)出的東西恰好是技能B需要的輸入，就在A和B之間建立一條依賴邊，表示A是B的前置條件。這個(gè)匹配過程是基于規(guī)則的，不依賴語(yǔ)言模型，保證了準(zhǔn)確性。其他類型的關(guān)系（工作流、語(yǔ)義近鄰、替代關(guān)系）則通過在小候選池內(nèi)用語(yǔ)言模型做驗(yàn)證來建立，但語(yǔ)言模型只被允許確認(rèn)或否認(rèn)候選關(guān)系，不被允許自行創(chuàng)造關(guān)系。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.