AI智能體的"體檢報告"：DigitalOcean如何讓機(jī)器助手變得更聰明

2026-04-14 21:10:01　來源: 至頂AI實驗室

北京舉報

分享至

這項由DigitalOcean Holdings公司研究團(tuán)隊完成的研究發(fā)表于2026年4月1日的arXiv預(yù)印本平臺，論文編號為arXiv:2604.00356v1，感興趣的讀者可以通過這個編號查詢完整論文。

在人工智能快速發(fā)展的今天，智能體就像我們身邊越來越常見的數(shù)字助手，它們能夠與人對話、使用各種工具來完成復(fù)雜任務(wù)。然而，當(dāng)這些智能體被部署到真實世界中為用戶服務(wù)時，如何持續(xù)改進(jìn)它們的表現(xiàn)卻成了一個棘手問題。這就像醫(yī)生需要定期為病人做體檢一樣，我們也需要為智能體制定一套"體檢方案"來發(fā)現(xiàn)問題并加以改進(jìn)。

DigitalOcean的研究團(tuán)隊注意到了一個有趣的現(xiàn)象：智能體在工作時會產(chǎn)生大量的交互記錄，就像留下了詳細(xì)的"工作日志"，但要從海量的日志中找出有價值的信息來改進(jìn)系統(tǒng)卻極其困難。傳統(tǒng)的做法要么是人工逐一檢查這些記錄，要么是使用其他AI系統(tǒng)來評估，但前者耗時耗力，后者成本高昂。研究團(tuán)隊提出了一個巧妙的解決方案：開發(fā)一套輕量級的"信號系統(tǒng)"來自動篩選出最值得關(guān)注的交互記錄。

這套信號系統(tǒng)就像給智能體裝上了一個智能監(jiān)控裝置，能夠?qū)崟r識別各種行為模式，包括用戶與智能體之間的溝通問題、智能體執(zhí)行任務(wù)時的困難，以及系統(tǒng)環(huán)境的限制等。最重要的是，這套系統(tǒng)完全不需要調(diào)用大型語言模型，運行成本極低，卻能顯著提高找到有用信息的效率。研究團(tuán)隊在廣泛使用的τ-bench基準(zhǔn)測試中驗證了這個方法，結(jié)果顯示信號驅(qū)動的篩選方式找到有用信息的成功率達(dá)到82%，遠(yuǎn)超隨機(jī)選擇的54%和簡單過濾方法的74%，效率提升了1.52倍。

一、智能體改進(jìn)難題：海量數(shù)據(jù)中找"金子"

在現(xiàn)代人工智能應(yīng)用中，智能體就像一個能干的數(shù)字員工，它們可以與用戶聊天、調(diào)用各種工具、執(zhí)行復(fù)雜的多步驟任務(wù)。這些智能體已經(jīng)被大規(guī)模部署在實際應(yīng)用中，每天處理著成千上萬的用戶請求。然而，讓這些數(shù)字員工變得更聰明、更高效卻面臨著前所未有的挑戰(zhàn)。

智能體在工作過程中會產(chǎn)生詳細(xì)的行為數(shù)據(jù)，包括推理步驟、工具使用記錄、執(zhí)行結(jié)果和用戶反饋等。這些數(shù)據(jù)就像智能體的"工作檔案"，記錄了它們?nèi)绾嗡伎?、如何行動，以及用戶對其表現(xiàn)的反應(yīng)。同時，人工智能領(lǐng)域已經(jīng)發(fā)展出了成熟的偏好學(xué)習(xí)方法，如人類反饋強化學(xué)習(xí)（RLHF）和直接偏好優(yōu)化（DPO），這些方法能夠根據(jù)精心構(gòu)建的偏好數(shù)據(jù)來改進(jìn)AI系統(tǒng)的行為表現(xiàn)。

問題在于，智能體產(chǎn)生的行為數(shù)據(jù)和偏好學(xué)習(xí)方法所需要的訓(xùn)練數(shù)據(jù)之間存在著巨大的鴻溝。生產(chǎn)系統(tǒng)能夠捕獲豐富的交互軌跡，但沒有機(jī)制將這些軌跡轉(zhuǎn)化為訓(xùn)練信號。偏好學(xué)習(xí)流程需要經(jīng)過精心策劃的比較數(shù)據(jù)，但缺乏從生產(chǎn)環(huán)境中系統(tǒng)性獲取這些數(shù)據(jù)的方法。結(jié)果就是，改進(jìn)已部署的智能體仍然主要依賴手工操作，開發(fā)人員需要人工檢查軌跡，推測故障模式，然后在提示詞或工具定義上進(jìn)行迭代，整個過程缺乏結(jié)構(gòu)化的流水線連接。

這種困難持續(xù)存在有幾個關(guān)鍵原因。離線評估雖然對測試已知場景很有價值，但依賴于精心策劃的基準(zhǔn)測試，這些測試無法覆蓋現(xiàn)實世界使用中的長尾情況。人工審查無法擴(kuò)展，智能體軌跡數(shù)量龐大且不確定性很高，沒有可靠的指標(biāo)來檢測智能體何時陷入無效循環(huán)或用戶何時感到沮喪。一個自然的替代方案是使用輔助的大語言模型來評估每個軌跡，因為"LLM作為評判者"的方法在結(jié)構(gòu)化任務(wù)上顯示出與人類偏好超過80%的一致性，但將這種評估應(yīng)用到每個軌跡在大規(guī)模應(yīng)用中成本過高。

之前關(guān)于對話質(zhì)量的工作提出了從對話特征中衍生的自動質(zhì)量指標(biāo)，但這些方法做出的假設(shè)在智能體系統(tǒng)中并不成立。首先，它們將對話視為全貌，而智能體將話語層（用戶意圖、澄清、挫折）與執(zhí)行層（工具調(diào)用、API響應(yīng)、狀態(tài)變化）交織在一起。智能體可以保持流暢友好的對話，同時在執(zhí)行上發(fā)生災(zāi)難性失敗。其次，它們假設(shè)信號應(yīng)該產(chǎn)生質(zhì)量評分或規(guī)定修復(fù)方案，但質(zhì)量判斷是依賴上下文的。對專家用戶來說簡潔的回應(yīng)可能是理想的，但對新手來說可能令人沮喪，將這種判斷嵌入系統(tǒng)中有編碼不能跨領(lǐng)域泛化的假設(shè)的風(fēng)險。

二、信號框架：給智能體裝上"智能體檢儀"

研究團(tuán)隊提出了一個創(chuàng)新的解決方案，就像給智能體裝上了一個智能體檢儀，能夠自動識別各種值得關(guān)注的行為模式。這個體檢儀的核心是一套輕量級的軌跡信號系統(tǒng)，由多個檢測器組成的分診功能。信號是對反復(fù)出現(xiàn)的行為模式的描述性標(biāo)記，涵蓋交互層面（錯位、停滯、脫離、滿意）、執(zhí)行層面（失敗、循環(huán)）和環(huán)境層面（耗盡），這些信號可以在不調(diào)用模型的情況下計算，并作為結(jié)構(gòu)化元數(shù)據(jù)附加到軌跡上。

交互信號和執(zhí)行信號面向?qū)W習(xí)，適用于構(gòu)建偏好數(shù)據(jù)，而環(huán)境信號支持系統(tǒng)級診斷，而不作為訓(xùn)練監(jiān)督。關(guān)鍵的是，信號不是質(zhì)量評分，它們識別可能對下游分析有信息價值的軌跡，既浮現(xiàn)失敗案例也浮現(xiàn)范例案例，而不主張正確性或規(guī)定補救措施。

這種設(shè)計借鑒了信息檢索領(lǐng)域的悠久傳統(tǒng)，在該領(lǐng)域中，查詢重新表述、停留時間和會話放棄等隱式行為信號一直作為用戶滿意度的代理，而不需要明確的反饋。研究團(tuán)隊將這個想法適應(yīng)到智能體設(shè)置中，其中軌跡不僅包含自然語言，還包含工具調(diào)用、執(zhí)行結(jié)果和環(huán)境反饋。

整個信號分類法按照兩個正交軸組織軌跡信號：從中衍生信號的數(shù)據(jù)層和它們的下游效用。第一個軸區(qū)分從軌跡的話語層（用戶-助手自然語言）衍生的信號和從執(zhí)行層（例如工具調(diào)用、運行時事件）衍生的信號。第二個軸區(qū)分對學(xué)習(xí)有用的信號（即用于構(gòu)建偏好數(shù)據(jù)和改進(jìn)智能體策略）和主要對診斷和系統(tǒng)可觀察性有用的信號。這產(chǎn)生了三個頂級信號組：交互信號（面向?qū)W習(xí)）、執(zhí)行信號（面向?qū)W習(xí)）和環(huán)境信號（面向診斷）。

三、交互信號：讀懂人機(jī)對話中的"弦外之音"

交互信號就像一個敏感的對話分析師，專門負(fù)責(zé)從用戶與智能體的自然語言交流中捕捉各種微妙的信號。這些信號反映了面向用戶的行為和合作動態(tài)，但不對智能體的內(nèi)部狀態(tài)或語義正確性做出判斷。這些信號適用于偏好學(xué)習(xí)，因為它們暴露了直接對用戶可見的成功和失敗模式。

研究團(tuán)隊將交互信號分為四種反復(fù)出現(xiàn)的話語級模式。錯位信號捕捉用戶和智能體之間的語義或意圖不匹配，比如重新表述、糾正、澄清和重申約束。重要的是，這些信號不主張任何一方是"錯誤的"，它們只表明共同理解尚未建立。停滯信號捕捉話語繼續(xù)但未能取得可見進(jìn)展的情況，包括近似重復(fù)的助手回應(yīng)、循環(huán)解釋、重復(fù)的腳手架和其他形式的語言退化。與執(zhí)行級循環(huán)不同，停滯是根據(jù)話語動態(tài)而不是控制流來定義的。

脫離信號標(biāo)記從交互中撤回合作意圖，包括明確要求退出智能體流程（例如"與人類交談"）、強烈的負(fù)面立場，以及當(dāng)會話邊界可觀察時的放棄標(biāo)記。脫離不同于錯位和停滯，因為它代表終端或接近終端的狀態(tài)。滿意信號表明交互的成功收斂和完成，包括感謝表達(dá)、成功確認(rèn)（例如"有效"）和結(jié)束話語。研究團(tuán)隊使用這些信號來采樣范例軌跡，而不是分配質(zhì)量評分。

這些信號的檢測使用輕量級標(biāo)準(zhǔn)化和可解釋的、容錯的用戶回合匹配。錯位、脫離和滿意主要由短語級線索觸發(fā)，并在附近回合進(jìn)行額外的局部相似性檢查，以捕捉重新表述，即使在缺乏明確標(biāo)記時也是如此。停滯使用簡單的話語啟發(fā)式檢測，總結(jié)重復(fù)和低效率（例如說話者角色內(nèi)的近似重復(fù)措辭和相對于基線的長時間交互）。整體設(shè)計強調(diào)對表面變化的魯棒性，同時保持觸發(fā)器對特定消息跨度的可追溯性，以便分診。

四、執(zhí)行信號：監(jiān)測智能體的"動作表現(xiàn)"

執(zhí)行信號就像一個專業(yè)的動作分析師，專門從智能體內(nèi)部控制循環(huán)發(fā)出的結(jié)構(gòu)化運行時事件中提取信息。這些事件可能包括推理步驟、動作選擇、工具或網(wǎng)絡(luò)調(diào)用、內(nèi)存操作或其他智能體動作。與交互信號不同，執(zhí)行信號是模態(tài)無關(guān)的且通常是確定性的。研究團(tuán)隊將執(zhí)行信號作為單獨的類別，因為它們反映智能體決策行為而不是外部系統(tǒng)條件。

執(zhí)行信號被分為兩種反復(fù)出現(xiàn)的行為模式。失敗信號捕捉不產(chǎn)生可用或任務(wù)推進(jìn)結(jié)果的動作嘗試（例如空結(jié)果、無操作動作、不適當(dāng)?shù)膭幼鬟x擇），而不將責(zé)任歸咎于智能體或環(huán)境。這些信號與學(xué)習(xí)相關(guān)，因為它們影響智能體的后續(xù)行為。循環(huán)信號捕捉智能體保持活躍但不取得進(jìn)展的重復(fù)執(zhí)行模式，包括重試、策略或動作類型之間的振蕩以及漸進(jìn)參數(shù)漂移。這些模式被統(tǒng)一視為非進(jìn)展控制流的表現(xiàn)。

執(zhí)行失敗通過對結(jié)構(gòu)化觀察中的非推進(jìn)工具結(jié)果進(jìn)行分類來檢測，并將每個結(jié)果與其觸發(fā)調(diào)用關(guān)聯(lián)以保留相關(guān)上下文（例如工具身份和參數(shù)）。執(zhí)行循環(huán)通過調(diào)用流序列分析檢測，使用簡單的模式規(guī)則識別具有相同輸入的重復(fù)調(diào)用、具有系統(tǒng)性變化輸入的重復(fù)調(diào)用以及重復(fù)的多工具循環(huán)。這種分離允許失敗捕捉局部故障，而循環(huán)捕捉持續(xù)的非進(jìn)展控制流。

五、環(huán)境信號：識別"外部干擾因素"

環(huán)境信號就像一個系統(tǒng)環(huán)境監(jiān)測器，專門捕捉來自周圍系統(tǒng)而不是智能體內(nèi)部策略或推理的失敗和約束。這些包括基礎(chǔ)設(shè)施、API和資源邊界條件。研究團(tuán)隊將這些信號隔離出來，因為雖然它們對可觀察性和診斷至關(guān)重要，但不適合作為訓(xùn)練監(jiān)督。它們不反映智能體決策的質(zhì)量，如果用于學(xué)習(xí)可能會引入虛假關(guān)聯(lián)。需要注意的是，如果事件主要由系統(tǒng)約束或服務(wù)健康（配額、中斷、上下文上限）解釋，研究團(tuán)隊將其分類為環(huán)境信號，否則分類為執(zhí)行信號。

環(huán)境信號被歸入單一高級模式：耗盡信號捕捉邊界和基礎(chǔ)設(shè)施條件，如上下文溢出、速率限制、API失敗和格式錯誤的外部響應(yīng)，這些獨立于智能體能力終止或降級行為。它們用于診斷而不是學(xué)習(xí)。

耗盡信號通過識別系統(tǒng)輸出中的外部失敗和資源限制指標(biāo)從工具觀察中檢測。檢測器產(chǎn)生軌跡局部化實例，支持診斷和系統(tǒng)級分診，它通過將事件歸因于外部服務(wù)條件和資源邊界來區(qū)分環(huán)境驅(qū)動約束和執(zhí)行驅(qū)動問題，當(dāng)這些指標(biāo)占主導(dǎo)地位時。

六、實驗驗證：在"考場"上測試信號系統(tǒng)

研究團(tuán)隊將提出的信號框架作為一個數(shù)據(jù)選擇機(jī)制進(jìn)行評估，該機(jī)制可以位于偏好構(gòu)建和訓(xùn)練的上游。與其將信號評估為分類器或質(zhì)量評分器，他們詢問信號是否能夠作為實用的采樣基礎(chǔ)設(shè)施：識別哪些軌跡值得人工審查，而不需要語義理解或明確的獎勵建模。具體來說，他們旨在驗證信號采樣在固定注釋預(yù)算下比基線策略表面更高比例的開發(fā)者信息軌跡的聲明，揭示有意義的成功或失敗模式，否則這些模式會被稀釋或完全錯過。

研究團(tuán)隊使用τ-bench作為測試平臺，這是一個模擬配備工具的智能體在兩個領(lǐng)域（航空和零售）中多輪對話的基準(zhǔn)。其軌跡包含話語級交互（用戶-智能體對話）和結(jié)構(gòu)化執(zhí)行事件（工具調(diào)用、API響應(yīng)、數(shù)據(jù)庫變更），運用了提議框架中的所有信號類別。他們從τ-bench公開可用的歷史軌跡構(gòu)建軌跡池，這些軌跡由多個智能體配置（變化模型骨干和提示策略）在所有基準(zhǔn)任務(wù)中生成。結(jié)果池自然包括成功和失敗。他們將總池大小表示為N，每種方法抽取固定大小的n=100軌跡樣本。需要注意的是，τ-bench使用LLM模擬用戶而不是真實用戶，某些交互信號，特別是脫離和滿意，因此相對于真實世界流量可能代表不足。

研究團(tuán)隊比較了三種采樣方法，每種抽取100個軌跡。隨機(jī)采樣從完整軌跡池中均勻采樣，作為無偏基線。啟發(fā)式采樣選擇包含至少10條用戶消息的軌跡，這是從業(yè)者可能應(yīng)用的最自然的第一道過濾器。這個閾值捕捉了更長對話更復(fù)雜或更可能包含失敗的直覺。然而，對話長度是難度的表面相關(guān)，而不是信息價值的直接指標(biāo)。信號采樣由組合交互和執(zhí)行信號選擇的軌跡。環(huán)境信號被排除，與其僅診斷角色一致。該方法使用完整的交互信號集（錯位、停滯、脫離、滿意）和執(zhí)行信號（失敗、循環(huán)），聚合為綜合分診評分，優(yōu)先考慮顯示一個或多個信號激活的軌跡。

所有三種采樣策略抽取相同數(shù)量的軌跡（n=100），確保注釋產(chǎn)出的任何差異可歸因于采樣策略而不是注釋量。三名專家注釋者，每人都熟悉智能體系統(tǒng)和工具使用模式，獨立標(biāo)記所有300個軌跡。來自所有條件的軌跡被打亂到單一隊列中，注釋者對產(chǎn)生每個軌跡的采樣策略保持盲態(tài)。

七、令人矚目的實驗結(jié)果

實驗結(jié)果就像一場精彩的比賽，信號采樣方法表現(xiàn)出色。在評估注釋可靠性方面，個體注釋者的YES率范圍從0.57到0.74，產(chǎn)生0.34的流行指數(shù)和0.17的偏差指數(shù)。這兩個因素已知會降低κ族統(tǒng)計量，即使原始一致性是充分的，因此研究團(tuán)隊主要依賴Gwet的AC1，它糾正了這些效應(yīng)，作為主要一致性系數(shù)。對于二元開發(fā)者信息問題，三評分者Gwet的AC1為0.477，表明中等一致性。

因為這個問題需要在分級、主觀屬性上進(jìn)行二元劃分，分歧集中在邊界軌跡上，其中證據(jù)存在但模糊可操作，因此中等值反映閾值分歧而不是缺乏共同理解。這種解釋通過主要原因類別得到確認(rèn)：在所有三名注釋者同意軌跡有信息價值的軌跡條件下（N=130），F(xiàn)leiss的κ=0.662，Gwet的AC1=0.829，表明注釋者一旦同意軌跡值得檢查，就能可靠地識別相同的潛在問題。

τ-bench中的每個軌跡都帶有二元獎勵：只有當(dāng)最終數(shù)據(jù)庫狀態(tài)與真實結(jié)果完全匹配且智能體響應(yīng)包含所有必需信息時，軌跡才被認(rèn)為成功。按這個獎勵分層暴露了三個采樣器之間的關(guān)鍵組成差異。啟發(fā)式采樣主要選擇失敗軌跡（70%獎勵=0），而隨機(jī)采樣反映池的基本率（37%失?。?。信號采樣繪制更平衡的混合（52%失敗）。這種組成差異具有重要含義。

在失敗軌跡中，所有策略實現(xiàn)高信息率（75.7% – 96.2%），信號采樣達(dá)到96.2%。實際差距在成功軌跡中更明顯，三種策略在此分化最大：信號采樣在66.7%的成功軌跡中識別信息模式，相比啟發(fā)式采樣的50.0%和隨機(jī)采樣的僅41.3%。這些是微妙的行為問題，例如政策違規(guī)和低效工具使用，不阻止任務(wù)完成但仍然對改進(jìn)很重要。

為了將每種策略找到信息軌跡的能力與其過度采樣失敗的傾向隔離開來，研究團(tuán)隊進(jìn)行了反事實標(biāo)準(zhǔn)化，將每種策略的分層特定率重新加權(quán)到隨機(jī)采樣的獎勵分布（63%成功，37%失?。?。在這種調(diào)整下，信號采樣實現(xiàn)77.6%的標(biāo)準(zhǔn)化率，相比啟發(fā)式采樣的62.7%和隨機(jī)采樣的54.0%。啟發(fā)式采樣相對隨機(jī)采樣的優(yōu)勢在其失敗重組成被移除后下降11.3個百分點，而信號采樣的優(yōu)勢更加穩(wěn)?。▋H4.4點減少）。這證實信號采樣提供真正的每軌跡信息增益，而不僅僅是過度采樣失敗軌跡。

八、實用效益：讓智能體改進(jìn)更高效

前述結(jié)果直接轉(zhuǎn)化為實際節(jié)省。在100個注釋的固定預(yù)算下，信號采樣產(chǎn)出82個信息軌跡，相比啟發(fā)式采樣的74個和隨機(jī)采樣的54個。等價地，信號采樣下每個信息軌跡成本1.22個標(biāo)簽，相對啟發(fā)式采樣的1.35個和隨機(jī)采樣的1.85個，對應(yīng)相對無偏基線1.52倍效率增益。此外，正如獎勵分層分析顯示的，這種增益不僅僅是過度采樣明顯失敗的人工制品：信號采樣在失敗和成功分層內(nèi)都保持更高的信息率，意味著效率優(yōu)勢即使在樣本組成保持恒定時也持續(xù)存在。

在開發(fā)者信息軌跡中，注釋原因的分布在所有三種策略中是穩(wěn)定的：動作/工具使用行為問題占57-60%，對話問題占38-43%，少量成功范例。這種一致性表明信號框架不偏向表面的問題類型，而是簡單地表面更多問題。

研究團(tuán)隊還檢查了信號采樣的優(yōu)勢是否在τ-bench的不同領(lǐng)域中保持。在航空領(lǐng)域，所有策略實現(xiàn)高信息率（86% – 96%），為差異化留下有限空間。零售領(lǐng)域具有更復(fù)雜的多步驟任務(wù)和更低的基本信息率，揭示了最清晰的分離：信號采樣實現(xiàn)78%信息率，相比啟發(fā)式采樣的66%和隨機(jī)采樣的35%。信號采樣因此在軌跡最異質(zhì)且非信息軌跡最普遍的地方提供最大邊際價值。

九、局限性與未來展望

這項研究雖然取得了顯著成果，但也存在一些局限性需要坦誠面對。實驗是在τ-bench上進(jìn)行的，該基準(zhǔn)跨越兩個領(lǐng)域（航空和零售）并使用LLM模擬用戶。雖然這些領(lǐng)域運用了分類法中的所有信號類別，但觀察到的優(yōu)勢是否能推廣到更廣泛的領(lǐng)域范圍和真實用戶群體仍然是一個開放問題。特別是，模擬用戶可能低估了真實脫離和滿意模式的變異性。

此外，信號分類法是有意粗粒度和行為性的。它捕捉反復(fù)出現(xiàn)的話語和執(zhí)行模式，但不評估語義正確性或領(lǐng)域特定政策違規(guī)。流暢且行為上不顯著但事實錯誤的軌跡不會被當(dāng)前框架表面，表明信號最好與互補機(jī)制（如領(lǐng)域特定驗證器或結(jié)果驗證）一起使用。

最后，信號檢測器依賴確定性規(guī)則和詞匯啟發(fā)式?；谀Ｐ偷臋z測器可以提供改進(jìn)的召回率，特別是對于缺乏明確詞匯標(biāo)記的微妙錯位或隱式挫折模式，盡管代價是使始終在線部署可行的輕量級計算。探索結(jié)合基于規(guī)則的信號與選擇性基于模型檢測的混合架構(gòu)是一個有前景的方向。

盡管存在這些局限性，這個框架為智能體系統(tǒng)的持續(xù)改進(jìn)提供了一個實用且高效的解決方案。由于所有信號都通過確定性規(guī)則而不是模型調(diào)用計算，該方法產(chǎn)生微不足道的開銷，并且能夠輕松擴(kuò)展到大型交互跟蹤集合。這種實用性和效率的結(jié)合使信號基采樣成為更廣泛偏好數(shù)據(jù)構(gòu)建流水線中引人注目的第一階段：選擇的軌跡，包括失敗和成功范例，可以與反事實延續(xù)配對，為基于偏好的優(yōu)化產(chǎn)生監(jiān)督。

Q&A

Q1：什么是智能體軌跡信號系統(tǒng)？

A：智能體軌跡信號系統(tǒng)就像給AI助手裝上的智能體檢儀，能夠自動識別AI在工作時的各種行為模式。它不需要調(diào)用大語言模型，運行成本極低，卻能從海量的交互記錄中快速篩選出最值得關(guān)注的案例，幫助開發(fā)者發(fā)現(xiàn)問題并改進(jìn)AI系統(tǒng)。

Q2：這套信號系統(tǒng)如何提高AI改進(jìn)效率？

A：傳統(tǒng)方法篩選有用信息的成功率只有54%，而信號系統(tǒng)能達(dá)到82%，效率提升了1.52倍。這意味著在相同的人工審查成本下，開發(fā)者能找到更多有價值的改進(jìn)線索，既包括需要修正的失敗案例，也包括值得學(xué)習(xí)的成功范例。

Q3：DigitalOcean的信號分類法包含哪些類型？

A：信號分類法包含三大類：交互信號（識別用戶與AI對話中的問題，如溝通不暢、對話停滯等）、執(zhí)行信號（監(jiān)測AI執(zhí)行任務(wù)時的表現(xiàn)，如工具調(diào)用失敗、陷入循環(huán)等）、環(huán)境信號（識別外部系統(tǒng)限制，如API故障、資源耗盡等，主要用于系統(tǒng)診斷）。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.