国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

LangChain Agent 年度報告:輸出質(zhì)量仍是 Agent 最大障礙,客服、研究是最快落地場景

0
分享至

2025 年,讓 Agent 實際投產(chǎn)、落地應(yīng)用的最大障礙已經(jīng)不再是成本問題了,而是「質(zhì)量」。如何讓 Agent 輸出可靠、準確的內(nèi)容,仍然是最難的部分。

近期,LangChain 通過對工程師、產(chǎn)品經(jīng)理、企業(yè)高管等 1300 名行業(yè)人士進行調(diào)查,深度調(diào)研了 AI Agent 目前最真實的應(yīng)用情況。

進入 2026 年,企業(yè)對于 Agent 的討論焦點,已經(jīng)從「要不要做」全面轉(zhuǎn)向了「如何規(guī)模化、可靠且高效地用好」。

6 個關(guān)鍵結(jié)論:

  • Agent 實際落地應(yīng)用趨勢明顯。57% 的受訪者已將 Agent 投入到生產(chǎn)環(huán)境中,且規(guī)模越大的企業(yè),落地速度越快;

  • 客戶服務(wù)、研究與數(shù)據(jù)分析是目前 Agent 最火熱的兩大應(yīng)用方向,兩者合計占據(jù)了所有應(yīng)用場景的一半以上。說明,在重復(fù)性高、知識密集或直接面向客戶的工作中,Agent 能最大化地創(chuàng)造價值;

  • 確保 Agent 輸出的結(jié)果穩(wěn)定可靠,依然是商業(yè)化落地中最棘手的難題。相比之下,成本已不再是大家最頭疼的問題,行業(yè)的關(guān)注點正從「省錢」轉(zhuǎn)向「如何讓產(chǎn)品做得又快又好」;

  • Agent 的「可觀測性」已經(jīng)成為行業(yè)標(biāo)配。大多數(shù)團隊,都會對 Agent 進行全面追蹤,記錄內(nèi)部運行狀態(tài)和行為模式;

  • 關(guān)于 Agent Evals 的實踐還不夠成熟。約半數(shù)團隊會進行離線評估,只有約三分之一的團隊會在真實的生產(chǎn)數(shù)據(jù)上進行在線評估。

  • Coding Agent 是大家在日常工作中使用最頻繁的。此外,仍有相當(dāng)一部分受訪者表示,除了聊天或編程助手,還沒用過其他類型的 Agent。

??關(guān)注 Founder Park,最及時最干貨的創(chuàng)業(yè)分享

超 17000 人的「AI 產(chǎn)品市集」社群!不錯過每一款有價值的 AI 應(yīng)用。

邀請從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者,飛書掃碼加群:

進群后,你有機會得到:

  • 最新、最值得關(guān)注的 AI 新品資訊;

  • 不定期贈送熱門新品的邀請碼、會員碼;

  • 最精準的AI產(chǎn)品曝光渠道

01規(guī)模越大的企業(yè),

落地 Agent 速度越快

調(diào)研數(shù)據(jù)顯示,超過一半(57.3%)的受訪者已經(jīng)將 Agent 投入實際生產(chǎn),另有 30.4% 的人正在開發(fā)且有明確的上線計劃。

這一數(shù)字比去年的 51% 有了明顯增長,行業(yè)正在從「概念驗證」快速邁向「價值實現(xiàn)」階段。

規(guī)模越大,行動越快

一個有趣的現(xiàn)象是,萬人以上的大型企業(yè)中,已經(jīng)有 67% 將 Agent 投入生產(chǎn),24% 正在積極開發(fā)并計劃部署;而在百人以下的小公司,這個比例是 50% 和 36%。這說明,大型企業(yè)憑借平臺、安全和基礎(chǔ)設(shè)施上等方面的資源優(yōu)勢,能更快地將 Agent 從試驗品變成穩(wěn)定可靠的生產(chǎn)力工具。


02落地最快的場景:
客戶服務(wù)、研究與數(shù)據(jù)分析

客戶服務(wù)(26.5%)成為最普遍的 Agent 用例,研究與數(shù)據(jù)分析(24.4%)緊隨其后。兩者合計占據(jù)了所有應(yīng)用場景的一半以上。


  • 客戶服務(wù)用例的亮眼數(shù)據(jù),說明企業(yè)正在大膽地將 Agent 直接推向一線,面向真實客戶,不僅僅是限于內(nèi)部使用。

  • 同時,Agent 在企業(yè)內(nèi)部也創(chuàng)造了顯著價值,例如,有 18% 的受訪者將其用于內(nèi)部工作流程自動化,來提升員工效率。

  • 研究與數(shù)據(jù)分析用例的普及,再次證明了 Agent 在海量信息整合、跨源推理和加速知識型工作方面的核心優(yōu)勢。

值得注意的是,今年的應(yīng)用場景分布更廣,說明 Agent 的應(yīng)用正在從幾個早期領(lǐng)域向更多元化的方向滲透。

規(guī)?;瘧?yīng)用中的場景差異

在萬人以上的大企業(yè)中,提升內(nèi)部生產(chǎn)力(26.8%)反超客戶服務(wù),成為第一大應(yīng)用場景。這或許說明,大企業(yè)傾向于先在內(nèi)部用 AI 提升團隊運營效率,然后再將其推廣到外部客戶。

03輸出質(zhì)量仍是 Agent 落地的最大障礙

和去年一樣,質(zhì)量仍然是阻礙 Agent 大規(guī)模應(yīng)用的最大障礙,三分之一的受訪者將質(zhì)量視為主要瓶頸。這里的質(zhì)量問題,指的是 Agent 的準確性、相關(guān)性、輸出結(jié)果的一致性,以及在維持適切語調(diào)、遵循品牌或政策規(guī)范方面的能力。


延遲(20%)則成為第二大挑戰(zhàn)。當(dāng) Agent 被用于客服或代碼生成這類實時交互場景時,響應(yīng)速度直接決定了用戶體驗的好壞。這也反映出團隊必須在「效果」和「速度」之間做出權(quán)衡,功能更強、步驟更多的 Agent 雖然能產(chǎn)出更高質(zhì)量的結(jié)果,但響應(yīng)速度往往也更慢。

一個積極的變化是,隨著模型價格下降和技術(shù)優(yōu)化,成本已不再是大家最頭疼的問題。團隊的關(guān)注點正從單純的開銷轉(zhuǎn)向如何讓 Agent 運行得更好、更快。

不同規(guī)模企業(yè)的痛點問題不一樣

對于員工數(shù)超過 2000 人的企業(yè)來說,質(zhì)量問題仍然是首要障礙。但對安全問題(24.9%)的關(guān)注度超過了延遲問題,成為僅次于質(zhì)量的第二大挑戰(zhàn)。


對于員工數(shù)超過 1 萬的企業(yè),在開放式回答中,許多大企業(yè)提到「幻覺」和生成內(nèi)容的一致性是保證質(zhì)量的最大挑戰(zhàn),同時在上下文工程及大規(guī)模管理上下文方面方面也是困難重重。

04Agent 執(zhí)行流程的可觀測性成為行業(yè)標(biāo)配

能夠追蹤 Agent 多步推理鏈和工具調(diào)用的能力,已成為一項基本要求。89% 的企業(yè)已為其 Agent 實施了某種形式的可觀察性,其中 62% 擁有詳細的追蹤能力,允許他們審查單個步驟和工具調(diào)用。


在已有 Agent 投入生產(chǎn)的受訪者中,這一比例甚至更高:94% 部署了可觀察性,其中 71.5% 具備了完整的追蹤能力。這揭示了 Agent 工程的一條基本準則:如果無法洞察 Agent 的推理與行動過程,團隊將無法可靠地排查故障、優(yōu)化性能,也無法與內(nèi)外部的利益相關(guān)者建立信任。


追蹤 Agent 多步推理鏈和工具調(diào)用的能力,已經(jīng)成為了一項行業(yè)標(biāo)配。高達 89% 的團隊部署了可觀察性系統(tǒng),其中 62% 能夠進行細粒度的追蹤,審查每一步的細節(jié)。

對于已經(jīng)投入生產(chǎn)的 Agent 項目,這個比例高達 94%,其中 71.5% 具備了完整的追蹤能力。這背后是 Agent 工程領(lǐng)域的一個基本共識:如果無法洞察 Agent 的思考推理與行動過程,團隊將無法可靠地排查故障、優(yōu)化性能,也無法與內(nèi)外部的利益相關(guān)者建立信任。

05Agent 評估越來越得到重視

雖然可觀察性已經(jīng)普及,但 Agent 評估仍是相對較新的領(lǐng)域。

超過半數(shù)(52.4%)的企業(yè)表示,會通過測試集進行離線評估,這說明許多團隊已認識到在部署前發(fā)現(xiàn)性能衰退和驗證 Agent 行為的重要性。

在線評估(37.3%)的采用率較低,但隨著團隊開始監(jiān)控 Agent 在真實世界中的表現(xiàn),這個比例正在增長。


當(dāng) Agent 進入生產(chǎn)環(huán)境后,評估變得更為重要。「不進行任何評估」的團隊比例從 29.5% 大幅下降至 22.8%。進行在線評估的比例則上升至 44.8%,因為團隊需要通過觀察真實的生產(chǎn)數(shù)據(jù)來實時發(fā)現(xiàn)問題。


但大多數(shù)團隊仍然是從離線評估入手,因為門檻更低、設(shè)置更明確。

在評估方法上,行業(yè)呈現(xiàn)出了混合模式。近四分之一的團隊會同時采用離線和在線兩種評估方式。


大家普遍依賴人機結(jié)合的方法:一方面,采用將大語言模型用作評判者(LLM-as-judge)(53.3%)的方式來擴大評估的覆蓋面,同時通過人工審查來保證評估深度;另一方面,通過人工審查(59.8%)來保證評估的深度,尤其是在處理精細或高風(fēng)險場景時。

相比之下,像 ROUGE 和 BLEU 這樣的傳統(tǒng)機器學(xué)習(xí)指標(biāo)采用率較低,因為它們不適合評估開放式、存在多個合規(guī)答案的 Agent 交互場景。


06GPT 占主導(dǎo),

但混合使用多種模型是常態(tài)

雖然 OpenAI 模型在采用率上占主導(dǎo)地位,但幾乎沒有團隊會把雞蛋放在一個籃子里。

超過三分之二的企業(yè)正在使用 OpenAI 的 GPT 模型,超過四分之三的團隊在生產(chǎn)或開發(fā)中會使用多種模型。大家越來越傾向于根據(jù)任務(wù)的復(fù)雜度、成本和延遲,靈活地將任務(wù)分配給不同的模型,而不是綁定在某一個平臺上。


盡管商業(yè) API 提供了便利,但在內(nèi)部署模型對許多組織而言仍是一項重要策略。超過三分之一的組織仍在投資部署開源模型,主要是出于成本優(yōu)化、數(shù)據(jù)主權(quán)或行業(yè)監(jiān)管合規(guī)的考慮。

與此同時,微調(diào)(Fine-tuning)仍然沒有成為主流選擇。57% 的組織沒有進行微調(diào),而是更依賴于提示工程和 RAG(檢索增強生成)技術(shù)。主要是因為微調(diào)需要在數(shù)據(jù)收集、標(biāo)注、訓(xùn)練基礎(chǔ)設(shè)施和持續(xù)維護上進行大量投入,目前仍是少數(shù)高價值或?qū)I(yè)化場景的選擇。


07日常工作中,

還是編程類 Agent 被用得最多

在日常工作中,最常用哪些 Agent?在開放式問答中,我們發(fā)現(xiàn)了幾個清晰的模式:

編程 Agent 主導(dǎo)日常工作流。

到目前為止,絕大多數(shù)被提及的都是編程類工具,如 Claude Code,Cursor,GitHub Copilot,Amazon Q、Windsurf 和 Antigravity 等工具。這些工具被廣泛用于代碼生成、調(diào)試和測試。

研究類 Agent 是第二大常用類別

第二常見的模式是由 ChatGPT、Claude、Gemini、Perplexity 及類似工具驅(qū)動的研究與深度研究 Agent。這些 Agent 被用于探索新領(lǐng)域、總結(jié)長篇文檔以及整合跨源信息,常常在同一工作流程中與編程 Agent 協(xié)同使用。

基于 LangChain 和 LangGraph 構(gòu)建的自定義 Agent 也廣受歡迎。

許多團隊正在利用這些框架構(gòu)建內(nèi)部專用的 Agent,用于 QA 測試、知識庫搜索、SQL/文本轉(zhuǎn) SQL、需求規(guī)劃、客戶支持和工作流自動化等場景。


值得注意的是,仍有相當(dāng)一部分受訪者表示,除了聊天或編程助手,他們還沒用過其他類型的 Agent。這說明,雖然 Agent 概念很火,但「一切皆可 Agent」的愿景仍處于非常早期的階段。

注:報告研究方法

本報告的數(shù)據(jù)來源于 LangChain 在 2025 年 11 月 18 日至 12 月 2 日期間進行的一項公開調(diào)查,共收到 1340 份有效回復(fù)。

行業(yè)分布 Top 5:科技(占受訪者的 63%)、金融服務(wù)(占受訪者的 10%)、醫(yī)療健康(占受訪者的 6%)、教育(占受訪者的 4%)、消費品(占受訪者的 3%)、制造業(yè)(占受訪者的 3%)。

公司規(guī)模分布:少于 100 人(占受訪者的 49%)、100-500 人(占受訪者的 18%)、500-2000 人(占受訪者的 15%)、2000-10,000 人(占受訪者的 9%)、超過 10,000 人(占受訪者的 9%)。

轉(zhuǎn)載原創(chuàng)文章請?zhí)砑游⑿牛篺ounderparker

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
王毅判斷沒錯,短短三天中方見識了:比利時的虛偽、西班牙的真誠

王毅判斷沒錯,短短三天中方見識了:比利時的虛偽、西班牙的真誠

快看張同學(xué)
2026-03-26 10:19:39
張雪峰走后才懂:北京戶口,真的值得拿命換嗎?

張雪峰走后才懂:北京戶口,真的值得拿命換嗎?

硯底沉香
2026-03-26 12:09:51
中國股市炒股其實很簡單:"20以下滿倉進,80以上滿倉出"穩(wěn)賺不虧

中國股市炒股其實很簡單:"20以下滿倉進,80以上滿倉出"穩(wěn)賺不虧

股經(jīng)縱橫談
2026-03-26 17:11:55
9.9元戰(zhàn)火未熄,庫迪用“不限量”掀了桌子!給瑞幸整不會了

9.9元戰(zhàn)火未熄,庫迪用“不限量”掀了桌子!給瑞幸整不會了

品牌觀察官
2026-03-26 17:17:59
浙江省高校排名更新!寧波大學(xué)第4,浙工大第7,溫州醫(yī)科大僅排14

浙江省高校排名更新!寧波大學(xué)第4,浙工大第7,溫州醫(yī)科大僅排14

朗威談星座
2026-03-26 18:09:46
1982年血色使館:中國外交官唐健生為了生存殺光了所有同事

1982年血色使館:中國外交官唐健生為了生存殺光了所有同事

阿校談史
2026-03-20 11:03:27
德邦將于3月31日退市并摘牌,并入京東物流后品牌獨立運營

德邦將于3月31日退市并摘牌,并入京東物流后品牌獨立運營

南方都市報
2026-03-26 11:30:07
已被禁賽4年 俄羅斯不后悔未加入亞足聯(lián) 主帥:就5隊能打難獲進步

已被禁賽4年 俄羅斯不后悔未加入亞足聯(lián) 主帥:就5隊能打難獲進步

我愛英超
2026-03-26 18:25:55
快手股價暴跌逾14%,總市值已不足2000億港元

快手股價暴跌逾14%,總市值已不足2000億港元

澎湃新聞
2026-03-26 16:36:26
我們看印度人是奇葩,印度人看我們也一樣?真相是我們想象的百倍

我們看印度人是奇葩,印度人看我們也一樣?真相是我們想象的百倍

番外行
2026-03-24 13:04:28
孫子生日,我轉(zhuǎn)了8888元給兒媳,她回復(fù)2個字,我直接凍結(jié)銀行卡

孫子生日,我轉(zhuǎn)了8888元給兒媳,她回復(fù)2個字,我直接凍結(jié)銀行卡

清茶淺談
2025-09-07 23:32:29
一口氣刷完全集,Netflix新劇又殺瘋了

一口氣刷完全集,Netflix新劇又殺瘋了

來看美劇
2026-03-26 19:45:54
WTO25年來首改臺灣稱呼,美國調(diào)整涉臺立場,賴清德破防

WTO25年來首改臺灣稱呼,美國調(diào)整涉臺立場,賴清德破防

有牙的兔紙
2026-03-26 20:06:31
一個很悲催現(xiàn)象:百萬存款,子女盼你走;一萬退休金,子女怕你走

一個很悲催現(xiàn)象:百萬存款,子女盼你走;一萬退休金,子女怕你走

華人星光
2026-03-26 13:21:26
伊朗議長和外長被移出美以清除名單,“時限4到5天”!專家:若達成協(xié)議最慌的是以色列!特朗普:油價漲、股市跌,我無所謂

伊朗議長和外長被移出美以清除名單,“時限4到5天”!專家:若達成協(xié)議最慌的是以色列!特朗普:油價漲、股市跌,我無所謂

每日經(jīng)濟新聞
2026-03-26 12:20:14
中方堅決扣留船只,美方及時干預(yù) 取消中企投標(biāo)資格,巴拿馬難挽

中方堅決扣留船只,美方及時干預(yù) 取消中企投標(biāo)資格,巴拿馬難挽

南宗歷史
2026-03-25 16:04:15
中共中央批準,開除劉慧黨籍

中共中央批準,開除劉慧黨籍

新京報政事兒
2026-03-26 17:13:05
一覺醒來天塌了!美國突然發(fā)現(xiàn),命脈被中國控制,這仗還怎么打?

一覺醒來天塌了!美國突然發(fā)現(xiàn),命脈被中國控制,這仗還怎么打?

谷盟a
2026-03-24 13:43:01
曼城115項指控迎大結(jié)局?專家預(yù)測扣分在40到60分之間

曼城115項指控迎大結(jié)局?專家預(yù)測扣分在40到60分之間

樂道足球
2026-03-26 19:55:49
伊朗導(dǎo)彈砸向美國航母:伊朗打出了開戰(zhàn)以來最強一拳

伊朗導(dǎo)彈砸向美國航母:伊朗打出了開戰(zhàn)以來最強一拳

起喜電影
2026-03-26 14:20:32
2026-03-26 20:44:49
FounderPark incentive-icons
FounderPark
關(guān)注AI創(chuàng)業(yè),專注和創(chuàng)業(yè)者聊真問題
1183文章數(shù) 160關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
手機
公開課
軍事航空

藝術(shù)要聞

哪一座橋不是風(fēng)景?

數(shù)碼要聞

小米Book Pro 14超薄設(shè)計引爆市場!這家國產(chǎn)廠商立功了

手機要聞

OPPO K15 Pro系列突然官宣:天璣9500s+主動散熱,4月1日發(fā)布

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設(shè)施

無障礙瀏覽 進入關(guān)懷版