国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

agno v2.3.21版本發(fā)布詳解:AgentOS全面支持Agent As Judge評測與多項穩(wěn)定性增強

0
分享至




2025年12月23日,agno 官方發(fā)布了 v2.3.21 版本。本次更新在保持高性能和私有化架構(gòu)優(yōu)勢的基礎(chǔ)上,重點增強了 AgentOS 對評測體系的支持,同時修復了多個在實際生產(chǎn)和評測場景中可能遇到的問題,并補充了新的 Cookbook 示例。下面將基于本次發(fā)布內(nèi)容,對 v2.3.21 的核心更新進行系統(tǒng)梳理。

一、核心新特性:AgentOS全面集成Agent-as-Judge評估

本次更新最核心的增強在于對“Agent as Judge”(智能體作為評判者)評估功能的全面支持,并將其深度集成到了AgentOS控制平面中。

1. 功能概述
“Agent as Judge”是一種先進的評估范式,它使用一個專門的智能體(Judge Agent)來評估另一個智能體(或團隊)在給定任務(wù)上的輸出質(zhì)量。這通常用于衡量響應(yīng)的準確性、相關(guān)性、完整性等主觀性較強的指標。與傳統(tǒng)的基于規(guī)則或簡單字符串匹配的評估方式相比,Agent as Judge能夠利用大語言模型的理解能力,進行更接近人類判斷的評估。

2. 集成詳情
在v2.3.21之前,開發(fā)者可能已經(jīng)能夠在Agno框架內(nèi)創(chuàng)建Agent as Judge評估邏輯,但管理和運行這些評估可能不夠便捷。本次更新后,這一功能在AgentOS中獲得了完整的官方支持:

  • ? 配置與觸發(fā) :用戶現(xiàn)在可以直接在AgentOS的Evals(評估)頁面中,配置新的Agent as Judge評估任務(wù)并觸發(fā)其運行。這為評估工作流提供了統(tǒng)一的圖形化界面。

  • ? 統(tǒng)一管理 :Agent as Judge評估的運行記錄將與現(xiàn)有的準確性、性能、可靠性等評估結(jié)果一同,集中展示在Evals頁面中。這實現(xiàn)了對所有類型評估的集中監(jiān)控和管理,極大地提升了操作效率。

  • ? API端點增強 :對應(yīng)的GET API端點也已更新,現(xiàn)在可以返回Agent as Judge評估的相關(guān)數(shù)據(jù),確保了控制平面與后端服務(wù)的數(shù)據(jù)一致性。

3. 開發(fā)者價值
這一集成意味著團隊可以更系統(tǒng)化地對智能體的輸出質(zhì)量進行監(jiān)控和迭代。例如,在產(chǎn)品上線后,可以定期用Agent as Judge評估客服智能體的回答是否恰當,或者審核內(nèi)容生成智能體的輸出是否符合安全規(guī)范。所有評估歷史和結(jié)果都可在AgentOS中追溯,為模型優(yōu)化和提示詞工程提供了數(shù)據(jù)基礎(chǔ)。

二、關(guān)鍵問題修復

v2.3.21版本修復了兩個可能影響開發(fā)體驗和生產(chǎn)穩(wěn)定性的問題。

1. RunInput對象持久化修復

  • ? 問題描述 :當開發(fā)者將 RunInput 對象的 input_content 屬性設(shè)置為一個 Message 對象的列表時,框架在嘗試持久化(例如存入數(shù)據(jù)庫)該對象時會發(fā)生錯誤。 RunInput 用于封裝單次智能體運行的輸入信息,而 Message 是構(gòu)成對話歷史的基本單元。這個問題會導致包含復雜對話歷史的運行記錄無法正確保存。

  • ? 修復內(nèi)容 :開發(fā)團隊修復了 RunInput (及其對應(yīng)的 TeamRunInput )的 to_dict()input_content_string() 方法中的序列化邏輯。現(xiàn)在,當 input_content 是一個混合了 Message 對象、字典或其他基礎(chǔ)類型的列表時,框架能夠正確地將所有元素遞歸地轉(zhuǎn)換為可JSON序列化的字典結(jié)構(gòu)。修復確保了無論輸入內(nèi)容多么復雜,都能被無歧義地轉(zhuǎn)換為字符串或字典格式,從而順利地進行網(wǎng)絡(luò)傳輸或數(shù)據(jù)庫存儲。

  • ? 影響 :這個修復對于依賴會話歷史、實現(xiàn)復雜對話邏輯或進行運行審計的應(yīng)用至關(guān)重要。它保證了數(shù)據(jù)管道的可靠性。

2. MistralEmbedder類超時設(shè)置修復

  • ? 問題描述MistralEmbedder 類用于調(diào)用Mistral AI的嵌入模型,將文本轉(zhuǎn)換為向量。在之前的版本中,其 timeout 參數(shù)(用于設(shè)置HTTP請求超時時間)的傳遞方式存在錯誤,導致設(shè)置可能未生效或格式不正確。

  • ? 修復內(nèi)容 :修復了初始化Mistral客戶端時的參數(shù)映射?,F(xiàn)在, timeout 參數(shù)會被正確地轉(zhuǎn)換并傳遞給底層的客戶端庫( timeout 秒被轉(zhuǎn)換為 timeout_ms 毫秒)。這保證了開發(fā)者可以有效地控制嵌入過程的等待時間,避免因網(wǎng)絡(luò)問題或服務(wù)延遲導致進程無限期掛起。

  • ? 影響 :該修復提升了使用Mistral嵌入模型進行知識庫構(gòu)建(RAG)時的穩(wěn)定性和可預測性。特別是在處理大量文檔或網(wǎng)絡(luò)環(huán)境不穩(wěn)定時,合理的超時設(shè)置可以防止整個工作流阻塞。

三、新增實用示例:語音轉(zhuǎn)文本工作流

本次更新在cookbook中添加了一個全新的、名為“Speech to Text”的示例目錄,展示了如何利用Agno構(gòu)建一個端到端的語音轉(zhuǎn)文本應(yīng)用。

1. 示例結(jié)構(gòu)
該示例包含了多個獨立的腳本和一個完整的工作流,演示了不同的實現(xiàn)方式和集成深度:

  • ? 基礎(chǔ)單智能體轉(zhuǎn)錄

    • ? stt_openai_agent_simple.py :使用OpenAI的語音模型(gpt-audio)進行簡單轉(zhuǎn)錄,返回純文本。

    • ? stt_openai_agent.py :同樣使用OpenAI模型,但通過 parser_model (如gpt-5-mini)將轉(zhuǎn)錄結(jié)果解析為結(jié)構(gòu)化的Pydantic模型輸出(包含說話人、每句話文本等字段)。

    • ? stt_gemini_agent.py :使用Google Gemini模型進行結(jié)構(gòu)化轉(zhuǎn)錄,展示了模型無關(guān)的特性。

  • ? 高級工作流stt_workflow.py :演示了如何構(gòu)建一個Agno Workflow,將音頻URL獲取、音頻格式轉(zhuǎn)換(如MP3轉(zhuǎn)WAV)、智能體轉(zhuǎn)錄、結(jié)構(gòu)化輸出生成等多個步驟編排成一個自動化流程。該工作流可部署到AgentOS,提供一個完整的服務(wù)端點。

2. 技術(shù)亮點

  • ? 多模態(tài)支持 :示例核心利用了Agno智能體原生的多模態(tài)處理能力。通過 agno.media.Audio 類,可以直接將音頻字節(jié)數(shù)據(jù)或文件傳遞給智能體。

  • ? 結(jié)構(gòu)化輸出 :展示了如何通過定義Pydantic output_schema ,讓智能體返回高度結(jié)構(gòu)化的轉(zhuǎn)錄結(jié)果,而非雜亂文本,便于下游系統(tǒng)處理。

  • ? 工作流編排stt_workflow.py 是Agno Workflow能力的典型展示。它將不同的處理單元(函數(shù)、智能體)連接成有向無環(huán)圖,管理狀態(tài)傳遞和錯誤處理,適用于生產(chǎn)級復雜任務(wù)。

  • ? 模型無關(guān)性 :示例同時使用了OpenAI和Gemini的模型,強調(diào)了Agno可以輕松切換底層AI提供商。

3. 開發(fā)者價值
這個示例為開發(fā)者處理音頻輸入場景提供了即用的模板。無論是構(gòu)建會議記錄工具、客服錄音分析系統(tǒng),還是任何需要將語音轉(zhuǎn)換為可分析文本的應(yīng)用,都可以以此為起點快速開發(fā)。

四、其他重要變更與文檔更新

除了上述核心內(nèi)容,v2.3.21版本還包含了一系列細微但重要的調(diào)整。

1. 數(shù)據(jù)庫集成調(diào)整
agent_as_judge_basic.py示例中,數(shù)據(jù)庫從SQLite切換為了PostgreSQL,并提供了標準的連接字符串示例。這引導開發(fā)者從開發(fā)環(huán)境(SQLite)更平滑地過渡到生產(chǎn)環(huán)境(PostgreSQL)。

2. 評估邏輯優(yōu)化
在Agent as Judge評估運行后,將評估結(jié)果記錄到數(shù)據(jù)庫時,現(xiàn)在正確地將“評判者智能體”所使用的模型信息(model_id, model_provider)與“被評估智能體”的模型信息區(qū)分開來并分別存儲。這使得評估元數(shù)據(jù)更加清晰,便于分析不同評判者模型對評估結(jié)果的影響。

3. README與文檔優(yōu)化
項目的主README.md文件以及Cookbook的說明文檔cookbook/README.md都進行了大幅重寫,風格更加簡潔、指向性更強。

  • ? 快速定位 :新文檔更明確地根據(jù)用戶目標(“我想構(gòu)建單個智能體”、“我想讓智能體協(xié)作”、“我想部署和管理”)來引導讀者前往相應(yīng)的示例目錄。

  • ? 特性強調(diào) :更突出地強調(diào)了Agno“私有化部署”、“性能極致”、“生產(chǎn)就緒”的核心優(yōu)勢。

  • ? 入門引導 :將“入門指南”和“完整演示”作為最優(yōu)先的路徑,降低新用戶的學習曲線。

4. 依賴項更新

  • ? 將核心 agno 包版本升級至 2.3.21

  • ? 更新了 fastapi 、 fastapi-cli 、 yfinance 等關(guān)鍵依賴的版本,以獲取最新的功能和安全補丁。

五、總結(jié)與展望

Agno v2.3.21版本是一次扎實的迭代,它沒有引入顛覆性的變更,而是在現(xiàn)有強大的基礎(chǔ)上進行打磨和增強。

  • ? 對于評估與監(jiān)控 :通過將Agent as Judge深度集成到AgentOS,它為團隊提供了企業(yè)級的智能體性能評估工具,使得基于LLM的定性評估變得可配置、可觸發(fā)、可追溯。

  • ? 對于框架穩(wěn)定性 :對RunInput序列化和MistralEmbedder超時的修復,解決了特定場景下的潛在bug,提升了框架在處理復雜數(shù)據(jù)和外部服務(wù)調(diào)用時的魯棒性。

  • ? 對于開發(fā)者生態(tài) :新增的語音轉(zhuǎn)文本示例是一個高質(zhì)量、可直接復用的“菜譜”(Cookbook),豐富了Agno的應(yīng)用場景庫,展示了其在多模態(tài)和復雜工作流方面的強大能力。

拓展視野:擁抱AI浪潮,關(guān)注行業(yè)前沿

在鉆研Agno這類前沿多智能體技術(shù)的同時,了解更廣闊的AI行業(yè)動態(tài)同樣重要。如今,AI正以前所未有的深度重塑工作和創(chuàng)造力。

在此為大家推薦一個高質(zhì)量的行業(yè)信息源——由脈脈平臺推出的 【脈向AI】 直播欄目。這個欄目專注于:

核心價值:

  • ? 提供最新的AI工具、模型趨勢和行業(yè)深度解析

  • ? 邀請AI領(lǐng)域 頭部創(chuàng)作者、行業(yè)專家 分享一線經(jīng)驗和未來洞見

  • ? 探討AI在內(nèi)容創(chuàng)作、效率提升、產(chǎn)品創(chuàng)新等場景的實際應(yīng)用

  • ? 提供 實時互動 機會,可直接向嘉賓提問并獲得解答

? 對開發(fā)者的意義:
這不僅是了解行業(yè)趨勢的窗口,更是拓展技術(shù)視野、連接行業(yè)人脈、把握職業(yè)新機遇的平臺。在脈脈這個覆蓋超2億職場用戶的生態(tài)中,你能接觸到最真實的行業(yè)聲音和機會。

參與方式:
歡迎關(guān)注脈脈APP內(nèi)的 「脈向AI」 欄目,預約最新直播,與AI前沿保持同步。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
治喪組曝光張雪峰追悼會內(nèi)幕,公司擺滿鮮花,前女友哭著為他正名

治喪組曝光張雪峰追悼會內(nèi)幕,公司擺滿鮮花,前女友哭著為他正名

叨嘮
2026-03-27 03:25:04
親戚借車從不加油,這次他故意空著油箱給她,她老公卻急了:我上次不是剛加了600塊的油嗎!

親戚借車從不加油,這次他故意空著油箱給她,她老公卻急了:我上次不是剛加了600塊的油嗎!

品讀時刻
2026-03-25 09:04:33
萬科創(chuàng)始人妻子解除邊控

萬科創(chuàng)始人妻子解除邊控

地產(chǎn)微資訊
2026-03-26 20:23:02
韓媒臆想:中國隊歡呼吧,國際足聯(lián)同意他們替補世界杯

韓媒臆想:中國隊歡呼吧,國際足聯(lián)同意他們替補世界杯

體壇風之子
2026-03-26 07:00:06
舊手機回收價狂漲五六倍!回收商:開不了機的照樣高價收

舊手機回收價狂漲五六倍!回收商:開不了機的照樣高價收

快科技
2026-03-25 14:53:24
中東實戰(zhàn)打出真相!伊朗越猛越顯中國實力,美軍徹底慌了神

中東實戰(zhàn)打出真相!伊朗越猛越顯中國實力,美軍徹底慌了神

咣當?shù)厍?/span>
2026-03-26 16:10:46
7000 家央國企春招,本科卻成廢紙?門檻高到離譜求職者徹底破防

7000 家央國企春招,本科卻成廢紙?門檻高到離譜求職者徹底破防

眼界看視野
2026-03-24 11:00:18
一場打賭,他從南美開始走路回英國!快6萬公里走了27年,終于快到家了....

一場打賭,他從南美開始走路回英國!快6萬公里走了27年,終于快到家了....

英國那些事兒
2025-12-21 23:18:38
心臟決定壽命!建議:別太節(jié)儉,多吃這3種食物,讓心臟變年輕

心臟決定壽命!建議:別太節(jié)儉,多吃這3種食物,讓心臟變年輕

阿龍美食記
2026-03-23 20:16:13
長期靜養(yǎng)與每天鍛煉的人,誰更長壽?調(diào)查36383名老人,給出答案

長期靜養(yǎng)與每天鍛煉的人,誰更長壽?調(diào)查36383名老人,給出答案

39健康網(wǎng)
2026-03-11 20:11:03
人社部明確:事業(yè)編制改革啟動,3100萬人的“鐵飯碗”要變了

人社部明確:事業(yè)編制改革啟動,3100萬人的“鐵飯碗”要變了

慧眼看世界哈哈
2026-03-24 06:36:05
哪吒汽車破產(chǎn)覆滅,最諷刺的不是200億債務(wù),而是這個名字本身

哪吒汽車破產(chǎn)覆滅,最諷刺的不是200億債務(wù),而是這個名字本身

蜉蝣說
2026-03-25 10:54:58
伊朗伊斯蘭革命衛(wèi)隊責令一艘擅自通過霍爾木茲海峽船只返航

伊朗伊斯蘭革命衛(wèi)隊責令一艘擅自通過霍爾木茲海峽船只返航

財聯(lián)社
2026-03-25 02:02:18
那些年島國不喜歡騎馬的步兵女老師,你更鐘意誰?

那些年島國不喜歡騎馬的步兵女老師,你更鐘意誰?

碧波萬覽
2026-03-27 00:50:03
長護險制度全面推開!國家醫(yī)保局:參保人無論來自農(nóng)村還是城市,從同一個資金池報銷費用

長護險制度全面推開!國家醫(yī)保局:參保人無論來自農(nóng)村還是城市,從同一個資金池報銷費用

紅星新聞
2026-03-26 11:28:05
人民日報對張雪峰的評價——

人民日報對張雪峰的評價——

葉初七
2026-03-26 10:03:04
中國首創(chuàng)!打一針降血脂基因治療獲突破

中國首創(chuàng)!打一針降血脂基因治療獲突破

醫(yī)學界
2026-03-26 19:17:50
三分命中率64.1%,斷層全聯(lián)盟第一!郭士強該給他一個國家隊名額

三分命中率64.1%,斷層全聯(lián)盟第一!郭士強該給他一個國家隊名額

弄月公子
2026-03-26 11:03:13
教育徹底變天!2026屆初中生注意,這是最后一屆只拼分數(shù)的一屆

教育徹底變天!2026屆初中生注意,這是最后一屆只拼分數(shù)的一屆

老特有話說
2026-03-25 15:22:58
路虎“大攬勝亮相 長5.1米,大6座,售30萬起?

路虎“大攬勝亮相 長5.1米,大6座,售30萬起?

網(wǎng)上車市
2026-03-26 21:41:53
2026-03-27 04:04:49
moonfdd incentive-icons
moonfdd
福大大架構(gòu)師每日一題
1162文章數(shù) 61關(guān)注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

時尚
家居
旅游
教育
軍事航空

400萬人愛過的女孩,被黃謠網(wǎng)暴180天后

家居要聞

傍海而居 靜觀蝴蝶海

旅游要聞

河南開封萬歲山武俠城,游客買300元門票:給妻子拍照被保安阻攔

教育要聞

精準研判,提質(zhì)增效丨我校召開2026屆畢業(yè)生就業(yè)工作研判會

軍事要聞

擔心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設(shè)施

無障礙瀏覽 進入關(guān)懷版