国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

你的模型評(píng)測(cè)搭子上線:Evaluation Agent懂你更懂AI

0
分享至



本文作者來(lái)自于上海人工智能實(shí)驗(yàn)室與新加坡南洋理工大學(xué),分別是張凡、田淑琳、黃子琪,指導(dǎo)老師是喬宇老師與劉子緯老師。

怎么快速判斷一個(gè)生成模型好不好?

最直接的辦法當(dāng)然是 —— 去問(wèn)一位做圖像生成、視頻生成、或者專門做評(píng)測(cè)的朋友。他們懂技術(shù)、有經(jīng)驗(yàn)、眼光毒辣,能告訴你模型到底強(qiáng)在哪、弱在哪,適不適合你的需求。

但問(wèn)題是:

  • 朋友太忙,沒(méi)法一條條幫你看;
  • 你問(wèn)題太多,不只是想知道「好不好」,還想知道「哪里不好」「為啥好」「適不適合我」。

你需要一位專業(yè)、耐心、隨叫隨到的評(píng)估顧問(wèn)。

于是,來(lái)自上海人工智能實(shí)驗(yàn)室 & 南洋理工大學(xué) S-Lab 的研究者合作研發(fā)了一個(gè)AI 版本的「懂行朋友」——Evaluation Agent。

它不僅評(píng)測(cè),還能聽(tīng)你提問(wèn)、為你定制測(cè)試、寫出人類專家一樣的分析報(bào)告。

  • 你問(wèn)「它拍古風(fēng)視頻怎么樣?」,它就給你規(guī)劃方案;
  • 你問(wèn)「懂光圈焦距嗎?」,它就設(shè)計(jì)針對(duì)測(cè)試;
  • 你想知道適不適合你,它還真能給出解釋。

這就是視覺(jué)生成模型評(píng)估的新范式:

Evaluation Agent 入選 ACL 2025 主會(huì) Oral 論文。



  • 論文:https://arxiv.org/abs/2412.09645
  • 代碼:https://github.com/Vchitect/Evaluation-Agent
  • 網(wǎng)頁(yè):https://vchitect.github.io/Evaluation-Agent-project/
  • 論文標(biāo)題:Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

為什么選擇 Evaluation Agent?

1. 可定制:你說(shuō)關(guān)注點(diǎn),它來(lái)定方案。

不同人對(duì)生成模型有不同期待 —— 風(fēng)格?多樣性?一致性?

只需用自然語(yǔ)言說(shuō)出你的關(guān)注點(diǎn),Evaluation Agent 就能:

  • 自動(dòng)規(guī)劃合適的評(píng)估流程
  • 根據(jù)中間結(jié)果靈活調(diào)整評(píng)估方向
  • 針對(duì)性地深入分析你關(guān)心的能力維度

真正實(shí)現(xiàn)「按需評(píng)估」,服務(wù)你的具體任務(wù)。

2. 高效率:更少樣本,評(píng)得更快

傳統(tǒng)評(píng)估動(dòng)輒需要幾千張樣本,Evaluation Agent 通過(guò)多輪交互式評(píng)估與智能采樣策略,大幅減少樣本數(shù)量。整體評(píng)估過(guò)程的耗時(shí)可以壓縮到傳統(tǒng)方法的 10% 左右,尤其適合在迭代開發(fā)中快速反饋。

3. 可解釋:讓評(píng)估結(jié)果說(shuō)人話

結(jié)果不僅是表格和數(shù)字,Evaluation Agent 會(huì)以自然語(yǔ)言生成分析報(bào)告,不僅涵蓋模型能力的全面總結(jié),還能指出模型的局限性和改進(jìn)方向。

4. 可擴(kuò)展:支持不同任務(wù)、工具、指標(biāo)的集成

Evaluation Agent 是一個(gè)開放框架,支持集成新評(píng)估工具和指標(biāo),適用于不同的視覺(jué)生成任務(wù)(如圖片生成和視頻生成)。

框架工作原理



Evaluation Agent 框架主要由兩個(gè)階段組成:

1. 提案階段(Proposal Stage)

  • Plan Agent:分析用戶需求,動(dòng)態(tài)規(guī)劃評(píng)估路徑。
  • PromptGen Agent:為每個(gè)子任務(wù)生成專屬的評(píng)估提示(prompt)。

這一階段的目標(biāo)是:根據(jù)你的關(guān)注點(diǎn),量身定制評(píng)估方案。

2. 執(zhí)行階段(Execution Stage)

框架利用視覺(jué)生成模型生成內(nèi)容,并通過(guò)相應(yīng)評(píng)估工具進(jìn)行質(zhì)量分析。

  • 視覺(jué)生成模型:根據(jù)上階段設(shè)計(jì)的 prompt 生成樣本
  • 評(píng)估工具包:根據(jù)提案階段的規(guī)劃選用合適的工具對(duì)采樣內(nèi)容進(jìn)行評(píng)估

3. 動(dòng)態(tài)多輪交互

評(píng)估不是一次性完成的。Execution 階段的每一輪評(píng)估結(jié)果,都會(huì)反饋給 Proposal 階段,用于優(yōu)化后續(xù) prompt 和任務(wù)設(shè)置。通過(guò)這種多輪協(xié)同,Evaluation Agent 實(shí)現(xiàn)了對(duì)模型能力的動(dòng)態(tài)、深入評(píng)估。

結(jié)果展示

1. 對(duì)比傳統(tǒng)評(píng)測(cè)框架



視頻生成模型評(píng)測(cè)效率上與 VBench 評(píng)測(cè)框架的對(duì)比



圖片生成模型評(píng)測(cè)效率上與 T2I-CompBench 評(píng)測(cè)框架的對(duì)比

研究團(tuán)隊(duì)在圖片生成任務(wù)(T2I)和視頻生成任務(wù)(T2V)上對(duì) Evaluation Agent 進(jìn)行了全面驗(yàn)證。結(jié)果表明,其評(píng)估效率顯著高于現(xiàn)有基準(zhǔn)框架(如 VBench、T2I-CompBench),相較于傳統(tǒng)的評(píng)測(cè)框架節(jié)省了 90% 以上的時(shí)間,且評(píng)估結(jié)果具有較高一致性。

2. 用戶開放式評(píng)估場(chǎng)景



對(duì)用戶開放問(wèn)題評(píng)估的部分樣例

Evaluation Agent 不僅能夠高效評(píng)估模型的表現(xiàn),還能靈活處理用戶提出的個(gè)性化評(píng)估需求,例如:

  • 模型能否生成特定歷史場(chǎng)景的高質(zhì)量視頻?
  • 模型是否理解并能應(yīng)用焦距、光圈、ISO 等攝影概念?

在處理用戶的開放式查詢時(shí),Evaluation Agent 展現(xiàn)了卓越的靈活性和深度。它能夠根據(jù)用戶的定制需求,系統(tǒng)地探索模型在特定領(lǐng)域的能力,從基本問(wèn)題開始,逐步動(dòng)態(tài)深入,最終通過(guò)自然語(yǔ)言詳細(xì)分析和總結(jié)評(píng)估結(jié)果。

例如,對(duì)于問(wèn)題「模型是否能夠在保持原始風(fēng)格的同時(shí)生成現(xiàn)有藝術(shù)作品的變體?」,下面展示了完整的評(píng)估過(guò)程。

在 Evaluation Agent 工作中,開放式用戶評(píng)估問(wèn)題數(shù)據(jù)集(Open-Ended User Query Dataset) 是檢驗(yàn)框架開放式評(píng)估能力的重要組成部分。該數(shù)據(jù)集為系統(tǒng)提供了多樣化的評(píng)估場(chǎng)景,特別是在面臨復(fù)雜的、用戶特定的評(píng)估需求時(shí),能夠展現(xiàn)出系統(tǒng)的靈活性和動(dòng)態(tài)評(píng)估能力。

開放式用戶評(píng)估問(wèn)題數(shù)據(jù)集首先通過(guò)用戶調(diào)研收集了來(lái)自用戶的一系列針對(duì)模型能力的開放問(wèn)題。隨后,經(jīng)過(guò)數(shù)據(jù)清洗、過(guò)濾、擴(kuò)展以及標(biāo)簽打標(biāo)等處理,最終完成了數(shù)據(jù)集的構(gòu)建。該數(shù)據(jù)集涵蓋了廣泛的評(píng)估維度,能夠全面評(píng)估模型的各項(xiàng)能力。下圖展示了該數(shù)據(jù)集在不同類別下的統(tǒng)計(jì)分布。



開放式用戶評(píng)估問(wèn)題數(shù)據(jù)集統(tǒng)計(jì)分布

前景與進(jìn)一步計(jì)劃

Evaluation Agent 的初步研究已經(jīng)證明其在視覺(jué)生成模型評(píng)估中的高效性和靈活性。未來(lái),該方向可能在以下領(lǐng)域進(jìn)一步拓展和深入研究:

1. 擴(kuò)展評(píng)估能力,涵蓋更多視覺(jué)任務(wù)

  • 目前 Evaluation Agent 已適用于圖像和視頻生成模型,未來(lái)將擴(kuò)展到3D 內(nèi)容生成、AIGC 視頻編輯等更復(fù)雜的生成任務(wù)。
  • 增加對(duì)多模態(tài) AI(如結(jié)合文本、音頻、視頻的生成模型)的評(píng)估能力,探索不同 AI 模型在跨模態(tài)任務(wù)中的表現(xiàn)。

2. 優(yōu)化開放式評(píng)估機(jī)制

  • 進(jìn)一步完善開放式用戶評(píng)估問(wèn)題數(shù)據(jù)集,提升 Evaluation Agent 對(duì)復(fù)雜、抽象概念(如風(fēng)格遷移、藝術(shù)融合、情感表達(dá)等)的理解和評(píng)估能力。
  • 引入強(qiáng)化學(xué)習(xí)機(jī)制,使 Evaluation Agent 能夠利用基于用戶反饋的數(shù)據(jù)實(shí)現(xiàn)自我優(yōu)化,提高評(píng)估的精準(zhǔn)性和適應(yīng)性。

3. 從自動(dòng)評(píng)測(cè)邁向智能推薦

  • 未來(lái),該框架可拓展用于視覺(jué)生成模型的個(gè)性化推薦,依據(jù)用戶的具體需求自動(dòng)匹配最合適的生成模型,并生成詳盡的評(píng)估報(bào)告。
  • 研究如何利用眾包數(shù)據(jù),收集不同領(lǐng)域的專業(yè)人士(如設(shè)計(jì)師、攝影師、影視制片人)對(duì) AI 生成內(nèi)容的反饋,以提升評(píng)估框架在多領(lǐng)域場(chǎng)景下的適應(yīng)性和泛化能力。

總結(jié)

Evaluation Agent 提出了一種高效、靈活、可解釋的視覺(jué)生成模型評(píng)估新范式。它突破了傳統(tǒng)評(píng)估方式的限制,能夠根據(jù)用戶需求動(dòng)態(tài)分析模型表現(xiàn),為生成式 AI 的理解與優(yōu)化提供支持。無(wú)論關(guān)注的是準(zhǔn)確性、多樣性,還是風(fēng)格與創(chuàng)意,這一框架都能給出清晰、有針對(duì)性的評(píng)估結(jié)果。

研究團(tuán)隊(duì)希望這一方法能為視覺(jué)生成模型的評(píng)估帶來(lái)新的思路,推動(dòng)更智能、更靈活的評(píng)估體系發(fā)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
FIFA國(guó)際足聯(lián)最新排名出爐!中國(guó)男足位列世界第93位,亞洲第14名

FIFA國(guó)際足聯(lián)最新排名出爐!中國(guó)男足位列世界第93位,亞洲第14名

齊帥
2025-12-22 22:00:02
小洛熙父母哭謝法醫(yī)劉良:你讓黑暗散去,我的天空星星都亮了!

小洛熙父母哭謝法醫(yī)劉良:你讓黑暗散去,我的天空星星都亮了!

苗苗情感說(shuō)
2025-12-22 12:28:30
臺(tái)灣前參謀總長(zhǎng)李喜明一席話,讓?shí)u內(nèi)炸鍋!

臺(tái)灣前參謀總長(zhǎng)李喜明一席話,讓?shí)u內(nèi)炸鍋!

安安說(shuō)
2025-12-22 09:23:52
萬(wàn)斯:照顧美國(guó)老年人比援助烏克蘭重要

萬(wàn)斯:照顧美國(guó)老年人比援助烏克蘭重要

參考消息
2025-12-22 15:00:18
盤點(diǎn)近期軍援:德國(guó)不愧帶頭大哥,英國(guó)要求阿布給烏克蘭25億英鎊

盤點(diǎn)近期軍援:德國(guó)不愧帶頭大哥,英國(guó)要求阿布給烏克蘭25億英鎊

鷹眼Defence
2025-12-20 16:15:39
場(chǎng)均21.2分!科比懷特卷入流言,最適合他的下家是?

場(chǎng)均21.2分!科比懷特卷入流言,最適合他的下家是?

籃球?qū)嶄?/span>
2025-12-22 22:59:01
俄代表已到美國(guó),普京批評(píng)澤連斯基,澤連斯基硬剛:他無(wú)權(quán)決定!

俄代表已到美國(guó),普京批評(píng)澤連斯基,澤連斯基硬剛:他無(wú)權(quán)決定!

愛(ài)吃醋的貓咪
2025-12-22 21:42:41
胡澤君同志簡(jiǎn)歷,中央第九指導(dǎo)組組長(zhǎng)

胡澤君同志簡(jiǎn)歷,中央第九指導(dǎo)組組長(zhǎng)

社評(píng)
2025-12-20 06:19:03
52歲TVB花旦為老公慶祝生日, 結(jié)婚3年暫未考慮跟對(duì)方生小孩:他自己都有了

52歲TVB花旦為老公慶祝生日, 結(jié)婚3年暫未考慮跟對(duì)方生小孩:他自己都有了

TVB劇評(píng)社
2025-12-22 21:54:44
烏軍集中優(yōu)勢(shì)兵力進(jìn)入庫(kù)皮揚(yáng)斯克市中心,俄軍被迫退守

烏軍集中優(yōu)勢(shì)兵力進(jìn)入庫(kù)皮揚(yáng)斯克市中心,俄軍被迫退守

鳳凰衛(wèi)視
2025-12-22 11:11:12
遭報(bào)應(yīng)了?日本無(wú)人機(jī)發(fā)生重大事故,監(jiān)視釣魚島的野心栽了跟頭

遭報(bào)應(yīng)了?日本無(wú)人機(jī)發(fā)生重大事故,監(jiān)視釣魚島的野心栽了跟頭

瞳哥視界
2025-12-22 21:48:12
剛剛!中信信悅灣取證,備案均價(jià)24.44萬(wàn)/㎡

剛剛!中信信悅灣取證,備案均價(jià)24.44萬(wàn)/㎡

地產(chǎn)K線官方
2025-12-22 14:13:07
科學(xué)家最終確定:仙女座正在撞向銀河系,速度高達(dá)每秒300公里

科學(xué)家最終確定:仙女座正在撞向銀河系,速度高達(dá)每秒300公里

觀察宇宙
2025-12-19 21:59:03
實(shí)錘!一種你認(rèn)為健康且愛(ài)喝的無(wú)糖飲料,正在偷偷傷害你的肝臟

實(shí)錘!一種你認(rèn)為健康且愛(ài)喝的無(wú)糖飲料,正在偷偷傷害你的肝臟

方舟健客科普
2025-12-12 18:35:32
全國(guó)統(tǒng)一體制內(nèi)口頭禪,一出口就知道,網(wǎng)友:味太正了!

全國(guó)統(tǒng)一體制內(nèi)口頭禪,一出口就知道,網(wǎng)友:味太正了!

另子維愛(ài)讀史
2025-12-18 16:59:41
風(fēng)水輪流轉(zhuǎn),30年前刁難中國(guó),現(xiàn)在土耳其也要造航母:很像遼寧艦

風(fēng)水輪流轉(zhuǎn),30年前刁難中國(guó),現(xiàn)在土耳其也要造航母:很像遼寧艦

混沌錄
2025-12-22 22:06:27
黑白尋仇4:律師的硬骨

黑白尋仇4:律師的硬骨

金昔說(shuō)故事
2025-12-22 21:47:40
G燈女神12年逆襲史!推川悠里:從被S1拋棄到麥當(dāng)娜頂流

G燈女神12年逆襲史!推川悠里:從被S1拋棄到麥當(dāng)娜頂流

素然追光
2025-12-22 01:05:06
活久見(jiàn)!網(wǎng)傳西安銀泰城有人撒20000百元鈔,有網(wǎng)友爆料收獲滿滿

活久見(jiàn)!網(wǎng)傳西安銀泰城有人撒20000百元鈔,有網(wǎng)友爆料收獲滿滿

火山詩(shī)話
2025-12-22 12:16:19
女星孟子義登臺(tái)領(lǐng)獎(jiǎng)時(shí)意外摔倒,本人回應(yīng):挺疼的,檢查后無(wú)大礙,就是覺(jué)得太丟人了

女星孟子義登臺(tái)領(lǐng)獎(jiǎng)時(shí)意外摔倒,本人回應(yīng):挺疼的,檢查后無(wú)大礙,就是覺(jué)得太丟人了

極目新聞
2025-12-22 09:53:26
2025-12-22 23:16:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11971文章數(shù) 142516關(guān)注度
往期回顧 全部

科技要聞

商湯聯(lián)創(chuàng)親自下場(chǎng) 痛批主流機(jī)器人技術(shù)大錯(cuò)

頭條要聞

韓媒:韓國(guó)四大集團(tuán)掌門人擬明年1月隨團(tuán)訪華

頭條要聞

韓媒:韓國(guó)四大集團(tuán)掌門人擬明年1月隨團(tuán)訪華

體育要聞

戴琳,中國(guó)足球的反向代言人

娛樂(lè)要聞

張柏芝不再隱瞞,三胎生父早有答案?

財(cái)經(jīng)要聞

央行信用新政:為失信者提供"糾錯(cuò)"通道

汽車要聞

可享88元抵2000元等多重權(quán)益 昊鉑A800開啟盲訂

態(tài)度原創(chuàng)

游戲
時(shí)尚
房產(chǎn)
公開課
軍事航空

Viper德杯首秀成功!BLG2-0橫掃LNG!上野殺瘋了,小中單發(fā)揮出色

高能量唱跳歌手李斯丹妮的「12小時(shí)」,居然是這樣度過(guò)的?

房產(chǎn)要聞

重磅!海南發(fā)布島內(nèi)居民免稅商品經(jīng)營(yíng)主體及免稅店管理辦法征求意見(jiàn)稿!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄軍中將在汽車炸彈爆炸中身亡 現(xiàn)場(chǎng)畫面披露

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版