国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

多模態(tài)大模型真的理解情緒嗎?MME-Emotion給出了系統(tǒng)答案

0
分享至



近年來,多模態(tài)大模型(Multimodal Large Language Models, MLLMs)正在迅速改變?nèi)斯ぶ悄艿哪芰吔纭膱D像理解到視頻分析,從語音對(duì)話到復(fù)雜推理,大模型正在逐步具備類似人類的綜合感知能力。但一個(gè)關(guān)鍵問題仍然沒有得到充分回答:這些模型真的能夠理解人類情緒嗎?

在真實(shí)世界中,人類的情緒往往通過多個(gè)模態(tài)共同表達(dá)。例如,一個(gè)人可能通過面部表情傳遞緊張情緒,同時(shí)語音語調(diào)也在變化,而語言內(nèi)容可能只提供部分線索。對(duì)于人工智能系統(tǒng)而言,僅依賴單一信息來源往往難以準(zhǔn)確判斷情緒狀態(tài)。因此,情感智能(Emotional Intelligence)逐漸成為衡量多模態(tài)大模型能力的重要指標(biāo)之一。

然而,目前學(xué)界仍然缺乏一個(gè)系統(tǒng)性的評(píng)測框架來衡量多模態(tài)大模型的情感智能水平。已有情感數(shù)據(jù)集通常規(guī)模較小,場景覆蓋有限,而且大多只關(guān)注情緒分類準(zhǔn)確率。模型是否真正理解情緒產(chǎn)生的原因,以及能否在不同場景中穩(wěn)定工作,往往沒有得到充分評(píng)估。

為了解決這一問題,來自香港中文大學(xué)和阿里通義實(shí)驗(yàn)室的團(tuán)隊(duì)共同提出了MME-Emotion,一個(gè)面向多模態(tài)大模型情感智能的綜合評(píng)測基準(zhǔn)。該工作已被 ICLR 2026 接收。



  • 論文標(biāo)題:MME-Emotion: A Holistic Evaluation Benchmark For Emotional Intelligence in Multimodal Large Language Models
  • 項(xiàng)目主頁:https://mme-emotion.github.io
  • 論文代碼:https://github.com/FunAudioLLM/MME-Emotion
  • 論文數(shù)據(jù):https://huggingface.co/datasets/Karl28/MME-Emotion

MME-Emotion 是目前規(guī)模最大的多模態(tài)情感智能評(píng)測基準(zhǔn)之一,包含約 6500 段視頻片段及對(duì)應(yīng)問答數(shù)據(jù),覆蓋 27 類真實(shí)場景,并設(shè)計(jì)了 8 類不同情感任務(wù)。相比傳統(tǒng)數(shù)據(jù)集,這一基準(zhǔn)強(qiáng)調(diào)真實(shí)環(huán)境中的多模態(tài)信息融合能力,使模型必須同時(shí)理解視覺、語音和語言信息。



這些任務(wù)包括實(shí)驗(yàn)室環(huán)境情緒識(shí)別、真實(shí)場景情緒識(shí)別、噪聲條件下情緒識(shí)別、細(xì)粒度情緒識(shí)別、多標(biāo)簽情緒識(shí)別、情感傾向分析、細(xì)粒度情感分析以及意圖識(shí)別等多個(gè)方向。不同任務(wù)之間保持相對(duì)均衡的數(shù)據(jù)分布,使評(píng)測結(jié)果更加穩(wěn)定可靠。

與以往工作相比,MME-Emotion 的一個(gè)重要特點(diǎn)是同時(shí)評(píng)測情緒識(shí)別能力和情緒推理能力。在許多已有數(shù)據(jù)集中,只要模型預(yù)測正確的情緒標(biāo)簽即可獲得高分,但這種評(píng)測方式無法區(qū)分「猜對(duì)答案」和「真正理解情緒」的差別。

例如,在一個(gè)視頻中,如果人物表現(xiàn)出恐懼情緒,模型不僅需要給出 “恐懼” 這一標(biāo)簽,還需要能夠指出支撐這一判斷的線索,例如面部表情變化、語音顫抖或者語速變化等。只有在這種情況下,我們才認(rèn)為模型具備一定程度的情感理解能力。



為此,MME-Emotion 提出了一套統(tǒng)一的評(píng)測指標(biāo)體系,包括情緒識(shí)別得分(Recognition Score)、推理得分(Reasoning Score)以及綜合思維鏈得分(Chain-of-Thought Score)。其中識(shí)別得分用于衡量情緒預(yù)測準(zhǔn)確率,推理得分用于衡量模型推理過程的合理性,而綜合得分則同時(shí)反映識(shí)別能力與推理能力。

為了支持大規(guī)模自動(dòng)評(píng)測,研究團(tuán)隊(duì)設(shè)計(jì)了一套基于多智能體系統(tǒng)的評(píng)測流程。系統(tǒng)首先獲取模型對(duì)問題的回答,然后自動(dòng)提取回答中的關(guān)鍵推理步驟,并結(jié)合視頻幀信息和語音線索進(jìn)行評(píng)分。這種方法避免了傳統(tǒng)評(píng)測中大量人工標(biāo)注推理過程的成本問題。

為了驗(yàn)證自動(dòng)評(píng)測的可靠性,研究團(tuán)隊(duì)還邀請了多位專家對(duì)部分樣本進(jìn)行了人工評(píng)測。結(jié)果表明,自動(dòng)評(píng)分與人工評(píng)分之間具有較高一致性,說明這一評(píng)測方法在實(shí)際使用中具有較好的穩(wěn)定性。





在 MME-Emotion 基準(zhǔn)上,研究團(tuán)隊(duì)評(píng)測了 20 個(gè)當(dāng)前主流多模態(tài)大模型,包括多個(gè)開源模型以及閉源模型,如 GPT-4o、Gemini 系列以及 Qwen 系列模型。

實(shí)驗(yàn)結(jié)果顯示,即使是當(dāng)前最先進(jìn)的模型,在情感智能方面仍然存在明顯不足。表現(xiàn)最好的模型情緒識(shí)別得分不到 40%,綜合思維鏈得分也只有約 56%。從整體平均結(jié)果來看,各模型在情緒識(shí)別任務(wù)上的表現(xiàn)仍然處于較低水平。

這些結(jié)果說明,多模態(tài)大模型雖然在視覺理解和語言推理方面取得了顯著進(jìn)展,但情感理解仍然是一個(gè)具有挑戰(zhàn)性的方向。



進(jìn)一步分析發(fā)現(xiàn),目前模型在情感任務(wù)中主要存在幾類典型問題。

首先是細(xì)粒度視覺理解能力不足。在許多錯(cuò)誤案例中,模型難以區(qū)分相似情緒,例如恐懼與驚訝之間的差別。這類錯(cuò)誤通常源于對(duì)面部表情和細(xì)微動(dòng)作變化理解不足。

其次是多模態(tài)信息融合能力有限。一些模型在僅使用視覺信息時(shí)表現(xiàn)尚可,但當(dāng)需要同時(shí)結(jié)合語音和視覺信息時(shí)反而出現(xiàn)性能下降。這說明當(dāng)前模型在處理多模態(tài)情感線索時(shí)仍然存在困難。



此外,研究還發(fā)現(xiàn)模型推理能力與情緒識(shí)別能力之間存在明顯相關(guān)性。通常來說,能夠給出更完整推理過程的模型,其整體情感智能表現(xiàn)也更好。這一現(xiàn)象表明,推動(dòng)模型進(jìn)行更深入的推理可能是提升情感智能的一條重要路徑。

整體來看,MME-Emotion 提供了一個(gè)更加全面的評(píng)測框架,使研究者能夠系統(tǒng)分析多模態(tài)大模型在情感理解方面的能力邊界。

研究團(tuán)隊(duì)認(rèn)為,未來多模態(tài)情感智能的發(fā)展可能依賴幾個(gè)關(guān)鍵方向,包括更高精度的視覺細(xì)節(jié)建模、更有效的語音與視覺信息融合方法,以及能夠解釋情緒產(chǎn)生原因的推理機(jī)制。

隨著多模態(tài)大模型不斷發(fā)展,情感智能有望成為人工智能系統(tǒng)的重要能力之一。在教育、人機(jī)交互和醫(yī)療輔助等應(yīng)用場景中,能夠理解人類情緒的智能系統(tǒng)將具有重要價(jià)值。

MME-Emotion 的發(fā)布為這一研究方向提供了統(tǒng)一評(píng)測標(biāo)準(zhǔn),也為后續(xù)模型改進(jìn)提供了清晰的參考基線。

作者介紹

章帆,香港中文大學(xué)計(jì)算機(jī)科學(xué)與工程系博士生,導(dǎo)師為 Pheng-Ann Heng 教授。主要研究方向?yàn)槎嗄B(tài)大模型與 Agent 系統(tǒng),關(guān)注多模態(tài)理解、推理能力評(píng)測以及面向復(fù)雜任務(wù)的智能體工作流設(shè)計(jì)。近年來在 ICLR、CVPR、NeurIPS 等國際會(huì)議發(fā)表多篇論文,相關(guān)研究工作涵蓋多模態(tài)大模型評(píng)測基準(zhǔn)構(gòu)建、后訓(xùn)練以及深度研究型智能體(Deep Research Agents)。目前致力于探索多模態(tài) Agent 系統(tǒng)在復(fù)雜真實(shí)任務(wù)中的能力邊界與應(yīng)用潛力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
省下一億鎊!曼聯(lián)自有 “新吉馬良斯”,卡里克手握王炸

省下一億鎊!曼聯(lián)自有 “新吉馬良斯”,卡里克手握王炸

瀾歸序
2026-03-26 04:56:27
姆巴佩:說我在皇馬遭誤診是假的,也怪我留下了可解讀的空間

姆巴佩:說我在皇馬遭誤診是假的,也怪我留下了可解讀的空間

懂球帝
2026-03-26 04:09:06
日本網(wǎng)友對(duì)比梅洛尼和高市早苗會(huì)見特朗普畫面,發(fā)出提問 “維護(hù)國家尊嚴(yán),誰的行為是正確的”

日本網(wǎng)友對(duì)比梅洛尼和高市早苗會(huì)見特朗普畫面,發(fā)出提問 “維護(hù)國家尊嚴(yán),誰的行為是正確的”

大象新聞
2026-03-25 15:49:04
中日破裂,這是53年來對(duì)日最強(qiáng)硬的外交表態(tài)!

中日破裂,這是53年來對(duì)日最強(qiáng)硬的外交表態(tài)!

見聞致
2025-11-15 21:21:56
印度偷師不成鬧笑話?10億購入我國8臺(tái)盾構(gòu)機(jī),拆解后裝不上了

印度偷師不成鬧笑話?10億購入我國8臺(tái)盾構(gòu)機(jī),拆解后裝不上了

有范又有料
2026-03-25 16:38:02
內(nèi)塔尼亞胡:對(duì)惡絕不手軟,才是對(duì)和平最大的負(fù)責(zé)

內(nèi)塔尼亞胡:對(duì)惡絕不手軟,才是對(duì)和平最大的負(fù)責(zé)

老馬拉車莫少裝
2026-03-22 23:24:28
張雪峰登上這份死亡名單,他們有一個(gè)很玄的共同特點(diǎn)

張雪峰登上這份死亡名單,他們有一個(gè)很玄的共同特點(diǎn)

田先生研究室
2026-03-25 06:05:11
“封殺”5年后,34歲鄭爽財(cái)力現(xiàn)狀被扒,結(jié)果估計(jì)和你想得不一樣

“封殺”5年后,34歲鄭爽財(cái)力現(xiàn)狀被扒,結(jié)果估計(jì)和你想得不一樣

梨花黛娛
2026-03-24 14:47:07
炸穿阿瓦士!美以聯(lián)手端掉伊朗革命衛(wèi)隊(duì)總部,現(xiàn)場夷成白地

炸穿阿瓦士!美以聯(lián)手端掉伊朗革命衛(wèi)隊(duì)總部,現(xiàn)場夷成白地

老馬拉車莫少裝
2026-03-23 13:00:44
國民黨大亂!馬英九緊急發(fā)聲,鄭麗文下場開罵:扯破臉、斗到底!

國民黨大亂!馬英九緊急發(fā)聲,鄭麗文下場開罵:扯破臉、斗到底!

阿策聊實(shí)事
2026-03-26 04:16:27
梅奔F1車隊(duì)公布日本站特殊涂裝,前翼印有巨大的野獸圖案

梅奔F1車隊(duì)公布日本站特殊涂裝,前翼印有巨大的野獸圖案

懂球帝
2026-03-25 12:01:07
媒體人:廣廈簽回老將蘇若禹,曾在廣廈效力9個(gè)賽季

媒體人:廣廈簽回老將蘇若禹,曾在廣廈效力9個(gè)賽季

懂球帝
2026-03-25 16:18:39
加圖索:這七個(gè)月里,每天都有人對(duì)我說“帶我們?nèi)ナ澜绫伞?>
    </a>
        <h3>
      <a href=懂球帝
2026-03-26 00:23:06
誰跟美國混就打誰!胡塞絕殺令,盟友全倒戈:給中俄一個(gè)特殊待遇

誰跟美國混就打誰!胡塞絕殺令,盟友全倒戈:給中俄一個(gè)特殊待遇

軍機(jī)Talk
2026-03-23 16:01:38
香港“五尸命案”兇宅,230萬起拍!曾有5名女子飲符水身亡!兇手是一名風(fēng)水師

香港“五尸命案”兇宅,230萬起拍!曾有5名女子飲符水身亡!兇手是一名風(fēng)水師

南方都市報(bào)
2026-03-25 14:56:22
廣州這條地鐵線,正在悄悄“換血”!從擠到爆到一路向北

廣州這條地鐵線,正在悄悄“換血”!從擠到爆到一路向北

糖逗在娛樂
2026-03-26 00:36:46
神壇徹底崩塌!李莉被中情局盯上的謊言,該徹底戳穿了

神壇徹底崩塌!李莉被中情局盯上的謊言,該徹底戳穿了

老馬拉車莫少裝
2026-03-01 17:23:52
國臺(tái)辦回應(yīng)美國情報(bào)界相關(guān)評(píng)估報(bào)告:解決臺(tái)灣問題是中國人自己的事

國臺(tái)辦回應(yīng)美國情報(bào)界相關(guān)評(píng)估報(bào)告:解決臺(tái)灣問題是中國人自己的事

環(huán)球網(wǎng)資訊
2026-03-25 10:32:10
廉價(jià)Model 3真要來了!已亮相工信部,起售或低于20萬

廉價(jià)Model 3真要來了!已亮相工信部,起售或低于20萬

車東西
2026-03-25 21:03:17
完了,5天票房僅76萬,虧到懷疑人生,好萊塢大片把萬茜新片打懵

完了,5天票房僅76萬,虧到懷疑人生,好萊塢大片把萬茜新片打懵

八卦南風(fēng)
2026-03-24 16:53:40
2026-03-26 07:20:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12598文章數(shù) 142593關(guān)注度
往期回顧 全部

科技要聞

紅極一時(shí)卻草草收場,Sora宣布正式關(guān)停

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機(jī) 現(xiàn)場畫面披露

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機(jī) 現(xiàn)場畫面披露

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財(cái)經(jīng)要聞

管濤:中東局勢如何影響人民幣匯率走勢?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實(shí)力

態(tài)度原創(chuàng)

房產(chǎn)
數(shù)碼
健康
藝術(shù)
旅游

房產(chǎn)要聞

41億!259畝!建學(xué)?!齺嗊@個(gè)大城更,最新方案曝光!

數(shù)碼要聞

英特爾發(fā)布基于第三代酷睿Ultra處理器vPro平臺(tái)

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

藝術(shù)要聞

原來唐朝貴婦的生活,比我們還會(huì)享受!

旅游要聞

旅游+演藝,激活消費(fèi)新空間(大數(shù)據(jù)觀察)

無障礙瀏覽 進(jìn)入關(guān)懷版