国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

情感識別不再是分類題:EmotionThinker讓SpeechLLM 學會解釋情緒

0
分享至



語音情感識別(Speech Emotion Recognition, SER)在過去基本遵循同一種范式:輸入語音,輸出情緒標簽。這種設定在工程上有效,但在認知層面卻過于簡化。

在人類交流中,情緒判斷從來不是一個 “標簽選擇” 的過程,而是一種基于證據(jù)整合的推理行為。我們會綜合語調變化、音高起伏、語速快慢、重音位置、語義內容,以及說話人的身份特征,去解釋 “為什么” 這是憤怒、“為什么” 這是失落。

因此,一個更根本的問題浮現(xiàn)出來:

SpeechLLM 是否具備像人類一樣解釋 “為什么” 做出情緒判斷的能力?

為此,研究團隊提出了EmotionThinker—— 首個面向可解釋情感推理(Explainable Emotion Reasoning)的強化學習框架,嘗試將 SER 從 “分類任務” 提升為 “多模態(tài)證據(jù)驅動的推理任務”。



  • 論文標題:EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning

一、從 “情緒分類” 到 “情感推理”

EmotionThinker 首先對語音情感識別任務本身進行了重定義,將其擴展為情感推理任務(Emotion Reasoning)。在新的設定下,模型不僅需要預測情緒標簽,還需要生成一段解釋,明確指出:

  • 哪些聲學線索支持這一判斷
  • 哪些語義線索起到關鍵作用
  • 這些線索如何共同構成最終結論

這種范式轉變意味著,模型輸出從 “標簽” 升級為 “標簽 + 基于證據(jù)的推理”。

它的意義并非簡單延長輸出,而是對優(yōu)化目標的重寫。模型不再只需 “預測正確”,而必須學習如何整合韻律、語義與說話人屬性等多模態(tài)信號,并在解釋中體現(xiàn)證據(jù)對齊過程。情緒識別由此從判別問題轉變?yōu)榻Y構化推理問題。




二、EmotionThinker:

面向可解釋情感推理的框架

EmotionThinker 的目標并不局限于提升最終準確率,而是同時提升三方面能力:

(1)更高的情緒識別準確率

(2)更強的情緒線索整合與推理能力

(3)更細粒度的音頻描述能力,覆蓋說話人特征、韻律線索與語義信息

為了支撐這一目標,研究團隊首先構建了EmotionCoT-35K。這是一個包含 35,000+ 條樣本的 Chain-of-Thought 風格數(shù)據(jù)集。與傳統(tǒng) SER 數(shù)據(jù)不同,它不僅提供情緒標簽,還提供細粒度韻律描述與結構化推理解釋。

這些樣本明確標注了音高、能量、語速、重音、語調輪廓等線索如何支持情緒判斷,使模型能夠學習到 “證據(jù) — 推理 — 結論” 之間的對應關系。

與此同時,研究團隊觀察到:若模型的韻律感知能力不足,其情感推理能力將受到系統(tǒng)性限制。因此,研究團隊進一步構建了一個 EmotionThinker-Base。EmotionThinker-Base 通過監(jiān)督微調增強模型對音高變化、能量波動、語速模式與重音等結構的感知能力,從而為后續(xù)的推理優(yōu)化提供穩(wěn)定基礎。



三、GRPO-PTR:

讓強化學習真正優(yōu)化 “解釋能力”

在將語音情感識別重定義為情感推理之后,一個新的優(yōu)化難題隨之出現(xiàn):如何在開放式生成場景中,對 “推理質量” 進行穩(wěn)定強化學習?直接將推理獎勵與情緒預測獎勵簡單疊加,會帶來明顯的噪聲問題。一方面,模型可能生成語言上看似合理但與最終情緒判斷不一致的解釋;另一方面,在訓練初期,模型尚未形成穩(wěn)定的聲學 — 語義對齊能力,過強的推理獎勵容易放大早期隨機偏差,導致策略梯度震蕩。為此,研究團隊提出了 GRPO-PTR(Progressive Trust-aware Reasoning)。

首先,研究團隊采用了漸進式推理獎勵調度。在訓練初期,優(yōu)化重點放在情緒預測的穩(wěn)定性上;隨著模型策略逐步收斂,逐步提高推理獎勵權重,使模型從 “預測正確” 過渡到 “解釋合理”。這種 reward scheduling 降低了早期高方差信號對訓練穩(wěn)定性的影響。

其次,研究團隊引入基于一致性的可信度加權機制。當模型生成的推理與最終情緒預測保持一致時,推理獎勵按完整權重計入;當二者存在沖突時,推理獎勵自動衰減。該機制有效緩解了開放式生成任務中常見的 reward misalignment 問題,使解釋優(yōu)化始終服務于情緒判斷本身。

從優(yōu)化角度看,GRPO-PTR 解決的是一個更一般的問題:如何在 “預測 + 解釋” 的多目標生成任務中,使結構化推理與最終決策保持對齊,并在強化學習框架下穩(wěn)定收斂。



四、實驗結果與研究啟示

在多個標準語音情感識別基準上,EmotionThinker 同時實現(xiàn)了:

  • 更高的情緒識別準確率
  • 更優(yōu)的解釋質量
  • 更穩(wěn)定的韻律線索整合能力

更重要的是,我們觀察到一個關鍵現(xiàn)象:當模型被顯式訓練去對齊聲學線索與情緒判斷時,其在復雜情緒場景下的魯棒性顯著增強。這說明,情感理解的瓶頸并不僅僅在語義層面,而在于聲學與語義信號的協(xié)同建模能力。換句話說:如果模型不能準確理解 “怎么說”,它就無法穩(wěn)定理解 “是什么情緒”。






結語


EmotionThinker 并不僅僅是在情感識別任務上提升準確率,而是在任務定義層面完成了一次轉變。

情緒識別不應只是標簽預測,而應是基于多模態(tài)證據(jù)的結構化推理過程。從 “分類” 到 “解釋”,從 “標簽” 到 “證據(jù) — 推理 — 結論” 的一致性對齊,情感理解正在進入一個強調可解釋性與結構協(xié)同的階段。

當模型學會解釋情緒時,它不僅在給出判斷,也在展示其如何整合聲學與語義線索。

這或許是多模態(tài)大模型邁向真正情感理解能力的重要一步。

作者簡介

本文第一作者為王丁冬,香港中文大學博士生,研究方向為語音大模型的口語理解,對話與推理 (Reasoning),導師為 Helen Meng 教授。本文在微軟劉樹杰博士與Jinyu Li博士的共同指導下完成。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鈞正平發(fā)文:中國人民永遠都要保持居安思危的清醒

鈞正平發(fā)文:中國人民永遠都要保持居安思危的清醒

閃電新聞
2026-03-02 12:29:06
伊朗最高國家安全委員會秘書:已為長期戰(zhàn)爭做好準備

伊朗最高國家安全委員會秘書:已為長期戰(zhàn)爭做好準備

財聯(lián)社
2026-03-02 20:44:25
“大力神”軍機墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

“大力神”軍機墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

每日經(jīng)濟新聞
2026-02-28 14:37:58
中方的資本,已經(jīng)開始不受管控了,政府必須要提高警惕!

中方的資本,已經(jīng)開始不受管控了,政府必須要提高警惕!

大靜吖
2026-02-07 23:30:36
巴拿馬運河兩端港口運營恢復,MSC完成首船裝卸

巴拿馬運河兩端港口運營恢復,MSC完成首船裝卸

海事服務網(wǎng)CNSS
2026-03-02 19:58:04
伊朗稱霍爾木茲海峽已關閉 將打擊所有試圖通過的船只

伊朗稱霍爾木茲海峽已關閉 將打擊所有試圖通過的船只

財聯(lián)社
2026-03-03 04:20:36
36歲副鎮(zhèn)長開會時腦出血暈倒,除夕當天不幸離世:上任僅10余天,最后一條動態(tài)為督促社火排練,留下3個孩子

36歲副鎮(zhèn)長開會時腦出血暈倒,除夕當天不幸離世:上任僅10余天,最后一條動態(tài)為督促社火排練,留下3個孩子

極目新聞
2026-03-02 15:45:15
560名美軍死傷,彈藥庫劇烈大爆炸,伊朗導彈雨把以色列炸成火海

560名美軍死傷,彈藥庫劇烈大爆炸,伊朗導彈雨把以色列炸成火海

策略述
2026-03-02 14:41:25
海瀾之家被“全軍拉黑”!中標后拒簽合同,200億撐不起一單軍需

海瀾之家被“全軍拉黑”!中標后拒簽合同,200億撐不起一單軍需

新浪財經(jīng)
2026-03-02 16:03:13
上海著名主持人淚目!中東戰(zhàn)火下,有人平安返航、有人新婚分離、有人只想回家

上海著名主持人淚目!中東戰(zhàn)火下,有人平安返航、有人新婚分離、有人只想回家

上觀新聞
2026-03-02 15:27:27
伊朗反擊太快,只給以2小時,導彈從天而降,以色列民眾抱頭鼠竄

伊朗反擊太快,只給以2小時,導彈從天而降,以色列民眾抱頭鼠竄

書紀文譚
2026-03-02 17:24:46
王毅外長:今后世上再無“中國臺灣省”之外的任何模糊稱謂。

王毅外長:今后世上再無“中國臺灣省”之外的任何模糊稱謂。

南權先生
2026-02-02 15:59:44
《大西洋月刊》丨所有人的目光都投向了古巴

《大西洋月刊》丨所有人的目光都投向了古巴

邸報
2026-03-02 10:33:45
8小時撤離德黑蘭,沈陽男子講述離開伊朗細節(jié):當?shù)貙χ袊擞押茫?次盤問都順利放行

8小時撤離德黑蘭,沈陽男子講述離開伊朗細節(jié):當?shù)貙χ袊擞押茫?次盤問都順利放行

瀟湘晨報
2026-03-02 19:49:19
伊朗生死關頭,一個關鍵人物走向前臺……

伊朗生死關頭,一個關鍵人物走向前臺……

補壹刀
2026-03-02 16:08:19
78:72爆冷!世預賽B組大亂,中國男籃自挖苦坑,日本隊坐收漁利

78:72爆冷!世預賽B組大亂,中國男籃自挖苦坑,日本隊坐收漁利

行舟問茶
2026-03-02 12:06:53
全國政協(xié)委員劉永好:建議全民發(fā)放500元通用消費券 可拉動消費近2萬億元

全國政協(xié)委員劉永好:建議全民發(fā)放500元通用消費券 可拉動消費近2萬億元

財聯(lián)社
2026-03-02 10:57:04
伊朗再對美以基地發(fā)動大規(guī)模襲擊

伊朗再對美以基地發(fā)動大規(guī)模襲擊

財聯(lián)社
2026-03-01 12:32:05
“天下第一村”崩了!從人人千萬富翁,到人均欠債1300萬?

“天下第一村”崩了!從人人千萬富翁,到人均欠債1300萬?

趣味萌寵的日常
2026-03-03 01:15:43
真想來了!婚禮當天撕戶口本,新郎發(fā)聲報警,稱新娘才是受害者!

真想來了!婚禮當天撕戶口本,新郎發(fā)聲報警,稱新娘才是受害者!

川渝視覺
2026-03-02 23:37:41
2026-03-03 05:55:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

頭條要聞

媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

體育要聞

“想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

家居
手機
教育
公開課
軍事航空

家居要聞

萬物互聯(lián) 享科技福祉

手機要聞

小米17 Ultra徠卡版全新黑銀配色預售:7999元起,10日發(fā)售

教育要聞

高考地理中的侵蝕類地貌

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國中央司令部透露對伊朗動武全部武器裝備清單

無障礙瀏覽 進入關懷版