国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

如何讓AI走向更高質(zhì)量的共情?自然選擇兩項(xiàng)開(kāi)源研究提供新路徑

0
分享至



機(jī)器之心發(fā)布

現(xiàn)如今,大模型越來(lái)越擅長(zhǎng)在單輪對(duì)話中生成溫柔體貼、情緒價(jià)值拉滿的文字,然而,我們或許會(huì)懷疑:在一句句「高情商回復(fù)」的背后,模型是否真正理解了什么是共情

在情感陪伴與心理支持等真實(shí)場(chǎng)景中,人類之間的有效交流極少依靠單薄的漂亮話來(lái)解決問(wèn)題。一句回復(fù)不僅影響著用戶當(dāng)下的情緒,更會(huì)潛移默化地改變后續(xù)對(duì)話的軌跡。真正有效的共情,需要模型在長(zhǎng)期的多輪互動(dòng)之中,持續(xù)觀察并理解對(duì)方的潛在心理狀態(tài),動(dòng)態(tài)調(diào)整支持策略,最終將交流引導(dǎo)向更加健康的方向。



然而,當(dāng)共情任務(wù)涉及復(fù)雜的隱含狀態(tài)、長(zhǎng)期目標(biāo)以及弱反饋驗(yàn)證時(shí),傳統(tǒng)的單輪評(píng)測(cè)與訓(xùn)練范式便很難評(píng)估模型的真實(shí)水平。我們究竟該如何判斷模型在長(zhǎng)線交互中是否起到了正向作用?

自然選擇團(tuán)隊(duì)近期開(kāi)源的兩項(xiàng)研究EMPAMAPO為解決這一問(wèn)題提供了具體的方案。

這兩項(xiàng)工作跳出了傳統(tǒng)框架,試圖重新審視大模型在長(zhǎng)程共情場(chǎng)景中的評(píng)測(cè)與訓(xùn)練方式。前者回答「如何評(píng)測(cè)」,后者回答「如何訓(xùn)練」,兩者共同嘗試將主觀的情感陪伴轉(zhuǎn)化為可衡量且可優(yōu)化的系統(tǒng)能力。

目前,EMPA 論文已發(fā)布在 arXiv 上,代碼倉(cāng)庫(kù)與 1000 多份開(kāi)源數(shù)據(jù)集也已同步開(kāi)放;MAPO 論文同樣已公開(kāi),相關(guān)代碼與訓(xùn)練環(huán)境也將陸續(xù)開(kāi)源。



  • 論文標(biāo)題:EMPA: Evaluating Persona-Aligned Empathy as a Process
  • 論文鏈接:https://arxiv.org/abs/2603.00552
  • 代碼地址:https://github.com/KAYA-HAI/EMPA-Benchmark-EPMSandbox
  • 1000+ 開(kāi)源數(shù)據(jù)集:https://huggingface.co/datasets/SalmonTell/EMPA-character_card/tree/main



  • 論文標(biāo)題:MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue
  • 論文鏈接:https://arxiv.org/pdf/2603.06194v1
  • 代碼地址:https://github.com/2200xiaohu/MAPO

EMPA

第一次把共情評(píng)測(cè)推進(jìn)到「過(guò)程級(jí)」

長(zhǎng)期以來(lái),共情評(píng)測(cè)大多停留在單輪任務(wù),例如情緒識(shí)別、共情回復(fù)生成,或通過(guò) LLM-as-a-Judge 給回答打分。這類方法可以評(píng)估語(yǔ)言是否「像人」,卻很難回答一個(gè)更關(guān)鍵的問(wèn)題:模型是否真的在長(zhǎng)期幫助用戶

EMPA 的核心思路,是把共情正式建模為一種long-horizon agent任務(wù)。在這種任務(wù)中,用戶真實(shí)的心理狀態(tài)是一個(gè)無(wú)法直接觀察的潛變量(latent state),對(duì)話則是一個(gè)持續(xù)更新?tīng)顟B(tài)的長(zhǎng)期過(guò)程,而支持效果往往只能通過(guò)弱信號(hào)間接驗(yàn)證。

基于這一視角,EMPA 不再只評(píng)估某一句回復(fù)本身,而是評(píng)估整段對(duì)話軌跡對(duì)用戶潛在心理狀態(tài)的影響

為此,研究者構(gòu)建了一套完整評(píng)估框架:首先通過(guò)Real-to-Sim 數(shù)據(jù)管線,將真實(shí)但嘈雜的長(zhǎng)對(duì)話蒸餾為可復(fù)現(xiàn)的心理場(chǎng)景;隨后,在一個(gè)非腳本化的多智能體沙盒環(huán)境中,讓用戶 agent、導(dǎo)演 agent、裁判 agent 與被測(cè)模型展開(kāi)開(kāi)放式互動(dòng);最后,通過(guò)Empathy Potential Model(EPM)在潛在心理空間中建模用戶狀態(tài)變化,從而在軌跡層面評(píng)估對(duì)話是否產(chǎn)生持續(xù)、穩(wěn)定的正向影響。



在評(píng)測(cè)方法上,EMPA 采用了Rubric-Grounded Physics Evaluation的思路。

傳統(tǒng)開(kāi)放式評(píng)測(cè)通常有兩種路徑:一種是基于 rubric checklist 的逐項(xiàng)打分,另一種是 LLM-as-a-Judge 直接給出整體評(píng)價(jià)。但這兩種方法都存在明顯缺陷:前者容易把復(fù)雜互動(dòng)壓縮成靜態(tài)指標(biāo),后者則容易受到語(yǔ)言風(fēng)格、篇幅長(zhǎng)度甚至表達(dá)技巧的干擾。

EMPA 的處理方式是把證據(jù)生成最終評(píng)分做結(jié)構(gòu)性拆分。在對(duì)話過(guò)程中,judge 不直接輸出最終得分,而是根據(jù) rubric 抽取可追溯、可歸因的結(jié)構(gòu)化證據(jù);隨后EPM 在軌跡層面對(duì)這些證據(jù)進(jìn)行聚合計(jì)算,并將其映射為潛在心理狀態(tài)的變化信號(hào)。也就是說(shuō),rubric 不再直接扮演「裁判」角色,而是先變成「取證器」,真正的評(píng)分則由后續(xù)的軌跡建模來(lái)完成。

這一步非常關(guān)鍵,因?yàn)樗馕吨?EMPA 不只是換了個(gè)指標(biāo),而是在重新定義主觀評(píng)測(cè)范式:不再依賴單輪「印象分」,而是通過(guò)多輪證據(jù)持續(xù)更新用戶狀態(tài),并在整段對(duì)話軌跡上評(píng)估效果,從而避免單輪高分掩蓋長(zhǎng)期策略失效。換句話說(shuō),EMPA 關(guān)注的不再是「這句話說(shuō)得好不好」,而是「整段對(duì)話是否真的幫助用戶狀態(tài)朝更好的方向變化」。這也使得長(zhǎng)期共情能力第一次成為一個(gè)可以被系統(tǒng)研究、比較與優(yōu)化的評(píng)測(cè)問(wèn)題。

實(shí)驗(yàn)結(jié)果進(jìn)一步表明,這種新的評(píng)測(cè)路徑在魯棒性與敏感度上,均明顯優(yōu)于傳統(tǒng)方法。



MAPO

一個(gè)面向長(zhǎng)程多輪交互的 RL 算法

如果說(shuō) EMPA 解決的是「如何評(píng)測(cè)」,那么團(tuán)隊(duì)的另一項(xiàng)研究MAPO則試圖回答另一個(gè)問(wèn)題:如何訓(xùn)練模型在這種長(zhǎng)期對(duì)話任務(wù)中表現(xiàn)更好

在 MAPO 論文中,團(tuán)隊(duì)提出了一種新的對(duì)話強(qiáng)化學(xué)習(xí)方法,目標(biāo)是讓模型在長(zhǎng)序列對(duì)話中既能利用逐輪反饋,又能保持長(zhǎng)期策略穩(wěn)定性。MAPO 的核心思路,是同時(shí)引入兩類信號(hào):

  • 第一類是逐輪過(guò)程獎(jiǎng)勵(lì)。研究者借助 EMPA 的 judge 系統(tǒng),對(duì)每一輪回答進(jìn)行評(píng)分,并借鑒 potential reward 的思路,將相鄰輪次評(píng)分變化所帶來(lái)的增量,作為當(dāng)前輪次的即時(shí)獎(jiǎng)勵(lì),用來(lái)衡量某一次回復(fù)是否真正推動(dòng)了對(duì)話向更好的方向發(fā)展。
  • 第二類是長(zhǎng)期未來(lái)回報(bào)。為了避免模型只追求局部最優(yōu)、沉迷短期修補(bǔ),MAPO 進(jìn)一步通過(guò)蒙特卡洛方法估計(jì)從當(dāng)前回合到對(duì)話結(jié)束的累計(jì)回報(bào),從而保留長(zhǎng)程策略信息。



相比許多基于 GRPO 的 agentic RL 方法,這一設(shè)計(jì)同時(shí)繞開(kāi)了兩個(gè)常見(jiàn)問(wèn)題:要么只能依賴最終結(jié)果獎(jiǎng)勵(lì),導(dǎo)致過(guò)程信號(hào)稀疏;要么需要在每一步進(jìn)行大量采樣,帶來(lái)極高的樣本復(fù)雜度。

MAPO 的具體做法是,對(duì)同一初始 prompt 采樣多條對(duì)話軌跡,并將軌跡中的每一步視作訓(xùn)練樣本。

團(tuán)隊(duì)進(jìn)一步觀察到,即時(shí)獎(jiǎng)勵(lì)的分布與對(duì)話輪次相對(duì)解耦,而未來(lái)回報(bào)的分布則往往與輪次強(qiáng)相關(guān)。因此,MAPO 分別對(duì)二者進(jìn)行基于 batch 與基于 turn 的歸一化,再通過(guò) convex combination 進(jìn)行融合,從而在保留 critic-free 優(yōu)勢(shì)的同時(shí),更穩(wěn)定地優(yōu)化長(zhǎng)序列對(duì)話策略。



從更宏觀的角度看,這兩個(gè)工作實(shí)際上形成了一條完整的研究鏈路:EMPA 提供了長(zhǎng)期共情任務(wù)的評(píng)測(cè)框架,而 MAPO 提供了適用于這類多輪交互任務(wù)的強(qiáng)化學(xué)習(xí)算法。它們共同推動(dòng)「共情」從一個(gè)容易停留在主觀印象層面的概念,轉(zhuǎn)化為一個(gè)可以被系統(tǒng)研究、可復(fù)現(xiàn)比較,并進(jìn)一步進(jìn)入訓(xùn)練閉環(huán)的技術(shù)問(wèn)題。

從實(shí)驗(yàn)結(jié)果看,MAPO 在 EMPA 的動(dòng)態(tài)對(duì)話沙盒環(huán)境中訓(xùn)練后,效果顯著優(yōu)于 GRPO,并在 EMPA benchmark 上取得明顯提升。值得注意的是,在部分設(shè)置下,一個(gè) 32B 模型已經(jīng)可以逼近 Claude-3.5 的表現(xiàn),同時(shí)在其他多輪對(duì)話 benchmark 上也展現(xiàn)出較好的泛化能力。

團(tuán)隊(duì)進(jìn)一步指出,MAPO 本質(zhì)上并不局限于多輪對(duì)話任務(wù),而更接近一種面向長(zhǎng)程 agentic 場(chǎng)景的優(yōu)化方法。隨著相關(guān)代碼與環(huán)境進(jìn)一步開(kāi)源,這套方法也有機(jī)會(huì)在更多真實(shí)任務(wù)中被驗(yàn)證與擴(kuò)展。



隨著越來(lái)越多 AI 系統(tǒng)進(jìn)入需要與用戶長(zhǎng)期交互的「深水區(qū)」,模型能力的競(jìng)爭(zhēng),顯然不會(huì)長(zhǎng)期停留在「更會(huì)說(shuō)」或「更像人」這一層面。真正重要的,越來(lái)越可能是這樣一些能力:能否建模用戶的隱含狀態(tài),能否在多輪互動(dòng)中保持策略一致性,能否在弱反饋條件下持續(xù)做出有效干預(yù),以及能否把這種能力真正沉淀為可評(píng)測(cè)、可訓(xùn)練、可迭代的系統(tǒng)能力。

從這個(gè)角度看,EMPA 與 MAPO 的意義,或許并不止于「共情」這一垂直領(lǐng)域,更像是在提前回答一個(gè)未來(lái)會(huì)越來(lái)越普遍的問(wèn)題:當(dāng)大模型開(kāi)始進(jìn)入那些需要長(zhǎng)期理解、持續(xù)判斷、漸進(jìn)影響人的任務(wù)時(shí),我們究竟應(yīng)該如何衡量它,又該如何把它訓(xùn)練出來(lái)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大戰(zhàn)之前突然離隊(duì)!廣東男籃再少一人,京粵大戰(zhàn)兇多吉少

大戰(zhàn)之前突然離隊(duì)!廣東男籃再少一人,京粵大戰(zhàn)兇多吉少

德譯洋洋
2026-03-27 11:50:19
于根偉沒(méi)有撒謊,天津津門(mén)虎年年換外援的原因是,俱樂(lè)部真的沒(méi)錢(qián)

于根偉沒(méi)有撒謊,天津津門(mén)虎年年換外援的原因是,俱樂(lè)部真的沒(méi)錢(qián)

足球分析員
2026-03-27 11:00:03
闖禍的最高境界是什么?看網(wǎng)友講述,這是正常人能做出的事情嗎?

闖禍的最高境界是什么?看網(wǎng)友講述,這是正常人能做出的事情嗎?

侃神評(píng)故事
2026-03-21 19:15:03
杜魯門(mén)問(wèn):中國(guó)參戰(zhàn)怎么辦?麥克阿瑟當(dāng)場(chǎng)甩出三個(gè)反問(wèn),結(jié)果如何

杜魯門(mén)問(wèn):中國(guó)參戰(zhàn)怎么辦?麥克阿瑟當(dāng)場(chǎng)甩出三個(gè)反問(wèn),結(jié)果如何

小莜讀史
2026-03-21 13:57:27
香港金像獎(jiǎng)發(fā)布最佳男女主候選人造型照,梁家輝跳舞、古天樂(lè)“頭痛”,馬麗大變樣、章子怡很美;本屆金像獎(jiǎng)4月19日頒獎(jiǎng),章子怡有望第3次“封后”

香港金像獎(jiǎng)發(fā)布最佳男女主候選人造型照,梁家輝跳舞、古天樂(lè)“頭痛”,馬麗大變樣、章子怡很美;本屆金像獎(jiǎng)4月19日頒獎(jiǎng),章子怡有望第3次“封后”

極目新聞
2026-03-27 09:09:45
東契奇湖人生涯第16次斬獲40+ 還差兩場(chǎng)追平詹姆斯

東契奇湖人生涯第16次斬獲40+ 還差兩場(chǎng)追平詹姆斯

北青網(wǎng)-北京青年報(bào)
2026-03-26 20:51:03
為何美國(guó)敢打伊朗,卻不敢打朝鮮?因?yàn)槌r成功學(xué)到了中國(guó)精髓

為何美國(guó)敢打伊朗,卻不敢打朝鮮?因?yàn)槌r成功學(xué)到了中國(guó)精髓

鑒史錄
2026-03-25 18:19:06
穩(wěn)居西部第二!馬刺三大年輕核心,已成聯(lián)盟無(wú)解難題!

穩(wěn)居西部第二!馬刺三大年輕核心,已成聯(lián)盟無(wú)解難題!

田先生籃球
2026-03-26 14:23:29
現(xiàn)役巨星出勤率:詹姆斯87%,庫(kù)里79%,哈登91%,他8年100%太強(qiáng)了

現(xiàn)役巨星出勤率:詹姆斯87%,庫(kù)里79%,哈登91%,他8年100%太強(qiáng)了

大西體育
2026-03-26 14:20:38
16GB+1TB!新機(jī)官宣:3月25日,正式發(fā)售!

16GB+1TB!新機(jī)官宣:3月25日,正式發(fā)售!

科技堡壘
2026-03-25 09:20:07
魔笛J羅再相聚!皇馬兩代10號(hào)擁抱寒暄 賽后交換球衣

魔笛J羅再相聚!皇馬兩代10號(hào)擁抱寒暄 賽后交換球衣

葉青足球世界
2026-03-27 11:17:22
懟得漂亮!伊朗外長(zhǎng):既然我們連領(lǐng)導(dǎo)層都沒(méi)有了,還有什么好談的

懟得漂亮!伊朗外長(zhǎng):既然我們連領(lǐng)導(dǎo)層都沒(méi)有了,還有什么好談的

南風(fēng)不及你溫柔
2026-03-26 14:07:38
“我用房子貸的款卻進(jìn)了他們口袋”,佛山一男子稱遭遇套路貸;警方立案?jìng)刹椋?人被批捕后取保候?qū)?>
    </a>
        <h3>
      <a href=大風(fēng)新聞
2026-03-26 16:56:40
前國(guó)腳郜林分享退役生活:收入落差巨大 目前月薪覆蓋通勤費(fèi)后所剩無(wú)幾

前國(guó)腳郜林分享退役生活:收入落差巨大 目前月薪覆蓋通勤費(fèi)后所剩無(wú)幾

愛(ài)奇藝體育
2026-03-27 10:41:54
蔡正元即將入獄,國(guó)臺(tái)辦做出回應(yīng),內(nèi)容不尋常,已看透他的真面目

蔡正元即將入獄,國(guó)臺(tái)辦做出回應(yīng),內(nèi)容不尋常,已看透他的真面目

北緯的咖啡豆
2026-03-26 22:20:06
一夜暴跌25%!小馬哥最怕的事還是發(fā)生了:年輕人正在從騰訊溜走

一夜暴跌25%!小馬哥最怕的事還是發(fā)生了:年輕人正在從騰訊溜走

潮鹿逐夢(mèng)
2026-03-21 11:54:42
教育部發(fā)布20條嚴(yán)禁清單,嚴(yán)禁宣傳炒作中高考狀元、名校率、升學(xué)率,整治陰陽(yáng)課表違規(guī)補(bǔ)課等行為

教育部發(fā)布20條嚴(yán)禁清單,嚴(yán)禁宣傳炒作中高考狀元、名校率、升學(xué)率,整治陰陽(yáng)課表違規(guī)補(bǔ)課等行為

每日經(jīng)濟(jì)新聞
2026-03-27 11:33:29
Manus兩名高管禁止離境? 外交部回應(yīng)

Manus兩名高管禁止離境? 外交部回應(yīng)

每日經(jīng)濟(jì)新聞
2026-03-26 16:36:02
59歲鞏俐身材引熱議,外套都快撐不住豐腴身材了,卻被夸少女體態(tài)

59歲鞏俐身材引熱議,外套都快撐不住豐腴身材了,卻被夸少女體態(tài)

一盅情懷
2026-03-16 16:52:57
看了觀眾對(duì)何潤(rùn)東的評(píng)價(jià),我才明白當(dāng)年陳道明那番話的含金量

看了觀眾對(duì)何潤(rùn)東的評(píng)價(jià),我才明白當(dāng)年陳道明那番話的含金量

糊咖娛樂(lè)
2026-03-26 17:22:19
2026-03-27 13:08:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12612文章數(shù) 142595關(guān)注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產(chǎn)力

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

體育要聞

近29戰(zhàn)23勝!這支黃蜂有多強(qiáng)?

娛樂(lè)要聞

張雪峰靈堂內(nèi)景曝光,四周擺滿了鮮花

財(cái)經(jīng)要聞

很反常!油價(jià)向上,黃金向下

汽車要聞

與眾08,金標(biāo)大眾不能輸?shù)囊粦?zhàn)

態(tài)度原創(chuàng)

家居
房產(chǎn)
健康
藝術(shù)
教育

家居要聞

傍海而居 靜觀蝴蝶海

房產(chǎn)要聞

剛剛,海南樓市,官方數(shù)據(jù)發(fā)布!

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

藝術(shù)要聞

2025“殊相”——中國(guó)油畫(huà)學(xué)會(huì)創(chuàng)作研修作品展 | 作品選刊(一)

教育要聞

高二英語(yǔ)只能考五六十分,如何快速提分,需要詳細(xì)提分計(jì)劃

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版