国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ConvApparel:量化并彌合用戶模擬器的真實(shí)性差距

0
分享至


我們推出了ConvApparel——一個全新的人機(jī)對話數(shù)據(jù)集,以及一套用于量化大語言模型用戶模擬器"真實(shí)性差距"的綜合評估框架,旨在提升對話智能體的訓(xùn)練效果。

現(xiàn)代對話式AI智能體通常能夠處理復(fù)雜的多輪任務(wù),例如主動提問以澄清用戶意圖,以及為用戶提供主動幫助。然而,面對較長的交互過程,這類系統(tǒng)往往表現(xiàn)不佳,容易忽略限制條件或給出無關(guān)緊要的回復(fù)。持續(xù)改進(jìn)這些系統(tǒng)需要不斷訓(xùn)練和反饋,但依賴真人測試這一"黃金標(biāo)準(zhǔn)"成本高昂、耗時較長,且難以大規(guī)模推廣。

作為一種可擴(kuò)展的替代方案,AI研究社區(qū)越來越多地轉(zhuǎn)向用戶模擬器——即明確指示其扮演人類用戶角色的大語言模型智能體。然而,現(xiàn)代基于大語言模型的模擬器仍然存在明顯的真實(shí)性差距:它們往往表現(xiàn)出異常的耐心,或具備不符合實(shí)際的、近乎百科全書式的領(lǐng)域知識。這就好比飛行員使用飛行模擬器訓(xùn)練:最好的模擬器應(yīng)盡可能真實(shí),包含不可預(yù)測的天氣、突如其來的陣風(fēng),甚至偶爾發(fā)生的鳥擊事故。要彌合大語言模型用戶模擬器的真實(shí)性差距,首先需要將其量化。

在我們近期發(fā)布的論文中,我們介紹了ConvApparel——一個專為此目標(biāo)設(shè)計(jì)的人機(jī)對話新數(shù)據(jù)集。ConvApparel能夠揭示當(dāng)前用戶模擬中隱藏的缺陷,并為構(gòu)建值得信賴的AI測試工具提供可行路徑。為了捕捉從滿意到極度不滿的完整人類行為譜系,我們采用了一種獨(dú)特的雙智能體數(shù)據(jù)收集協(xié)議:參與者被隨機(jī)分配至一個樂于助人的"好"智能體,或一個故意表現(xiàn)不佳的"壞"智能體。這一實(shí)驗(yàn)設(shè)置結(jié)合了三支柱驗(yàn)證策略——群體級統(tǒng)計(jì)、人類相似度評分以及反事實(shí)驗(yàn)證——使我們能夠超越簡單的表層模仿。

基于大語言模型的用戶模擬器往往表現(xiàn)出與真實(shí)人類交互系統(tǒng)性偏差的行為,例如過度冗長、缺乏一致的角色設(shè)定、無法表達(dá)連貫的偏好、知識儲備不切實(shí)際,以及缺乏合理的耐心底線。由于大多數(shù)大語言模型在訓(xùn)練時的目標(biāo)是成為出色的助手,因此當(dāng)它們被要求扮演容易沮喪、并非完美的人類用戶時,表現(xiàn)不佳也就不足為奇。如果我們僅用這些不真實(shí)的模擬器來訓(xùn)練對話智能體,那么它們在面對真實(shí)用戶時極有可能失敗。

利用真實(shí)用戶行為來訓(xùn)練模擬器是一種有效的方法。然而,一個真正真實(shí)的模擬器不僅應(yīng)反映訓(xùn)練數(shù)據(jù)中的行為,還應(yīng)能對未見過的新情境(例如新的對話智能體策略)做出合理反應(yīng)。這一點(diǎn)至關(guān)重要,因?yàn)槟M器的主要目標(biāo)之一是幫助改進(jìn)智能體,其中通常包括對與訓(xùn)練數(shù)據(jù)差異顯著的新智能體進(jìn)行實(shí)驗(yàn)。一個過度擬合訓(xùn)練數(shù)據(jù)的模擬器,對于測試全新的、未經(jīng)驗(yàn)證的AI智能體毫無用處。這引出了一個關(guān)鍵的方法論挑戰(zhàn):我們?nèi)绾螠y試模擬器的適應(yīng)能力?

為解決這一問題,我們引入了反事實(shí)驗(yàn)證的概念:如果模擬用戶遇到一個令人沮喪的系統(tǒng)——與它在訓(xùn)練中接觸過的那些友好系統(tǒng)截然不同——它會作何反應(yīng)?通過評估模擬器在面對意外出現(xiàn)的"壞"對話智能體時的表現(xiàn),我們可以判斷它們是否真正學(xué)會了合理的人類行為,還是只是在盲目重復(fù)訓(xùn)練模式。

反事實(shí)驗(yàn)證旨在測試用戶模擬器面對分布外的助手行為時,能否做出真實(shí)的適應(yīng)性反應(yīng)。

對話推薦系統(tǒng)(CRS)是對話式AI智能體最具前景的應(yīng)用場景之一,在這類系統(tǒng)中,AI智能體充當(dāng)復(fù)雜的決策支持工具,能夠進(jìn)行深度推理并提供個性化指導(dǎo)。為了建立CRS中人類行為的基準(zhǔn),并實(shí)現(xiàn)上述反事實(shí)驗(yàn)證,我們構(gòu)建了ConvApparel數(shù)據(jù)集——該數(shù)據(jù)集包含4000余條人機(jī)多輪對話(共計(jì)近15000輪),聚焦于服裝購物領(lǐng)域。

ConvApparel的獨(dú)特之處在于其雙智能體數(shù)據(jù)收集協(xié)議。參與者并不知情,他們的購物請求被隨機(jī)分配至兩種截然不同的AI推薦系統(tǒng)之一:一個表現(xiàn)良好的"好"智能體和一個故意設(shè)計(jì)為表現(xiàn)不佳的"壞"智能體。這一雙智能體實(shí)驗(yàn)設(shè)計(jì)是ConvApparel的核心特色,它提供了兩種不同的受控環(huán)境,捕捉了從愉悅到極度不滿的廣泛用戶體驗(yàn)。此外,ConvApparel還包含細(xì)粒度的逐輪標(biāo)注。我們要求參與者在每輪對話結(jié)束后,回顧并報(bào)告自己的內(nèi)心狀態(tài),包括滿意度、沮喪感和購買意愿,從而提供了一份罕見的第一人稱用戶體驗(yàn)真值數(shù)據(jù)集,為驗(yàn)證實(shí)驗(yàn)設(shè)置和模擬行為提供了重要依據(jù)。

基于這一豐富數(shù)據(jù)集,我們建立了一套由三大支柱構(gòu)成的綜合數(shù)據(jù)驅(qū)動框架,用于評估模擬器的逼真度,并對三種模擬器進(jìn)行了比較:提示式模擬器(Prompted)、上下文學(xué)習(xí)模擬器(ICL)以及監(jiān)督微調(diào)模擬器(SFT)。

群體級統(tǒng)計(jì)對齊:將真實(shí)用戶與模擬交互在總體行為分布(如話語長度)上進(jìn)行比較。

人類相似度評分:為捕捉細(xì)微的風(fēng)格差異,我們訓(xùn)練了一個自動判別器,基于人類與模擬對話的混合數(shù)據(jù),輸出一個反映對話"人類感"的單一概率評分。

人類相似度評分(HLS)利用訓(xùn)練好的判別器,檢測真實(shí)對話與合成對話之間細(xì)微的風(fēng)格差異。

反事實(shí)驗(yàn)證:利用雙智能體數(shù)據(jù),我們僅基于與"好"智能體的對話來訓(xùn)練模擬器,再讓其與未見過的"壞"智能體進(jìn)行交互。高逼真度的模擬器應(yīng)能自然地做出調(diào)整,在沮喪感上呈現(xiàn)出與真實(shí)人類相似的顯著上升,以及滿意度的明顯下降。

ConvApparel框架將雙智能體數(shù)據(jù)收集協(xié)議與三支柱驗(yàn)證策略相結(jié)合,有效衡量模擬器的真實(shí)性。

我們將三支柱評估框架應(yīng)用于三種基于Gemini模型系列構(gòu)建的大語言模型用戶模擬器:一是提示式模擬器,僅依賴高層次行為指令,無需專項(xiàng)訓(xùn)練;二是上下文學(xué)習(xí)(ICL)模擬器,利用檢索增強(qiáng)生成技術(shù),在每一輪交互中為模型提供來自ConvApparel的語義相似人類對話示例;三是監(jiān)督微調(diào)(SFT)模擬器,通過直接在ConvApparel人機(jī)對話記錄上對Gemini 2.5 Flash模型進(jìn)行微調(diào),使其行為與目標(biāo)人群高度對齊。

每種模擬器各生成600條對話,其中300條與"好"智能體交互,300條與"壞"智能體交互,以便與人類基準(zhǔn)進(jìn)行對比。

為保障研究的倫理完整性,我們對所有參與者保持完全透明,并給予公平報(bào)酬。評估人員均為簽署了知情同意書的付費(fèi)承包商,所獲薪酬高于其所在國家的生活工資標(biāo)準(zhǔn)。此外,我們明確要求參與者以真實(shí)購買意愿使用推薦系統(tǒng),并告知所有參與者,他們正在與一個仍處于開發(fā)階段的實(shí)驗(yàn)性原型進(jìn)行交互,并特別說明該系統(tǒng)可能存在表現(xiàn)欠佳的情況。

我們的實(shí)驗(yàn)得出了若干重要發(fā)現(xiàn):

在人類相似度評分方面,經(jīng)過訓(xùn)練的判別器能夠以極高的置信度將幾乎所有模擬對話識別為合成內(nèi)容。即便是我們最優(yōu)秀的SFT模型,仍會產(chǎn)生細(xì)微的人工痕跡——例如無懈可擊的語法和過于規(guī)律的輪次切換——從而暴露出其"合成"本質(zhì)。

在群體級測試中,數(shù)據(jù)驅(qū)動型模擬器(ICL和SFT)的表現(xiàn)始終優(yōu)于簡單的提示式基線,在話語長度和推薦接受率等行為分布上與人類高度吻合;然而,嚴(yán)格的統(tǒng)計(jì)檢驗(yàn)顯示,即便是這些較優(yōu)的模擬器,仍存在持續(xù)的真實(shí)性差距。

在與令人沮喪的"壞"智能體交互時,提示式基線基本無法適應(yīng),行為依然異常禮貌和耐心。而數(shù)據(jù)驅(qū)動型的ICL和SFT模擬器則表現(xiàn)出了出色的分布外泛化能力。盡管從未在訓(xùn)練數(shù)據(jù)中見過"壞"智能體,它們?nèi)阅苷鎸?shí)地調(diào)整自身行為,表現(xiàn)出明顯更高的模擬沮喪感與拒絕傾向。

構(gòu)建可靠的用戶模擬器是開發(fā)下一代健壯、有益且高效對話AI的基礎(chǔ)性工作。我們的研究表明,盡管基于大語言模型的用戶模擬器前景廣闊,但盲目依賴它們存在重大風(fēng)險。"真實(shí)性差距"依然存在,若將AI智能體優(yōu)化為僅取悅于不真實(shí)的模擬器,可能會損害其在真實(shí)世界中的實(shí)際表現(xiàn)。

通過引入ConvApparel數(shù)據(jù)集和三支柱驗(yàn)證框架,我們?yōu)檠芯可鐓^(qū)提供了嚴(yán)格衡量并最終彌合這一差距所需的工具。反事實(shí)驗(yàn)證證明,我們必須超越表層模仿,確保模擬器能夠真實(shí)地適應(yīng)新穎的對話動態(tài)。我們誠邀研究人員和開發(fā)者探索ConvApparel數(shù)據(jù)集,并利用我們的框架,為對話AI的未來構(gòu)建可靠的合成用戶。

盡管我們的實(shí)驗(yàn)表明數(shù)據(jù)驅(qū)動型模擬器遠(yuǎn)優(yōu)于提示式模擬器,但創(chuàng)建高度真實(shí)的人工用戶仍是一項(xiàng)尚未完全解決的挑戰(zhàn)。我們的框架能夠有效衡量真實(shí)性差距,但要確定訓(xùn)練出健壯對話智能體所需的精確逼真度閾值,目前仍是一個開放性問題。

未來的工作應(yīng)聚焦于利用這些高逼真度模擬器從零開始訓(xùn)練和優(yōu)化CRS智能體,并衡量其在真實(shí)世界中的最終表現(xiàn)。打通這一完整閉環(huán),將使我們最終能夠量化構(gòu)建有效、用戶就緒的AI系統(tǒng)所需的"人類相似度"程度。

本研究由以下合著者共同完成:Krisztian Balog、Avi Caciularu、Guy Tennenholtz、Jihwan Jeong、Amir Globerson 和 Craig Boutilier。

Q&A

Q1:ConvApparel數(shù)據(jù)集是什么,有什么特別之處?

A:ConvApparel是一個包含4000余條人機(jī)多輪對話(近15000輪)的服裝購物領(lǐng)域數(shù)據(jù)集。其最大特色是采用雙智能體數(shù)據(jù)收集協(xié)議:參與者在不知情的情況下,被隨機(jī)分配與"好"智能體或"壞"智能體交互,從而捕捉從滿意到極度不滿的完整用戶行為譜系,并配有逐輪的滿意度、沮喪感等細(xì)粒度標(biāo)注。

Q2:什么是用戶模擬器的"真實(shí)性差距",為什么重要?

A:真實(shí)性差距指的是大語言模型用戶模擬器的行為與真實(shí)人類用戶之間的系統(tǒng)性偏差,例如過度冗長、異常耐心、知識儲備不切實(shí)際等。如果用不真實(shí)的模擬器來訓(xùn)練對話AI智能體,該智能體在面對真實(shí)用戶時可能表現(xiàn)不佳,因此量化并彌合這一差距對提升AI實(shí)際應(yīng)用效果至關(guān)重要。

Q3:反事實(shí)驗(yàn)證是什么,如何檢驗(yàn)?zāi)M器質(zhì)量?

A:反事實(shí)驗(yàn)證是一種評估方法,讓僅在"好"智能體對話上訓(xùn)練的模擬器去與從未見過的"壞"智能體交互,測試其能否真實(shí)地表現(xiàn)出沮喪感上升和滿意度下降。若模擬器能做出與真實(shí)人類相似的適應(yīng)性反應(yīng),說明它真正學(xué)會了人類行為,而非僅僅記憶訓(xùn)練數(shù)據(jù)中的模式。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
上海德比為申花破門,拉唐收獲萊昂納多擁抱

上海德比為申花破門,拉唐收獲萊昂納多擁抱

上觀新聞
2026-04-12 07:44:04
挑對手結(jié)果看走眼了!現(xiàn)在想故意輸球?qū)ι匣鸺春四樕?>
    </a>
        <h3>
      <a href=你的籃球頻道
2026-04-12 09:22:53
我國肝癌高發(fā),茶葉是背后的禍因?醫(yī)生勸告:3種茶才是幫兇

我國肝癌高發(fā),茶葉是背后的禍因?醫(yī)生勸告:3種茶才是幫兇

岐黃傳人孫大夫
2026-04-12 06:30:03
高市早苗再提臺灣問題,軍國主義已成大患,人民日報(bào)敲響鐘聲

高市早苗再提臺灣問題,軍國主義已成大患,人民日報(bào)敲響鐘聲

焦點(diǎn)集結(jié)號
2026-04-12 07:26:45
只要和平不要統(tǒng)一?鄭麗文明確表態(tài),國民黨三人罕見支持,不簡單

只要和平不要統(tǒng)一?鄭麗文明確表態(tài),國民黨三人罕見支持,不簡單

起喜電影
2026-04-12 00:07:31
美國48歲市長辭職9天后外逃,3名受害者接連現(xiàn)身

美國48歲市長辭職9天后外逃,3名受害者接連現(xiàn)身

追星雷達(dá)站
2026-04-12 08:19:39
從圖片就能看出來,鄭麗文生活里一定是個有趣的人

從圖片就能看出來,鄭麗文生活里一定是個有趣的人

漢宮秋
2026-04-12 06:11:38
40歲C羅獲評高分7.3分:連場破門+率隊(duì)16連勝,太牛了

40歲C羅獲評高分7.3分:連場破門+率隊(duì)16連勝,太牛了

側(cè)身凌空斬
2026-04-12 03:57:19
活久見!網(wǎng)傳廣東一租客將價值30元沙金項(xiàng)鏈留屋,房東爽快退押金

活久見!網(wǎng)傳廣東一租客將價值30元沙金項(xiàng)鏈留屋,房東爽快退押金

火山詩話
2026-04-12 08:04:26
什么事讓你瞬間感到毛骨悚然?網(wǎng)友:從此再沒見過她老公發(fā)脾氣

什么事讓你瞬間感到毛骨悚然?網(wǎng)友:從此再沒見過她老公發(fā)脾氣

另子維愛讀史
2026-03-10 23:08:46
新冠后遺癥的長期侵襲,無數(shù)人在不知不覺中深陷困境

新冠后遺癥的長期侵襲,無數(shù)人在不知不覺中深陷困境

律法刑道
2026-04-01 10:15:47
全紅嬋又遭網(wǎng)暴!哥哥怒懟網(wǎng)友:我們?nèi)叶寂??吃你們家大米了?>
    </a>
        <h3>
      <a href=念洲
2026-04-10 08:40:37
醫(yī)院為啥搶著開“國際部”?不是老外多了,是醫(yī)療資源要重新分配

醫(yī)院為啥搶著開“國際部”?不是老外多了,是醫(yī)療資源要重新分配

茶余飯好
2026-04-10 19:01:58
“高人預(yù)測”:5年后,持有燃油車的家庭,將面對3個現(xiàn)實(shí)問題!

“高人預(yù)測”:5年后,持有燃油車的家庭,將面對3個現(xiàn)實(shí)問題!

沙雕小琳琳
2026-04-12 03:34:15
以色列政壇大地震!反對派61席鎖死勝局!貝內(nèi)特正瘋狂背刺內(nèi)氏

以色列政壇大地震!反對派61席鎖死勝局!貝內(nèi)特正瘋狂背刺內(nèi)氏

書紀(jì)文譚
2026-04-11 19:05:01
終于官宣 電動車禁令取消深層原因全面曝光 4億車主終于不用再躲了

終于官宣 電動車禁令取消深層原因全面曝光 4億車主終于不用再躲了

娛樂的硬糖吖
2026-04-12 07:15:21
格瑞維亞價格不再堅(jiān)挺!現(xiàn)給出5.5萬優(yōu)惠價,網(wǎng)友:沒白等

格瑞維亞價格不再堅(jiān)挺!現(xiàn)給出5.5萬優(yōu)惠價,網(wǎng)友:沒白等

汽車網(wǎng)評
2026-04-11 21:32:41
化療重金屬超標(biāo)!大咖男星留嚴(yán)重后遺癥雙頰凹陷暴瘦近況曝

化療重金屬超標(biāo)!大咖男星留嚴(yán)重后遺癥雙頰凹陷暴瘦近況曝

曼和球
2026-04-12 10:45:48
61980元!張雪820RR-R售價正式公布,工信部三車齊發(fā)卷翻中大排量市場

61980元!張雪820RR-R售價正式公布,工信部三車齊發(fā)卷翻中大排量市場

趣味萌寵的日常
2026-04-11 01:42:35
169元路由器塞了星閃芯片,TP-LINK把牙膏擠爆了

169元路由器塞了星閃芯片,TP-LINK把牙膏擠爆了

薛定諤的BUG
2026-04-10 09:07:18
2026-04-12 11:36:49
至頂頭條 incentive-icons
至頂頭條
記錄和推動數(shù)字化創(chuàng)新
17586文章數(shù) 49697關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

美國副總統(tǒng)萬斯:美伊談判未能達(dá)成協(xié)議 將返回美國

頭條要聞

美國副總統(tǒng)萬斯:美伊談判未能達(dá)成協(xié)議 將返回美國

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

鄭鈞回應(yīng)兒子走路:會監(jiān)督他挺直腰板

財(cái)經(jīng)要聞

三輪磋商談至深夜 美伊談判三大議題仍待解

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

家居
教育
旅游
公開課
軍事航空

家居要聞

復(fù)古風(fēng)格 自然簡約

教育要聞

于細(xì)微處見真功——初中學(xué)校黨建工作如何抓細(xì)節(jié)

旅游要聞

游客漲、預(yù)訂旺 “春日經(jīng)濟(jì)”催熱八桂消費(fèi)市場

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗議長帶四名遇難兒童照片赴美伊談判

無障礙瀏覽 進(jìn)入關(guān)懷版