国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

東京理工學(xué)院團(tuán)隊(duì)革命性突破:讓虛擬人像真人一樣會聊天互動

0
分享至


現(xiàn)代科技讓我們能夠與AI聊天,但有沒有想過,如果這個(gè)AI還能用肢體語言和你交流會是什么樣子?東京理工學(xué)院聯(lián)合卡內(nèi)基梅隆大學(xué)等多所知名高校的研究團(tuán)隊(duì)最近發(fā)布了一項(xiàng)令人興奮的研究成果,他們開發(fā)出了一種名為DyaDiT的全新技術(shù),這項(xiàng)研究發(fā)表于2026年2月,論文編號為arXiv:2602.23165v1。這個(gè)看似復(fù)雜的名字背后,隱藏著一個(gè)能夠徹底改變我們與虛擬角色互動方式的創(chuàng)新技術(shù)。

要理解這項(xiàng)技術(shù)的重要性,可以這樣想:當(dāng)兩個(gè)人聊天時(shí),除了說話內(nèi)容,他們還會不自覺地做各種手勢、調(diào)整身體姿態(tài),甚至?xí)鶕?jù)對方的反應(yīng)來調(diào)整自己的表達(dá)方式。一個(gè)外向的人說話時(shí)手舞足蹈,而內(nèi)向的人可能更多地點(diǎn)頭傾聽。朋友之間的互動輕松隨意,而初次見面的陌生人則相對拘謹(jǐn)。這些微妙的社交細(xì)節(jié)構(gòu)成了真實(shí)人際交往的精髓。

然而,目前的虛擬角色或數(shù)字人在這方面還相當(dāng)笨拙。它們通常只能根據(jù)自己說的話做出相應(yīng)的手勢,完全不會考慮對方在做什么,也不會根據(jù)雙方的關(guān)系或性格特點(diǎn)來調(diào)整自己的行為。就像是一個(gè)不會察言觀色的人,總是按照固定模式說話和做動作,顯得機(jī)械而缺乏人情味。

DyaDiT技術(shù)的革命性突破就在于,它讓虛擬角色能夠像真人一樣進(jìn)行有來有回的社交互動。這套系統(tǒng)不僅能聽懂雙方在說什么,還能理解他們是什么關(guān)系(朋友、陌生人、情侶或家人),甚至能夠分析每個(gè)人的性格特點(diǎn),然后生成相應(yīng)的肢體語言和互動行為。

研究團(tuán)隊(duì)在開發(fā)這項(xiàng)技術(shù)時(shí),面臨的核心挑戰(zhàn)就像是要教會一臺機(jī)器如何在雞尾酒會上自然地與人交談。在這樣的場合,兩個(gè)人可能同時(shí)說話、互相打斷,或者一個(gè)人在說話時(shí)另一個(gè)人在點(diǎn)頭回應(yīng)。傳統(tǒng)的技術(shù)只能處理"一個(gè)人說話,另一個(gè)人安靜聽著"這種簡單情況,但現(xiàn)實(shí)中的對話遠(yuǎn)比這復(fù)雜得多。

為了解決這個(gè)問題,研究團(tuán)隊(duì)首先需要大量的真實(shí)對話數(shù)據(jù)。他們使用了一個(gè)名為"無縫交互數(shù)據(jù)集"的龐大數(shù)據(jù)庫,這個(gè)數(shù)據(jù)庫包含了大約182小時(shí)的真實(shí)雙人對話錄像,相當(dāng)于連續(xù)觀看一周的對話內(nèi)容。這些對話不是表演出來的,而是真實(shí)的人際交往場景,包含了各種關(guān)系類型和性格組合。

在技術(shù)實(shí)現(xiàn)上,DyaDiT系統(tǒng)的工作原理可以比作一位非常善于觀察的社交專家。當(dāng)兩個(gè)人在對話時(shí),這個(gè)"專家"會同時(shí)關(guān)注幾個(gè)要素:雙方在說什么、他們的聲調(diào)和語速、他們是什么關(guān)系、各自的性格特點(diǎn),以及當(dāng)前的互動氛圍。然后,基于這些信息,系統(tǒng)為其中一方生成自然的肢體動作和表情。

系統(tǒng)最巧妙的創(chuàng)新之一是解決了"聲音混合"的問題。當(dāng)兩個(gè)人同時(shí)說話或者互相打斷時(shí),傳統(tǒng)技術(shù)往往會混淆,不知道該響應(yīng)誰的聲音。DyaDiT開發(fā)了一種叫做"正交化交叉注意力機(jī)制"(聽起來復(fù)雜,其實(shí)就像是一副能夠分別聽清楚不同聲音的特殊耳朵)的技術(shù)。這個(gè)機(jī)制能夠清晰地分辨出每個(gè)人的聲音貢獻(xiàn),就像在嘈雜的餐廳里你仍然能夠?qū)W⒙犌鍖γ媾笥言谡f什么一樣。

另一個(gè)重要突破是"動作詞典"的概念。研究團(tuán)隊(duì)發(fā)現(xiàn),人的肢體語言其實(shí)有一些基本的"詞匯",比如點(diǎn)頭表示同意、攤手表示困惑、前傾身體表示感興趣等等。他們讓系統(tǒng)學(xué)習(xí)了1000種這樣的基礎(chǔ)動作模式,就像建立了一個(gè)手勢和姿態(tài)的字典。當(dāng)系統(tǒng)需要表達(dá)某種情感或反應(yīng)時(shí),它會從這個(gè)字典中選擇合適的"詞匯"進(jìn)行組合,創(chuàng)造出自然流暢的動作序列。

系統(tǒng)還特別考慮了社交關(guān)系對行為的影響。戀人之間的互動通常更加親密,動作幅度可能更大,眼神交流更頻繁;而陌生人之間則相對拘謹(jǐn),保持更多的個(gè)人空間。朋友關(guān)系介于兩者之間,既有親近感又不失分寸。系統(tǒng)通過學(xué)習(xí)大量的真實(shí)對話數(shù)據(jù),掌握了這些微妙的社交規(guī)則。

性格特征同樣是系統(tǒng)考慮的重要因素。心理學(xué)中有一個(gè)著名的"大五人格理論",將人的性格分為五個(gè)維度:外向性、友善性、責(zé)任感、情緒穩(wěn)定性和開放性。外向的人在對話中往往更加活躍,手勢更多更大;而內(nèi)向的人可能更多地傾聽,動作相對含蓄。系統(tǒng)能夠根據(jù)這些性格特征調(diào)整生成的動作風(fēng)格。

為了驗(yàn)證技術(shù)的效果,研究團(tuán)隊(duì)進(jìn)行了大量的測試。他們不僅用傳統(tǒng)的技術(shù)指標(biāo)來評估動作的自然程度和多樣性,還邀請了真實(shí)用戶進(jìn)行主觀評價(jià)。結(jié)果顯示,DyaDiT生成的動作不僅在技術(shù)指標(biāo)上全面超越了現(xiàn)有的同類技術(shù),在用戶的主觀感受上也獲得了壓倒性的好評。

在整體質(zhì)量評價(jià)中,有73.9%的用戶認(rèn)為DyaDiT生成的動作看起來更像真人;在關(guān)系一致性評價(jià)中,69.8%的用戶認(rèn)為系統(tǒng)生成的互動更符合兩人的實(shí)際關(guān)系;在性格一致性方面,也有66.7%的用戶給出了正面評價(jià)。更有趣的是,在某些情況下,用戶甚至認(rèn)為系統(tǒng)生成的動作比真實(shí)錄制的動作看起來更自然,這可能是因?yàn)橄到y(tǒng)生成的動作經(jīng)過了優(yōu)化,去除了一些不必要的抖動和不規(guī)律性。

技術(shù)實(shí)現(xiàn)的細(xì)節(jié)展現(xiàn)了研究團(tuán)隊(duì)的巧思。整個(gè)系統(tǒng)采用了當(dāng)下最先進(jìn)的擴(kuò)散變換器架構(gòu),這種架構(gòu)就像是一個(gè)能夠逐步細(xì)化圖像的藝術(shù)家。系統(tǒng)首先生成一個(gè)粗糙的動作輪廓,然后逐步添加細(xì)節(jié),最終產(chǎn)生流暢自然的動作序列。這個(gè)過程有點(diǎn)像雕塑家先用粗線條勾勒出基本形狀,再逐步精雕細(xì)琢出最終作品。

為了處理連續(xù)的動作序列,系統(tǒng)還使用了一種叫做"矢量量化變分自編碼器"的技術(shù)。這個(gè)名字聽起來很拗口,但其作用很容易理解:就像是將連續(xù)的動作"切片"成一個(gè)個(gè)小段,每個(gè)小段都有一個(gè)獨(dú)特的"標(biāo)簽"。這樣,系統(tǒng)就能夠更好地理解和生成連貫的動作序列,避免出現(xiàn)突兀的跳躍或不連貫的動作。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),分別測試了系統(tǒng)各個(gè)組件的貢獻(xiàn)。結(jié)果發(fā)現(xiàn),去除聲音分離模塊后,系統(tǒng)的表現(xiàn)明顯下降,說明準(zhǔn)確分離雙方聲音對于生成合適反應(yīng)的重要性。移除動作詞典后,生成動作的多樣性顯著減少,驗(yàn)證了預(yù)設(shè)動作模式庫的價(jià)值。當(dāng)完全不使用社交上下文信息時(shí),系統(tǒng)生成的動作質(zhì)量大幅下降,充分證明了考慮關(guān)系和性格因素的必要性。

這項(xiàng)技術(shù)的應(yīng)用前景非常廣闊。在游戲行業(yè),它能夠讓非玩家角色(NPC)表現(xiàn)得更加真實(shí)可信,根據(jù)玩家的行為和雙方的關(guān)系動態(tài)調(diào)整自己的反應(yīng)。在教育領(lǐng)域,虛擬教師能夠更好地理解學(xué)生的狀態(tài),用合適的肢體語言來鼓勵(lì)或安撫學(xué)生。在心理健康服務(wù)中,虛擬治療師能夠提供更加人性化的互動體驗(yàn)。在視頻會議和遠(yuǎn)程協(xié)作中,這項(xiàng)技術(shù)也能夠讓虛擬化身表現(xiàn)得更加自然,改善遠(yuǎn)程交流的體驗(yàn)。

不過,這項(xiàng)技術(shù)目前還存在一些局限性。系統(tǒng)目前只能生成上半身的動作,還不包括腿部動作和全身協(xié)調(diào)。另外,雖然系統(tǒng)考慮了性格和關(guān)系因素,但有時(shí)候語音中本身就包含了一些性格信息,可能會與顯式的性格標(biāo)簽產(chǎn)生沖突,影響生成效果的多樣性。

研究團(tuán)隊(duì)已經(jīng)在規(guī)劃未來的改進(jìn)方向。他們計(jì)劃擴(kuò)展到全身動作生成,包括面部表情和步態(tài)等更豐富的肢體語言。他們還在研究如何更好地處理音頻中隱含的性格信息,以及如何讓系統(tǒng)能夠同時(shí)為對話雙方生成協(xié)調(diào)的互動動作。

從技術(shù)發(fā)展的角度來看,DyaDiT代表了人機(jī)交互領(lǐng)域的一個(gè)重要里程碑。它不僅僅是讓機(jī)器能夠做出手勢,更重要的是讓機(jī)器開始理解和模擬人類社交的微妙之處。這種對社交智能的模擬,為未來更加自然的人機(jī)交互奠定了基礎(chǔ)。

說到底,這項(xiàng)研究的價(jià)值不僅在于技術(shù)本身的先進(jìn)性,更在于它讓我們看到了一個(gè)更加人性化的數(shù)字世界的可能性。當(dāng)虛擬角色能夠像真人一樣理解社交情境、展現(xiàn)個(gè)性特征、做出恰當(dāng)反應(yīng)時(shí),我們與數(shù)字世界的邊界將變得越來越模糊。這不僅會改變我們使用技術(shù)的方式,也可能會影響我們對人際關(guān)系本身的理解。畢竟,當(dāng)機(jī)器都開始學(xué)會察言觀色、因人而異地調(diào)整行為時(shí),我們?nèi)祟愂欠褚残枰匦聦徱暿裁床攀钦嬲?dú)特的人性特質(zhì)呢?

對于有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過論文編號arXiv:2602.23165v1查詢完整的研究論文,那里有更詳細(xì)的技術(shù)實(shí)現(xiàn)和實(shí)驗(yàn)數(shù)據(jù)分析。

Q&A

Q1:DyaDiT技術(shù)是什么?

A:DyaDiT是東京理工學(xué)院等研究機(jī)構(gòu)開發(fā)的一種AI技術(shù),能讓虛擬角色像真人一樣進(jìn)行雙人對話互動。它不僅能根據(jù)語音生成手勢,還能考慮對話雙方的關(guān)系(朋友、陌生人等)和性格特點(diǎn),生成更自然、更符合社交情境的肢體語言和互動行為。

Q2:這個(gè)技術(shù)和現(xiàn)在的虛擬人有什么區(qū)別?

A:現(xiàn)有虛擬人通常只能根據(jù)自己說的話做手勢,不會考慮對方的反應(yīng)或雙方的關(guān)系。DyaDiT技術(shù)的突破在于能同時(shí)處理兩個(gè)人的語音,理解他們的社交關(guān)系和個(gè)性差異,生成更加真實(shí)的互動反應(yīng),就像真人聊天時(shí)會根據(jù)對方的話語和動作來調(diào)整自己的表現(xiàn)一樣。

Q3:DyaDiT技術(shù)可以用在哪些地方?

A:應(yīng)用前景很廣泛,包括讓游戲中的NPC更智能真實(shí)、創(chuàng)造更人性化的虛擬教師和治療師、改善視頻會議中的虛擬化身體驗(yàn)等。任何需要虛擬角色與人進(jìn)行自然互動的場景都能從這項(xiàng)技術(shù)中受益,讓數(shù)字交流變得更加真實(shí)可信。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
又有5國參戰(zhàn)!中東亂成一鍋粥,美媒再爆料:沙特欺騙了全世界

又有5國參戰(zhàn)!中東亂成一鍋粥,美媒再爆料:沙特欺騙了全世界

東極妙嚴(yán)
2026-03-02 15:50:51
美軍瞞不住了!炸航母基地,炸11億美元雷達(dá),幾十萬噸燃油被點(diǎn)燃

美軍瞞不住了!炸航母基地,炸11億美元雷達(dá),幾十萬噸燃油被點(diǎn)燃

夢史
2026-03-01 11:22:23
研究警告:越來越多家庭因吃它中毒!冰箱里這類肉別超3個(gè)月!

研究警告:越來越多家庭因吃它中毒!冰箱里這類肉別超3個(gè)月!

全球軍事記
2026-02-28 10:12:38
從設(shè)計(jì)院到包子店:一位45歲建筑師靠“打零工”重啟人生

從設(shè)計(jì)院到包子店:一位45歲建筑師靠“打零工”重啟人生

北青深一度
2026-02-28 16:09:26
霍爾木茲海峽關(guān)閉!中國化工全產(chǎn)業(yè)鏈承壓

霍爾木茲海峽關(guān)閉!中國化工全產(chǎn)業(yè)鏈承壓

新浪財(cái)經(jīng)
2026-03-02 11:48:58
西甲前瞻|皇馬1-2赫塔菲:殘陣出擊,恐遭滑鐵盧

西甲前瞻|皇馬1-2赫塔菲:殘陣出擊,恐遭滑鐵盧

體育世界
2026-03-02 17:53:33
張?jiān)迄i尋親25年終團(tuán)圓,爸爸送羽絨服下跪謝子,媽媽缺席引人心疼

張?jiān)迄i尋親25年終團(tuán)圓,爸爸送羽絨服下跪謝子,媽媽缺席引人心疼

閱微札記
2026-03-02 19:31:55
小米車主敗訴!小米SU7Ultra挖孔機(jī)蓋案宣判,法院:不涉及虛假宣傳銷售欺詐

小米車主敗訴!小米SU7Ultra挖孔機(jī)蓋案宣判,法院:不涉及虛假宣傳銷售欺詐

DeepAuto車探
2026-03-02 11:45:43
朝鮮閱兵式現(xiàn)場大將僅剩5人!戰(zhàn)略軍直接被裁?

朝鮮閱兵式現(xiàn)場大將僅剩5人!戰(zhàn)略軍直接被裁?

IN朝鮮
2026-02-28 10:45:32
沙特瞞天過海?中東戰(zhàn)火再燃,中美都被耍了

沙特瞞天過海?中東戰(zhàn)火再燃,中美都被耍了

咣當(dāng)?shù)厍?/span>
2026-03-02 20:47:41
伊朗前總統(tǒng)內(nèi)賈德的死亡消息被其家屬否認(rèn)

伊朗前總統(tǒng)內(nèi)賈德的死亡消息被其家屬否認(rèn)

財(cái)聯(lián)社
2026-03-02 13:25:39
小酒窩送董璇老師拉布布!滿墻手辦價(jià)值百萬,毫無張維伊生活痕跡

小酒窩送董璇老師拉布布!滿墻手辦價(jià)值百萬,毫無張維伊生活痕跡

查爾菲的筆記
2026-03-02 19:11:48
天道好輪回!小蘋果還是走上母親葛薈婕的老路,汪峰也是有苦難言

天道好輪回!小蘋果還是走上母親葛薈婕的老路,汪峰也是有苦難言

光輝與陰暗
2026-03-02 16:54:29
伊朗強(qiáng)援已到!以色列集結(jié)十萬大軍,關(guān)鍵時(shí)刻,普京對中國做承諾

伊朗強(qiáng)援已到!以色列集結(jié)十萬大軍,關(guān)鍵時(shí)刻,普京對中國做承諾

悅心知足
2026-03-02 20:27:53
扎心!農(nóng)村二三代已無形中陷入到天倫絞殺局,已無回頭路了!

扎心!農(nóng)村二三代已無形中陷入到天倫絞殺局,已無回頭路了!

裝修秀
2026-02-28 11:45:03
美國搞不好會玩脫,伊朗準(zhǔn)備發(fā)射不亞于東風(fēng)-17的航母克星。

美國搞不好會玩脫,伊朗準(zhǔn)備發(fā)射不亞于東風(fēng)-17的航母克星。

李博世財(cái)經(jīng)
2026-03-02 14:22:30
突發(fā),美伊沖突!全球金融市場巨震,最全沖突概念個(gè)股清單揭秘!

突發(fā),美伊沖突!全球金融市場巨震,最全沖突概念個(gè)股清單揭秘!

小白鴿財(cái)經(jīng)
2026-03-02 10:06:44
郭晶晶12歲女兒霍中妍最近火出圈了!她正臉照和奶奶朱玲玲有相似

郭晶晶12歲女兒霍中妍最近火出圈了!她正臉照和奶奶朱玲玲有相似

科學(xué)發(fā)掘
2026-03-02 16:32:35
深圳男子突發(fā)心絞痛,人送到醫(yī)院心臟就停了!停跳整整兩天!醫(yī)生用ECMO搶回一命!罪魁禍?zhǔn)子质撬?>
    </a>
        <h3>
      <a href=深圳晚報(bào)
2026-03-02 21:00:39
印度游客添亂,泰國悔悟:還是中國游客香

印度游客添亂,泰國悔悟:還是中國游客香

華山穹劍
2026-02-27 19:47:38
2026-03-02 22:08:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7408文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

伊朗公布最新戰(zhàn)況 通報(bào)還披露內(nèi)塔尼亞胡行蹤

頭條要聞

伊朗公布最新戰(zhàn)況 通報(bào)還披露內(nèi)塔尼亞胡行蹤

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

旅游
本地
健康
時(shí)尚
公開課

旅游要聞

AI 復(fù)活千年文物,元宵文旅再出圈

本地新聞

津南好·四時(shí)總相宜

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

推廣|| 春天第一雙鞋!暴走不累、搭遍好看小裙子

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版