国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

哥大博士讓機(jī)器人臉告別“面癱”,看視頻學(xué)會(huì)11門(mén)語(yǔ)言

0
分享至

你是否想過(guò),當(dāng)人類(lèi)面對(duì)面交流時(shí),我們的注意力更多地被放在哪里?

第一直覺(jué)或許是眼睛。它們是心靈的窗戶(hù),能夠傳達(dá)出細(xì)微而生動(dòng)的情感?茖W(xué)研究也證實(shí)的確如此,在日常對(duì)話(huà)中,我們會(huì)頻繁地注視對(duì)方的眼睛來(lái)捕捉情緒信號(hào)。

不過(guò),當(dāng)環(huán)境變得嘈雜時(shí),情況就有所不同了。研究表明,在噪音環(huán)境下,人們會(huì)將 50%-55% 的注意力轉(zhuǎn)向?qū)υ?huà)者的嘴唇,傾向于通過(guò)唇形來(lái)輔助理解對(duì)方在說(shuō)什么。

這也解釋了為什么即便是目前最先進(jìn)的人形機(jī)器人,仍然讓人在和它們面對(duì)面交流時(shí)感到不適。我們可以容忍它們笨拙的步態(tài),甚至僵硬的手勢(shì),但當(dāng)一張接近人類(lèi)的面孔無(wú)法自然地活動(dòng)時(shí),就會(huì)生發(fā)出一絲詭異感。這就是機(jī)器人領(lǐng)域著名的"恐怖谷效應(yīng)"——越接近人類(lèi)卻又不夠完美的機(jī)器,反而會(huì)引發(fā)更強(qiáng)烈的排斥感。

在致力機(jī)器人如何跨越“恐怖谷”效應(yīng)的道路上,首形科技是積極的拓路者之一。這家由哥倫比亞大學(xué)博士胡宇航創(chuàng)立的初創(chuàng)公司,自成立起便選擇了一條與眾不同的技術(shù)路徑:不追求機(jī)器人在運(yùn)動(dòng)或操作能力上的極致性能,而是聚焦于賦予它們具有情緒表達(dá)能力的面部。過(guò)去一年多,這一方向?yàn)樗麄冓A(yíng)得了多輪融資,并且收獲了社交媒體和市場(chǎng)的廣泛關(guān)注。


圖 | 胡宇航與人臉機(jī)器人 Emo (來(lái)源:受訪(fǎng)者)

1 月 15 日,Science Robotics 封面刊發(fā)了胡宇航團(tuán)隊(duì)關(guān)于 Emo 面部機(jī)器人的研究,展示了其如何通過(guò)學(xué)習(xí)實(shí)現(xiàn)與語(yǔ)音、歌曲同步的唇部運(yùn)動(dòng),這也是 Science Robotics 首次將人臉機(jī)器人刊登在封面。這項(xiàng)工作源于他在哥倫比亞大學(xué)的博士研究,也是他近兩年在 Science 和 Nature 子刊上發(fā)表的第三篇論文。


(來(lái)源:Science Robotics)

嘴唇運(yùn)動(dòng)被低估的復(fù)雜性

“嘴唇是人們交互過(guò)程中動(dòng)作最多的部位, 也是機(jī)器人從表情自然到交互自然非常重要的門(mén)檻。”胡宇航告訴 DeepTech,嘴唇運(yùn)動(dòng)的復(fù)雜性遠(yuǎn)超多數(shù)人的想象,甚至超出了機(jī)器人研究者此前的認(rèn)知。

從技術(shù)角度看,這種復(fù)雜性首先體現(xiàn)在驅(qū)動(dòng)機(jī)制上。與眉毛等單一方向運(yùn)動(dòng)的面部特征不同,嘴唇由多個(gè)肌肉群驅(qū)動(dòng),運(yùn)動(dòng)過(guò)程中存在頻繁的接觸與分離。同時(shí),嘴唇對(duì)時(shí)間精度極為敏感,還需同步承載語(yǔ)言、情感與社交信號(hào)。胡宇航指出:“這使得嘴唇運(yùn)動(dòng)的建模從根本上超越了參數(shù)化控制,成為一個(gè)高維、非線(xiàn)性、強(qiáng)閉環(huán)的生成式形變問(wèn)題!


(來(lái)源:論文)

既然如此,面對(duì)如此復(fù)雜的任務(wù),如何客觀(guān)衡量機(jī)器人嘴唇運(yùn)動(dòng)的“真實(shí)性”呢?

胡宇航團(tuán)隊(duì)在論文中提出了一種創(chuàng)新方法:使用合成參考視頻作為理想同步基準(zhǔn),在 VAE 編碼器的潛空間中計(jì)算機(jī)器人嘴唇運(yùn)動(dòng)與參考視頻之間的距離。該指標(biāo)能夠刻畫(huà)整體嘴型動(dòng)態(tài)與時(shí)序結(jié)構(gòu)的偏差,避免了依賴(lài)易受噪聲干擾的二維關(guān)鍵點(diǎn)。由此,研究者獲得了一個(gè)客觀(guān)的度量標(biāo)準(zhǔn),可以在連續(xù)語(yǔ)音與多語(yǔ)言場(chǎng)景下評(píng)估音頻-視覺(jué)同步誤差。

這可以說(shuō)是創(chuàng)新的一步。因?yàn)榇饲,機(jī)器人領(lǐng)域?qū)ψ齑酵降膰L試主要依賴(lài)手工預(yù)定義的運(yùn)動(dòng)規(guī)則和固定的音素-視位映射表。簡(jiǎn)單來(lái)說(shuō),就是為每個(gè)音素設(shè)計(jì)一套固定嘴型,再讓機(jī)器人機(jī)械執(zhí)行。

但這種方法存在明顯的局限。胡宇航列舉了幾個(gè)關(guān)鍵問(wèn)題:首先,同一音素的發(fā)聲速度會(huì)因說(shuō)話(huà)人、場(chǎng)景或情緒而異。例如,一個(gè)人在激動(dòng)和平靜狀態(tài)下說(shuō)出的“好”,雖然音素相同,但嘴唇運(yùn)動(dòng)的幅度、速度和形態(tài)可能截然不同。其次,在多語(yǔ)言、歌唱或方言等場(chǎng)景中,基于音素設(shè)計(jì)規(guī)則需要投入巨大的手工工作量。更關(guān)鍵的是,當(dāng)機(jī)器人硬件升級(jí)時(shí),所有動(dòng)作幾乎都要重新編排,難以復(fù)用。

此外,這種規(guī)則方法還隱含了一個(gè)假設(shè):音素與嘴型之間存在著穩(wěn)定、一對(duì)一的映射關(guān)系。但這顯然與真實(shí)人類(lèi)發(fā)音機(jī)制并不相符。實(shí)際上,同一音素的嘴唇運(yùn)動(dòng)在不同說(shuō)話(huà)人、語(yǔ)速、情緒和語(yǔ)境下都存在顯著差異,其時(shí)序、幅度和形態(tài)高度連續(xù)且上下文相關(guān)。

將這種連續(xù)性強(qiáng)行離散化為固定規(guī)則,必然丟失大量信息。規(guī)則方法也無(wú)法建模嘴唇作為軟體器官所具有的非線(xiàn)性、并行驅(qū)動(dòng)和跨時(shí)間依賴(lài)特性,最終只能生成“正確但僵硬”的嘴型序列。

相比之下,數(shù)據(jù)驅(qū)動(dòng)方法能夠從真實(shí)人類(lèi)與機(jī)器人發(fā)音數(shù)據(jù)中學(xué)習(xí)復(fù)雜的統(tǒng)計(jì)規(guī)律與隱含約束。胡宇航表示:“這從根本上突破了規(guī)則方法在泛化性、可擴(kuò)展性和自然性上的瓶頸!

想要更像人,機(jī)器人需要“照鏡子”

為了讓機(jī)器人更精準(zhǔn)地復(fù)刻學(xué)習(xí)人類(lèi)的嘴唇動(dòng)作,胡宇航團(tuán)隊(duì)巧妙地設(shè)計(jì)了兩階段“自監(jiān)督學(xué)習(xí)系統(tǒng)”(Self-Supervised Learning, SSL):第一階段,機(jī)器人通過(guò)“照鏡子”建立自我模型;第二階段,它觀(guān)看人類(lèi)視頻學(xué)習(xí)嘴唇運(yùn)動(dòng)規(guī)律。


圖 | 用于機(jī)器人唇部同步的自監(jiān)督學(xué)習(xí)框架(來(lái)源:論文)

“兩階段設(shè)計(jì)的核心原因在于機(jī)器人與人類(lèi)在外觀(guān)、結(jié)構(gòu)和運(yùn)動(dòng)約束上的本質(zhì)差異。”胡宇航解釋道。若跳過(guò)第一階段,直接讓機(jī)器人模仿人類(lèi)視頻,將不可避免地學(xué)習(xí)到大量自身硬件無(wú)法執(zhí)行的形變模式,例如人類(lèi)皮膚的滑移、唇齒細(xì)節(jié)或肌肉驅(qū)動(dòng)方式。這些錯(cuò)誤映射最終會(huì)導(dǎo)致機(jī)器人動(dòng)作失真、抖動(dòng)或被系統(tǒng)性削弱。

第一階段的“照鏡子”訓(xùn)練,目的并非學(xué)習(xí)表情本身,而是讓模型明確“哪些運(yùn)動(dòng)在自身硬件與軟體結(jié)構(gòu)下是可實(shí)現(xiàn)的”。通過(guò)隨機(jī)生成數(shù)千個(gè)面部表情并觀(guān)察鏡中反饋,系統(tǒng)建立起從視覺(jué)變化到自身可控空間的映射關(guān)系,為后續(xù)學(xué)習(xí)提供物理可行性的約束。

在具備自我模型的基礎(chǔ)上,第二階段引入人類(lèi)視頻的作用變得清晰:機(jī)器人學(xué)習(xí)人類(lèi)嘴唇運(yùn)動(dòng)的統(tǒng)計(jì)規(guī)律與高層時(shí)序結(jié)構(gòu),并通過(guò)自我模型將這些規(guī)律投射到自身可執(zhí)行的動(dòng)作空間中!斑@本質(zhì)上是先解決‘我是誰(shuí)、我能怎么動(dòng)’,再解決‘人類(lèi)是如何動(dòng)的’!焙詈秸f(shuō)。該策略有效避免了跨形態(tài)直接模仿帶來(lái)的域錯(cuò)配問(wèn)題,是實(shí)現(xiàn)自然、穩(wěn)定且可泛化嘴唇運(yùn)動(dòng)的關(guān)鍵前提。


圖 | 團(tuán)隊(duì)機(jī)器人 Emo 照鏡子(來(lái)源:胡宇航)

出色的跨語(yǔ)言泛化能力

實(shí)驗(yàn)結(jié)果展示了這套系統(tǒng)的出色泛化能力:它能在 11 種語(yǔ)言中實(shí)現(xiàn)自然的嘴唇同步,包括英語(yǔ)、法語(yǔ)、日語(yǔ)、韓語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)、德語(yǔ)、俄語(yǔ)、中文、希伯來(lái)語(yǔ)和阿拉伯語(yǔ)。


圖 | 多語(yǔ)言口型同步性能的測(cè)試結(jié)果(來(lái)源:論文)

這種神奇的"跨語(yǔ)言"能力從何而來(lái)?胡宇航解釋道:“系統(tǒng)并未學(xué)習(xí)語(yǔ)言或音素本身,而是學(xué)習(xí)了人類(lèi)發(fā)音過(guò)程中更底層的肌肉運(yùn)動(dòng)模式!痹趦呻A段自監(jiān)督框架下,模型首先熟悉機(jī)器人自身嘴唇能做出哪些動(dòng)作;隨后在觀(guān)看人類(lèi)視頻時(shí),它不再關(guān)注具體是哪種語(yǔ)言、哪個(gè)發(fā)音,而是去捕捉聲音節(jié)奏與嘴唇動(dòng)作之間那些跨越語(yǔ)言邊界的共性規(guī)律。

“這些關(guān)系在不同語(yǔ)言中表現(xiàn)為高度一致的運(yùn)動(dòng)模式,比如張合節(jié)律、閉合-釋放結(jié)構(gòu)、過(guò)渡速度等。”換句話(huà)說(shuō),雖然各種語(yǔ)言的發(fā)音規(guī)則千差萬(wàn)別,但人類(lèi)嘴唇的運(yùn)動(dòng)方式終究受限于相同的生理結(jié)構(gòu)。正因如此,系統(tǒng)學(xué)到的是聲音與動(dòng)作之間更本質(zhì)的對(duì)應(yīng)關(guān)系,使它能夠自然地適應(yīng)多種語(yǔ)言,甚至應(yīng)對(duì)不同的語(yǔ)速和說(shuō)話(huà)風(fēng)格。

盡管成果顯著,胡宇航坦言系統(tǒng)仍面臨技術(shù)挑戰(zhàn),其中最典型的是硬輔音(如 /b/、/p/、/m/、/w/)的處理。這些音素之所以棘手,不僅因?yàn)榘l(fā)音速度快,更因?yàn)樗鼈兺瑫r(shí)涉及多重難以精確建模的約束條件。

以 /b/、/p/、/m/ 為例,發(fā)這幾個(gè)音時(shí),嘴唇需要在極短時(shí)間內(nèi)完成“閉合—保持—釋放”這一連串動(dòng)作。閉合不夠緊或時(shí)機(jī)稍有偏差,人耳立刻就能察覺(jué)異樣。而 /w/ 更為復(fù)雜,不僅要求雙唇閉攏,還需要嘴唇前突、形成圓形,同時(shí)配合口腔形狀的連續(xù)變化。胡宇航補(bǔ)充,這意味著模型必須在毫秒級(jí)時(shí)間精度下,協(xié)調(diào)多個(gè)高度耦合的自由度,同時(shí)應(yīng)對(duì)軟體接觸、非線(xiàn)性阻尼以及電機(jī)帶寬限制等物理因素。

與元音或軟輔音那種平滑漸變的動(dòng)作不同,硬輔音更像是一種"開(kāi)關(guān)式"的動(dòng)作——既有連續(xù)的運(yùn)動(dòng)軌跡,又有瞬間的接觸切換。這恰恰是當(dāng)前數(shù)據(jù)驅(qū)動(dòng)模型最容易出錯(cuò)、機(jī)器人執(zhí)行難度最高的地方。

從實(shí)驗(yàn)結(jié)果來(lái)看,當(dāng)前方法在一些極端語(yǔ)音場(chǎng)景下表現(xiàn)欠佳,比如語(yǔ)速極快、多人同時(shí)說(shuō)話(huà)、歌唱中的顫音,以及情緒激動(dòng)時(shí)的表達(dá)。胡宇航認(rèn)為,這反映了方法的本質(zhì)邊界:"模型主要學(xué)習(xí)的是典型對(duì)話(huà)語(yǔ)境下聲學(xué)時(shí)序與嘴唇運(yùn)動(dòng)之間的關(guān)系。"一旦輸入偏離日常對(duì)話(huà)的范疇,系統(tǒng)性能便會(huì)下降。

不過(guò)他也指出,這些失效案例恰恰為未來(lái)研究指明了方向:“這也為我們引入更豐富的對(duì)話(huà)與語(yǔ)音場(chǎng)景提供了思路!彪S著訓(xùn)練數(shù)據(jù)的豐富和模型能力的提升,這些邊界場(chǎng)景的處理能力有望逐步改善。

在采訪(fǎng)最后,DeepTech 問(wèn)及這項(xiàng)技術(shù)是否會(huì)從唇部動(dòng)作擴(kuò)展到整個(gè)面部表情系統(tǒng)。

“會(huì)的。”胡宇航給出肯定回答,“我們團(tuán)隊(duì)的最終目標(biāo),是實(shí)現(xiàn)完整的類(lèi)人交互!比绾螀f(xié)調(diào)唇部動(dòng)作與眼神、眉毛等其他面部要素,形成統(tǒng)一而細(xì)膩的情感表達(dá),正是團(tuán)隊(duì)下一步要攻克的方向。這不僅是技術(shù)上的自然延伸,更是對(duì)人機(jī)交互本質(zhì)的深度探索。當(dāng)機(jī)器人能夠用整張臉來(lái)表達(dá)和理解情緒時(shí),它與人類(lèi)的關(guān)系將發(fā)生更深刻的轉(zhuǎn)變。

論文地址:DOI: 10.1126/scirobotics.adx3017

營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
3-0大冷門(mén),中超倒數(shù)第一碾壓中超第3,52歲于根偉率隊(duì)迎首勝

3-0大冷門(mén),中超倒數(shù)第一碾壓中超第3,52歲于根偉率隊(duì)迎首勝

側(cè)身凌空斬
2026-04-17 21:57:54
中方行使否決權(quán),新加坡稱(chēng)感到失望,新國(guó)大使:應(yīng)取消一票否決權(quán)

中方行使否決權(quán),新加坡稱(chēng)感到失望,新國(guó)大使:應(yīng)取消一票否決權(quán)

知法而形
2026-04-17 20:43:46
英國(guó)小妹歧視中國(guó)人后續(xù):身份曝光社死,被告學(xué)校,下場(chǎng)大快人心

英國(guó)小妹歧視中國(guó)人后續(xù):身份曝光社死,被告學(xué)校,下場(chǎng)大快人心

阿鳧愛(ài)吐槽
2026-04-17 13:49:07
張雪機(jī)車(chē)增重7公斤仍?shī)Z荷蘭站練習(xí)賽第三

張雪機(jī)車(chē)增重7公斤仍?shī)Z荷蘭站練習(xí)賽第三

北青網(wǎng)-北京青年報(bào)
2026-04-17 18:56:24
雷軍挑戰(zhàn)成功!小米新SU7行駛1313公里只充1次電,連續(xù)直播15個(gè)小時(shí),多名車(chē)友一路跟隨

雷軍挑戰(zhàn)成功!小米新SU7行駛1313公里只充1次電,連續(xù)直播15個(gè)小時(shí),多名車(chē)友一路跟隨

極目新聞
2026-04-17 22:41:31
這條吃相難看的新聞,每一行都寫(xiě)滿(mǎn)了諷刺

這條吃相難看的新聞,每一行都寫(xiě)滿(mǎn)了諷刺

胖胖說(shuō)他不胖
2026-04-17 09:30:26
特朗普:美國(guó)將獲得伊朗所有核“塵!

特朗普:美國(guó)將獲得伊朗所有核“塵!

界面新聞
2026-04-17 22:16:29
無(wú)限接近巔峰!凱恩本有望超越梅西73球神跡,卻被賽程徹底斷送!

無(wú)限接近巔峰!凱恩本有望超越梅西73球神跡,卻被賽程徹底斷送!

田先生籃球
2026-04-17 12:17:11
馬斯克自己買(mǎi)了1279輛Cybertruck

馬斯克自己買(mǎi)了1279輛Cybertruck

碳基打工人
2026-04-16 22:31:13
沃爾沃的安全哲學(xué):99年只做一件“難而正確”的事

沃爾沃的安全哲學(xué):99年只做一件“難而正確”的事

AutoBusiness
2026-04-17 16:20:18
伊朗或因美繼續(xù)封鎖再關(guān)閉霍爾木茲

伊朗或因美繼續(xù)封鎖再關(guān)閉霍爾木茲

財(cái)聯(lián)社
2026-04-17 23:12:17
重讀天涯神貼:窮人只會(huì)癡迷于技術(shù)(隨時(shí)刪)

重讀天涯神貼:窮人只會(huì)癡迷于技術(shù)(隨時(shí)刪)

呼呼歷史論
2026-04-17 18:08:37
恒大集團(tuán)許家印牽連的7個(gè)女人

恒大集團(tuán)許家印牽連的7個(gè)女人

地產(chǎn)微資訊
2026-04-17 14:12:40
24歲博主“徐平安”因黑色素瘤去世:妹妹白血病、媽媽胃癌相繼離世,曾多次復(fù)盤(pán)確診前被忽略的身體信號(hào)

24歲博主“徐平安”因黑色素瘤去世:妹妹白血病、媽媽胃癌相繼離世,曾多次復(fù)盤(pán)確診前被忽略的身體信號(hào)

極目新聞
2026-04-17 13:25:30
趙今麥 Miu Miu海報(bào)吐糟 “太丑了”,網(wǎng)友:像難民啊,這什么審美?

趙今麥 Miu Miu海報(bào)吐糟 “太丑了”,網(wǎng)友:像難民啊,這什么審美?

品牌新
2026-04-17 17:34:38
鄭麗文訪(fǎng)陸經(jīng)費(fèi)報(bào)銷(xiāo),韓國(guó)瑜最終沒(méi)有頂住壓力,張亞中站了出來(lái)

鄭麗文訪(fǎng)陸經(jīng)費(fèi)報(bào)銷(xiāo),韓國(guó)瑜最終沒(méi)有頂住壓力,張亞中站了出來(lái)

DS北風(fēng)
2026-04-17 18:20:14
特朗普稱(chēng)伊朗不會(huì)再封鎖霍爾木茲海峽 正在清雷

特朗普稱(chēng)伊朗不會(huì)再封鎖霍爾木茲海峽 正在清雷

新華社
2026-04-17 22:53:20
“見(jiàn)過(guò)最廉價(jià)的兜底”,一份山姆燒雞,讓低認(rèn)知母子淪為全網(wǎng)笑柄

“見(jiàn)過(guò)最廉價(jià)的兜底”,一份山姆燒雞,讓低認(rèn)知母子淪為全網(wǎng)笑柄

妍妍教育日記
2026-04-15 09:30:09
伊朗宣布對(duì)所有商船開(kāi)放霍爾木茲海峽

伊朗宣布對(duì)所有商船開(kāi)放霍爾木茲海峽

環(huán)球網(wǎng)資訊
2026-04-17 21:29:34
金建希小姐的大瓜!

金建希小姐的大瓜!

仕道
2026-04-17 17:03:55
2026-04-18 01:43:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16591文章數(shù) 514885關(guān)注度
往期回顧 全部

科技要聞

7家頭部平臺(tái)被罰沒(méi)35.97億元

頭條要聞

特朗普:感謝伊朗開(kāi)放霍爾木茲海峽

頭條要聞

特朗普:感謝伊朗開(kāi)放霍爾木茲海峽

體育要聞

中超-泰山1-1海港 楊希處子球克雷桑任意球扳平

娛樂(lè)要聞

劉德華摯友潘宏彬離世 曾一起租房住

財(cái)經(jīng)要聞

"影子萬(wàn)科"2.0:管理層如何吸血萬(wàn)物云?

汽車(chē)要聞

又快又穩(wěn)的開(kāi)掛動(dòng)力! 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

教育
本地
數(shù)碼
健康
游戲

教育要聞

別再無(wú)效卷了你需要一套不累的學(xué)習(xí)系統(tǒng)!!

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

數(shù)碼要聞

庫(kù)克都沒(méi)想到:MacBook Neo賣(mài)爆了!官網(wǎng)交付已排到5月

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

PS5完全獨(dú)占新作曝光!科樂(lè)美為索尼傾力打造

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版