国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

哥大博士讓機器人臉告別“面癱”,看視頻學(xué)會11門語言

0
分享至

你是否想過,當(dāng)人類面對面交流時,我們的注意力更多地被放在哪里?

第一直覺或許是眼睛。它們是心靈的窗戶,能夠傳達出細微而生動的情感?茖W(xué)研究也證實的確如此,在日常對話中,我們會頻繁地注視對方的眼睛來捕捉情緒信號。

不過,當(dāng)環(huán)境變得嘈雜時,情況就有所不同了。研究表明,在噪音環(huán)境下,人們會將 50%-55% 的注意力轉(zhuǎn)向?qū)υ捳叩淖齑,傾向于通過唇形來輔助理解對方在說什么。

這也解釋了為什么即便是目前最先進的人形機器人,仍然讓人在和它們面對面交流時感到不適。我們可以容忍它們笨拙的步態(tài),甚至僵硬的手勢,但當(dāng)一張接近人類的面孔無法自然地活動時,就會生發(fā)出一絲詭異感。這就是機器人領(lǐng)域著名的"恐怖谷效應(yīng)"——越接近人類卻又不夠完美的機器,反而會引發(fā)更強烈的排斥感。

在致力機器人如何跨越“恐怖谷”效應(yīng)的道路上,首形科技是積極的拓路者之一。這家由哥倫比亞大學(xué)博士胡宇航創(chuàng)立的初創(chuàng)公司,自成立起便選擇了一條與眾不同的技術(shù)路徑:不追求機器人在運動或操作能力上的極致性能,而是聚焦于賦予它們具有情緒表達能力的面部。過去一年多,這一方向為他們贏得了多輪融資,并且收獲了社交媒體和市場的廣泛關(guān)注。


圖 | 胡宇航與人臉機器人 Emo (來源:受訪者)

1 月 15 日,Science Robotics 封面刊發(fā)了胡宇航團隊關(guān)于 Emo 面部機器人的研究,展示了其如何通過學(xué)習(xí)實現(xiàn)與語音、歌曲同步的唇部運動,這也是 Science Robotics 首次將人臉機器人刊登在封面。這項工作源于他在哥倫比亞大學(xué)的博士研究,也是他近兩年在 Science 和 Nature 子刊上發(fā)表的第三篇論文。


(來源:Science Robotics)

嘴唇運動被低估的復(fù)雜性

“嘴唇是人們交互過程中動作最多的部位, 也是機器人從表情自然到交互自然非常重要的門檻!焙詈礁嬖V DeepTech,嘴唇運動的復(fù)雜性遠超多數(shù)人的想象,甚至超出了機器人研究者此前的認知。

從技術(shù)角度看,這種復(fù)雜性首先體現(xiàn)在驅(qū)動機制上。與眉毛等單一方向運動的面部特征不同,嘴唇由多個肌肉群驅(qū)動,運動過程中存在頻繁的接觸與分離。同時,嘴唇對時間精度極為敏感,還需同步承載語言、情感與社交信號。胡宇航指出:“這使得嘴唇運動的建模從根本上超越了參數(shù)化控制,成為一個高維、非線性、強閉環(huán)的生成式形變問題。”


(來源:論文)

既然如此,面對如此復(fù)雜的任務(wù),如何客觀衡量機器人嘴唇運動的“真實性”呢?

胡宇航團隊在論文中提出了一種創(chuàng)新方法:使用合成參考視頻作為理想同步基準,在 VAE 編碼器的潛空間中計算機器人嘴唇運動與參考視頻之間的距離。該指標能夠刻畫整體嘴型動態(tài)與時序結(jié)構(gòu)的偏差,避免了依賴易受噪聲干擾的二維關(guān)鍵點。由此,研究者獲得了一個客觀的度量標準,可以在連續(xù)語音與多語言場景下評估音頻-視覺同步誤差。

這可以說是創(chuàng)新的一步。因為此前,機器人領(lǐng)域?qū)ψ齑酵降膰L試主要依賴手工預(yù)定義的運動規(guī)則和固定的音素-視位映射表。簡單來說,就是為每個音素設(shè)計一套固定嘴型,再讓機器人機械執(zhí)行。

但這種方法存在明顯的局限。胡宇航列舉了幾個關(guān)鍵問題:首先,同一音素的發(fā)聲速度會因說話人、場景或情緒而異。例如,一個人在激動和平靜狀態(tài)下說出的“好”,雖然音素相同,但嘴唇運動的幅度、速度和形態(tài)可能截然不同。其次,在多語言、歌唱或方言等場景中,基于音素設(shè)計規(guī)則需要投入巨大的手工工作量。更關(guān)鍵的是,當(dāng)機器人硬件升級時,所有動作幾乎都要重新編排,難以復(fù)用。

此外,這種規(guī)則方法還隱含了一個假設(shè):音素與嘴型之間存在著穩(wěn)定、一對一的映射關(guān)系。但這顯然與真實人類發(fā)音機制并不相符。實際上,同一音素的嘴唇運動在不同說話人、語速、情緒和語境下都存在顯著差異,其時序、幅度和形態(tài)高度連續(xù)且上下文相關(guān)。

將這種連續(xù)性強行離散化為固定規(guī)則,必然丟失大量信息。規(guī)則方法也無法建模嘴唇作為軟體器官所具有的非線性、并行驅(qū)動和跨時間依賴特性,最終只能生成“正確但僵硬”的嘴型序列。

相比之下,數(shù)據(jù)驅(qū)動方法能夠從真實人類與機器人發(fā)音數(shù)據(jù)中學(xué)習(xí)復(fù)雜的統(tǒng)計規(guī)律與隱含約束。胡宇航表示:“這從根本上突破了規(guī)則方法在泛化性、可擴展性和自然性上的瓶頸!

想要更像人,機器人需要“照鏡子”

為了讓機器人更精準地復(fù)刻學(xué)習(xí)人類的嘴唇動作,胡宇航團隊巧妙地設(shè)計了兩階段“自監(jiān)督學(xué)習(xí)系統(tǒng)”(Self-Supervised Learning, SSL):第一階段,機器人通過“照鏡子”建立自我模型;第二階段,它觀看人類視頻學(xué)習(xí)嘴唇運動規(guī)律。


圖 | 用于機器人唇部同步的自監(jiān)督學(xué)習(xí)框架(來源:論文)

“兩階段設(shè)計的核心原因在于機器人與人類在外觀、結(jié)構(gòu)和運動約束上的本質(zhì)差異!焙詈浇忉尩馈H籼^第一階段,直接讓機器人模仿人類視頻,將不可避免地學(xué)習(xí)到大量自身硬件無法執(zhí)行的形變模式,例如人類皮膚的滑移、唇齒細節(jié)或肌肉驅(qū)動方式。這些錯誤映射最終會導(dǎo)致機器人動作失真、抖動或被系統(tǒng)性削弱。

第一階段的“照鏡子”訓(xùn)練,目的并非學(xué)習(xí)表情本身,而是讓模型明確“哪些運動在自身硬件與軟體結(jié)構(gòu)下是可實現(xiàn)的”。通過隨機生成數(shù)千個面部表情并觀察鏡中反饋,系統(tǒng)建立起從視覺變化到自身可控空間的映射關(guān)系,為后續(xù)學(xué)習(xí)提供物理可行性的約束。

在具備自我模型的基礎(chǔ)上,第二階段引入人類視頻的作用變得清晰:機器人學(xué)習(xí)人類嘴唇運動的統(tǒng)計規(guī)律與高層時序結(jié)構(gòu),并通過自我模型將這些規(guī)律投射到自身可執(zhí)行的動作空間中!斑@本質(zhì)上是先解決‘我是誰、我能怎么動’,再解決‘人類是如何動的’!焙詈秸f。該策略有效避免了跨形態(tài)直接模仿帶來的域錯配問題,是實現(xiàn)自然、穩(wěn)定且可泛化嘴唇運動的關(guān)鍵前提。


圖 | 團隊機器人 Emo 照鏡子(來源:胡宇航)

出色的跨語言泛化能力

實驗結(jié)果展示了這套系統(tǒng)的出色泛化能力:它能在 11 種語言中實現(xiàn)自然的嘴唇同步,包括英語、法語、日語、韓語、西班牙語、意大利語、德語、俄語、中文、希伯來語和阿拉伯語。


圖 | 多語言口型同步性能的測試結(jié)果(來源:論文)

這種神奇的"跨語言"能力從何而來?胡宇航解釋道:“系統(tǒng)并未學(xué)習(xí)語言或音素本身,而是學(xué)習(xí)了人類發(fā)音過程中更底層的肌肉運動模式!痹趦呻A段自監(jiān)督框架下,模型首先熟悉機器人自身嘴唇能做出哪些動作;隨后在觀看人類視頻時,它不再關(guān)注具體是哪種語言、哪個發(fā)音,而是去捕捉聲音節(jié)奏與嘴唇動作之間那些跨越語言邊界的共性規(guī)律。

“這些關(guān)系在不同語言中表現(xiàn)為高度一致的運動模式,比如張合節(jié)律、閉合-釋放結(jié)構(gòu)、過渡速度等。”換句話說,雖然各種語言的發(fā)音規(guī)則千差萬別,但人類嘴唇的運動方式終究受限于相同的生理結(jié)構(gòu)。正因如此,系統(tǒng)學(xué)到的是聲音與動作之間更本質(zhì)的對應(yīng)關(guān)系,使它能夠自然地適應(yīng)多種語言,甚至應(yīng)對不同的語速和說話風(fēng)格。

盡管成果顯著,胡宇航坦言系統(tǒng)仍面臨技術(shù)挑戰(zhàn),其中最典型的是硬輔音(如 /b/、/p/、/m/、/w/)的處理。這些音素之所以棘手,不僅因為發(fā)音速度快,更因為它們同時涉及多重難以精確建模的約束條件。

以 /b/、/p/、/m/ 為例,發(fā)這幾個音時,嘴唇需要在極短時間內(nèi)完成“閉合—保持—釋放”這一連串動作。閉合不夠緊或時機稍有偏差,人耳立刻就能察覺異樣。而 /w/ 更為復(fù)雜,不僅要求雙唇閉攏,還需要嘴唇前突、形成圓形,同時配合口腔形狀的連續(xù)變化。胡宇航補充,這意味著模型必須在毫秒級時間精度下,協(xié)調(diào)多個高度耦合的自由度,同時應(yīng)對軟體接觸、非線性阻尼以及電機帶寬限制等物理因素。

與元音或軟輔音那種平滑漸變的動作不同,硬輔音更像是一種"開關(guān)式"的動作——既有連續(xù)的運動軌跡,又有瞬間的接觸切換。這恰恰是當(dāng)前數(shù)據(jù)驅(qū)動模型最容易出錯、機器人執(zhí)行難度最高的地方。

從實驗結(jié)果來看,當(dāng)前方法在一些極端語音場景下表現(xiàn)欠佳,比如語速極快、多人同時說話、歌唱中的顫音,以及情緒激動時的表達。胡宇航認為,這反映了方法的本質(zhì)邊界:"模型主要學(xué)習(xí)的是典型對話語境下聲學(xué)時序與嘴唇運動之間的關(guān)系。"一旦輸入偏離日常對話的范疇,系統(tǒng)性能便會下降。

不過他也指出,這些失效案例恰恰為未來研究指明了方向:“這也為我們引入更豐富的對話與語音場景提供了思路。”隨著訓(xùn)練數(shù)據(jù)的豐富和模型能力的提升,這些邊界場景的處理能力有望逐步改善。

在采訪最后,DeepTech 問及這項技術(shù)是否會從唇部動作擴展到整個面部表情系統(tǒng)。

“會的!焙詈浇o出肯定回答,“我們團隊的最終目標,是實現(xiàn)完整的類人交互。”如何協(xié)調(diào)唇部動作與眼神、眉毛等其他面部要素,形成統(tǒng)一而細膩的情感表達,正是團隊下一步要攻克的方向。這不僅是技術(shù)上的自然延伸,更是對人機交互本質(zhì)的深度探索。當(dāng)機器人能夠用整張臉來表達和理解情緒時,它與人類的關(guān)系將發(fā)生更深刻的轉(zhuǎn)變。

論文地址:DOI: 10.1126/scirobotics.adx3017

營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
學(xué)費太貴!一家長哭訴繳費11000多,網(wǎng)友:上私立高中就不要抱怨

學(xué)費太貴!一家長哭訴繳費11000多,網(wǎng)友:上私立高中就不要抱怨

火山詩話
2026-03-01 12:06:34
90分鐘就開始反擊!美海軍第五艦隊總部遭伊朗導(dǎo)彈命中,情況如何

90分鐘就開始反擊!美海軍第五艦隊總部遭伊朗導(dǎo)彈命中,情況如何

軍武次位面
2026-02-28 18:49:39
以軍稱首次打擊伊朗首都中心地帶目標

以軍稱首次打擊伊朗首都中心地帶目標

新華社
2026-03-01 16:42:04
哈梅內(nèi)伊的最后一課:給所有掌權(quán)者的八條警示

哈梅內(nèi)伊的最后一課:給所有掌權(quán)者的八條警示

迷世書童H9527
2026-03-01 16:03:12
不到24小時,美以對伊完成二次打擊,俄媒警告:川普在逼中國下場

不到24小時,美以對伊完成二次打擊,俄媒警告:川普在逼中國下場

東極妙嚴
2026-02-28 17:56:12
新加坡大滿貫賽:太遺憾!國乒男單3:4惜敗,無緣沖擊男單冠軍

新加坡大滿貫賽:太遺憾!國乒男單3:4惜敗,無緣沖擊男單冠軍

國乒二三事
2026-03-01 11:56:32
死了白死?俄方絕口不提貝加爾湖慘劇賠償 中日美此類案例都有賠款

死了白死?俄方絕口不提貝加爾湖慘劇賠償 中日美此類案例都有賠款

勁爆體壇
2026-02-28 18:30:13
伊朗第七輪導(dǎo)彈射向以色列

伊朗第七輪導(dǎo)彈射向以色列

界面新聞
2026-02-28 20:30:44
沈逸“美國不敢打伊朗”遭群嘲:國內(nèi)某些專家,為何總是制造笑柄

沈逸“美國不敢打伊朗”遭群嘲:國內(nèi)某些專家,為何總是制造笑柄

影像溫度
2026-03-01 15:26:25
哈梅內(nèi)伊被精準斬首,為何伊朗人民載歌載舞?

哈梅內(nèi)伊被精準斬首,為何伊朗人民載歌載舞?

歷史總在押韻
2026-03-01 11:59:19
剛剛開盤,直線大跳水!石油、黃金、美聯(lián)儲降息,大變局!霍爾木茲海峽,傳來大消息

剛剛開盤,直線大跳水!石油、黃金、美聯(lián)儲降息,大變局!霍爾木茲海峽,傳來大消息

新浪財經(jīng)
2026-03-01 15:27:22
云淡風(fēng)輕!網(wǎng)傳特朗普指揮襲擊伊朗前幾分鐘,還在家中參加派對

云淡風(fēng)輕!網(wǎng)傳特朗普指揮襲擊伊朗前幾分鐘,還在家中參加派對

小蘿卜絲
2026-03-01 13:10:35
阿聯(lián)酋應(yīng)對137枚導(dǎo)彈209架無人機襲擊

阿聯(lián)酋應(yīng)對137枚導(dǎo)彈209架無人機襲擊

每日經(jīng)濟新聞
2026-03-01 12:19:49
下午4點,中國男籃vs中國臺北!傳來1壞消息,爆冷輸球=淪為墊底

下午4點,中國男籃vs中國臺北!傳來1壞消息,爆冷輸球=淪為墊底

侃球熊弟
2026-03-01 00:07:19
后續(xù)!絕情臭豆腐最新進展:負責(zé)人正臉曝光社死,店老板公開道歉

后續(xù)!絕情臭豆腐最新進展:負責(zé)人正臉曝光社死,店老板公開道歉

離離言幾許
2026-02-28 18:08:15
哈梅內(nèi)伊身亡細節(jié)公開!美以對伊朗發(fā)動“斬首式”打擊,沖突走向難料

哈梅內(nèi)伊身亡細節(jié)公開!美以對伊朗發(fā)動“斬首式”打擊,沖突走向難料

上觀新聞
2026-03-01 11:17:06
美軍瞞不住了!炸航母基地,炸11億美元雷達,幾十萬噸燃油被點燃

美軍瞞不住了!炸航母基地,炸11億美元雷達,幾十萬噸燃油被點燃

知法而形
2026-03-01 10:21:49
陸軍總司令遇難,最高領(lǐng)袖已被炸?伊朗報復(fù),第一支援兵出現(xiàn)

陸軍總司令遇難,最高領(lǐng)袖已被炸?伊朗報復(fù),第一支援兵出現(xiàn)

吳欣純Deborah
2026-03-01 12:28:11
哈梅內(nèi)伊身亡,布達諾夫:俄羅斯會接受美國為烏克蘭提供的安全保證 | 狼叔看世界

哈梅內(nèi)伊身亡,布達諾夫:俄羅斯會接受美國為烏克蘭提供的安全保證 | 狼叔看世界

狼叔看世界
2026-03-01 11:40:52
哈梅內(nèi)伊之死和伊朗性史

哈梅內(nèi)伊之死和伊朗性史

哲空空
2026-03-01 11:14:17
2026-03-01 18:24:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16343文章數(shù) 514679關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

哈梅內(nèi)伊"回歸天國" 美以如何確認其行蹤引發(fā)內(nèi)鬼猜測

頭條要聞

哈梅內(nèi)伊"回歸天國" 美以如何確認其行蹤引發(fā)內(nèi)鬼猜測

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

《江山為聘》:吳謹言陳哲遠燃炸朝堂

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

教育
本地
家居
公開課
軍事航空

教育要聞

“蘿卜達到這個程度也認了!”湖南高校招聘鋼琴教師,演都不演了

本地新聞

津南好·四時總相宜

家居要聞

素色肌理 品意式格調(diào)

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國以色列聯(lián)合襲擊伊朗 實時戰(zhàn)況

無障礙瀏覽 進入關(guān)懷版