国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

谷歌語音合成新突破:讓AI說話像真人一樣自然流暢

0
分享至


這項(xiàng)由伊朗謝里夫理工大學(xué)的馬赫塔·費(fèi)特拉特(Mahta Fetrat)、多尼亞·納瓦比(Donya Navabi)、扎赫拉·德赫加尼安(Zahra Dehghanian)、莫爾特扎·阿博爾加塞米(Morteza Abolghasemi)和哈米德·拉比(Hamid R. Rabiee)領(lǐng)導(dǎo)的研究團(tuán)隊(duì),在2025年12月發(fā)表了一篇題為《Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS》的論文,編號(hào)為arXiv:2512.08006v1。有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。

當(dāng)你使用手機(jī)的語音助手時(shí),有沒有發(fā)現(xiàn)它有時(shí)候說話聽起來像機(jī)器人,特別是遇到一些復(fù)雜詞匯時(shí)會(huì)讀錯(cuò)音?這個(gè)問題在語音合成技術(shù)中一直困擾著研究人員。語音合成就像是給機(jī)器裝上一張嘴巴,讓它能夠把文字轉(zhuǎn)換成聲音說出來。這項(xiàng)技術(shù)對(duì)于視障人士使用的屏幕閱讀器特別重要,因?yàn)樗麄冃枰L時(shí)間聽機(jī)器朗讀文字,如果聲音不自然或者讀音錯(cuò)誤,會(huì)嚴(yán)重影響使用體驗(yàn)。

研究團(tuán)隊(duì)發(fā)現(xiàn)了語音合成技術(shù)中的一個(gè)核心矛盾:如果要讓機(jī)器說話聽起來自然,就需要使用復(fù)雜的人工智能模型,但這些模型運(yùn)算速度慢,無法實(shí)現(xiàn)實(shí)時(shí)對(duì)話;如果選擇運(yùn)算速度快的簡(jiǎn)單模型,說話就會(huì)聽起來很機(jī)械,特別是在處理語音轉(zhuǎn)換的第一步——將文字轉(zhuǎn)換為發(fā)音符號(hào)時(shí),經(jīng)常出錯(cuò)。

這就好比廚師做菜時(shí)面臨的選擇:要么用復(fù)雜的烹飪技法做出美味但耗時(shí)的大餐,要么快速制作簡(jiǎn)單但口味一般的快餐。研究團(tuán)隊(duì)想要找到一種方法,既能保證菜品美味(語音自然),又能快速上菜(實(shí)時(shí)響應(yīng))。

他們以波斯語為研究對(duì)象,發(fā)現(xiàn)了兩個(gè)特別棘手的問題。第一個(gè)問題叫做"同形異音詞",就像英文中的"read"這個(gè)詞,在"I read a book"(我讀一本書)中讀作/ri:d/,但在"I read yesterday"(我昨天讀了)中卻要讀作/r?d/。機(jī)器如果不理解上下文,就無法判斷該用哪種讀音。第二個(gè)問題是波斯語特有的"伊扎菲音",這是一個(gè)連接相關(guān)詞匯的/e/音,就像中文里的"的"字一樣重要。如果這個(gè)音添加錯(cuò)了地方,整個(gè)句子的意思就會(huì)完全不同。

為了解決這些問題,研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的解決方案,他們稱之為"服務(wù)導(dǎo)向架構(gòu)"。這種方法就像是開了一家餐廳,把復(fù)雜的烹飪工序分配給不同的廚師站:有專門負(fù)責(zé)處理食材的預(yù)處理站,有專門負(fù)責(zé)調(diào)味的調(diào)味站,還有專門負(fù)責(zé)最終烹飪的主廚臺(tái)。每個(gè)站點(diǎn)都可以獨(dú)立工作,互不干擾,但又能很好地配合。

在語音合成系統(tǒng)中,研究團(tuán)隊(duì)把原本集成在一起的各個(gè)功能模塊拆分開來,讓處理復(fù)雜語言問題的"智能模塊"獨(dú)立運(yùn)行,而負(fù)責(zé)最終語音合成的"核心引擎"則保持輕量化。這樣一來,當(dāng)用戶輸入文字時(shí),系統(tǒng)首先用快速的基礎(chǔ)模塊生成初步的發(fā)音,然后把這個(gè)結(jié)果傳遞給獨(dú)立運(yùn)行的智能模塊進(jìn)行精細(xì)化處理,最后再回傳給核心引擎生成最終的語音。

這種設(shè)計(jì)的巧妙之處在于,復(fù)雜的智能模塊雖然運(yùn)算量大,但它們?cè)诤笈_(tái)獨(dú)立運(yùn)行,不會(huì)拖累整個(gè)系統(tǒng)的響應(yīng)速度。就像餐廳里的主廚可以專心炒菜,而不用等待洗菜工完成所有準(zhǔn)備工作一樣。

研究團(tuán)隊(duì)還開發(fā)了兩種輕量化的語言處理技術(shù)。第一種技術(shù)基于統(tǒng)計(jì)學(xué)原理,通過分析大量文本數(shù)據(jù),建立詞匯共現(xiàn)關(guān)系數(shù)據(jù)庫。當(dāng)系統(tǒng)遇到同形異音詞時(shí),會(huì)查看這個(gè)詞周圍出現(xiàn)的其他詞匯,然后選擇最可能的發(fā)音。這就像是根據(jù)菜品搭配來判斷某個(gè)食材應(yīng)該怎么處理一樣。

第二種技術(shù)則采用了"知識(shí)精煉"的方法。研究團(tuán)隊(duì)首先訓(xùn)練了一個(gè)大型的人工智能模型,讓它學(xué)會(huì)準(zhǔn)確識(shí)別波斯語中的伊扎菲音。然后,他們把這個(gè)大模型的"知識(shí)"轉(zhuǎn)移到一個(gè)小得多的模型中,就像是把資深師傅的技藝傳授給年輕學(xué)徒一樣。最終的小模型雖然體積只有原來的十分之一,但準(zhǔn)確率仍然保持在94%以上。

為了驗(yàn)證他們的方法是否真的有效,研究團(tuán)隊(duì)進(jìn)行了大量的測(cè)試。他們選擇了PiperTTS作為基礎(chǔ)平臺(tái)——這是一個(gè)已經(jīng)廣泛應(yīng)用的開源語音合成系統(tǒng),特別適合在普通電腦上運(yùn)行。研究團(tuán)隊(duì)用他們的新方法對(duì)PiperTTS進(jìn)行了改進(jìn),然后與其他幾種先進(jìn)的語音合成系統(tǒng)進(jìn)行對(duì)比。

測(cè)試結(jié)果令人印象深刻。在發(fā)音準(zhǔn)確性方面,改進(jìn)后的系統(tǒng)在處理同形異音詞時(shí)準(zhǔn)確率從43.87%提升到了77.67%,在伊扎菲音檢測(cè)方面的表現(xiàn)更是從19.58%躍升到90.08%。更重要的是,整體的發(fā)音錯(cuò)誤率從6.32%降低到了4.80%。這些改進(jìn)在實(shí)際使用中意味著什么呢?就是機(jī)器讀出來的文字聽起來更像真人在說話,而不是機(jī)械地按字讀音。

在運(yùn)行速度方面,傳統(tǒng)的做法是把所有功能都集成在一起,這樣雖然管理簡(jiǎn)單,但會(huì)導(dǎo)致整個(gè)系統(tǒng)變慢。研究團(tuán)隊(duì)的新方法通過服務(wù)分離,成功地將實(shí)時(shí)因子(RTF)保持在0.167左右。實(shí)時(shí)因子是衡量語音合成速度的指標(biāo),0.167意味著生成1秒鐘的語音只需要0.167秒的計(jì)算時(shí)間,完全可以滿足實(shí)時(shí)對(duì)話的需要。

更令人興奮的是,研究團(tuán)隊(duì)還邀請(qǐng)了16位母語為波斯語的測(cè)試者對(duì)語音質(zhì)量進(jìn)行主觀評(píng)價(jià)。評(píng)價(jià)標(biāo)準(zhǔn)是從1到5分,5分代表完全自然的人聲,1分代表最機(jī)械化的合成音。改進(jìn)后的系統(tǒng)獲得了3.14分的平均評(píng)分,而原始系統(tǒng)只有2.41分。雖然距離真人語音的4.21分還有差距,但這已經(jīng)是一個(gè)顯著的進(jìn)步。

這項(xiàng)研究的意義不僅僅局限于波斯語。研究團(tuán)隊(duì)提出的服務(wù)導(dǎo)向架構(gòu)可以應(yīng)用到任何語言的語音合成系統(tǒng)中,特別是那些語法復(fù)雜、需要根據(jù)上下文判斷發(fā)音的語言。對(duì)于中文這樣的語言來說,這種技術(shù)同樣有很大的應(yīng)用價(jià)值,因?yàn)橹形囊泊嬖诖罅康耐舢惲x詞和語境依賴的發(fā)音規(guī)則。

從實(shí)際應(yīng)用角度來看,這項(xiàng)技術(shù)的最大受益者將是需要長時(shí)間使用語音合成設(shè)備的群體,特別是視障人士。當(dāng)屏幕閱讀器能夠更準(zhǔn)確、更自然地朗讀文字時(shí),用戶的學(xué)習(xí)和工作效率都會(huì)顯著提升。同時(shí),這種技術(shù)也為語音助手、有聲讀物制作、語言學(xué)習(xí)軟件等領(lǐng)域帶來了新的可能性。

研究團(tuán)隊(duì)還特別強(qiáng)調(diào)了他們方案的開放性。所有的代碼、模型和實(shí)驗(yàn)結(jié)果都已經(jīng)公開發(fā)布,這意味著其他研究者和開發(fā)者可以在此基礎(chǔ)上繼續(xù)改進(jìn),或者將這些技術(shù)應(yīng)用到自己的項(xiàng)目中。這種開放共享的態(tài)度對(duì)于推動(dòng)整個(gè)語音合成技術(shù)的發(fā)展具有重要意義。

當(dāng)然,這項(xiàng)研究也有一些限制。研究團(tuán)隊(duì)坦誠地指出,即使解決了發(fā)音準(zhǔn)確性問題,要讓機(jī)器語音達(dá)到完全自然的程度仍然面臨挑戰(zhàn)。這主要是因?yàn)檩p量化的模型在處理語調(diào)、重音、情感表達(dá)等方面還有局限性。此外,目前的解決方案主要針對(duì)離線使用場(chǎng)景,對(duì)于需要云端服務(wù)的應(yīng)用還需要進(jìn)一步優(yōu)化。

展望未來,研究團(tuán)隊(duì)認(rèn)為服務(wù)導(dǎo)向架構(gòu)還有很大的優(yōu)化空間。比如,可以在服務(wù)層面實(shí)現(xiàn)并行處理,進(jìn)一步提升系統(tǒng)的響應(yīng)速度和處理能力。同時(shí),隨著人工智能技術(shù)的不斷發(fā)展,知識(shí)精煉技術(shù)也會(huì)變得更加高效,這將使得輕量化模型的性能進(jìn)一步提升。

這項(xiàng)研究的另一個(gè)重要貢獻(xiàn)是為語音合成技術(shù)的發(fā)展指出了一個(gè)新的方向。與目前主流的端到端一體化模型不同,模塊化的服務(wù)架構(gòu)提供了更大的靈活性和可擴(kuò)展性。這種架構(gòu)不僅能夠適應(yīng)不同的硬件條件和應(yīng)用場(chǎng)景,還能夠根據(jù)需要添加新的功能模塊,而不需要重新訓(xùn)練整個(gè)系統(tǒng)。

對(duì)于普通用戶來說,這項(xiàng)研究的成果可能會(huì)在不久的將來體現(xiàn)在各種語音技術(shù)產(chǎn)品中。無論是手機(jī)上的語音助手,還是智能音箱的對(duì)話功能,都有可能因?yàn)檫@種技術(shù)而變得更加自然和準(zhǔn)確。特別是對(duì)于使用非英語語言的用戶,這種針對(duì)復(fù)雜語言特性的優(yōu)化技術(shù)將顯著改善他們的使用體驗(yàn)。

說到底,這項(xiàng)研究解決了語音合成技術(shù)中一個(gè)長期存在的難題:如何在保證實(shí)時(shí)性能的同時(shí)提供高質(zhì)量的語音輸出。通過巧妙的系統(tǒng)架構(gòu)設(shè)計(jì)和輕量化的算法優(yōu)化,研究團(tuán)隊(duì)成功地證明了魚和熊掌是可以兼得的。這不僅為當(dāng)前的語音合成應(yīng)用提供了實(shí)用的解決方案,也為未來更加智能化的人機(jī)語音交互奠定了基礎(chǔ)。

隨著人工智能技術(shù)的普及,語音交互正在成為人機(jī)交流的重要方式。這項(xiàng)研究的價(jià)值在于,它讓機(jī)器不僅能夠"說話",而且能夠"說好話",這對(duì)于建設(shè)一個(gè)更加包容和無障礙的數(shù)字世界具有重要意義。

Q&A

Q1:什么是服務(wù)導(dǎo)向架構(gòu),它如何解決語音合成的速度問題?

A:服務(wù)導(dǎo)向架構(gòu)就像開餐廳時(shí)把不同工序分給不同廚師站一樣,把語音合成系統(tǒng)中的復(fù)雜功能模塊獨(dú)立出來單獨(dú)運(yùn)行,而核心引擎保持輕量化。這樣復(fù)雜模塊在后臺(tái)獨(dú)立工作,不會(huì)拖累整個(gè)系統(tǒng)的響應(yīng)速度,實(shí)現(xiàn)了既快又準(zhǔn)的語音合成。

Q2:波斯語中的同形異音詞和伊扎菲音問題具體是什么?

A:同形異音詞就像英文中的"read",同一個(gè)詞在不同語境中發(fā)音不同,機(jī)器不理解上下文就會(huì)讀錯(cuò)。伊扎菲音是波斯語特有的連接音/e/,類似中文的"的"字,加錯(cuò)位置整句話意思就變了。這兩個(gè)問題讓機(jī)器很難準(zhǔn)確發(fā)音。

Q3:這項(xiàng)技術(shù)對(duì)普通用戶有什么實(shí)際好處?

A:最直接的好處是語音助手、屏幕閱讀器等設(shè)備說話會(huì)更自然準(zhǔn)確,特別對(duì)視障人士幫助很大。未來手機(jī)語音助手、智能音箱、有聲讀物等產(chǎn)品都可能因此技術(shù)變得更好用,尤其是非英語語言的用戶體驗(yàn)會(huì)顯著改善。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
新娘全家都是演員!這場(chǎng)“完美婚禮”全是戲!

新娘全家都是演員!這場(chǎng)“完美婚禮”全是戲!

看看新聞Knews
2026-03-02 17:55:03
掘金后悔了!小波特+首輪簽交易虧麻了,近4戰(zhàn)場(chǎng)均7分,想送走他

掘金后悔了!小波特+首輪簽交易虧麻了,近4戰(zhàn)場(chǎng)均7分,想送走他

你的籃球頻道
2026-03-02 08:57:26
欠中國的錢,委內(nèi)瑞拉不還了?美財(cái)長:中國已無法繼續(xù)獲得委石油

欠中國的錢,委內(nèi)瑞拉不還了?美財(cái)長:中國已無法繼續(xù)獲得委石油

萌城少年強(qiáng)
2026-01-22 12:47:40
天塌了!柳州一已婚女子出軌感染艾滋,涉事小伙是工廠班組長…

天塌了!柳州一已婚女子出軌感染艾滋,涉事小伙是工廠班組長…

火山詩話
2026-03-02 05:47:48
中美關(guān)系走到今天,回頭看毛主席當(dāng)年說的兩句話,太精準(zhǔn)了!

中美關(guān)系走到今天,回頭看毛主席當(dāng)年說的兩句話,太精準(zhǔn)了!

素年文史
2026-01-15 13:29:54
吳辰君移居迪拜報(bào)平安,稱當(dāng)?shù)匚镔Y充足生活如常,暫時(shí)不打算離開

吳辰君移居迪拜報(bào)平安,稱當(dāng)?shù)匚镔Y充足生活如常,暫時(shí)不打算離開

東方不敗然多多
2026-03-02 16:43:07
干掉強(qiáng)硬派,然后來談判?伊朗外長愿意和美國談判,特朗普同意

干掉強(qiáng)硬派,然后來談判?伊朗外長愿意和美國談判,特朗普同意

陳蕙侃故事
2026-03-02 18:11:53
美國已經(jīng)成為第二個(gè)蘇聯(lián),只需要犯一個(gè)錯(cuò),國家就分崩離析了

美國已經(jīng)成為第二個(gè)蘇聯(lián),只需要犯一個(gè)錯(cuò),國家就分崩離析了

歷史有些冷
2026-03-01 17:50:03
3天付清16億!山東80后拒上市,44歲穩(wěn)坐首富,千億帝國靠啥硬撐

3天付清16億!山東80后拒上市,44歲穩(wěn)坐首富,千億帝國靠啥硬撐

青眼財(cái)經(jīng)
2026-01-13 22:58:50
特朗普訪華行程定了,國務(wù)卿魯比奧卻卡制裁名單里,放話加稅逼開綠燈?

特朗普訪華行程定了,國務(wù)卿魯比奧卻卡制裁名單里,放話加稅逼開綠燈?

流年拾光
2026-03-02 19:54:11
他接受監(jiān)察調(diào)查

他接受監(jiān)察調(diào)查

錫望
2026-03-01 18:21:26
59歲宋祖英現(xiàn)身活動(dòng)狀態(tài)驚艷!短發(fā)利落大氣,黑色套裝優(yōu)雅端莊

59歲宋祖英現(xiàn)身活動(dòng)狀態(tài)驚艷!短發(fā)利落大氣,黑色套裝優(yōu)雅端莊

琴聲飛揚(yáng)
2026-02-12 11:51:25
孟加拉國女足主帥談戰(zhàn)中國女足:這是一場(chǎng)大衛(wèi)對(duì)歌利亞的較量

孟加拉國女足主帥談戰(zhàn)中國女足:這是一場(chǎng)大衛(wèi)對(duì)歌利亞的較量

懂球帝
2026-03-02 15:34:47
煮湯圓,有人用開水,用冷水!廚師長:都不對(duì),教您做法,不粘鍋

煮湯圓,有人用開水,用冷水!廚師長:都不對(duì),教您做法,不粘鍋

阿龍美食記
2026-02-23 17:09:09
終于換對(duì)發(fā)型!前港姐冠軍摘掉假劉海,顏值瞬間回春

終于換對(duì)發(fā)型!前港姐冠軍摘掉假劉海,顏值瞬間回春

暖心萌阿菇?jīng)?/span>
2026-03-01 21:09:44
4-2!邁阿密半場(chǎng)連扳4球獲賽季首勝 38歲梅西2射1傳+生涯進(jìn)898球

4-2!邁阿密半場(chǎng)連扳4球獲賽季首勝 38歲梅西2射1傳+生涯進(jìn)898球

我愛英超
2026-03-02 10:16:26
黃金大漲后,套的就是你

黃金大漲后,套的就是你

新浪財(cái)經(jīng)
2026-03-02 20:29:36
發(fā)燒友用56節(jié)5號(hào)電池運(yùn)行臺(tái)式機(jī)電腦:實(shí)測(cè)玩掃雷續(xù)航不到5分鐘

發(fā)燒友用56節(jié)5號(hào)電池運(yùn)行臺(tái)式機(jī)電腦:實(shí)測(cè)玩掃雷續(xù)航不到5分鐘

快科技
2026-03-02 09:58:11
3月2日,小米股這是怎么了?一路狂瀉5個(gè)點(diǎn),竟然跌破34了!

3月2日,小米股這是怎么了?一路狂瀉5個(gè)點(diǎn),竟然跌破34了!

劉森森
2026-03-02 11:14:19
安東尼奧計(jì)劃招入4位07后球員,進(jìn)入U(xiǎn)23國足名單

安東尼奧計(jì)劃招入4位07后球員,進(jìn)入U(xiǎn)23國足名單

吳朑愛游泳
2026-03-02 20:22:34
2026-03-02 21:08:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7408文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

特朗普稱對(duì)伊行動(dòng)還要打四周 學(xué)者:達(dá)成目標(biāo)需"補(bǔ)槍"

頭條要聞

特朗普稱對(duì)伊行動(dòng)還要打四周 學(xué)者:達(dá)成目標(biāo)需"補(bǔ)槍"

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

金銀大漲 市場(chǎng)仍在評(píng)估沖突會(huì)否長期化

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

數(shù)碼
本地
親子
手機(jī)
公開課

數(shù)碼要聞

古爾曼:2027款蘋果iPad Pro有望引入VC均熱板散熱

本地新聞

津南好·四時(shí)總相宜

親子要聞

混血3姐弟,今天在家拆沙發(fā)蓋城堡!

手機(jī)要聞

盧偉冰回應(yīng)小米新機(jī)海外售價(jià)1.6萬元:有信心沖擊iPhone!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版