国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華&巨人網(wǎng)絡(luò)打破數(shù)據(jù)壁壘,首創(chuàng)MoE多方言TTS框架

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel推出邀請注冊獎勵(lì)活動,最高可得算力券+token包380元獎勵(lì),歡迎參與和支持!

無論是中文的粵語、閩南話、吳語,還是歐洲的荷蘭比爾茨語方言、法國奧克語,亦或是非洲和南美的地方語言,方言都承載著獨(dú)特的音系與文化記憶,是人類語言多樣性的重要組成部分。然而,許多方言正在快速消失,語音技術(shù)如果不能覆蓋這些語言,勢必加劇數(shù)字鴻溝與文化失聲。

在當(dāng)今大模型引領(lǐng)的語音合成時(shí)代,通用 TTS 系統(tǒng)已展現(xiàn)出令人驚嘆的能力,但方言 TTS 依然是相關(guān)從業(yè)者難以觸及的「灰色地帶」?,F(xiàn)有的工業(yè)級模型往往依賴巨量專有數(shù)據(jù),這讓方言 TTS 從業(yè)者和研究者幾乎無從下手:缺乏統(tǒng)一的語料構(gòu)建方法,更缺乏一個(gè)可實(shí)現(xiàn)多語言的端到端開源框架。

為此,來自巨人網(wǎng)絡(luò) AI Lab 與清華大學(xué)電子工程系 SATLab的研究團(tuán)隊(duì)聯(lián)合首創(chuàng)了DiaMoe-TTS,一個(gè)在一定程度上媲美工業(yè)級方言 TTS 模型的開源全套解決方案。他們基于語言學(xué)家的專業(yè)經(jīng)驗(yàn),構(gòu)建了一個(gè)統(tǒng)一的 IPA 表達(dá)體系,并且在僅依賴開源方言 ASR 數(shù)據(jù)的前提下提出這一方案。

在推出中文方言版本之前,研究團(tuán)隊(duì)已在英語、法語、德語、荷蘭比爾茨語等多語種場景中進(jìn)行過驗(yàn)證,確保該方法具備全球范圍內(nèi)多語言的可擴(kuò)展性與穩(wěn)健性。DiaMoe-TTS已上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗(yàn)。


模型、數(shù)據(jù)集和代碼地址

https://wisemodel.cn/organization/Giant_AILab


DiaMoE-TTS 不僅僅是一個(gè)單點(diǎn)模型,而是一個(gè)面向?qū)W術(shù)界與開源社區(qū)的全鏈路貢獻(xiàn):

  • 全開源的數(shù)據(jù)預(yù)處理流程:讓研究者能夠從原始方言語音數(shù)據(jù)構(gòu)建 TTS-ready 方言語音語料;

  • 統(tǒng)一的 IPA 標(biāo)注與對齊方法:解決跨方言建模的一致性問題;

  • 完整的訓(xùn)練與推理代碼:降低復(fù)現(xiàn)與擴(kuò)展的門檻;

  • 方言感知 MoE 架構(gòu)與低資源適配策略:為研究者提供穩(wěn)定、靈活且可拓展的建模方法。

巨人網(wǎng)絡(luò) AI Lab 與清華大學(xué)電子工程系 SATLab 希望借此推動方言語音合成的公平與普惠:讓任何研究者、開發(fā)者乃至語言文化保護(hù)工作者都能自由使用、改進(jìn)與擴(kuò)展這一框架;讓小眾語言與方言的聲音不再被淹沒在通用大模型的洪流中,而能通過開源的力量被更廣泛地聽見與傳承。

01.

生成demo

成都話:祝福大家前程似錦,順?biāo)橈L(fēng)。

鄭州話:祝你前途大好,成就非凡!

石家莊話:好的開始,等于成功的一半兒。

西安話:祝愿大家前程似錦,夢想成真。

粵語:我系鐘意廣州嘅春天。

02.

模型設(shè)計(jì)


統(tǒng)一IPA前端

在多方言語音合成中,使用拼音或字符輸入常常帶來嚴(yán)重的歧義與不一致問題,例如相同字符在不同方言中可能對應(yīng)完全不同的發(fā)音。

DiaMoE-TTS 在前端設(shè)計(jì)中引入了國際音標(biāo)(IPA)作為統(tǒng)一的輸入體系,將所有方言的語音映射到同一音素空間。這種方式消除了跨方言間的差異性,使得模型能夠在統(tǒng)一的表征體系下進(jìn)行訓(xùn)練,保證了建模的一致性與泛化能力。



方言感知Mixture-of-Experts(MoE)架構(gòu)

在聲學(xué)建模部分,DiaMoE-TTS 設(shè)計(jì)了方言感知的 Mixture-of-Experts (MoE) 架構(gòu)。傳統(tǒng)的單一建模網(wǎng)絡(luò)在多方言任務(wù)下容易出現(xiàn)「風(fēng)格平均化」,導(dǎo)致各地方言的特色被弱化。MoE 結(jié)構(gòu)通過引入多個(gè)專家網(wǎng)絡(luò),讓不同的專家專注于學(xué)習(xí)不同方言的特征;同時(shí),動態(tài)門控機(jī)制會根據(jù)輸入 IPA 自動選擇最合適的專家路由,從而保證了每種方言的音色和韻律特點(diǎn)得以保留。

為了增強(qiáng)門控的區(qū)分能力,我們還加入了方言分類輔助損失,使專家網(wǎng)絡(luò)在訓(xùn)練時(shí)能夠更有針對性地建模方言特征。



低資源方言適配(PEFT)

許多方言面臨極端的數(shù)據(jù)稀缺問題,甚至僅有數(shù)小時(shí)的錄音語料。DiaMoE-TTS 提出了參數(shù)高效遷移 (PEFT) 策略,分別在 text embedding 層和 DiT 的注意力層中融入了Conditioning Adapter 與 LoRA,僅需微調(diào)少量參數(shù)即可完成方言擴(kuò)展,主干與 MoE 模塊保持凍結(jié),從而避免對已有知識的遺忘。

此外,研究團(tuán)隊(duì)還采用了音高擾動與語速擾動等數(shù)據(jù)增強(qiáng)手段,即便在超低資源條件下,模型也能合成自然、流暢且風(fēng)格鮮明的方言語音。


多階段訓(xùn)練方法

DiaMoE-TTS 的訓(xùn)練過程分為多個(gè)階段,以逐步提升模型性能并適應(yīng)方言多樣性:


  • IPA 遷移初始化


在 F5-TTS 原始 checkpoint 的基礎(chǔ)上,引入經(jīng)過 IPA 音素轉(zhuǎn)換的 Emilia 部分?jǐn)?shù)據(jù),對模型進(jìn)行預(yù)熱訓(xùn)練,從而實(shí)現(xiàn)輸入形式從拼音字符到 IPA 的平滑遷移。


  • 多方言聯(lián)合訓(xùn)練

在統(tǒng)一 IPA 表達(dá)下,利用多個(gè)開源方言數(shù)據(jù)(CommonVoice 和 KeSpeech)進(jìn)行聯(lián)合建模,同時(shí)激活 MoE 結(jié)構(gòu),使模型能夠?qū)W習(xí)共享特征并區(qū)分不同方言的發(fā)音模式。

  • 方言專家強(qiáng)化


通過動態(tài)門控機(jī)制與方言分類輔助損失,進(jìn)一步優(yōu)化 MoE 的分流效果,讓各專家更好地捕捉不同方言的獨(dú)特特征。


  • 低資源快速適配

針對僅有數(shù)小時(shí)語料的新方言,采用 PEFT 策略(LoRA + Conditioning Adapter),結(jié)合音高 / 語速擾動等數(shù)據(jù)增強(qiáng),實(shí)現(xiàn)高效遷移并保持已有知識不被遺忘。

這種多階段、漸進(jìn)式訓(xùn)練的方法,使 DiaMoE-TTS 能夠在保證穩(wěn)定性的同時(shí),兼顧跨方言泛化與低資源適配能力。

03.

研究成果

通過圖表可以看到,在訓(xùn)練數(shù)據(jù)量較為充足(百小時(shí))的粵語上,DiaMoE-TTS 在WER、MOS 和 UTMOS三個(gè)指標(biāo)上均取得了接近工業(yè)界語音大模型的表現(xiàn)。而在上海話、成都話、西安話、鄭州話、天津話等其他方言(幾小時(shí)到幾十小時(shí)不等)的對比實(shí)驗(yàn)中,受限于開源方言 ASR 數(shù)據(jù)在「質(zhì)量」與「規(guī)?!股系牟蛔?,模型整體表現(xiàn)略遜于部分工業(yè)級大模型。

但值得強(qiáng)調(diào)的是,DiaMoE-TTS 支持的方言范圍更廣,甚至可以擴(kuò)展到介于語音合成(TTS)與歌聲合成之間的特殊類型,如京劇韻白,并能在僅有極少量數(shù)據(jù)的情況下實(shí)現(xiàn)快速建模,這為方言保護(hù)與文化傳承提供了新的可能性。


在消融實(shí)驗(yàn)中,研究團(tuán)隊(duì)選擇了成都話、西安話、鄭州話、石家莊話四種方言,對比了三種不同配置:僅使用 IPA 的版本(w/o MoE)、僅使用 MoE 且輸入為拼音的版本(w/o IPA)、以及完整的 IPA + MoE 方法(Ours)。

實(shí)驗(yàn)結(jié)果表明,IPA 統(tǒng)一前端是性能提升的關(guān)鍵,將輸入由拼音替換為 IPA 后,WER 從 90% 以上顯著下降到 30%~40% 區(qū)間,MOS 評分也提升了 1~2 分。同時(shí),Dialect-aware MoE 架構(gòu)能夠進(jìn)一步增強(qiáng)方言風(fēng)格,以西安話為例,WER 從 41.09% 降至 33.00%,MOS 從 2.33 提升到 3.15,表現(xiàn)出明顯的改進(jìn)。

最終,完整方案(MoE + IPA)在所有方言上都取得了最佳效果,不僅顯著降低了錯(cuò)誤率,也大幅提升了語音的自然度。這充分證明了 IPA 前端在解決跨方言發(fā)音歧義方面的有效性,以及 MoE 在強(qiáng)化方言建模上的重要作用,兩者結(jié)合成為 DiaMoE-TTS 的核心優(yōu)勢。



一句話總結(jié)

DiaMoE-TTS = IPA 前端統(tǒng)一化 + MoE 方言建模 + PEFT 低資源適配

在開放數(shù)據(jù)驅(qū)動下,實(shí)現(xiàn)低成本、低門檻、可擴(kuò)展的多方言語音合成方案。

通俗易懂版本:不用海量數(shù)據(jù),也不用復(fù)雜流程,DiaMoE-TTS 就能讓更多方言在數(shù)字世界開口說話。

DiaMoE-TTS 的全面開源只是一個(gè)起點(diǎn)。未來,研究團(tuán)隊(duì)將持續(xù)擴(kuò)展更多方言與小語種的語料,完善 IPA 對齊與數(shù)據(jù)預(yù)處理流程,并探索更高效的低資源建模方法,讓方言語音合成的研究與應(yīng)用更加低門檻、更易復(fù)現(xiàn)。

同時(shí),研究團(tuán)隊(duì)希望這一框架能夠讓全球的研究者與開發(fā)者更便捷地參與到方言與小語種的語音技術(shù)研究中,讓它們不僅停留在實(shí)驗(yàn)室里被探索,更能在教育、文化保護(hù)、虛擬人、數(shù)字文旅與跨境交流等實(shí)際場景中發(fā)揮價(jià)值。他們相信,方言不應(yīng)在數(shù)字時(shí)代被遺忘,每一種語言都值得在數(shù)字世界被聽見。

編輯:成蘊(yùn)年

----- END -----

wisemodel相關(guān):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運(yùn)營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
張雪峰前女友哭紅眼,喊話不要給張雪峰潑臟水,曝兩人分手原因

張雪峰前女友哭紅眼,喊話不要給張雪峰潑臟水,曝兩人分手原因

180視角
2026-03-26 14:51:03
7旬男子陪老伴住院,醫(yī)生看了他一眼發(fā)現(xiàn)其面部有猝死先兆,將其從死亡邊緣拉回

7旬男子陪老伴住院,醫(yī)生看了他一眼發(fā)現(xiàn)其面部有猝死先兆,將其從死亡邊緣拉回

觀威海
2026-03-26 09:55:04
“親媽霸占消防通道,兒子被火燒死”,這件事,簡直太魔幻了……

“親媽霸占消防通道,兒子被火燒死”,這件事,簡直太魔幻了……

桌子的生活觀
2026-03-26 12:28:04
張雪峰去世真相!網(wǎng)友:偌大的公司靠他個(gè)人ip養(yǎng)活,早死是必然的

張雪峰去世真相!網(wǎng)友:偌大的公司靠他個(gè)人ip養(yǎng)活,早死是必然的

火山詩話
2026-03-25 09:18:58
宋喆出獄后現(xiàn)狀:縣城搬菜月入三千,前妻楊慧橫店開公司年入千萬

宋喆出獄后現(xiàn)狀:縣城搬菜月入三千,前妻楊慧橫店開公司年入千萬

一盅情懷
2026-03-26 14:47:59
A股:股民做好下車準(zhǔn)備,大資金明牌了,周五將迎更大的暴風(fēng)雨?

A股:股民做好下車準(zhǔn)備,大資金明牌了,周五將迎更大的暴風(fēng)雨?

夜深愛雜談
2026-03-26 17:19:44
勇敢發(fā)聲!科威特記者聯(lián)合國痛批“反以儀式”

勇敢發(fā)聲!科威特記者聯(lián)合國痛批“反以儀式”

Nee看
2026-03-26 14:15:21
春天,這堿性菜再貴也要多吃,殺菌強(qiáng)免疫,補(bǔ)鈣補(bǔ)鉀兩不誤,好吃

春天,這堿性菜再貴也要多吃,殺菌強(qiáng)免疫,補(bǔ)鈣補(bǔ)鉀兩不誤,好吃

阿龍美食記
2026-03-25 10:38:40
廣東一男子買啤酒抽中電動車大獎,將中獎二維碼發(fā)網(wǎng)上詢問后被他人掃走核銷,網(wǎng)友:“這下又上了一課”

廣東一男子買啤酒抽中電動車大獎,將中獎二維碼發(fā)網(wǎng)上詢問后被他人掃走核銷,網(wǎng)友:“這下又上了一課”

洪觀新聞
2026-03-26 10:56:49
烏克蘭打出400:1恐怖戰(zhàn)績,俄羅斯列寧格勒港口基本被打癱瘓

烏克蘭打出400:1恐怖戰(zhàn)績,俄羅斯列寧格勒港口基本被打癱瘓

史政先鋒
2026-03-26 16:17:12
高速統(tǒng)一限速3月26日正式落地!五檔限速+清理非標(biāo)不會再亂扣分!

高速統(tǒng)一限速3月26日正式落地!五檔限速+清理非標(biāo)不會再亂扣分!

沙雕小琳琳
2026-03-26 09:41:30
湖北十堰大山深處,那個(gè)號稱“小香港”的萬人廠,如今人去樓空

湖北十堰大山深處,那個(gè)號稱“小香港”的萬人廠,如今人去樓空

GA環(huán)球建筑
2026-03-26 14:10:54
斯柯達(dá)將退出中國,大眾中國回應(yīng)

斯柯達(dá)將退出中國,大眾中國回應(yīng)

第一財(cái)經(jīng)資訊
2026-03-26 15:14:56
網(wǎng)友曝張雪峰搶救細(xì)節(jié):倒地30分鐘才被發(fā)現(xiàn),用ECMO全力搶救無效

網(wǎng)友曝張雪峰搶救細(xì)節(jié):倒地30分鐘才被發(fā)現(xiàn),用ECMO全力搶救無效

半窗疏影
2026-03-26 20:17:36
萬科高管被要求退還薪酬

萬科高管被要求退還薪酬

地產(chǎn)微資訊
2026-03-26 12:22:04
伊朗女藥劑師拒絕撤離,空襲第10天在“精準(zhǔn)”打擊下被“誤殺”

伊朗女藥劑師拒絕撤離,空襲第10天在“精準(zhǔn)”打擊下被“誤殺”

網(wǎng)易新聞出品
2026-03-26 11:16:13
張雪峰去世巨額遺產(chǎn)曝光,能給女兒留下多少錢?

張雪峰去世巨額遺產(chǎn)曝光,能給女兒留下多少錢?

藍(lán)鯨新聞
2026-03-26 17:41:20
俄羅斯主帥:FIFA把我們禁賽了,就算加入亞足聯(lián)頂多踢亞洲杯

俄羅斯主帥:FIFA把我們禁賽了,就算加入亞足聯(lián)頂多踢亞洲杯

懂球帝
2026-03-26 16:30:07
香港馬拉松,阿Sa臉饅化成蔡明,黃曉明白又嫩,林志玲被嘲太做作

香港馬拉松,阿Sa臉饅化成蔡明,黃曉明白又嫩,林志玲被嘲太做作

老吳教育課堂
2026-03-26 14:11:15
中共中央批準(zhǔn),開除劉慧黨籍

中共中央批準(zhǔn),開除劉慧黨籍

新京報(bào)
2026-03-26 17:14:17
2026-03-26 21:51:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

美國總統(tǒng)特朗普公開宣布訪華行程 外交部回應(yīng)

頭條要聞

美國總統(tǒng)特朗普公開宣布訪華行程 外交部回應(yīng)

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

家居
親子
游戲
公開課
軍事航空

家居要聞

傍海而居 靜觀蝴蝶海

親子要聞

你好,我是饅頭,快開門!

開沖!PS會員4月離庫名單公布:獨(dú)立神作進(jìn)入倒計(jì)時(shí)

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時(shí)盡力摧毀伊設(shè)施

無障礙瀏覽 進(jìn)入關(guān)懷版