国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

B站用AI整的這個(gè)活兒太魔性了,已開源!

0
分享至

最近在 B 站上,你是否也刷到過一些 “魔性” 又神奇的 AI 視頻?比如英文版《甄嬛傳》、坦克飛天、曹操大戰(zhàn)孫悟空…… 這些作品不僅完美復(fù)現(xiàn)了原角色的音色,連情感和韻律都做到了高度還原!更讓人驚訝的是,它們居然全都是靠 AI 生成的!


英文版
甄嬛傳他來


讓坦克飛


B 站開源 index-tts-2.0 長視頻測試,效果真的強(qiáng),曹操大戰(zhàn)孫悟空


如果讓 AI 開中文蘋果發(fā)布會(huì),indextts2 效果展示

據(jù)悉,這些視頻都是運(yùn)用了嗶哩嗶哩 Index 團(tuán)隊(duì)最新開源的文本轉(zhuǎn)語音模型 IndexTTS-2.0, 這一模型從 demo 發(fā)布起,就在海內(nèi)外社區(qū)引發(fā)了不少的關(guān)注。目前該工作在 Github 已超過 10k stars 。




  • 論文標(biāo)題:IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech

  • 論文鏈接:https://arxiv.org/abs/2506.21619

  • github 鏈接:https://github.com/index-tts/index-tts

  • 魔搭體驗(yàn)頁:https://modelscope.cn/studios/IndexTeam/IndexTTS-2-Demo

  • HuggingFace 體驗(yàn)頁:https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo

  • 官宣視頻:https://www.bilibili.com/video/BV136a9zqEk5/

近年來,大規(guī)模文本轉(zhuǎn)語音(Text-to-Speech, TTS)模型在自然度和表現(xiàn)力上取得了顯著進(jìn)展,但如何讓語音「在韻律自然的同時(shí),又能嚴(yán)格對(duì)齊時(shí)長」仍是懸而未決的難題。傳統(tǒng)自回歸(Autoregressive, AR)模型雖然在韻律自然性和風(fēng)格遷移上占優(yōu),卻難以做到精準(zhǔn)時(shí)長控制;而非自回歸(Non-Autoregressive, NAR)方法雖能輕松操縱時(shí)長,卻往往犧牲了語音的自然感和情緒表現(xiàn)力。如何在保留 AR 模型優(yōu)勢的同時(shí),突破其核心限制,成為了前沿挑戰(zhàn)。

來自嗶哩嗶哩的 IndexTTS 團(tuán)隊(duì)創(chuàng)新性地提出了一種通用于 AR 系統(tǒng)的 “時(shí)間編碼” 機(jī)制,次解決了傳統(tǒng) AR 模型難以精確控制語音時(shí)長的問題。這一新穎的架構(gòu)設(shè)計(jì)不僅解決了時(shí)長控制問題,更引入了音色與情感的解耦建模,實(shí)現(xiàn)了前所未有的情感表現(xiàn)力和靈活控制,在多個(gè)指標(biāo)上全面超越現(xiàn)有 SOTA 系統(tǒng)。

研究方法

IndexTTS2 由三個(gè)核心模塊組成:Text-to-Semantic(T2S) 、Semantic-to-Mel(S2M) 以及 BigVGANv2 聲碼器。首先,T2S 模塊基于輸入的源文本、風(fēng)格提示、音色提示以及一個(gè)可選的目標(biāo)語音 token 數(shù),生成對(duì)應(yīng)的語義 token 序列。然后,S2M 模塊以語義 token 和音色提示作為輸入,進(jìn)一步預(yù)測出梅爾頻譜圖。最后,BigVGANv2 聲碼器將梅爾頻譜圖轉(zhuǎn)換為高質(zhì)量的語音波形,完成端到端的語音合成過程。

IndexTTS2 可以在零樣本條件下生成自然流暢的多情感、跨語言語音。它還支持在自回歸框架下精確控制語音時(shí)長,讓合成既可控又不失自然。同時(shí)具備工業(yè)級(jí)性能,既適合研究探索,也能直接應(yīng)用到實(shí)際場景中。


1、基于 AR 架構(gòu)的時(shí)長控制

在 IndexTTS2 中,針對(duì)自回歸 (AR) TTS 難以精確控制語音時(shí)長的問題,提出了基于 token 數(shù)量約束 的解決方案。核心思路是:在生成時(shí)可以指定所需的語義 token 數(shù),模型通過一個(gè)專門的時(shí)長 embedding 將這個(gè)信息注入到 Text-to-Semantic 模塊,通過對(duì)合成 token 的數(shù)量強(qiáng)約束來實(shí)現(xiàn)生成語音時(shí)長控制。訓(xùn)練階段隨機(jī)引入不同比例的信號(hào)層時(shí)長縮放 (如 0.75×、1.25×) 任務(wù),使模型可以學(xué)會(huì)在各種長度要求下仍然保持語義連貫和情感自然。

實(shí)驗(yàn)表明,這種方法在不同語言(中 / 英)上的 token-number error rate 非常低,即模型幾乎能嚴(yán)格按照指定的 token 數(shù)量生成語音,同時(shí)在合成質(zhì)量、情感保真度和自然度上保持較好表現(xiàn)。換句話說,IndexTTS2 實(shí)現(xiàn)了在 AR 模型中罕見的高精度時(shí)長控制,使其既能保持逐幀生成帶來的細(xì)膩表達(dá),又能滿足視頻配音、音畫同步等對(duì)時(shí)長嚴(yán)格敏感的場景需求。


2、多模態(tài)的情緒控制

IndexTTS2 對(duì)情感表達(dá)和說話人身份進(jìn)行了有效解耦。模型不僅支持從單一參考音頻中復(fù)刻音色與情感,還支持分別指定獨(dú)立的音色參考和情感參考。這意味著用戶可以用一個(gè)人的音色,說出另一個(gè)人的情感,極大地提升了控制的靈活性。

為了降低使用門檻,模型集成了兩種情感控制方式。除了通過音頻參考進(jìn)行情感遷移,還引入了基于自然語言描述的情感軟指令機(jī)制。通過微調(diào)大型語言模型(LLM),用戶可以使用文本(如自然語言描述、場景描述)來精確引導(dǎo)生成語音的情緒色彩。

3、S2M 模塊

為了提升在高強(qiáng)度情感(如哭腔、怒吼)下的語音清晰度,模型引入了 GPT 式潛在表征,并采用基于流匹配(Flow Matching)的 S2M 模塊,顯著增強(qiáng)了語音生成的魯棒性和梅爾頻譜圖的重建質(zhì)量。


研究結(jié)果

1、時(shí)長控制的準(zhǔn)確性

IndexTTS2 在時(shí)長控制方面展現(xiàn)了極高的精確度。在對(duì)原始語音時(shí)長進(jìn)行 0.75 倍至 1.25 倍的變速測試中,生成語音的 Token 數(shù)量誤差率幾乎不超過 0.03%,在多數(shù)情況下低于 0.02%,證明其時(shí)長控制能力精準(zhǔn)可靠。



Table 1:不同設(shè)置下對(duì)持續(xù)時(shí)長控制的 token 數(shù)錯(cuò)誤率

2、情感表現(xiàn)力

在情感表現(xiàn)力測試中,IndexTTS2 顯著優(yōu)于其他 SOTA 模型。其情感相似度(ES)高達(dá) 0.887,情感 MOS(EMOS)評(píng)分達(dá)到 4.22,合成的語音情緒飽滿、渲染自然,同時(shí)保持了極低的詞錯(cuò)誤率(WER, 1.883%),實(shí)現(xiàn)了表現(xiàn)力與清晰度的完美結(jié)合。



Table 2:在情感測試集上的結(jié)果

3、零樣本語音合成能力

在多個(gè)公開基準(zhǔn)測試集(如 LibriSpeech, SeedTTS)上,IndexTTS2 在客觀指標(biāo)(詞錯(cuò)誤率 WER、說話人相似度 SS)和主觀 MOS 評(píng)分(音色、韻律、質(zhì)量)上均達(dá)到或超越了當(dāng)前最先進(jìn)的開源模型,包括 MaskGCT, F5-TTS, CosyVoice2 等,展現(xiàn)了其強(qiáng)大的基礎(chǔ)合成能力和魯棒性。



Table 3:在公開測試集上的結(jié)果

4、消融實(shí)驗(yàn)驗(yàn)證

實(shí)驗(yàn)證明,模型中的 GPT 潛在特征對(duì)于保證語音清晰度和發(fā)音準(zhǔn)確性至關(guān)重要;而基于流匹配的 S2M 模塊相比于傳統(tǒng)的離散聲學(xué) Token 方案,極大地提升了合成語音的保真度和自然度。

該模型憑借高質(zhì)量的情感還原與精準(zhǔn)的時(shí)長控制,廣泛提升了 AI 配音、視頻翻譯、有聲讀物、動(dòng)態(tài)漫畫、語音對(duì)話等系列下游場景的可用性,尤其值得關(guān)注的是,IndexTTS-2.0 為 B 站優(yōu)質(zhì)內(nèi)容的出海提供了關(guān)鍵技術(shù)支持,在充分保留原聲風(fēng)格與情感特質(zhì)的基礎(chǔ)上,讓海外用戶享受更加自然、沉浸的聽覺感受。這一技術(shù)突破不僅極大降低了高質(zhì)量內(nèi)容跨語言傳播的門檻,也為 AIGC 技術(shù)在全球范圍內(nèi)的實(shí)際應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ),堪稱零樣本 TTS 技術(shù)邁向?qū)嵱没A段的重要里程碑。

總結(jié)

IndexTTS2 的提出標(biāo)志著零樣本 TTS 進(jìn)入「情感可控 + 時(shí)長精確」的雙維度時(shí)代。它不僅大幅提升了 AI 配音、視頻翻譯等多種下游場景的可用性,同時(shí),也為未來語音合成技術(shù)的發(fā)展指明了重要方向:如何在 AR 框架下實(shí)現(xiàn)對(duì)情感、語調(diào)等更復(fù)雜語音特征的細(xì)粒度控制,并持續(xù)優(yōu)化模型性能,為更廣泛的交互式應(yīng)用提供支持。

研究團(tuán)隊(duì)現(xiàn)已開放模型權(quán)重與代碼,這意味著更多開發(fā)者和研究人員能夠基于 IndexTTS2 構(gòu)建個(gè)性化、沉浸式的語音交互應(yīng)用。

作者介紹:

本論文主要作者來自嗶哩嗶哩 Index 語音團(tuán)隊(duì)(Bilibili IndexTTS),Index語音團(tuán)隊(duì)是一支專注于音頻技術(shù)創(chuàng)新的研究團(tuán)隊(duì),致力于音頻生成、語音合成與音樂技術(shù)的前沿探索,重點(diǎn)研究高保真、自然真實(shí)、可控性強(qiáng)的語音生成模型。團(tuán)隊(duì)推出的全新一代 zero-shot TTS 自回歸大模型 IndexTTS2,具備出色的情感表現(xiàn)力,支持音色與情感的自由組合,并創(chuàng)新性地設(shè)計(jì)了“時(shí)長編碼”,實(shí)現(xiàn)了模型層面的精準(zhǔn)時(shí)長控制。團(tuán)隊(duì)通過深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷突破,持續(xù)為學(xué)術(shù)界與工業(yè)界提供高質(zhì)量的語音合成技術(shù)支持與創(chuàng)新方案,助力創(chuàng)作者用聲音打破表達(dá)邊界。

推薦一個(gè)正在學(xué)習(xí)的課程-視頻+直播


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
45歲董潔天安門騎行,穿1萬7羽絨服在大街吃肉串,86斤體重挺能吃

45歲董潔天安門騎行,穿1萬7羽絨服在大街吃肉串,86斤體重挺能吃

銀河史記
2025-12-24 18:27:42
亞洲周刊曝郭禮典接到多個(gè)恐嚇電話!公布龐叔令實(shí)名舉報(bào)徐鶯信件

亞洲周刊曝郭禮典接到多個(gè)恐嚇電話!公布龐叔令實(shí)名舉報(bào)徐鶯信件

古希臘掌管松餅的神
2025-12-24 19:22:09
徐湖平家中字畫的高清版,被網(wǎng)友們找到了!

徐湖平家中字畫的高清版,被網(wǎng)友們找到了!

麥杰遜
2025-12-24 12:06:49
堅(jiān)守陣地130天,兩名烏軍終于撤了下來,還帶回個(gè)并肩作戰(zhàn)的俄軍

堅(jiān)守陣地130天,兩名烏軍終于撤了下來,還帶回個(gè)并肩作戰(zhàn)的俄軍

鷹眼Defence
2025-12-24 16:23:37
F-16擊落全部34枚導(dǎo)彈,“匕首”沒擊中目標(biāo)!確認(rèn)犧牲英雄身份

F-16擊落全部34枚導(dǎo)彈,“匕首”沒擊中目標(biāo)!確認(rèn)犧牲英雄身份

鷹眼Defence
2025-12-24 16:17:27
這樣的尊榮感,的確讓人感到反胃

這樣的尊榮感,的確讓人感到反胃

清書先生
2025-12-24 17:03:56
南京博物院文物盜竊事件讓很多人不再罵把文物捐給美國的翁萬戈

南京博物院文物盜竊事件讓很多人不再罵把文物捐給美國的翁萬戈

名人茍或
2025-12-24 06:02:23
紅軍城再次遇險(xiǎn),美國股神巴菲特之子加入烏軍

紅軍城再次遇險(xiǎn),美國股神巴菲特之子加入烏軍

史政先鋒
2025-12-24 21:03:28
特朗普下令,真正的較量開始,美國選好主戰(zhàn)場,要與中國一決高下

特朗普下令,真正的較量開始,美國選好主戰(zhàn)場,要與中國一決高下

空天力量
2025-12-24 17:06:37
“堅(jiān)持計(jì)劃生育一百年不動(dòng)搖”的彭佩云去世,她父親的人生更傳奇

“堅(jiān)持計(jì)劃生育一百年不動(dòng)搖”的彭佩云去世,她父親的人生更傳奇

文史微鑒
2025-12-24 23:47:43
柬埔寨“生命科學(xué)院”全中文服務(wù),網(wǎng)友炸鍋:量身定做?

柬埔寨“生命科學(xué)院”全中文服務(wù),網(wǎng)友炸鍋:量身定做?

胡嚴(yán)亂語
2025-12-24 19:10:52
日本宣稱:“中方若不承認(rèn)《舊金山和約》,臺(tái)灣即為日本領(lǐng)土!”

日本宣稱:“中方若不承認(rèn)《舊金山和約》,臺(tái)灣即為日本領(lǐng)土!”

百態(tài)人間
2025-12-24 16:47:16
昨天進(jìn)去的虧慘了,上市兩天大跌50%,扛不住了虧13萬賣了!

昨天進(jìn)去的虧慘了,上市兩天大跌50%,扛不住了虧13萬賣了!

財(cái)經(jīng)智多星
2025-12-24 16:51:49
正式官宣!CBA第二位下課主帥確定,遼寧名宿走馬上任

正式官宣!CBA第二位下課主帥確定,遼寧名宿走馬上任

體壇瞎白話
2025-12-24 13:54:08
內(nèi)政上各種無敵,外交上基本無力

內(nèi)政上各種無敵,外交上基本無力

我是歷史其實(shí)挺有趣
2025-12-24 14:57:52
消失的圣誕節(jié)與平安夜

消失的圣誕節(jié)與平安夜

十柱
2025-12-24 11:53:00
特朗普為何罕見強(qiáng)調(diào)新型戰(zhàn)列艦“不針對(duì)中國”?

特朗普為何罕見強(qiáng)調(diào)新型戰(zhàn)列艦“不針對(duì)中國”?

看看新聞Knews
2025-12-24 18:01:02
南博前院長徐湖平被帶走,郭禮典接受問詢

南博前院長徐湖平被帶走,郭禮典接受問詢

無忌財(cái)談
2025-12-24 18:41:51
無恥下作還不夠,還要明目張膽地硬搶!

無恥下作還不夠,還要明目張膽地硬搶!

胖胖說他不胖
2025-12-24 14:47:25
他姓胡,曾被視為中共“接班人”之一,58歲官至正國級(jí),今年95歲

他姓胡,曾被視為中共“接班人”之一,58歲官至正國級(jí),今年95歲

大運(yùn)河時(shí)空
2025-12-24 11:50:03
2025-12-25 06:11:00
機(jī)器學(xué)習(xí)與Python社區(qū) incentive-icons
機(jī)器學(xué)習(xí)與Python社區(qū)
機(jī)器學(xué)習(xí)算法與Python
3233文章數(shù) 11081關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財(cái)經(jīng)要聞

北京進(jìn)一步放松限購 滬深是否會(huì)跟進(jìn)?

汽車要聞

“運(yùn)動(dòng)版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

家居
時(shí)尚
手機(jī)
游戲
數(shù)碼

家居要聞

法式大平層 智能家居添彩

對(duì)不起周柯宇,是陳靖可先來的

手機(jī)要聞

榮耀Magic8 Ultra:雙3D生物識(shí)別+LOFIC主攝,還有24GB大內(nèi)存!

前《DOTA2》選手起訴LGD 稱拖欠近14萬賽事獎(jiǎng)金

數(shù)碼要聞

AMD Zen 6與Intel Nova Lake或?qū)⑸涎?88 MB 3D緩存“大戰(zhàn)”

無障礙瀏覽 進(jìn)入關(guān)懷版