国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

喜馬拉雅音頻大模型亮相云棲大會,用AI賦能內(nèi)容創(chuàng)作者

0
分享至

?商業(yè)與生活 文|朱曉培

校對|大道格

過去一年多,人工智能AI發(fā)展的速度超過任何歷史時期,特別是生成式人工智能(AIGC)帶來的新想象力,引人憧憬。

根據(jù)各地網(wǎng)信辦發(fā)布的公告,截至2024年7月30日,全國范圍內(nèi)已有197個生成式人工智能服務通過網(wǎng)信辦備案。人們最關心的莫過于,這些大模型,到底會如何落地,又會給物理世界帶來什么樣的改變?

9月19-21日,2024云棲大會上,人們可以發(fā)現(xiàn)一些答案。特別是AI的前沿應用館里,因為匯聚了多家公司的AI應用成果,成為了做具人氣的展館。

在這個展館里,喜馬拉雅不大的展臺,格外引人矚目。與在其他展臺面前觀眾排隊等著體驗AI游戲不同,展臺上的一個二維碼,引得眾多觀眾掏出手機掃碼入群。這個叫做“珠峰AI音色數(shù)字克隆人”的群,是專門為了喜馬拉雅的珠峰AI音視頻創(chuàng)作平臺的VIP權限開通所用。

據(jù)現(xiàn)場的工作人員介紹,珠峰AI音視頻創(chuàng)作平臺,是通過珠峰AI音頻多模態(tài)大模型(簡稱“喜馬拉雅大模型”),結合喜馬拉雅獨有的全品類音色庫和數(shù)字人大模型,為創(chuàng)作人提供高品質(zhì)的AIGC和數(shù)智人服務。

用戶獲得珠峰AI的VIP權限后,可以上傳一段15秒至1分鐘的露臉視頻,生成屬于自己的視頻數(shù)字人,然后上傳文案、選擇聲音,就可以創(chuàng)作自己的音視頻作品,還可以通過克隆音色制作音頻作品。這一功能,吸引了大量的創(chuàng)作者,19日下午,《商業(yè)與生活》去展臺參觀的時候,就已經(jīng)開到了VIP3群。

AI聲音要做到自然,其實是很難的,需要模仿人類的呼吸、停頓、語氣詞等,珠峰AI的效果很棒,讓人聽不出來是AI合成的,對于創(chuàng)作人來說,是不可多得的工具。”一位用戶評價說。

01

喜馬拉雅大模型?

首個備案音頻大模型亮相

2024云棲大會上,喜馬拉雅展示的大模型,是其自主研發(fā)的AI音頻生成大模型。

就在9月9日,喜馬拉雅音頻大模型與米哈游、閱文集團的筑夢島等文本大模型共同進入了上海網(wǎng)信辦發(fā)布的新一批上海市生成式大模型備案通過名單,成為全國首個通過網(wǎng)信辦生成式人工智能服務的音頻生成類大模型。

據(jù)《商業(yè)與生活》了解,喜馬拉雅音頻大模型也是全球首個第四代多情感演繹、超自然表達的音頻生成大模型。該模型是珠峰AI團隊基于自研文本音頻聯(lián)合建模的LLM框架,在同一空間向量表征下實現(xiàn)音頻與文本的聯(lián)合建模訓練。這種聯(lián)合建模的方法,充分賦予了音頻生成任務以強大的語義信息,并充分利用它們之間的內(nèi)在聯(lián)系和互補信息,大幅度提高模型的性能和泛化能力,這也是第四代音頻大模型超越上一代的核心技術突破。

在訓練過程中,喜馬拉雅珠峰AI首先將音頻數(shù)據(jù)和文本數(shù)據(jù)分別進行預處理,將它們轉(zhuǎn)化為適合模型輸入的 token 形式。將音頻 token 和文本 token 映射到同一空間向量表征中,通過使用共享的嵌入層將音頻 token 和文本 token 映射到一個共同的高維向量空間中,從而使得模型能夠更好地理解和處理音頻和文本之間的關系。整體訓練流程包括預訓練(Pretraining)、有監(jiān)督微調(diào)(SFT)、領域有監(jiān)督微調(diào)(Domain SFT)、說話人有監(jiān)督微調(diào)(Speaker SFT)、強化學習(RL)幾個主要流程。

通過這幾個流程的訓練,依托百萬小時的自有版權音頻數(shù)據(jù)進行訓練后,喜馬拉雅音頻大模型具備情感輸出、自然表達、語種互譯、超擬人、多情感、15s音色克隆能力和聲音轉(zhuǎn)換等技術能力,在音頻生成領域?qū)崿F(xiàn)了多維度突破。

基于喜馬拉雅音頻大模型,可生成一系列情感豐富的有聲書作品:

擅長進行超擬人、副語言可控的語音生成,做到媲美真人的真實對話風格語音生成:

只需要使用15s以內(nèi)音頻,即可快速克隆音色,超低成本個性化音色制作,可同時進行個性化音頻內(nèi)容生成和變聲:

音頻prompt:

文生音克?。?/p>

還支持跨語種的聲音合成,如單老的中英混讀:

此外,方言的合成也不在話下:

并且還能生成一些特色音,如助眠音的合成:

結合喜馬拉雅音頻大模型的快速聲音克隆能力,疊加珠峰AI團隊自研的單圖驅(qū)動口唇技術,使用一張圖和一段聲音,可快速生成趣味配音視頻,具備高自然度的語音和口唇對齊效果:

《商業(yè)與生活》在現(xiàn)場體驗了喜馬拉雅的AI文本驅(qū)動功能后,也深刻感覺,????? 對于創(chuàng)作者來說,如何讓AI成為自己的第二大腦,把創(chuàng)意更便捷、更迅速的落地,已經(jīng)成為了一個重要的命題。???????

02

AI賦能內(nèi)容創(chuàng)作者?

重塑內(nèi)容生態(tài)

AI技術的飛速發(fā)展,正以前所未有的速度推動著內(nèi)容創(chuàng)作行業(yè)的變革。有業(yè)內(nèi)人士指出,眼下,AI將不僅僅是輔助工具,更可能會成為內(nèi)容創(chuàng)作的主導力量。內(nèi)容生產(chǎn)由傳統(tǒng)的“全人工生產(chǎn)”模式,轉(zhuǎn)向為“人工+AI Copilot”模式,極大的提升了內(nèi)容生產(chǎn)的效率。

喜馬拉雅,也將AI相關業(yè)務,列為頭號任務,在戰(zhàn)略中明確表示,“繼續(xù)發(fā)展面向未來的技術,AI及大數(shù)據(jù)能力”。

在內(nèi)容生態(tài)體系中,內(nèi)容制作成本高昂一直是眾多內(nèi)容平臺的一大癥結。從版權采買,到匹配創(chuàng)作者,再到漫長的制作周期,每一環(huán)都是人力和成本的堆積。

洞察到內(nèi)容創(chuàng)作這一痛點的喜馬拉雅,選擇通過AI賦能創(chuàng)作者和平臺,便捷創(chuàng)作者的內(nèi)容生產(chǎn),形成像“AI制作人”一樣的人機協(xié)同。

有了AIGC的演繹能力,喜馬拉雅可以幫助創(chuàng)作者極大提升效率。過去平均生成一本書可能要幾十天或者一兩個月?,F(xiàn)在可能一兩天,甚至十幾個小時就能完成。播客主瀟瀟使用喜馬拉雅智能創(chuàng)作工具“音剪”后說,過去需要100分鐘剪輯的音頻,現(xiàn)在不到10分鐘就可以處理完??梢怨?jié)省出更多的時間,用來琢磨精品的內(nèi)容。

有數(shù)據(jù)顯示,在喜馬拉雅,AI貫穿著有聲讀物的預錄制、錄制、后期等全過程,相比于人工創(chuàng)作的耗時,AI提效超過50倍;而由AI制作、人有限參與的精制作,相比于人工創(chuàng)作提效逾3倍。以宣傳物料為例,以往,真人主播在制作一張專輯,專輯封面圖、推廣物料等,如果外包給外部工作室的費用至少千元。但使用喜馬拉雅的AI工具,主播制作一張專輯在各環(huán)節(jié)需要的圖片,設計成本可以降到幾毛錢,且效率奇高,幾分鐘就能完成圖片生成。

除了將AI技術深入應用于PGC、PUGC、UGC的創(chuàng)作全流程,幫助創(chuàng)作者實現(xiàn)降本增效外,AIGC本身也開始成為喜馬拉雅的一大內(nèi)容生產(chǎn)方式。數(shù)據(jù)顯示,截至2023年12月底,喜馬拉雅平臺上的AIGC內(nèi)容達2.4億分鐘,占平臺音頻內(nèi)容的6.6%。

此次云棲大會展示的珠峰AI創(chuàng)作服務平臺——珠峰AI音視頻創(chuàng)作平臺,就是依托通義文本大模型對文本內(nèi)容語義的深度理解,打造珠峰AI音頻大模型,結合喜馬拉雅獨有的全品類音色庫和數(shù)字人大模型,為創(chuàng)作者提供高品質(zhì)的AIGC音頻和數(shù)智人服務,建立了包含535種合成聲音組成的音色庫,以適配不同情景下展示人類的感受及情感。

最近爆火的有聲書《我的阿勒泰》,就是由喜馬拉雅音頻大模型生成的。更早些時候,喜馬拉雅的技術團隊,還利用運用AIGC技術還原了已故評書大師單田芳先生的獨特嗓音,并使用他的AI合成音來全新演繹其經(jīng)典之作。

喜馬拉雅珠峰AI表示,音頻大模型能力已經(jīng)在珠峰AI官網(wǎng)(zhufengai.ximalaya.com)上可以直接體驗使用了,用戶可以直接創(chuàng)作用戶自己的音頻內(nèi)容。相信有了喜馬拉雅AI的助力,國內(nèi)的內(nèi)容生產(chǎn)者能夠更高效地創(chuàng)作出更多高質(zhì)量、個性化的內(nèi)容,滿足廣大聽眾的需求,推動整個內(nèi)容產(chǎn)業(yè)的創(chuàng)新和發(fā)展。

03

AI in All

給喜馬拉雅帶來新的想象空間

作為音頻行業(yè)領頭羊企業(yè),喜馬拉雅曾首創(chuàng)PUGC內(nèi)容生產(chǎn)方式,并通過“PGC+PUGC+UGC”三位一體戰(zhàn)略,實現(xiàn)了從頭部專業(yè)生產(chǎn)內(nèi)容到長尾用戶生產(chǎn)內(nèi)容的音頻內(nèi)容全方位覆蓋,打造出自己的“聲音宇宙”。

如今,AIGC的出現(xiàn),為喜馬拉雅帶來了新的想象空間。

眾所周知,高質(zhì)量的數(shù)據(jù)庫,是AI大模型落地的基石,是AI大模型進化的燃料。而喜馬拉雅擁有全面的音頻內(nèi)容生態(tài),包括體量龐大的音頻內(nèi)容庫,以及數(shù)量眾多的音頻內(nèi)容創(chuàng)作者。據(jù)公開數(shù)據(jù)顯示,截至2023年12月底,喜馬拉雅擁有約4.9億條音頻內(nèi)容,總內(nèi)容時長為36億分鐘。喜馬拉雅擁有的龐大的語音庫,讓喜馬拉雅大模型擁有了不斷演進的AI能力,這也是喜馬拉雅在AI時代的競爭優(yōu)勢。

喜馬拉雅不僅在AI上擁有數(shù)據(jù)和技術上的優(yōu)勢,而且,AI還在智能化廣告營銷中發(fā)揮更突出的作用,給喜馬拉雅帶來了更多的商業(yè)變現(xiàn)場景。比如,通過AIGC原生聲音流,實現(xiàn)“廣告即內(nèi)容”。

此前,喜馬拉雅就聯(lián)合貴州茅臺推出了“單田芳AI聲音重現(xiàn)”春運公益活動。不久前,喜馬拉雅聯(lián)合慕思共同打造的“邀李白共啟AI穿越之旅”活動,在西安大明宮舉辦的“慕思奇妙夜之 AI 夢長安” 開館活動上,喜馬拉雅大模型技術助力慕思博物館館長與李白進行了一場跨越時空的對話,讓人仿佛置身于古代文人雅士的聚會之中。

隨著AI技術的不斷融入與創(chuàng)新應用,喜馬拉雅不僅改變了內(nèi)容創(chuàng)作的邊界,也在商業(yè)化探索上開辟了新的廣闊天地。通過將AI技術與傳統(tǒng)文化、商業(yè)品牌深度融合,可以打造出一系列既富有文化底蘊又極具商業(yè)價值的活動,助力品牌策劃出更加精準有效的營銷活動,開啟全新的商業(yè)增長點。

在云棲大會會場,可以深刻感受到,AI技術正快速從實驗室走向?qū)嶋H應用,影響著各行各業(yè)的發(fā)展。在內(nèi)容創(chuàng)作方面,AI與人類創(chuàng)作者之間的協(xié)作,已經(jīng)在成為內(nèi)容創(chuàng)作的大勢所趨。

而在上海張江的喜馬拉雅園區(qū),隨處可見“AI in All”的標語。這家國內(nèi)知名的音頻在線平臺,正在內(nèi)部掀起一場全方位的 AI 變革,也打開了新的增長曲線。

—End—

更多關注:商業(yè)與生活,ID:xiaopeizhu8

內(nèi)容同步:網(wǎng)易號、同花順、百家號、今日頭條、UC、雪球、企鵝號、一點資訊、知乎、搜狐等。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
彭嘯制勝球!國足1-0澳大利亞,2輪不敗拿4分,最新出線形勢如下

彭嘯制勝球!國足1-0澳大利亞,2輪不敗拿4分,最新出線形勢如下

球場沒跑道
2026-01-11 21:26:46
丈夫入獄、男友死緩,如今48歲又卷入風波,為何劉芳菲一直不順?

丈夫入獄、男友死緩,如今48歲又卷入風波,為何劉芳菲一直不順?

巧手曉廚娘
2026-01-08 22:08:42
A股罕見16連陽的邏輯是什么?下周投資者為何要注意“5控”?

A股罕見16連陽的邏輯是什么?下周投資者為何要注意“5控”?

李志林
2026-01-11 06:42:38
馬筱梅曬嬰兒服,豪宅內(nèi)景被看光,她不讓汪小菲在臺北買房是對的

馬筱梅曬嬰兒服,豪宅內(nèi)景被看光,她不讓汪小菲在臺北買房是對的

韓馳
2026-01-10 13:12:31
尺度驚艷,Netflix制作的9分成人動漫,太過癮了

尺度驚艷,Netflix制作的9分成人動漫,太過癮了

來看美劇
2026-01-09 17:38:59
26+7!曝注定交易!NBA總冠軍核心前鋒

26+7!曝注定交易!NBA總冠軍核心前鋒

籃球?qū)崙?zhàn)寶典
2026-01-11 22:05:52
原來有這么多不體面但掙錢的小生意!原來都是悶聲發(fā)大財啊!

另子維愛讀史
2025-12-06 22:09:07

伊朗總統(tǒng):政府認可和平抗議行為 愿與抗議團體會面

伊朗總統(tǒng):政府認可和平抗議行為 愿與抗議團體會面

財聯(lián)社
2026-01-11 21:27:32
財神爺透露:女子身上這三處有痣,多是“富貴命”,必定錢財不愁

財神爺透露:女子身上這三處有痣,多是“富貴命”,必定錢財不愁

古怪奇談錄
2026-01-04 14:04:44
馬面女孩吳小燕:毛巾蒙面13年,手術取出2公斤異物后過得怎樣了

馬面女孩吳小燕:毛巾蒙面13年,手術取出2公斤異物后過得怎樣了

小熊侃史
2025-12-25 11:27:42
下周一1月12日,持有這些個股的要小心了(附個股點評)

下周一1月12日,持有這些個股的要小心了(附個股點評)

股市皆大事
2026-01-11 15:25:54
15分大勝!上海豪取9連勝高居第一!洛夫頓爆砍29+15大殺四方

15分大勝!上海豪取9連勝高居第一!洛夫頓爆砍29+15大殺四方

體壇小李
2026-01-11 21:50:14
報告稱中國人均存款11萬,但有8.37億人負債,占比達73%

報告稱中國人均存款11萬,但有8.37億人負債,占比達73%

爆角追蹤
2026-01-10 21:36:39
突發(fā)!山東一地120調(diào)度員集中離職!4人已離職、2人提出辭職……

突發(fā)!山東一地120調(diào)度員集中離職!4人已離職、2人提出辭職……

醫(yī)脈圈
2026-01-11 12:16:08
天道:低級人活在情緒里,中級人活在價值里,高級人活在覺醒里

天道:低級人活在情緒里,中級人活在價值里,高級人活在覺醒里

洞見
2026-01-09 21:19:55
2-0奪冠!薩巴倫卡太強了,不丟一盤,穩(wěn)居世界第1,鄭欽文好消息

2-0奪冠!薩巴倫卡太強了,不丟一盤,穩(wěn)居世界第1,鄭欽文好消息

體育就你秀
2026-01-11 15:59:32
浙江一網(wǎng)約車司機為送斷指乘客,由交警帶路闖紅燈,出車禍被判全責;本人回應:好事變成壞事,感覺委屈、困惑、迷茫

浙江一網(wǎng)約車司機為送斷指乘客,由交警帶路闖紅燈,出車禍被判全責;本人回應:好事變成壞事,感覺委屈、困惑、迷茫

極目新聞
2026-01-11 17:14:21
閆學晶多平臺賬號被禁止關注,掉粉20多萬,多個小號已設置為私密,此前“哭窮”言論引爭議,抖音客服回應

閆學晶多平臺賬號被禁止關注,掉粉20多萬,多個小號已設置為私密,此前“哭窮”言論引爭議,抖音客服回應

極目新聞
2026-01-10 09:52:23
廣西一精神小妹結婚,身上多處紋身新郎小她10歲,網(wǎng)友:相當炸裂

廣西一精神小妹結婚,身上多處紋身新郎小她10歲,網(wǎng)友:相當炸裂

唐小糖說情感
2026-01-07 16:37:28
董璇太壕氣了!給張維伊慶生下足血本,燕窩、茅臺安排得明明白白

董璇太壕氣了!給張維伊慶生下足血本,燕窩、茅臺安排得明明白白

娛樂團長
2026-01-09 20:49:38
2026-01-12 00:23:00
商業(yè)與生活 incentive-icons
商業(yè)與生活
關注互聯(lián)網(wǎng)創(chuàng)業(yè)
738文章數(shù) 876關注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

特朗普就格陵蘭島下最后通牒 加拿大開始行動了

頭條要聞

特朗普就格陵蘭島下最后通牒 加拿大開始行動了

體育要聞

U23國足形勢:末輪不負泰國即確保晉級

娛樂要聞

留幾手為閆學晶叫屈?稱網(wǎng)友自卑敏感

財經(jīng)要聞

外賣平臺"燒錢搶存量市場"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補貼后9.98萬起

態(tài)度原創(chuàng)

數(shù)碼
旅游
教育
本地
公開課

數(shù)碼要聞

科技有AI,連接全球:海信家電參展CES 2026,定義智慧生活新圖景

旅游要聞

冰雕獸首立老街!哈爾濱用 60 年冰雪基因,解鎖文旅融合新密碼

教育要聞

官方發(fā)布:3370個志愿者服務名額!南京中小學生均可報名!

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版