国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI智能分割一切音頻,1分鐘時(shí)長(zhǎng)無(wú)縫分離,語(yǔ)音界瑞士軍刀

0
分享至

關(guān)注CAIE,國(guó)內(nèi)頭部AI人才認(rèn)證、培訓(xùn)體系,助你在職場(chǎng)升職加薪。

全球社交、科技巨頭Meta開(kāi)源了一個(gè)重磅模型SAM Audio,直接把音頻分離技術(shù)從專(zhuān)人專(zhuān)用工具升級(jí)成了人人都會(huì)用的萬(wàn)能神器。

SAM Audio能同時(shí)聽(tīng)懂文字、看懂畫(huà)面、抓準(zhǔn)時(shí)間,不管是分離語(yǔ)音、音樂(lè),還是各種奇奇怪怪的音效,都能做到行業(yè)頂尖識(shí)別、切割水平。


作為常年跟音頻打交道的人,都懂傳統(tǒng)分離工具的各種坑。首先是術(shù)業(yè)有專(zhuān)攻到死板,比如Demucs分離音樂(lè)樂(lè)器確實(shí)厲害,但想讓它分離環(huán)境里的狗叫聲,那純屬為難它。而AudioSep能處理環(huán)境音,碰到專(zhuān)業(yè)音樂(lè)又歇菜了,每次處理不同音頻都得換工具,麻煩得不行。

然后就是操作方式太單一,要么只能按固定類(lèi)別分,要么只能用文字描述。但實(shí)際場(chǎng)景里哪有這么簡(jiǎn)單?

比如想從視頻里分離某個(gè)特定人的說(shuō)話(huà)聲,光說(shuō)男性說(shuō)話(huà)根本分不清誰(shuí)是誰(shuí);想提取電影里某10秒的爆炸聲,純靠文字也說(shuō)不精準(zhǔn)。

還有評(píng)估標(biāo)準(zhǔn)特別亂,有的用合成音頻測(cè)試,結(jié)果看著好看,實(shí)際用在真實(shí)音頻上就翻車(chē);有的指標(biāo)看著數(shù)值高,聽(tīng)著卻一言難盡,完全不符合人的聽(tīng)覺(jué)感受。最關(guān)鍵的是好數(shù)據(jù)太難找,高質(zhì)量的分離數(shù)據(jù)需要同時(shí)有混合音、目標(biāo)音、殘余音,還要有對(duì)應(yīng)的說(shuō)明,這種數(shù)據(jù)少得可憐,導(dǎo)致模型泛化能力特別差。

Meta這次開(kāi)源SAM Audio,簡(jiǎn)直就是精準(zhǔn)踩中了這些痛點(diǎn),把之前的難題全解決了。

以前的文本分離模型要么要求描述特別精準(zhǔn),要么識(shí)別不了冷門(mén)音效,SAM Audio完全沒(méi)這問(wèn)題。你只需要用簡(jiǎn)單的短語(yǔ)告訴它就行,比如狗叫聲、鋼琴演奏、女性說(shuō)話(huà),不用長(zhǎng)篇大論。它背后有個(gè)專(zhuān)門(mén)的PLM-Audio模型,能精準(zhǔn)理解你的意思,還會(huì)自動(dòng)過(guò)濾掉不靠譜的指令。

比如處理專(zhuān)業(yè)音樂(lè)時(shí),它會(huì)自動(dòng)把鋼琴轉(zhuǎn)換成鋼琴演奏這種標(biāo)準(zhǔn)化指令;處理語(yǔ)音時(shí),會(huì)先識(shí)別說(shuō)話(huà)人的性別,再生成對(duì)應(yīng)的提示,確保分離不會(huì)出錯(cuò)。而且它還會(huì)校驗(yàn)文字和音頻的匹配度,避免出現(xiàn)要分離狗叫,結(jié)果音頻里根本沒(méi)有的無(wú)效操作。

這功能簡(jiǎn)直是多人場(chǎng)景的救星!比如視頻里有兩個(gè)男生說(shuō)話(huà),光用文字根本分不清誰(shuí)是誰(shuí),這時(shí)你只需要用鼠標(biāo)框選目標(biāo)人物,SAM Audio就能精準(zhǔn)分離出他的聲音。它會(huì)通過(guò)SAM2模型生成精準(zhǔn)的畫(huà)面掩碼,再結(jié)合畫(huà)面特征和聲音的對(duì)應(yīng)關(guān)系,不管是樂(lè)器、人物還是其他發(fā)聲物體,都能精準(zhǔn)定位。

而且它對(duì)畫(huà)面的理解特別深,就算是動(dòng)態(tài)畫(huà)面也能跟上,還會(huì)過(guò)濾掉畫(huà)面外的聲音干擾。比如視頻里有人在彈鋼琴,背景有其他人走動(dòng),框選鋼琴區(qū)域后,它只會(huì)提取鋼琴聲,不會(huì)把腳步聲也帶進(jìn)來(lái)。


此外,這招對(duì)付重疊聲音太管用了!比如一段音頻里0-6秒是女生說(shuō)話(huà),1-2秒還有狗叫,你想單獨(dú)要狗叫聲,只需要告訴它1-2秒的聲音,它就能精準(zhǔn)提取。它會(huì)把時(shí)間轉(zhuǎn)換成幀信號(hào),像給音頻標(biāo)上時(shí)間戳,讓模型只關(guān)注指定時(shí)段。

平時(shí)處理電影音效、會(huì)議錄音時(shí),這個(gè)功能能省超多事。比如想提取會(huì)議里第5-8分鐘的發(fā)言,不用手動(dòng)剪輯,直接指定時(shí)間段就行,分離出來(lái)的聲音還不會(huì)有斷層。

更厲害的是這三種方式可以混搭使用,比如提取視頻里框選的鋼琴在10-15秒的演奏聲,多維度配合,分離精度直接拉滿(mǎn)。

SAM Audio的核心架構(gòu)是擴(kuò)散Transformer,你可以把它想象成一個(gè)精密的聲音過(guò)濾器,能一層層剝離不需要的聲音。它采用流匹配訓(xùn)練方法,比傳統(tǒng)擴(kuò)散模型訓(xùn)練更快、效果更好,還能同時(shí)生成目標(biāo)聲音和殘余聲音,確保分離后的音頻加起來(lái)和原始音頻完全一致,不會(huì)丟失任何信息。

它還有個(gè)聰明的設(shè)計(jì),用DAC-VAE技術(shù)處理音頻,既能保證音質(zhì)不損失,又能減少計(jì)算量。針對(duì)長(zhǎng)音頻處理,它會(huì)把音頻分成重疊的片段,處理后再無(wú)縫拼接,避免出現(xiàn)邊界雜音,就算是處理1小時(shí)的音頻也能保持流暢。


另外還會(huì)自動(dòng)預(yù)測(cè)聲音的活躍時(shí)段,比如你用文字說(shuō)提取雨聲,它會(huì)先分析音頻里雨聲出現(xiàn)的時(shí)間,再結(jié)合文字提示分離,精度比純文字指令高很多。

再好的模型沒(méi)有好數(shù)據(jù)也白搭,Meta為了解決數(shù)據(jù)稀缺的問(wèn)題,搞了三套數(shù)據(jù)來(lái)源,總時(shí)長(zhǎng)超過(guò)1000K小時(shí),覆蓋了幾乎所有音頻場(chǎng)景。

第一類(lèi)是全真實(shí)數(shù)據(jù),比如專(zhuān)業(yè)的多軌音樂(lè)、真實(shí)的對(duì)話(huà)錄音,這些數(shù)據(jù)質(zhì)量最高,能讓模型學(xué)到最純粹的分離規(guī)律。比如536小時(shí)的多軌音樂(lè),每首歌的樂(lè)器、人聲都單獨(dú)分開(kāi),模型能精準(zhǔn)學(xué)習(xí)每種樂(lè)器的聲音特征。

第二類(lèi)是合成數(shù)據(jù),把不同類(lèi)型的音頻合理混合,比如干凈的音樂(lè)加環(huán)境噪聲、語(yǔ)音加背景音,讓模型適應(yīng)各種復(fù)雜場(chǎng)景。比如把20K小時(shí)的干凈音樂(lè)和通用音效混合,模擬真實(shí)環(huán)境中的音樂(lè)播放場(chǎng)景,提升模型的抗干擾能力。


第三類(lèi)是偽標(biāo)注數(shù)據(jù),這是最巧妙的一點(diǎn)。Meta先用早期版本的SAM Audio處理無(wú)標(biāo)注音頻,自動(dòng)生成目標(biāo)音和殘余音,再通過(guò)多層過(guò)濾確保質(zhì)量。比如處理1M小時(shí)的野外音頻,先讓模型自動(dòng)分離,再校驗(yàn)分離后的聲音是否靠譜,靠譜的才用來(lái)訓(xùn)練,相當(dāng)于讓模型自己制造訓(xùn)練數(shù)據(jù)。

這三套數(shù)據(jù)組合下來(lái),模型既能處理專(zhuān)業(yè)場(chǎng)景,也能應(yīng)對(duì)野外的復(fù)雜音頻,泛化能力得到極大增強(qiáng)。

以前評(píng)估音頻分離模型就像公說(shuō)公有理,婆說(shuō)婆有理,SAM Audio直接推出了SAM Audio-Bench測(cè)試集和SAM AudioJudge評(píng)估模型,讓評(píng)估變得客觀又靠譜。

SAM Audio-Bench里的測(cè)試樣本全是真實(shí)場(chǎng)景的音頻和視頻,涵蓋了語(yǔ)音、音樂(lè)、樂(lè)器、通用音效五大類(lèi),每段樣本都有文字、視覺(jué)、時(shí)間三種提示標(biāo)注,能全面測(cè)試模型的各種能力。不管是專(zhuān)業(yè)的音樂(lè)分離,還是日常的環(huán)境音分離,都能在這上面找到對(duì)應(yīng)的測(cè)試場(chǎng)景。

SAM AudioJudge更厲害,它能像人一樣判斷分離質(zhì)量,不僅看分離的精準(zhǔn)度,還會(huì)看聲音是否失真、有沒(méi)有丟失細(xì)節(jié)。

它和人類(lèi)判斷的契合度高達(dá)0.883,比傳統(tǒng)的SDR指標(biāo)靠譜多了。比如有的模型分離后SDR數(shù)值很高,但聽(tīng)著有雜音,SAM AudioJudge能精準(zhǔn)識(shí)別這種問(wèn)題,不會(huì)給出虛假高分。

SAM Audio在測(cè)試中的表現(xiàn)簡(jiǎn)直是降維打擊。在通用音效分離中,它的評(píng)分達(dá)到4.35,比最佳開(kāi)源模型Solo Audio高了1.06,凈勝率提升36%;

語(yǔ)音分離中,比專(zhuān)業(yè)工具Auphonic還強(qiáng),凈勝率8.0%;專(zhuān)業(yè)樂(lè)器分離中,竟然超過(guò)了專(zhuān)門(mén)優(yōu)化的Demucs,凈勝率17.6%。


視覺(jué)提示場(chǎng)景下,多人說(shuō)話(huà)分離的評(píng)分達(dá)到3.07,比文本提示高0.28;時(shí)間跨度提示配合文字使用時(shí),通用音效分離的評(píng)分從4.11提升到4.25,凈勝率提升12.9%。就算是處理1分鐘的長(zhǎng)音頻,分離后的聲音也流暢無(wú)雜音,比傳統(tǒng)分塊處理的效果好太多。


還支持聲音移除功能,比如想去掉音頻里的音樂(lè),評(píng)分達(dá)到4.05,比MoisesAI和AudioShake都強(qiáng);推理速度也不慢,A100顯卡處理10秒音頻只要7.3秒,還能通過(guò)調(diào)整參數(shù),在速度和質(zhì)量之間靈活權(quán)衡。

目前,SAM Audio的應(yīng)用場(chǎng)景非常廣泛,包括媒體制作、內(nèi)容修復(fù)、教育、智能硬件等,例如,聲音工程師不用再手動(dòng)剝離多軌音頻,想提取哪個(gè)樂(lè)器、哪個(gè)人的聲音,要么說(shuō)要么點(diǎn)就行;視頻編輯想去除背景噪聲、提取畫(huà)外音,幾分鐘就能搞定,不用再花幾小時(shí)手動(dòng)處理。

開(kāi)源地址:https://github.com/facebookresearch/sam-audio

想系統(tǒng)掌握AI核心技能、獲取行業(yè)認(rèn)可資質(zhì)?

CAIE注冊(cè)人工智能工程師認(rèn)證

助你拓寬職業(yè)賽道,成為AI領(lǐng)域持證實(shí)力派

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
釣魚(yú)島不必拆燈塔!中國(guó)這招更絕,日本只能干瞪眼,太解氣了!

釣魚(yú)島不必拆燈塔!中國(guó)這招更絕,日本只能干瞪眼,太解氣了!

扶蘇聊歷史
2025-12-05 17:13:45
香港知名女星復(fù)出拍??!患抑郁癥情緒波動(dòng)大,多次和老公傳離婚

香港知名女星復(fù)出拍?。』家钟舭Y情緒波動(dòng)大,多次和老公傳離婚

翰林濤濤
2025-12-15 11:30:42
小米17 Ultra樣片來(lái)了!是要把友商逼到絕路?媲美專(zhuān)業(yè)相機(jī)...

小米17 Ultra樣片來(lái)了!是要把友商逼到絕路?媲美專(zhuān)業(yè)相機(jī)...

泡泡網(wǎng)
2025-12-22 18:54:22
華為Mate80開(kāi)局太猛,后勁不足!

華為Mate80開(kāi)局太猛,后勁不足!

搞機(jī)小帝
2025-12-21 00:09:22
上海女子為母親過(guò)生日,吃完蛋糕后,向母親注射5支胰島素

上海女子為母親過(guò)生日,吃完蛋糕后,向母親注射5支胰島素

紀(jì)實(shí)錄
2024-03-02 16:31:44
“吃飯八分飽”被推翻了?醫(yī)生:過(guò)了62歲,吃飯盡量要做到這4點(diǎn)

“吃飯八分飽”被推翻了?醫(yī)生:過(guò)了62歲,吃飯盡量要做到這4點(diǎn)

蜉蝣說(shuō)
2025-12-19 21:58:22
經(jīng)濟(jì)退潮,遍地是失聲的80后。

經(jīng)濟(jì)退潮,遍地是失聲的80后。

愛(ài)吃糖的貓cat
2025-12-22 19:01:06
關(guān)羽身長(zhǎng)九尺,放到如今有多高?1976年,廣西出土一漢尺揭開(kāi)答案

關(guān)羽身長(zhǎng)九尺,放到如今有多高?1976年,廣西出土一漢尺揭開(kāi)答案

銘記歷史呀
2025-12-22 00:37:27
這才是40歲左右的女性該有的穿搭

這才是40歲左右的女性該有的穿搭

牛彈琴123456
2025-12-10 20:51:18
全球公認(rèn)零差評(píng)的十大燒腦電影,以為看懂了,其實(shí)你一無(wú)所知

全球公認(rèn)零差評(píng)的十大燒腦電影,以為看懂了,其實(shí)你一無(wú)所知

小Q侃電影
2025-12-07 20:45:15
曾養(yǎng)活半個(gè)株洲的蘆淞市場(chǎng),從繁華到空鋪,30年沉浮該怪電商嗎?

曾養(yǎng)活半個(gè)株洲的蘆淞市場(chǎng),從繁華到空鋪,30年沉浮該怪電商嗎?

呼呼歷史論
2025-12-22 01:25:46
黃油歐美賣(mài)爆,頓頓都離不開(kāi),為啥中國(guó)人卻不愛(ài),超市也很少賣(mài)?

黃油歐美賣(mài)爆,頓頓都離不開(kāi),為啥中國(guó)人卻不愛(ài),超市也很少賣(mài)?

攬星河的筆記
2025-12-08 13:30:38
一碗賣(mài)100元,“不接受差評(píng),愛(ài)來(lái)不來(lái)”,上?!白詈贸缘狞S魚(yú)面”后廚曝光:鍋具“包漿”,調(diào)味料漆黑

一碗賣(mài)100元,“不接受差評(píng),愛(ài)來(lái)不來(lái)”,上?!白詈贸缘狞S魚(yú)面”后廚曝光:鍋具“包漿”,調(diào)味料漆黑

每日經(jīng)濟(jì)新聞
2025-12-22 22:53:06
烤雞少年添加的肉寶王網(wǎng)上僅九塊一斤,專(zhuān)門(mén)用來(lái)去腥增香

烤雞少年添加的肉寶王網(wǎng)上僅九塊一斤,專(zhuān)門(mén)用來(lái)去腥增香

映射生活的身影
2025-12-22 22:54:29
新姆希塔良將加入國(guó)米?18場(chǎng)8球13助攻攻防一體,也來(lái)自亞美尼亞

新姆希塔良將加入國(guó)米?18場(chǎng)8球13助攻攻防一體,也來(lái)自亞美尼亞

里芃芃體育
2025-12-23 00:10:10
貴州省2名縣處級(jí)干部接受監(jiān)察調(diào)查

貴州省2名縣處級(jí)干部接受監(jiān)察調(diào)查

新浪財(cái)經(jīng)
2025-12-22 16:46:28
為什么抑郁率最低的是廣西?評(píng)論區(qū)笑翻天了

為什么抑郁率最低的是廣西?評(píng)論區(qū)笑翻天了

另子維愛(ài)讀史
2025-12-16 21:25:55
披露前漲停!600730,復(fù)牌后跌停

披露前漲停!600730,復(fù)牌后跌停

大眾證券報(bào)
2025-12-22 11:58:14
瑞幸咖啡實(shí)控人黎輝:父親是原蘭州軍區(qū)副司令,妻子是知名主持人

瑞幸咖啡實(shí)控人黎輝:父親是原蘭州軍區(qū)副司令,妻子是知名主持人

小莜讀史
2025-12-16 14:58:18
苗僑偉、戚美珍鬧離婚,在大街上激烈爭(zhēng)吵推推搡搡,到底為哪般?

苗僑偉、戚美珍鬧離婚,在大街上激烈爭(zhēng)吵推推搡搡,到底為哪般?

好叫好伐
2025-11-11 14:09:30
2025-12-23 02:59:00
呼呼歷史論
呼呼歷史論
分享有趣的歷史
261文章數(shù) 15847關(guān)注度
往期回顧 全部

科技要聞

商湯聯(lián)創(chuàng)親自下場(chǎng) 痛批主流機(jī)器人技術(shù)大錯(cuò)

頭條要聞

高市早苗政府創(chuàng)下一項(xiàng)27年來(lái)最差紀(jì)錄

頭條要聞

高市早苗政府創(chuàng)下一項(xiàng)27年來(lái)最差紀(jì)錄

體育要聞

戴琳,中國(guó)足球的反向代言人

娛樂(lè)要聞

張柏芝不再隱瞞,三胎生父早有答案?

財(cái)經(jīng)要聞

央行信用新政:為失信者提供"糾錯(cuò)"通道

汽車(chē)要聞

可享88元抵2000元等多重權(quán)益 昊鉑A800開(kāi)啟盲訂

態(tài)度原創(chuàng)

數(shù)碼
親子
健康
公開(kāi)課
軍事航空

數(shù)碼要聞

華為MatePad 11.5 2026平板搭載麒麟T82B / T82處理器

親子要聞

小孩便秘,家長(zhǎng)很苦惱?!中醫(yī)分享豬油洗澡

這些新療法,讓化療不再那么痛苦

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄軍中將在汽車(chē)炸彈爆炸中身亡 現(xiàn)場(chǎng)畫(huà)面披露

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版