Meta推出SAM Audio：AI實(shí)現(xiàn)精準(zhǔn)聲音對象分離

2025-12-26 18:20:01　來源: 至頂AI實(shí)驗(yàn)室

北京舉報

分享至

想象一下，你正在觀看一段嘈雜的視頻，里面有人在說話、狗在叫、還有背景音樂在播放?，F(xiàn)在，如果你只想聽到其中狗叫的聲音，該怎么辦？過去你可能需要專業(yè)的音頻編輯軟件和復(fù)雜的操作。但現(xiàn)在，Meta公司的研究團(tuán)隊(duì)開發(fā)出了一個名為SAM Audio的AI系統(tǒng)，你只需要說一句"狗叫聲"，它就能自動從復(fù)雜的聲音混合物中提取出純凈的狗叫聲，就像用篩子從沙子里篩出金子一樣神奇。

這項(xiàng)突破性研究由Meta超級智能實(shí)驗(yàn)室的包文石、Andros Tjandra、John Hoffman等眾多研究人員共同完成，發(fā)表于2025年12月23日，論文編號為arXiv:2512.18099v1。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過該編號查詢完整論文，同時研究團(tuán)隊(duì)還提供了在線演示和開源代碼。

要理解SAM Audio的重要意義，我們可以把聲音分離比作廚師從一鍋大雜燴中分離出不同食材的過程。傳統(tǒng)的聲音分離技術(shù)就像是只會做固定菜譜的廚師，比如專門分離人聲和背景音樂的工具，或者專門分離不同樂器的軟件。這些工具雖然在特定任務(wù)上表現(xiàn)不錯，但一旦遇到菜譜之外的要求就束手無策。如果你想要提取一種它們從未見過的聲音類型，就像要求一個只會做中餐的廚師突然做法國菜一樣困難。

更重要的是，現(xiàn)有技術(shù)通常只支持單一的"點(diǎn)菜"方式。有些只能通過文字描述來指定目標(biāo)聲音，有些只能通過視覺選擇，還有些壓根不支持用戶自定義。這就像餐廳要么只能看圖點(diǎn)菜，要么只能口述點(diǎn)菜，缺乏靈活性。而SAM Audio的革命性在于，它就像一位全能廚師，不僅能處理各種類型的"食材"（聲音），還支持多種"點(diǎn)菜"方式——你可以用文字描述想要的聲音，可以在視頻中直接指出發(fā)聲的物體或人物，甚至可以指定時間段來告訴它什么時候有你想要的聲音。

讓我們深入了解這位"全能廚師"是如何工作的。SAM Audio基于一種叫做擴(kuò)散變換器的深度學(xué)習(xí)架構(gòu)，這聽起來很復(fù)雜，但可以把它想象成一個非常精密的聲音處理工廠。這個工廠的核心是使用流匹配技術(shù)進(jìn)行訓(xùn)練，簡單來說就是教會AI如何從噪聲中逐步"雕刻"出目標(biāo)聲音，就像雕塑家從大理石中雕刻出精美雕像一樣。整個過程是漸進(jìn)式的：AI首先生成一個粗糙的聲音輪廓，然后不斷細(xì)化，最終得到精確的目標(biāo)聲音。

這個系統(tǒng)的獨(dú)特之處在于它的多模態(tài)理解能力。當(dāng)你給它一個文字描述，比如"鋼琴演奏"，系統(tǒng)會調(diào)用一個專門的文本編碼器來理解這個描述。當(dāng)你在視頻中點(diǎn)擊某個區(qū)域時，系統(tǒng)會使用SAM 2視覺編碼器來分析這個視覺區(qū)域?qū)?yīng)什么聲音。最有趣的是，研究團(tuán)隊(duì)還創(chuàng)新性地引入了"時間段提示"功能，你可以直接在音頻波形上標(biāo)記出目標(biāo)聲音出現(xiàn)的時間段，系統(tǒng)就能根據(jù)這個時間信息來提取聲音。

為了訓(xùn)練這個全能的聲音分離系統(tǒng)，研究團(tuán)隊(duì)面臨著巨大的數(shù)據(jù)挑戰(zhàn)。真實(shí)世界中很難找到既有復(fù)雜聲音混合，又有單獨(dú)分離出的純凈聲音的數(shù)據(jù)。這就像要訓(xùn)練一個廚師，你不僅需要各種大雜燴，還需要知道每種食材單獨(dú)是什么味道。為了解決這個問題，研究團(tuán)隊(duì)采用了三種巧妙的數(shù)據(jù)構(gòu)造策略。

第一種策略是使用完全真實(shí)的數(shù)據(jù)三元組。在音樂和語音領(lǐng)域，他們找到了一些高質(zhì)量的多軌錄音數(shù)據(jù)。比如在錄音棚錄制音樂時，每個樂器都會單獨(dú)錄制，最后混合成完整的歌曲。研究團(tuán)隊(duì)就利用這種數(shù)據(jù)，將各種樂器聲音重新組合，創(chuàng)造出不同的混合方案，讓AI學(xué)會如何從混合音中提取特定樂器的聲音。類似地，在對話數(shù)據(jù)中，他們使用了包含兩個說話者獨(dú)立錄音軌道的對話數(shù)據(jù)，總計(jì)超過2萬小時，讓AI學(xué)會分離不同說話者的聲音。

第二種策略是合成混合音頻。由于真實(shí)數(shù)據(jù)稀缺，研究團(tuán)隊(duì)開始"人工制作大雜燴"。他們收集了大量單一類型的音頻，比如純凈的音樂錄音、清晰的語音錄音和各種聲音效果，然后將它們隨機(jī)組合。這就像一個廚師拿著各種新鮮食材，按照不同的配方混合，創(chuàng)造出各種口味的"聲音大雜燴"。為了確保訓(xùn)練效果，他們還會調(diào)整不同聲音的音量比例，模擬真實(shí)環(huán)境中的各種情況。

第三種策略最為巧妙，叫做偽標(biāo)簽數(shù)據(jù)引擎。研究團(tuán)隊(duì)發(fā)現(xiàn)，簡單的隨機(jī)混合往往產(chǎn)生不自然的組合，比如將體育場的歡呼聲和森林中的鳥鳴混合在一起，這種組合在現(xiàn)實(shí)中幾乎不可能出現(xiàn)。為了解決這個問題，他們采用了一種"自舉"方法：首先用前兩種數(shù)據(jù)訓(xùn)練出一個初級版本的SAM Audio，然后用這個初級版本來分析真實(shí)世界的復(fù)雜音頻，自動生成更多訓(xùn)練數(shù)據(jù)。這個過程就像讓學(xué)徒廚師先學(xué)會基本功，然后讓他們?nèi)シ治龈鞣N現(xiàn)實(shí)中的復(fù)雜菜譜，從中學(xué)習(xí)更高級的搭配規(guī)律。

為了確保偽標(biāo)簽數(shù)據(jù)的質(zhì)量，研究團(tuán)隊(duì)設(shè)計(jì)了嚴(yán)格的篩選機(jī)制。他們使用CLAP模型來檢查文本描述和音頻內(nèi)容的匹配度，使用美學(xué)評估模型來判斷音頻的清晰程度，還會自動檢測過于安靜的輸出。只有同時通過所有質(zhì)量檢查的數(shù)據(jù)才會被納入最終的訓(xùn)練集。這種多重篩選就像質(zhì)檢員在生產(chǎn)線上層層把關(guān)，確保每個產(chǎn)品都符合標(biāo)準(zhǔn)。

在模型架構(gòu)設(shè)計(jì)上，SAM Audio采用了當(dāng)前最先進(jìn)的擴(kuò)散變換器技術(shù)。整個系統(tǒng)可以想象成一個精密的聲音工廠，包含多個專門的處理車間。音頻編碼車間負(fù)責(zé)將輸入的聲音轉(zhuǎn)換成AI能夠理解的數(shù)字表示，這里使用的是DAC-VAE編碼器，它能夠?qū)⒁纛l壓縮成每秒25幀的緊湊表示，既保持了音質(zhì)又減少了計(jì)算負(fù)擔(dān)。文本編碼車間使用T5文本編碼器來理解用戶的文字描述。視覺編碼車間則采用了最新的PE視覺編碼器，這比傳統(tǒng)的CLIP編碼器更擅長理解動作和場景上下文。

最創(chuàng)新的是時間段編碼車間的設(shè)計(jì)。研究團(tuán)隊(duì)將時間段信息轉(zhuǎn)換成類似文字序列的表示方法，每個時間點(diǎn)被標(biāo)記為"活躍"或"靜默"，就像制作音樂樂譜一樣，標(biāo)記出每個音符出現(xiàn)的時間點(diǎn)。這種設(shè)計(jì)使得AI能夠精確理解用戶指定的時間信息，實(shí)現(xiàn)frame級別的精確控制。

在訓(xùn)練過程中，SAM Audio不僅學(xué)會分離目標(biāo)聲音，還同時學(xué)會生成剩余聲音。這意味著它能夠輸出兩個音軌：一個包含你想要的聲音，另一個包含所有其他聲音。這種設(shè)計(jì)使得該系統(tǒng)既可以用來提取聲音，也可以用來去除不想要的聲音，就像一把雙刃劍，正反兩面都能使用。

為了提高訓(xùn)練效果，研究團(tuán)隊(duì)還引入了一個巧妙的輔助訓(xùn)練機(jī)制。除了主要的聲音生成任務(wù)，系統(tǒng)還需要學(xué)會識別聲音事件。他們使用了一個專門的音頻事件檢測模型作為"老師"，讓SAM Audio的內(nèi)部表示盡可能接近這個老師模型的理解。這就像讓學(xué)生不僅要會做題，還要理解解題思路，從而獲得更深層的理解能力。

在實(shí)際應(yīng)用中，SAM Audio展現(xiàn)出了驚人的靈活性。當(dāng)用戶只提供文字描述時，系統(tǒng)還會自動預(yù)測相應(yīng)的時間段信息來增強(qiáng)分離效果。這個預(yù)測功能使用了PEA-Frame模型，它能夠分析音頻并自動標(biāo)出指定聲音出現(xiàn)的時間段。這就像一個經(jīng)驗(yàn)豐富的音響師，即使你只說了想要什么聲音，他也能自動判斷出這個聲音最可能在什么時候出現(xiàn)，從而做出更精確的調(diào)整。

對于超長音頻的處理，研究團(tuán)隊(duì)采用了多重擴(kuò)散技術(shù)。傳統(tǒng)方法處理長音頻時，要么因?yàn)閮?nèi)存限制無法處理，要么將音頻切成片段獨(dú)立處理，導(dǎo)致片段之間出現(xiàn)不連續(xù)的問題。SAM Audio的解決方案更加優(yōu)雅，它將長音頻分成重疊的窗口，每個窗口都能看到相鄰窗口的一部分內(nèi)容。在每個處理步驟中，系統(tǒng)會綜合所有窗口的信息，確保最終結(jié)果的連貫性。這就像多個工人協(xié)同完成一項(xiàng)長工序，每個人負(fù)責(zé)一段，但大家會互相溝通，確保整體工作的一致性。

為了驗(yàn)證SAM Audio的性能，研究團(tuán)隊(duì)面臨著另一個挑戰(zhàn)：如何公平地評估聲音分離效果。傳統(tǒng)的評估方法主要依賴信噪比等技術(shù)指標(biāo)，但這些指標(biāo)往往與人類的聽覺感受不一致。兩個在技術(shù)指標(biāo)上相似的音頻在實(shí)際聽起來可能差別很大，就像兩道菜的營養(yǎng)成分相同，但口味完全不同。

為了解決這個評估難題，研究團(tuán)隊(duì)開發(fā)了兩個重要工具。首先是SAM Audio-Bench，這是一個全面的測試基準(zhǔn)，包含了來自真實(shí)世界的各種音頻和視頻數(shù)據(jù)，涵蓋語音、音樂和一般聲音效果等多個領(lǐng)域。與以往主要使用合成數(shù)據(jù)的測試集不同，這個基準(zhǔn)使用的都是真實(shí)環(huán)境錄制的音頻，更能反映實(shí)際使用場景的復(fù)雜性。每個測試樣本都有人工標(biāo)注的多模態(tài)提示，包括文字描述、視覺標(biāo)記和時間段標(biāo)記，使得可以全面測試模型的各種能力。

更重要的是，研究團(tuán)隊(duì)開發(fā)了SAM Audio Judge，這是一個能夠自動評估聲音分離質(zhì)量的AI評判員。這個評判員經(jīng)過大量人類評估數(shù)據(jù)的訓(xùn)練，學(xué)會了從多個維度評估分離效果：召回率衡量目標(biāo)聲音是否被完整提取，精確度衡量是否混入了不相關(guān)的聲音，保真度衡量分離出的聲音與原始聲音的相似程度。最令人印象深刻的是，這個AI評判員與人類評估的相關(guān)性達(dá)到了0.88，遠(yuǎn)遠(yuǎn)超過傳統(tǒng)技術(shù)指標(biāo)的0.49。這意味著AI評判員的判斷已經(jīng)非常接近人類的感受。

在大規(guī)模實(shí)驗(yàn)中，SAM Audio展現(xiàn)出了全面超越現(xiàn)有技術(shù)的性能。在一般聲音事件分離任務(wù)中，它比目前最好的公開模型SoloAudio的勝率高出約36%。在專業(yè)領(lǐng)域表現(xiàn)更加出色，比如在樂器分離任務(wù)中，即使與專門針對音樂設(shè)計(jì)的Demucs系統(tǒng)相比，SAM Audio的勝率仍然達(dá)到17.6%。在說話者分離任務(wù)中，相比專業(yè)的AudioShake系統(tǒng)，SAM Audio的整體質(zhì)量評分提高了近4%，勝率高達(dá)39%。

特別值得一提的是視覺提示功能的表現(xiàn)。雖然視覺引導(dǎo)的聲音分離技術(shù)相對較少被研究，但SAM Audio在這方面同樣表現(xiàn)出色。相比現(xiàn)有的DAVIS-Flow系統(tǒng)，SAM Audio在不同任務(wù)中的勝率從5%到48%不等。研究團(tuán)隊(duì)發(fā)現(xiàn)，視覺提示在某些特定場景中特別有用，比如在多人對話的視頻中，當(dāng)你想分離某個特定說話者的聲音時，文字描述"男性說話"可能無法區(qū)分兩個男性說話者，但點(diǎn)擊視頻中的特定人物就能精確指定目標(biāo)。

時間段提示功能的引入更是展現(xiàn)了研究團(tuán)隊(duì)的創(chuàng)新思維。在復(fù)雜的聲音環(huán)境中，有時候文字描述很難精確表達(dá)想要的聲音，比如電影配樂中的某個特定音效。通過標(biāo)記時間段，用戶可以告訴系統(tǒng)"我想要第3到5秒之間出現(xiàn)的那個聲音"，系統(tǒng)就能根據(jù)時間定位來提取目標(biāo)聲音。實(shí)驗(yàn)結(jié)果顯示，將文字描述和時間段提示結(jié)合使用，能夠在各個領(lǐng)域都帶來12.9%到39.0%的性能提升。

研究團(tuán)隊(duì)還深入分析了不同提示方式的特點(diǎn)和適用場景。文字提示具有最好的可訪問性，用戶只需要簡單描述就能使用，而且由于有大量高質(zhì)量的文字-音頻訓(xùn)練數(shù)據(jù)，文字提示通常能達(dá)到最好的分離效果。視覺提示則擅長處理模糊場景，當(dāng)同一類型的聲音有多個來源時，視覺定位能夠提供實(shí)例級別的區(qū)分。時間段提示最適合處理瞬時性強(qiáng)的聲音事件，比如門關(guān)上的聲音、狗叫聲等，這類聲音的時間定位信息非常有價值。

在模型規(guī)模的研究中，團(tuán)隊(duì)訓(xùn)練了三個不同大小的版本：5億、10億和30億參數(shù)。就像不同馬力的發(fā)動機(jī)一樣，更大的模型在處理復(fù)雜任務(wù)時表現(xiàn)更好，特別是在專業(yè)領(lǐng)域如樂器分離中，30億參數(shù)的模型比10億參數(shù)版本的勝率高出23%。但在一些基礎(chǔ)任務(wù)中，較小的模型也能達(dá)到相當(dāng)不錯的效果，這為不同應(yīng)用場景提供了靈活的選擇空間。

系統(tǒng)的實(shí)時性能也經(jīng)過了精心優(yōu)化。對于10秒的音頻，SAM Audio在單張A100 GPU上大約需要7.3秒完成處理，其中包括模型計(jì)算、時間段預(yù)測和結(jié)果優(yōu)化等所有步驟。雖然還不能做到實(shí)時處理，但對于大多數(shù)實(shí)際應(yīng)用已經(jīng)足夠快。更有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)即使將計(jì)算步驟從16步減少到2步，系統(tǒng)仍然能保持令人滿意的分離效果，這為需要快速處理的應(yīng)用場景提供了可能。

在長音頻處理方面，SAM Audio采用了多重擴(kuò)散技術(shù)。傳統(tǒng)的分塊處理方法會在塊與塊之間產(chǎn)生明顯的不連續(xù)性，聽起來就像拼接的錄音帶。SAM Audio的方法更像是多個畫家同時在一幅長卷上作畫，每個畫家負(fù)責(zé)一段，但他們會時刻關(guān)注相鄰區(qū)域的筆觸，確保整體畫面的和諧統(tǒng)一。實(shí)驗(yàn)結(jié)果證明，這種方法比簡單分塊處理的效果提升明顯，音頻的連貫性和整體質(zhì)量都得到了保證。

研究團(tuán)隊(duì)還深入研究了聲音分離任務(wù)的內(nèi)在難度。他們發(fā)現(xiàn)，分離任務(wù)的難度主要取決于幾個因素：混合音中非目標(biāo)聲音的數(shù)量、目標(biāo)聲音與非目標(biāo)聲音的重疊程度、目標(biāo)聲音的相對音量，以及非目標(biāo)聲音與目標(biāo)聲音的相似程度。基于這些因素，他們建立了一個自動難度評估系統(tǒng)，能夠預(yù)測某個分離任務(wù)對人類來說有多困難。實(shí)驗(yàn)證實(shí)，隨著任務(wù)難度的增加，人類評估者給出的分離質(zhì)量評分確實(shí)單調(diào)遞減，驗(yàn)證了這個難度評估系統(tǒng)的有效性。

在商業(yè)模型的對比中，SAM Audio不僅超越了所有開源模型，甚至在多數(shù)任務(wù)中超過了商業(yè)化的專業(yè)音頻處理服務(wù)。比如在語音增強(qiáng)任務(wù)中，SAM Audio的表現(xiàn)超過了AudioShake、MoisesAI等知名商業(yè)產(chǎn)品。在音樂分離任務(wù)中，它也明顯優(yōu)于專業(yè)音頻制作工具。這種全面的性能優(yōu)勢證明了統(tǒng)一訓(xùn)練方法的威力：通過在大規(guī)模多樣化數(shù)據(jù)上統(tǒng)一訓(xùn)練，單一模型能夠在多個專業(yè)領(lǐng)域都達(dá)到或超越專門為該領(lǐng)域設(shè)計(jì)的系統(tǒng)。

研究團(tuán)隊(duì)特別強(qiáng)調(diào)了SAM Audio Judge評估系統(tǒng)的價值。傳統(tǒng)的音頻分離評估主要依賴技術(shù)指標(biāo)，但這些指標(biāo)往往與人類的主觀感受脫節(jié)。SAM Audio Judge通過學(xué)習(xí)大量人類評估數(shù)據(jù)，能夠更準(zhǔn)確地預(yù)測人類對分離效果的滿意度。這個評估系統(tǒng)本身就是一個重要貢獻(xiàn)，可以幫助其他研究者更好地評估和比較不同的聲音分離方法。

整個研究還揭示了一些有趣的發(fā)現(xiàn)。比如，視覺提示雖然在某些場景中非常有用，但總體效果不如文字提示，主要原因是視覺訓(xùn)練數(shù)據(jù)相對較少且質(zhì)量參差不齊，而且視覺區(qū)域往往比文字描述更加模糊。一個人的視覺區(qū)域可能對應(yīng)多種不同的聲音，而"男性說話"這樣的文字描述則相對明確。

另一個重要發(fā)現(xiàn)是時間段預(yù)測的有效性。即使是自動預(yù)測的時間段信息，而非人工標(biāo)注的準(zhǔn)確時間段，也能顯著提升分離效果。這意味著用戶在實(shí)際使用時，即使只提供文字描述，系統(tǒng)也能自動增強(qiáng)處理效果，無需額外的人工標(biāo)注工作。

SAM Audio的成功不僅在于其技術(shù)先進(jìn)性，更在于其實(shí)用性和通用性。無論是專業(yè)音頻制作人員需要從復(fù)雜混音中提取特定樂器，還是普通用戶想要從嘈雜視頻中提取清晰對話，或者研究人員需要分析野外錄音中的特定聲音事件，SAM Audio都能提供統(tǒng)一的解決方案。這種"一站式"服務(wù)的價值在于降低了使用門檻，用戶無需學(xué)習(xí)多個不同的專業(yè)工具，只需要掌握一個系統(tǒng)就能處理各種聲音分離需求。

當(dāng)然，這項(xiàng)研究也坦誠地指出了現(xiàn)有的局限性。視覺提示的效果仍然明顯低于文字提示，主要原因是缺乏足夠的高質(zhì)量音視頻對應(yīng)訓(xùn)練數(shù)據(jù)。一般聲音效果的分離仍然比專業(yè)領(lǐng)域如語音或音樂更具挑戰(zhàn)性，因?yàn)槁曇粜Ч愋透佣鄻踊吔绺幽：?。這些限制為未來的研究指明了方向，需要更強(qiáng)的音視頻對應(yīng)學(xué)習(xí)和更好的復(fù)雜多源聲音場景建模技術(shù)。

研究團(tuán)隊(duì)在論文中還詳細(xì)描述了訓(xùn)練的具體配置。他們使用了兩階段訓(xùn)練策略：首先在大規(guī)模通用視頻數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，建立基礎(chǔ)的聲音分離能力，然后在精選的高質(zhì)量數(shù)據(jù)上進(jìn)行微調(diào)，提升在專業(yè)領(lǐng)域的表現(xiàn)。預(yù)訓(xùn)練階段使用了有效批量大小為1024的設(shè)置，訓(xùn)練50萬次更新。微調(diào)階段則采用了變長批處理技術(shù)，根據(jù)模型大小調(diào)整每批的token數(shù)量，訓(xùn)練30萬次更新。整個訓(xùn)練過程使用了全分片數(shù)據(jù)并行來適應(yīng)模型規(guī)模，確保訓(xùn)練效率。

推理時，系統(tǒng)使用16步的中點(diǎn)ODE求解器，不需要分類器自由引導(dǎo)就能達(dá)到很好的效果。為了進(jìn)一步提升輸出質(zhì)量，系統(tǒng)還會生成8個候選結(jié)果，然后使用SAM Audio Judge和CLAP分?jǐn)?shù)的線性組合來選擇最佳輸出。這種候選重排序機(jī)制能夠顯著提高最終分離效果的質(zhì)量和穩(wěn)定性。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)突破本身。在教育領(lǐng)域，SAM Audio可以幫助語言學(xué)習(xí)者從嘈雜環(huán)境中提取清晰的目標(biāo)語音，或者幫助音樂學(xué)習(xí)者從復(fù)雜樂曲中分離出特定樂器進(jìn)行學(xué)習(xí)。在輔助技術(shù)領(lǐng)域，它可以為聽力輔助設(shè)備提供更好的聲音分離功能，幫助用戶在嘈雜環(huán)境中專注于重要聲音。在內(nèi)容創(chuàng)作領(lǐng)域，它為音頻編輯、播客制作、視頻后期等提供了強(qiáng)大的工具。

研究團(tuán)隊(duì)還特別強(qiáng)調(diào)了開放科學(xué)的重要性。他們不僅發(fā)布了模型代碼和演示系統(tǒng)，還公開了完整的訓(xùn)練數(shù)據(jù)構(gòu)建流程和評估基準(zhǔn)。這種開放性將極大促進(jìn)整個領(lǐng)域的發(fā)展，讓更多研究者能夠基于這項(xiàng)工作繼續(xù)創(chuàng)新。SAM Audio-Bench作為統(tǒng)一的評估標(biāo)準(zhǔn)，也將有助于未來不同方法之間的公平比較。

從技術(shù)發(fā)展的角度看，SAM Audio代表了AI聲音理解能力的一個重要里程碑。它不僅展示了大模型在音頻領(lǐng)域的潛力，更重要的是證明了多模態(tài)統(tǒng)一訓(xùn)練的有效性。通過同時學(xué)習(xí)文字、視覺和時間信息，AI系統(tǒng)獲得了更加全面和靈活的聲音理解能力，這為構(gòu)建真正智能的多模態(tài)AI系統(tǒng)奠定了重要基礎(chǔ)。

說到底，SAM Audio的真正價值在于它將復(fù)雜的專業(yè)音頻處理技術(shù)變成了普通人都能輕松使用的工具。就像智能手機(jī)將復(fù)雜的通信技術(shù)變成日常工具一樣，SAM Audio有望將聲音分離從專業(yè)音頻制作的小眾領(lǐng)域擴(kuò)展到每個人的日常生活中。無論你是想從家庭錄像中提取孩子的笑聲，還是想從演唱會錄音中分離出特定樂器的演奏，SAM Audio都能夠理解你的需求并提供高質(zhì)量的結(jié)果。這種技術(shù)的普及化將為聲音處理領(lǐng)域帶來革命性的變化，讓每個人都能成為自己的聲音魔法師。

Q&A

Q1：SAM Audio是什么？

A：SAM Audio是Meta公司開發(fā)的AI聲音分離系統(tǒng)，它能夠從復(fù)雜的聲音混合物中提取用戶想要的任何特定聲音。用戶可以通過文字描述、視頻中的視覺選擇或時間段標(biāo)記來指定目標(biāo)聲音，系統(tǒng)會自動分離出純凈的目標(biāo)音軌和剩余音軌。

Q2：SAM Audio相比現(xiàn)有聲音分離工具有什么優(yōu)勢？

A：SAM Audio的最大優(yōu)勢是統(tǒng)一性和靈活性。傳統(tǒng)工具通常只能處理固定類型的聲音分離，比如專門分離人聲和音樂，而SAM Audio可以分離任何類型的聲音。更重要的是，它支持三種提示方式的任意組合使用，在各個專業(yè)領(lǐng)域都達(dá)到了超越專門系統(tǒng)的性能。

Q3：普通用戶如何使用SAM Audio？

A：目前用戶可以通過Meta提供的在線演示體驗(yàn)SAM Audio，研究團(tuán)隊(duì)還開源了代碼供開發(fā)者使用。對于10秒音頻，系統(tǒng)需要約7秒處理時間。用戶只需上傳音頻或視頻文件，然后通過文字描述、點(diǎn)擊視覺區(qū)域或標(biāo)記時間段的方式指定想要提取的聲音即可。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.