国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

港科大聯(lián)合騰訊微信、北大發(fā)布首個(gè)大一統(tǒng)框架 Audio-Omni

0
分享至



近年來,隨著多模態(tài)大模型的飛速發(fā)展,視覺領(lǐng)域(如圖像、視頻)的「理解 - 生成 - 編輯」大一統(tǒng)模型不斷涌現(xiàn)。然而,在聲音的物理世界中,音頻模型卻依然處于各自為戰(zhàn)的狀態(tài):

現(xiàn)有的音頻大模型往往局限于單一任務(wù)(只能理解,或只能生成),或者受限于特定領(lǐng)域(做語音的處理不了音樂,做音樂的處理不了環(huán)境音)。與此同時(shí),音頻編輯(Audio Editing)更是因?yàn)闃O其匱乏大規(guī)模、高質(zhì)量的指令數(shù)據(jù)集,遲遲難以實(shí)現(xiàn)突破。

面對這一長期存在的技術(shù)難題,香港科技大學(xué)、騰訊微信視覺團(tuán)隊(duì)與北京大學(xué)的研究人員提出了一種全新的解耦框架 ——Audio-Omni。這是業(yè)界首個(gè)在統(tǒng)一框架下,同時(shí)支持通用聲音、音樂、語音三大領(lǐng)域的理解、生成與編輯的全能型多模態(tài)模型。

Audio-Omni 巧妙地將凍結(jié)的多模態(tài)大模型(MLLM)的強(qiáng)大推理能力,與可訓(xùn)練的擴(kuò)散生成器(DiT)的高保真合成能力完美結(jié)合。更重要的是,由于繼承了 MLLM 豐富的世界知識,Audio-Omni 展現(xiàn)出了眾多專家音頻模型難以實(shí)現(xiàn)的「涌現(xiàn)能力」。

目前,該研究成果已被頂級學(xué)術(shù)會(huì)議 SIGGRAPH 2026 接收,項(xiàng)目已開源。





An overview of the Audio-Omni framework and its capabilities.

  • 項(xiàng)目主頁:https://zeyuet.github.io/Audio-Omni/
  • 論文地址:https://arxiv.org/pdf/2604.10708
  • 開源代碼:https://github.com/ZeyueT/Audio-Omni
  • 開源模型:https://huggingface.co/HKUSTAudio/Audio-Omni

效果展示

無論是基礎(chǔ)的跨模態(tài)生成,還是精細(xì)的指令編輯,亦或是復(fù)雜的邏輯推理,Audio-Omni 都能在單一模型中輕松搞定。

1. 多模態(tài)音頻生成

在常規(guī)生成任務(wù)上,Audio-Omni 在多個(gè)基準(zhǔn)測試中達(dá)到 SoTA 水平,支持多種模態(tài)控制:

  • 文生音頻 (T2A)

A telephone dials twice, followed by the sound of glass shattering.



  • 文生音樂 (T2M)

Compose a bright jazz swing instrumental with walking bass, brushed drums, and a lively horn melody.



Create a cheerful acoustic folk song accompaniment with strummed guitar, light percussion, and a whistling-style lead melody.



  • 視頻配音 (V2A)



視頻地址:https://mp.weixin.qq.com/s/yBgZVzS28-WnG2KzQYAR0w?click_id=21

  • 視頻配樂 (V2M)



視頻地址:https://mp.weixin.qq.com/s/yBgZVzS28-WnG2KzQYAR0w?click_id=21

  • 文本到語音合成 (TTS)

The alchemist erased the circle in the sand, and the snake slithered away among the rocks.



2. 指令級靈活音頻編輯

前 10s 是輸入音頻,后 10s 是編輯后的結(jié)果:

  • 添加 (Add):在原有場景音中自然融入新元素。

Prompt: Add the sound of'skateboarding' to the input audio.



Input



Output



  • 移除 (Remove):剝離環(huán)境中的指定聲音。

Prompt: Remove the sound of 'female singing' from the input audio.



Input



Output



  • 提取 (Extract):精準(zhǔn)提取混音中的特定聲源。

Prompt: Extract the sound of 'ambulance siren' from the input audio.



Input



Output



  • 風(fēng)格遷移 (Style Transfer):改變物體的音色或整體環(huán)境風(fēng)格,同時(shí)精準(zhǔn)保留原始音頻的時(shí)序節(jié)奏與音高(Pitch)走向。

Prompt: Change the sound of 'dog barking' to 'hammering'.



Input



Output



Prompt: Change the sound of 'playing electric guitar' to 'playing saxophone'.







3. MLLM 賦予的「繼承能力」(Inherited Capabilities)

得益于獨(dú)特的架構(gòu)設(shè)計(jì),Audio-Omni 完美繼承了凍結(jié)的 MLLM 內(nèi)部的世界知識,展現(xiàn)出了傳統(tǒng)音頻生成模型難以具備的推理與認(rèn)知能力

  • 知識增強(qiáng)生成(Knowledge-Augmented Generation)

當(dāng)你在提示詞里寫下「齊柏林飛艇(Led Zeppelin)樂隊(duì)的 John Bonham 所演奏樂器的聲音」 時(shí),大多數(shù)常規(guī)模型會(huì)因?yàn)槿狈?yīng)文本與音頻的直接配對而生成失敗。但 Audio-Omni 能夠自行推理出該樂器是「架子鼓」,并直接合成出極具辨識度的硬核鼓點(diǎn)!

Prompt:The sound of the instrument that John Bonham played in Led Zeppelin.



  • 上下文生成(In-Context Generation)

給定一段簡單的鋼琴錄音,并輸入指令「生成一段不斷累積緊張感的電影配樂」,模型能精準(zhǔn)提取原音頻的音色,并創(chuàng)作出全新的旋律。

  • 零樣本跨語言控制(Cross-Lingual Control)

盡管模型訓(xùn)練時(shí)主要使用英文指令,但由于 MLLM 的多語言底子,你可以直接用中文、法語、德語、日語輸入指令,Audio-Omni 依然能生成毫不遜色的高保真音頻。



4. 自然解鎖的零樣本語音生成

通過訓(xùn)練時(shí)的掩碼(Masking)策略,Audio-Omni 可以在不進(jìn)行特定任務(wù)微調(diào)的情況下,直接解鎖零樣本音色轉(zhuǎn)換以及語音編輯能力



架構(gòu)揭秘:High/Low Level 混合條件控制策略

讓一個(gè)模型同時(shí)勝任「理解、生成、編輯」和「音、樂、語」所有領(lǐng)域,最大的挑戰(zhàn)在于如何處理復(fù)雜且存在差異的控制信號。單純的交叉注意力(Cross-Attention)無法做到高精度對齊,而全部拼接(Concatenation)又會(huì)破壞語言模型的語義空間。

為此,研究團(tuán)隊(duì)提出了一種優(yōu)雅的解耦架構(gòu)與雙流混合條件策略(Hybrid Conditioning Strategy)



1. 理解核心:采用凍結(jié)的預(yù)訓(xùn)練多模態(tài)大模型(Qwen2.5-Omni-3B),保留其所有的世界知識和推理能力。

2. 生成核心:一個(gè)具有 3B 參數(shù)的可訓(xùn)練擴(kuò)散生成器(DiT),結(jié)合 Rectified Flow 目標(biāo)函數(shù)負(fù)責(zé)高保真音頻合成。

3. 混合條件注入

  • 高層語義流(High-Level Semantic stream):包含 MLLM 提取的多模態(tài)特征和轉(zhuǎn)錄文本。這些特征被當(dāng)作全局指令向?qū)Вㄟ^交叉注意力(Cross-attention)注入 DiT,賦予模型極大的語義靈活度。
  • 底層信號流(Low-Level Signal stream):包含 Mel 頻譜特征(用于音色 / 編輯參考)和視頻同步特征(用于音畫對齊)。這些特征與輸入的噪聲隱變量進(jìn)行通道級拼接(Channel-wise Concatenation),從而為模型注入細(xì)粒度的時(shí)序約束,實(shí)現(xiàn)對生成內(nèi)容的高精度對齊與結(jié)構(gòu)把控。

這一「宏觀靠注意力,微觀靠拼接」的設(shè)計(jì),徹底打通了音頻全能生成的壁壘。另外,為了激發(fā)上述的零樣本語音能力,團(tuán)隊(duì)在訓(xùn)練階段對語音提示詞的 Mel 頻譜進(jìn)行隨機(jī)掩碼,逼迫模型學(xué)會(huì)從上下文中推理音色和內(nèi)容,從而自然習(xí)得了音色轉(zhuǎn)換和語音編輯能力。

數(shù)據(jù)破局:

構(gòu)建百萬級指令音頻編輯數(shù)據(jù)集 AudioEdit

在視覺領(lǐng)域,大規(guī)模數(shù)據(jù)集徹底引爆了圖像編輯;而在音頻領(lǐng)域,長期缺乏這樣的指令成對數(shù)據(jù)。目前基于合成的管線往往存在明顯的「合成感」,難以應(yīng)對真實(shí)世界的復(fù)雜聲學(xué)環(huán)境。

研究團(tuán)隊(duì)為此構(gòu)建了包含超 100 萬高質(zhì)量樣本的指令音頻編輯數(shù)據(jù)集 ——AudioEdit



數(shù)據(jù)處理流水線圖

為了兼顧數(shù)據(jù)的真實(shí)聲學(xué)保真度與超大規(guī)模多樣性,團(tuán)隊(duì)設(shè)計(jì)了雙管齊下的混合流水線:

  • 真實(shí)數(shù)據(jù)挖掘分支(Real Data Branch):從 VGGSound 等真實(shí)世界視頻入手,利用大模型(Gemini 2.5 Pro)識別核心發(fā)聲物,并調(diào)用最新的 SAM-Audio 進(jìn)行精準(zhǔn)音源分離(Source Separation)。通過嚴(yán)格的多階段 VAD 和 CLAP 語義對齊過濾,提取出極其純凈的「原始 - 編輯」音頻對。
  • 程序化合成數(shù)據(jù)分支(Synthesis Data Branch):利用 Scaper 工具包,將不同的前景音和背景音進(jìn)行音高、時(shí)長、信噪比的隨機(jī)混合,批量制造大規(guī)模的精準(zhǔn)標(biāo)注數(shù)據(jù)。

在 AudioEdit 的加持下,Audio-Omni 擁有了能夠應(yīng)對多項(xiàng)音頻編輯任務(wù)的能力。

Insight:

最后一層特征未必更適合跨模態(tài)合成

在探索 MLLM 與 DiT 的連接方式時(shí),研究團(tuán)隊(duì)進(jìn)行了一系列消融實(shí)驗(yàn),并得出了一個(gè)極具啟發(fā)性的結(jié)論:

對于音頻生成任務(wù),直接使用 MLLM 最后一層(Last Layer, -1)或復(fù)雜的 Query 機(jī)制效果并不理想,反而使用倒數(shù)第二層(Penultimate Layer, -2)的特征,能取得顯著更優(yōu)的表現(xiàn)。



團(tuán)隊(duì)深入分析認(rèn)為:MLLM 的最后一層特征為了迎合下一詞預(yù)測(Next-token prediction)的訓(xùn)練目標(biāo),往往變得過于「文本特化」,在這個(gè)過程中,大量豐富的、未壓縮的聲學(xué)細(xì)節(jié)和視覺語義被丟棄了。

而倒數(shù)第二層則像一個(gè)原生態(tài)的信息蓄水池,它既完成了高度抽象的語義理解,又保留了足以讓 DiT 合成高保真音頻的密集底層細(xì)節(jié)。這也揭示了:在將 LLM 接入高保真生成模型時(shí),避免底層信息的丟失比設(shè)計(jì)復(fù)雜的注意力查詢機(jī)制更為關(guān)鍵。

項(xiàng)目已開源

Audio-Omni 已在 GitHub 和 Hugging Face 上開源,包括代碼和模型權(quán)重。開源以來,Audio-Omni 在Hugging Face 全模態(tài)(Any-to-Any)模型熱榜(https://huggingface.co/models?pipeline_tag=any-to-any)上持續(xù)位列Top 5,受到了社區(qū)的廣泛關(guān)注與好評。



結(jié)語

Audio-Omni 的問世,證明了通過單一框架解決跨域音頻任務(wù)的可行性,打破了理解、生成和編輯之間的技術(shù)壁壘。其展現(xiàn)出的強(qiáng)大推理與零樣本控制能力,為后續(xù)工作提供了未來通用生成式音頻人工智能(Universal Generative Audio Intelligence)的演進(jìn)方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點(diǎn)
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來 | 伊朗的反應(yīng)為何如此激烈

偉偉道來 | 伊朗的反應(yīng)為何如此激烈

經(jīng)濟(jì)觀察報(bào)
2026-05-06 11:40:46
吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國買房,50萬英鎊獎(jiǎng)金需交稅超23萬鎊,實(shí)際到手約26.5萬鎊

吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國買房,50萬英鎊獎(jiǎng)金需交稅超23萬鎊,實(shí)際到手約26.5萬鎊

大風(fēng)新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個(gè)隱私,是性感嗎?

女性跑步:暴露這個(gè)隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

懂球帝
2026-05-05 19:39:09
在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒一個(gè)在出現(xiàn)場

在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒一個(gè)在出現(xiàn)場

侃故事的阿慶
2026-05-06 09:21:32
被延長的搶救時(shí)間,被卡住的工傷認(rèn)定

被延長的搶救時(shí)間,被卡住的工傷認(rèn)定

新京報(bào)
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動(dòng)筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動(dòng)筷子

畫夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說故事的阿襲
2026-05-05 20:20:30
8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當(dāng)?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報(bào)
2026-05-06 12:38:05
中美同時(shí)向全球下達(dá)禁令,各國都傻眼了!美媒:中國此舉史無前例

中美同時(shí)向全球下達(dá)禁令,各國都傻眼了!美媒:中國此舉史無前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

男子購百萬保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

頭條要聞

男子購百萬保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個(gè)人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財(cái)經(jīng)要聞

人形機(jī)器人七小龍:誰真能賣 誰在講故事?

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

藝術(shù)
家居
游戲
房產(chǎn)
數(shù)碼

藝術(shù)要聞

震撼!康斯坦丁攝影作品里的性感曲線讓人驚艷!

家居要聞

大膽前衛(wèi) 時(shí)尚大宅

掌控陰陽挑戰(zhàn)圣山!《生肖山Zodiac Mountain》登陸Steam牌組構(gòu)建游戲節(jié)

房產(chǎn)要聞

五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

數(shù)碼要聞

七彩虹戰(zhàn)斧B860M超級黑刃主板圖賞:899元的“千元旗艦”

無障礙瀏覽 進(jìn)入關(guān)懷版