国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

港科大聯(lián)合騰訊微信、北大發(fā)布首個(gè)大一統(tǒng)框架 Audio-Omni

0
分享至



近年來,隨著多模態(tài)大模型的飛速發(fā)展,視覺領(lǐng)域(如圖像、視頻)的「理解 - 生成 - 編輯」大一統(tǒng)模型不斷涌現(xiàn)。然而,在聲音的物理世界中,音頻模型卻依然處于各自為戰(zhàn)的狀態(tài):

現(xiàn)有的音頻大模型往往局限于單一任務(wù)(只能理解,或只能生成),或者受限于特定領(lǐng)域(做語音的處理不了音樂,做音樂的處理不了環(huán)境音)。與此同時(shí),音頻編輯(Audio Editing)更是因?yàn)闃O其匱乏大規(guī)模、高質(zhì)量的指令數(shù)據(jù)集,遲遲難以實(shí)現(xiàn)突破。

面對(duì)這一長期存在的技術(shù)難題,香港科技大學(xué)、騰訊微信視覺團(tuán)隊(duì)與北京大學(xué)的研究人員提出了一種全新的解耦框架 ——Audio-Omni。這是業(yè)界首個(gè)在統(tǒng)一框架下,同時(shí)支持通用聲音、音樂、語音三大領(lǐng)域的理解、生成與編輯的全能型多模態(tài)模型。

Audio-Omni 巧妙地將凍結(jié)的多模態(tài)大模型(MLLM)的強(qiáng)大推理能力,與可訓(xùn)練的擴(kuò)散生成器(DiT)的高保真合成能力完美結(jié)合。更重要的是,由于繼承了 MLLM 豐富的世界知識(shí),Audio-Omni 展現(xiàn)出了眾多專家音頻模型難以實(shí)現(xiàn)的「涌現(xiàn)能力」。

目前,該研究成果已被頂級(jí)學(xué)術(shù)會(huì)議 SIGGRAPH 2026 接收,項(xiàng)目已開源。





An overview of the Audio-Omni framework and its capabilities.

  • 項(xiàng)目主頁:https://zeyuet.github.io/Audio-Omni/
  • 論文地址:https://arxiv.org/pdf/2604.10708
  • 開源代碼:https://github.com/ZeyueT/Audio-Omni
  • 開源模型:https://huggingface.co/HKUSTAudio/Audio-Omni

效果展示

無論是基礎(chǔ)的跨模態(tài)生成,還是精細(xì)的指令編輯,亦或是復(fù)雜的邏輯推理,Audio-Omni 都能在單一模型中輕松搞定。

1. 多模態(tài)音頻生成

在常規(guī)生成任務(wù)上,Audio-Omni 在多個(gè)基準(zhǔn)測試中達(dá)到 SoTA 水平,支持多種模態(tài)控制:

  • 文生音頻 (T2A)

A telephone dials twice, followed by the sound of glass shattering.



  • 文生音樂 (T2M)

Compose a bright jazz swing instrumental with walking bass, brushed drums, and a lively horn melody.



Create a cheerful acoustic folk song accompaniment with strummed guitar, light percussion, and a whistling-style lead melody.



  • 視頻配音 (V2A)



視頻地址:https://mp.weixin.qq.com/s/yBgZVzS28-WnG2KzQYAR0w?click_id=21

  • 視頻配樂 (V2M)



視頻地址:https://mp.weixin.qq.com/s/yBgZVzS28-WnG2KzQYAR0w?click_id=21

  • 文本到語音合成 (TTS)

The alchemist erased the circle in the sand, and the snake slithered away among the rocks.



2. 指令級(jí)靈活音頻編輯

前 10s 是輸入音頻,后 10s 是編輯后的結(jié)果:

  • 添加 (Add):在原有場景音中自然融入新元素。

Prompt: Add the sound of'skateboarding' to the input audio.



Input



Output



  • 移除 (Remove):剝離環(huán)境中的指定聲音。

Prompt: Remove the sound of 'female singing' from the input audio.



Input



Output



  • 提取 (Extract):精準(zhǔn)提取混音中的特定聲源。

Prompt: Extract the sound of 'ambulance siren' from the input audio.



Input



Output



  • 風(fēng)格遷移 (Style Transfer):改變物體的音色或整體環(huán)境風(fēng)格,同時(shí)精準(zhǔn)保留原始音頻的時(shí)序節(jié)奏與音高(Pitch)走向。

Prompt: Change the sound of 'dog barking' to 'hammering'.



Input



Output



Prompt: Change the sound of 'playing electric guitar' to 'playing saxophone'.







3. MLLM 賦予的「繼承能力」(Inherited Capabilities)

得益于獨(dú)特的架構(gòu)設(shè)計(jì),Audio-Omni 完美繼承了凍結(jié)的 MLLM 內(nèi)部的世界知識(shí),展現(xiàn)出了傳統(tǒng)音頻生成模型難以具備的推理與認(rèn)知能力

  • 知識(shí)增強(qiáng)生成(Knowledge-Augmented Generation)

當(dāng)你在提示詞里寫下「齊柏林飛艇(Led Zeppelin)樂隊(duì)的 John Bonham 所演奏樂器的聲音」 時(shí),大多數(shù)常規(guī)模型會(huì)因?yàn)槿狈?duì)應(yīng)文本與音頻的直接配對(duì)而生成失敗。但 Audio-Omni 能夠自行推理出該樂器是「架子鼓」,并直接合成出極具辨識(shí)度的硬核鼓點(diǎn)!

Prompt:The sound of the instrument that John Bonham played in Led Zeppelin.



  • 上下文生成(In-Context Generation)

給定一段簡單的鋼琴錄音,并輸入指令「生成一段不斷累積緊張感的電影配樂」,模型能精準(zhǔn)提取原音頻的音色,并創(chuàng)作出全新的旋律。

  • 零樣本跨語言控制(Cross-Lingual Control)

盡管模型訓(xùn)練時(shí)主要使用英文指令,但由于 MLLM 的多語言底子,你可以直接用中文、法語、德語、日語輸入指令,Audio-Omni 依然能生成毫不遜色的高保真音頻。



4. 自然解鎖的零樣本語音生成

通過訓(xùn)練時(shí)的掩碼(Masking)策略,Audio-Omni 可以在不進(jìn)行特定任務(wù)微調(diào)的情況下,直接解鎖零樣本音色轉(zhuǎn)換以及語音編輯能力



架構(gòu)揭秘:High/Low Level 混合條件控制策略

讓一個(gè)模型同時(shí)勝任「理解、生成、編輯」和「音、樂、語」所有領(lǐng)域,最大的挑戰(zhàn)在于如何處理復(fù)雜且存在差異的控制信號(hào)。單純的交叉注意力(Cross-Attention)無法做到高精度對(duì)齊,而全部拼接(Concatenation)又會(huì)破壞語言模型的語義空間。

為此,研究團(tuán)隊(duì)提出了一種優(yōu)雅的解耦架構(gòu)與雙流混合條件策略(Hybrid Conditioning Strategy)



1. 理解核心:采用凍結(jié)的預(yù)訓(xùn)練多模態(tài)大模型(Qwen2.5-Omni-3B),保留其所有的世界知識(shí)和推理能力。

2. 生成核心:一個(gè)具有 3B 參數(shù)的可訓(xùn)練擴(kuò)散生成器(DiT),結(jié)合 Rectified Flow 目標(biāo)函數(shù)負(fù)責(zé)高保真音頻合成。

3. 混合條件注入

  • 高層語義流(High-Level Semantic stream):包含 MLLM 提取的多模態(tài)特征和轉(zhuǎn)錄文本。這些特征被當(dāng)作全局指令向?qū)?,通過交叉注意力(Cross-attention)注入 DiT,賦予模型極大的語義靈活度。
  • 底層信號(hào)流(Low-Level Signal stream):包含 Mel 頻譜特征(用于音色 / 編輯參考)和視頻同步特征(用于音畫對(duì)齊)。這些特征與輸入的噪聲隱變量進(jìn)行通道級(jí)拼接(Channel-wise Concatenation),從而為模型注入細(xì)粒度的時(shí)序約束,實(shí)現(xiàn)對(duì)生成內(nèi)容的高精度對(duì)齊與結(jié)構(gòu)把控。

這一「宏觀靠注意力,微觀靠拼接」的設(shè)計(jì),徹底打通了音頻全能生成的壁壘。另外,為了激發(fā)上述的零樣本語音能力,團(tuán)隊(duì)在訓(xùn)練階段對(duì)語音提示詞的 Mel 頻譜進(jìn)行隨機(jī)掩碼,逼迫模型學(xué)會(huì)從上下文中推理音色和內(nèi)容,從而自然習(xí)得了音色轉(zhuǎn)換和語音編輯能力。

數(shù)據(jù)破局:

構(gòu)建百萬級(jí)指令音頻編輯數(shù)據(jù)集 AudioEdit

在視覺領(lǐng)域,大規(guī)模數(shù)據(jù)集徹底引爆了圖像編輯;而在音頻領(lǐng)域,長期缺乏這樣的指令成對(duì)數(shù)據(jù)。目前基于合成的管線往往存在明顯的「合成感」,難以應(yīng)對(duì)真實(shí)世界的復(fù)雜聲學(xué)環(huán)境。

研究團(tuán)隊(duì)為此構(gòu)建了包含超 100 萬高質(zhì)量樣本的指令音頻編輯數(shù)據(jù)集 ——AudioEdit



數(shù)據(jù)處理流水線圖

為了兼顧數(shù)據(jù)的真實(shí)聲學(xué)保真度與超大規(guī)模多樣性,團(tuán)隊(duì)設(shè)計(jì)了雙管齊下的混合流水線:

  • 真實(shí)數(shù)據(jù)挖掘分支(Real Data Branch):從 VGGSound 等真實(shí)世界視頻入手,利用大模型(Gemini 2.5 Pro)識(shí)別核心發(fā)聲物,并調(diào)用最新的 SAM-Audio 進(jìn)行精準(zhǔn)音源分離(Source Separation)。通過嚴(yán)格的多階段 VAD 和 CLAP 語義對(duì)齊過濾,提取出極其純凈的「原始 - 編輯」音頻對(duì)。
  • 程序化合成數(shù)據(jù)分支(Synthesis Data Branch):利用 Scaper 工具包,將不同的前景音和背景音進(jìn)行音高、時(shí)長、信噪比的隨機(jī)混合,批量制造大規(guī)模的精準(zhǔn)標(biāo)注數(shù)據(jù)。

在 AudioEdit 的加持下,Audio-Omni 擁有了能夠應(yīng)對(duì)多項(xiàng)音頻編輯任務(wù)的能力。

Insight:

最后一層特征未必更適合跨模態(tài)合成

在探索 MLLM 與 DiT 的連接方式時(shí),研究團(tuán)隊(duì)進(jìn)行了一系列消融實(shí)驗(yàn),并得出了一個(gè)極具啟發(fā)性的結(jié)論:

對(duì)于音頻生成任務(wù),直接使用 MLLM 最后一層(Last Layer, -1)或復(fù)雜的 Query 機(jī)制效果并不理想,反而使用倒數(shù)第二層(Penultimate Layer, -2)的特征,能取得顯著更優(yōu)的表現(xiàn)。



團(tuán)隊(duì)深入分析認(rèn)為:MLLM 的最后一層特征為了迎合下一詞預(yù)測(Next-token prediction)的訓(xùn)練目標(biāo),往往變得過于「文本特化」,在這個(gè)過程中,大量豐富的、未壓縮的聲學(xué)細(xì)節(jié)和視覺語義被丟棄了。

而倒數(shù)第二層則像一個(gè)原生態(tài)的信息蓄水池,它既完成了高度抽象的語義理解,又保留了足以讓 DiT 合成高保真音頻的密集底層細(xì)節(jié)。這也揭示了:在將 LLM 接入高保真生成模型時(shí),避免底層信息的丟失比設(shè)計(jì)復(fù)雜的注意力查詢機(jī)制更為關(guān)鍵。

項(xiàng)目已開源

Audio-Omni 已在 GitHub 和 Hugging Face 上開源,包括代碼和模型權(quán)重。開源以來,Audio-Omni 在Hugging Face 全模態(tài)(Any-to-Any)模型熱榜(https://huggingface.co/models?pipeline_tag=any-to-any)上持續(xù)位列Top 5,受到了社區(qū)的廣泛關(guān)注與好評(píng)。



結(jié)語

Audio-Omni 的問世,證明了通過單一框架解決跨域音頻任務(wù)的可行性,打破了理解、生成和編輯之間的技術(shù)壁壘。其展現(xiàn)出的強(qiáng)大推理與零樣本控制能力,為后續(xù)工作提供了未來通用生成式音頻人工智能(Universal Generative Audio Intelligence)的演進(jìn)方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
正式確定!開拓者中鋒加盟深圳男籃,攜手賀希寧,沖擊總冠軍

正式確定!開拓者中鋒加盟深圳男籃,攜手賀希寧,沖擊總冠軍

體壇瞎白話
2026-04-24 09:22:57
25周年英皇演唱會(huì)陣容出爐!張敬軒壓軸出場!

25周年英皇演唱會(huì)陣容出爐!張敬軒壓軸出場!

廣州正嘢
2026-04-24 13:07:03
上海警方通報(bào)“女子機(jī)場兩次拒幫陌生人帶行李”:3人購買大量免稅品欲帶至境外販賣,反復(fù)糾纏10余名旅客要求“分擔(dān)行李”,已被行拘

上海警方通報(bào)“女子機(jī)場兩次拒幫陌生人帶行李”:3人購買大量免稅品欲帶至境外販賣,反復(fù)糾纏10余名旅客要求“分擔(dān)行李”,已被行拘

極目新聞
2026-04-23 14:36:35
WC?。「曦悹柊袽VP打花了!

WC?。「曦悹柊袽VP打花了!

風(fēng)子說個(gè)球
2026-04-24 14:19:29
99年我在守水庫,遇到一個(gè)道士借宿,他走時(shí)叮囑我,最近先別下山

99年我在守水庫,遇到一個(gè)道士借宿,他走時(shí)叮囑我,最近先別下山

千秋文化
2026-04-20 19:50:05
嗜賭成性只是冰山一角,婚內(nèi)出軌、睡有婦之夫,體壇丑聞毀三觀

嗜賭成性只是冰山一角,婚內(nèi)出軌、睡有婦之夫,體壇丑聞毀三觀

夢想總會(huì)變成真
2026-04-23 01:11:47
APP上預(yù)約機(jī)器人上門做家務(wù)?一個(gè)月后,這家公司機(jī)器人將進(jìn)入家庭

APP上預(yù)約機(jī)器人上門做家務(wù)?一個(gè)月后,這家公司機(jī)器人將進(jìn)入家庭

證券時(shí)報(bào)e公司
2026-04-23 11:57:36
回爐再造!北京推全日制大學(xué)生技師班,網(wǎng)友:如今缺少的就是技工

回爐再造!北京推全日制大學(xué)生技師班,網(wǎng)友:如今缺少的就是技工

火山詩話
2026-04-24 06:42:52
老球王戴維斯:我不想貶低丁俊暉,但誰都知道趙心童是更好的球員

老球王戴維斯:我不想貶低丁俊暉,但誰都知道趙心童是更好的球員

楊華評(píng)論
2026-04-24 03:04:33
河南醫(yī)保女主任主動(dòng)投案!掌管幾百萬人的救命錢,最終還是沒逃過

河南醫(yī)保女主任主動(dòng)投案!掌管幾百萬人的救命錢,最終還是沒逃過

小李子體育
2026-04-24 12:16:17
1.5億打了20分被棄用!為了鐵人稱號(hào),常規(guī)賽全勤,季后賽沒勁了

1.5億打了20分被棄用!為了鐵人稱號(hào),常規(guī)賽全勤,季后賽沒勁了

你的籃球頻道
2026-04-24 12:18:36
觸目驚心!央視曝光上海一中醫(yī)館:從醫(yī)生到病人全是演員!

觸目驚心!央視曝光上海一中醫(yī)館:從醫(yī)生到病人全是演員!

番外行
2026-04-24 08:59:12
太慘了!燃油車再迎大降價(jià):最大跌幅50%,豪華車帶頭“跳水”

太慘了!燃油車再迎大降價(jià):最大跌幅50%,豪華車帶頭“跳水”

沙雕小琳琳
2026-04-23 02:29:16
破例接機(jī)!中方強(qiáng)勢降臨中東,伊朗導(dǎo)彈下餃子,美霸權(quán)迎來終局?

破例接機(jī)!中方強(qiáng)勢降臨中東,伊朗導(dǎo)彈下餃子,美霸權(quán)迎來終局?

遁走的兩輪
2026-04-23 17:08:38
“茶幾”正逐漸退出中國家庭,學(xué)廣東人的做法,也太實(shí)用了!

“茶幾”正逐漸退出中國家庭,學(xué)廣東人的做法,也太實(shí)用了!

室內(nèi)設(shè)計(jì)師有料兒
2026-04-24 14:24:53
不到1日,中國鄰國犯下兩大惡行,王毅直奔東盟內(nèi)部,將待足五天

不到1日,中國鄰國犯下兩大惡行,王毅直奔東盟內(nèi)部,將待足五天

影孖看世界
2026-04-22 23:53:06
何潔自曝養(yǎng)家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

何潔自曝養(yǎng)家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

扒點(diǎn)半吃瓜
2026-03-10 07:00:13
從忍氣吞聲到全軍出擊,忍無可忍,拉出幾十萬部隊(duì)正面硬撼美國。

從忍氣吞聲到全軍出擊,忍無可忍,拉出幾十萬部隊(duì)正面硬撼美國。

讓心靈得以棲息
2026-04-24 14:22:00
一個(gè)消息震動(dòng)中東,阿聯(lián)酋突然爆出大數(shù)字,美以這下捅了馬蜂窩

一個(gè)消息震動(dòng)中東,阿聯(lián)酋突然爆出大數(shù)字,美以這下捅了馬蜂窩

流史歲月
2026-04-22 10:18:10
大疆創(chuàng)始人汪滔消失十年,如今露面爆內(nèi)情,大疆年賺800億太亮眼

大疆創(chuàng)始人汪滔消失十年,如今露面爆內(nèi)情,大疆年賺800億太亮眼

夢錄的西方史話
2026-04-24 14:27:18
2026-04-24 16:08:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12847文章數(shù) 142635關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價(jià)格依然"屠夫級(jí)"

頭條要聞

女子買二手奔馳里程數(shù)偏差20萬公里 看到事故記錄崩潰

頭條要聞

女子買二手奔馳里程數(shù)偏差20萬公里 看到事故記錄崩潰

體育要聞

里程碑之戰(zhàn)拖后腿,哈登18分8失誤

娛樂要聞

停工16個(gè)月!趙露思證實(shí)接拍新劇

財(cái)經(jīng)要聞

19家企業(yè)要"鋁代銅",格力偏不

汽車要聞

YU7 GT 5 月上市!小米Vision GT概念車國內(nèi)首秀

態(tài)度原創(chuàng)

旅游
本地
游戲
時(shí)尚
公開課

旅游要聞

剛剛,在昭化區(qū)啟幕,標(biāo)著廣元正式...

本地新聞

云游中國|逛世界風(fēng)箏都 留學(xué)生探秘中國傳統(tǒng)文化

Fami通銷量榜:《識(shí)質(zhì)存在》3.6萬被第一十倍吊打!

水晶專場 || 一眼就淪陷的絕美水晶,百元級(jí)的快樂

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版