網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

NVIDIA與馬里蘭大學(xué)聯(lián)手打造"全能耳朵"

2026-04-21 21:40:02　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由NVIDIA研究院與美國馬里蘭大學(xué)聯(lián)合完成的研究，于2026年4月13日以預(yù)印本形式發(fā)布，論文編號(hào)為arXiv:2604.10905v1，研究方向歸屬于計(jì)算機(jī)科學(xué)中的聲音與音頻處理領(lǐng)域（cs.SD）。有興趣深入了解的讀者可以通過該編號(hào)在arXiv平臺(tái)查詢完整論文。

**一、為什么人類花了這么久，才讓AI真正"聽懂"聲音？**

人耳是一件奇妙的儀器。坐在咖啡館里，你能同時(shí)分辨出背景音樂的旋律、鄰桌的對(duì)話內(nèi)容，以及窗外偶爾傳來的救護(hù)車鳴笛——而且你不只是"聽到"了這些聲音，你還能理解它們、推斷它們的含義，甚至判斷出那首背景音樂是爵士還是流行。這種"聽懂"的能力，對(duì)人類來說不過是日常，但對(duì)AI來說，卻是一道極高的門檻。

過去很長一段時(shí)間里，AI處理聲音的方式就像把一個(gè)復(fù)雜的交響樂團(tuán)拆散——語音識(shí)別是一個(gè)專門的小模型，音樂分類是另一個(gè)，環(huán)境聲音理解又是第三個(gè)。這些模型各司其職，但彼此之間毫無溝通，就像一個(gè)樂團(tuán)里的成員各自練習(xí)、從不合奏。隨著大型語言模型（可以理解為"超級(jí)聰明的文字理解機(jī)器"）的崛起，研究者們開始嘗試訓(xùn)練一種能把所有聲音類型都"聽懂"的統(tǒng)一模型，這類系統(tǒng)被稱為大型音頻語言模型（Large Audio Language Model，簡稱LALM）。

然而，與視覺AI相比，音頻AI的開放程度明顯滯后。很多強(qiáng)大的音頻模型要么是商業(yè)閉源的，要么訓(xùn)練數(shù)據(jù)和方法不透明，研究社區(qū)難以在此基礎(chǔ)上繼續(xù)發(fā)展。正是在這一背景下，NVIDIA與馬里蘭大學(xué)的研究團(tuán)隊(duì)推出了Audio Flamingo Next，簡稱AF-Next——一個(gè)旨在徹底打破這一局面的全能型開源音頻理解模型。

**二、AF-Next的"前輩"們干了什么，又在哪里留下了遺憾？**

AF-Next并非憑空而來，它的背后有一整個(gè)"家族譜系"。Audio Flamingo系列從第一代開始，逐步進(jìn)化，到第三代（AF3）已經(jīng)能處理相當(dāng)復(fù)雜的音頻理解任務(wù)，但研究團(tuán)隊(duì)在仔細(xì)分析AF3的表現(xiàn)后，發(fā)現(xiàn)了幾類明顯的短板。

第一類問題是技能上的盲點(diǎn)，比如在數(shù)數(shù)（比如"這段音頻里出現(xiàn)了幾次鼓聲？"）以及說話人分辨（即判斷某句話是誰說的）等任務(wù)上，模型表現(xiàn)欠佳。第二類是數(shù)據(jù)分布的局限性，模型接觸過的訓(xùn)練數(shù)據(jù)主要來自學(xué)術(shù)數(shù)據(jù)集，這類數(shù)據(jù)通常是精心錄制的、干凈整潔的音頻，而現(xiàn)實(shí)世界的錄音往往嘈雜、多人交疊、背景復(fù)雜。第三類是長音頻的挑戰(zhàn)：AF3能處理的音頻長度相對(duì)有限，但現(xiàn)實(shí)中的播客、會(huì)議錄音、電影片段動(dòng)輒幾十分鐘，過去的模型面對(duì)這些長音頻時(shí)，就像一個(gè)人試圖在一口氣不換氣的情況下理解一部電影，很快就會(huì)力不從心。

正是帶著這些清晰認(rèn)識(shí)，團(tuán)隊(duì)著手構(gòu)建了AF-Next，目標(biāo)是在保持完全開源透明的前提下，打造一個(gè)真正能在現(xiàn)實(shí)世界中可靠運(yùn)轉(zhuǎn)的音頻理解系統(tǒng)。

**三、AF-Next長什么樣？一臺(tái)精密儀器的內(nèi)部構(gòu)造**

AF-Next的整體結(jié)構(gòu)可以用一條聲音加工流水線來理解。原始音頻進(jìn)入系統(tǒng)后，首先經(jīng)過一個(gè)名為AF-Whisper的音頻編碼器——可以把它理解為一雙精密的"耳朵"，負(fù)責(zé)把聲音波形轉(zhuǎn)化為機(jī)器能處理的數(shù)字特征。這個(gè)編碼器基于OpenAI的Whisper架構(gòu)改造而來，并在更大規(guī)模、更多樣化的語料上進(jìn)行了額外訓(xùn)練，包括多語言語音和多說話人對(duì)話數(shù)據(jù)，使其對(duì)復(fù)雜聲音場景的感知能力大幅提升。

音頻進(jìn)入時(shí)，系統(tǒng)先將其重采樣至16kHz單聲道格式，然后轉(zhuǎn)化為一種叫做"對(duì)數(shù)梅爾頻譜圖"的視覺化聲音表示——可以理解為把聲音的頻率變化繪制成一幅隨時(shí)間變化的熱力圖。這幅圖隨后被送入AF-Whisper，以每30秒為一個(gè)不重疊的滑動(dòng)窗口進(jìn)行處理，每秒提取50個(gè)時(shí)間點(diǎn)的特征，再經(jīng)過一個(gè)壓縮步驟將特征密度減半，最終形成維度為1280的特征向量序列。

這些音頻特征接下來需要被"翻譯"成語言模型能理解的格式，這個(gè)翻譯工作由一個(gè)兩層的神經(jīng)網(wǎng)絡(luò)完成，研究者稱之為音頻適配器（Audio Adaptor）。適配器的作用就像一名同聲傳譯員，把"聲音語言"即時(shí)轉(zhuǎn)換成"文字語言"的表達(dá)方式，再送入主干大語言模型。

主干大語言模型采用的是阿里巴巴開源的Qwen-2.5-7B，一個(gè)擁有70億參數(shù)、36層Transformer結(jié)構(gòu)的解碼器型語言模型。研究團(tuán)隊(duì)在此基礎(chǔ)上進(jìn)行了重要改造：一是將模型的上下文窗口從原來的32K個(gè)詞元（token）擴(kuò)展到128K，使其能處理更長的輸入序列；二是將常規(guī)的旋轉(zhuǎn)位置編碼（RoPE，一種幫助模型理解詞序的技術(shù)）替換為"旋轉(zhuǎn)時(shí)間編碼"（RoTE）。

RoTE的改變看似微小，實(shí)則意義重大。普通位置編碼告訴模型的是"這是第幾個(gè)詞"，而RoTE告訴模型的是"這個(gè)詞出現(xiàn)在音頻的第幾秒"。這就好比一本書的頁碼和一部電影的時(shí)間碼的區(qū)別——對(duì)于需要追蹤事件在時(shí)間軸上發(fā)生順序的任務(wù)來說，知道"這是第200頁"遠(yuǎn)不如知道"這發(fā)生在電影的第43分17秒"來得有用。這一改動(dòng)為AF-Next后續(xù)的時(shí)間推理能力奠定了基礎(chǔ)。

此外，AF-Next還集成了一個(gè)流式文字轉(zhuǎn)語音（TTS）模塊，使模型具備語音輸出能力，支持真正的"語音對(duì)語音"交互——用戶說話，模型不只是給出文字回答，而是直接以語音形式回應(yīng)。

**四、數(shù)據(jù)是這一切的地基：超過100萬小時(shí)的聲音世界**

一個(gè)模型的能力上限，在很大程度上取決于它見過什么、學(xué)過什么。AF-Next的訓(xùn)練數(shù)據(jù)集規(guī)模達(dá)到約1.08億條樣本、約100萬小時(shí)的音頻，這是一個(gè)令人咋舌的數(shù)字。為了達(dá)到這個(gè)規(guī)模，同時(shí)確保數(shù)據(jù)質(zhì)量，研究團(tuán)隊(duì)從多個(gè)維度精心構(gòu)建了訓(xùn)練集。

在音樂理解方面，團(tuán)隊(duì)沿用了此前Music Flamingo項(xiàng)目中的音樂理解和問答數(shù)據(jù)，并特別擴(kuò)充了非英語歌曲的歌詞數(shù)據(jù)，以增強(qiáng)模型對(duì)多元文化音樂的理解能力。

在多說話人語音理解方面，研究團(tuán)隊(duì)專門收集了多人對(duì)話的語音識(shí)別和問答數(shù)據(jù)，訓(xùn)練模型追蹤說話人輪換、處理交疊發(fā)言，并理解對(duì)話結(jié)構(gòu)。圍繞這類數(shù)據(jù)，團(tuán)隊(duì)設(shè)計(jì)了三個(gè)具體的技能訓(xùn)練目標(biāo)：其一是說話人識(shí)別，給定一段發(fā)言，模型要判斷是哪位說話人（按首次出現(xiàn)順序排序）說的；其二是打斷識(shí)別，模型要找出對(duì)話中被打斷的時(shí)刻；其三是目標(biāo)說話人語音識(shí)別，模型要在多人混講的環(huán)境中，準(zhǔn)確轉(zhuǎn)錄指定說話人的內(nèi)容。為此，訓(xùn)練集新增了約4.5萬條相關(guān)樣本。

長音頻的處理是AF-Next最具野心的部分之一。過去的工作中，長音頻數(shù)據(jù)要么來自把短片段拼接起來，要么僅在后期微調(diào)階段少量使用。AF-Next則把長音頻理解作為訓(xùn)練的核心模塊，從互聯(lián)網(wǎng)上收集了超過20萬個(gè)時(shí)長5至30分鐘的長視頻。對(duì)于每個(gè)視頻，團(tuán)隊(duì)以10秒為單位切片，為每段生成四種形式的標(biāo)注：視頻內(nèi)容描述、音頻內(nèi)容描述、語音轉(zhuǎn)錄文字，以及說話方式的副語言學(xué)描述（比如"語氣急促"、"帶有輕笑"等）。隨后，用一個(gè)大語言模型將這些片段級(jí)標(biāo)注整合為整個(gè)音頻的連貫描述，并基于此生成多種問答數(shù)據(jù)——包括"大海撈針"式問答（在長音頻中找到一個(gè)特定細(xì)節(jié)）、時(shí)間理解問答（事件先后順序判斷），以及"子場景"問答（描述兩個(gè)事件之間發(fā)生了什么）。

與此同時(shí)，團(tuán)隊(duì)還系統(tǒng)擴(kuò)充了現(xiàn)有技能數(shù)據(jù)集的覆蓋范圍。原本的技能數(shù)據(jù)主要來自AudioSet等學(xué)術(shù)數(shù)據(jù)集，這類數(shù)據(jù)的錄音條件相對(duì)理想，不夠貼近現(xiàn)實(shí)。研究者從前述長音頻中截取了大量10至30秒的片段，按信息量排序（包含更多不同聲音事件的片段優(yōu)先級(jí)更高），為這些片段生成覆蓋現(xiàn)有技能集全部類別的問答數(shù)據(jù)，產(chǎn)生了超過200萬條新樣本。

為支持多音頻理解（即同時(shí)處理多段音頻并進(jìn)行比較推理），團(tuán)隊(duì)整合并擴(kuò)展了現(xiàn)有的多音頻數(shù)據(jù)集，最終積累約100萬條訓(xùn)練樣本。多輪對(duì)話數(shù)據(jù)方面，團(tuán)隊(duì)額外收集了約3萬條需要綜合音頻理解、信息提取和世界知識(shí)的多輪多音頻對(duì)話樣本。

在安全性和指令遵循方面，團(tuán)隊(duì)填補(bǔ)了此前音頻語言模型領(lǐng)域普遍忽視的空白：從真實(shí)數(shù)據(jù)中識(shí)別出不安全內(nèi)容，生成對(duì)應(yīng)的問答對(duì)和拒絕式回應(yīng)，教會(huì)模型在適當(dāng)情況下拒絕回答或給出安全引導(dǎo)，共計(jì)約38.6萬條樣本。

多語言語音識(shí)別和語音翻譯方面，訓(xùn)練數(shù)據(jù)覆蓋了包括中文、日語、阿拉伯語、德語等多種語言，來源包括Emilia、CoVoST、MUST、Amazon-SIFT、ALI Meeting等多個(gè)公開數(shù)據(jù)集。為防止模型在大量音頻數(shù)據(jù)訓(xùn)練后喪失原有的文字推理能力，團(tuán)隊(duì)還混入了一批純文本的科學(xué)、數(shù)學(xué)、指令遵循和常識(shí)知識(shí)數(shù)據(jù)。

而最具創(chuàng)新性的數(shù)據(jù)類型，是專門為時(shí)間推理設(shè)計(jì)的AF-Think-Time數(shù)據(jù)集。這個(gè)數(shù)據(jù)集從電影預(yù)告片、劇情回顧、懸疑故事、長篇多方對(duì)話等具有挑戰(zhàn)性的音頻源中收集了約4.3萬個(gè)樣本，每個(gè)樣本包含一組"問題—答案—推理鏈"的三元組，且推理鏈中明確錨定了時(shí)間戳。這是為后續(xù)訓(xùn)練模型進(jìn)行有時(shí)間依據(jù)的逐步推理所專門準(zhǔn)備的"教材"。

**五、四段式"練功"路線：從認(rèn)路到精通**

如果說數(shù)據(jù)是原材料，那么訓(xùn)練課程就是把原材料加工成成品的工藝流程。AF-Next采用了一套四階段遞進(jìn)式訓(xùn)練方案，每個(gè)階段解鎖不同層次的能力，就像一個(gè)音樂學(xué)生從學(xué)認(rèn)譜到即興演奏的成長路徑。

第一階段是預(yù)訓(xùn)練，分兩個(gè)步驟。第一步先"凍結(jié)"AF-Whisper和大語言模型，只訓(xùn)練音頻適配器，目標(biāo)是建立音頻特征和語言表示之間的對(duì)應(yīng)關(guān)系，讓"翻譯官"學(xué)會(huì)基本的翻譯規(guī)則。第二步解凍音頻編碼器和適配器（語言模型仍保持凍結(jié)），繼續(xù)在分類、描述生成、語音識(shí)別等基礎(chǔ)任務(wù)上學(xué)習(xí)。這一階段處理的音頻最長30秒到1分鐘，上下文窗口限制在8K詞元以內(nèi)。

第二階段是中期訓(xùn)練，同樣分兩步。第一步對(duì)整個(gè)模型進(jìn)行全面微調(diào)，引入新收集的數(shù)據(jù)以及AudioSkills-XL技能集，音頻處理長度擴(kuò)展到10分鐘，上下文窗口擴(kuò)大到24K詞元。第二步進(jìn)一步擴(kuò)充長音頻描述和問答數(shù)據(jù)，將之前數(shù)據(jù)的采樣權(quán)重壓縮至一半，把所有長音頻數(shù)據(jù)集的采樣權(quán)重設(shè)為1，使模型集中學(xué)習(xí)長音頻處理。這一步的最大音頻長度擴(kuò)展到30分鐘，上下文窗口增至128K詞元。這一階段訓(xùn)練完成后得到的模型被命名為AF-Next-Captioner。

值得一提的是，為了高效處理如此之長的序列，團(tuán)隊(duì)專門設(shè)計(jì)了一套"序列并行"（Sequence Parallelism，SP）計(jì)算框架。自注意力機(jī)制的計(jì)算量隨序列長度平方級(jí)增長，處理128K長度的序列在單張GPU上是不現(xiàn)實(shí)的。團(tuán)隊(duì)采用了一種叫做混合序列并行的方法，將注意力計(jì)算分散到多張GPU上。具體來說，在節(jié)點(diǎn)內(nèi)部使用"Ulysses注意力"，通過全互聯(lián)通信將序列的不同頭部分配到不同GPU；跨節(jié)點(diǎn)則使用"Ring注意力"，通過環(huán)形拓?fù)鋫鬟fKV緩存塊。這兩種方式結(jié)合，既利用了節(jié)點(diǎn)內(nèi)高帶寬互連的優(yōu)勢，又解決了跨節(jié)點(diǎn)時(shí)的通信效率問題。

第三階段是后訓(xùn)練，從中期訓(xùn)練得到的模型出發(fā)，使用基于GRPO的強(qiáng)化學(xué)習(xí)（一種讓模型通過"對(duì)錯(cuò)反饋"自我優(yōu)化的訓(xùn)練方式）進(jìn)行進(jìn)一步調(diào)優(yōu)，重點(diǎn)在多輪對(duì)話、安全性、指令遵循，以及部分技能集上模型表現(xiàn)相對(duì)薄弱的領(lǐng)域。這一階段產(chǎn)生的模型稱為AF-Next-Instruct。

第四階段是鏈?zhǔn)酵评碛?xùn)練，以AF-Next-Instruct為基礎(chǔ)，先用AF-Think-Time數(shù)據(jù)集做監(jiān)督微調(diào)，再用后訓(xùn)練階段的數(shù)據(jù)混合進(jìn)行GRPO強(qiáng)化學(xué)習(xí)訓(xùn)練。這一階段的最終產(chǎn)物稱為AF-Next-Think。

三個(gè)開源版本分別面向不同使用場景：AF-Next-Instruct適合一般問答需求，AF-Next-Think專為需要深度推理的任務(wù)設(shè)計(jì)，AF-Next-Captioner則在生成詳細(xì)音頻描述方面表現(xiàn)最佳。

**六、時(shí)間錨定的推理鏈：讓AI不僅會(huì)聽，還會(huì)"按圖索驥"**

現(xiàn)有的音頻推理模型在處理短片段時(shí)表現(xiàn)尚可，但一旦面對(duì)長音頻，往往出現(xiàn)兩類典型問題：第一，推理鏈過長、堆砌廢話，比如在MMAU這個(gè)基準(zhǔn)測試上，某些模型的推理過程超過16000個(gè)詞元，絕大部分是無效內(nèi)容；第二，推理缺乏時(shí)間錨定，模型雖然給出了推理步驟，但這些步驟漂浮在時(shí)間軸之外，無法讓人知道"這個(gè)結(jié)論是基于音頻第幾秒到第幾秒的內(nèi)容得出的"。

對(duì)于長音頻來說，這個(gè)問題尤為突出。一段30分鐘的錄音中，關(guān)鍵證據(jù)可能散布在第3分鐘、第17分鐘和第28分鐘，模型如果不能在推理時(shí)明確指向這些時(shí)間點(diǎn)，推理就變成了無據(jù)可查的"主觀判斷"，難以驗(yàn)證也難以信任。

AF-Next為此引入了一種全新的推理范式，稱為Temporal Audio Chain-of-Thought（時(shí)間音頻推理鏈）。核心思想是：在推理過程中的每一個(gè)關(guān)鍵步驟，明確標(biāo)注該步驟依據(jù)的時(shí)間區(qū)間。比如，回答"這段對(duì)話中，說話人情緒在哪個(gè)時(shí)間段發(fā)生了明顯轉(zhuǎn)變"時(shí)，模型不只是給出"在中段"這樣模糊的描述，而是輸出類似"在第8.3秒到第14.2秒之間，說話人的語速加快，出現(xiàn)停頓，語氣由平穩(wěn)轉(zhuǎn)為急促，據(jù)此判斷情緒在這一階段發(fā)生了轉(zhuǎn)變"這樣有時(shí)間依據(jù)的推理鏈。

這種做法的直接好處有兩個(gè)：其一，幫助模型在長音頻中按時(shí)間線索"導(dǎo)航"，減少因遺漏關(guān)鍵證據(jù)而導(dǎo)致的錯(cuò)誤；其二，讓推理過程對(duì)用戶透明可查，提升模型輸出的可信度。

為訓(xùn)練這一能力，研究團(tuán)隊(duì)構(gòu)建了AF-Think-Time數(shù)據(jù)集，從電影預(yù)告片、懸疑故事、長篇對(duì)話等需要跨時(shí)間段理解的音頻中提煉出約4.3萬個(gè)樣本，每條樣本的推理鏈平均包含446個(gè)單詞，且每個(gè)關(guān)鍵推理步驟都與音頻中的具體時(shí)間段掛鉤。

**七、跑分時(shí)間：AF-Next在20多個(gè)測試中表現(xiàn)如何？**

研究團(tuán)隊(duì)將AF-Next與業(yè)內(nèi)幾乎所有主要的音頻語言模型進(jìn)行了系統(tǒng)對(duì)比，包括GAMA、Audio Flamingo系列、Qwen-Audio系列、Qwen2.5-Omni、Qwen3-Omni、R1-AQA、Pengi、Phi-4-mm、Baichuan Audio、Step-Audio，以及谷歌的Gemini系列（2.0 Flash、1.5 Pro、2.5 Flash和2.5 Pro）和OpenAI的GPT-4o-audio。所有基準(zhǔn)測試均由團(tuán)隊(duì)重新運(yùn)行，確保結(jié)果可復(fù)現(xiàn)。

在MMAU（一個(gè)綜合音頻理解和推理的大型基準(zhǔn)測試）的最新版本（v05.15.25）上，AF-Next-Instruct取得了74.20的平均準(zhǔn)確率，超越了AF3的72.42。AF-Next-Think進(jìn)一步提升至75.01，而AF-Next-Captioner則達(dá)到75.76，在聲音（79.87）、音樂（75.3）和語音（72.13）三個(gè)子類上全面領(lǐng)先。

在MMAR（一個(gè)專注于語音、音頻、音樂深度推理的測試）上，AF-Next-Instruct以59.7超過AF3的58.5，AF-Next-Captioner則進(jìn)一步推高至63.0，比AF3高出4.5個(gè)百分點(diǎn)。

在MMSU（主要考察口語理解和推理）上，雖然閉源的Gemini 2.5 Flash以66.1領(lǐng)先，但AF-Next-Captioner以63.3的成績大幅縮小了差距，相比AF3提升了約4個(gè)百分點(diǎn)。

在更具挑戰(zhàn)性的MMAU-Pro測試上，AF-Next-Instruct以56.9的成績超越了閉源的Gemini 2.5 Pro（57.4），AF-Next-Think則進(jìn)一步達(dá)到58.7，成為該測試上最強(qiáng)的公開結(jié)果。

音頻描述生成方面，AF-Next-Instruct在Clotho-v2上的CIDEr評(píng)分從0.50提升至0.52，在AudioCaps上從0.70提升至0.74。音頻蘊(yùn)含判斷（判斷文字描述是否符合音頻內(nèi)容）方面，在Clotho上準(zhǔn)確率從93.3提升至94.2，在AudioCaps上從95.0提升至96.0。

音樂理解是AF-Next表現(xiàn)特別亮眼的領(lǐng)域之一。在NSynth樂器來源分類上，AF-Next以66.7的準(zhǔn)確率超越了此前最強(qiáng)開源模型Pengi的62.0；在樂器類型分類上，以81.7超越了最強(qiáng)開放權(quán)重模型Qwen-Audio的78.8。在Medley-Solos-DB樂器識(shí)別測試中，AF-Next以92.13的準(zhǔn)確率大幅超越Audio Flamingo 2的85.80。在MuchoMusic音樂理解測試中，以75.6略勝M(fèi)usic Flamingo的74.5。而在歌曲描述生成（SongCaps）測試中，AF-Next取得了GPT-5評(píng)分覆蓋率8.8、正確率8.9的成績，相比AF3的6.7和6.2有了大幅躍升。

長音頻理解方面，AF-Next-Instruct在LongAudioBench上以73.9的成績，同時(shí)超越了AF3的68.6和閉源的Gemini 2.5 Pro的60.4，差距相當(dāng)顯著。在包含語音內(nèi)容的版本（+Speech）上，AF-Next更是以81.2的成績遠(yuǎn)超AF3的72.9和Gemini 2.5 Pro的66.2。

自動(dòng)語音識(shí)別方面，AF-Next-Instruct在LibriSpeech測試集上取得了1.54（干凈集）和2.76（嘈雜集）的詞錯(cuò)誤率（WER），創(chuàng)下了同類模型中的最低記錄，同時(shí)在Common Voice 15（7.2）、GigaSpeech（9.8）和VoxPopuli（5.4）上均取得最佳成績。

在VoiceBench（語音理解和指令遵循綜合測試）上，AF-Next-Instruct在AlpacaEval（4.43）、CommonEval（3.96）和OpenBookQA（80.9）三個(gè)子項(xiàng)上均超越了Qwen2.5-Omni和AF3，其中OpenBookQA上比AF3高出超過14分，比Qwen2.5-Omni高出約1.8分。

在CoVoST2語音翻譯測試中，AF-Next在英語翻中文（38.2 BLEU）和英語翻阿拉伯語（21.9 BLEU）上取得最好成績，后者相比Phi-4-mm的9.9高出了整整12分，顯示出AF-Next在低資源語言對(duì)上的突出能力。

**八、歸根結(jié)底，這項(xiàng)研究意味著什么？**

說到底，AF-Next做的事情可以用一句話概括：它把"聽懂聲音"這件事，從專用工具的領(lǐng)域，推向了通用智能的版圖，而且是以完全開放透明的方式做到的。

過去，如果你想讓AI幫你轉(zhuǎn)錄30分鐘的會(huì)議錄音、判斷說話人是誰、識(shí)別背景中有什么噪音、還順帶理解某段話的情緒，你需要把這個(gè)任務(wù)拆成四五個(gè)不同的系統(tǒng)分別處理，結(jié)果還未必能拼接在一起。AF-Next提供了一個(gè)統(tǒng)一的接口，能在一次交互中完成所有這些任務(wù)，而且還能在推理時(shí)解釋"我是根據(jù)第X分鐘到第Y分鐘的內(nèi)容得出這個(gè)結(jié)論的"。

對(duì)普通人來說，這意味著更智能的語音助手、更準(zhǔn)確的會(huì)議摘要、更可靠的音樂信息檢索，以及更安全的音頻內(nèi)容審核系統(tǒng)。對(duì)研究者來說，全套開源（代碼、權(quán)重、訓(xùn)練數(shù)據(jù)和方法論一并公開）意味著這個(gè)成果是一塊可以繼續(xù)搭建的積木，而不是一個(gè)封閉的黑盒。

當(dāng)然，研究團(tuán)隊(duì)也坦誠地指出了這項(xiàng)工作的局限。互聯(lián)網(wǎng)音頻數(shù)據(jù)中，低資源語言、罕見聲音事件和特定專業(yè)領(lǐng)域仍然代表性不足；30分鐘的長音頻能力雖然是一大進(jìn)步，但當(dāng)關(guān)鍵證據(jù)在時(shí)間上極度分散時(shí)，模型的長上下文記憶和證據(jù)整合能力仍有提升空間；此外，諸如多說話人語音識(shí)別、說話人分離、時(shí)間戳描述生成和語音對(duì)語音交互等能力雖然已經(jīng)內(nèi)置，但在本次研究中尚未系統(tǒng)評(píng)估，這些有待后續(xù)工作填補(bǔ)。

對(duì)于對(duì)AI感興趣的讀者，一個(gè)值得思考的問題是：當(dāng)AI能夠"聽懂"并"推理"聲音之后，我們希望它在什么場景下使用這種能力，又在什么時(shí)候應(yīng)該選擇沉默或拒絕？安全性和可信度的問題，在音頻AI這個(gè)領(lǐng)域，才剛剛開始被認(rèn)真對(duì)待。有興趣深入探索的讀者，可以通過arXiv編號(hào)2604.10905查閱完整論文，或訪問NVIDIA相關(guān)開源頁面獲取模型權(quán)重和訓(xùn)練代碼。

Q&A

Q1：Audio Flamingo Next和普通語音識(shí)別軟件有什么區(qū)別？

A：普通語音識(shí)別軟件只做一件事：把說的話轉(zhuǎn)成文字。而Audio Flamingo Next能同時(shí)處理語音、音樂和環(huán)境聲音，不只是轉(zhuǎn)錄，還能理解內(nèi)容、回答問題、分辨是誰在說話、判斷聲音發(fā)生的時(shí)間順序，甚至對(duì)30分鐘的長錄音進(jìn)行推理和摘要生成。相當(dāng)于從"速記員"進(jìn)化成了"能聽、能思考、能解釋的智能助理"。

Q2：Temporal Audio Chain-of-Thought是什么，有什么用？

A：Temporal Audio Chain-of-Thought（時(shí)間音頻推理鏈）是AF-Next引入的一種新推理方式。簡單說，就是模型在給出答案時(shí)，會(huì)明確標(biāo)注"我的結(jié)論來自音頻的第幾秒到第幾秒"。這樣做讓推理過程透明可查，在處理長音頻時(shí)尤其重要——模型不再是憑"感覺"作答，而是有跡可循地追蹤證據(jù)，減少了錯(cuò)誤和胡編亂造的情況。

Q3：AF-Next開源了嗎，普通人能用到嗎？

A：AF-Next是完全開源的，包括三個(gè)版本的模型權(quán)重（AF-Next-Instruct、AF-Next-Think、AF-Next-Captioner）、訓(xùn)練代碼以及數(shù)據(jù)構(gòu)建方法，均公開發(fā)布，采用研究用途許可證。研究者和開發(fā)者可以直接下載使用或在此基礎(chǔ)上繼續(xù)研發(fā)。對(duì)于普通用戶，直接調(diào)用目前需要一定的技術(shù)門檻，但未來基于這些模型構(gòu)建的應(yīng)用產(chǎn)品，有望讓普通人也能受益。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.