国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

NVIDIA與馬里蘭大學(xué)聯(lián)手打造"全能耳朵"

0
分享至


這項(xiàng)由NVIDIA研究院與美國馬里蘭大學(xué)聯(lián)合完成的研究,于2026年4月13日以預(yù)印本形式發(fā)布,論文編號(hào)為arXiv:2604.10905v1,研究方向歸屬于計(jì)算機(jī)科學(xué)中的聲音與音頻處理領(lǐng)域(cs.SD)。有興趣深入了解的讀者可以通過該編號(hào)在arXiv平臺(tái)查詢完整論文。

**一、為什么人類花了這么久,才讓AI真正"聽懂"聲音?**

人耳是一件奇妙的儀器。坐在咖啡館里,你能同時(shí)分辨出背景音樂的旋律、鄰桌的對(duì)話內(nèi)容,以及窗外偶爾傳來的救護(hù)車鳴笛——而且你不只是"聽到"了這些聲音,你還能理解它們、推斷它們的含義,甚至判斷出那首背景音樂是爵士還是流行。這種"聽懂"的能力,對(duì)人類來說不過是日常,但對(duì)AI來說,卻是一道極高的門檻。

過去很長一段時(shí)間里,AI處理聲音的方式就像把一個(gè)復(fù)雜的交響樂團(tuán)拆散——語音識(shí)別是一個(gè)專門的小模型,音樂分類是另一個(gè),環(huán)境聲音理解又是第三個(gè)。這些模型各司其職,但彼此之間毫無溝通,就像一個(gè)樂團(tuán)里的成員各自練習(xí)、從不合奏。隨著大型語言模型(可以理解為"超級(jí)聰明的文字理解機(jī)器")的崛起,研究者們開始嘗試訓(xùn)練一種能把所有聲音類型都"聽懂"的統(tǒng)一模型,這類系統(tǒng)被稱為大型音頻語言模型(Large Audio Language Model,簡稱LALM)。

然而,與視覺AI相比,音頻AI的開放程度明顯滯后。很多強(qiáng)大的音頻模型要么是商業(yè)閉源的,要么訓(xùn)練數(shù)據(jù)和方法不透明,研究社區(qū)難以在此基礎(chǔ)上繼續(xù)發(fā)展。正是在這一背景下,NVIDIA與馬里蘭大學(xué)的研究團(tuán)隊(duì)推出了Audio Flamingo Next,簡稱AF-Next——一個(gè)旨在徹底打破這一局面的全能型開源音頻理解模型。

**二、AF-Next的"前輩"們干了什么,又在哪里留下了遺憾?**

AF-Next并非憑空而來,它的背后有一整個(gè)"家族譜系"。Audio Flamingo系列從第一代開始,逐步進(jìn)化,到第三代(AF3)已經(jīng)能處理相當(dāng)復(fù)雜的音頻理解任務(wù),但研究團(tuán)隊(duì)在仔細(xì)分析AF3的表現(xiàn)后,發(fā)現(xiàn)了幾類明顯的短板。

第一類問題是技能上的盲點(diǎn),比如在數(shù)數(shù)(比如"這段音頻里出現(xiàn)了幾次鼓聲?")以及說話人分辨(即判斷某句話是誰說的)等任務(wù)上,模型表現(xiàn)欠佳。第二類是數(shù)據(jù)分布的局限性,模型接觸過的訓(xùn)練數(shù)據(jù)主要來自學(xué)術(shù)數(shù)據(jù)集,這類數(shù)據(jù)通常是精心錄制的、干凈整潔的音頻,而現(xiàn)實(shí)世界的錄音往往嘈雜、多人交疊、背景復(fù)雜。第三類是長音頻的挑戰(zhàn):AF3能處理的音頻長度相對(duì)有限,但現(xiàn)實(shí)中的播客、會(huì)議錄音、電影片段動(dòng)輒幾十分鐘,過去的模型面對(duì)這些長音頻時(shí),就像一個(gè)人試圖在一口氣不換氣的情況下理解一部電影,很快就會(huì)力不從心。

正是帶著這些清晰認(rèn)識(shí),團(tuán)隊(duì)著手構(gòu)建了AF-Next,目標(biāo)是在保持完全開源透明的前提下,打造一個(gè)真正能在現(xiàn)實(shí)世界中可靠運(yùn)轉(zhuǎn)的音頻理解系統(tǒng)。

**三、AF-Next長什么樣?一臺(tái)精密儀器的內(nèi)部構(gòu)造**

AF-Next的整體結(jié)構(gòu)可以用一條聲音加工流水線來理解。原始音頻進(jìn)入系統(tǒng)后,首先經(jīng)過一個(gè)名為AF-Whisper的音頻編碼器——可以把它理解為一雙精密的"耳朵",負(fù)責(zé)把聲音波形轉(zhuǎn)化為機(jī)器能處理的數(shù)字特征。這個(gè)編碼器基于OpenAI的Whisper架構(gòu)改造而來,并在更大規(guī)模、更多樣化的語料上進(jìn)行了額外訓(xùn)練,包括多語言語音和多說話人對(duì)話數(shù)據(jù),使其對(duì)復(fù)雜聲音場景的感知能力大幅提升。

音頻進(jìn)入時(shí),系統(tǒng)先將其重采樣至16kHz單聲道格式,然后轉(zhuǎn)化為一種叫做"對(duì)數(shù)梅爾頻譜圖"的視覺化聲音表示——可以理解為把聲音的頻率變化繪制成一幅隨時(shí)間變化的熱力圖。這幅圖隨后被送入AF-Whisper,以每30秒為一個(gè)不重疊的滑動(dòng)窗口進(jìn)行處理,每秒提取50個(gè)時(shí)間點(diǎn)的特征,再經(jīng)過一個(gè)壓縮步驟將特征密度減半,最終形成維度為1280的特征向量序列。

這些音頻特征接下來需要被"翻譯"成語言模型能理解的格式,這個(gè)翻譯工作由一個(gè)兩層的神經(jīng)網(wǎng)絡(luò)完成,研究者稱之為音頻適配器(Audio Adaptor)。適配器的作用就像一名同聲傳譯員,把"聲音語言"即時(shí)轉(zhuǎn)換成"文字語言"的表達(dá)方式,再送入主干大語言模型。

主干大語言模型采用的是阿里巴巴開源的Qwen-2.5-7B,一個(gè)擁有70億參數(shù)、36層Transformer結(jié)構(gòu)的解碼器型語言模型。研究團(tuán)隊(duì)在此基礎(chǔ)上進(jìn)行了重要改造:一是將模型的上下文窗口從原來的32K個(gè)詞元(token)擴(kuò)展到128K,使其能處理更長的輸入序列;二是將常規(guī)的旋轉(zhuǎn)位置編碼(RoPE,一種幫助模型理解詞序的技術(shù))替換為"旋轉(zhuǎn)時(shí)間編碼"(RoTE)。

RoTE的改變看似微小,實(shí)則意義重大。普通位置編碼告訴模型的是"這是第幾個(gè)詞",而RoTE告訴模型的是"這個(gè)詞出現(xiàn)在音頻的第幾秒"。這就好比一本書的頁碼和一部電影的時(shí)間碼的區(qū)別——對(duì)于需要追蹤事件在時(shí)間軸上發(fā)生順序的任務(wù)來說,知道"這是第200頁"遠(yuǎn)不如知道"這發(fā)生在電影的第43分17秒"來得有用。這一改動(dòng)為AF-Next后續(xù)的時(shí)間推理能力奠定了基礎(chǔ)。

此外,AF-Next還集成了一個(gè)流式文字轉(zhuǎn)語音(TTS)模塊,使模型具備語音輸出能力,支持真正的"語音對(duì)語音"交互——用戶說話,模型不只是給出文字回答,而是直接以語音形式回應(yīng)。

**四、數(shù)據(jù)是這一切的地基:超過100萬小時(shí)的聲音世界**

一個(gè)模型的能力上限,在很大程度上取決于它見過什么、學(xué)過什么。AF-Next的訓(xùn)練數(shù)據(jù)集規(guī)模達(dá)到約1.08億條樣本、約100萬小時(shí)的音頻,這是一個(gè)令人咋舌的數(shù)字。為了達(dá)到這個(gè)規(guī)模,同時(shí)確保數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)從多個(gè)維度精心構(gòu)建了訓(xùn)練集。

在音樂理解方面,團(tuán)隊(duì)沿用了此前Music Flamingo項(xiàng)目中的音樂理解和問答數(shù)據(jù),并特別擴(kuò)充了非英語歌曲的歌詞數(shù)據(jù),以增強(qiáng)模型對(duì)多元文化音樂的理解能力。

在多說話人語音理解方面,研究團(tuán)隊(duì)專門收集了多人對(duì)話的語音識(shí)別和問答數(shù)據(jù),訓(xùn)練模型追蹤說話人輪換、處理交疊發(fā)言,并理解對(duì)話結(jié)構(gòu)。圍繞這類數(shù)據(jù),團(tuán)隊(duì)設(shè)計(jì)了三個(gè)具體的技能訓(xùn)練目標(biāo):其一是說話人識(shí)別,給定一段發(fā)言,模型要判斷是哪位說話人(按首次出現(xiàn)順序排序)說的;其二是打斷識(shí)別,模型要找出對(duì)話中被打斷的時(shí)刻;其三是目標(biāo)說話人語音識(shí)別,模型要在多人混講的環(huán)境中,準(zhǔn)確轉(zhuǎn)錄指定說話人的內(nèi)容。為此,訓(xùn)練集新增了約4.5萬條相關(guān)樣本。

長音頻的處理是AF-Next最具野心的部分之一。過去的工作中,長音頻數(shù)據(jù)要么來自把短片段拼接起來,要么僅在后期微調(diào)階段少量使用。AF-Next則把長音頻理解作為訓(xùn)練的核心模塊,從互聯(lián)網(wǎng)上收集了超過20萬個(gè)時(shí)長5至30分鐘的長視頻。對(duì)于每個(gè)視頻,團(tuán)隊(duì)以10秒為單位切片,為每段生成四種形式的標(biāo)注:視頻內(nèi)容描述、音頻內(nèi)容描述、語音轉(zhuǎn)錄文字,以及說話方式的副語言學(xué)描述(比如"語氣急促"、"帶有輕笑"等)。隨后,用一個(gè)大語言模型將這些片段級(jí)標(biāo)注整合為整個(gè)音頻的連貫描述,并基于此生成多種問答數(shù)據(jù)——包括"大海撈針"式問答(在長音頻中找到一個(gè)特定細(xì)節(jié))、時(shí)間理解問答(事件先后順序判斷),以及"子場景"問答(描述兩個(gè)事件之間發(fā)生了什么)。

與此同時(shí),團(tuán)隊(duì)還系統(tǒng)擴(kuò)充了現(xiàn)有技能數(shù)據(jù)集的覆蓋范圍。原本的技能數(shù)據(jù)主要來自AudioSet等學(xué)術(shù)數(shù)據(jù)集,這類數(shù)據(jù)的錄音條件相對(duì)理想,不夠貼近現(xiàn)實(shí)。研究者從前述長音頻中截取了大量10至30秒的片段,按信息量排序(包含更多不同聲音事件的片段優(yōu)先級(jí)更高),為這些片段生成覆蓋現(xiàn)有技能集全部類別的問答數(shù)據(jù),產(chǎn)生了超過200萬條新樣本。

為支持多音頻理解(即同時(shí)處理多段音頻并進(jìn)行比較推理),團(tuán)隊(duì)整合并擴(kuò)展了現(xiàn)有的多音頻數(shù)據(jù)集,最終積累約100萬條訓(xùn)練樣本。多輪對(duì)話數(shù)據(jù)方面,團(tuán)隊(duì)額外收集了約3萬條需要綜合音頻理解、信息提取和世界知識(shí)的多輪多音頻對(duì)話樣本。

在安全性和指令遵循方面,團(tuán)隊(duì)填補(bǔ)了此前音頻語言模型領(lǐng)域普遍忽視的空白:從真實(shí)數(shù)據(jù)中識(shí)別出不安全內(nèi)容,生成對(duì)應(yīng)的問答對(duì)和拒絕式回應(yīng),教會(huì)模型在適當(dāng)情況下拒絕回答或給出安全引導(dǎo),共計(jì)約38.6萬條樣本。

多語言語音識(shí)別和語音翻譯方面,訓(xùn)練數(shù)據(jù)覆蓋了包括中文、日語、阿拉伯語、德語等多種語言,來源包括Emilia、CoVoST、MUST、Amazon-SIFT、ALI Meeting等多個(gè)公開數(shù)據(jù)集。為防止模型在大量音頻數(shù)據(jù)訓(xùn)練后喪失原有的文字推理能力,團(tuán)隊(duì)還混入了一批純文本的科學(xué)、數(shù)學(xué)、指令遵循和常識(shí)知識(shí)數(shù)據(jù)。

而最具創(chuàng)新性的數(shù)據(jù)類型,是專門為時(shí)間推理設(shè)計(jì)的AF-Think-Time數(shù)據(jù)集。這個(gè)數(shù)據(jù)集從電影預(yù)告片、劇情回顧、懸疑故事、長篇多方對(duì)話等具有挑戰(zhàn)性的音頻源中收集了約4.3萬個(gè)樣本,每個(gè)樣本包含一組"問題—答案—推理鏈"的三元組,且推理鏈中明確錨定了時(shí)間戳。這是為后續(xù)訓(xùn)練模型進(jìn)行有時(shí)間依據(jù)的逐步推理所專門準(zhǔn)備的"教材"。

**五、四段式"練功"路線:從認(rèn)路到精通**

如果說數(shù)據(jù)是原材料,那么訓(xùn)練課程就是把原材料加工成成品的工藝流程。AF-Next采用了一套四階段遞進(jìn)式訓(xùn)練方案,每個(gè)階段解鎖不同層次的能力,就像一個(gè)音樂學(xué)生從學(xué)認(rèn)譜到即興演奏的成長路徑。

第一階段是預(yù)訓(xùn)練,分兩個(gè)步驟。第一步先"凍結(jié)"AF-Whisper和大語言模型,只訓(xùn)練音頻適配器,目標(biāo)是建立音頻特征和語言表示之間的對(duì)應(yīng)關(guān)系,讓"翻譯官"學(xué)會(huì)基本的翻譯規(guī)則。第二步解凍音頻編碼器和適配器(語言模型仍保持凍結(jié)),繼續(xù)在分類、描述生成、語音識(shí)別等基礎(chǔ)任務(wù)上學(xué)習(xí)。這一階段處理的音頻最長30秒到1分鐘,上下文窗口限制在8K詞元以內(nèi)。

第二階段是中期訓(xùn)練,同樣分兩步。第一步對(duì)整個(gè)模型進(jìn)行全面微調(diào),引入新收集的數(shù)據(jù)以及AudioSkills-XL技能集,音頻處理長度擴(kuò)展到10分鐘,上下文窗口擴(kuò)大到24K詞元。第二步進(jìn)一步擴(kuò)充長音頻描述和問答數(shù)據(jù),將之前數(shù)據(jù)的采樣權(quán)重壓縮至一半,把所有長音頻數(shù)據(jù)集的采樣權(quán)重設(shè)為1,使模型集中學(xué)習(xí)長音頻處理。這一步的最大音頻長度擴(kuò)展到30分鐘,上下文窗口增至128K詞元。這一階段訓(xùn)練完成后得到的模型被命名為AF-Next-Captioner。

值得一提的是,為了高效處理如此之長的序列,團(tuán)隊(duì)專門設(shè)計(jì)了一套"序列并行"(Sequence Parallelism,SP)計(jì)算框架。自注意力機(jī)制的計(jì)算量隨序列長度平方級(jí)增長,處理128K長度的序列在單張GPU上是不現(xiàn)實(shí)的。團(tuán)隊(duì)采用了一種叫做混合序列并行的方法,將注意力計(jì)算分散到多張GPU上。具體來說,在節(jié)點(diǎn)內(nèi)部使用"Ulysses注意力",通過全互聯(lián)通信將序列的不同頭部分配到不同GPU;跨節(jié)點(diǎn)則使用"Ring注意力",通過環(huán)形拓?fù)鋫鬟fKV緩存塊。這兩種方式結(jié)合,既利用了節(jié)點(diǎn)內(nèi)高帶寬互連的優(yōu)勢,又解決了跨節(jié)點(diǎn)時(shí)的通信效率問題。

第三階段是后訓(xùn)練,從中期訓(xùn)練得到的模型出發(fā),使用基于GRPO的強(qiáng)化學(xué)習(xí)(一種讓模型通過"對(duì)錯(cuò)反饋"自我優(yōu)化的訓(xùn)練方式)進(jìn)行進(jìn)一步調(diào)優(yōu),重點(diǎn)在多輪對(duì)話、安全性、指令遵循,以及部分技能集上模型表現(xiàn)相對(duì)薄弱的領(lǐng)域。這一階段產(chǎn)生的模型稱為AF-Next-Instruct。

第四階段是鏈?zhǔn)酵评碛?xùn)練,以AF-Next-Instruct為基礎(chǔ),先用AF-Think-Time數(shù)據(jù)集做監(jiān)督微調(diào),再用后訓(xùn)練階段的數(shù)據(jù)混合進(jìn)行GRPO強(qiáng)化學(xué)習(xí)訓(xùn)練。這一階段的最終產(chǎn)物稱為AF-Next-Think。

三個(gè)開源版本分別面向不同使用場景:AF-Next-Instruct適合一般問答需求,AF-Next-Think專為需要深度推理的任務(wù)設(shè)計(jì),AF-Next-Captioner則在生成詳細(xì)音頻描述方面表現(xiàn)最佳。

**六、時(shí)間錨定的推理鏈:讓AI不僅會(huì)聽,還會(huì)"按圖索驥"**

現(xiàn)有的音頻推理模型在處理短片段時(shí)表現(xiàn)尚可,但一旦面對(duì)長音頻,往往出現(xiàn)兩類典型問題:第一,推理鏈過長、堆砌廢話,比如在MMAU這個(gè)基準(zhǔn)測試上,某些模型的推理過程超過16000個(gè)詞元,絕大部分是無效內(nèi)容;第二,推理缺乏時(shí)間錨定,模型雖然給出了推理步驟,但這些步驟漂浮在時(shí)間軸之外,無法讓人知道"這個(gè)結(jié)論是基于音頻第幾秒到第幾秒的內(nèi)容得出的"。

對(duì)于長音頻來說,這個(gè)問題尤為突出。一段30分鐘的錄音中,關(guān)鍵證據(jù)可能散布在第3分鐘、第17分鐘和第28分鐘,模型如果不能在推理時(shí)明確指向這些時(shí)間點(diǎn),推理就變成了無據(jù)可查的"主觀判斷",難以驗(yàn)證也難以信任。

AF-Next為此引入了一種全新的推理范式,稱為Temporal Audio Chain-of-Thought(時(shí)間音頻推理鏈)。核心思想是:在推理過程中的每一個(gè)關(guān)鍵步驟,明確標(biāo)注該步驟依據(jù)的時(shí)間區(qū)間。比如,回答"這段對(duì)話中,說話人情緒在哪個(gè)時(shí)間段發(fā)生了明顯轉(zhuǎn)變"時(shí),模型不只是給出"在中段"這樣模糊的描述,而是輸出類似"在第8.3秒到第14.2秒之間,說話人的語速加快,出現(xiàn)停頓,語氣由平穩(wěn)轉(zhuǎn)為急促,據(jù)此判斷情緒在這一階段發(fā)生了轉(zhuǎn)變"這樣有時(shí)間依據(jù)的推理鏈。

這種做法的直接好處有兩個(gè):其一,幫助模型在長音頻中按時(shí)間線索"導(dǎo)航",減少因遺漏關(guān)鍵證據(jù)而導(dǎo)致的錯(cuò)誤;其二,讓推理過程對(duì)用戶透明可查,提升模型輸出的可信度。

為訓(xùn)練這一能力,研究團(tuán)隊(duì)構(gòu)建了AF-Think-Time數(shù)據(jù)集,從電影預(yù)告片、懸疑故事、長篇對(duì)話等需要跨時(shí)間段理解的音頻中提煉出約4.3萬個(gè)樣本,每條樣本的推理鏈平均包含446個(gè)單詞,且每個(gè)關(guān)鍵推理步驟都與音頻中的具體時(shí)間段掛鉤。

**七、跑分時(shí)間:AF-Next在20多個(gè)測試中表現(xiàn)如何?**

研究團(tuán)隊(duì)將AF-Next與業(yè)內(nèi)幾乎所有主要的音頻語言模型進(jìn)行了系統(tǒng)對(duì)比,包括GAMA、Audio Flamingo系列、Qwen-Audio系列、Qwen2.5-Omni、Qwen3-Omni、R1-AQA、Pengi、Phi-4-mm、Baichuan Audio、Step-Audio,以及谷歌的Gemini系列(2.0 Flash、1.5 Pro、2.5 Flash和2.5 Pro)和OpenAI的GPT-4o-audio。所有基準(zhǔn)測試均由團(tuán)隊(duì)重新運(yùn)行,確保結(jié)果可復(fù)現(xiàn)。

在MMAU(一個(gè)綜合音頻理解和推理的大型基準(zhǔn)測試)的最新版本(v05.15.25)上,AF-Next-Instruct取得了74.20的平均準(zhǔn)確率,超越了AF3的72.42。AF-Next-Think進(jìn)一步提升至75.01,而AF-Next-Captioner則達(dá)到75.76,在聲音(79.87)、音樂(75.3)和語音(72.13)三個(gè)子類上全面領(lǐng)先。

在MMAR(一個(gè)專注于語音、音頻、音樂深度推理的測試)上,AF-Next-Instruct以59.7超過AF3的58.5,AF-Next-Captioner則進(jìn)一步推高至63.0,比AF3高出4.5個(gè)百分點(diǎn)。

在MMSU(主要考察口語理解和推理)上,雖然閉源的Gemini 2.5 Flash以66.1領(lǐng)先,但AF-Next-Captioner以63.3的成績大幅縮小了差距,相比AF3提升了約4個(gè)百分點(diǎn)。

在更具挑戰(zhàn)性的MMAU-Pro測試上,AF-Next-Instruct以56.9的成績超越了閉源的Gemini 2.5 Pro(57.4),AF-Next-Think則進(jìn)一步達(dá)到58.7,成為該測試上最強(qiáng)的公開結(jié)果。

音頻描述生成方面,AF-Next-Instruct在Clotho-v2上的CIDEr評(píng)分從0.50提升至0.52,在AudioCaps上從0.70提升至0.74。音頻蘊(yùn)含判斷(判斷文字描述是否符合音頻內(nèi)容)方面,在Clotho上準(zhǔn)確率從93.3提升至94.2,在AudioCaps上從95.0提升至96.0。

音樂理解是AF-Next表現(xiàn)特別亮眼的領(lǐng)域之一。在NSynth樂器來源分類上,AF-Next以66.7的準(zhǔn)確率超越了此前最強(qiáng)開源模型Pengi的62.0;在樂器類型分類上,以81.7超越了最強(qiáng)開放權(quán)重模型Qwen-Audio的78.8。在Medley-Solos-DB樂器識(shí)別測試中,AF-Next以92.13的準(zhǔn)確率大幅超越Audio Flamingo 2的85.80。在MuchoMusic音樂理解測試中,以75.6略勝M(fèi)usic Flamingo的74.5。而在歌曲描述生成(SongCaps)測試中,AF-Next取得了GPT-5評(píng)分覆蓋率8.8、正確率8.9的成績,相比AF3的6.7和6.2有了大幅躍升。

長音頻理解方面,AF-Next-Instruct在LongAudioBench上以73.9的成績,同時(shí)超越了AF3的68.6和閉源的Gemini 2.5 Pro的60.4,差距相當(dāng)顯著。在包含語音內(nèi)容的版本(+Speech)上,AF-Next更是以81.2的成績遠(yuǎn)超AF3的72.9和Gemini 2.5 Pro的66.2。

自動(dòng)語音識(shí)別方面,AF-Next-Instruct在LibriSpeech測試集上取得了1.54(干凈集)和2.76(嘈雜集)的詞錯(cuò)誤率(WER),創(chuàng)下了同類模型中的最低記錄,同時(shí)在Common Voice 15(7.2)、GigaSpeech(9.8)和VoxPopuli(5.4)上均取得最佳成績。

在VoiceBench(語音理解和指令遵循綜合測試)上,AF-Next-Instruct在AlpacaEval(4.43)、CommonEval(3.96)和OpenBookQA(80.9)三個(gè)子項(xiàng)上均超越了Qwen2.5-Omni和AF3,其中OpenBookQA上比AF3高出超過14分,比Qwen2.5-Omni高出約1.8分。

在CoVoST2語音翻譯測試中,AF-Next在英語翻中文(38.2 BLEU)和英語翻阿拉伯語(21.9 BLEU)上取得最好成績,后者相比Phi-4-mm的9.9高出了整整12分,顯示出AF-Next在低資源語言對(duì)上的突出能力。

**八、歸根結(jié)底,這項(xiàng)研究意味著什么?**

說到底,AF-Next做的事情可以用一句話概括:它把"聽懂聲音"這件事,從專用工具的領(lǐng)域,推向了通用智能的版圖,而且是以完全開放透明的方式做到的。

過去,如果你想讓AI幫你轉(zhuǎn)錄30分鐘的會(huì)議錄音、判斷說話人是誰、識(shí)別背景中有什么噪音、還順帶理解某段話的情緒,你需要把這個(gè)任務(wù)拆成四五個(gè)不同的系統(tǒng)分別處理,結(jié)果還未必能拼接在一起。AF-Next提供了一個(gè)統(tǒng)一的接口,能在一次交互中完成所有這些任務(wù),而且還能在推理時(shí)解釋"我是根據(jù)第X分鐘到第Y分鐘的內(nèi)容得出這個(gè)結(jié)論的"。

對(duì)普通人來說,這意味著更智能的語音助手、更準(zhǔn)確的會(huì)議摘要、更可靠的音樂信息檢索,以及更安全的音頻內(nèi)容審核系統(tǒng)。對(duì)研究者來說,全套開源(代碼、權(quán)重、訓(xùn)練數(shù)據(jù)和方法論一并公開)意味著這個(gè)成果是一塊可以繼續(xù)搭建的積木,而不是一個(gè)封閉的黑盒。

當(dāng)然,研究團(tuán)隊(duì)也坦誠地指出了這項(xiàng)工作的局限。互聯(lián)網(wǎng)音頻數(shù)據(jù)中,低資源語言、罕見聲音事件和特定專業(yè)領(lǐng)域仍然代表性不足;30分鐘的長音頻能力雖然是一大進(jìn)步,但當(dāng)關(guān)鍵證據(jù)在時(shí)間上極度分散時(shí),模型的長上下文記憶和證據(jù)整合能力仍有提升空間;此外,諸如多說話人語音識(shí)別、說話人分離、時(shí)間戳描述生成和語音對(duì)語音交互等能力雖然已經(jīng)內(nèi)置,但在本次研究中尚未系統(tǒng)評(píng)估,這些有待后續(xù)工作填補(bǔ)。

對(duì)于對(duì)AI感興趣的讀者,一個(gè)值得思考的問題是:當(dāng)AI能夠"聽懂"并"推理"聲音之后,我們希望它在什么場景下使用這種能力,又在什么時(shí)候應(yīng)該選擇沉默或拒絕?安全性和可信度的問題,在音頻AI這個(gè)領(lǐng)域,才剛剛開始被認(rèn)真對(duì)待。有興趣深入探索的讀者,可以通過arXiv編號(hào)2604.10905查閱完整論文,或訪問NVIDIA相關(guān)開源頁面獲取模型權(quán)重和訓(xùn)練代碼。

Q&A

Q1:Audio Flamingo Next和普通語音識(shí)別軟件有什么區(qū)別?

A:普通語音識(shí)別軟件只做一件事:把說的話轉(zhuǎn)成文字。而Audio Flamingo Next能同時(shí)處理語音、音樂和環(huán)境聲音,不只是轉(zhuǎn)錄,還能理解內(nèi)容、回答問題、分辨是誰在說話、判斷聲音發(fā)生的時(shí)間順序,甚至對(duì)30分鐘的長錄音進(jìn)行推理和摘要生成。相當(dāng)于從"速記員"進(jìn)化成了"能聽、能思考、能解釋的智能助理"。

Q2:Temporal Audio Chain-of-Thought是什么,有什么用?

A:Temporal Audio Chain-of-Thought(時(shí)間音頻推理鏈)是AF-Next引入的一種新推理方式。簡單說,就是模型在給出答案時(shí),會(huì)明確標(biāo)注"我的結(jié)論來自音頻的第幾秒到第幾秒"。這樣做讓推理過程透明可查,在處理長音頻時(shí)尤其重要——模型不再是憑"感覺"作答,而是有跡可循地追蹤證據(jù),減少了錯(cuò)誤和胡編亂造的情況。

Q3:AF-Next開源了嗎,普通人能用到嗎?

A:AF-Next是完全開源的,包括三個(gè)版本的模型權(quán)重(AF-Next-Instruct、AF-Next-Think、AF-Next-Captioner)、訓(xùn)練代碼以及數(shù)據(jù)構(gòu)建方法,均公開發(fā)布,采用研究用途許可證。研究者和開發(fā)者可以直接下載使用或在此基礎(chǔ)上繼續(xù)研發(fā)。對(duì)于普通用戶,直接調(diào)用目前需要一定的技術(shù)門檻,但未來基于這些模型構(gòu)建的應(yīng)用產(chǎn)品,有望讓普通人也能受益。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1986年陳永貴病逝,追悼會(huì)規(guī)格成難題,鄧小平只說了一句話,全場安靜

1986年陳永貴病逝,追悼會(huì)規(guī)格成難題,鄧小平只說了一句話,全場安靜

寄史言志
2026-01-04 16:34:31
緊急!取款方式徹底變了,已全國執(zhí)行!

緊急!取款方式徹底變了,已全國執(zhí)行!

趣味萌寵的日常
2026-04-22 15:11:20
移民大清查來了!移民局重查拜登時(shí)期的綠卡,65%案件被指涉欺詐

移民大清查來了!移民局重查拜登時(shí)期的綠卡,65%案件被指涉欺詐

大洛杉磯LA
2026-04-22 05:39:33
打臉來得太快了!

打臉來得太快了!

燕梳樓頻道
2026-04-21 13:11:28
我在中東教漢語,娶了三個(gè)本地女孩,雖然年入百萬,卻并不幸福

我在中東教漢語,娶了三個(gè)本地女孩,雖然年入百萬,卻并不幸福

千秋文化
2026-04-20 19:55:30
你怕了?日艦闖臺(tái)海48小時(shí)后,中國軍艦開到家門口!日本網(wǎng)友崩了

你怕了?日艦闖臺(tái)海48小時(shí)后,中國軍艦開到家門口!日本網(wǎng)友崩了

史行途
2026-04-20 22:12:22
一地什么都卷,連體育也卷?家長:我們這里的孩子是犯了天條嘛?

一地什么都卷,連體育也卷?家長:我們這里的孩子是犯了天條嘛?

新東方
2026-04-22 17:13:22
兩只液冷牛股再度跌停

兩只液冷牛股再度跌停

財(cái)聞
2026-04-22 09:40:39
嚴(yán)查醫(yī)保違規(guī)套現(xiàn)!鄭州多部門聯(lián)合進(jìn)駐調(diào)查

嚴(yán)查醫(yī)保違規(guī)套現(xiàn)!鄭州多部門聯(lián)合進(jìn)駐調(diào)查

大象新聞
2026-04-22 09:07:01
美股期貨集體拉升,特朗普稱美伊最終將達(dá)成重大協(xié)議

美股期貨集體拉升,特朗普稱美伊最終將達(dá)成重大協(xié)議

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-04-22 09:05:57
慈禧嘴里那顆8億的夜明珠,下落已經(jīng)查明:原來是她拿來干那種事

慈禧嘴里那顆8億的夜明珠,下落已經(jīng)查明:原來是她拿來干那種事

近史談
2026-04-14 18:51:51
A股:成功站上4100點(diǎn),尾盤很明顯,明天,4月23日,很可能這樣走

A股:成功站上4100點(diǎn),尾盤很明顯,明天,4月23日,很可能這樣走

虎哥閑聊
2026-04-22 15:00:22
周亮,被免職

周亮,被免職

新京報(bào)政事兒
2026-04-21 10:28:07
好裝、好有錢,被國產(chǎn)劇里的窮人氣笑了

好裝、好有錢,被國產(chǎn)劇里的窮人氣笑了

糊咖娛樂
2026-04-21 18:45:21
中國鐵礦石談判大獲全勝!“鎖喉”必和必拓:不降價(jià)?那就別賣了

中國鐵礦石談判大獲全勝!“鎖喉”必和必拓:不降價(jià)?那就別賣了

動(dòng)漫里的童話
2026-04-22 05:35:55
徐子淇在富豪老公面前真敢穿,豐滿身材穿薄紗挖洞裙,真豁得出去

徐子淇在富豪老公面前真敢穿,豐滿身材穿薄紗挖洞裙,真豁得出去

蓓小西
2026-04-21 12:27:46
《孤獨(dú)的美食家》再次回歸,依舊是松重豐版五郎!但他還能再拍多久呢……?

《孤獨(dú)的美食家》再次回歸,依舊是松重豐版五郎!但他還能再拍多久呢……?

日本通
2026-04-22 15:05:36
3連冠!香港隊(duì)瘋狂慶祝奪冠,頒獎(jiǎng)?wù)l注意鞏曉彬動(dòng)作,下季將升CBA

3連冠!香港隊(duì)瘋狂慶祝奪冠,頒獎(jiǎng)?wù)l注意鞏曉彬動(dòng)作,下季將升CBA

老吳說體育
2026-04-21 21:48:26
蘇聯(lián)“人猿雜交”實(shí)驗(yàn):5名女孩與11只猩猩參與,結(jié)局如何?

蘇聯(lián)“人猿雜交”實(shí)驗(yàn):5名女孩與11只猩猩參與,結(jié)局如何?

談史論天地
2026-02-28 13:35:18
還有15天!伊朗石油業(yè)將被迫減產(chǎn),隨后全面停產(chǎn)

還有15天!伊朗石油業(yè)將被迫減產(chǎn),隨后全面停產(chǎn)

華爾街見聞官方
2026-04-22 14:04:02
2026-04-22 19:59:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

體育要聞

網(wǎng)易傳媒再度簽約法國隊(duì)和阿根廷隊(duì)

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長?;鹌谙?/h3>

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

旅游
本地
時(shí)尚
手機(jī)
公開課

旅游要聞

江蘇兩地入選!蘇州再登“2025年游客滿意十佳城市”

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

初夏穿赫本的白褲子,清新又高級(jí)!

手機(jī)要聞

續(xù)航滅霸降臨!vivo Y600 Pro 全配置曝光,10200mAh 電池沖擊中端機(jī)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版