国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

真實(shí)音頻場(chǎng)景,大模型集體掛科!首個(gè)原生語(yǔ)音基準(zhǔn)MultiChallenge

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】文本領(lǐng)域的大模型滿分選手,換成語(yǔ)音就集體掛科?大模型引以為傲的多輪對(duì)話邏輯,在真實(shí)人聲面前竟然如此脆弱。Scale AI正式發(fā)布首個(gè)原生音頻多輪對(duì)話基準(zhǔn)Audio MultiChallenge,直接撕開了大模型靠合成語(yǔ)音評(píng)測(cè)維持的優(yōu)等生假象。實(shí)驗(yàn)顯示,強(qiáng)如Gemini 3 Pro在真實(shí)場(chǎng)景下的通過(guò)率也僅過(guò)半數(shù),而GPT-4o Audio的表現(xiàn)更是令人大跌眼鏡。

隨著實(shí)時(shí)語(yǔ)音大模型的普及,人們一度以為AI實(shí)時(shí)伴侶已經(jīng)跨越了自然交互的最后一道門檻。

然而,大模型在語(yǔ)音對(duì)話中表現(xiàn)出的聰明,很大程度上源于評(píng)測(cè)手段的滯后。

此前,Scale AI推出的MultiChallenge基準(zhǔn)憑借對(duì)指令保留、推理記憶和自我一致性的嚴(yán)苛考察,被公認(rèn)為評(píng)估大模型邏輯長(zhǎng)性的黃金標(biāo)準(zhǔn)。

但長(zhǎng)久以來(lái),該基準(zhǔn)一直缺少一個(gè)真正的音頻原聲版本。

最近,Scale AI正式補(bǔ)齊了這塊拼圖,發(fā)布Audio MultiChallenge,不僅刷新了語(yǔ)音交互的新高度,更揭開了行業(yè)內(nèi)一個(gè)公開的秘密:

由于缺乏原生音頻測(cè)試集,模型廠商在發(fā)布報(bào)告時(shí),往往不得不利用T2S(Text-to-Speech)將文本基準(zhǔn)轉(zhuǎn)換為語(yǔ)音進(jìn)行評(píng)測(cè)


論文鏈接:https://arxiv.org/pdf/2512.14865

這種做法雖然讓數(shù)據(jù)看起來(lái)很漂亮,卻在無(wú)形中給模型加了一層過(guò)度美化的濾鏡。



撕掉語(yǔ)音外殼

為什么TTS測(cè)不出真本事?

利用TTS轉(zhuǎn)換來(lái)進(jìn)行評(píng)測(cè),實(shí)際上是為模型營(yíng)造了一個(gè)完美的無(wú)菌環(huán)境。

TTS 生成的語(yǔ)音平滑、規(guī)律且高度標(biāo)準(zhǔn)化,徹底過(guò)濾掉了人類語(yǔ)言中最重要的特質(zhì):日常說(shuō)話時(shí)的各種吞吐、重復(fù)、瑣碎停頓以及臨時(shí)改口。

當(dāng)你對(duì)AI說(shuō):我想定周一,哦不,是周三的票,等下……還是周二吧。

這種充滿了邏輯回溯和口語(yǔ)碎片的自然場(chǎng)景,是目前TTS技術(shù)極力避免但在現(xiàn)實(shí)生活中無(wú)處不在的。

過(guò)去,模型穿上了一層由合成語(yǔ)音搭建的語(yǔ)音外殼,本質(zhì)上是在用文本思維處理潔凈信號(hào)。

而一旦脫離這個(gè)外殼,面對(duì)Audio MultiChallenge中47名真實(shí)說(shuō)話者錄制的原始音頻,模型的邏輯鏈條便會(huì)迅速崩塌。

論文直言不諱地指出:模型在合成語(yǔ)音上的得分顯著高于真實(shí)人聲,這證實(shí)了干凈的合成音頻掩蓋了模型在現(xiàn)實(shí)世界中的失敗模式(Masking real-world failure modes)。

Gemini 3 Pro勉強(qiáng)登頂

GPT-4o意外折戟標(biāo)題

Audio MultiChallenge延續(xù)了原版的嚴(yán)苛邏輯,并針對(duì)音頻特性新增了致命的一擊,從指令保留、推理記憶、自我一致性以及核心的Voice Editing(語(yǔ)音編輯) 四個(gè)軸向?qū)δP瓦M(jìn)行綜合考核。

根據(jù)論文公布的排行榜,目前全球頂尖模型的音頻原生能力普遍處于及格線以下:


實(shí)驗(yàn)數(shù)據(jù)揭露了一個(gè)驚人的落差:Gemini 3 Pro Preview憑借其推理架構(gòu)在邏輯深度上維持了領(lǐng)先;而GPT-4o Audio Preview在面對(duì)真實(shí)人類語(yǔ)音時(shí),表現(xiàn)出的魯棒性遠(yuǎn)低于預(yù)期,通過(guò)率甚至只有Gemini的一半左右。

揭秘三大失敗模式

語(yǔ)音邏輯的深層鴻溝

論文通過(guò)詳細(xì)的錯(cuò)誤分析,精準(zhǔn)捕捉到了模型在音頻模態(tài)下的三個(gè)軟肋,這些結(jié)論直接指出了大模型在語(yǔ)音交互中的底層Gap:

語(yǔ)音編輯是邏輯黑洞:這是本次基準(zhǔn)新增的維度。當(dāng)用戶在說(shuō)話過(guò)程中中途改口或邏輯回溯時(shí),大多數(shù)模型會(huì)死板地執(zhí)行聽到的第一個(gè)指令。該維度的平均通過(guò)率僅為17.99%,這意味著模型在聽覺(jué)上無(wú)法有效處理信息的撤回與覆蓋。

時(shí)長(zhǎng)驅(qū)動(dòng)的崩潰:模型表現(xiàn)隨著音頻總時(shí)長(zhǎng)增加而穩(wěn)步惡化。數(shù)據(jù)顯示,當(dāng)對(duì)話累計(jì)音頻超過(guò)8分鐘時(shí),模型的自我一致性得分會(huì)驟降至 13% 左右。這意味著目前的語(yǔ)音模型在處理長(zhǎng)程語(yǔ)音上下文時(shí),狀態(tài)追蹤能力極其薄弱。

音頻線索的感知缺失:當(dāng)任務(wù)要求模型識(shí)別非語(yǔ)義信號(hào)(如背景的環(huán)境聲、說(shuō)話人的語(yǔ)氣情緒)來(lái)輔助推理時(shí),模型表現(xiàn)比純語(yǔ)義任務(wù)下降了 36.5%。這說(shuō)明模型依然把語(yǔ)音當(dāng)成脫水的文字在讀,而沒(méi)能真正聽懂聲音背后的物理世界。

結(jié)語(yǔ)

Audio MultiChallenge的發(fā)布證明了語(yǔ)音絕不僅是文本的簡(jiǎn)單投射,包含著實(shí)時(shí)狀態(tài)跟蹤、情緒理解以及復(fù)雜的口語(yǔ)特質(zhì)處理。

Scale AI的這一記重錘敲醒了業(yè)界:如果我們不能撕掉那層精美的語(yǔ)音外殼,解決模型對(duì)自然語(yǔ)音中不完美特征的感知斷層,那么AGI驅(qū)動(dòng)的自由交互,將永遠(yuǎn)停留在聽懂單詞卻不懂邏輯的初級(jí)階段。

參考資料:

https://arxiv.org/pdf/2512.14865

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
朝鮮不會(huì)成為第二個(gè)委內(nèi)瑞拉!因?yàn)槌r有兩個(gè)后盾

朝鮮不會(huì)成為第二個(gè)委內(nèi)瑞拉!因?yàn)槌r有兩個(gè)后盾

米君文史
2026-01-07 10:01:47
出差前我把家里地暖關(guān)了,當(dāng)晚樓下阿姨在群里開罵…

出差前我把家里地暖關(guān)了,當(dāng)晚樓下阿姨在群里開罵…

極品小牛肉
2026-01-05 14:43:53
岳云鵬宣布退出2026春晚,不再參加

岳云鵬宣布退出2026春晚,不再參加

觀察者海風(fēng)
2026-01-07 17:11:33
美防長(zhǎng)通告全世界:已做好戰(zhàn)爭(zhēng)準(zhǔn)備,誰(shuí)開第一槍,見(jiàn)不到明天太陽(yáng)

美防長(zhǎng)通告全世界:已做好戰(zhàn)爭(zhēng)準(zhǔn)備,誰(shuí)開第一槍,見(jiàn)不到明天太陽(yáng)

軍機(jī)Talk
2026-01-07 11:01:52
太棒了!蘋果推出 iPhone 換電池半價(jià)活動(dòng)

太棒了!蘋果推出 iPhone 換電池半價(jià)活動(dòng)

XCiOS俱樂(lè)部
2026-01-07 15:03:15
河北農(nóng)村取暖問(wèn)題,不能再耽擱了

河北農(nóng)村取暖問(wèn)題,不能再耽擱了

齊魯壹點(diǎn)
2026-01-05 15:20:13
胡明軒3分!隨著廣東險(xiǎn)勝深圳,上海大勝青島,CBA最新積分榜出爐

胡明軒3分!隨著廣東險(xiǎn)勝深圳,上海大勝青島,CBA最新積分榜出爐

侃球熊弟
2026-01-07 20:27:53
阿森納女足新援因外表出眾引來(lái)低俗評(píng)論,俱樂(lè)部關(guān)閉評(píng)論區(qū)

阿森納女足新援因外表出眾引來(lái)低俗評(píng)論,俱樂(lè)部關(guān)閉評(píng)論區(qū)

懂球帝
2026-01-07 12:56:05
50歲安吉麗娜·朱莉出售洛杉磯2450萬(wàn)美元豪宅,被曝計(jì)劃移居,“或?yàn)閿[脫與前夫布拉德·皮特的糾葛”

50歲安吉麗娜·朱莉出售洛杉磯2450萬(wàn)美元豪宅,被曝計(jì)劃移居,“或?yàn)閿[脫與前夫布拉德·皮特的糾葛”

魯中晨報(bào)
2026-01-07 15:57:25
4萬(wàn)元/根,一盒內(nèi)存條堪比上海一套房

4萬(wàn)元/根,一盒內(nèi)存條堪比上海一套房

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-01-07 14:58:12
委內(nèi)瑞拉股市,暴漲超50%

委內(nèi)瑞拉股市,暴漲超50%

都市快報(bào)橙柿互動(dòng)
2026-01-07 17:23:15
秘魯總統(tǒng)赫里:完全贊同美國(guó)對(duì)委內(nèi)瑞拉的干預(yù)行動(dòng),已采取了必要的措施,并且現(xiàn)在必須逐步恢復(fù)民主秩序

秘魯總統(tǒng)赫里:完全贊同美國(guó)對(duì)委內(nèi)瑞拉的干預(yù)行動(dòng),已采取了必要的措施,并且現(xiàn)在必須逐步恢復(fù)民主秩序

和訊網(wǎng)
2026-01-07 12:16:18
32名衛(wèi)士血戰(zhàn)到底,古巴戰(zhàn)士用生命回報(bào)了盟友,南美要變天了!

32名衛(wèi)士血戰(zhàn)到底,古巴戰(zhàn)士用生命回報(bào)了盟友,南美要變天了!

局勢(shì)帝
2026-01-07 12:49:22
U23國(guó)足首戰(zhàn)就是生死戰(zhàn)!8年后再?zèng)_開門紅,或12年首次連勝

U23國(guó)足首戰(zhàn)就是生死戰(zhàn)!8年后再?zèng)_開門紅,或12年首次連勝

奧拜爾
2026-01-07 19:51:00
日本芯片材料制造商寧背債務(wù)不漲售價(jià),總裁:漲價(jià)是對(duì)客戶的背叛

日本芯片材料制造商寧背債務(wù)不漲售價(jià),總裁:漲價(jià)是對(duì)客戶的背叛

風(fēng)向觀察
2026-01-07 13:37:16
河南一大爺實(shí)拍“素顏巴黎”照片火遍全網(wǎng),埃菲爾鐵塔被調(diào)侃像“電線塔

河南一大爺實(shí)拍“素顏巴黎”照片火遍全網(wǎng),埃菲爾鐵塔被調(diào)侃像“電線塔

大象新聞
2026-01-07 19:53:19
2026央視春晚彩排曝光,令人擔(dān)心的事還是發(fā)生了:不該來(lái)的都來(lái)了

2026央視春晚彩排曝光,令人擔(dān)心的事還是發(fā)生了:不該來(lái)的都來(lái)了

銀河史記
2026-01-06 17:22:24
韓國(guó)大膽提議:建設(shè)首爾至北京高鐵,但有一個(gè)條件,中方須先答應(yīng)

韓國(guó)大膽提議:建設(shè)首爾至北京高鐵,但有一個(gè)條件,中方須先答應(yīng)

華史談
2026-01-07 07:07:21
武漢大學(xué)女教授獻(xiàn)血300次事件,違背常識(shí)是最大的惡

武漢大學(xué)女教授獻(xiàn)血300次事件,違背常識(shí)是最大的惡

清書先生
2026-01-07 16:26:41
18歲伊斯蘭少女直播拒戴頭巾,被冷血父親榮譽(yù)處決。

18歲伊斯蘭少女直播拒戴頭巾,被冷血父親榮譽(yù)處決。

環(huán)球趣聞分享
2026-01-07 13:30:09
2026-01-08 00:59:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14279文章數(shù) 66451關(guān)注度
往期回顧 全部

科技要聞

精華!黃仁勛CES記者會(huì):揭秘新款大殺器

頭條要聞

委向美移交5000萬(wàn)桶原油有部分原本銷往中國(guó) 中方回應(yīng)

頭條要聞

委向美移交5000萬(wàn)桶原油有部分原本銷往中國(guó) 中方回應(yīng)

體育要聞

賣水果、搬磚的小伙,與哈蘭德爭(zhēng)英超金靴

娛樂(lè)要聞

《馬背搖籃》首播,革命的樂(lè)觀主義故事

財(cái)經(jīng)要聞

農(nóng)大教授科普:無(wú)需過(guò)度擔(dān)憂蔬菜農(nóng)殘

汽車要聞

燃油駕趣+智能電感雙Buff 試駕全新奧迪Q5L

態(tài)度原創(chuàng)

教育
家居
健康
親子
公開課

教育要聞

中等生的“勤奮”,為何毫無(wú)回報(bào)

家居要聞

寧?kù)o不單調(diào) 恰到好處的美

這些新療法,讓化療不再那么痛苦

親子要聞

雀巢召回多國(guó)嬰兒配方奶粉,涉及中國(guó)市場(chǎng)71個(gè)批次

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版