国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從開源VibeVoice-ASR看語音模型的設(shè)計、數(shù)據(jù)、幻覺和未來

0
分享至

最近,微軟開源了VibeVoice-ASR,我也第一時間進行了體驗。首先,對微軟團隊開源這個模型表示感謝。盡管在測試過程中發(fā)現(xiàn)了一些問題,但任何開源工作都值得尊重。作為開源工作,我們沒有任何理由要求太多,這些問題也都是可以解決的,況且微調(diào)代碼也即將開源。并且從我粗淺的直覺和簡陋的測試上得出的結(jié)論:如果可以從數(shù)據(jù)覆蓋上進一步優(yōu)化,這個模型應(yīng)該還是有潛力的。在此,我想基于這個工作,聊一聊VibeVoice-ASR的優(yōu)點與不足,并分享一些對模型設(shè)計和數(shù)據(jù)的思考。

多任務(wù)的模型設(shè)計

雖然模型命名為VibeVoice-ASR,但它并非單純的語音轉(zhuǎn)文字模型。VibeVoice-ASR集成了說話人日志、時間戳以及部分聲音事件檢測功能。

這樣的多任務(wù)設(shè)計符合大模型時代的技術(shù)趨勢,也契合未來的用戶需求。如今,僅實現(xiàn)語音轉(zhuǎn)錄已遠遠不夠。無論是底層模型還是上層應(yīng)用,乃至用戶對智能體驗日益提升的期待,都要求我們從語音數(shù)據(jù)中提取更豐富的信息。用戶對產(chǎn)品的追求不再停留在基礎(chǔ)功能,而更多地轉(zhuǎn)向情感價值與類人體驗。


關(guān)注聲音特性

先吐個槽,我非常反感各類PR文章的自夸,動輒宣稱“世界第一”。(我能理解,畢竟要給投資人、客戶看,也需要曝光度。)但這種風(fēng)氣很容易誤導(dǎo)行業(yè)外的人。畢竟,包括我在內(nèi),99%的負責(zé)人今天做什么,取決于早上在自媒體上刷到了什么(借用別人的段子)。

我認(rèn)為,聲音在機器理解用戶方面的價值被嚴(yán)重低估了。理解聲音,是通往“世界模型”、理解世界不可或缺的一環(huán)。

遺憾的是,目前除了Gemini,我還沒看到能與之比肩的系統(tǒng)。我也認(rèn)為這是谷歌布局未來重要的一步。(不得不提一句,至于那些號稱超越的,或許在某些測試集和指標(biāo)上能實現(xiàn)超越,這一點我并不否認(rèn)。)

VibeVoice-ASR模型其實讓我有所期待。至少,它是開源模型中明確對聲紋進行建模的,并且在我真實測試集(家庭錄音,包括男性、女性、兒童)中,在區(qū)分度較大的場景下是可用的。

  • “建模聲紋很難嗎?”“是的。”

  • “聲紋識別現(xiàn)在做得很好了嗎?”“并沒有。”

聲紋作為聲音的底層屬性,與語音語義有很大不同。識別一個人的聲紋,對人類來說也并非易事。我們覺得容易,大多是因為我們接觸的聲紋往往是“已注冊”的。從模型實現(xiàn)來看,聲紋的做法看似簡單,但實際效果并不理想,原因有多方面:

極易受環(huán)境干擾

與ASR相比,聲紋更易受聲學(xué)環(huán)境干擾。訓(xùn)練數(shù)據(jù)的覆蓋范圍、環(huán)境噪聲、信道差異,以及注冊與使用條件的不一致,都會影響最終效果。

聲紋具有時變性

聲紋會隨時間發(fā)生漂移,比如兒童的聲音變化最快,不同兒童之間的聲音區(qū)分也很困難,成人的聲音也會因狀態(tài)(如感冒、情緒)而改變。

聲紋數(shù)據(jù)自動標(biāo)注困難

從數(shù)據(jù)標(biāo)注角度看,由于歷史上聲紋模型效果一般,再加上上述難點,導(dǎo)致自動化標(biāo)注很難做到準(zhǔn)確。

幻覺問題較為突出

在體驗VibeVoice-ASR模型的過程中,我發(fā)現(xiàn)最明顯的問題是幻覺。測試中,我注意到一個特別的現(xiàn)象:

數(shù)據(jù)中孩子的哭聲極容易觸發(fā)模型的幻覺。

最初我以為是數(shù)據(jù)過長(約30分鐘)導(dǎo)致的,于是特意將哭聲部分單獨截取出來測試,但幻覺依然出現(xiàn),比如下面的例子:


哭聲語譜圖


哭聲幻覺識別結(jié)果

另外一條數(shù)據(jù),中間在含糊不清的地方發(fā)生幻覺:


這背后最主要的原因,應(yīng)該還是接下來要談的數(shù)據(jù)覆蓋問題。

長度真的那么重要嗎?

對于文本大模型,長度等于上下文,上下文窗口的確很重要。但對于語音模型,特別是偏重轉(zhuǎn)錄的模型,在當(dāng)前階段,長度是否真的如此關(guān)鍵,我持保留態(tài)度。

VibeVoice-ASR提出的理由是:


首先,關(guān)于上下文斷裂問題——純音頻的上下文真能解決這個問題嗎?或許能部分緩解,但對多數(shù)場景來說,可能并非至關(guān)重要。文本層面的上下文或許已足以提升準(zhǔn)確率。

其次,工程復(fù)雜度方面,文中提到的說話人日志優(yōu)勢我很認(rèn)同,但這個和長度其實關(guān)系不是特別大,我認(rèn)為更多的優(yōu)勢來自于識別+說話人的聯(lián)合建模。短句說話人日志的確很困難,但幾分鐘的數(shù)據(jù)進行說話人相關(guān)的工作也沒有太大問題。如果可以把效果做好,后續(xù)通過一個混淆矩陣進行相同說話人的聚類。如果長語音識別確實可以做的好,那么降低系統(tǒng)復(fù)雜度的優(yōu)勢肯定是有的。

綜上所述,在當(dāng)前條件尚不成熟的情況下,過度強調(diào)長度或許并不是最優(yōu)先的。相比長度,我們更應(yīng)關(guān)注模型的穩(wěn)定性與準(zhǔn)確性。當(dāng)然,如果能處理更長的音頻,那自然是更好的。

“垃圾”數(shù)據(jù)也有價值

從我測試中遇到的幻覺問題,結(jié)合當(dāng)前主流數(shù)據(jù)清洗流程的做法,會發(fā)現(xiàn)一個現(xiàn)象:

人們常用多個模型交叉驗證,篩選出“有用且正確”的數(shù)據(jù)。

什么是“有用且正確”的數(shù)據(jù)?如果一條數(shù)據(jù)包含文字,且多個模型識別結(jié)果一致,就被認(rèn)為是有價值且標(biāo)注正確的。那么,那些被過濾掉的數(shù)據(jù),其價值又該如何看待?

事實上,它們的價值在今天更應(yīng)被重視。原因如下:

幸存者偏差

這種方式篩選出的數(shù)據(jù),都是以往模型基礎(chǔ)上的“幸存者”,數(shù)據(jù)質(zhì)量雖高,但對模型來說難度較低。換句話說,大量這類數(shù)據(jù)對模型能力的提升并無太大增益。如果模型只用這類數(shù)據(jù)訓(xùn)練,那么無論輸入什么,哪怕是人耳都難以聽清的語音,模型都可能用最大似然的方式“猜”一個最可能的結(jié)果,而不是“承認(rèn)困難”。一個懂得“示弱”的模型,或許也有其價值。

垃圾”數(shù)據(jù)的價值

所謂“垃圾數(shù)據(jù)”,正是那些被自動標(biāo)注流程過濾掉的數(shù)據(jù),它們的價值應(yīng)當(dāng)被重新審視。比如我測試數(shù)據(jù)中的哭聲片段,很可能會被清洗流程過濾掉。再加上這類聲音重復(fù)性強,更容易導(dǎo)致模型產(chǎn)生幻覺。

在強化學(xué)習(xí)中,也應(yīng)該加強對“壞”數(shù)據(jù)如何給予正確反饋的機制。

總結(jié)

非常高興看到越來越多的開源工作,推動模型能力逐步提升。同時我們也應(yīng)認(rèn)識到,語音遠非一個已被徹底解決的問題。無論是真實場景的數(shù)據(jù)表現(xiàn),還是實際落地應(yīng)用,都還有很長的路要走。隨著AI技術(shù)的進步,市場對更優(yōu)秀的語音交互、合成與理解的需求顯著增加。真心希望有實力的公司能堅持投入,去做那些困難卻正確的事。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
解放戰(zhàn)爭關(guān)鍵時期,毛主席突然宣布處決一名重要將領(lǐng):不能原諒

解放戰(zhàn)爭關(guān)鍵時期,毛主席突然宣布處決一名重要將領(lǐng):不能原諒

大運河時空
2026-02-27 15:20:03
雨果/布魯娜3-0戰(zhàn)勝林鐘勛/申裕斌,奪得新加坡大滿貫混雙冠軍

雨果/布魯娜3-0戰(zhàn)勝林鐘勛/申裕斌,奪得新加坡大滿貫混雙冠軍

懂球帝
2026-02-27 22:09:05
你知道最禽獸的事是什么嗎?網(wǎng)友的故事讓人毛骨悚然!

你知道最禽獸的事是什么嗎?網(wǎng)友的故事讓人毛骨悚然!

特約前排觀眾
2026-02-28 00:15:03
閑魚不愧是全國最大的黑市,網(wǎng)民:只有你想不到,沒有你買不到

閑魚不愧是全國最大的黑市,網(wǎng)民:只有你想不到,沒有你買不到

小熊侃史
2026-01-16 07:40:07
一文梳理!巴基斯坦和阿富汗“沖突烈度超過以往”,都發(fā)生了什么?

一文梳理!巴基斯坦和阿富汗“沖突烈度超過以往”,都發(fā)生了什么?

環(huán)球網(wǎng)資訊
2026-02-27 20:00:36
快可電子:越南工廠年產(chǎn)能約3000萬套接線盒,美國工廠年產(chǎn)能約1000萬套接線盒

快可電子:越南工廠年產(chǎn)能約3000萬套接線盒,美國工廠年產(chǎn)能約1000萬套接線盒

每日經(jīng)濟新聞
2026-02-27 17:18:15
為什么你永遠存不到200萬?因為體系不允許

為什么你永遠存不到200萬?因為體系不允許

流蘇晚晴
2026-02-26 18:13:45
米蘭時裝周,39歲楊冪撞上22歲谷愛凌,明星與冠軍的差距一目了然

米蘭時裝周,39歲楊冪撞上22歲谷愛凌,明星與冠軍的差距一目了然

八卦南風(fēng)
2026-02-27 17:09:14
蘇聯(lián)大型航母使用的鋼材有多好?遼寧艦首任艦長曾這樣評價瓦良格

蘇聯(lián)大型航母使用的鋼材有多好?遼寧艦首任艦長曾這樣評價瓦良格

Ck的蜜糖
2026-02-28 00:02:41
張繼科做夢沒想到,德國總理訪華僅1天,29歲樊振東竟意外火出圈

張繼科做夢沒想到,德國總理訪華僅1天,29歲樊振東竟意外火出圈

白面書誏
2026-02-27 12:58:15
一人睡遍整個娛樂圈?司曉迪打響了2026年第一炮

一人睡遍整個娛樂圈?司曉迪打響了2026年第一炮

閱毒君
2026-01-05 07:05:06
老同學(xué)牌局上一人發(fā)病身亡 死者家屬狀告同學(xué)索賠50余萬 二審被駁回

老同學(xué)牌局上一人發(fā)病身亡 死者家屬狀告同學(xué)索賠50余萬 二審被駁回

極目新聞
2026-02-26 21:32:14
CCTV5直播!中國男籃沖2連勝,郭士強重用兩大奇兵,張鎮(zhèn)麟遭棄用

CCTV5直播!中國男籃沖2連勝,郭士強重用兩大奇兵,張鎮(zhèn)麟遭棄用

老葉評球
2026-02-27 07:58:31
6604萬元!“張治中公館”經(jīng)多次法拍最終成交

6604萬元!“張治中公館”經(jīng)多次法拍最終成交

揚子晚報
2026-02-27 10:41:06
中超冬窗總結(jié):4隊擁6外援 U23國腳+恒大才俊引哄搶 中乙隊賺千萬

中超冬窗總結(jié):4隊擁6外援 U23國腳+恒大才俊引哄搶 中乙隊賺千萬

我愛英超
2026-02-28 06:49:42
中到大雨!雨雨雨!江蘇天氣最新消息

中到大雨!雨雨雨!江蘇天氣最新消息

新浪財經(jīng)
2026-02-28 03:41:21
“不好看,有點嚇人!”藝考生曬堪比小燕子的大眼睛,引人不適

“不好看,有點嚇人!”藝考生曬堪比小燕子的大眼睛,引人不適

蝴蝶花雨話教育
2026-02-08 12:47:42
陳凱歌在三亞豪宅過年,穿5萬皮鞋戴大金表 老年斑難掩藝術(shù)家氣場

陳凱歌在三亞豪宅過年,穿5萬皮鞋戴大金表 老年斑難掩藝術(shù)家氣場

林雁飛
2026-02-25 20:00:33
父母把價值160萬元江景房堆成“廢品站”,為省水費閑置洗衣機堅持手洗……網(wǎng)友直呼“同款父母”,專家建議→

父母把價值160萬元江景房堆成“廢品站”,為省水費閑置洗衣機堅持手洗……網(wǎng)友直呼“同款父母”,專家建議→

環(huán)球網(wǎng)資訊
2026-02-27 08:37:20
山東狗狗在安徽服務(wù)區(qū)走丟,被好心人當(dāng)成流浪狗帶去重慶、湖南玩了一圈,主人往返3200公里到福建接回,“養(yǎng)了3年,是家里一份子”

山東狗狗在安徽服務(wù)區(qū)走丟,被好心人當(dāng)成流浪狗帶去重慶、湖南玩了一圈,主人往返3200公里到福建接回,“養(yǎng)了3年,是家里一份子”

大風(fēng)新聞
2026-02-27 11:54:03
2026-02-28 08:44:49
開源中國 incentive-icons
開源中國
每天為開發(fā)者推送最新技術(shù)資訊
7602文章數(shù) 34502關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

牛彈琴:伊朗面臨生死存亡關(guān)鍵時刻 信號已經(jīng)很明顯了

頭條要聞

牛彈琴:伊朗面臨生死存亡關(guān)鍵時刻 信號已經(jīng)很明顯了

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

時尚
本地
藝術(shù)
親子
健康

被章若楠、秦嵐帶火的鞋子竟然是它?春天這樣穿又美又氣質(zhì)!

本地新聞

津南好·四時總相宜

藝術(shù)要聞

田英章楷書楹聯(lián):筆墨之美,書房必備之作!

親子要聞

春節(jié)后兒科門診人數(shù)激增20%,醫(yī)生提醒:積食傷脾胃

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

無障礙瀏覽 進入關(guān)懷版