国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

擊敗GPT、Gemini,復(fù)旦×創(chuàng)智孵化創(chuàng)業(yè)團(tuán)隊模思智能,語音模型上新

0
分享至



編輯|澤南、杜偉

在語音大模型賽道上,GPT-4o、Gemini 的能力遙遙領(lǐng)先。

近日,由復(fù)旦邱錫鵬擔(dān)任首席科學(xué)家的模思智能發(fā)布了多說話人自動語音識別(ASR)模型 MOSS-Transcribe-Diarize,不但可以語音轉(zhuǎn)文字,還可以將音頻片段與對話中不同的說話者關(guān)聯(lián)起來,性能超過了 GPT-4o、Gemini、豆包等一眾模型。

多人說話場景的語音轉(zhuǎn)錄是語音識別領(lǐng)域的落地痛點(diǎn)問題。以往模型一旦遇到多人搶著說話就可能聽不清、記不準(zhǔn)。現(xiàn)在 MOSS-Transcribe-Diarize 摸透了多人說話邏輯,能夠輕松應(yīng)對混亂插話、頻繁切話或者重疊說話等復(fù)雜場景,真正掌握了「說哪記哪、聽聲辯人」的技能。

MOSS-Transcribe-Diarize 在語音識別與分析領(lǐng)域具有突破性意義,解決了語音領(lǐng)域最后的落地痛點(diǎn)。MOSS-Transcribe-Diarize 支持 128K 的長上下文窗口,可以一次性輸入并處理長達(dá) 90 分鐘的音頻,突出了復(fù)雜場景下的抗干擾能力。

MOSS-Transcribe-Diarize 的跑分成績同樣亮眼。在 AISHELL-4、Podcast、Movies 等多個語音基準(zhǔn)測試中,模型均取得了業(yè)界最優(yōu)(SOTA)的整體表現(xiàn)。尤其是在影視劇場景下,背景音更雜、多人同時說話、頻繁插話、聲音重疊,是語音轉(zhuǎn)錄里最亂、也最接近真實(shí)應(yīng)用的情況。即便面對這樣的復(fù)雜語音條件,MOSS-Transcribe-Diarize 依然穩(wěn)定跑出了當(dāng)前業(yè)界最優(yōu)的整體成績:



此處 GPT-4o 特指 gpt-4o-transcribe-diarize

再更具體一點(diǎn),該模型實(shí)現(xiàn)了:

  • 最低的 CER(字錯誤率)與 cpCER(最優(yōu)排列字錯誤率):在多說話人混合與重疊場景下取得業(yè)內(nèi)領(lǐng)先的轉(zhuǎn)錄準(zhǔn)確率。
  • 最佳的 Δcp 指標(biāo)(說話人分離性能 ):相比于其它因為長音頻切片而導(dǎo)致的說話人識別不一致的模型,MOSS-Transcribe-Diarize 保持了最好的說話人標(biāo)簽準(zhǔn)確性和一致性。
  • 超長音頻處理:在面對超長音頻時,當(dāng)前頂尖商業(yè)模型(如 GPT-4o Transcribe Diarize、Gemini 3 Pro)受限于輸入長度或輸出格式的穩(wěn)定性,而 MOSS-Transcribe-Diarize 能夠穩(wěn)定輸出完整的帶有說話人以及時間戳的語音轉(zhuǎn)錄結(jié)果。

實(shí)戰(zhàn)效果驚艷,經(jīng)典名場面「華強(qiáng)買瓜」:



Mygo 的飛鳥山公園:



視頻鏈接:https://mp.weixin.qq.com/s/LoP4twE1X5UFSY3G7g42mQ

看起來 AI 模型可以把說話人和每個人所講的內(nèi)容識別地清清楚楚,不論是嘈雜的環(huán)境音,人物的方言、俚語,還是因為情感波動表現(xiàn)出的喊叫、哭泣等都不會影響 AI 的判斷。

首個統(tǒng)一多模態(tài)模型,挑戰(zhàn) AI 語音最難題

MOSS-Transcribe-Diarize 的特點(diǎn)不僅在于語音能力,它作為統(tǒng)一的端到端多模態(tài)語音轉(zhuǎn)錄模型,能夠像人類一樣,在「聽」的過程中同時完成「聽懂內(nèi)容」、「識別是誰說的」以及「記錄說話時間」這三件事。

它主要解決的是語音處理中一個經(jīng)典且極具挑戰(zhàn)的問題:SATS,即「帶說話人歸屬和時間戳的轉(zhuǎn)錄」。 想象一下,在參加環(huán)境嘈雜、一堆人在場的會議時,大家你一言我一語,亂哄哄一片。這種面向多說話人的轉(zhuǎn)錄既要求內(nèi)容準(zhǔn)確,也要標(biāo)明「何人何時發(fā)言」。

但是,傳統(tǒng)的模塊化組件拼接方案(如自動語音識別 + 說話人日志)引入 LLM 的半級聯(lián)方案(使用自動語音識別和說話人日志生成候選內(nèi)容,然后利用 LLM 修正錯誤)以及近期將識別與歸屬統(tǒng)一在多模態(tài)框架下的嘗試(如 Sortformer、SpeakerLM、JEDIS-LLM 等)都不同程度地存在著缺陷,比如級聯(lián)方案對于說話人重疊的音頻表現(xiàn)不魯棒,其他方案對長時間多說話人對話的轉(zhuǎn)錄效果不佳,亟需更優(yōu)的解決方案。

邱錫鵬團(tuán)隊發(fā)布的 MOSS-Transcribe-Diarize 一掃現(xiàn)有 SATS 方案的不足,一舉解決了三大核心瓶頸,即長上下文窗口受限、長時記憶脆弱和缺乏原生時間戳。相關(guān)技術(shù)報告已在幾天前發(fā)布,同時官方也開放了API 接口,目前為限時免費(fèi)期,感興趣的同學(xué)可自行體驗:

  • 技術(shù)報告:https://arxiv.org/pdf/2601.01554
  • 模型主頁:https://mosi.cn/models/moss-transcribe-diarize
  • API 接入:https://studio.mosi.cn/docs/moss-transcribe-diarize

其中展示了新模型的大量技術(shù)特點(diǎn):其作為一個統(tǒng)一的多模態(tài)大語言模型,可以通過端到端的方式同時執(zhí)行語音識別(ASR)、說話人歸屬和時間戳預(yù)測,消除可能產(chǎn)生的誤差傳播。

為了達(dá)成這些效果,MOSS-Transcribe-Diarize 在模型架構(gòu)、訓(xùn)練數(shù)據(jù)組成上形成了一套自己的解法。

在架構(gòu)設(shè)計上,它采用了統(tǒng)一的音頻 - 文本多模態(tài)架構(gòu)

設(shè)計者將多說話人的聲學(xué)表示投影到預(yù)訓(xùn)練文本 LLM 的特征空間中,使得該模型在單一的端到端框架內(nèi)能夠聯(lián)合建模詞匯內(nèi)容、說話人歸屬和時間戳預(yù)測。

模型在一個推理過程中直接輸出帶有 [S01]、[S02] 標(biāo)簽和精確時間戳的文本。這種機(jī)制利用了語義信息來輔助說話人識別(例如,通過說話內(nèi)容的連貫性來判斷是否換人了),極大地提高了識別準(zhǔn)確率。

在訓(xùn)練數(shù)據(jù)的組成上,采用「虛實(shí)結(jié)合」的策略

MOSS-Transcribe-Diarize 使用大量真實(shí)世界的對話音頻以及通過概率模擬器生成的合成數(shù)據(jù)進(jìn)行訓(xùn)練,增強(qiáng)了對重疊語音、輪替和聲學(xué)變化等性能指標(biāo)的魯棒性。該模型訓(xùn)練使用的真實(shí)數(shù)據(jù)包含了從公共語料庫中采樣的大量說話人片段,并覆蓋了現(xiàn)實(shí)中不同類型的多說話人場景。

得益于架構(gòu)與數(shù)據(jù)層面的一系列巧思,MOSS-Transcribe-Diarize 才能夠一舉攻克行業(yè)長期以來面臨的長對話和多說話人轉(zhuǎn)錄難題。

長短音頻、切話疊音,多場景表現(xiàn)最優(yōu)

在與國內(nèi)外頂級模型的較量中,MOSS-Transcribe-Diarize 在多個基準(zhǔn)測試中拿下 SOTA 成績。它究竟強(qiáng)在哪些方面呢?我們接下來進(jìn)行了一番深入探究。

1)在包含近 40 分鐘真實(shí)世界會議錄音的 AISHELL-4 數(shù)據(jù)集上,MOSS-Transcribe-Diarize 在 CER 和 cpCER 兩項指標(biāo)上大幅優(yōu)于所有基線模型,并表現(xiàn)出了更低的 Δcp 值。這驗證了相較于純粹的 ASR 錯誤,由說話人歸屬錯誤引入的額外性能衰退要少得多,并由此證明了長上下文、端到端建模在長對話中維持說話人一致性方面的有效性。

相比之下,GPT-4o 和 Gemini 3 Pro 均無法可靠地處理 AISHELL-4 等長音頻輸入,前者受限于音頻輸入長度,無法完成完整錄音轉(zhuǎn)錄;后者無法生成符合既定說話人歸屬格式的有效輸出。



2)在Podcast 數(shù)據(jù)集(多說話人播客訪談場景)上,MOSS-Transcribe-Diarize 再次取得所有參評模型中最低的 CER 和 cpCER。盡管其他基線模型也達(dá)到很高的 ASR 準(zhǔn)確率,但在 Δcp 值這點(diǎn)上落敗了。這表明,在頻繁的話輪轉(zhuǎn)換和長跨度的說話人重現(xiàn)場景下,MOSS-Transcribe-Diarize 能夠讓說話人歸屬更加準(zhǔn)確。



3)在Movies 數(shù)據(jù)集(復(fù)雜影視劇場景)上,強(qiáng)調(diào)短促話語、快速說話人交替以及頻繁的語音重疊場景,MOSS-Transcribe-Diarize 面對這種短語音轉(zhuǎn)錄任務(wù)依然優(yōu)于所有基線模型。它還在 CER 和 cpCER 兩項指標(biāo)之間保持了相對較小的差距,這意味著不僅能聽清說了什么,還能非常精準(zhǔn)地判斷出是誰說的。



目標(biāo):情境智能

MOSS 系列大模型的背后,是國內(nèi) AI 領(lǐng)域領(lǐng)軍人物,復(fù)旦大學(xué)教授邱錫鵬帶領(lǐng)的團(tuán)隊。在中國 AI 版圖中,他們顯得極具特色。該團(tuán)隊的 MOSS 模型是國內(nèi)第一個對標(biāo) ChatGPT 并開源的對話式大語言模型,并提出了最早的具有內(nèi)生語音能力的大模型 SpeechGPT 和原生端到端全模態(tài)大模型 AnyGPT。團(tuán)隊組建的模思智能(MOSI AI)則由上海創(chuàng)智學(xué)院與復(fù)旦大學(xué)自主孵化,是一家專注面向情境智能的多模態(tài)大模型公司。

他們保持了一條清晰且具有戰(zhàn)略眼光的技術(shù)路徑:讓大模型理解復(fù)雜的真實(shí)世界情境,并以情境多模態(tài)實(shí)現(xiàn)通用人工智能。在這條路線上,他們一直在不斷探索,發(fā)布了一系列多模態(tài)領(lǐng)域的前沿技術(shù)成果:

  • 去年 7 月,模思開源了革命性的對話語音合成模型MOSS-TTSD,能夠根據(jù)完整的多人對話文本,直接生成高質(zhì)量對話語音。
  • 去年 11 月,MOSS-Speech的發(fā)布展現(xiàn)了語音 AI 技術(shù)的突破,實(shí)現(xiàn)了 SOTA 性能。這是一個無文本引導(dǎo)的真端到端語音大模型,可以在保持模型高智商程度的前提下,解決人機(jī)低時延交互的挑戰(zhàn)。
  • 最近發(fā)布的MOSS-Transcribe-Diarize,則攻克了復(fù)雜日常多人對話場景的語音識別,對于多模態(tài) AI 的實(shí)際落地具有重要意義。

這一系列技術(shù)成果可覆蓋實(shí)時對話交互、復(fù)雜場景音頻生成、高魯棒性語音理解、多模態(tài)交互等核心能力場景,在流暢度、響應(yīng)速度、理解能力和可控性方面實(shí)現(xiàn)了行業(yè)領(lǐng)先表現(xiàn)。

面向未來,模思將持續(xù)深耕讓 AI「理解用戶所處的全局情境」的多模態(tài)智能,通過規(guī);锢硎澜绲膹(fù)雜真實(shí)情境,實(shí)現(xiàn)真正自然、連貫、可成長、可信賴的智能交互,推動多模態(tài)交互與具身智能的產(chǎn)業(yè)化落地。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗進(jìn)入最高戰(zhàn)備,美軍航母緊急駛向中東,特朗普:殺戮已經(jīng)停止

伊朗進(jìn)入最高戰(zhàn)備,美軍航母緊急駛向中東,特朗普:殺戮已經(jīng)停止

兵說
2026-01-19 17:59:53
手戴1000多萬名表,坐擁3.6億私人飛機(jī),“滬上皇”秦奮啥來頭?

手戴1000多萬名表,坐擁3.6億私人飛機(jī),“滬上皇”秦奮啥來頭?

小熊侃史
2026-01-12 07:40:07
終于封海!“正式交鋒”已打響,中國人民解放軍不再口頭警告

終于封海!“正式交鋒”已打響,中國人民解放軍不再口頭警告

愛吃醋的貓咪
2026-01-17 21:54:38
凍雨、純雪,寒潮最強(qiáng)時段!很多人緊急出動,武漢最新預(yù)警

凍雨、純雪,寒潮最強(qiáng)時段!很多人緊急出動,武漢最新預(yù)警

極目新聞
2026-01-19 22:22:38
紅通要犯程慕陽末路?中加簽署合作協(xié)議,加拿大已非避風(fēng)港!

紅通要犯程慕陽末路?中加簽署合作協(xié)議,加拿大已非避風(fēng)港!

墨印齋
2026-01-20 15:43:14
自助餐為什么吃不回本?內(nèi)部員工透露:進(jìn)門開始,你就已經(jīng)被套路

自助餐為什么吃不回本?內(nèi)部員工透露:進(jìn)門開始,你就已經(jīng)被套路

平說財經(jīng)
2026-01-19 16:48:32
張小泉30萬賤賣邁巴赫!一個時代結(jié)束了

張小泉30萬賤賣邁巴赫!一個時代結(jié)束了

品牌頭版
2026-01-19 18:52:39
財政部:信用卡分期納入貼息范圍,只要是消費(fèi)貸都可享受貼息

財政部:信用卡分期納入貼息范圍,只要是消費(fèi)貸都可享受貼息

南方都市報
2026-01-20 18:06:07
河南暴雪,網(wǎng)友給氣象臺排隊“道歉”稱錯怪你了!氣象臺:周末雨雪“補(bǔ)貨”,明起大風(fēng)、凍雨

河南暴雪,網(wǎng)友給氣象臺排隊“道歉”稱錯怪你了!氣象臺:周末雨雪“補(bǔ)貨”,明起大風(fēng)、凍雨

魯中晨報
2026-01-20 16:15:16
西貝賈國龍“魅上”:同樣的建議網(wǎng)友說他不聽,人民日報說他就改

西貝賈國龍“魅上”:同樣的建議網(wǎng)友說他不聽,人民日報說他就改

漢史趣聞
2026-01-20 18:20:08
餐飲業(yè)的整體處境,可能比西貝更糟糕

餐飲業(yè)的整體處境,可能比西貝更糟糕

冰川思想庫
2026-01-20 11:35:48
江蘇企退2026過渡養(yǎng)老金補(bǔ)發(fā)喜訊,金額可查

江蘇企退2026過渡養(yǎng)老金補(bǔ)發(fā)喜訊,金額可查

明天后天大后天
2026-01-20 17:54:24
患癌母親街頭碰瓷,被兒子崩潰怒斥“你不要害別人”,當(dāng)事人回應(yīng):母親已承認(rèn)錯誤,已聯(lián)系司機(jī)道歉賠償

患癌母親街頭碰瓷,被兒子崩潰怒斥“你不要害別人”,當(dāng)事人回應(yīng):母親已承認(rèn)錯誤,已聯(lián)系司機(jī)道歉賠償

揚(yáng)子晚報
2026-01-20 14:37:39
哈佛發(fā)現(xiàn):高血脂不用治,治好都是誤診?告訴您5個血脂真相!

哈佛發(fā)現(xiàn):高血脂不用治,治好都是誤診?告訴您5個血脂真相!

岐黃傳人孫大夫
2026-01-08 10:06:20
凌晨4點(diǎn)皇馬歐冠復(fù)仇戰(zhàn):姆巴佩反戈 沖擊10球紀(jì)錄 7人傷停

凌晨4點(diǎn)皇馬歐冠復(fù)仇戰(zhàn):姆巴佩反戈 沖擊10球紀(jì)錄 7人傷停

葉青足球世界
2026-01-20 09:24:13
津媒:安東尼奧私下表示,他其實(shí)更擔(dān)心的還是隊員的體能

津媒:安東尼奧私下表示,他其實(shí)更擔(dān)心的還是隊員的體能

懂球帝
2026-01-20 10:13:11
李清照最大膽露骨的一首詞,男人讀了也臉紅

李清照最大膽露骨的一首詞,男人讀了也臉紅

長風(fēng)文史
2026-01-17 20:49:35
同樣在路上跑,電車為啥不用交養(yǎng)路費(fèi)?2026年養(yǎng)路費(fèi)新規(guī)落地!

同樣在路上跑,電車為啥不用交養(yǎng)路費(fèi)?2026年養(yǎng)路費(fèi)新規(guī)落地!

老特有話說
2026-01-20 15:57:30
直播調(diào)整!U23國足淘汰越南隊可進(jìn)決賽,門將李昊收到3個好消息!

直播調(diào)整!U23國足淘汰越南隊可進(jìn)決賽,門將李昊收到3個好消息!

曹說體育
2026-01-20 16:05:06
戲子無情!賀嬌龍去世,與她合作過的吳京于適竇驍沒有一個人悼念

戲子無情!賀嬌龍去世,與她合作過的吳京于適竇驍沒有一個人悼念

小娛樂悠悠
2026-01-20 10:30:06
2026-01-20 20:51:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12155文章數(shù) 142547關(guān)注度
往期回顧 全部

科技要聞

收藏|這可能是CES2026最清醒一份復(fù)盤

頭條要聞

12歲女孩被3名男子多次性侵 當(dāng)?shù)鼐讲挥枇?自愿的

頭條要聞

12歲女孩被3名男子多次性侵 當(dāng)?shù)鼐讲挥枇?自愿的

體育要聞

新的時代!東契奇首奪全明星票王 詹姆斯落選首發(fā)

娛樂要聞

貝克漢姆長子發(fā)文決裂:全家都在演戲

財經(jīng)要聞

李迅雷:2026買房不如租房

汽車要聞

奇瑞張貴兵:墨甲不做秀技術(shù)的企業(yè) 只做痛點(diǎn)終結(jié)者

態(tài)度原創(chuàng)

時尚
本地
健康
數(shù)碼
親子

碼住抄作業(yè)!春節(jié)見人不翻車就靠這8樣!

本地新聞

云游遼寧|漫步千年小城晨昏,“康”復(fù)好心情

血常規(guī)3項異常,是身體警報!

數(shù)碼要聞

愛否聯(lián)名NEXONE 5000mAh磁吸充電寶發(fā)布,299元

親子要聞

公婆接二老來農(nóng)村大院,帶現(xiàn)成菜大家都愛吃,龍寶會說的越來越多

無障礙瀏覽 進(jìn)入關(guān)懷版