国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

阿里甩出AI語音轉(zhuǎn)寫神器!準(zhǔn)確率擊敗字節(jié)騰訊,連方言都能寫對(duì)

0
分享至


智東西
作者 王涵
編輯 心緣

智東西4月20日?qǐng)?bào)道,剛剛,阿里發(fā)布語音識(shí)別大模型Fun-ASR1.5,該模型是千問端到端語音識(shí)別大模型的新一代版本。

該模型可以識(shí)別30種語言,覆蓋中文七大方言體系20余種地方口音,并強(qiáng)化了古詩詞誦讀的專項(xiàng)識(shí)別。Fun-ASR1.5可以分辨出語音中的抑揚(yáng)頓挫,重點(diǎn)優(yōu)化了標(biāo)點(diǎn)預(yù)測(cè)和文本歸一化能力,可以應(yīng)用于會(huì)議紀(jì)要、新聞采訪整理、法律筆錄等場(chǎng)景。

技術(shù)團(tuán)隊(duì)介紹稱,與Seed-ASR和Tencent-ASR模型相比,F(xiàn)un-ASR1.5在西班牙語、葡萄牙語和英語方面的識(shí)別準(zhǔn)確率成績(jī)較為突出,均在96分以上。


▲Fun-ASR1.5在開源多語言測(cè)試集中獲得多項(xiàng)SOTA

中文方言方面,F(xiàn)un-ASR1.5則在四川話、閩南話、長(zhǎng)沙話、蘇州話等13種方言識(shí)別準(zhǔn)確率上,超越Seed-ASR和Tencent-ASR模型。


▲Fun-ASR1.5在工業(yè)方言測(cè)試集中獲得多項(xiàng)SOTA

智東西第一時(shí)間體驗(yàn)了其音頻轉(zhuǎn)寫功能。我們上傳了一段三星CES 2026“First Look”演講的錄音音頻。在原音頻中,背景環(huán)境聲音嘈雜,演講人使用英語演講但帶有韓語口音,且錄制聲音較小。

Fun-ASR1.5不僅將演講內(nèi)容準(zhǔn)確完整地轉(zhuǎn)寫了出來,還根據(jù)演講人的語氣和內(nèi)容,對(duì)相關(guān)語句進(jìn)行了大寫強(qiáng)調(diào)處理,提高了會(huì)議轉(zhuǎn)寫的效率。


▲智東西實(shí)測(cè)體驗(yàn)音頻轉(zhuǎn)寫

目前用戶可以在魔搭社區(qū)體驗(yàn)該模型,開發(fā)者可以通過阿里云百煉平臺(tái)調(diào)用API。

體驗(yàn)地址:

https://modelscope.cn/studios/iic/FunAudio-ASR

API調(diào)用地址:

https://bailian.console.aliyun.com/cn-beijing?tab=model#/efm/model_experience_center/voice?modelId=fun-asr

一、能識(shí)別30種語言,跨語言切換無需預(yù)設(shè)

Fun-ASR1.5可精準(zhǔn)識(shí)別歐洲、東亞、東南亞、南亞及中東主流語種,覆蓋中、英、日、韓、法、德、西、葡、俄、阿拉伯語等30種語言。


韓語:

https://oss.zhidx.com/0c1334bb064e4804fac98804e8864afd/69e4fc00/uploads/2026/04/69e60878d3303_69e60878cff43_69e60878cff14_%E9%9F%A9%E8%AF%AD.mp3

▲ASR結(jié)果:?? ? ??? ?? ? ?? ????, ?? ??? ??? ??? ??? ?? ?? ????.

馬來語:

https://oss.zhidx.com/df84f9c8e5b0a14b2d1ad18b2da036b5/69e4fc00/uploads/2026/04/69e6087aa2a56_69e6087a9effe_69e6087a9efbe_%E9%A9%AC%E6%9D%A5%E8%AF%AD.mp3

▲ASR結(jié)果:Kejayaan projek ini tidak dapat dipisahkan daripada usaha pasukan, terutamanya kerja keras siang malam oleh jabatan penyelidikan dan pembangunan.

西班牙語:

https://oss.zhidx.com/4ec3a38deaef8d34abd6e48199584b27/69e4fc00/uploads/2026/04/69e60884522aa_69e608844f3b1_69e608844f384_%E8%A5%BF%E7%8F%AD%E7%89%99%E8%AF%AD.mp3

▲ASR結(jié)果:La diversidad cultural es un tesoro invaluable para la sociedad humana, y debemos respetar y proteger todas las tradiciones culturales.

在跨語言切換(Code-Switching)場(chǎng)景下,F(xiàn)un-ASR1.5可以做到無需預(yù)設(shè)語種標(biāo)簽,就自動(dòng)識(shí)別并切換,保證轉(zhuǎn)寫的準(zhǔn)確性。比如,同一段對(duì)話里夾雜多種語言,模型也能準(zhǔn)確識(shí)別,無需提前告訴它接下來要說哪種語言。

英語日語切換:

https://oss.zhidx.com/02e1ae3cb2276d7e9741c3c7ad9dd267/69e4fc00/uploads/2026/04/69e6088478b93_69e60884757af_69e6088475780_%E8%8B%B1%E8%AF%AD%E6%97%A5%E8%AF%AD%E5%88%87%E6%8D%A2.mp3

▲ASR結(jié)果:We’ve all had that experience of finally visiting a place we’ve dreamed about for years,only to find that it doesn’t quite live up to our expectations.There’s even a term for this in one of the most visited cities in the world,Paris Syndrome.何年も前から行きたかった場(chǎng)所をやっと訪れてみたら、思っていたほどではなかったという経験は誰しもあることだと思います。

技術(shù)團(tuán)隊(duì)介紹稱,這種多語言能力,源于模型的架構(gòu)和訓(xùn)練創(chuàng)新。Fun-ASR1.5采取MoE(混合專家)架構(gòu),模型內(nèi)部可以分工協(xié)作,聽到特定語言時(shí)僅激活相關(guān)部分進(jìn)行處理,因而更為靈活高效。

同時(shí),技術(shù)團(tuán)隊(duì)在模型的訓(xùn)練階段分級(jí)、分階段地使用精準(zhǔn)數(shù)據(jù),也可以使模型更能適配真實(shí)世界中的復(fù)雜語音場(chǎng)景。

二、錯(cuò)字率下降56.2%,古詩詞準(zhǔn)確率達(dá)97%

在中文本土化方面,基于數(shù)十萬小時(shí)真實(shí)方言語音數(shù)據(jù)訓(xùn)練,技術(shù)團(tuán)隊(duì)稱,F(xiàn)un-ASR1.5的平均字錯(cuò)誤率(CER)相比上一版本下降56.2%。


上海話:

https://oss.zhidx.com/4d98af0e967bd26bf6003b68544ccbe8/69e4fc00/uploads/2026/04/69e6087b09883_69e6087b06100_69e6087b060d2_%E4%B8%8A%E6%B5%B7%E8%AF%9D.mp3

▲ASR結(jié)果:現(xiàn)在發(fā)展了蠻快個(gè)現(xiàn)在伊拉用戶算大戶唻。

客家話:

https://oss.zhidx.com/bb79e377f42d86250ca3f0475a018be8/69e4fc00/uploads/2026/04/69e60879186b9_69e6087914434_69e60879143ff_%E5%AE%A2%E5%AE%B6%E8%AF%9D.mp3

ASR結(jié)果:呃,那些吃的不就這樣的土筍凍啊,我覺得不好吃。

閩南話:

https://oss.zhidx.com/204cdf65dd037809c3f95eb5636ea49c/69e4fc00/uploads/2026/04/69e6087ad2b6b_69e6087acf672_69e6087acf636_%E9%97%BD%E5%8D%97%E8%AF%9D.mp3

▲ASR識(shí)別結(jié)果:但是一個(gè)人若是兩三兩百箍一百外箍安無算貴吧,吼自助餐啊,啊你也有肉咯也有菜咯也有水果咯也有甜點(diǎn)咯,啥物計(jì)有咯。

粵語:

https://oss.zhidx.com/0e662ae422f6836cfa6309c2abcaf4a4/69e4fc00/uploads/2026/04/69e60884aeeea_69e60884a5c5e_69e60884a5c24_%E7%B2%A4%E8%AF%AD.mp3

▲ASR結(jié)果:誒,其實(shí)可能有時(shí)候覺得去超市都幾遠(yuǎn)下噶。

此外,該模型不僅聽得懂,還能“寫得地道”,F(xiàn)un-ASR1.5可原汁原味還原方言,如上海話的“儂”、蘇州話“倷”(均指“你”),為下游模型處理方言文字提供了準(zhǔn)確的基礎(chǔ)語料。

不同于現(xiàn)代口語,文言語法特殊、典故生僻字繁多,具有不少挑戰(zhàn)。例如,文言語法簡(jiǎn)練,省略主謂賓;押韻嚴(yán)格,節(jié)奏固定(如五言、七言律詩);多用典故、異體字、古今異義詞;誦讀時(shí)存在拖腔、停頓、吟詠等非自然語流特征。

Fun-ASR1.5對(duì)中文古詩詞識(shí)別進(jìn)行專項(xiàng)優(yōu)化。研究團(tuán)隊(duì)構(gòu)建了先秦至近代的古詩詞語音-文本對(duì)齊語料庫,涵蓋《詩經(jīng)》《楚辭》、李白杜甫詩集、蘇軾辛棄疾詞作等經(jīng)典文本的真人誦讀錄音。

在內(nèi)部評(píng)測(cè)集中,F(xiàn)un-ASR1.5對(duì)古詩詞的字符級(jí)準(zhǔn)確率達(dá)到97%,可應(yīng)用于國學(xué)在線課程和有聲詩詞,助力文化傳承。

https://oss.zhidx.com/b0578e51ee3b8b5f98603c402f87b730/69e4fc00/uploads/2026/04/69e6087879bee_69e608787658a_69e6087876557_%E5%8F%A4%E8%AF%97%E8%AF%8D1.mp3

▲ASR結(jié)果:蓬山此去無多路,青鳥殷勤為探看。

https://oss.zhidx.com/691a0349d3fdd374a0eebc4a2233d31f/69e4fc00/uploads/2026/04/69e60878ae3f2_69e60878aac04_69e60878aabd4_%E5%8F%A4%E8%AF%97%E8%AF%8D2.mp3

▲ASR結(jié)果:子夏曰,博學(xué)而篤志,切問而近思,仁在其中矣。

三、能自動(dòng)插入標(biāo)點(diǎn)符號(hào),口語表達(dá)一鍵規(guī)范

語音識(shí)別最終都要落腳于生成可直接使用的文本,F(xiàn)un-ASR1.5在后處理環(huán)節(jié)也重點(diǎn)優(yōu)化了標(biāo)點(diǎn)預(yù)測(cè)和文本歸一化兩項(xiàng)能力,大幅降低了會(huì)議紀(jì)要、新聞采訪整理、法律筆錄等場(chǎng)景的后期人工校對(duì)和編輯成本,具體如下:

1、標(biāo)點(diǎn)預(yù)測(cè):更加智能模型基于上下文語義自動(dòng)插入逗號(hào)、句號(hào)、問號(hào)、感嘆號(hào)等標(biāo)點(diǎn),使轉(zhuǎn)寫結(jié)果接近書面表達(dá)。例如:

輸入語音:“今天天氣怎么樣啊我想出去走走但又怕下雨”輸出文本:“今天天氣怎么樣???我想出去走走,但又怕下雨?!?/p>

2、文本歸一化(ITN)表現(xiàn):進(jìn)一步提升將口語中的非標(biāo)準(zhǔn)表達(dá)自動(dòng)轉(zhuǎn)換為規(guī)范格式:

數(shù)字:“三千五百六十二” → “3562”

日期:“二零二六年三月二十九號(hào)” → “2026年3月29日”

金額:“五萬八千塊” → “58000元”

電話:“幺三八零零幺三八零零零” → “13800138000”

結(jié)語:AI語音模型正穩(wěn)步落地應(yīng)用

會(huì)議紀(jì)要、法律筆錄等場(chǎng)景,長(zhǎng)期處于“半自動(dòng)”應(yīng)用狀態(tài),核心痛點(diǎn)是AI識(shí)別結(jié)果需人工進(jìn)行大量校對(duì),不僅未能有效提升工作效率,還影響了實(shí)際工作推進(jìn)。

阿里Fun-ASR1.5針對(duì)這一痛點(diǎn)進(jìn)行定向優(yōu)化,補(bǔ)齊了傳統(tǒng)語音識(shí)別的部分短板,也降低了各行業(yè)引入AI語音技術(shù)的門檻。

目前,科大訊飛、百度、字節(jié)等企業(yè)的語音模型均在持續(xù)迭代,AI語音大模型正從技術(shù)研發(fā)逐步向?qū)嶋H應(yīng)用推進(jìn),語音識(shí)別作為AI與人交互的重要入口,其實(shí)用性直接關(guān)系到行業(yè)落地的實(shí)際效果。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
CBA最新積分榜:廣東無緣前4!上海雙殺遼寧,季后賽12強(qiáng)決出11席

CBA最新積分榜:廣東無緣前4!上海雙殺遼寧,季后賽12強(qiáng)決出11席

小火箭愛體育
2026-04-20 22:01:36
女人一旦開口要這個(gè),就是生理性喜歡,裝不出來!男人千萬別不懂

女人一旦開口要這個(gè),就是生理性喜歡,裝不出來!男人千萬別不懂

小影的娛樂
2026-04-20 18:24:19
CBA一夜確定前11名!上海22連勝,廣東輸山西無緣前4,寧波創(chuàng)歷史

CBA一夜確定前11名!上海22連勝,廣東輸山西無緣前4,寧波創(chuàng)歷史

薇說體育
2026-04-20 22:10:07
封神!短劇《極品家丁》吊打陳赫爛劇,網(wǎng)文神作也能有良心改編

封神!短劇《極品家丁》吊打陳赫爛劇,網(wǎng)文神作也能有良心改編

迷影映畫
2026-04-18 20:10:17
研究表明:我國男性的早泄率只有2.3%,勃起功能障礙卻高達(dá)35%!

研究表明:我國男性的早泄率只有2.3%,勃起功能障礙卻高達(dá)35%!

黯泉
2026-04-14 18:19:30
為什么腦梗逐年增多?提醒:與肥肉無關(guān),有一樣?xùn)|西要少碰

為什么腦梗逐年增多?提醒:與肥肉無關(guān),有一樣?xùn)|西要少碰

芹姐說生活
2026-04-19 08:33:41
美國終于開始害怕?比稀土更致命王牌出手了,萬斯:中國要冷靜

美國終于開始害怕?比稀土更致命王牌出手了,萬斯:中國要冷靜

混沌錄
2026-04-10 22:53:19
被豆包害慘了的大學(xué)生們!網(wǎng)友:豆包就是愚蠢且勤勞的老實(shí)人

被豆包害慘了的大學(xué)生們!網(wǎng)友:豆包就是愚蠢且勤勞的老實(shí)人

夜深愛雜談
2025-12-02 20:51:10
日本又在歷史傷口上公然撒鹽

日本又在歷史傷口上公然撒鹽

烽火瞭望者
2026-04-20 11:26:11
李煜有一首詞,近七百年無人能及,清朝詞人仿一首,竟超越了原作

李煜有一首詞,近七百年無人能及,清朝詞人仿一首,竟超越了原作

千秋文化
2026-02-21 19:33:41
48歲大S在東京離世,臨終留紫檀佛珠,京都神社通靈師揭轉(zhuǎn)世秘密

48歲大S在東京離世,臨終留紫檀佛珠,京都神社通靈師揭轉(zhuǎn)世秘密

詭譎怪談
2025-02-26 23:01:37
“豬八戒”扮演者馬德華,妻子顏值不輸“嫦娥”,一家人事業(yè)有成

“豬八戒”扮演者馬德華,妻子顏值不輸“嫦娥”,一家人事業(yè)有成

芳芳?xì)v史燴
2026-04-20 23:09:25
全球最慘男子,眼睜睜看著自己“融化”

全球最慘男子,眼睜睜看著自己“融化”

郁郁乎文
2025-08-28 20:39:07
傷得很深!男子打賞女主播近300萬,想結(jié)婚時(shí)才知對(duì)方女兒都20歲了:我只顧為愛沖鋒,結(jié)果她全是假話

傷得很深!男子打賞女主播近300萬,想結(jié)婚時(shí)才知對(duì)方女兒都20歲了:我只顧為愛沖鋒,結(jié)果她全是假話

極目新聞
2026-04-10 15:54:54
越來越多人不裝“玻璃淋浴房”了,這5個(gè)替代方案,美觀又實(shí)用!

越來越多人不裝“玻璃淋浴房”了,這5個(gè)替代方案,美觀又實(shí)用!

家居設(shè)計(jì)師宅哥
2026-04-19 23:32:23
房子遭人強(qiáng)拆,因反抗坐3年牢!出獄后揚(yáng)言:不贏官司就殺人!

房子遭人強(qiáng)拆,因反抗坐3年牢!出獄后揚(yáng)言:不贏官司就殺人!

談史論天地
2026-04-20 12:16:17
舒淇不再隱瞞!多年無子的她終于承認(rèn):我們不是丁克,是生不出來

舒淇不再隱瞞!多年無子的她終于承認(rèn):我們不是丁克,是生不出來

長(zhǎng)歌侃娛
2026-04-19 09:54:43
“保障房”真搶不起來了?北京昌平放號(hào)當(dāng)天,中介刷起了短視頻

“保障房”真搶不起來了?北京昌平放號(hào)當(dāng)天,中介刷起了短視頻

石辰搞笑日常
2026-04-20 14:50:09
浙江一男子收到陌生賬號(hào)轉(zhuǎn)賬8萬余元,三天后奢侈品牌CELINE商家找來:?jiǎn)T工誤將其收款碼給客戶

浙江一男子收到陌生賬號(hào)轉(zhuǎn)賬8萬余元,三天后奢侈品牌CELINE商家找來:?jiǎn)T工誤將其收款碼給客戶

臺(tái)州交通廣播
2026-04-20 14:13:51
革命衛(wèi)隊(duì)與伊朗政府矛盾公開化,伊朗內(nèi)部分裂愈演愈烈

革命衛(wèi)隊(duì)與伊朗政府矛盾公開化,伊朗內(nèi)部分裂愈演愈烈

修明札記
2026-04-19 11:47:24
2026-04-20 23:47:00
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報(bào)道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
11639文章數(shù) 117035關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價(jià)10999元起

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財(cái)經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

時(shí)尚
本地
教育
房產(chǎn)
軍事航空

春天衣服不用準(zhǔn)備太多!這幾大單品提前備好,百搭實(shí)用又不過時(shí)

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

教育要聞

南方電網(wǎng)招了7308人,華南理工485個(gè),這所學(xué)校把南網(wǎng)變成了"自家后院"

房產(chǎn)要聞

大規(guī)模商改住!??谖骱0?,這波項(xiàng)目要贏麻了!

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個(gè)洞

無障礙瀏覽 進(jìn)入關(guān)懷版