国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MiniMax讓AI語音有了新基建

0
分享至

撰文| 郝 鑫

編輯| 吳先之

熟悉MiniMax的人都了解這家公司的調(diào)性——不鳴則已,一鳴驚人。

要么選擇低調(diào),要么發(fā)動技術(shù)連招,其發(fā)展路徑呈現(xiàn)出鮮明的“技術(shù)深潛”與“節(jié)點式爆發(fā)“的雙重特征。

十月的最后一周,再次進入MiniMax式技術(shù)迭代新周期。MiniMax模型“全家桶”全面向Agent方向進化,基礎(chǔ)文本模型M1升級至M2,“專為Agent和代碼而生”;視頻模型升級至Hailuo 2.3,Hailuo Video Agent迭代為“全模態(tài)全能創(chuàng)作”的Media Agent;新的語音模型Speech 2.6,重新定義下一代Voice Agent的語音模型。


MiniMax創(chuàng)始人閆俊杰在開篇引用了《老子》里的一個詞“大巧若拙”,大意是技術(shù)最高境界的“巧”,要回歸本質(zhì),解決實際問題,這幾乎奠定了本次升級的基調(diào)。

語音模型升級亦是如此,Speech 2.6并非只是單純刷模型指標(biāo),而是一次綜合性的更新。一方面是模型能力提升,涉及新增利用Lora提升流利度、特殊格式讀取等功能。另一方面是對端到端API的工程優(yōu)化,比如低延時、首包優(yōu)化等。

也是一次從技術(shù)落地到場景的再深化,其核心目標(biāo)是給做智能語音助手、客服系統(tǒng)、多輪對話產(chǎn)品等B端廠商和開發(fā)者,提供一個“開箱即用”的引擎。

從誕生起,MiniMax便確定了多模態(tài)全棧自研的戰(zhàn)略,表現(xiàn)為多線并進、交叉突破。放眼望去,Speech 2.6 Agent化的背后是更廣闊的Voice Agent賽道。

有研究報告估測,2030年Voice Agent市場規(guī)模保守估計,可達百億美元級別,若技術(shù)發(fā)展超預(yù)期,可能進一步上漲。

更快、更懂行、更完美

為什么要專門針對Voice Agent來優(yōu)化?

Voice Agent可以理解為“語音交互代理人”,它是連接用戶語音指令與后端服務(wù)的核心橋梁。與傳統(tǒng)語音指令識別不同,不只是簡單將語音轉(zhuǎn)成文字,而是具備完整的交互能力。

小到智能音箱日常問答,大到企業(yè)客服系統(tǒng)的智能應(yīng)答,幾乎所有需要“用說話代替打字”的場景,都依賴Voice Agent來承接需求、理解意圖并給出反饋??梢哉f,Voice Agent是當(dāng)前覆蓋范圍最廣、用戶需求最迫切的語音交互形態(tài),對其優(yōu)化就是直接提升所有語音場景的效率和體驗。

如果把Voice Agent 比作行駛的汽車,那么語音模型就是發(fā)動機。語音模型的性能直接決定了Voice Agent的場景化效果,Voice Agent的背后必須擁有一個強大的語音模型底座。

Speech 2.6正是延續(xù)了上述思路,在繼續(xù)提高語音模型性能的基礎(chǔ)上,全面升級突破Voice Agent場景,實現(xiàn)超低延時,專業(yè)格式無障礙和更高自然度。

用戶對語音的敏感度遠高于文字,快一毫秒或遲一毫秒,效果相去甚遠。在日常語音交互中最煩人的就是“卡殼”,Speech 2.6這回把“首包響應(yīng)時間”壓到了250毫秒,體感相當(dāng)于眨一下眼三分之一的時間。據(jù)我們了解,雖然國外部分頂流模型宣稱可達到75毫秒,但實際場景測試過程中平均保持在200-300毫秒。MiniMax的250毫秒響應(yīng)速度,已經(jīng)達到了語音賽道絕對頭部的水平。

用戶最直觀的感受就是幾乎感覺不到卡頓,像真人聊天一樣流暢。像這個案例就是最常見的客服咨詢場景,在音色上已經(jīng)分辨不出人和AI的區(qū)別,AI能精準(zhǔn)、連續(xù)識別用戶的意圖,比如“你是不是助理”“有什么新功能”“有沒有優(yōu)惠”等。在無縫銜接作出回答的同時,完成了反問和留資,具備了人類對話中的精髓——“有來有往”。

第二個升級的點是,模型變得“更聰明”和“更懂行”。以前用語音模型,遇到電話、郵箱、網(wǎng)址、數(shù)學(xué)公式這類專業(yè)內(nèi)容,得手動改寫輸入,比如要讀出“guang-zi@tech.com”必須要寫成“guang dash zi at tech dot com”,否則AI可能會讀錯。時間識別也是同樣問題,要正確讀出“2025-10-29”,就得嚴(yán)格輸入“二零二五年十月二十九日”。而升級后的Speech 2.6無需人工教學(xué),直接就能解碼讀出來。

別看這個點細微,但卻有大用處。試想一下所有涉及語音交互的場景,最重要的就是獲取信息和建聯(lián),如果在關(guān)鍵環(huán)節(jié)出錯,那之前所有都淪為了無效溝通。對開發(fā)者來說省事又高效,尤其是智能客服、日程管理、教育類語音代理團隊,不用再花精力調(diào)prompt或改文本,相關(guān)的技術(shù)棧都能簡化,

還有一個亮點功能是“化腐朽為神奇”,做音色克隆時,最怕用戶提供的錄音素材不完美,比如說話結(jié)巴、帶口音、非母語不流利等。Speech 2.6新增的“Fluent Lora”功能,哪怕素材是“磕磕巴巴”的,也能復(fù)刻出流暢自然的聲音。

舉個例子,你想復(fù)刻一位外國友人的中文語音,但他中文說得慢且有口音,以前生成的AI語音可能也跟著結(jié)巴?,F(xiàn)在Speech 2.6直接用他的原始錄音,但生成的語音依然流暢自然。這對需要大量用戶自定義音色的場景,例如有聲書、個性化語音助手非常實用。

Voice Agent,把行業(yè)重做一遍

回顧MiniMax Speech系列模型的自我演進歷程,某種意義上也是國內(nèi)AI語音技術(shù),從模仿擬人逐漸走向交互智能的縮影。

今年5月份,MiniMax發(fā)布語音模型MiniMax Speech 02,創(chuàng)新的“Zero-Shot”能力,通過一個模型,提供任意“語言×任意口音×任意音色”的無限組合,豐富了語音生成的多樣性。

彼時,Speech 02一經(jīng)推出,就登頂“Artificial Analysis Speech Arena”和“Hugging Face TTS Arena”兩大權(quán)威榜單,力壓ElevenLabs、OpenAI等國際頂尖競爭對手。

8月份,MiniMax Speech 2.5上線,進一步把各項技能點滿,實現(xiàn)三大新突破:多語種表現(xiàn)力更強、音色復(fù)刻更像、40個語種覆蓋更廣。多語種能力直接瞄準(zhǔn)國際市場,為MiniMax出海奠定了基礎(chǔ)。

最后來到剛更新的Speech 2.6,揭開Voice Agent新篇章,開始針對實用場景進行綜合提升,反映其背后商業(yè)化的清晰戰(zhàn)略。大模型與語音技術(shù)深度融合,正在推動AI語音從工具屬性向與場景綁定的智能體演進,從前一階段的能聽懂升級為會思考、善溝通。


在商業(yè)世界,入口是一個極具吸引力的詞語。大模型之戰(zhàn)開啟之后,語音交互再次被認(rèn)為是具有增長前景長的新入口。落地到許多人力密集的傳統(tǒng)行業(yè),很多都可以用Voice Agent來重新做一遍。這里面有兩條邏輯貫穿始終,一是“成本歸零”,二是“服務(wù)擴展性”。

To B場景中,Voice Agent可以替代大量重復(fù)性的人工溝通工作,如客服、外呼銷售、員工培訓(xùn)等。理論上,若AI成本可以持續(xù)下降,上述行業(yè)的人工成本也可以無限趨近于零,這將是一次重要的降本增效革命。一旦成本結(jié)構(gòu)轉(zhuǎn)變,商業(yè)模式將迎來重構(gòu),身處于這些行業(yè)的企業(yè)有機會追求更高的價值,從以成本為中心向以利潤為中心轉(zhuǎn)型。

價值鏈的重塑體現(xiàn)在企業(yè)級服務(wù),Voice Agent的價值在于它能直接切入業(yè)務(wù)核心。一個可靠的Voice Agent可以直接嵌入這些工作流,成為用戶與SaaS系統(tǒng)交互的首要觸點。協(xié)同內(nèi)外部系統(tǒng),Voice Agent可以將整個業(yè)務(wù)流程打穿,推動全鏈路效率革命。例如,在汽車試駕場景,用戶說“想試駕新款SUV”,Agent立即匹配庫存數(shù)據(jù),若車型有現(xiàn)車則直接推薦最近門店,否則自動調(diào)整推薦其他車型或時間,整個過程無需人工介入。

生態(tài)和商業(yè)化

回到現(xiàn)實,Voice Agent市場發(fā)展仍在早期,還處于從技術(shù)驗證期向企業(yè)級落地的轉(zhuǎn)型階段。盡管行業(yè)已經(jīng)有了基建層向應(yīng)用層過渡的趨勢,但整體呈現(xiàn)出“倒金字塔式”競爭格局,上層垂直行業(yè)應(yīng)用層企業(yè)眾多,既有傳統(tǒng)又有新玩家,最底層能夠穩(wěn)定向上輸出技術(shù)能力的基建企業(yè)數(shù)量較少。

毫無疑問,MiniMax就是其中典型的“基建狂魔”。其Speech系列語音模型,不綁定特定行業(yè)場景,而是通過底層技術(shù)和工程優(yōu)化,為B端廠商和開發(fā)者提供可復(fù)用的技術(shù)模塊。通過開源模型和API服務(wù),將音色模仿、語音生成等能力封裝為標(biāo)準(zhǔn)化的工具,以降低企業(yè)接入門檻。技術(shù)能力向上下游延伸,與文本、視頻、音樂等多模態(tài)能力形成協(xié)同效應(yīng)。

語音領(lǐng)域始終是MiniMax的技術(shù)主場,早在行業(yè)初期就達成了多個“國內(nèi)首個”成就。國內(nèi)首個使用大模型語音技術(shù)開放多角色配音商用接口,首個開設(shè)語音模型海外API服務(wù),以及首個與聲網(wǎng)、騰訊和即構(gòu)科技聯(lián)合研發(fā)Realtime API實時交互服務(wù)方案。這導(dǎo)致一段時間內(nèi),客戶對其語音模型的認(rèn)可度一度超越了文本大模型。

得益于此,MiniMax目前進入了海內(nèi)外客戶語音模型選型的核心廠商名單,包括一些大廠。市場反饋尤為直觀,很多人向我們反映,在同期產(chǎn)品中,MiniMax語音模型更具性價比。不少客戶對MiniMax的小語種功能印象深刻,特別是粵語的表達,“標(biāo)準(zhǔn)到接近電視臺播報水平”。

海外客戶主要為開發(fā)者平臺和AI語音代理基礎(chǔ)設(shè)施提供商,以技術(shù)驅(qū)動和生態(tài)集成為導(dǎo)向,這些客戶大多追求快速集成、高自定義性和全球部署能力。其中,MiniMax語音模型的超低延遲、情感語言控制和多語言優(yōu)化等功能,成為被采納的主要參考。目前海外最流行的兩家Voice Agent開源平臺,Livekit與Pipecat已接入MiniMax Speech TTS Model,展現(xiàn)了MiniMax在高性能語音代理生態(tài)中的適配性。

國內(nèi)客戶覆蓋領(lǐng)域則更廣闊,包括教育硬件、智能玩具等C端消費級產(chǎn)品,銷售、搜索等B端行業(yè)解決方案以及通過開發(fā)者平臺賦能技術(shù)型客戶,以高自然度的語音技術(shù),滿足不同場景下更人性化、更高效的交互需求。

教育類客戶中,愛小伴AI奶龍作為IP衍生玩具,利用MiniMax還原角色聲線,支持故事講述和情感互動,體現(xiàn)“寓教于陪”的定位;聽力熊學(xué)習(xí)機基于自研TeeniGPT大模型,集成MiniMax語音能力進行自然對話,增強學(xué)生學(xué)習(xí)的互動體驗。

面向C端的智能助手與硬件,MiniMax利用語音技術(shù)幫助企業(yè)提升用戶體驗,增強用戶粘性,其客戶涉及了榮耀、魅族、小米等硬件廠商。在B端銷售領(lǐng)域,MiniMax與“Megaview AI助手”達成合作,語音生成與情感識別能力其提供底層支持,提高業(yè)務(wù)效率。

不難看出,除了技術(shù)升級外,MiniMax的語音模型已經(jīng)進入了商業(yè)驗證期。對比同行,MiniMax在B端業(yè)務(wù)的風(fēng)格呈現(xiàn)出輕交付、重質(zhì)量特點。通過標(biāo)準(zhǔn)化、模塊化的API輸出技術(shù)能力,降低合作伙伴的集成成本,優(yōu)點是周期短和風(fēng)險小,靠用戶的正向反饋將帶來后期穩(wěn)定增長。這種模式使其能夠快速擴大覆蓋業(yè)務(wù)范圍,但又能保持技術(shù)研發(fā)的聚焦性,這點對一家資源有限的創(chuàng)業(yè)公司極其重要。

短期內(nèi),Voice Agent市場還卡在技術(shù)環(huán)節(jié)。這意味著具備核心技術(shù)標(biāo)準(zhǔn)制定能力的企業(yè)將主導(dǎo)底層生態(tài),而率先完成行業(yè)場景深度適配的解決方案商將贏得上層市場。

未來,語音交互可能成為企業(yè)數(shù)字化轉(zhuǎn)型的標(biāo)配接口,但真正的贏家將是那些能同時駕馭技術(shù)深度與場景廣度的生態(tài)構(gòu)建者。

微信號|TMTweb

公眾號|光子星球

別忘了掃碼關(guān)注我們!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
造孽,挖了個大大坑

造孽,挖了個大大坑

越女事務(wù)所
2025-12-23 22:45:01
A股:做好心理預(yù)期,明天(12月25日),行情很可能會重演歷史了

A股:做好心理預(yù)期,明天(12月25日),行情很可能會重演歷史了

財經(jīng)大拿
2025-12-24 14:02:33
1959 年,特赦后的邱行湘打算去做搬運工糊口,周總理了解情況后告訴他:“你是國家干部啊!”

源溯歷史
2025-12-21 15:01:27

威廉凱特發(fā)布王室全家福,夏公主偎依父親肩膀,喬治王子戴手鏈

威廉凱特發(fā)布王室全家福,夏公主偎依父親肩膀,喬治王子戴手鏈

我是盲流
2025-12-19 12:45:08
莫德里奇不是來米蘭養(yǎng)老的嗎?

莫德里奇不是來米蘭養(yǎng)老的嗎?

張佳瑋寫字的地方
2025-12-24 14:34:50
搶在特朗普開戰(zhàn)前,普京政府通知美國,俄要保一人,中方也介入了

搶在特朗普開戰(zhàn)前,普京政府通知美國,俄要保一人,中方也介入了

流云青史
2025-12-24 21:36:57
凱特的御用保姆火了!照顧3個孩子11年,精英學(xué)院畢業(yè)還要會武打

凱特的御用保姆火了!照顧3個孩子11年,精英學(xué)院畢業(yè)還要會武打

照見古今
2025-12-24 18:36:46
廣東的三低人情文化成為全國一股清流,廣東網(wǎng)友:這是全省的驕傲

廣東的三低人情文化成為全國一股清流,廣東網(wǎng)友:這是全省的驕傲

妙知
2025-12-24 11:01:41
上海男子發(fā)病8天離世,妻子崩潰:出差7個月才回家,留130萬外債

上海男子發(fā)病8天離世,妻子崩潰:出差7個月才回家,留130萬外債

千言娛樂記
2025-12-23 19:34:32
陳芋汐談與全紅嬋關(guān)系:我們的關(guān)系不是輿論能左右的

陳芋汐談與全紅嬋關(guān)系:我們的關(guān)系不是輿論能左右的

大象新聞
2025-12-24 20:41:28
人口告別世界第一?二孩催生無效后,國家終于向住房出手了

人口告別世界第一?二孩催生無效后,國家終于向住房出手了

奇思妙想草葉君
2025-12-23 22:58:43
1983年,李政道回國參加母親葬禮,在機場和哥哥李崇道的一張合影

1983年,李政道回國參加母親葬禮,在機場和哥哥李崇道的一張合影

萬物知識圈
2025-12-24 09:08:29
君子協(xié)定達成!英格蘭中衛(wèi)拒絕巴薩皇馬,確定簽約利物浦

君子協(xié)定達成!英格蘭中衛(wèi)拒絕巴薩皇馬,確定簽約利物浦

夜白侃球
2025-12-24 21:25:37
安宮牛黃丸為何成了中國最昂貴的假藥?

安宮牛黃丸為何成了中國最昂貴的假藥?

微評社
2025-12-15 15:38:28
10人U22國足1-0中亞黑馬!西亞拉練迎開門紅 王鈺棟制勝+彭嘯復(fù)出

10人U22國足1-0中亞黑馬!西亞拉練迎開門紅 王鈺棟制勝+彭嘯復(fù)出

我愛英超
2025-12-24 12:24:07
湖南發(fā)布《致全省人民的一封信》:減少或不燃放煙花爆竹,用“新年俗”傳遞祝福

湖南發(fā)布《致全省人民的一封信》:減少或不燃放煙花爆竹,用“新年俗”傳遞祝福

瀟湘晨報
2025-12-24 17:35:17
優(yōu)質(zhì)“蛋白質(zhì)”排行榜!牛奶倒數(shù)第一,蝦肉才排第5,建議了解

優(yōu)質(zhì)“蛋白質(zhì)”排行榜!牛奶倒數(shù)第一,蝦肉才排第5,建議了解

岐黃傳人孫大夫
2025-12-20 10:00:03
紫牛頭條∣口罩車內(nèi)突發(fā)“自燃”,新能源車主懵了!專家:口罩金屬條進入無線充電磁場范圍被加熱

紫牛頭條∣口罩車內(nèi)突發(fā)“自燃”,新能源車主懵了!專家:口罩金屬條進入無線充電磁場范圍被加熱

揚子晚報
2025-12-23 20:13:52
生物博士變身鑒寶 公證書撤銷照樣算數(shù) 南博為何“制造”龐家后人

生物博士變身鑒寶 公證書撤銷照樣算數(shù) 南博為何“制造”龐家后人

金牌輿情官
2025-12-22 22:40:53
女人想讓你“得手”,不會明說,而會用這些“信號”提示你

女人想讓你“得手”,不會明說,而會用這些“信號”提示你

攜手游人間a
2025-12-23 11:58:51
2025-12-24 23:16:49
光子星球 incentive-icons
光子星球
細微之處,看見未來!
1337文章數(shù) 2135關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

61歲女"老虎"王峻被查 一直在西藏自治區(qū)工作

頭條要聞

61歲女"老虎"王峻被查 一直在西藏自治區(qū)工作

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財經(jīng)要聞

北京進一步放松限購 滬深是否會跟進?

汽車要聞

“運動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

房產(chǎn)
親子
游戲
本地
藝術(shù)

房產(chǎn)要聞

硬核!央企??谝痪€江景頂流紅盤,上演超預(yù)期交付!

親子要聞

母嬰下半場:科研與全齡的雙重突圍|世研消費指數(shù)品牌榜Vol.93

BLG又被0-2了!不敵JDG,苦吞德杯第二?。ongQ猛如戰(zhàn)神

本地新聞

云游安徽|一川江水潤安慶,一塔一戲一城史

藝術(shù)要聞

2026第一福!孫曉云親筆“福”字出爐

無障礙瀏覽 進入關(guān)懷版