国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

微軟、谷歌同日發(fā)布新AI模型:語音、圖像與本地開源能力齊上陣

0
分享至

微軟與谷歌周四同步發(fā)布新一代AI模型,進(jìn)一步加碼多模態(tài)能力布局。微軟推出自研MAI系列基礎(chǔ)模型,覆蓋語音轉(zhuǎn)寫、語音生成和圖像生成,并加速融入自家產(chǎn)品體系;谷歌則發(fā)布Gemma 4開源模型,主打本地運行和多模態(tài)能力,并將許可切換至更開放的Apache 2.0協(xié)議。

微軟:三款MAI模型覆蓋語音與圖像能力

微軟推出的“世界級”自研MAI模型,一共包括三款。

首先是MAI-Transcribe-1,這是一款“最先進(jìn)”的語音轉(zhuǎn)文本模型,該模型在全部25種語言上均優(yōu)于OpenAI的Whisper-large-v3,在25種中有22種優(yōu)于Google的Gemini 3.1 Flash,在15種語言上優(yōu)于ElevenLabs的Scribe v2和OpenAI的GPT-Transcribe。MAI-Transcribe-1的起步價格為每小時0.36美元。

該模型采用基于Transformer的文本解碼器和雙向音頻編碼器,支持MP3、WAV和FLAC格式,最大文件200MB。微軟表示,其批量轉(zhuǎn)寫速度是Azure Fast現(xiàn)有方案的2.5倍。說話人分離、上下文偏置和流式處理功能將“很快推出”。目前,該模型已在Copilot語音模式和Microsoft Teams中測試,用于對話轉(zhuǎn)寫,這也顯示出微軟正快速用自研模型替代外部或舊有方案。

其次是MAI-Voice-1,這是一款新的語音生成模型,只需1秒即可生成60秒的音頻,并在長文本中保持說話人一致性,用戶只需幾秒音頻即可創(chuàng)建自定義聲音。同時,它還支持在Microsoft Foundry中通過短音頻樣本創(chuàng)建定制語音。MAI-Voice-1的起步價格為每100萬個字符22美元。

最后是MAI-Image-2,這是一款更快的文生圖模型,目前已經(jīng)開始在Copilot中上線,接下來將陸續(xù)應(yīng)用于Bing和PowerPoint。MAI-Image-2的價格為文本輸入每100萬個詞元(Token)收費5美元,圖像輸出每100萬個詞元收費33美元。

如今,這三款模型已全部在Microsoft Foundry上線,其中語音轉(zhuǎn)寫和語音生成模型也可在MAI Playground中使用。這些模型由微軟的MAI超級智能團(tuán)隊開發(fā),該團(tuán)隊由Microsoft AI首席執(zhí)行官穆斯塔法·蘇萊曼(Mustafa Suleyman)領(lǐng)導(dǎo),于2025年11月成立并對外公布。

微軟表示:

“我們正在快速部署這些頂級模型,用于支持自家的消費者和商業(yè)產(chǎn)品。很快你將會在Foundry以及微軟各類產(chǎn)品和體驗中看到更多模型?!?br/>
微軟加速擺脫依賴:自研模型體系逐步成型

媒體分析稱,這一發(fā)布表明,盡管微軟仍與OpenAI保持緊密合作,但公司正持續(xù)推進(jìn)構(gòu)建自有多模態(tài)AI模型體系,并與其他AI研究機(jī)構(gòu)展開競爭。

這些模型的推出,與微軟與OpenAI之間的一次關(guān)鍵合同調(diào)整密切相關(guān)。在2025年10月之前,微軟在合同上被限制,無法獨立推進(jìn)通用人工智能的研發(fā)。2019年的原始協(xié)議規(guī)定,微軟以提供云基礎(chǔ)設(shè)施為交換,獲得OpenAI模型的授權(quán)。但當(dāng)OpenAI開始與軟銀等其他合作伙伴擴(kuò)大算力合作時,微軟重新談判了協(xié)議。

蘇萊曼在2025年12月接受采訪時表示:“直到幾周前,微軟在合同上是不被允許獨立推進(jìn)AGI或超級智能的。”新協(xié)議使微軟可以自主開發(fā)前沿模型,同時仍保留到2032年的OpenAI模型授權(quán)。

不過,蘇萊曼在周四接受媒體采訪時重申,微軟仍將繼續(xù)與OpenAI保持合作關(guān)系。但他也向媒體表示,近期對雙方合作關(guān)系的重新談判,使微軟能夠真正推進(jìn)其超級智能研究。

“與OpenAI的合作沒有改變,我們至少會合作到2032年,甚至更久。他們是非常優(yōu)秀的合作伙伴?!?br/>

同時,微軟也通過Foundry提供Anthropic Claude模型,將自身定位為“平臺中的平臺”。但其戰(zhàn)略意圖很清晰:微軟正在打造獨立能力。

微軟已向OpenAI投資超過130億美元,并通過一項多年期合作,將其模型部署在自家多款產(chǎn)品中。微軟在芯片領(lǐng)域也采取類似策略:既自主研發(fā),也同時采購?fù)獠抗?yīng)商的產(chǎn)品。

分析稱,這一發(fā)布時點對微軟而言頗為關(guān)鍵。公司股價剛經(jīng)歷自2008年金融危機(jī)以來最差的一個季度,投資者正越來越迫切地要求看到,數(shù)千億美元的AI基礎(chǔ)設(shè)施投入如何轉(zhuǎn)化為實際收入。這些模型——定價激進(jìn),同時有助于降低微軟自身成本——成為蘇萊曼對此壓力的首次回應(yīng)。

從競爭格局看,這次發(fā)布讓微軟在多個方向同時發(fā)力。MAI-Transcribe-1直接挑戰(zhàn)OpenAI Whisper在開源社區(qū)的地位,也對Google Gemini形成壓力;MAI-Voice-1則對標(biāo)ElevenLabs等語音AI公司;加上Foundry統(tǒng)一API入口,形成強大的分發(fā)優(yōu)勢。

蘇萊曼表示:

“我們現(xiàn)在是僅次于OpenAI和Gemini的前三實驗室?!?br/>“我們要做到所有云廠商里最便宜,包括亞馬遜和谷歌,這是有意識的決定?!?br/>
谷歌:Gemma 4開源模型強化本地AI與開發(fā)者生態(tài)

谷歌推出的Gemma 4開源模型采用Apache 2.0許可,而不再使用此前自定義的Gemma許可協(xié)議。谷歌表示,這些模型具備高級推理能力、代理式工作流、代碼生成,以及視覺和音頻生成能力,并提供四種不同版本,針對本地運行進(jìn)行了優(yōu)化,甚至可以運行在“數(shù)十億臺安卓設(shè)備”上。

谷歌表示:

“Gemma 4基于與Gemini 3相同的世界級研究和技術(shù),是目前你可以在本地硬件上運行的能力最強的一系列模型。它們與我們的Gemini模型形成互補,為開發(fā)者提供業(yè)內(nèi)最強大的開源與專有工具組合。”
“這種開源許可為開發(fā)者提供了完整的靈活性和數(shù)字主權(quán)基礎(chǔ),讓你可以完全掌控數(shù)據(jù)、基礎(chǔ)設(shè)施和模型。你可以在任何環(huán)境中自由構(gòu)建并安全部署,無論是在本地還是云端。”
四種版本:從手機(jī)到GPU全覆蓋

四種不同版本主要區(qū)別在于參數(shù)規(guī)模。針對邊緣設(shè)備(包括智能手機(jī)),公司推出了20億和40億參數(shù)的“Effective”模型,更注重多模態(tài)能力和低延遲處理,適用于移動設(shè)備和物聯(lián)網(wǎng)設(shè)備。針對更強大的設(shè)備,則提供了260億參數(shù)的“Mixture of Experts”(專家混合)模型,以及310億參數(shù)的“Dense”(稠密)模型,旨在運行于消費級GPU上,可用于驅(qū)動IDE、編程助手以及代理式工作流。這些模型還支持完全離線運行。


谷歌表示,在Gemma 4上實現(xiàn)了“前所未有的單位參數(shù)智能水平”。為佐證這一說法,公司指出,Gemma 4中310億和260億參數(shù)版本在Arena AI文本排行榜上分別位列第三和第六,擊敗了規(guī)模是其20倍的模型。


所有這些模型都可以處理視頻和圖像,因此非常適合用于光學(xué)字符識別等任務(wù)。較小的兩個模型還支持處理音頻輸入并理解語音。此外,谷歌表示,Gemma 4系列支持離線代碼生成,這意味著用戶可以在沒有互聯(lián)網(wǎng)連接的情況下進(jìn)行編程(例如進(jìn)行“vibe coding”)。這些模型還支持超過140種語言。

谷歌的Gemma 4開源模型可以在多個平臺下載,包括Hugging Face、Kaggle和Ollama。谷歌強調(diào):

“這些模型在基礎(chǔ)設(shè)施安全方面,遵循與我們專有模型相同的嚴(yán)格安全協(xié)議?!?br/>

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
孫穎莎賽后全隊離場,唯獨邱貽可獨坐看臺等她,師徒同框太暖心

孫穎莎賽后全隊離場,唯獨邱貽可獨坐看臺等她,師徒同框太暖心

小娛樂悠悠
2026-04-03 08:46:34
中央終于放手!中央交出“定價權(quán)”,地方以后只能靠自己搶錢?

中央終于放手!中央交出“定價權(quán)”,地方以后只能靠自己搶錢?

混沌錄
2026-03-31 17:03:12
張雪峰二婚妻子付幸:幾個月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

張雪峰二婚妻子付幸:幾個月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

眼光很亮
2026-03-27 16:04:09
張雪機(jī)車兩連冠!必須提醒:你們動巨頭500億的蛋糕,一定要小心

張雪機(jī)車兩連冠!必須提醒:你們動巨頭500億的蛋糕,一定要小心

達(dá)文西看世界
2026-03-31 18:53:29
從千億到虧損邊緣,越秀地產(chǎn)還有多少“坑”要填?

從千億到虧損邊緣,越秀地產(chǎn)還有多少“坑”要填?

智趣財經(jīng)
2026-04-02 10:33:20
伊朗對美以發(fā)動第89波攻勢,自殺式無人機(jī)突進(jìn)北印度洋,逼退“林肯”號航母

伊朗對美以發(fā)動第89波攻勢,自殺式無人機(jī)突進(jìn)北印度洋,逼退“林肯”號航母

上觀新聞
2026-04-02 04:24:13
35國獲知華盛頓出局,特朗普憤怒,英國為何不邀請他

35國獲知華盛頓出局,特朗普憤怒,英國為何不邀請他

星星會墜落
2026-04-03 09:19:10
德黑蘭出現(xiàn)了不對的苗頭,伊朗總統(tǒng)已經(jīng)被革命衛(wèi)隊完全壓制?

德黑蘭出現(xiàn)了不對的苗頭,伊朗總統(tǒng)已經(jīng)被革命衛(wèi)隊完全壓制?

深析古今
2026-04-03 09:31:32
日被嚇得不輕!中俄聯(lián)手提前“演練”臺海之戰(zhàn),美:是時候出手了

日被嚇得不輕!中俄聯(lián)手提前“演練”臺海之戰(zhàn),美:是時候出手了

夏末moent
2026-04-02 13:40:54
“清明吃一鮮,一年病不沾”!清明前后使勁吃,一護(hù)肝、二利水、

“清明吃一鮮,一年病不沾”!清明前后使勁吃,一護(hù)肝、二利水、

馬蹄燙嘴說美食
2026-04-03 06:00:03
英特爾把顯卡塞進(jìn)了CPU插槽,384單元核顯直接焊在主板上

英特爾把顯卡塞進(jìn)了CPU插槽,384單元核顯直接焊在主板上

碳基打工人
2026-04-03 09:16:56
十年效忠,半夜卷鋪蓋:司法部長帕姆·邦迪的“頭號忠臣”幻滅記

十年效忠,半夜卷鋪蓋:司法部長帕姆·邦迪的“頭號忠臣”幻滅記

冰汝看美國
2026-04-03 05:02:08
粉底液將軍事件再升級!網(wǎng)友懷疑反華勢力入侵,張凌赫恐被當(dāng)炮灰

粉底液將軍事件再升級!網(wǎng)友懷疑反華勢力入侵,張凌赫恐被當(dāng)炮灰

千言娛樂記
2026-04-02 12:32:24
降價152萬再拍賣,常州市這棟千萬級豪宅別墅被人撿漏607萬競得

降價152萬再拍賣,常州市這棟千萬級豪宅別墅被人撿漏607萬競得

天天話事
2026-04-03 08:50:29
程正昌:作為中國人,我很高興球隊擁有楊瀚森這樣的潛力新星

程正昌:作為中國人,我很高興球隊擁有楊瀚森這樣的潛力新星

懂球帝
2026-04-03 08:11:20
開戰(zhàn)34天,普京全球發(fā)聲,俄伊斷交,以色列邊境告急

開戰(zhàn)34天,普京全球發(fā)聲,俄伊斷交,以色列邊境告急

愛不愛都依你
2026-04-03 08:19:32
周薪30萬鎊 31歲曼城隊長確定自由身離隊 9年隨隊奪19冠 去向曝光

周薪30萬鎊 31歲曼城隊長確定自由身離隊 9年隨隊奪19冠 去向曝光

我愛英超
2026-04-03 05:55:59
被外交部揭底的極右翼分子,曝光了

被外交部揭底的極右翼分子,曝光了

環(huán)球時報國際
2026-04-02 23:52:23
姆巴佩和女友近照,27歲已是超巨,身家過億,女友是火辣演員

姆巴佩和女友近照,27歲已是超巨,身家過億,女友是火辣演員

大西體育
2026-03-31 13:27:01
嚴(yán)屹寬談張凌赫“粉底液將軍”爭議:演員對妝造的決策權(quán)有限,有質(zhì)疑說明受到了關(guān)注,要用虛心的心態(tài)接受質(zhì)疑

嚴(yán)屹寬談張凌赫“粉底液將軍”爭議:演員對妝造的決策權(quán)有限,有質(zhì)疑說明受到了關(guān)注,要用虛心的心態(tài)接受質(zhì)疑

極目新聞
2026-04-02 14:29:35
2026-04-03 10:35:00
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國領(lǐng)先的金融商業(yè)信息提供商
144023文章數(shù) 2653110關(guān)注度
往期回顧 全部

科技要聞

SpaceX沖刺2萬億美元估值,馬斯克野心太大

頭條要聞

專家:伊朗導(dǎo)彈數(shù)量足夠維持反擊一到兩周

頭條要聞

專家:伊朗導(dǎo)彈數(shù)量足夠維持反擊一到兩周

體育要聞

邵佳一的改革,從讓每個人踢舒服開始

娛樂要聞

《浪姐》人氣榜出爐!曾沛慈斷層第一

財經(jīng)要聞

全球石油危機(jī)或?qū)⒙?/h3>

汽車要聞

軸距2米7/后排能蹺腿 試駕后驅(qū)小車QQ3 EV

態(tài)度原創(chuàng)

房產(chǎn)
游戲
健康
親子
軍事航空

房產(chǎn)要聞

9000畝供地計劃出爐!三亞樓市,格局大變!

《紅色沙漠》BOSS戰(zhàn)引玩家眾怒:設(shè)計的糟糕且無趣!

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

親子要聞

洗頭的舒適區(qū),讓爸爸想出更多帶娃創(chuàng)意

軍事要聞

伊朗自殺無人機(jī)突進(jìn) 逼退林肯號航母

無障礙瀏覽 進(jìn)入關(guān)懷版