国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

創(chuàng)智+模思發(fā)布開(kāi)源版Sora2,音視頻同步生成,打破閉源技術(shù)壟斷

0
分享至

編輯|澤南、Panda

今天上午,上海創(chuàng)智學(xué)院 OpenMOSS 團(tuán)隊(duì)聯(lián)合初創(chuàng)公司模思智能(MOSI),正式發(fā)布了端到端音視頻生成模型 ——MOVA(MOSS-Video-and-Audio)。

作為中國(guó)首個(gè)高性能開(kāi)源音視頻模型,MOVA 實(shí)現(xiàn)了真正意義上的「音畫同出」。它不僅能生成長(zhǎng)達(dá) 8 秒、最高 720p 分辨率的視聽(tīng)片段,更在多語(yǔ)言口型同步、環(huán)境音效契合度上展現(xiàn)了極高的工業(yè)水準(zhǔn)。

更具行業(yè)意義的是,在 Sora 2 和 Veo 3 等頂尖技術(shù)普遍走向閉源的當(dāng)下,MOVA 選擇將模型權(quán)重、訓(xùn)練代碼、推理代碼以及微調(diào)方案進(jìn)行全棧開(kāi)源。

它生成視頻的效果,給人一種身臨其境的真實(shí)感


https://mp.weixin.qq.com/s/ZP1-Sv1ygvvXCX97ohUYDw

  • GitHub: https://github.com/OpenMOSS/MOVA
  • 項(xiàng)目主頁(yè): https://mosi.cn/models/mova

效果亮眼

可稱開(kāi)源最強(qiáng)

過(guò)去一年,視頻生成模型(Video Generation)經(jīng)歷了爆發(fā)式增長(zhǎng)。從 Sora 到 Wan,再到 LTX Video,AI 輸出的畫面越來(lái)越逼真,能生成的時(shí)間越來(lái)越長(zhǎng)。但仔細(xì)觀察 AI 生成的視頻你就會(huì)發(fā)現(xiàn),這些視頻有的是「啞巴」,有的配音出戲。音視頻生成(Video-Audio Generation)模型正是通過(guò)端到端的模態(tài)融合彌補(bǔ)了傳統(tǒng)視頻模型的音頻維度缺陷。

雖然以 Veo3 為代表的音視頻端到端模型展示了極高的生成上限,但是其閉源的策略造成了嚴(yán)重的技術(shù)壟斷,割裂了技術(shù)生態(tài)的連貫性,也讓社區(qū)難以通過(guò)協(xié)作改進(jìn)模型缺陷(如幻覺(jué)、不同步等),導(dǎo)致音視頻生成領(lǐng)域缺乏像 LLM 時(shí)代那樣的「開(kāi)源爆發(fā)式」演進(jìn)。

為了推倒這堵墻,讓音視頻生成能力真正回歸社區(qū),MOVA應(yīng)運(yùn)而生。它具備高質(zhì)量的端到端音視頻生成能力,完整開(kāi)源了 360p、720p 兩個(gè)基礎(chǔ)模型,以及包括微調(diào)、推理、生成工作流在內(nèi)的全鏈路組件,補(bǔ)全了音視頻生成基礎(chǔ)模型的開(kāi)源拼圖。

電影級(jí)別物理智能:音與畫的共振

在物理仿真層面,MOVA 展現(xiàn)了極其出色的「物理直覺(jué)」。在這里,聲音是具備空間感與質(zhì)感的環(huán)境反饋,而不僅僅是可有可無(wú)的音效。

當(dāng)一輛 SUV 在沙漠中高速掉頭時(shí),漫天飛舞的狂沙不僅在視覺(jué)上極具沖擊力,音軌中同步生成的馬達(dá)轟鳴聲與配樂(lè)緊密交織,營(yíng)造出極強(qiáng)的速度感:


https://mp.weixin.qq.com/s/ZP1-Sv1ygvvXCX97ohUYDw

提示詞:一輛 SUV 在沙漠里奔馳,并打方向盤掉頭,狂沙飛舞,配上激動(dòng)人心的音樂(lè),并聽(tīng)到馬達(dá)轟鳴聲。

這種聲畫邏輯在復(fù)雜的巷戰(zhàn)模擬中更為突出:


https://mp.weixin.qq.com/s/ZP1-Sv1ygvvXCX97ohUYDw

360p 模型生成,提示詞:在陰天漫射光下的城市巷道中,多名穿沙色迷彩的武裝人員保持固定防御隊(duì)形:左前跪姿射手持續(xù)向左側(cè)射擊,左中射手掩護(hù),右側(cè)兩到三名隊(duì)員貼墻半蹲警戒,塵土飛揚(yáng)、電線密集、街道縱深明顯,固定穩(wěn)定中景偏廣機(jī)位、紀(jì)錄片式電影寫實(shí)質(zhì)感、低飽和灰黃色調(diào)與輕微顆粒,短促橙色槍口火光但曝光穩(wěn)定,音頻包含密集近距槍聲、子彈掠過(guò)與擊中聲、街區(qū)混響、裝備摩擦與急促呼吸,人物、站位與構(gòu)圖始終不變。

這種對(duì)物理動(dòng)態(tài)的捕捉同樣體現(xiàn)在日常生活場(chǎng)景中。比如在下面的例子中,本?斯蒂勒在公路上滑滑板,隨著他左右搖擺加速,耳邊會(huì)傳來(lái)風(fēng)掠過(guò)路面的呼嘯聲,可以說(shuō)相當(dāng)好地還原了他在《白日夢(mèng)想家》中的經(jīng)典場(chǎng)景。


https://mp.weixin.qq.com/s/ZP1-Sv1ygvvXCX97ohUYDw

提示詞:畫面是一名穿著紅色上衣、灰色褲子的男子在空曠的公路上滑板的場(chǎng)景,公路周邊是草地和低山。男子通過(guò)左右搖擺的方式不斷加速,展開(kāi)手臂沿著公路不斷滑行。背景聲音為高速滑行時(shí)風(fēng)吹過(guò)的呼嘯聲。

電影級(jí)別的口型同步能力:精準(zhǔn)捕捉敘事靈魂

MOVA 另一大突破在于其電影級(jí)別的口型同步(Lip-sync)能力。它能夠根據(jù)中英文指令,生成與語(yǔ)義、情感高度契合的多人物談話場(chǎng)景。比如下面的公園散步視頻中,對(duì)話的銜接極其自然:


https://mp.weixin.qq.com/s/ZP1-Sv1ygvvXCX97ohUYDw

提示詞:畫面中是一個(gè)男子和孩子在公園中散步的場(chǎng)景。男子轉(zhuǎn)過(guò)頭疑惑地問(wèn)孩子說(shuō):“你長(zhǎng)大想要干什么?” 男孩一臉自信地回答:“債券交易員。唐恩就是做這個(gè)的,他帶我去過(guò)他的辦公室”。男子笑了笑,回答道:“是一個(gè)不錯(cuò)的職業(yè)?!?/p>

MOVA 也能流利地說(shuō)英語(yǔ),下面就還原了《王牌特工:特工學(xué)院》中「看到西裝男人別去惹他,你打不過(guò)他的」的經(jīng)典名場(chǎng)面。這里可以看到,人物的口型、表情與語(yǔ)調(diào)的變化嚴(yán)絲合縫,告別了以往 AI 視頻中的「對(duì)口型感」。


https://mp.weixin.qq.com/s/ZP1-Sv1ygvvXCX97ohUYDw

提示詞:畫面中是在一處英國(guó)大街上發(fā)生的談話,背景包含了西歐風(fēng)格的建筑物、電線桿和一面英國(guó)的國(guó)旗。畫面左邊穿著灰色西裝、戴著墨鏡的男子說(shuō)道:“成為紳士和口音毫無(wú)關(guān)系,真正的高貴在于超越自我。” 右邊穿著黃黑色夾克、戴著白色帽子的青年臉色逐漸嚴(yán)肅地回答道:“我記住了?!?隨后陷入了沉思。(原提示詞為英文)

涌現(xiàn)出來(lái)的進(jìn)階能力:視頻文字生成

有意思的是,在提升 MOVA 模型口型精度和語(yǔ)音能力的過(guò)程中,OpenMOSS 團(tuán)隊(duì)還收獲了一個(gè)「意外之喜」:文字生成能力

MOVA 能夠生成視頻中的文字內(nèi)容。比如下面這個(gè)例子,雖在「快」這里還有些瑕疵,但整體效果已超越了很多前沿閉源模型,表現(xiàn)令人相當(dāng)滿意。


https://mp.weixin.qq.com/s/ZP1-Sv1ygvvXCX97ohUYDw

提示詞:畫面開(kāi)始于創(chuàng)智學(xué)院寬敞而對(duì)稱的中庭,日光透過(guò)透明的玻璃天窗灑落下來(lái)。鏡頭沿著中軸線緩緩向前移動(dòng),空間逐漸發(fā)生變化,光線化作細(xì)小的粒子向上飄散,空中浮現(xiàn)出若隱若現(xiàn)的數(shù)據(jù)流與抽象的智慧圖形。天窗之外的天空逐漸轉(zhuǎn)化為深邃的星空,仿佛整座建筑與宇宙連通。隨著鏡頭推進(jìn),玻璃與植物微微發(fā)光,整個(gè)大廳呈現(xiàn)出安靜而充滿想象力的未來(lái)氛圍。畫面接近尾聲時(shí),所有光芒在中央?yún)R聚,形成閃耀著星光的文字:“上海創(chuàng)智學(xué)院祝您 2026 年元旦快樂(lè)!” 神秘而震撼的電子配樂(lè)始終伴隨畫面,在文字出現(xiàn)時(shí)略微收束。

作為對(duì)比,Veo 3.1 使用同樣提示詞的結(jié)果是這樣的:


https://mp.weixin.qq.com/s/ZP1-Sv1ygvvXCX97ohUYDw

在驚艷的效果背后,更加值得關(guān)注的是 MOVA 模型的一體化架構(gòu)。下面我們就來(lái)系統(tǒng)性地看看 MOVA 背后的技術(shù)。

背后的技術(shù)

從模態(tài)孤島到端到端共鳴

全球音視頻生成 AI 模型正處于一個(gè)從「純視頻生成」向「音視頻端到端生成」(Native Video-Audio Generation)跨越的關(guān)鍵時(shí)期,視頻生成 AI 模型的優(yōu)先目標(biāo)已不再僅僅是更擬真的畫面,而是聲音與視覺(jué)的完美共鳴。

在音視頻生成問(wèn)題上,傳統(tǒng)的解決方案是「級(jí)聯(lián)流水線」:先生成無(wú)聲的視頻,再通過(guò) Video-to-Audio 模型配音;或者先有語(yǔ)音,再驅(qū)動(dòng)畫面。這種「拼湊」感導(dǎo)致了音畫割裂 —— 爆炸聲可能比火光慢半拍,人物口型由于缺乏底層交互而顯得僵硬。

對(duì)此,OpenMOSS 團(tuán)隊(duì)決定挑戰(zhàn)最為困難,但效果更好的音視頻端到端生成模式。

他們針對(duì)音視頻生成任務(wù)專門構(gòu)建了一個(gè)基礎(chǔ)模型 MOVA(MOSS Video and Audio),其不僅能合成與視頻同步的語(yǔ)音,也能精準(zhǔn)地合成環(huán)境音效。從名字也能看出來(lái),該模型屬于模思智能的 MOSS 系列 —— 此前已有文本到對(duì)話生成模型 MOSS-TTSD、語(yǔ)音到語(yǔ)音生成模型 MOSS-Speech 以及多說(shuō)話人語(yǔ)音識(shí)別模型 MOSS-Transcribe-Diarize。

MOVA 是一個(gè)規(guī)模約 320 億參數(shù)(MoE 架構(gòu),推理時(shí)激活 180 億參數(shù))的模型,支持圖像 - 音視頻和文本 - 音視頻的處理方式。

具體技術(shù)上,OpenMOSS 團(tuán)隊(duì)進(jìn)行了模型架構(gòu)、數(shù)據(jù)工程、訓(xùn)練策略等多方面的創(chuàng)新,驗(yàn)證了音視頻大模型的規(guī)?;厔?shì)與性能提升。

下面我們就來(lái)看看 MOVA 是如何煉成的。

異構(gòu)雙塔與跨模態(tài)時(shí)間對(duì)齊

針對(duì)音頻和視頻兩個(gè)模態(tài)本身的信息密度,MOVA 巧妙地搭建了一套非對(duì)稱雙塔架構(gòu),結(jié)合了大尺寸的預(yù)訓(xùn)練視頻塔和小尺寸的預(yù)訓(xùn)練音頻塔。

具體來(lái)說(shuō),OpenMOSS 團(tuán)隊(duì)采用了 14B 參數(shù)的 Wan 2.2 I2V 作為視頻骨干網(wǎng)絡(luò)(用于圖像 + 文本條件的 I2VA),并預(yù)訓(xùn)練了 1.3B 的文本到音頻擴(kuò)散模型作為音頻骨干網(wǎng)絡(luò)。



MoVA 通過(guò)一個(gè)雙向橋接模塊將一個(gè) A14B 視頻 DiT 主干網(wǎng)絡(luò)與一個(gè) 1.3B 音頻 DiT 主干網(wǎng)絡(luò)耦合在一起,實(shí)現(xiàn)模態(tài)融合與交互

在這兩座「塔」之間,團(tuán)隊(duì)引入了一個(gè)雙向橋接模塊(Bridge)。這個(gè)模塊的存在,讓視頻與音頻的隱藏狀態(tài)在每一層都能進(jìn)行深度的交叉注意力運(yùn)算。這意味著畫面在生成的每一瞬間,圖像都在感知聲音的節(jié)奏,而音頻也在捕捉畫面的光影。

然而,音視頻的物理屬性天然互斥。視頻通常以每秒 24 幀的頻率離散存在,而音頻信號(hào)的密度則要高出幾個(gè)量級(jí)。為了防止兩者在生成過(guò)程中產(chǎn)生時(shí)間軸上的「漂移」,團(tuán)隊(duì)設(shè)計(jì)了Aligned ROPE(對(duì)齊旋轉(zhuǎn)位置嵌入)機(jī)制。通過(guò)精確的縮放比例映射,視頻與音頻的 Token 被巧妙地放置在了同一個(gè)物理時(shí)間尺度上,避免了音頻和視頻模態(tài)的天然不對(duì)齊。

多階段細(xì)粒度數(shù)據(jù)管線

成功的模型根基于架構(gòu),更離不開(kāi)數(shù)據(jù)。多階段的高質(zhì)量音視頻數(shù)據(jù)處理管線是 MOVA 成功規(guī)模化的保障。

為了把海量數(shù)據(jù)真正轉(zhuǎn)化為模型訓(xùn)練真正用得上的知識(shí),OpenMOSS 團(tuán)隊(duì)構(gòu)建了一套涵蓋三階段的精細(xì)化管線。



三階段的數(shù)據(jù)處理流程:第一階段,將原始數(shù)據(jù)預(yù)處理為固定長(zhǎng)度的視頻片段,分辨率為 720p,幀率為 24fps,時(shí)長(zhǎng)為 8.05 秒。第二階段,根據(jù)音頻質(zhì)量、視頻質(zhì)量以及音視頻同步性對(duì)這些片段進(jìn)行篩選,以獲得高質(zhì)量且同步的視頻片段。第三階段,分別使用音頻理解模型和視覺(jué)理解模型對(duì)視頻中的音頻和視覺(jué)信息進(jìn)行單模態(tài)標(biāo)注,并最終利用大語(yǔ)言模型將這些單模態(tài)描述進(jìn)行融合,形成細(xì)粒度音視頻描述。

相比于傳統(tǒng)的視頻數(shù)據(jù)處理管線,MOVA 提出的管線盡可能多地保留了原始音視頻數(shù)據(jù),減少了裁剪和丟棄,并且通過(guò)細(xì)粒度的標(biāo)注避免不同類型和質(zhì)量的數(shù)據(jù)之間互相影響,使得模型具備了復(fù)雜場(chǎng)景泛化的潛力。

多階段規(guī)?;呗?/strong>

音視頻生成的大規(guī)模訓(xùn)練是一項(xiàng)計(jì)算量非常大的任務(wù),在大規(guī)模訓(xùn)練過(guò)程中,MOVA 團(tuán)隊(duì)展現(xiàn)了敏銳的工程直覺(jué),設(shè)計(jì)了三階段由粗到細(xì)的訓(xùn)練策略。首先,為了平衡隨機(jī)初始化的 Bridge 模塊與已經(jīng)具備強(qiáng)大預(yù)訓(xùn)練先驗(yàn)的雙塔,他們采用了異構(gòu)學(xué)習(xí)率的策略。Bridge 模塊的學(xué)習(xí)率被設(shè)為兩倍于骨干塔,從而加快 Bridge 模塊的參數(shù)更新效率,取得比較快的初步收斂。



不同訓(xùn)練階段口型同步指標(biāo)隨著訓(xùn)練步數(shù)的持續(xù)下降趨勢(shì)

為了提升訓(xùn)練效率,MOVA 將訓(xùn)練過(guò)程分為了三個(gè)階段,360P 訓(xùn)練、360P 退火訓(xùn)練以及720P 訓(xùn)練,并持續(xù)監(jiān)控口型同步指標(biāo)隨著訓(xùn)練步數(shù)增長(zhǎng)的變化。更有趣的創(chuàng)新在于Dual Sigma Shift(雙模態(tài)噪聲偏移)。對(duì)于音視頻雙模態(tài)聯(lián)合去噪的模型,業(yè)界并沒(méi)有明確最優(yōu)的加噪方案,由于音頻和視頻模態(tài)天生的特性,使用同樣的噪聲偏移不一定能達(dá)到最優(yōu)的學(xué)習(xí)效果,可能會(huì)導(dǎo)致隱式的模態(tài)依賴?;谶@個(gè)猜測(cè)以及先前的研究工作,因此,MOVA 在第一階段訓(xùn)練中對(duì)于音頻和視頻模態(tài)使用了不同的 Sigma Shift 進(jìn)行加噪,希望避免可能出現(xiàn)的隱式模態(tài)依賴。

具體來(lái)說(shuō),一開(kāi)始的 Stage 1 用的是 360p 的低分辨率,本質(zhì)目標(biāo)不是追求畫面細(xì)節(jié),而是讓模型盡快學(xué)會(huì)「音頻和嘴型應(yīng)該怎么對(duì)齊」。因?yàn)?Bridge 是隨機(jī)初始化的,如果一開(kāi)始就追求高畫質(zhì),很容易學(xué)不穩(wěn)或者學(xué)偏。所以這里故意讓視頻端去更激進(jìn)地去噪,音頻端相對(duì)平滑,再配合比較高的文本 dropout,讓模型不得不依賴音頻和視覺(jué)之間的橋接關(guān)系來(lái)建立對(duì)齊能力。你可以從曲線看到,雖然一開(kāi)始誤差還有點(diǎn)波動(dòng),但整體 LSE-D 很快下降、LSE-C 明顯上升,說(shuō)明模型逐步抓住了嘴型同步的基本規(guī)律。

進(jìn)入 Stage 2 之后,分辨率仍然是 360p,但重點(diǎn)從「學(xué)會(huì)對(duì)齊」轉(zhuǎn)為「把對(duì)齊質(zhì)量拉高、穩(wěn)定下來(lái)」。這里把音頻和視頻的噪聲調(diào)度對(duì)齊起來(lái),本質(zhì)是在時(shí)間尺度上讓兩種模態(tài)更加同步,這樣跨模態(tài)注意力會(huì)更穩(wěn)定;同時(shí)降低文本 dropout,讓文本重新參與細(xì)化語(yǔ)義和細(xì)節(jié),而不是完全靠音視頻對(duì)齊硬學(xué);再通過(guò)響度歸一化避免 CFG 帶來(lái)的音量失真。你能看到在這一段,LSE-D 繼續(xù)緩慢下降,LSE-C 有一個(gè)明顯躍升,說(shuō)明模型不只是「能對(duì)上」,而是「對(duì)得更自信、更一致」。

最后的 Stage 3 才真正把分辨率拉到 720p,這一步更像是「高清重制」。此時(shí)模型已經(jīng)具備穩(wěn)定的跨模態(tài)對(duì)齊能力,所以可以安全地把算力用在更高分辨率和更細(xì)致的空間建模上,而不會(huì)破壞之前學(xué)到的嘴型同步結(jié)構(gòu)。為了應(yīng)對(duì)高分辨率帶來(lái)的顯存和收斂速度變化,引入了更細(xì)粒度的 checkpoint 和更激進(jìn)的并行優(yōu)化策略。從曲線看,這一階段 LSE-D 進(jìn)一步壓低并趨于平臺(tái),LSE-C 穩(wěn)定在較高水平,說(shuō)明性能已經(jīng)進(jìn)入收斂區(qū)間,更多是在做質(zhì)量的精修。

Agent 工作流

讓模型更好理解需求

擁有了高性能的基模,并不意味著能直接產(chǎn)出完美的視聽(tīng)大片。在 MOVA 的實(shí)際部署中,研發(fā)團(tuán)隊(duì)設(shè)計(jì)了一套 Agent 工作流,以適應(yīng)不同粒度和風(fēng)格的用戶輸入,最大程度激發(fā)模型能力。

三階段協(xié)同工作流

為了解決視頻生成中常見(jiàn)的「描述與視覺(jué)不一致」問(wèn)題 —— 即當(dāng)用戶文本與初始幀存在細(xì)微偏差時(shí),生成過(guò)程容易偏離首圖先驗(yàn)并誤解用戶意圖 ——MOVA 并未讓基模單獨(dú)承擔(dān)對(duì)齊壓力,而是設(shè)計(jì)了一套三階段生成流程,將理解、改寫與生成分工協(xié)作,顯著提升首幀一致性與指令遵循能力。



三階段 Agent 工作流,賦予 MOVA 產(chǎn)品級(jí)理解能力,更好的處理更加原始、多樣的用戶需求。

  1. 視覺(jué)解析:系統(tǒng)首先通過(guò) Qwen3-VL 對(duì)用戶提供的初始圖進(jìn)行結(jié)構(gòu)化解析,將畫面的色彩基調(diào)、構(gòu)圖信息、核心主體與文字元素抽取為可執(zhí)行的視覺(jué)約束。
  2. 提示詞重構(gòu):在視覺(jué)約束與用戶原始指令共同輸入下,借助通用 LLM(如 Gemini)進(jìn)行上下文示例驅(qū)動(dòng)的提示詞重寫,將需求轉(zhuǎn)譯為更貼近訓(xùn)練分布、具備動(dòng)態(tài)敘事的生成提示詞。
  3. 雙重條件生成:最后,MOVA 結(jié)合重寫后的提示詞和初始幀圖像進(jìn)行「雙重條件生成」,使視頻在產(chǎn)生運(yùn)動(dòng)與變化的同時(shí),最大化保持首幀圖的視覺(jué)風(fēng)格與關(guān)鍵元素,并更好地對(duì)齊用戶意圖。

這種多模型協(xié)同的思路,讓 MOVA 不僅僅是一個(gè)基模,更像是一套成熟的視聽(tīng)內(nèi)容生產(chǎn)系統(tǒng)。

除此之外,MOVA 也展現(xiàn)出扎實(shí)的純文本音視頻生成能力:即使不提供真實(shí)首幀,用戶僅需輸入文本,系統(tǒng)會(huì)自行傳入一張純色占位圖作為初始條件,并生成音畫同步、觀感統(tǒng)一的高質(zhì)量視頻,從而降低素材門檻,讓「零素材創(chuàng)作」成為可能。

雙重 CFG:在畫質(zhì)與對(duì)齊間尋找平衡

在推理邏輯的底層,OpenMOSS 團(tuán)隊(duì)引入了雙重 Classifier-Free Guidance (Dual CFG)公式。



在傳統(tǒng)的視頻生成中,CFG 往往只服務(wù)于「讓畫面更像描述」。但在音視頻聯(lián)合生成任務(wù)中,存在文本指令和模態(tài)橋接(Bridge)兩個(gè)控制源。如果盲目追求提示詞契合度,往往會(huì)犧牲音畫同步率;反之亦然。

MOVA 允許用戶根據(jù)場(chǎng)景調(diào)整這兩者的權(quán)重:

  • 在一般的生成任務(wù)中,側(cè)重文本引導(dǎo)以保證畫質(zhì)和意圖實(shí)現(xiàn)。
  • 在對(duì)話、演講等「口型敏感」場(chǎng)景下,則通過(guò)強(qiáng)化模態(tài)橋接的引導(dǎo)力,實(shí)現(xiàn)毫秒級(jí)的對(duì)齊精度。

針對(duì)高強(qiáng)度引導(dǎo)可能帶來(lái)的「音量爆炸」和波形畸變,MOVA 還內(nèi)置了 LUFS 響度歸一化算法,將輸出音頻強(qiáng)制修正至 -23 dB 的廣播級(jí)標(biāo)準(zhǔn),確保了即便在極端推理參數(shù)下,聲音依然清晰自然。

實(shí)驗(yàn)表現(xiàn)

打破閉源巨頭的技術(shù)壟斷

為了驗(yàn)證 MOVA 的視聽(tīng)對(duì)齊能力,OpenMOSS 團(tuán)隊(duì)將其與目前開(kāi)源社區(qū)最頂尖的兩個(gè)項(xiàng)目 LTX-2 和 Ovi,以及「WAN 2.1 + MMAudio」這一傳統(tǒng)級(jí)聯(lián)方案進(jìn)行了全方位對(duì)比。

最佳的口型精度



在 Verse-Bench 上的視聽(tīng)生成性能的量化比較。Audio 和 AV-Align 指標(biāo)是在所有子集上進(jìn)行評(píng)估的;Lip Sync 和 Speech 指標(biāo)是在 Verse-Bench set3 上進(jìn)行評(píng)估的;ASR Acc 是在團(tuán)隊(duì)提出的多說(shuō)話人子集上進(jìn)行評(píng)估的。加粗和下劃線的數(shù)值分別表示最佳和第二佳結(jié)果。

在最能拉開(kāi)差距的口型同步(Lip-sync)任務(wù)中,MOVA 展現(xiàn)出了明顯的優(yōu)勢(shì)。根據(jù) Lip Sync Error 指標(biāo),在開(kāi)啟 Dual CFG 模式后,MOVA-720p 的 LSE-D 得分為 7.094,LSE-C 得分為 7.452。其次,在反應(yīng)語(yǔ)音準(zhǔn)確度和說(shuō)話人切換準(zhǔn)確度的 cpCER 指標(biāo)上,MOVA 也取得了最佳的結(jié)果。

競(jìng)技場(chǎng)真實(shí)評(píng)估

考慮到當(dāng)前音視頻生成模型的客觀評(píng)價(jià)體系仍不夠完善,MOVA 引入了競(jìng)技場(chǎng)(Arena)人為主觀評(píng)測(cè)范式,包含了全球最新的開(kāi)源音視頻生成模型,累計(jì)獲得 5000 次有效投票并對(duì)結(jié)果進(jìn)行了系統(tǒng)統(tǒng)計(jì)。評(píng)測(cè)結(jié)果顯示,MOVA 生成內(nèi)容在整體偏好上保持領(lǐng)先:其在對(duì)戰(zhàn)中更頻繁獲得用戶選擇,ELO 評(píng)分達(dá)到了 1113.8(初始分 1000),顯著高于各基線模型;并穩(wěn)定保持超過(guò) 50% 的勝率,其中面對(duì) OVI 和級(jí)聯(lián)系統(tǒng)(WAN+MMAudio)的勝率更是超過(guò)了 70%。





開(kāi)源突圍與國(guó)產(chǎn)生態(tài)

補(bǔ)全多模態(tài)拼圖

MOVA 的出現(xiàn)對(duì)于音視頻生成 AI 方向有著重要意義。目前全球范圍內(nèi),處于第一梯隊(duì)、被大眾或行業(yè)認(rèn)可的模型,如我們耳熟能詳?shù)?Sora 2、Veo 3、Kling 2.6、Runway Gen-3 等,絕大多數(shù)是閉源的,它們甚至僅向小部分付費(fèi)用戶開(kāi)放;而在開(kāi)源的另一邊,Wan 2.1、HunyuanVideo 等模型著重于純視頻生成的質(zhì)量,支持端到端音視頻的較少。

MOVA 的出現(xiàn),改變了「領(lǐng)先技術(shù)不開(kāi)源」的現(xiàn)狀。

作為中國(guó)首個(gè)高性能開(kāi)源音視頻模型,MOVA 通過(guò)全棧開(kāi)源的方式,將訓(xùn)練代碼、推理代碼、模型權(quán)重以及微調(diào)代碼全部公開(kāi)。這意味著,開(kāi)發(fā)者不僅可以用 MOVA 生成視頻,也能深入底層,理解雙塔 Diffusion 架構(gòu)如何處理多模態(tài)數(shù)據(jù)的交互,甚至在此基礎(chǔ)上訓(xùn)練出垂直領(lǐng)域的專用模型。

MOVA 支持了 SGLang 等主流高性能推理框架。其 360p 版本更加面向于較低的硬件門檻,讓音視頻生成不再是僅限于 GPU 集群的奢侈游戲。在整個(gè)音視頻生成領(lǐng)域趨向于閉源的大環(huán)境下,MOVA 的出現(xiàn)是一次開(kāi)源社區(qū)的突圍,它補(bǔ)全了中國(guó)音視頻生成基模的開(kāi)源版圖,或許能夠驅(qū)使音視頻生成領(lǐng)域走向開(kāi)源共創(chuàng)。

在 MOVA 音視頻大模型的研發(fā)進(jìn)程中,昇騰AI提供了全棧算力支撐,助力MOVA完成了從數(shù)據(jù)標(biāo)注到預(yù)訓(xùn)練驗(yàn)證的關(guān)鍵環(huán)節(jié)。目前,MOVA 已成為昇騰首個(gè)支持的開(kāi)源多模態(tài)音視頻一體生成模型,微調(diào)與推理功能已同步上線社區(qū)。

MOVA 的發(fā)布,距離模思智能上一款引發(fā)行業(yè)熱議的語(yǔ)音識(shí)別模型 ——MOSS-Transcribe-Diarize 僅僅過(guò)去了 20 多天的時(shí)間。而 MOSS-Transcribe-Diarize,也在 MOVA 的快速迭代中發(fā)揮了關(guān)鍵作用。

如果說(shuō)上一次發(fā)布的語(yǔ)音識(shí)別模型讓 AI 學(xué)會(huì)了在嘈雜真實(shí)環(huán)境中「聽(tīng)懂」人類復(fù)雜對(duì)話的能力,那么今天發(fā)布的 MOVA,則宣告了他們讓 AI 具備了「創(chuàng)造」同步音視頻的能力。

從感知到生成,從單一模態(tài)到端到端多模態(tài),從理解到生成,環(huán)環(huán)相扣,死磕情境智能(Contextual Intelligence)每一個(gè)關(guān)鍵環(huán)節(jié)的模思智能正在快速構(gòu)建它的多模態(tài)基礎(chǔ)模型版圖。

研究、創(chuàng)新、與學(xué)生培養(yǎng)

MOVA 是上海創(chuàng)智學(xué)院與模思智能在研究、創(chuàng)新和學(xué)生培養(yǎng)模式上的一次成功實(shí)踐。上海創(chuàng)智學(xué)院「研創(chuàng)學(xué)」模式成功融合了學(xué)術(shù)研究的深度與產(chǎn)業(yè)落地的敏銳度,讓研究不再拘泥于簡(jiǎn)單場(chǎng)景,也同時(shí)深入到了工業(yè)場(chǎng)景,并從中培養(yǎng)一流 AI 人才。

在上海創(chuàng)智學(xué)院,學(xué)生被視為共同創(chuàng)新創(chuàng)業(yè)的合伙人,他們?cè)?MOVA 這種千卡級(jí)規(guī)模的工業(yè)級(jí)基模訓(xùn)練中承擔(dān)核心任務(wù)。這種陣地式培養(yǎng)讓學(xué)生在解決大規(guī)模訓(xùn)練 Infra 框架、高性能海量數(shù)據(jù)分布式處理框架、模型架構(gòu)從 0 到 1 設(shè)計(jì)等硬核工程問(wèn)題的過(guò)程中,積累了極具稀缺性的實(shí)戰(zhàn)經(jīng)驗(yàn)。

模思智能作為創(chuàng)新的出口,一方面為人才培養(yǎng)提供了驗(yàn)證大規(guī)模基模性能的閉環(huán)環(huán)境,并通過(guò)持續(xù)的技術(shù)迭代,將前沿理論轉(zhuǎn)化為可商用的生產(chǎn)力工具。在這一機(jī)制下,技術(shù)研發(fā)與商業(yè)價(jià)值形成了互為因果、相互加速的良性循環(huán)。

這一模式更深遠(yuǎn)的意義在于對(duì) AI 頂尖人才培養(yǎng)路徑的重塑,讓年輕大腦在技術(shù)演進(jìn)最前線接受真火淬煉,為未來(lái)的 AGI 競(jìng)爭(zhēng)儲(chǔ)備具備破局能力的澎湃力量。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
Here we go!羅馬諾:水晶宮將簽下狼隊(duì)前鋒拉森,總價(jià)5000萬(wàn)鎊

Here we go!羅馬諾:水晶宮將簽下狼隊(duì)前鋒拉森,總價(jià)5000萬(wàn)鎊

懂球帝
2026-01-29 20:08:46
410次開(kāi)房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開(kāi)房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報(bào)
2025-12-14 22:36:54
高市早苗通告全球:中國(guó)敢在臺(tái)海揍美國(guó),日本第一個(gè)不答應(yīng)?

高市早苗通告全球:中國(guó)敢在臺(tái)海揍美國(guó),日本第一個(gè)不答應(yīng)?

通文知史
2026-01-28 19:25:03
17戰(zhàn)16勝,勇士找到贏球秘訣!一人力壓庫(kù)里成最佳 5大奇兵更該夸

17戰(zhàn)16勝,勇士找到贏球秘訣!一人力壓庫(kù)里成最佳 5大奇兵更該夸

鍋?zhàn)踊@球
2026-01-29 14:22:42
鐵了心對(duì)付中國(guó)!暴跌58%,俄羅斯大幅加稅,中國(guó)汽車出口驟降

鐵了心對(duì)付中國(guó)!暴跌58%,俄羅斯大幅加稅,中國(guó)汽車出口驟降

通鑒史智
2026-01-29 19:55:43
倒查13年很多人將徹夜難眠

倒查13年很多人將徹夜難眠

輦轂
2026-01-29 15:26:41
白骨案受害者兒子再曝扎心細(xì)節(jié):當(dāng)年兇手被抓后又放 原因很心酸

白骨案受害者兒子再曝扎心細(xì)節(jié):當(dāng)年兇手被抓后又放 原因很心酸

有范又有料
2026-01-29 11:20:59
僅此1人 38歲前國(guó)腳2次入禁足名單 從5年到終身 曾獲贊“小梅西”

僅此1人 38歲前國(guó)腳2次入禁足名單 從5年到終身 曾獲贊“小梅西”

我愛(ài)英超
2026-01-29 18:29:20
牛鬼神蛇現(xiàn)原形!聶衛(wèi)平去世僅一天,私生活被扒,王剛郎平被牽連

牛鬼神蛇現(xiàn)原形!聶衛(wèi)平去世僅一天,私生活被扒,王剛郎平被牽連

春露秋霜
2026-01-16 06:27:20
蒙古為何成為韓國(guó)老男人的圣地?帶你去瞧瞧這個(gè)可悲的國(guó)家

蒙古為何成為韓國(guó)老男人的圣地?帶你去瞧瞧這個(gè)可悲的國(guó)家

呂醿極限手工
2025-12-29 18:33:00
辭去央視工作,嫁大18歲李鐵為妻,如今52歲張泉靈已走上另一條路

辭去央視工作,嫁大18歲李鐵為妻,如今52歲張泉靈已走上另一條路

白面書誏
2026-01-07 17:17:06
孟小冬晚年:我的兩任丈夫,梅蘭芳是偽君子,杜月笙是真“流氓”

孟小冬晚年:我的兩任丈夫,梅蘭芳是偽君子,杜月笙是真“流氓”

興趣知識(shí)
2026-01-29 01:03:35
劉強(qiáng)東爸爸回老家發(fā)年貨,隨手給老鄉(xiāng)餅干,有人給他塞信當(dāng)場(chǎng)瞪眼

劉強(qiáng)東爸爸回老家發(fā)年貨,隨手給老鄉(xiāng)餅干,有人給他塞信當(dāng)場(chǎng)瞪眼

寒士之言本尊
2026-01-28 18:11:33
香港迪士尼辱普通話事件:語(yǔ)言何辜,歧視當(dāng)止,園方冷處理更寒心

香港迪士尼辱普通話事件:語(yǔ)言何辜,歧視當(dāng)止,園方冷處理更寒心

行者聊官
2026-01-29 20:12:18
天津小伙接29歲離婚表嫂同居后續(xù):表嫂正臉照流出曝更多離婚內(nèi)幕

天津小伙接29歲離婚表嫂同居后續(xù):表嫂正臉照流出曝更多離婚內(nèi)幕

削桐作琴
2026-01-28 18:17:22
委內(nèi)瑞拉再生變!特朗普也沒(méi)想到,當(dāng)初留下這條命,會(huì)有這么一天

委內(nèi)瑞拉再生變!特朗普也沒(méi)想到,當(dāng)初留下這條命,會(huì)有這么一天

壹知眠羊
2026-01-29 20:03:39
42歲王寶強(qiáng)為配女友拼了!整容轉(zhuǎn)型當(dāng)偶像,金絲框白襯衫撞臉汪小菲

42歲王寶強(qiáng)為配女友拼了!整容轉(zhuǎn)型當(dāng)偶像,金絲框白襯衫撞臉汪小菲

八星人
2026-01-27 14:31:14
楊紫又“變臉”了,33歲還像18歲?她把自己整得沒(méi)人認(rèn)得出!

楊紫又“變臉”了,33歲還像18歲?她把自己整得沒(méi)人認(rèn)得出!

樂(lè)悠悠娛樂(lè)
2026-01-29 09:44:50
張?zhí)m不聽(tīng)勸,又曬孫子孫女,小玥兒太像大S,外套7000元 個(gè)子很高

張?zhí)m不聽(tīng)勸,又曬孫子孫女,小玥兒太像大S,外套7000元 個(gè)子很高

有范又有料
2026-01-27 15:42:10
突發(fā),58個(gè)化工龍頭利潤(rùn)暴增,34家增幅超100%,這個(gè)龍頭增長(zhǎng)1001%!

突發(fā),58個(gè)化工龍頭利潤(rùn)暴增,34家增幅超100%,這個(gè)龍頭增長(zhǎng)1001%!

股市皆大事
2026-01-29 08:34:14
2026-01-29 21:11:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12218文章數(shù) 142552關(guān)注度
往期回顧 全部

科技要聞

周亞輝的AI新賭局:國(guó)內(nèi)太卷 出海另起爐灶

頭條要聞

關(guān)鍵時(shí)刻伊朗接收俄羅斯裝備 中國(guó)代表就局勢(shì)發(fā)出警告

頭條要聞

關(guān)鍵時(shí)刻伊朗接收俄羅斯裝備 中國(guó)代表就局勢(shì)發(fā)出警告

體育要聞

詹姆斯哭了!騎士視頻致敬41歲超巨

娛樂(lè)要聞

曝金晨涉嫌交通肇事逃逸 本人尚未回應(yīng)

財(cái)經(jīng)要聞

崔東樹(shù):中國(guó)汽車未來(lái)年銷或達(dá)5000萬(wàn)輛

汽車要聞

車長(zhǎng)超5米還帶后輪轉(zhuǎn)向 比亞迪海豹08/海獅08將亮相

態(tài)度原創(chuàng)

手機(jī)
本地
旅游
家居
軍事航空

手機(jī)要聞

國(guó)補(bǔ)價(jià)1699元起!REDMI Turbo 5發(fā)布:天璣8500-Ultra+7560mAh大電池

本地新聞

云游中國(guó)|撥開(kāi)云霧,巫山每幀都是航拍大片

旅游要聞

西關(guān)文化體驗(yàn)又有新去處!廣州荔灣一非遺園區(qū)將開(kāi)業(yè)

家居要聞

極簡(jiǎn)輕奢 家的無(wú)限可能

軍事要聞

中國(guó)代表:支持伊朗國(guó)家穩(wěn)定 武力解決不了問(wèn)題

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版