国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

創(chuàng)智劉鵬飛、Sand.ai曹越,兩大AI青年學(xué)者團隊聯(lián)手開源音視頻模型

0
分享至



機器之心編輯部

開源多模態(tài)生成領(lǐng)域,迎來架構(gòu)級的底層突破。

視頻生成已成為當(dāng)前生成式 AI 最前沿的方向,但在音視頻聯(lián)合同步生成領(lǐng)域,開源界仍面臨三重局限:

  • 音視頻不同步:視頻和音頻往往語義對齊精度不足。
  • 架構(gòu)設(shè)計復(fù)雜:現(xiàn)有方案要么將音頻視為從屬信號,要么通過復(fù)制骨干網(wǎng)絡(luò)來處理音頻,參數(shù)成本翻倍且推理優(yōu)化困難。
  • 生成速度慢:現(xiàn)有的音視頻聯(lián)合生成模型往往因為模型架構(gòu)設(shè)計復(fù)雜、難以充分優(yōu)化,從而導(dǎo)致生成速度較慢,難以滿足交互式場景的需求。

今日,由上海創(chuàng)智學(xué)院(SII)生成式人工智能研究實驗室(GAIR)Sand.ai聯(lián)合研發(fā)的daVinci-MagiHuman正式開源發(fā)布,打破了開源界的這三重局限。

作為演繹級人像音視頻的開源基座模型,daVinci-MagiHuman 以 150 億參數(shù)的單流 Transformer 為核心,實現(xiàn)了文本、視頻、音頻在統(tǒng)一骨干網(wǎng)絡(luò)下的聯(lián)合建模,徹底告別了跨注意力和模態(tài)專屬分支。



  • 代碼倉庫:https://github.com/GAIR-NLP/daVinci-MagiHuman
  • 模型權(quán)重:https://huggingface.co/GAIR/daVinci-MagiHuman
  • 在線 Demo 體驗:https://huggingface.co/spaces/SII-GAIR/daVinci-MagiHuman

研發(fā)團隊介紹

這一成果由上海創(chuàng)智學(xué)院(SII)GAIR 實驗室 與 Sand.ai 共同完成。

上海創(chuàng)智學(xué)院是由頂尖大學(xué)、頭部企業(yè)和科研機構(gòu)聯(lián)合建設(shè)的新型人才培養(yǎng)機構(gòu);其 GAIR 實驗室由劉鵬飛博士領(lǐng)導(dǎo),聚焦生成式人工智能的前沿研究,涵蓋多模態(tài)視頻基座模型、文本大模型預(yù)訓(xùn)練及智能體構(gòu)建等方向。在多模態(tài)世界模型方面,實驗室已展開了系統(tǒng)性探索:從開源首個原生無擴散的多模態(tài)模型 Anole,到提出以生成圖像進行思考的新范式 Thinking with Generated Images,再到面向?qū)崟r交互場景的 LiveTalk,以及面向數(shù)字世界理解與模擬的數(shù)字基因工作,逐步構(gòu)建起從多模態(tài)生成、視覺推理到實時交互的完整研究鏈條。近期,該實驗室已產(chǎn)出 daVinci-MagiHuman、Data Darwinism、daVinci-Agency、daVinci-Dev 等一系列代表性工作。



Sand.ai 則是由馬爾獎得主曹越博士所創(chuàng)立,專注于開發(fā)視頻生成大模型,并以推動通用人工智能(AGI)為目標(biāo)。先后發(fā)布全球首個自回歸視頻生成模型 Magi-1,以及主打「AI 演員」表現(xiàn)力的 GAGA-1 模型,在物理規(guī)則連貫性和原生音畫同步等領(lǐng)域都取得了突破性成果。

演繹級人像音視頻的開源基座模型

daVinci-MagiHuman 是音視頻聯(lián)合生成的開源基座模型。與許多依賴多流結(jié)構(gòu)、跨注意力模塊或模態(tài)專用融合分支的方案不同,daVinci-MagiHuman 采用了更為簡潔的單流 Transformer 架構(gòu),以 150 億參數(shù)的統(tǒng)一骨干網(wǎng)絡(luò)聯(lián)合建模文本、視頻與音頻三種模態(tài),徹底告別跨注意力和模態(tài)專屬分支。這一設(shè)計不僅降低了系統(tǒng)復(fù)雜度,也讓訓(xùn)練與推理優(yōu)化更加直接、統(tǒng)一。

在能力上,daVinci-MagiHuman 尤其擅長以人物為中心的生成任務(wù),能夠生成富有表現(xiàn)力的面部表情與自然語音,并實現(xiàn)精確的音視頻同步,覆蓋語音與口型協(xié)調(diào)、表情驅(qū)動、動作表現(xiàn)等場景。同時,模型具備較強的多語言泛化能力,支持中文(普通話與粵語)、英文、日文、韓文、德文、法文等多種語言的音視頻生成。

在推理效率方面,daVinci-MagiHuman 結(jié)合單流骨干網(wǎng)絡(luò)、隱空間超分辨率與 Turbo VAE 解碼器,在單張 H100 上僅需 2 秒即可生成 5 秒 256p 視頻。在與 LTX-2.3、Ovi 1.1 的全面對比中,daVinci-MagiHuman 在成對人工評測中取得了70.5%的綜合勝率,在客觀基準(zhǔn)上同樣展現(xiàn)出領(lǐng)先表現(xiàn)。

核心技術(shù)揭秘:單流 Transformer 統(tǒng)管所有模態(tài)



為了解決上述挑戰(zhàn),daVinci-MagiHuman 選擇了一條更直接的路線:把文本、視頻、音頻統(tǒng)一放入同一個單流 Transformer 去噪網(wǎng)絡(luò)中,以純自注意力完成聯(lián)合建模。在這一基礎(chǔ)上,模型進一步采用了幾項關(guān)鍵設(shè)計:

  • Sandwich 式主干網(wǎng)絡(luò):在單流 Transformer 去噪網(wǎng)絡(luò)中,少數(shù)輸入層和輸出層保留模態(tài)相關(guān)參數(shù)化,主要的中間層主干網(wǎng)絡(luò)共享參數(shù),在模態(tài)特化與深層融合之間取得平衡。
  • 無顯式 timestep 條件注入:模型不再單獨引入 timestep 條件,而是直接從當(dāng)前噪聲隱變量中推斷去噪狀態(tài)。
  • Attention-Head 門控:為了提升訓(xùn)練時的數(shù)值穩(wěn)定性和提升 attention 的表達能力,研發(fā)團隊進一步在每個 attention head 的輸出引入了門控機制。
  • 統(tǒng)一條件接口:文本、參考音頻、參考視覺條件等都通過統(tǒng)一接口進入同一主干網(wǎng)絡(luò),而不是為不同任務(wù)單獨設(shè)計融合結(jié)構(gòu)。

面向效率的四層優(yōu)化

除了去噪網(wǎng)絡(luò)本身的先進設(shè)計,daVinci-MagiHuman 還圍繞推理效率進行了系統(tǒng)級優(yōu)化。

1.隱空間超分

為了避免從頭直接生成高分辨率視頻帶來的巨大開銷,研發(fā)團隊采用兩階段流水線:底模先在較低分辨率生成音視頻隱變量,再通過隱空間超分對視頻結(jié)果進行細化。整個超分過程直接在隱空間(latent space) 中完成,通過三線性插值、重新加噪和少量額外去噪步驟完成高分辨率細化,效果更好的同時避免額外的 VAE decode/encode 開銷。

值得一提的是,這一階段雖然主要服務(wù)于視頻細化,但音頻隱變量也會繼續(xù)作為輸入進入超分模型,并與視頻一起在同一主干中聯(lián)合建模。這種設(shè)計在底模分辨率較低、口型細節(jié)容易偏差的情況下尤其重要,有助于保持更好的唇形同步效果。

2.Turbo VAE Decoder

在視頻編解碼階段,模型保留 Wan2.2 VAE 作為編碼器,但在推理中使用更輕量的 Turbo VAE 解碼器替換原始解碼器,以降低視頻解碼延遲。由于解碼位于底模生成和超分流水線的關(guān)鍵路徑上,這一優(yōu)化對整體推理速度非常重要。

3.全圖編譯優(yōu)化

研發(fā)團隊進一步將自研的全圖 PyTorch 編譯器 MagiCompiler 集成到推理棧中。通過跨層算子融合、減少分布式通信開銷等方式,它能夠進一步提升推理吞吐與執(zhí)行效率,并在 H100 上帶來了約 1.2 倍的加速。

4.模型蒸餾

研發(fā)團隊還使用 DMD-2 技術(shù)對去噪網(wǎng)絡(luò)進行蒸餾,從而實現(xiàn)了在推理階段僅去噪 8 步就可以獲得良好的音視頻生成效果。

性能實測:全面對標(biāo)開源 SOTA

先看實測效果:













研發(fā)團隊針對 LTX-2.3、Ovi 和 MoVA 等最具代表性的開源模型進行了系統(tǒng)性測試。

主觀評測:人工盲評

研發(fā)團隊構(gòu)建了 100 條樣本的內(nèi)部評測數(shù)據(jù)集,覆蓋圖文生音視頻任務(wù),由評審員從多個維度對各模型的生成結(jié)果進行盲評打分。



客觀評測:VideoScore2 基準(zhǔn)和 TalkVid-Bench 對比

VideoScore2 主要用來評測視頻生成質(zhì)量,其采用的指標(biāo)包括視頻生成質(zhì)量(Visual Quality)、視頻 - 文本一致性 (Text Alignment) 和物理一致性(Physical Consistency)。TalkVid-Bench 則主要用來衡量音頻生成質(zhì)量,其指標(biāo)主要用詞錯誤率(Word Error Rate, WER) 來衡量。 表 2 展示了客觀指標(biāo)的評測結(jié)果,daVinci-MagiHuman 在視覺質(zhì)量、視頻 - 文本一致性都領(lǐng)先于 LTX2.3,在物理一致性上與 LTX2.3 大致相當(dāng),優(yōu)于 OVI 1.1。在音頻質(zhì)量上,daVinci-MagiHuman 則遠優(yōu)于 LTX2.3 與 OVI 1.1。



結(jié)語與未來展望

此次 daVinci-MagiHuman 的模型棧完整開源,包括生成模型、超分模型以及推理代碼。這一發(fā)布有望能夠為開源社區(qū)提供一個更簡單、更可擴展、也更易于優(yōu)化的音視頻生成基礎(chǔ)系統(tǒng),持續(xù)降低音畫同出大模型的開發(fā)與部署門檻,為 AI 社區(qū)貢獻真正 “開箱即用” 的性能紅利。

文中視頻鏈接:https://mp.weixin.qq.com/s/4t9H829uYt6QQOSK8oXlqg

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“中園石化”被立案調(diào)查

“中園石化”被立案調(diào)查

每日經(jīng)濟新聞
2026-03-25 11:13:18
何超瓊沒想到,倒貼14億嫁東北小伙的何超盈,如今竟給她狠狠長臉

何超瓊沒想到,倒貼14億嫁東北小伙的何超盈,如今竟給她狠狠長臉

往史過眼云煙
2026-03-26 20:33:55
猝死三件套:熬夜、咖啡、跑步——人生最后一課

猝死三件套:熬夜、咖啡、跑步——人生最后一課

水滴的聲音
2026-03-25 08:36:43
張雪峰湯建魏華等猝死引起重視,多地衛(wèi)健委推專題普及心源性疾病知識,國家衛(wèi)健委官微詳解:為何年輕男性發(fā)病風(fēng)險高

張雪峰湯建魏華等猝死引起重視,多地衛(wèi)健委推專題普及心源性疾病知識,國家衛(wèi)健委官微詳解:為何年輕男性發(fā)病風(fēng)險高

極目新聞
2026-03-26 20:56:20
女子空置房2個月用水1961噸,費用近1.2萬元,“水管封死水表仍走字”,水務(wù)公司拒回應(yīng)

女子空置房2個月用水1961噸,費用近1.2萬元,“水管封死水表仍走字”,水務(wù)公司拒回應(yīng)

觀威海
2026-03-26 10:39:05
“我用房子貸的款卻進了他們口袋”,佛山一男子稱遭遇套路貸;警方立案偵查,3人被批捕后取保候?qū)?>
    </a>
        <h3>
      <a href=大風(fēng)新聞
2026-03-26 16:56:40
小雨!中雨!局地大雨或暴雨+雷暴大風(fēng)冰雹!未來7天廣西有3輪降雨......

小雨!中雨!局地大雨或暴雨+雷暴大風(fēng)冰雹!未來7天廣西有3輪降雨......

廣西氣象
2026-03-26 19:34:30
張雪峰去世事件升級!很多人連夜下單AED,有店鋪一天銷售100多臺

張雪峰去世事件升級!很多人連夜下單AED,有店鋪一天銷售100多臺

火山詩話
2026-03-26 07:32:38
A股:今天收3889.08,尾盤已明確,做好準(zhǔn)備,明天周五,要變盤了

A股:今天收3889.08,尾盤已明確,做好準(zhǔn)備,明天周五,要變盤了

虎哥閑聊
2026-03-26 15:09:13
“鳥面媽媽”王小妞:不聽勸阻生二胎,兒子遺傳其外貌,現(xiàn)如何

“鳥面媽媽”王小妞:不聽勸阻生二胎,兒子遺傳其外貌,現(xiàn)如何

觀察者海風(fēng)
2026-03-24 23:04:30
越扒越猛!釋永信在少林寺有多爽,你根本想不到!終于落到這下場

越扒越猛!釋永信在少林寺有多爽,你根本想不到!終于落到這下場

林輕吟
2026-03-26 07:34:21
伊媒:伊朗若遭美國地面入侵將打擊曼德海峽

伊媒:伊朗若遭美國地面入侵將打擊曼德海峽

參考消息
2026-03-26 11:02:08
伊朗外長:霍爾木茲海峽只對敵人關(guān)閉 中國、俄羅斯等國船只都安全通過了

伊朗外長:霍爾木茲海峽只對敵人關(guān)閉 中國、俄羅斯等國船只都安全通過了

閃電新聞
2026-03-26 10:48:55
A股“分紅王”來了,擬10股派70元

A股“分紅王”來了,擬10股派70元

數(shù)據(jù)寶
2026-03-26 22:16:46
52歲北京炒股冠軍罕見發(fā)聲:如果手里有10萬,建議死啃美人肩戰(zhàn)法

52歲北京炒股冠軍罕見發(fā)聲:如果手里有10萬,建議死啃美人肩戰(zhàn)法

股經(jīng)縱橫談
2026-03-16 21:56:42
Manus終于喝下自己藏好的毒

Manus終于喝下自己藏好的毒

藍媒匯財經(jīng)plus
2026-03-25 21:27:26
馬斯克最新回復(fù)來了

馬斯克最新回復(fù)來了

新浪財經(jīng)
2026-03-26 19:29:33
為什么閑魚很多賣家只支持自提?網(wǎng)友:等你碰上到手刀的就老實了

為什么閑魚很多賣家只支持自提?網(wǎng)友:等你碰上到手刀的就老實了

另子維愛讀史
2026-03-22 22:34:48
“橄欖綠”今年爆火,太顯白了!

“橄欖綠”今年爆火,太顯白了!

超級數(shù)學(xué)建模
2026-03-25 22:39:01
“抱抱我,不炸了...” 極端分子去炸醫(yī)院,竟被路人大哥嘴炮感化,當(dāng)場自首?!

“抱抱我,不炸了...” 極端分子去炸醫(yī)院,竟被路人大哥嘴炮感化,當(dāng)場自首?!

英國那些事兒
2026-03-25 23:14:43
2026-03-26 23:48:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12608文章數(shù) 142594關(guān)注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
游戲
家居
公開課
軍事航空

教育要聞

天天學(xué)習(xí)|走進課堂的“大朋友”

"死亡擱淺"外骨骼來了!小島工作室轉(zhuǎn)發(fā)聯(lián)名 原度拉滿

家居要聞

傍海而居 靜觀蝴蝶海

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設(shè)施

無障礙瀏覽 進入關(guān)懷版