国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

字節(jié) Seedance 1.5 pro,如何實(shí)現(xiàn)「音畫同出」:中學(xué)生能看懂

0
分享至

字節(jié)今天發(fā)布了 Seedance 1.5 pro,原生音視頻聯(lián)合生成
劃重點(diǎn) 視頻、聲音同時生成,而非先出視頻、再配音對口型


本文里,我將以盡可能易懂的方式,講講其原理
保證中學(xué)生能看懂

如果你需要更專業(yè)、細(xì)致的了解,可以看這個技術(shù)報(bào)告
https://arxiv.org/abs/2512.13507v2


Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

先看兩個案例,感受下這個技術(shù)

案例一:火鍋店,三代人,三種口音

重慶火鍋店包間,三人圍坐吃火鍋,熱氣騰騰。畫面左側(cè)的老人用重慶話說「這個毛肚七上八下,剛剛好」,說完夾起毛肚。畫面中間的中年男人給右側(cè)的年輕人夾菜,用普通話說「慢點(diǎn)吃,小心燙」。年輕人吃完后用上海話說「爺爺,辣是辣,不過老靈額」。老人聽完哈哈大笑拍桌子,三人相視而笑。全程緩慢推鏡,背景是火鍋沸騰聲和餐廳環(huán)境音

案例二:審訊室,甩鏡,微表情

女人坐在昏暗的審訊桌前,神情嚴(yán)肅,不屑的翻看著資料,女人說:“前面你說了這么多,聽起來天衣無縫的?!闭f完后,鏡頭向左邊方向快速甩鏡。此時畫外音女偵探有力量的語調(diào)快速問”你是AI吧?!“特寫男人的面部,圍繞男人緩慢旋轉(zhuǎn)的推鏡頭,推鏡至五官,男人表情緊張,眼睛微微睜大,流露出一絲絲輕微的不安感。男人聽完單手摘下眼鏡,低下頭,停頓一下,抬頭皺眉,然后從抿嘴轉(zhuǎn)為嘴角微笑的表情,輕微咽一下口水,隨后微笑著問:”你怎么知道?“

Seedance 1.5 pro

12 月 18 日,火山的 FORCE 原動力大會上,發(fā)布了豆包視頻生成模型 Seedance 1.5 pro,核心賣點(diǎn)是「原生音視頻聯(lián)合生成

這個模型,能做四件事:

  • ? 文本生成音視頻(T2VA) :你寫一段描述,它生成帶聲音的視頻

  • ? 圖片生成音視頻(I2VA) :你給一張圖,它生成帶聲音的視頻

  • ? 文本生成視頻(T2V) :傳統(tǒng)的文生視頻,不帶聲音

  • ? 圖片生成視頻(I2V) :傳統(tǒng)的圖生視頻,不帶聲音

四種能力,同一個模型

之前一些音畫同出,是「縫合怪」:模型先生成畫面,然后再來配音

問題在于,視頻已經(jīng)定型了,口型已經(jīng)固定了,配音只能盡量去對。對不上的地方就會穿幫,行業(yè)里管這個叫「腹語效應(yīng)」

Seedance 1.5 pro 則做到了音視頻同時生成,兩邊持續(xù)交換信息

視頻流知道現(xiàn)在該說什么話,音頻流知道現(xiàn)在畫面是什么表情


音視頻同時生成 架構(gòu)是怎樣的

Seedance 1.5 pro 用的是雙分支 Diffusion Transformer 架構(gòu)

Diffusion Transformer

Diffusion Transformer 這是當(dāng)前視頻生成的主流架構(gòu)
Sora 用的是這個,Kling 用的是這個,Veo 也是

方式大概是這樣,從一張全是噪點(diǎn)的圖開始,一步一步去掉噪點(diǎn),最后得到清晰的視頻

每去一步噪,模型會參考你的文本描述,決定「往哪個方向去」


Diffusion Transformer 再說什么是「雙分支」

傳統(tǒng)的視頻生成模型,只有一個分支,只管生成畫面
Seedance 1.5 pro 有兩個分支,一個負(fù)責(zé)視頻,一個負(fù)責(zé)音頻,兩條線同時跑

那么,兩條線怎么協(xié)作?
答:中間有一個「跨模態(tài)聯(lián)合模塊」,讓兩個分支在生成過程中持續(xù)交換信息

視頻分支在去噪的時候,會收到音頻分支的信號:
現(xiàn)在這個時間點(diǎn),音頻那邊在生成一句話,這句話的口型是這樣的

音頻分支在生成的時候,也會收到視頻分支的信號:
現(xiàn)在畫面里的人嘴張開了,你這邊得出聲;畫面里的人嘴閉上了,你這邊得停

通過這種方式,生成出來的視頻和音頻,時間上是同步的,語義上是一致的


架構(gòu)示意圖

技術(shù)基礎(chǔ)是 MMDiT(Multimodal Diffusion Transformer)
Stable Diffusion 3 用的就是這個架構(gòu)
Seed 團(tuán)隊(duì)在這個基礎(chǔ)上加了音頻分支和跨模態(tài)交互機(jī)制

訓(xùn)練數(shù)據(jù)怎么搞

模型能力的上限,很大程度上是數(shù)據(jù)決定的。Seedance 1.5 pro 在數(shù)據(jù)處理上做了三件事

第一件事:篩數(shù)據(jù)

網(wǎng)上能爬到的視頻很多,但大部分不能直接拿來訓(xùn)練

技術(shù)報(bào)告里說,篩選管線優(yōu)先保證三件事:音視頻一致性、動作表現(xiàn)力、以及后面會提到的課程式調(diào)度

舉個例子:

  • ? 音視頻同步 :畫面里的人在說話,但口型對不上的;畫面里有動作,但沒有對應(yīng)聲音的,篩掉

  • ? 表現(xiàn)力 :動作幅度不夠、表情變化不豐富的,篩掉

篩完幾輪,數(shù)據(jù)量會大幅減少,但剩下的都是能用的


數(shù)據(jù)篩選

第二件事:打標(biāo)簽

每條數(shù)據(jù)都要告訴模型「這里面有什么」

視頻的標(biāo)簽包括:畫面里有幾個人、在做什么動作、互相之間有什么互動鏡頭怎么運(yùn)動


給模型數(shù)據(jù),打上標(biāo)簽

音頻的標(biāo)簽分兩類:

  1. 1. 人聲標(biāo)簽 ——這段聲音是說話、還是唱歌、還是笑聲嘆氣。如果是說話,說的什么語言、什么口音、什么情緒。比如這是「普通話,女性,開心」,那是「四川話,男性,疲憊」

  2. 2. 非人聲標(biāo)簽 ——這段聲音是環(huán)境音還是音樂。環(huán)境音的話,聲源是什么:車流聲、雨聲、鍵盤敲擊聲。音樂的話,什么流派、什么節(jié)奏

這套標(biāo)簽打得很細(xì),技術(shù)報(bào)告里說是「professional-grade descriptions」,專業(yè)級的描述


技術(shù)報(bào)告的原內(nèi)容

第三件事:安排訓(xùn)練順序

數(shù)據(jù)弄好后,拿去訓(xùn)練,也是分先后順序的
技術(shù)報(bào)告里叫「curriculum-based data scheduling」,課程式數(shù)據(jù)調(diào)度

具體怎么安排的,報(bào)告沒有展開。但課程學(xué)習(xí)的一種做法是:
先讓模型學(xué)簡單的:一個人、正面鏡頭、說話清晰、口型明顯
學(xué)會了,再喂難一點(diǎn)的:兩三個人、有互動、有鏡頭切換
最后喂最難的:多人多語言、復(fù)雜鏡頭調(diào)度、微表情遞進(jìn)


課程式數(shù)據(jù)調(diào)度 訓(xùn)練步驟

Seedance 1.5 pro 的訓(xùn)練分三步走:預(yù)訓(xùn)練、SFT、RLHF


訓(xùn)練流程 第一步:預(yù)訓(xùn)練

這一步,是讓模型「能生成」

這一步用的數(shù)據(jù)量大、種類多。既有純視頻,也有純音頻,也有音視頻一起的。讓模型把視頻生成和音頻生成的基本功都學(xué)會

這一步結(jié)束,模型已經(jīng)能根據(jù)文本描述生成帶聲音的視頻了,但質(zhì)量不穩(wěn)定,有時候好有時候差

第二步:SFT(監(jiān)督微調(diào))

這一步,是讓模型「生成得好」

這一步用的數(shù)據(jù)量小,但質(zhì)量高。每一條都是精挑細(xì)選的:畫面精美、音頻清晰、口型完全對齊、情緒表達(dá)到位

讓模型學(xué)習(xí)這些高質(zhì)量樣本,知道「好的生成結(jié)果長什么樣」

第三步:RLHF(人類反饋強(qiáng)化學(xué)習(xí))

這一步,是讓模型「符合審美」

RLHF 的邏輯是:讓人來評判模型的生成結(jié)果,告訴模型「這個好、那個不好」,模型根據(jù)反饋調(diào)整自己

圍繞這個,Seed 團(tuán)隊(duì)訓(xùn)練了一個「獎勵模型」,這個獎勵模型學(xué)會了人類的評判標(biāo)準(zhǔn),可以自動給生成結(jié)果打分

打分有三個維度:
動作質(zhì)量:動作流不流暢、物理上合不合理、有沒有穿模(比如手穿過桌子)
視覺美學(xué):畫面好不好看、構(gòu)圖合不合理、色彩協(xié)不協(xié)調(diào)
音頻保真度:聲音清不清晰、有沒有雜音、情緒表達(dá)對不對

模型每生成一個結(jié)果,獎勵模型從這三個維度打分。分?jǐn)?shù)高的,說明方向?qū)α?,繼續(xù)往這個方向走;分?jǐn)?shù)低的,說明方向錯了,調(diào)整策略

這一步的訓(xùn)練量很大,Seed 團(tuán)隊(duì)專門優(yōu)化了訓(xùn)練管線,速度提升了近 3 倍。同樣的時間,能讓模型學(xué)到更多反饋

推理優(yōu)化

視頻生成,通常很慢,生成一個 10 秒的視頻,可能要算好幾分鐘

因?yàn)橐徊揭徊饺ピ耄恳徊蕉际谴罅坑?jì)算

Seedance 1.5 pro 把推理速度提升了 10 倍以上
怎么做到的?三層優(yōu)化


三層優(yōu)化 第一層:蒸餾

原本模型生成一個視頻可能要 100 步去噪,太慢了

蒸餾的做法是:訓(xùn)練一個「學(xué)生模型」,讓它模仿「老師模型」的行為。老師用 100 步才能做到的事,學(xué)生可能 10 步就能做到差不多的效果

步數(shù)少了,計(jì)算量就少了,速度就快了

Seed 團(tuán)隊(duì)用的是多階段蒸餾,分好幾輪來壓縮步數(shù),每一輪都盡量保證質(zhì)量不掉

第二層:量化

模型參數(shù)通常用 32 位浮點(diǎn)數(shù)存儲,精度高,但計(jì)算量大

量化就是把精度降下來,32 位變 16 位,甚至 8 位。精度低了,計(jì)算量就小了,速度就快了

當(dāng)然不能降太多,否則生成質(zhì)量會明顯下滑。Seed 團(tuán)隊(duì)找了一個平衡點(diǎn):精度降到一定程度,速度提升明顯,質(zhì)量基本不掉

第三層:并行

視頻生成的計(jì)算量很大,一個 GPU 算不過來

并行就是把任務(wù)拆開,分給多個 GPU 同時干活,最后把結(jié)果合起來

三層優(yōu)化疊加,端到端加速超過 10 倍

評測對比

Seed 團(tuán)隊(duì)建了一套評測基準(zhǔn)叫 SeedVideoBench 1.5
請專業(yè)電影導(dǎo)演定標(biāo)準(zhǔn),請電影制作、攝影、設(shè)計(jì)領(lǐng)域的專家做人工評測

與各類模型進(jìn)行對比:Kling 2.5Kling 2.6、Veo 3.1Sora 2、Seedance 1.0 Pro


評測數(shù)據(jù)

具體的評測信息如下

視頻能力

評測維度:動作質(zhì)量、指令跟隨、視覺美學(xué)

T2V 任務(wù)(文本生成視頻):


T2V 視頻評測


  • ? 指令跟隨:Seedance 1.5 pro 領(lǐng)先

  • ? 視覺美學(xué)和動作質(zhì)量:和 Kling 2.6、Veo 3.1 有競爭力

I2V 任務(wù)(圖片生成視頻):

  • ? 各項(xiàng)指標(biāo)穩(wěn)定,比上一代 Seedance 1.0 Pro 有明顯提升

I2V 視頻評測

音頻能力

評測維度:音頻指令跟隨、音頻質(zhì)量、音視頻同步音頻表現(xiàn)力

和 Kling 2.6、Veo 3.1、Sora 2 對比:

中文語境上,Seedance 1.5 pro 在中文對話、方言、獨(dú)白的生成上,準(zhǔn)確度高于 Veo 3.1?;緵]有吞字、發(fā)音錯誤

口型匹配上,Seedance 1.5 pro 能正確對應(yīng)說話角色的數(shù)量和身份。在這個維度上超過 Veo 3.1 和 Kling 2.6

音頻表現(xiàn)力上,Sora 2 在情緒表達(dá)上更「夸張」,Seedance 1.5 pro 更「克制」。技術(shù)報(bào)告的原話是「able to achieve consistent emotional alignment with visual content while avoiding over-exaggeration」——在需要穩(wěn)定調(diào)性控制的專業(yè)制作場景更合適


T2V 音頻評測 I2V 音頻評測 即將上線:Draft 樣片功能

AI 生成視頻有個老問題:抽盲盒

為了一個理想的鏡頭,可能要反復(fù)試很多次
每次都是全分辨率生成,等半天,算力消耗大

Draft 樣片功能解決這個問題

  • ? 第一步,先生成低分辨率的預(yù)覽。速度快,成本低

  • ? 第二步,看預(yù)覽。不滿意就調(diào) prompt,重新生成預(yù)覽

  • ? 第三步,預(yù)覽滿意了,再生成高清成片

預(yù)覽和成片之間,是高保真一致的
預(yù)覽里的畫面構(gòu)圖、人物動作、口型節(jié)奏,成片里都會保留
不會出現(xiàn)「預(yù)覽挺好,成片變樣」的情況

官方數(shù)據(jù):創(chuàng)作效率提升 50%,推理成本最高節(jié)約 60%


Draft 樣片功能 以及


這個模型,已上線了,帶來了原生的「有聲片」,并且更符合本土需求,可通過多渠道進(jìn)行訪問

個人/企業(yè)用戶
可在即夢 AI、豆包 APP、火山方舟體驗(yàn)中心體驗(yàn)


https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seedance-1-5-pro-251215&projectName=default&tab=GenVideo

API 用戶
可在 12 月 23 日起可在火山引擎使用 API,模型名稱: Doubao-Seedance-1.5-pro

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
廣東17歲男子騎電動車時撞上馬路中間電線桿,知情人透露:男子顱腦出血仍在ICU昏迷,同一路段已發(fā)多起事故

廣東17歲男子騎電動車時撞上馬路中間電線桿,知情人透露:男子顱腦出血仍在ICU昏迷,同一路段已發(fā)多起事故

大風(fēng)新聞
2025-12-26 11:51:03
左小青,好好的一張臉蛋,非得要搞一下,沒有了那種韻味了!

左小青,好好的一張臉蛋,非得要搞一下,沒有了那種韻味了!

徐幫陽
2025-12-25 20:50:45
沒收中國資產(chǎn),美國開始明搶?中國只需三步走,特朗普不得不退讓

沒收中國資產(chǎn),美國開始明搶?中國只需三步走,特朗普不得不退讓

博覽歷史
2025-12-26 11:14:20
文班19+11馬刺三殺雷霆豪取8連勝 福克斯29分亞歷山大22分

文班19+11馬刺三殺雷霆豪取8連勝 福克斯29分亞歷山大22分

醉臥浮生
2025-12-26 06:05:28
上海情侶在塞班島“激情”結(jié)了個婚?回國想分手,傻眼了:需訴訟離婚

上海情侶在塞班島“激情”結(jié)了個婚?回國想分手,傻眼了:需訴訟離婚

環(huán)球網(wǎng)資訊
2025-12-26 11:05:05
泰防長怒批某國“偽中立”:只逼泰國?;穑瑓s偏袒柬埔寨

泰防長怒批某國“偽中立”:只逼泰國?;?,卻偏袒柬埔寨

胡嚴(yán)亂語
2025-12-25 15:15:35
2026第一場雪!大范圍影響江蘇!

2026第一場雪!大范圍影響江蘇!

最江陰
2025-12-26 11:35:06
離譜!唐僧師徒直播取經(jīng),直播間擠爆上萬人,化緣直接日入過萬!

離譜!唐僧師徒直播取經(jīng),直播間擠爆上萬人,化緣直接日入過萬!

可樂談情感
2025-12-26 00:54:17
絕不回頭!洪都拉斯女總統(tǒng)霸氣放話:明年準(zhǔn)時交權(quán),不給美國擦鞋

絕不回頭!洪都拉斯女總統(tǒng)霸氣放話:明年準(zhǔn)時交權(quán),不給美國擦鞋

知法而形
2025-12-26 09:35:18
生死時速:剎車失靈后他在高速上狂飆490公里,直到油盡車停

生死時速:剎車失靈后他在高速上狂飆490公里,直到油盡車停

重案組37號
2025-12-26 11:15:05
彭珮云同志遺體在京火化

彭珮云同志遺體在京火化

新京報(bào)
2025-12-26 12:24:02
澤連斯基圣誕致辭詛咒普京,克宮怒斥:粗魯無禮

澤連斯基圣誕致辭詛咒普京,克宮怒斥:粗魯無禮

揚(yáng)子晚報(bào)
2025-12-26 12:31:51
劉雪峰故意殺人案再審宣判:檢辯雙方均認(rèn)為無罪,吉林高院維持有罪原判

劉雪峰故意殺人案再審宣判:檢辯雙方均認(rèn)為無罪,吉林高院維持有罪原判

澎湃新聞
2025-12-26 11:48:27
廣州市委常委、常務(wù)副市長、黃埔區(qū)委書記陳杰任江門市委書記

廣州市委常委、常務(wù)副市長、黃埔區(qū)委書記陳杰任江門市委書記

澎湃新聞
2025-12-26 11:38:27
南京博物館事件后,全國博物館紛紛關(guān)閉:施工關(guān)閉、臨時關(guān)閉

南京博物館事件后,全國博物館紛紛關(guān)閉:施工關(guān)閉、臨時關(guān)閉

爆角追蹤
2025-12-26 11:02:32
盧偉冰口誤報(bào)錯小米17 Ultra徠卡版價格

盧偉冰口誤報(bào)錯小米17 Ultra徠卡版價格

界面新聞
2025-12-26 10:46:14
美軍玩砸了,后悔搶中國原油,新令開啟“熬鷹游戲”,看誰先眨眼

美軍玩砸了,后悔搶中國原油,新令開啟“熬鷹游戲”,看誰先眨眼

野史日記
2025-12-26 08:42:08
南博前院長被帶走不到12小時,令人"厭惡"的事發(fā)生了,不止一件

南博前院長被帶走不到12小時,令人"厭惡"的事發(fā)生了,不止一件

社會日日鮮
2025-12-26 11:09:21
川名麻耶承認(rèn):我就是孫正義女兒!

川名麻耶承認(rèn):我就是孫正義女兒!

每日經(jīng)濟(jì)新聞
2025-12-26 00:29:06
一車企海報(bào)被指“用粵語不雅詞匯”引爭議,廣東網(wǎng)友:有被冒犯到,數(shù)字“7”因發(fā)音問題,在日常交流中需謹(jǐn)慎避諱;當(dāng)前爭議海報(bào)已被撤換

一車企海報(bào)被指“用粵語不雅詞匯”引爭議,廣東網(wǎng)友:有被冒犯到,數(shù)字“7”因發(fā)音問題,在日常交流中需謹(jǐn)慎避諱;當(dāng)前爭議海報(bào)已被撤換

揚(yáng)子晚報(bào)
2025-12-25 18:00:21
2025-12-26 14:15:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
224文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

澤連斯基圣誕致辭疑詛咒普京"他該去死" 克宮回應(yīng)

頭條要聞

澤連斯基圣誕致辭疑詛咒普京"他該去死" 克宮回應(yīng)

體育要聞

約基奇有多喜歡馬?

娛樂要聞

朱孝天深夜道歉,只字未提五月天阿信

財(cái)經(jīng)要聞

資管江湖的人事“寒冬”

汽車要聞

速來!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

房產(chǎn)
家居
藝術(shù)
親子
公開課

房產(chǎn)要聞

太猛了!單月新增企業(yè)4.1萬家,又一波巨頭涌向海南!

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

藝術(shù)要聞

William Dyce:19世紀(jì)蘇格蘭重要的畫家

親子要聞

2026年,幼兒園關(guān)停潮已經(jīng)來了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版