国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

太猛了!終于有人來管管 AI 視頻的語音和表演了:GAGA AI 實測

0
分享至

提前試了一下曹越(Sand.ai)那邊新發(fā)布的專注于人物對話表演的模型 GAGA-1(gaga.art).

應(yīng)該是目前涉及到人物細(xì)微表演對話的最強(qiáng)模型了,在表演這部分甚至可以超過 Sora2。

本來就是隨便試一下,沒想到他這么猛,先來看一個簡要介紹和我測試的混剪:

  • 聲音和畫面一起生成,即使是側(cè)面的唇形同步都非常到位,語音音效都有
  • 面部表情和聲音聲調(diào)配合的非常好,表演細(xì)膩不夸張,提示遵循也很好
  • 支持雙人的場景演繹,可以很好的理解提示詞中不同人物的語音
  • 支持多語言輸出,我測試完之后發(fā)現(xiàn)甚至可以多語言混合輸出
  • 目前支持免費(fèi)體驗,支持圖生、單次生成最長 10 秒,分辨率為 720P,但是細(xì)節(jié)豐富

首先是一些基礎(chǔ)的測試,比如讓他介紹一下自己。

先平靜微笑,說:“嗨,我在測試 Gaga AI?!痹僬J(rèn)真一點(diǎn)說:“你覺得它表現(xiàn)怎么樣?!?

可以看到在說后面那句話的時候,女生的面部表情非常的細(xì)膩,尤其是看向鏡頭的那個眼神、挑眉和說話時候的點(diǎn)頭動作,太真實了,這種面部細(xì)節(jié)我從離開沒有在其他模型上見到過。

本來我沒抱啥希望的,但是跑完這個測試我就發(fā)現(xiàn)不對,這玩意好像有點(diǎn)強(qiáng),而且這些細(xì)微表情你是不太好在提示詞里面寫的,只能靠模型自己的智能。

然后來個我們常見的順口溜來看看嘴型和語音的表現(xiàn)。

清晰口型,節(jié)奏均勻:“八百標(biāo)兵奔北坡,炮兵并排北邊跑。”(說完輕呼一口氣)

這里可以看到語音和整個面部的配合是非常好的,同時手部動作也在搖晃他的扇子,讓整個畫面不至于太單調(diào)。

后面?zhèn)€嘆氣的處理太好了,再一次體現(xiàn)了這個模型在表演層面已經(jīng)有了一些泛化的智能,我并沒有說嘆氣的表情,他自己就能推導(dǎo)出來這是表演完了比較輕松的一個狀態(tài),所以就表現(xiàn)出來了。

然后來一下看一下環(huán)境音和語音的配合。

邊說邊輕微抬手:“聽到杯沿的輕碰聲了嗎?”(然后輕觸杯子,出現(xiàn)細(xì)微杯碰聲)(停頓)“就像在現(xiàn)場一樣?!?/p>

這里我故意指定了杯子的聲音,以及說話的順序,他也按照這個順序表現(xiàn)了出來。

可以看到人物的表情依然非常細(xì)膩,而且在說到“就像在現(xiàn)場一樣”的時候有驚嘆和自豪的表情,這完全是模型自己處理的。

但有個問題是 GAGA-1 是專門為了表演和語音訓(xùn)練的模型,如果可以的話盡量避免復(fù)雜精細(xì)的手部運(yùn)動,比如這里手部就有些問題。

從上面的幾個測試看,基礎(chǔ)的表演和模型智能已經(jīng)相當(dāng)好了,然后再試試他多語言的能力。

這塊還得指望中國模型,畢竟海外的模型一般不會對中文進(jìn)行強(qiáng)化。

要不就是用了一些臺灣人或者中文不標(biāo)準(zhǔn)的人的語音資料導(dǎo)致聽起來和看起來都很別扭 Sora2 有時候就有一些,Veo3 就別說了。GAGA-1 在中文完美的基礎(chǔ)上,其他語言的表現(xiàn)也很頂。

提示詞:

英語:Gentle opening: "At first, I was very optimistic." (smiling, eyes relaxed),(pause 0.5 seconds, slight furrow of the brow) "But the data tells me we need to make decisions calmly." (steady gaze, slight nod)

日語:自然禮貌語氣“こんにちは。大事な発表です。落ち著いて、聞いてください。”(輕點(diǎn)頭)

西班牙語:溫暖自信語氣“Gracias por venir. La verdad es clara: ahora reimaginamos el cine con IA.”

中英混合:淡定語氣:“結(jié)論很簡單——we’re ready for production.”(停頓0.3秒)“就現(xiàn)在。”

這里我分別試了一下英語、日語、西班牙語和多語言混合的情況,可以看到每個都非常標(biāo)準(zhǔn),而且唇形同步也都是對的,細(xì)微的表情也都非常豐富,可以說不同語言之前的表現(xiàn)沒有啥區(qū)別,聽起來和看起來都像是說母語的人的表現(xiàn)。

接下來就到了最重要的情緒甚至復(fù)雜情緒的表現(xiàn)。

羞恥與自責(zé)的表情,目光回避、壓低聲音說:“我作弊了?!比缓笙骂M收緊,用發(fā)抖的聲音說“對不起,我不該那樣做?!?/p>

這個真的跑的太好了,我一直認(rèn)為極端情緒的表現(xiàn)不是考驗?zāi)P捅硌菽芰Φ年P(guān)鍵,關(guān)鍵在于那些不是很極端的場景化的情緒表現(xiàn)。

比如剛開始躲閃的目光、以及與之配合的壓低的聲音,真的你讓我演我真演不出來,GAGA-1 在表演上確實比我們沒學(xué)過表演的強(qiáng)太多了。

后面收緊下頜的動作也很自然,先是稍微低了一下頭,然后才徹底把頭低下去,語音上也有一個由弱變強(qiáng)的過程。

絕望與懇求的表情,下大雨的聲音,女生呢喃說到:“別走讓我至少把話說完?!比缓蟠舐曊f:“我會改的,真的?!?/p>

這里這個場景就相對復(fù)雜了,女生是站在車外的,而且還是雨天,有車窗隔著,畫面和聲音的情況要考慮的都多一點(diǎn)。

仔細(xì)聽的話該有的雨聲也是有的,他很好的考慮了鏡頭在車?yán)锏那闆r,所以雨聲沒有那么大,而且還自己加上了非常應(yīng)景的鋼琴 BGM,加強(qiáng)了氛圍的渲染。

在表情和語音配合上,可以看到剛開始小聲說話的時候模型給女生加了一點(diǎn)發(fā)抖的情況,這也是人在有劇烈情緒的正常反應(yīng),非常形象了。同時先小聲說話然后有個思考的停頓然后大聲說話的時候情緒的轉(zhuǎn)變也會更自然,它臺東表演了。

單人都這么猛了,我們來試試雙人。

A(微笑):“用一句話概括 GAGA-1?”B(平穩(wěn)):“聲音、口型、表情,同步到位?!盇(點(diǎn)頭):“影視級,直出可用?”B(篤定):“當(dāng)然?!?/p>

我這里加了點(diǎn)難度直接用的 AB 來表示左右的人,然后還用了兩個側(cè)臉。

但沒想到他依然可以 Get 到提示詞的要求,而且在中間的時候把應(yīng)該 B 一直說的話改成了一人說一句,整個視頻生動了不少。

側(cè)臉的唇形同步和面部表情也相當(dāng)不錯,沒有崩壞的情況,同時也沒有其他模型會出現(xiàn)的音畫不同步的情況,唯一小問題是在讀 GAGA 的時候有點(diǎn)嘴瓢,感覺要避免大段中文加一兩個英文單詞的情況。

再來一個場景化的情緒豐富一點(diǎn)的雙人測試,辦公室吵架。

左邊的男性憤怒的說:“預(yù)算是誰改的?”右邊女性心虛的說:“我……是我,但我別無選擇?!弊筮吥行杂昧鑵柕难凵窨粗檀傥鼩庹f:“你有?!?/p>

這里的整個情緒非常劇烈,同時模型自己也為了配合情緒加大了人物的動作,知道在質(zhì)問的時候需要看著對方,同時需要有劇烈的動作,可以看到即使是在非常極限的人臉角度下,面部表情和嘴型也堵維持住了。

這里我還給男性和女性分別指定了情緒和表情,男性是非常強(qiáng)烈的憤怒,女性是相對比較細(xì)微的心虛,兩者都表現(xiàn)的不錯,尤其是最后那個短促吸氣說話的感覺,相當(dāng)?shù)轿弧?/p>

由于時間跟對話有時候不匹配,可能會有一小段時間不動,這個用的時候剪掉就行。

好了這就是這次 GAGA-1 模型測試的主要內(nèi)容了,這是一個長板很長同時短板很短的模型,Send AI 在訓(xùn)練的時候目標(biāo)就非常的明確,就是把語音和表演表現(xiàn)拉滿,他們也確實做到了。

我探索下來,這個模型的幾個使用要點(diǎn)有:

  1. a.提示詞上可以先說情緒變化,然后再說說話的語氣和內(nèi)容,如果需要停頓的話,可以直接寫,也可以用波折號或者省略號表達(dá)。
  2. b.雙人的表現(xiàn)不錯,用左右或者男女去指定說話的人他都能理解,甚至 A、B 都行,但是超過雙人的表現(xiàn)會有一定的下降,優(yōu)先用雙人。
  3. c.如果圖生的話盡量不要有太多的肢體或者全身漏在外面,也需要少些復(fù)雜動作提示詞,可能會崩。
  4. d.如果字?jǐn)?shù)少的話比如十個字以內(nèi)可以選擇 5 秒的生成時長,如果是長對話可以選 10秒。
  5. e.目前只支持 16:9 的橫屏比例,過段時間會支持豎屏的 9:16 比例。

隨著視頻模型的發(fā)展,我們漸漸不太滿足于復(fù)雜動態(tài)和物理表現(xiàn)、提示詞遵循這種最基本的要求,因為這些 AI 視頻模型可以生成的內(nèi)容只占正常內(nèi)容制作的一小部分。

從 GAGA-1、Sora2、Veo3 等模型我們可以發(fā)現(xiàn),現(xiàn)在的 AI 視頻模型發(fā)展已經(jīng)到了下一個階段:


  • 我們需要更加關(guān)注情緒表達(dá)和表演、音效和語音,模型開始朝著端到端的多模態(tài)一體化輸出。
  • 同時需要關(guān)注模型本身的世界知識和智能程度,不僅可以理解畫面內(nèi)容進(jìn)行視覺推理,同時自己有編排分鏡腳本和剪輯的能力。

原來很多人認(rèn)為這部分需要 Agent 來完成,現(xiàn)在看來也被模型內(nèi)化了,Agent 制作的朋友需要將模型的進(jìn)步考慮的更加激進(jìn)一些才行。

本來看到 Veo3 和 Sora 2 之后覺得國內(nèi)的模型有點(diǎn)難了,但看到 GAGA-1 后發(fā)現(xiàn)還是有明白人的。

目前 GAGA-1 可以免費(fèi)試用,感興趣可以去試試。

如果覺得藏師傅的內(nèi)容不錯的話,可以幫我點(diǎn)個贊或者喜歡,也可以轉(zhuǎn)發(fā)??給你需要的朋友,感謝。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不愧是諾蘭!這部斥巨資打造的美劇,終于回歸

不愧是諾蘭!這部斥巨資打造的美劇,終于回歸

來看美劇
2025-12-22 20:04:15
壞消息,太陽隊杰倫·格林因腿筋傷勢,預(yù)計將缺席比賽約2到3周

壞消息,太陽隊杰倫·格林因腿筋傷勢,預(yù)計將缺席比賽約2到3周

好火子
2025-12-23 09:32:52
《南渡北歸》書中記錄了原南京博物院院長曾昭燏自盡始末

《南渡北歸》書中記錄了原南京博物院院長曾昭燏自盡始末

總在茶余后
2025-12-22 23:40:49
震驚籃壇!半場16分+全場46分,全員被迫業(yè)啊,四川隊,散了吧

震驚籃壇!半場16分+全場46分,全員被迫業(yè)啊,四川隊,散了吧

球童無忌
2025-12-22 23:58:16
7-21!倫納德踢飛戰(zhàn)術(shù)板!亂了,快船又亂套了......

7-21!倫納德踢飛戰(zhàn)術(shù)板!亂了,快船又亂套了......

籃球?qū)崙?zhàn)寶典
2025-12-22 22:25:08
快手:遭到黑灰產(chǎn)攻擊,正在修復(fù)處理中,已報警

快手:遭到黑灰產(chǎn)攻擊,正在修復(fù)處理中,已報警

第一財經(jīng)資訊
2025-12-23 01:33:55
媒體人:FIBA未通知中國臺北籃協(xié),自行在官網(wǎng)公布了比賽地點(diǎn)

媒體人:FIBA未通知中國臺北籃協(xié),自行在官網(wǎng)公布了比賽地點(diǎn)

懂球帝
2025-12-22 20:40:07
空腹采血=滴水不沾?醫(yī)生提醒:這些錯誤千萬別犯,別搞錯了

空腹采血=滴水不沾?醫(yī)生提醒:這些錯誤千萬別犯,別搞錯了

全球軍事記
2025-12-22 22:06:05
410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報
2025-12-14 22:36:54
南京博物院保管員偷19件文物,被依法處決

南京博物院保管員偷19件文物,被依法處決

智識漂流
2025-12-21 23:29:54
籃協(xié)回應(yīng)遼京大戰(zhàn)陳盈駿6罰:裁判宣判楊鳴第2次技犯后罰球是錯誤

籃協(xié)回應(yīng)遼京大戰(zhàn)陳盈駿6罰:裁判宣判楊鳴第2次技犯后罰球是錯誤

狼叔評論
2025-12-22 19:50:34
《奔跑吧》爭議不斷的嘉賓,脾氣臭還自以為是,范丞丞也帶不動她

《奔跑吧》爭議不斷的嘉賓,脾氣臭還自以為是,范丞丞也帶不動她

銀河史記
2025-12-22 19:11:16
按薄一波的資歷,假如參加55年授銜,能不能被授予“開國大將”?

按薄一波的資歷,假如參加55年授銜,能不能被授予“開國大將”?

鶴羽說個事
2025-12-20 11:25:04
62歲穆帥絕望:斬4連勝+開季15輪一場沒輸 驀然回首發(fā)現(xiàn)差榜首8分

62歲穆帥絕望:斬4連勝+開季15輪一場沒輸 驀然回首發(fā)現(xiàn)差榜首8分

風(fēng)過鄉(xiāng)
2025-12-23 07:26:52
對手:我們?nèi)桥嗣肺?!梅西那場比?進(jìn)球5助攻!

對手:我們?nèi)桥嗣肺?!梅西那場比?進(jìn)球5助攻!

氧氣是個地鐵
2025-12-22 19:01:09
蘇聯(lián)曾經(jīng)有多強(qiáng)大?看看這些圖片

蘇聯(lián)曾經(jīng)有多強(qiáng)大?看看這些圖片

航空知識
2025-12-21 23:10:41
中日46條航線所有航班全部取消!準(zhǔn)備旅日的香港同胞反而更多?高市早苗內(nèi)外交困可能要黯然下臺!

中日46條航線所有航班全部取消!準(zhǔn)備旅日的香港同胞反而更多?高市早苗內(nèi)外交困可能要黯然下臺!

澳門月刊
2025-12-22 15:35:47
關(guān)于小洛熙事件,《環(huán)球時報》很丟人現(xiàn)眼的

關(guān)于小洛熙事件,《環(huán)球時報》很丟人現(xiàn)眼的

熊太行
2025-12-22 14:58:50
雷軍高調(diào)慶功:小米沖進(jìn)全球前三,網(wǎng)友炸了

雷軍高調(diào)慶功:小米沖進(jìn)全球前三,網(wǎng)友炸了

胡嚴(yán)亂語
2025-12-21 14:50:46
1-0,C羅在沙特聯(lián)的爭冠勁敵豪取亞冠6連勝,28歲巴薩舊將一劍封喉

1-0,C羅在沙特聯(lián)的爭冠勁敵豪取亞冠6連勝,28歲巴薩舊將一劍封喉

凌空倒鉤
2025-12-23 04:32:14
2025-12-23 09:59:00
歸藏的AI工具箱 incentive-icons
歸藏的AI工具箱
關(guān)注人工智能、LLM 、 AI 圖像視頻和設(shè)計
246文章數(shù) 33關(guān)注度
往期回顧 全部

科技要聞

快手遭黑灰產(chǎn)攻擊 直播間現(xiàn)大量色情內(nèi)容

頭條要聞

澤連斯基:"20點(diǎn)計劃"初稿已敲定 談判接近真正結(jié)果

頭條要聞

澤連斯基:"20點(diǎn)計劃"初稿已敲定 談判接近真正結(jié)果

體育要聞

戴琳,中國足球的反向代言人

娛樂要聞

一心為女兒鋪路的李湘,竟被撕下體面?

財經(jīng)要聞

直播間涉黃?快手:遭到黑灰產(chǎn)攻擊已報警

汽車要聞

可享88元抵2000元等多重權(quán)益 昊鉑A800開啟盲訂

態(tài)度原創(chuàng)

家居
本地
旅游
教育
公開課

家居要聞

現(xiàn)代手法 詮釋東方文化

本地新聞

云游安徽|走進(jìn)銅陵,照見三千年不滅的爐火

旅游要聞

長白山冬季旅游熱度攀升

教育要聞

高三綜評生注意,學(xué)生需在2月1日前完成!附:山東綜評(山東教育云平臺)保姆級教程!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版