国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Artificial Analysis 榜單第二,SkyReels-V4 宣告 AI 視頻進(jìn)入「全棧統(tǒng)一」階段

0
分享至

Seedance 2.0 還在持續(xù)震驚行業(yè)的時(shí)候,AI 視頻賽道又有一份權(quán)威榜單刷新了,來(lái)自昆侖天工的 SkyReels-V4 沖進(jìn)了最前列。

Artificial Analysis 是目前 AI 領(lǐng)域最有公信力的第三方評(píng)測(cè)平臺(tái)之一。它的機(jī)制,是讓不同模型生成答案,然后由真人用戶盲選投票,誰(shuí)的作品被選中的次數(shù)多,誰(shuí)的 ELO 分就高。整個(gè)過(guò)程不看品牌,不接受企業(yè)自報(bào)成績(jī),OpenAI、Google 這些大廠都在上面被公開(kāi)打分。

在這份最新的文生視頻榜單(帶音頻)上,SkyReels-V4 排到了第二。ELO 評(píng)分 1090,僅落后第一名快手 Kling 3.0 Pro 三分。Google Veo 3.1、OpenAI Sora 2、xAI grok-imagine-video 都排在了它的身后。


在包含所有歷史版本的全量排名里,SkyReels-V4 也排到了第四。


值得注意的是,Text To Video Leaderboard(with Audio)不是一個(gè)只看「畫(huà)面好不好看」的榜單,它評(píng)的是帶音頻的完整視頻,畫(huà)面、聲音、兩者的同步程度,全都算分。

SkyReels-V4 能在這個(gè)維度拿到全球第二,說(shuō)明它做對(duì)了一些和大多數(shù)視頻模型不太一樣的事情。

??關(guān)注 Founder Park,最及時(shí)最干貨的創(chuàng)業(yè)分享

超 22000 人的「AI 產(chǎn)品市集」社群!不錯(cuò)過(guò)每一款有價(jià)值的 AI 應(yīng)用。

邀請(qǐng)從業(yè)者、開(kāi)發(fā)人員和創(chuàng)業(yè)者,飛書(shū)掃碼加群:

進(jìn)群后,你有機(jī)會(huì)得到:

  • 最新、最值得關(guān)注的 AI 新品資訊;

  • 不定期贈(zèng)送熱門新品的邀請(qǐng)碼、會(huì)員碼;

  • 最精準(zhǔn)的 AI 產(chǎn)品曝光渠道

01萬(wàn)物可參考」的創(chuàng)作自由

要理解 SkyReels-V4 的能力,最直觀的方式是看一個(gè)案例。

上傳一段邁克爾?杰克遜的經(jīng)典舞蹈視頻和一張二次元圖片,告訴模型:把舞者替換成這個(gè)角色。


幾秒鐘后,視頻里的舞者變成了那個(gè)動(dòng)漫人物,但每一個(gè)轉(zhuǎn)身和手勢(shì)的時(shí)機(jī)都和原版嚴(yán)絲合縫。

這已經(jīng)很厲害了,但還沒(méi)完。換一張狼的圖片再試一次。

這回模型需要把一個(gè)人類的舞蹈動(dòng)作,映射到一只四足動(dòng)物身上。結(jié)果狼的動(dòng)作流暢自然,身體的重心轉(zhuǎn)移和節(jié)拍卡點(diǎn)依然對(duì)得上原視頻。

這說(shuō)明模型不止是抓取像素的外觀,更是本質(zhì)上理解了動(dòng)作的語(yǔ)義。

難度還可以繼續(xù)升級(jí)。例如《低俗小說(shuō)》里烏瑪?瑟曼和約翰?特拉沃爾塔的經(jīng)典扭扭舞,給模型兩張圖:一只狗,一只貓。指令是把左邊的舞者換成狗,右邊的換成貓。


這個(gè)任務(wù)的挑戰(zhàn)在于,模型必須同時(shí)跟蹤兩個(gè)主體的運(yùn)動(dòng)軌跡,分別完成替換,還不能把兩邊的動(dòng)作搞混。

SkyReels-V4 交出的結(jié)果是:狗和貓各跳各的,動(dòng)作和原版舞者一一對(duì)應(yīng),互不干擾。

這套能力叫「運(yùn)動(dòng)參考」。對(duì)于短視頻創(chuàng)作來(lái)說(shuō),它的想象潛力巨大。一旦你有了一段動(dòng)作素材作為骨架,就可以把任何形象「穿」上去。同一段舞蹈,今天換成品牌 IP 角色做一版廣告素材,明天換成二次元形象做一版粉絲二創(chuàng),后天換成吉祥物做一版節(jié)日版本。

對(duì)于短視頻創(chuàng)作者和內(nèi)容團(tuán)隊(duì)來(lái)說(shuō),這意味著素材的復(fù)用率被大幅拉高,同一段動(dòng)作的商業(yè)價(jià)值可以被反復(fù)釋放。

02全棧能力:整個(gè)工作流,一個(gè)模型搞定

運(yùn)動(dòng)參考只是 SkyReels-V4 多模態(tài)參考能力的一個(gè)切面。這個(gè)模型真正的野心,是覆蓋整條視頻創(chuàng)作工作流。從生成到編輯,從畫(huà)面到聲音,在一個(gè)模型里全部完成。

先看短劇生成。給模型兩三張人物照片,再給一段對(duì)話劇本,它能直接輸出一個(gè)帶對(duì)白、帶背景音樂(lè)、有正反打鏡頭切換的短劇片段。


注意了,這是一個(gè)真的有鏡頭語(yǔ)言的視頻。男人說(shuō)話的時(shí)候鏡頭對(duì)著男人,切到老人的反應(yīng),再切回來(lái),節(jié)奏是對(duì)的。

更值得關(guān)注的是音頻部分。生成出來(lái)的臺(tái)詞清晰度很高,口型都對(duì)。而且?guī)в星榫w,緊張、警惕、懷疑,這些在劇本里寫(xiě)的情緒指令,模型都能在語(yǔ)音層面體現(xiàn)出來(lái)。仔細(xì)聽(tīng)還能聽(tīng)到緊張懸疑的背景音樂(lè),完全契合劇情。這種音頻質(zhì)量放在一年前,單獨(dú)拿出來(lái)都算得上一個(gè)獨(dú)立產(chǎn)品的賣點(diǎn)。

而且它不只支持中文,英文、法語(yǔ)、日語(yǔ),每種語(yǔ)言的語(yǔ)音都可以由模型原生生成。這意味著同一套角色素材,換一種語(yǔ)言的劇本就能產(chǎn)出另一個(gè)版本,對(duì)做海外內(nèi)容的團(tuán)隊(duì)來(lái)說(shuō)效率提升非常明顯。



同樣,在視頻編輯方面,去水印、抹掉硬字幕、清理臺(tái)標(biāo),也都能輕松搞定。

快速去除字幕

這些過(guò)去要靠 After Effects 或者好幾個(gè) AI 小工具拼在一起才能完成的操作,現(xiàn)在一個(gè)模型、一條指令就能搞定。

它還能做更復(fù)雜的事情:給一段女團(tuán)舞蹈視頻里的 C 位舞者憑空加上一頂帽子。


帽子的顏色和細(xì)節(jié)都跟參考圖一致,整段舞蹈就像她本來(lái)就戴著這頂帽子跳的。

或者反過(guò)來(lái),從一段多人探險(xiǎn)視頻里把兩個(gè)人直接刪掉,刪完之后背景自然補(bǔ)全,沒(méi)有任何穿幫痕跡。

從生成完整短劇到精細(xì)化編輯修復(fù),SkyReels-V4 試圖讓創(chuàng)作者的工具箱大幅簡(jiǎn)化:過(guò)去需要在好幾個(gè)軟件之間來(lái)回切換才能完成的工作流,現(xiàn)在可以在一個(gè)模型內(nèi)完成。

03魔法背后的技術(shù)力

前面展示了這么多能力,一個(gè)自然的問(wèn)題是:為什么這些事情能在同一個(gè)模型里完成?

答案藏 昆侖天工 SkyReels-V4 的技術(shù)報(bào)告里。如果只挑兩個(gè)最關(guān)鍵的技術(shù)點(diǎn)來(lái)講,統(tǒng)一拼接框架解釋了「為什么一個(gè)模型能干這么多事」,雙流 MMDiT 架構(gòu)解釋了「音視頻怎么做到真正同步的」。


論文:https://arxiv.org/pdf/2602.21818

先說(shuō)第一個(gè)。SkyReels-V4 之所以能用一個(gè)模型干這么多事,核心在于它把所有視頻任務(wù)都變成了同一種操作。

具體怎么做的?模型的輸入被拆成三樣?xùn)|西拼在一起:一段待生成的視頻底片、你提供的條件畫(huà)面、以及一張遮罩。

遮罩的作用是標(biāo)記哪些區(qū)域保留,哪些讓模型重新生成。文生視頻就是遮罩全空;圖生視頻就是第一幀鎖定;去水印就是把水印的區(qū)域挖掉。任務(wù)千差萬(wàn)別,但在模型眼里只是遮罩的配置不同。

參考素材的注入是另一個(gè)維度。如果你提供了角色照片或動(dòng)作視頻,這些素材會(huì)被編碼后拼在生成序列的前面,像一本攤開(kāi)的參考手冊(cè)。模型生成每一幀時(shí)都能回頭翻看,從中提取外觀、動(dòng)作和風(fēng)格信息。這就是為什么你可以同時(shí)給它一張角色圖和一段舞蹈視頻,它能理解「用這個(gè)外觀,跳那段舞」。

兩層拼接配合在一起,就有了一個(gè)真正統(tǒng)一的接口:生成、編輯、遷移,全部走同一套框架,同一套參數(shù)。

再說(shuō)第二個(gè)。大多數(shù)視頻模型生成畫(huà)面之后,音頻是后面單獨(dú)加上去的,兩者之間的對(duì)齊靠的是后處理。

SkyReels-V4 不是這么做的,它的架構(gòu)叫「雙流 MMDiT」:視頻和音頻各有一條生成線,但這兩條線在每一步都能互相看到對(duì)方在做什么。


打個(gè)比方,就像兩個(gè)樂(lè)手看著同一份樂(lè)譜在合奏:視頻這邊畫(huà)到嘴巴張開(kāi),音頻那邊就同步輸出對(duì)應(yīng)的語(yǔ)音;音頻這邊的節(jié)拍到了重音的位置,視頻那邊的動(dòng)作也跟著卡點(diǎn)。兩條線共享同一個(gè)文本編碼器來(lái)理解指令,再通過(guò)雙向交叉注意力機(jī)制在每一步互相校準(zhǔn)。

但這里有一個(gè)工程上的難題:視頻和音頻的時(shí)間尺度完全不同。視頻一秒 32 幀,音頻一秒 44100 個(gè)采樣點(diǎn),兩者的信息密度差了好幾個(gè)數(shù)量級(jí)。

SkyReels-V4 用了一個(gè)叫 RoPE 頻率縮放的技術(shù)來(lái)解決這個(gè)問(wèn)題。本質(zhì)上是讓音頻的時(shí)間坐標(biāo)系「壓縮」到和視頻對(duì)齊,確保兩邊在注意力計(jì)算的時(shí)候看到的是同一個(gè)時(shí)間軸上的對(duì)應(yīng)位置。

這就是為什么前面短劇案例里,多角色對(duì)話的唇形和語(yǔ)音能做到毫秒級(jí)的精準(zhǔn)對(duì)齊,因?yàn)橐粢曨l從生成機(jī)制的底層就是綁定在一起的。

04從工具替代到工作流統(tǒng)一

把視角拉遠(yuǎn)一點(diǎn)看,昆侖天工 SkyReels-V4 做的這件事,其實(shí)是整個(gè) AI 行業(yè)正在發(fā)生的一個(gè)大趨勢(shì)的縮影。

語(yǔ)言模型從純文本走向多模態(tài),圖像模型從生成走向理解,視頻模型從單項(xiàng)能力走向全流程覆蓋,所有方向都在往「統(tǒng)一」這個(gè)詞收斂。SkyReels-V4 的統(tǒng)一框架不只是一家公司的技術(shù)選擇,它更像是視頻生成賽道演進(jìn)方向的一個(gè)信號(hào)。

對(duì)創(chuàng)作者來(lái)說(shuō),這種變化的體感可能比技術(shù)敘事更直接。過(guò)去做一條完整的視頻內(nèi)容,工作流是「工具鏈串聯(lián)」:用這個(gè)工具生成畫(huà)面,用那個(gè)工具配音樂(lè),再換一個(gè)工具做剪輯和后期。每切換一次工具就丟失一次上下文,素材在不同軟件之間反復(fù)導(dǎo)入導(dǎo)出。

SkyReels-V4 則是讓這條鏈變成一個(gè)框:所有素材進(jìn)去,成品出來(lái),中間模型始終理解你在做什么。創(chuàng)作的門檻在降低,但更重要的是,創(chuàng)作的連貫性在提升。

對(duì)更廣泛的影視和內(nèi)容制作行業(yè)來(lái)說(shuō),影響可能比「換一個(gè)更好用的工具」更深。傳統(tǒng)影視后期是一條高度分工的流水線。特效、配音、音效設(shè)計(jì)、字幕處理,每個(gè)環(huán)節(jié)對(duì)應(yīng)專門的軟件、專門的人才、專門的外包預(yù)算。當(dāng)一個(gè)模型能同時(shí)覆蓋這些過(guò)去分屬不同工種的任務(wù),產(chǎn)業(yè)鏈里一部分中間環(huán)節(jié)的存在邏輯就開(kāi)始松動(dòng)了。

尤其在短劇、短視頻、品牌內(nèi)容、電商素材這些對(duì)產(chǎn)出速度和成本高度敏感的中腰部市場(chǎng),制作的「最低可行團(tuán)隊(duì)」正在被重新定義。過(guò)去需要十個(gè)人干一周的活,現(xiàn)在可能三個(gè)人加一個(gè)統(tǒng)一模型,兩天就能交付。當(dāng)然,高端影視制作對(duì)精度和創(chuàng)意的要求,靠當(dāng)前 AI 還不能完全替代,但「全棧統(tǒng)一」的意義已經(jīng)從技術(shù)架構(gòu)的故事,變成了產(chǎn)業(yè)效率的故事。

回到昆侖天工自身,SkyReels 系列的迭代節(jié)奏也值得留意。V1 主攻人物表演和影視級(jí)質(zhì)感,是中國(guó)最早面向 AI 短劇創(chuàng)作的垂直場(chǎng)景視頻生成模型;V2 引入自回歸擴(kuò)散架構(gòu),實(shí)現(xiàn)了無(wú)限時(shí)長(zhǎng)的連續(xù)視頻生成;V3 強(qiáng)化了多模態(tài)參考驅(qū)動(dòng),支持圖像、視頻、音頻等多種條件輸入;到了 V4,音視頻聯(lián)合生成和全場(chǎng)景統(tǒng)一編輯被裝進(jìn)同一個(gè)架構(gòu)。每一步都不是在某個(gè)單項(xiàng)上刷分,而是在把更多能力往同一個(gè)框架里收。

這條路不輕松。統(tǒng)一意味著每一代都要做架構(gòu)層面的改動(dòng),而不是在已有框架上微調(diào);意味著要同時(shí)把生成質(zhì)量、編輯精度、音頻同步這些互相制約的指標(biāo)都拉上來(lái)。但走到 V4 這一步,Artificial Analysis 第二的成績(jī)單至少說(shuō)明了一件事:這條「把所有東西裝進(jìn)一個(gè)模型」的路,昆侖天工走通了。


轉(zhuǎn)載原創(chuàng)文章請(qǐng)?zhí)砑游⑿牛篺ounderparker

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
縣法院副院長(zhǎng)辦案期間與原告同行同吃同燒香拜佛?被告:?jiǎn)?dòng)懲戒但沒(méi)結(jié)果;涉事法官:你找單位了解

縣法院副院長(zhǎng)辦案期間與原告同行同吃同燒香拜佛?被告:?jiǎn)?dòng)懲戒但沒(méi)結(jié)果;涉事法官:你找單位了解

大風(fēng)新聞
2026-03-26 21:47:02
一覺(jué)醒來(lái),大量美軍逃匿!伊朗全力搜捕!美議長(zhǎng)透露重要信息

一覺(jué)醒來(lái),大量美軍逃匿!伊朗全力搜捕!美議長(zhǎng)透露重要信息

安安說(shuō)
2026-03-26 13:00:12
隨著姆巴佩無(wú)敵挑射+登貝萊妙傳+比分2-1,10人法國(guó)掀翻五星巴西

隨著姆巴佩無(wú)敵挑射+登貝萊妙傳+比分2-1,10人法國(guó)掀翻五星巴西

側(cè)身凌空斬
2026-03-27 06:05:32
爆大冷!點(diǎn)球大戰(zhàn)決勝負(fù),威爾士無(wú)緣世界杯,40歲哲科立大功

爆大冷!點(diǎn)球大戰(zhàn)決勝負(fù),威爾士無(wú)緣世界杯,40歲哲科立大功

足球狗說(shuō)
2026-03-27 06:50:25
羅技中國(guó)致歉

羅技中國(guó)致歉

界面新聞
2026-03-26 23:25:51
張雪峰追悼會(huì)定于本周六,喪事從簡(jiǎn)不搞排場(chǎng),11歲女兒成全家心病

張雪峰追悼會(huì)定于本周六,喪事從簡(jiǎn)不搞排場(chǎng),11歲女兒成全家心病

未曾青梅
2026-03-26 22:48:49
愧對(duì)巴西10號(hào)!維尼修斯演砸了:0球0射正 萬(wàn)人呼喚內(nèi)馬爾

愧對(duì)巴西10號(hào)!維尼修斯演砸了:0球0射正 萬(wàn)人呼喚內(nèi)馬爾

葉青足球世界
2026-03-27 08:05:32
官宣《浪姐7》遭全網(wǎng)抵制,49歲的范瑋琪,終于迎來(lái)了“報(bào)應(yīng)”!

官宣《浪姐7》遭全網(wǎng)抵制,49歲的范瑋琪,終于迎來(lái)了“報(bào)應(yīng)”!

阿纂看事
2026-03-26 20:49:43
伊朗官媒發(fā)布《為眾人復(fù)仇》AI短片:一枚伊朗導(dǎo)彈在哈梅內(nèi)伊等人注視下,精準(zhǔn)炸毀幻化成羊頭惡魔的美國(guó)自由女神像

伊朗官媒發(fā)布《為眾人復(fù)仇》AI短片:一枚伊朗導(dǎo)彈在哈梅內(nèi)伊等人注視下,精準(zhǔn)炸毀幻化成羊頭惡魔的美國(guó)自由女神像

大象新聞
2026-03-26 09:45:03
41歲張雪峰去世后續(xù),其婚姻被扒,已離婚6年,前妻很低調(diào)

41歲張雪峰去世后續(xù),其婚姻被扒,已離婚6年,前妻很低調(diào)

180視角
2026-03-26 13:01:03
張雪峰猝然離世,辦公室內(nèi)景曝光,擺設(shè)奇怪,寫(xiě)真照被指像遺照,生前的話字字催淚

張雪峰猝然離世,辦公室內(nèi)景曝光,擺設(shè)奇怪,寫(xiě)真照被指像遺照,生前的話字字催淚

筆墨V
2026-03-26 14:53:51
世人只知體操冠軍“擦邊”,吳柳芳親述其背后的“心酸”

世人只知體操冠軍“擦邊”,吳柳芳親述其背后的“心酸”

一支破筆半支煙
2026-03-26 10:58:32
馬杜羅夫婦將再次出庭受審,關(guān)押地如“人間煉獄”

馬杜羅夫婦將再次出庭受審,關(guān)押地如“人間煉獄”

環(huán)球網(wǎng)資訊
2026-03-26 20:23:08
博主被陌生網(wǎng)友辱罵3個(gè)月,默默觀察其2年半,終于找到機(jī)會(huì)碰面了

博主被陌生網(wǎng)友辱罵3個(gè)月,默默觀察其2年半,終于找到機(jī)會(huì)碰面了

離離言幾許
2026-03-26 15:01:41
把劉濤抱在懷里,有誰(shuí)注意到他手上的小動(dòng)作,人品如何一目了然。

把劉濤抱在懷里,有誰(shuí)注意到他手上的小動(dòng)作,人品如何一目了然。

TVB的四小花
2026-03-27 01:19:43
張雪峰付幸多張合影被扒,每次團(tuán)建她都偷瞄張雪峰,眼神滿是崇拜

張雪峰付幸多張合影被扒,每次團(tuán)建她都偷瞄張雪峰,眼神滿是崇拜

古希臘掌管松餅的神
2026-03-26 16:52:30
翻到張雪峰2016年婚紗照,瞬間看哭了!

翻到張雪峰2016年婚紗照,瞬間看哭了!

魔都姐姐雜談
2026-03-26 22:06:50
中國(guó)動(dòng)“真格”了!中方霸氣警告:90天內(nèi)358億賠償金必須到位

中國(guó)動(dòng)“真格”了!中方霸氣警告:90天內(nèi)358億賠償金必須到位

趣生活
2026-03-26 22:16:24
一覺(jué)醒來(lái),愛(ài)吃活魚(yú)的人天塌了,央視曝光的內(nèi)幕真可怕!

一覺(jué)醒來(lái),愛(ài)吃活魚(yú)的人天塌了,央視曝光的內(nèi)幕真可怕!

濤哥銳評(píng)
2026-03-26 17:57:04
萬(wàn)科高管被要求退還薪酬

萬(wàn)科高管被要求退還薪酬

地產(chǎn)微資訊
2026-03-26 12:22:04
2026-03-27 10:11:00
FounderPark incentive-icons
FounderPark
關(guān)注AI創(chuàng)業(yè),專注和創(chuàng)業(yè)者聊真問(wèn)題
1183文章數(shù) 160關(guān)注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產(chǎn)力

頭條要聞

65歲上海老伯相信"33歲女老師"給自己生兒子 被騙16萬(wàn)

頭條要聞

65歲上海老伯相信"33歲女老師"給自己生兒子 被騙16萬(wàn)

體育要聞

申京努力了,然而杜蘭特啊

娛樂(lè)要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

很反常!油價(jià)向上,黃金向下

汽車要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
時(shí)尚
房產(chǎn)
本地
親子

教育要聞

中考報(bào)名!剛剛,2026山東一市公布中考報(bào)名操作流程

張雪峰曾經(jīng)“5次談猝死”

房產(chǎn)要聞

勁銷64億后,??谶@座改善標(biāo)桿盤,又要引爆樓市!

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬(wàn)遍

親子要聞

過(guò)敏性鼻炎需要注意什么,飲食注意事項(xiàng)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版