国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

畫到哪,動(dòng)到哪!字節(jié)跳動(dòng)發(fā)布視頻生成「神筆馬良」ATI,已開源

0
分享至



Angtian Wang 是字節(jié)跳動(dòng)的研究員,研究方向包括視頻生成、3D 視覺、differentiable rendering。博士畢業(yè)于約翰霍普金斯(Johns Hopkins University)大學(xué)。師從 Dr. Alan Yuille。

近年來,隨著擴(kuò)散模型(Diffusion Models)、Transformer 架構(gòu)與高性能視覺理解模型的蓬勃發(fā)展,視頻生成任務(wù)取得了令人矚目的進(jìn)展。從靜態(tài)圖像生成視頻的任務(wù)(Image-to-Video generation)尤其受到關(guān)注,其關(guān)鍵優(yōu)勢在于:能夠以最小的信息輸入生成具有豐富時(shí)間連續(xù)性與空間一致性的動(dòng)態(tài)內(nèi)容。

然而,盡管生成質(zhì)量不斷提升,當(dāng)前主流方法普遍面臨一個(gè)關(guān)鍵瓶頸:缺乏有效、直觀、用戶友好的運(yùn)動(dòng)控制方式。

用戶在創(chuàng)作動(dòng)態(tài)視頻時(shí),往往具有明確的運(yùn)動(dòng)意圖,例如人物要往哪個(gè)方向奔跑、鏡頭如何推進(jìn)拉遠(yuǎn)、動(dòng)物的跳躍軌跡等。但現(xiàn)有方法普遍依賴于預(yù)設(shè)模板、動(dòng)作標(biāo)簽或風(fēng)格提示,缺少一種既自由又精準(zhǔn)的方式來指定對象與攝像機(jī)的運(yùn)動(dòng)路徑。尤其是在存在多個(gè)主體或復(fù)雜場景交互的情況下,這種控制能力的缺失,極大限制了生成系統(tǒng)的創(chuàng)意表達(dá)能力與實(shí)際應(yīng)用價(jià)值。

為了解決這一問題,字節(jié)跳動(dòng)提出了ATI——一種全新的、以「軌跡為指令」的可控視頻生成框架。ATI 的核心理念是:將用戶在輸入圖像上手繪的任意軌跡,轉(zhuǎn)化為驅(qū)動(dòng)物體與攝像機(jī)運(yùn)動(dòng)的顯式控制信號,并以統(tǒng)一的潛在空間建模方式注入視頻生成過程。這使得視頻創(chuàng)作從「參數(shù)調(diào)控」轉(zhuǎn)變?yōu)椤缚梢暬瘎?chuàng)意」,讓用戶「畫到哪,動(dòng)到哪」,以直觀方式實(shí)現(xiàn)幀級精準(zhǔn)控制。



  • Title:ATI: Any Trajectory Instruction for Controllable Video Generation
  • Paper:https://arxiv.org/pdf/2505.22944
  • Project page:https://anytraj.github.io/
  • Github:https://github.com/bytedance/ATI
  • Hugging Face:https://huggingface.co/bytedance-research/ATI
  • ComfyUI:https://github.com/kijai/ComfyUI-WanVideoWrapper

方法

ATI 接受兩個(gè)基本輸入:一張靜態(tài)圖像和一組用戶手繪軌跡。這些軌跡可以在圖像上自由繪制,支持任意形狀,包括直線、曲線、折線、回環(huán)乃至抽象形狀。ATI 通過高斯運(yùn)動(dòng)注入器(Gaussian Motion Injector)將這些軌跡編碼為潛在空間中的運(yùn)動(dòng)向量,再注入至擴(kuò)散生成流程中,進(jìn)而引導(dǎo)生成過程逐幀呈現(xiàn)對應(yīng)的物體運(yùn)動(dòng)與視角變換。



如上圖所示,我們希望讓視頻生成模型「理解」用戶畫出的運(yùn)動(dòng)軌跡,并在后續(xù)幀里按照這條軌跡產(chǎn)生動(dòng)作。為此,我們在模型的輸入特征空間上,對每一個(gè)軌跡點(diǎn)都注入一個(gè)「高斯權(quán)重」。使得模型就能在特征圖上「看到」一顆顆從時(shí)刻 0 到 t 按軌跡移動(dòng)的小「亮點(diǎn)」,并在訓(xùn)練中逐步理解輸入軌跡在輸入特征上和 denoise 生成視頻的關(guān)聯(lián)。



編碼圖像:先用一個(gè)「編碼器」把原始圖片轉(zhuǎn)換成一張低分辨率的特征圖。

采樣特征:對于軌跡的起始點(diǎn),從特征圖上精確地(通過雙線性差值,保持小數(shù)位置精度)取出一個(gè)特征向量。

生成高斯權(quán)重:在每一幀,對應(yīng)軌跡點(diǎn)的位置,都用一個(gè)小圓形「高斯」亮點(diǎn)去覆蓋周圍的像素,越靠近圓心的像素,權(quán)重越高。

注入特征:把起始點(diǎn)的特征向量,按照這些高斯權(quán)重「軟」地分配到特征圖上的鄰近區(qū)域,并在模型在生成視頻時(shí)輸入給模型。

這樣一來,當(dāng)我們給生成器喂入圖像和這組「高斯掩碼+特征」,模型就能直觀地「看懂」在每一幀里,哪兒應(yīng)該動(dòng)、怎樣動(dòng),從而生成符合用戶手繪軌跡的連貫動(dòng)畫效果。借助高斯運(yùn)動(dòng)注入器(Gaussian Motion Injector)與像素級通道拼接策略(Pixel-wise Channel Fusion),ATI 能夠統(tǒng)一控制對象級動(dòng)作、局部身體部位運(yùn)動(dòng)與攝像機(jī)視角變化,無需切換模型或模塊結(jié)構(gòu),即可高效支持多目標(biāo)、多風(fēng)格、多任務(wù)的視頻生成需求。同時(shí) ATI 支持多個(gè)視頻生成模型,可以在 Seaweed-7B 以及 Wan2.1-I2V-14B 等不同結(jié)構(gòu)以及大小的模型上均有穩(wěn)定的表現(xiàn)。

結(jié)果展示



用戶僅需在原圖上以手指或鼠標(biāo)拖拽繪制任意軌跡,ATI 即可實(shí)時(shí)捕捉該軌跡路徑并將其注入擴(kuò)散模型。借助高斯運(yùn)動(dòng)注入器,無論直線、曲線還是復(fù)雜回環(huán),均能被轉(zhuǎn)化為連貫自然的動(dòng)態(tài)視頻——畫到哪兒,動(dòng)到哪兒。



在人物或動(dòng)物肖像場景中,用戶可以指定奔跑、跳躍、揮臂等關(guān)鍵動(dòng)作的軌跡。ATI 對每一幀中的關(guān)鍵點(diǎn)進(jìn)行細(xì)粒度采樣與編碼,準(zhǔn)確還原關(guān)節(jié)弧度與質(zhì)心移動(dòng),生成符合生物力學(xué)規(guī)律的自然運(yùn)動(dòng)序列。



當(dāng)場景包含多個(gè)目標(biāo)時(shí),ATI 最多可并行處理 8 條獨(dú)立軌跡。系統(tǒng)通過空間掩碼和通道分離策略,保證各對象身份信息互不干擾,從而呈現(xiàn)復(fù)雜群體互動(dòng)時(shí)的連貫動(dòng)態(tài)。



ATI 不僅支持對象級運(yùn)動(dòng)控制,還能同步驅(qū)動(dòng)攝像機(jī)視角。用戶可在原圖上繪制推拉、平移、旋轉(zhuǎn)等鏡頭軌跡,將其與對象軌跡共同注入潛在空間,生成包含搖鏡、跟隨和俯仰等電影級鏡頭語言的視頻。



在同一推理過程中,物體與攝像機(jī)軌跡可同時(shí)注入,借助像素級通道拼接策略實(shí)現(xiàn)多條運(yùn)動(dòng)指令的無縫融合。系統(tǒng)無需模塊化切換,即可在潛在特征中并行呈現(xiàn)角色動(dòng)作、群體互動(dòng)與鏡頭切換,輸出豐富而連貫的動(dòng)態(tài)敘事。



ATI 展示出良好的跨領(lǐng)域泛化能力,覆蓋寫實(shí)電影、卡通插畫、油畫質(zhì)感、水彩渲染、游戲美術(shù)等多種藝術(shù)風(fēng)格。通過更換參考圖與輸入軌跡,系統(tǒng)能夠在保留原始風(fēng)格特征的基礎(chǔ)上生成對應(yīng)的運(yùn)動(dòng)視頻,滿足多元化的應(yīng)用需求。



用戶可在潛在空間中繪制超越物理邊界的軌跡,以生成飛天、伸縮、扭曲等非現(xiàn)實(shí)動(dòng)作效果,為科幻或魔幻場景提供無限創(chuàng)意空間。



基于 Wan2.1-I2V-14B 的高精度模型,ATI 可生成與實(shí)拍媲美的視頻短片,精準(zhǔn)還原面部表情、服飾材質(zhì)與光影細(xì)節(jié);同時(shí)提供輕量級 Seaweed-7B 版本,以滿足資源受限環(huán)境中的實(shí)時(shí)交互需求。

模型開源

目前,ATI 的 Wan2.1-I2V-14B 模型版本已在 Hugging Face 社區(qū)正式開源,為研究人員與開發(fā)者提供了高質(zhì)量、可控的視頻生成能力。圍繞該模型的社區(qū)生態(tài)也在快速完善:Kijai開發(fā)的 ComfyUI-WanVideoWrapper 插件支持 FP8 量化模型(如 Wan2_1-I2V-ATI-14B_fp8_e4m3fn.safetensors),顯著降低顯存需求,方便在消費(fèi)級 GPU 上進(jìn)行推理部署。同時(shí),Benji在 YouTube 發(fā)布的教學(xué)視頻《ComfyUI Wan 2.1 任意軌跡指令運(yùn)動(dòng)控制教程》為創(chuàng)作者提供了詳盡的實(shí)操指南。完整代碼與模型請參閱 GitHub(bytedance/ATI)及 Hugging Face 模型庫。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
老公駐派中東3年,我深夜給5歲女兒掖被角,她說:爸爸每天半夜來

老公駐派中東3年,我深夜給5歲女兒掖被角,她說:爸爸每天半夜來

朝暮書屋
2025-12-17 18:26:03
萬萬沒想到,濃眉竟然也是雙胞胎(有個(gè)雙胞胎姐姐)!

萬萬沒想到,濃眉竟然也是雙胞胎(有個(gè)雙胞胎姐姐)!

歲月有情1314
2025-12-20 00:15:12
央視怒批,國務(wù)院點(diǎn)名封殺!這幾位蒙騙老百姓的大網(wǎng)紅,徹底涼涼

央視怒批,國務(wù)院點(diǎn)名封殺!這幾位蒙騙老百姓的大網(wǎng)紅,徹底涼涼

大魚簡科
2025-09-02 19:34:00
毫不留情,杰倫·布朗公開批評湖人隊(duì)勒布朗·詹姆斯總是假摔

毫不留情,杰倫·布朗公開批評湖人隊(duì)勒布朗·詹姆斯總是假摔

好火子
2025-12-20 00:53:26
你可是國字號??!打CBA魚腩隊(duì),全場0分0板0助,正負(fù)值倒數(shù)第一

你可是國字號?。〈駽BA魚腩隊(duì),全場0分0板0助,正負(fù)值倒數(shù)第一

金山話體育
2025-12-20 07:40:44
胡澤君同志簡歷,中央第九指導(dǎo)組組長

胡澤君同志簡歷,中央第九指導(dǎo)組組長

社評
2025-12-20 06:19:03
這7個(gè)行業(yè),真的撐不下去了!裁員、關(guān)店、轉(zhuǎn)行,正在同時(shí)發(fā)生

這7個(gè)行業(yè),真的撐不下去了!裁員、關(guān)店、轉(zhuǎn)行,正在同時(shí)發(fā)生

搬磚營Z
2025-12-17 23:14:10
王勵(lì)勤不忍了!世界第一拆對,2新人接班重點(diǎn)培養(yǎng),1老將遭棄用

王勵(lì)勤不忍了!世界第一拆對,2新人接班重點(diǎn)培養(yǎng),1老將遭棄用

攬星河的筆記
2025-12-19 15:17:35
龐家捐出去的寶藏書畫,是怎么得來的?

龐家捐出去的寶藏書畫,是怎么得來的?

紅星新聞
2025-12-19 22:33:14
雅迪、愛瑪放大招!新款電摩打“擦邊球”,新國標(biāo)或徹底被玩壞?

雅迪、愛瑪放大招!新款電摩打“擦邊球”,新國標(biāo)或徹底被玩壞?

華庭講美食
2025-12-19 14:09:01
趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了!

趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了!

基斯默默
2025-11-25 00:37:51
上樹,遼寧鐵人球迷博主用藏頭詩暗示李提香將加盟

上樹,遼寧鐵人球迷博主用藏頭詩暗示李提香將加盟

懂球帝
2025-12-19 16:01:08
具俊曄賴在灣灣不走,不是為遺產(chǎn)也非念S,竟是被S家寵成寶

具俊曄賴在灣灣不走,不是為遺產(chǎn)也非念S,竟是被S家寵成寶

世界盡在眼前
2025-12-16 02:22:43
錢再多有什么用,64歲郎平如今的現(xiàn)狀,給所有運(yùn)動(dòng)員們提了個(gè)醒

錢再多有什么用,64歲郎平如今的現(xiàn)狀,給所有運(yùn)動(dòng)員們提了個(gè)醒

涵豆說娛
2025-12-10 16:49:41
金日磾,他的名字你讀不出,他的殘忍你做不出,他的高位是不世出

金日磾,他的名字你讀不出,他的殘忍你做不出,他的高位是不世出

銘記歷史呀
2025-12-11 16:18:42
91年,南京小伙被女友逼著在深圳買了5套房,21年后他不敢相信

91年,南京小伙被女友逼著在深圳買了5套房,21年后他不敢相信

卡西莫多的故事
2025-11-22 15:18:18
這才對嘛!盧偉棄用強(qiáng)援,重用遼籃雙星,斬獲大勝,新星空砍32分

這才對嘛!盧偉棄用強(qiáng)援,重用遼籃雙星,斬獲大勝,新星空砍32分

萌蘭聊個(gè)球
2025-12-19 21:45:02
公公花19萬買金絲楠木衣柜,我擦拭發(fā)現(xiàn)暗門,打開后全家懵了

公公花19萬買金絲楠木衣柜,我擦拭發(fā)現(xiàn)暗門,打開后全家懵了

小秋情感說
2025-12-05 14:25:36
廣州,已倒閉餐廳最意難平top1…

廣州,已倒閉餐廳最意難平top1…

羊城攻略
2025-12-18 18:37:03
約基奇你太狠了,賈巴爾塵封36年的歷史第一紀(jì)錄,被你超越了

約基奇你太狠了,賈巴爾塵封36年的歷史第一紀(jì)錄,被你超越了

大西體育
2025-12-19 14:59:58
2025-12-20 08:27:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142514關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

普京罕見回應(yīng)私人生活 大方承認(rèn)正在戀愛中

頭條要聞

普京罕見回應(yīng)私人生活 大方承認(rèn)正在戀愛中

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

日元加息,恐慌來了?貨幣三國殺

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

藝術(shù)
教育
手機(jī)
家居
公開課

藝術(shù)要聞

60幅流失海外的中國畫,件件精品

教育要聞

教育部這次動(dòng)真格的了!教育界泰斗:不能讓80%學(xué)生為20%精英陪跑

手機(jī)要聞

iOS 26.1停止簽名,蘋果iPhone 17等用戶升級iOS 26.2后無法降級

家居要聞

高端私宅 理想隱居圣地

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版