網易首頁 > 網易號 > 正文申請入駐

《現代電影技術》｜黃東晉等：AIGC技術在影視動態(tài)分鏡智能生成中的創(chuàng)新應用與實踐

2025-06-20 09:45:47　來源: 電影技術微刊

北京舉報

分享至

本文刊發(fā)于《現代電影技術》2025年第5期

專家點評

近年來，人工智能生成內容（AIGC）技術在影視創(chuàng)制領域的應用正從概念驗證逐步走向系統(tǒng)集成與流程優(yōu)化。尤其是在影視前期的分鏡制作環(huán)節(jié)，基于擴散模型的圖像生成、多模態(tài)驅動的角色動畫、語音驅動的面部表情合成等關鍵技術不斷實現新突破，為傳統(tǒng)依賴手繪與人工剪輯的流程注入了高效、可控的創(chuàng)新方案?！禔IGC技術在影視動態(tài)分鏡智能生成中的創(chuàng)新應用與實踐》一文聚焦影視動態(tài)分鏡智能生成任務，提出“角色/場景生成-分鏡合成-動態(tài)分鏡生成”三階段創(chuàng)制流程，是對AIGC技術從靜態(tài)圖像生成向時序視頻建模拓展的積極探索與實踐。其在建模細節(jié)方面對LoRA微調、草圖幾何約束、圖像和諧化算法與語音驅動動畫方法進行了工程化集成，尤其在人臉屬性控制、人物服飾還原及面部動畫真實感等方面表現出清晰明確的技術路徑，展示了AIGC從視覺生成向角色表演理解過渡的潛力。本文語言通俗而不失技術深度，邏輯清晰，相關案例很好地契合了影視分鏡創(chuàng)作的實際流程，兼具技術傳播性與視覺呈現力，具有較高的借鑒意義和閱讀價值。

——王嵐君

天津大學新媒體與傳播學院研究員

博士生導師

作者簡介

黃東晉

上海大學上海電影學院、上海電影特效工程技術研究中心副教授、博士生導師，主要研究方向：虛擬現實、人工智能、數字影視技術等。

上海大學上海電影學院碩士研究生在讀，主要研究方向：深度學習、生成式模型等。

湯譯翔

黃琦

上海大學上海電影學院碩士研究生在讀，主要研究方向：圖形圖像處理。

皮祎恒

于冰

上海大學上海電影學院、上海電影特效工程技術研究中心講師，主要研究方向：電影修復、深度學習。

摘要

人工智能生成內容（AIGC）與影視行業(yè)的深度融合已成為行業(yè)重要發(fā)展趨勢，尤其在影視創(chuàng)作的前期階段，可為創(chuàng)意表達與內容多樣化提供強大的技術支持。本文聚焦AIGC技術在影視動態(tài)分鏡智能生成中的創(chuàng)新應用，提出基于LoRA微調、人臉交換、草圖幾何約束、和諧化算法、多模態(tài)驅動角色動畫等技術的“角色/場景生成-分鏡合成-動態(tài)分鏡生成”智能創(chuàng)制管線，并利用自主構建的唐代人物形象數據集，實現了唐代仕女從靜態(tài)形象到動態(tài)表演的智能生成，驗證了該管線的可行性。實驗結果表明，本文提出的智能創(chuàng)制管線，可實現高質量動態(tài)分鏡的智能生成，顯著提升影視創(chuàng)制效率，能有效輔助導演的創(chuàng)作決策，實現影視分鏡制作的降本增效。

關鍵詞

AIGC；動態(tài)分鏡生成；角色-場景融合；角色動畫；多模態(tài)技術

1引言

分鏡設計是影視創(chuàng)作的核心環(huán)節(jié)，其通過視覺化的方式將劇本轉化為連續(xù)的鏡頭語言，直接影響影片的敘事節(jié)奏、視覺風格和創(chuàng)制效率[1]。傳統(tǒng)分鏡制作高度依賴人工手繪，不僅耗時費力，且修改成本高昂。尤其在復雜場景或特效鏡頭中，分鏡師需反復調整構圖、運鏡和角色表演，嚴重制約了創(chuàng)作迭代的速度。近年來，隨著擴散模型（Diffusion Model）[2]、神經渲染[3]、高斯?jié)姙R[4]等先進技術的快速發(fā)展，人工智能生成內容（AIGC）技術為影視創(chuàng)制帶來了革命性影響。特別在分鏡設計領域，通過文生圖（T2I）、文生視頻（T2V）、圖生視頻（I2V）等生成式模型，AIGC能快速生成多樣化的角色造型、場景布局與鏡頭序列，顯著提升前期視覺開發(fā)的效率與質量。

本文圍繞AIGC技術在影視動態(tài)分鏡智能生成中的創(chuàng)新應用，構建“角色/場景生成-分鏡合成-動態(tài)分鏡生成”的自動化創(chuàng)制管線，實現高質量動態(tài)分鏡智能生成。本研究可為前期影視創(chuàng)作者的創(chuàng)意表達提供一套切實可行的動態(tài)分鏡視頻智能化、自動化制作方案，為導演提供更多可視化的創(chuàng)作參考。

2研究背景

AIGC技術在影視創(chuàng)制領域展現出顛覆性潛力，在國內外影視行業(yè)引起高度關注，影視制作流程正在經歷革命性改變。第一，AIGC技術通過文本輸入即可完成從概念設計到成片的一站式創(chuàng)作生產。該技術兼具強大的風格適應性，無論是歷史復原、科幻未來還是藝術化表達，都能通過調整算法參數快速實現。第二，AIGC技術具備全流程動態(tài)可調的優(yōu)勢，AIGC的“生成-編輯-迭代”工作流，可實現真正意義上的非線性創(chuàng)作自由。第三，AIGC在降本增效方面表現突出，能將影視制作中耗時較長的前期分鏡設計環(huán)節(jié)效率大幅度縮短，顯著降低影視的開發(fā)成本。

目前，AIGC技術在影視動態(tài)分鏡創(chuàng)作中尚未形成成熟確定的制作流程。本文重點研究基于AIGC技術的影視動態(tài)分鏡生成與應用，主要涉及角色/場景生成、分鏡合成、動態(tài)分鏡生成等關鍵技術。

（1）角色/場景生成

角色設計作為構建敘事體系和視覺風格的核心環(huán)節(jié)，其質量直接影響作品的藝術表現力。近年來，在跨模態(tài)生成任務中，文本與圖像聯合驅動的圖像生成已成為重要研究方向。目前主流的生成模型框架包括 Stable Diffusion 1.5[5]、Stable Diffusion XL[6]、Midjourney[7]以及Flux 模型[8]。雖然這些模型/工具能生成高質量的人物角色圖像，但往往存在身份一致性、歷史時代特征偏差等問題。

場景設計則通過空間布局、光影氛圍和細節(jié)還原，為敘事提供視覺支點，其真實性與藝術性共同決定了影片的沉浸深度與美學高度。在影視場景設計領域，文生圖和圖生圖（I2I）技術正逐漸成為概念設計、環(huán)境構建和風格化表達的重要工具。雖然文生圖技術能快速輸出概念草圖，但復雜場景的結構合理性、細節(jié)精準度仍不穩(wěn)定。圖生圖技術常用于場景迭代和風格統(tǒng)一，但通過參考圖生成的場景視覺內容，在物理合理性（如陰影方向、透視關系）上仍需后期干預。

（2）分鏡合成

分鏡合成任務是將前景角色與背景場景進行無縫融合，主要涉及圖像和諧化技術。通過調整顏色、光照等前景元素的視覺特征，以實現與背景圖像的高質量合成，從而增強合成圖像的真實感和視覺一致性。近年來，深度學習（DL）技術被廣泛應用于圖像和諧化領域，目前主流的模型框架主要包括DoveNet[9] 、RainNet[10]、Harmonizer[11]及AICT[12]等。其中AICT方法是目前圖像和諧化領域的SOTA方法，其通過預測逐像素顏色變換，并自適應調整采樣間隔以建模高分辨率下顏色變換的局部非線性特征，顯著提升處理效率與質量，實現保持視覺一致的高分辨率圖像合成。

（3）動態(tài)分鏡生成

動態(tài)分鏡生成主要涉及人體動畫生成技術與面部動畫生成技術。人體動畫生成旨在基于靜態(tài)圖像以及特定的輸入（如姿態(tài)序列、音頻、文本等），生成連貫、逼真的動態(tài)人物視頻。當前技術主要分為基于生成式對抗網絡（GAN）和基于擴散模型兩類方法?；贕AN的方法通過生成器和判別器的對抗訓練生成人體動畫序列，然而這類方法在時序一致性、多樣性等方面仍存在較多局限。而基于擴散模型的方法（如DreamPose[13]、Champ[14]、UniAnimate[15]等）憑借其漸進式生成機制和強大的建模能力，在人體動畫生成領域展現出顯著優(yōu)勢，正逐漸成為主流技術。

語音驅動面部動畫技術通過深度分析語音的聲學特征、韻律和情感信息，利用機器學習（ML）算法自動生成與語音同步的逼真面部表情、精準口型和自然頭部動作，為數字角色賦予生命力。近年來，深度學習技術的引入為語音驅動面部動畫技術帶來了重大突破。與傳統(tǒng)的GAN方法相比，基于擴散模型的方法（如DiffTalk[16]、FaceDiffuser[17]等）在訓練過程中更加穩(wěn)定，生成的圖像細節(jié)更加豐富，因此在語音驅動面部動畫任務中展現出巨大潛力。然而，該技術仍面臨時序連貫性不足、唇音異步以及生成效率低等關鍵瓶頸，制約了其在實時應用中的表現。

3基于AIGC技術的動態(tài)分鏡制作流程與實踐

本文構建“角色/場景生成-分鏡合成-動態(tài)分鏡生成”的智能化、自動化創(chuàng)制管線，實現高質量動態(tài)分鏡生成。如圖1所示，該流程主要包括三個步驟：首先，通過基于LoRA[18]微調的Flux模型，快速生成高質量的人物角色，并通過人臉交換技術實現角色面部屬性編輯。然后，采用草圖引導的背景生成技術，通過幾何約束Flux模型精準生成布局合理的電影場景，并通過圖像和諧化技術，將生成的前景角色與背景場景無縫融合。最后，采用動作驅動與語音驅動技術實現角色人體圖像動畫生成和面部表情動畫生成，進而通過視頻生成大模型生成符合電影運鏡規(guī)范的鏡頭序列。

圖1　基于AIGC技術的動態(tài)分鏡制作流程

3.1 角色智能生成與編輯

在角色設計制作流程中，重點突破兩項關鍵技術：（1）提出基于LoRA微調的服飾生成技術，實現符合歷史時代特征的角色形象生成；（2）提出人臉屬性編輯方法GPSwap[19]，支持高分辨率下身份特征與表情的解耦控制。

3.1.1 角色智能生成

本節(jié)以唐代人物角色生成為例，基于自主構建的微調數據集，通過LoRA微調的Flux文生圖大模型，實現面向寫實風格的角色生成。

在數據集構建方面，本文構建了唐代人物形象數據集，用于文生圖大模型微調。數據來源于兩個渠道：（1）中國古代服飾三維數據庫中的多視角渲染圖像[20]；（2）經過篩選的符合歷史風貌的互聯網素材。在數據質量控制方面，通過專業(yè)圖像處理手段去除了字幕、遮擋物等信息，并進行了背景修復處理。最終形成包含227張高分辨率圖像的數據集（圖2），其中162張為完整服飾展示的全身圖像，65張為妝容細節(jié)特寫圖像。為增強模型語義解析能力，本文借助WD14?Tagger自動標注工具[21]，構建了包含服飾形制、首飾特征、妝容樣式、人物類別及風格屬性的多維度標準化標注方法，有效實現了圖像語義特征的精細化描述。

圖2　人物角色數據集

在模型研制方面，通過LoRA微調技術，對預訓練的文生圖模型Flux進行個性化調整，使其能夠更好適應特定領域的文生圖任務，生成高質量寫實風格的唐代仕女圖像。具體地，以flux1?dev.sft預訓練模型[22]為基礎架構，并集成ae.sft變分自編碼器[23]進行特征提取。訓練數據由高分辨率的唐代服飾人像組成，采用高效且穩(wěn)定的PagedAdamW優(yōu)化器[24]，通過調節(jié)LoRA權重系數（0.2~1.0），有效控制不同風格的角色生成。

本文角色生成的結果如圖3所示。模型對復雜紋樣的處理尤為出色，聯珠紋、團花紋等唐代典型紋飾均得到較為準確的還原。生成圖像在細節(jié)表現方面，如紗羅面料的半透明性、錦緞的反光等都得到了真實呈現。同時，額黃、斜紅等唐代特有妝容元素也清晰可辨。

圖3　角色生成圖像

3.1.2 人臉屬性編輯

人臉交換技術作為影視制作領域的重要創(chuàng)新，通過分析源人臉和目標人臉的特征，精準遷移五官輪廓、皮膚紋理等面部特征，同時保留目標人臉的表情、姿態(tài)和外部光照，實現智能化面部特征遷移，可較好解決角色身份一致性問題。

本文采用筆者團隊提出的人臉交換方法GPSwap[19]，該方法創(chuàng)新性地利用StyleGAN的潛在空間特性，通過雙模塊協(xié)同架構實現高質量的人臉交換。該方法主要由面部特征重組（FFR）網絡和圖像重建（IR）模塊組成，在保持高分辨率輸出的同時，有效解決現有技術在特征解耦、訓練穩(wěn)定性和背景融合等方面存在的問題。FFR網絡通過雙路編碼器架構實現身份特征與屬性特征的完全解耦，IR模塊則通過擴展?jié)撛诳臻g和自適應融合算法確保生成質量，共同解決了傳統(tǒng)方法中特征混淆和訓練不穩(wěn)定的技術難題。

如圖4所示，圖4（a）為源人臉，提供眼睛、鼻子等身份特征；圖4（b）為目標人臉，提供表情、姿態(tài)等屬性特征；圖4（c）為生成的交換人臉圖，該圖像包含了源人臉的身份特征和目標人臉的屬性特征。本方法生成的圖像在保持身份特征一致性和圖像自然度方面均表現出色，能夠實現高精度的面部特征轉換和背景融合。需要說明的是，由于人臉數據涉及隱私和版權問題，本文所有實驗均采用AI生成的虛擬人臉進行演示。在實際應用中，這項技術可廣泛應用于影視制作領域。例如當演員無法完成特定鏡頭拍攝時，可通過AI換臉技術將其面部特征無縫移植到替身演員臉上，也可在歷史題材影片中還原已故演員的形象，或為跨國合拍片快速生成不同語言版本的演員面部表情等。

圖4　人臉交換實驗結果

3.2 場景智能生成

本節(jié)圍繞場景智能生成的核心技術展開，重點探討兩項關鍵技術：（1）提出一種多模態(tài)驅動的背景生成框架，通過手繪草圖等圖像引導實現背景的高質量生成；（2）針對合成圖像的真實性問題，設計了粗合成-和諧化的兩階段處理流程，實現前景與背景融合的高質量分鏡合成。

3.2.1 文本/草圖生成背景圖像

本文采用的方法是基于Flux?dev模型，結合ControlNet[25]和LoRA，通過手繪草稿圖、線稿圖或參考圖等三種不同輸入方式實現生成高質量背景圖。具體流程如圖5所示，首先，輸入引導圖片，并搭配文本提示詞（如“傳統(tǒng)中式庭院場景，日落時分，木質建筑，飛檐，紅燈籠懸掛在墻上，大型陶瓷花瓶，石階，溫暖的陽光投下長長的影子”）；之后，利用Flux?dev 模型的自注意力機制融合文本語義與圖像結構信息，并結合 ControlNet 提供結構約束（如 Canny 線稿圖或 Depth 布局）和 LoRA 增強背景建筑風格；最終，生成布局合理的高質量背景圖像。

圖5　文本/草圖生成背景圖像技術流程

圖6　文本/草圖驅動背景圖像生成結果

具體方式上，第一種是通過輸入手繪草稿圖生成，先繪制詳細草稿圖并輸入 Flux，若效果偏卡通風格則轉為 Canny 線稿圖，結合 ControlNet 指導生成更清晰的圖像〔圖6（a）〕；第二種通過輸入Canny 線稿圖生成，從手繪草稿圖或參考圖提取線稿圖，搭配文本提示輸入 Flux，生成結構更準確的圖像〔圖6（b）〕；第三種通過輸入參考圖生成，先找或用 Photoshop 拼接參考圖（如調整墻面顏色、添加石獅），若分辨率不足可通過 Flux?fill 擴圖，再結合 ControlNet 和文本提示生成，效果更穩(wěn)定且易于定制，適用于快速生成符合預期的背景圖像〔圖6（c）〕。

3.2.2 分鏡合成

本文采用粗合成-和諧化兩階段處理，實現前景-背景融合的高質量分鏡合成。

在粗合成階段中，通過Photoshop軟件完成角色與場景的初步合成（圖7）。初步合成的圖像存在光照不一致、陰影錯位、色調失衡及邊緣生硬等問題，導致畫面真實感弱且空間層次割裂。為使合成圖像達到更加逼真、自然的效果，本文采用基于深度學習（DL）的和諧化算法，對光照、色調、色彩與邊緣細節(jié)進行統(tǒng)一處理，以確保合成圖像在視覺上能高度還原真實場景，滿足高質量圖像制作的要求。

圖7　前景-背景粗合成結果

在和諧化處理階段中，針對現有高分辨率圖像協(xié)調方法存在的局部色彩不協(xié)調問題，本文采用了一種基于自適應間隔顏色變換的AICT圖像和諧化方法[12]。本方法將色彩變換建模為逐像素操作，采用局部自適應的方式提升色彩協(xié)調的精細度。通過設計可生成位置敏感的3D查找表（LUT）網絡，將像素坐標與RGB值共同作為輸入，實現空間感知的逐像素顏色映射。采用雙LUT級聯結構實現色彩空間非均勻采樣，前級LUT負責粗粒度調整，后級LUT進行細粒度補償，自適應增強局部非線性表達能力。引入圖像級權重學習模塊，利用全局信息對各局部變換結果進行動態(tài)融合，保證局部調整與整體視覺的和諧統(tǒng)一，從而實現保持視覺一致性的高效圖像和諧化。經本方法處理的結果如圖8所示。

圖8　圖像和諧化后的結果

3.3 動作語音驅動的角色動畫生成

本節(jié)聚焦多模態(tài)驅動技術，通過動作與語音兩類核心輸入實現真實感角色動畫生成：（1）探討基于UniAnimate[15]框架的動作驅動生成方案，通過參考圖像、文本提示、音頻節(jié)奏及動作序列的多模態(tài)輸入，生成時序連貫的人體圖像動畫；（2）采用Diffused Heads模型[26]構建語音頻譜到面部動作的智能映射系統(tǒng)，實現身份一致、唇音精準的高保真面部動畫生成。

3.3.1 動作驅動人體圖像動畫生成

本文基于UniAnimate方法實現高質量人體動畫生成。該方法提出統(tǒng)一的視頻擴散模型架構和基于Mamba的時序建模技術[27]，通過共享特征空間映射機制將參考圖像與目標姿態(tài)序列統(tǒng)一編碼，并利用狀態(tài)空間模型的線性計算復雜度優(yōu)勢處理長序列，顯著提升了生成視頻的時序一致性和長度，在跨域生成任務中展現了優(yōu)異的泛化能力。

如圖9所示，輸入的是一張古裝少女的參考分鏡圖像，該圖像是通過前景角色和背景場景圖像合成。之后搭配文本提示詞、音頻資源、動作序列，生成連貫的、時序一致的角色動畫視頻。

圖9　動作驅動人體圖像動畫生成

3.3.2 語音驅動面部動畫生成

本文采用一種基于擴散模型的語音驅動面部動畫生成方法Diffused Heads[26]，能高效逐幀生成逼真的角色面部動畫視頻。本方法通過一張靜態(tài)的身份幀和一段語音錄音，生成與語音同步的面部動畫。為提升生成結果的流暢性和表現力，引入運動幀和音頻嵌入，分別提供過去幀的運動信息和未來表情的預測信息。此外，還通過嘴型同步損失強制關注嘴部區(qū)域細節(jié)，確保嘴型與語音的高度同步。

如圖10所示，輸入一段語音音頻和一張靜態(tài)角色圖片，生成視頻中的古裝仕女在保持身份特征一致性、表情自然度和唇音同步精度等方面均表現出色，實現了高保真的語音驅動面部動畫生成。

圖10　語音驅動面部動畫生成

3.4 基于大模型的動態(tài)分鏡生成

3.4.1 視頻生成技術流程

本文采用的視頻生成大模型是由騰訊開發(fā)的混元圖生視頻模型HunyuanVideo?I2V[28,29]。這是騰訊團隊于2025年3月6日新發(fā)布的圖生視頻模型，該模型采用標記替換技術，將參考圖像的信息融入視頻生成過程。與HunyuanVideo相同，HunyuanVideo?I2V使用了一個預訓練的多模態(tài)大語言模型（Multi?modal Large Language Models, MLLM）作為文本編碼器，采用僅解碼器結構來提升模型對輸入圖像語義內容的理解能力，并整合圖像及其相關描述中的信息。輸入的圖像先經過MLLM處理生成語義圖像token，然后將這些token與video latent token進行拼接，從而能夠在整合后的數據上進行全面的全注意力計算。

在整體的工作流程（圖11）上，輸入的文本描述會先經過一個CLIP?Large模型進行編碼，再經過一個多層感知機進行處理，處理后的文本信息編碼會與一個正弦編碼結合，正弦編碼用于引入時間步信息，表示視頻幀的順序；輸入的圖像會通過一個MLLM進行編碼，編碼后的圖像信息通過一個Token Refiner進行進一步處理，以增強圖像特征的表達能力；噪聲輸入通過Patchify和Linear層處理，生成初始的潛在表示；接下來，這三部分信息會經過一個雙流 DiT 塊和一個單流 DiT 塊，其中雙流 DiT 塊分別處理圖像和文本特征，使每種模態(tài)能夠學習其適當的調制機制，而互不干擾，在單流階段，圖像和文本特征被連接起來，并輸入到后續(xù)的 DiT 塊中，以實現有效的多模態(tài)信息融合；最終經過 DiT 塊處理后的特征通過一個Modulation層進行調整，以生成最終的輸出潛在表示，再經過一個Linear層和Unpatchify層將潛在表示轉換回圖像空間，最終輸出完整的視頻幀。

圖11　HunyuanVideo?I2V的工作流程

3.4.2 應用案例

本文以古裝影視劇的分鏡制作為例，采用基于ComfyUI的工作流生成動態(tài)分鏡視頻[30]。本文將微調后的Flux模型所生成的唐代仕女圖、文本描述“Keeping the background the same, the girl smiles”作為輸入，在ComfyUI中使用HunyuanVideo?I2V模型輸出了一段視頻，關鍵序列幀如圖12所示。生成的視頻再現了唐代服飾的褶皺變化與唐代仕女微笑時的優(yōu)雅姿態(tài)，視頻中仕女的動作自然流暢，齊胸襦裙保持飄逸美感，為古裝影視創(chuàng)作提供了高效的數字角色解決方案。

圖12　生成視頻關鍵幀序列

通過與傳統(tǒng)影視制作流程的深度融合，制作唐代仕女從靜態(tài)形象到動態(tài)表演的完整數字資產所需的時間和成本顯著降低（例如，生成5 s內24 FPS的視頻平均所需時間小于5 s），為古裝劇的分鏡制作開辟了全新可能性。

4總結與展望

本文通過構建基于AIGC技術的影視動態(tài)分鏡智能生成方法，驗證了“角色/場景生成-分鏡合成-動態(tài)分鏡生成”的智能化、自動化創(chuàng)制管線的可行性。實驗結果證明，基于LoRA微調的Flux模型在保證生成質量的前提下實現了角色造型與服飾的多樣性控制，采用Flux多模態(tài)條件生成技術有效解決了場景構建中空間布局與藝術風格的平衡問題，通過和諧化融合技術有效提高了分鏡圖像質量，應用動作驅動的人體圖像動畫與語音同步的面部動畫技術顯著提升了角色動畫的真實性，以及通過大模型生成高質量的動態(tài)分鏡鏡頭。

本文工作為影視創(chuàng)作者的創(chuàng)意表達提供了一種創(chuàng)新技術范式，通過驗證AIGC技術在影視分鏡制作流程中的應用可行性，為行業(yè)智能化轉型提供了重要參考。未來，隨著AIGC技術與影視創(chuàng)制全流程的深度融合，影視制作流程將進一步簡化，影視創(chuàng)作者得以更專注于藝術表達與創(chuàng)意構思，為內容創(chuàng)作帶來更多可能性，推動AIGC技術在影視領域的規(guī)模化應用。

參考文獻

（向下滑動閱讀）

[1] BLOCK B. The visual story: creating the visual structure of film, TV, and digital media[M]. New York: Routledge, 2020.

[2] KINGMA D P, WELLING M. Auto?encoding variational bayes[EB/OL]. [2025?04?17]. https://arxiv.org/abs/1312.6114.

[3] MILDENHALL B, SRINIVASAN P P, TANCK M, et al. NeRF: Representing scenes as neural radiance fields for view synthesis[EB/OL]. [2025?04?17]. https://arxiv.org/abs/2003.08934.

[4] KERBL B, KOPONEN D M, LAINE S, et al. 3D Gaussian splatting for real?time radiance field rendering[EB/OL]. [2025?04?17]. https://arxiv.org/abs/2308.04079.

[5] ROMBACH R, BLATTMANN A, LORENZ D, et al. High?resolution image synthesis with latent diffusion models[C]//Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2022: 10684?10695.

[6] PODELL D, ENGLISH Z, LACEY K, et al. SDXL: improving latent diffusion models for high?resolution image synthesis[EB/OL]. [2025?04?17]. https://arxiv.org/abs/2307.01952.

[7] TSYDILO I M, SENA C E. Artificial intelligence as a methodological innovation in the training of future designers: Midjourney tools[J]. Information Technologies and Learning Tools, 2023, 97(5): 203.

[8] Flux AI. Flux AI官方網站[EB/OL]. [2025?04?17]. https://flux-ai.io/cn/.

[9] CONG W, ZHANG J, NIU L, et al. DoveNet: deep image harmonization via domain verification[C]//Proceedings of the 2020 IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society, 2020: 8394?8403.

[10] LING J, XUE H, SONG L, et al. Region?aware adaptive instance normalization for image harmonization[C]//Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society, 2021: 9361?9370.

[11] KE Z, SUN C, ZHU L, et al. Harmonizer: learning to perform white?box image and video harmonization[C]//Proceedings of the 2022 European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 690?706.

[12] MENG Q, LI Q, ZHANG L, et al. High?Resolution Image Harmonization with Adaptive?Interval Color Transformation[J]. Advances in Neural Information Processing Systems, 2024, 37: 13769?13793.

[13] KARRAS J, HOLYNSKI A, WANG T C, et al. DreamPose: Fashion image?to?video synthesis via stable diffusion[C]//Proceedings of the 2023 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2023: 22623?22633.

[14] ZHU S, CHEN J L, DAI Z, et al. Champ: Controllable and consistent human image animation with 3D parametric guidance[C]//Proceedings of the 2024 European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024: 145?162.

[15] WANG X, ZHANG S, GAO C, et al. UniAnimate: taming unified video diffusion models for consistent human image animation[EB/OL]. (2024?06?03)[2025?04?17]. https://arxiv.org/abs/2406.01188.

[16] SHEN S, ZHAO W, MENG Z, et al. DiffTalk: Crafting diffusion models for generalized audio?driven portraits animation[C]//Proceedings of the 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2023: 1982?1991.

[17] STAN S, HAQUE K I, YUMAK Z. FaceDiffuser: Speech?driven 3D facial animation synthesis using diffusion[C]//Proceedings of the 16th ACM SIGGRAPH Conference on Motion, Interaction and Games. New York: ACM, 2023: 1?11.

[18] HU E J, SHEN Y, WALLIS P, et al. LoRA: low?rank adaptation of large language models[C]//Proceedings of the 10th International Conference on Learning Representations. Virtual: ICLR, 2022: 1?13.

[19] HUANG D, LIU C, LIU J. GPSwap: High‐resolution face swapping based on StyleGAN prior[J]. Computer Animation and Virtual Worlds, 2024, 35(4): e2238.

[20] 中國服飾文化數據庫. 中國歷代服飾數據集[EB/OL]. [2025?04?17]. http://fushi.bowuyunzhan.com/data.html.

[21] pythongosssss. ComfyUI?WD14?Tagger: WD14 Tagger extension for ComfyUI[EB/OL].[2025?04?17]. https://github.com/pythongosssss/ComfyUI-WD14-Tagger.

[22] BLACK?FOREST?LABS. FLUX?1?dev擴散模型技術文檔[EB/OL]. (2023?05?15) [2025?04?17]. https://huggingface.co/black-forest-labs/FLUX.1-dev.

[23] cocktailpeanut. xulf?dev/ae.sft: 穩(wěn)定擴散微調的自編碼器模型[EB/OL]. [2025?04?17]. https://huggingface.co/cocktailpeanut/xulf-dev/blob/main/ae.sft.

[24] HuggingFace. bitsandbytes: AdamW optimizer implementation[EB/OL]. [2025?04?17]. https://huggingface.co/docs/bitsandbytes/main/reference/optim/adamw.

[25] ZHANG L, RAO A, AGRAWALA M. Adding conditional control to text?to?image diffusion models[C]//Proceedings of the 2023 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2023: 3836?3847.

[26] STYPU?KOWSKI M, VOUGIOUKAS K, HE S, et al. Diffused Heads: diffusion models beat GANs on talking?face generation[C]//Proceedings of the 2024 IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway: IEEE, 2024: 5091?5100.

[27] HU V T, BAUMANN S A, GUI M, et al. Zigma: a DIT?style zigzag mamba diffusion model[C]//Proceedings of the 2024 European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024: 148?166.

[28] KONG W, TIAN Q, ZHANG Z, et al. Hunyuanvideo: a systematic framework for large video generative models[EB/OL]. [2025?04?17]. https://arxiv.org/abs/2412.03603.

[29] 騰訊. HunyuanVideo?I2V: 騰訊混元視頻生成模型開源項目[EB/OL]. [2025?03?06]. https://github.com/Tencent/HunyuanVideo-I2V.

[30] ComfyUI Documentation Team. Hunyuan Video: related models manual installation[EB/OL]. [2025?03?06]. https://docs.comfy.org/advanced/hunyuan-video-related-models-manual-installation.

【項目信息】國家檔案局科技項目“基于知識圖譜的影像檔案結構化數據管理系統(tǒng)研究”(2023?X?036)；上海市人才發(fā)展資金資助項目（2021016）；上海市教委AI賦能科研計劃項目“面向影視的文本驅動3D超寫實虛擬演員智能生成關鍵技術研究”（99?0307?24?102）。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.