字節(jié)跳動(dòng)Seed團(tuán)隊(duì)讓AI畫圖從"差強(qiáng)人意"變"以假亂真"

2026-04-21 21:58:35　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由字節(jié)跳動(dòng)Seed部門完成的研究，以預(yù)印本形式于2026年4月13日發(fā)布于arXiv，論文編號為arXiv:2604.11521，有興趣深入了解的讀者可以通過這個(gè)編號查詢完整論文。

**一、AI畫圖有個(gè)藏了很久的老毛病**

你有沒有注意到，用AI生成圖片的時(shí)候，如果不開什么"引導(dǎo)"功能，出來的圖往往怪怪的？狗的毛發(fā)亂成一團(tuán)，魚缸里的魚像是從噩夢里游出來的，整張圖透著一股說不清道不明的"不對勁"。但一旦開了引導(dǎo)功能，質(zhì)量就蹭蹭上去了——只不過那樣生成的圖，和真實(shí)世界里的數(shù)據(jù)分布已經(jīng)不完全一樣了，像是經(jīng)過了某種美化濾鏡。

這背后有一個(gè)根本性的矛盾，而字節(jié)跳動(dòng)Seed團(tuán)隊(duì)的這篇論文，正是專門沖著解決這個(gè)矛盾去的。

在講他們的解法之前，先得理解主角——流匹配模型（Flow Matching）是怎么工作的?？梢园阉斫獬梢粋€(gè)"流水線導(dǎo)航員"：它的任務(wù)是把一團(tuán)隨機(jī)的噪聲，沿著一條預(yù)先規(guī)劃好的路徑，一步步引導(dǎo)成一張真實(shí)的圖片。這條路徑是固定的，而"導(dǎo)航員"要學(xué)的，是在路徑上的每一個(gè)位置告訴粒子"接下來往哪里走、走多快"，也就是預(yù)測所謂的"速度場"。

訓(xùn)練這個(gè)導(dǎo)航員的方式，是讓它預(yù)測的速度和真實(shí)應(yīng)該走的速度之間的距離盡可能小，用的是最經(jīng)典的方法——?dú)W氏距離，也就是空間中兩點(diǎn)之間最直的那條線的長度。聽起來合情合理，但問題就藏在這里。

歐氏距離衡量的是幾何空間上的遠(yuǎn)近，而真實(shí)圖片其實(shí)分布在一個(gè)極其復(fù)雜、彎彎繞繞的"數(shù)據(jù)流形"上。簡單來說，不是所有在幾何上"近"的圖片，在感知上也"像"。兩張圖在像素值上差不多，但一張可能是正常的金毛獵犬，另一張可能是被壓扁的幽靈獵犬。歐氏距離對這兩種情況一視同仁，但人類的眼睛絕對不會(huì)。

正因如此，當(dāng)模型的容量有限、無法死記硬背所有訓(xùn)練圖片時(shí)，它就會(huì)用歐氏距離來"猜"應(yīng)該生成什么。這種"猜法"不符合真實(shí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)，于是生成的圖就會(huì)偏離正常分布，出現(xiàn)那些叫人看了難受的怪異樣本。這就是導(dǎo)航員雖然在正確的路上走，卻不知道目的地長什么樣的困境。

**二、前人想了哪些辦法，又卡在哪里**

當(dāng)然，不止字節(jié)跳動(dòng)一家在想這個(gè)問題。過去已經(jīng)有幾條思路被嘗試過。

一種思路是換個(gè)空間再做流匹配。把圖片先壓縮到一個(gè)特殊的"表示空間"里，那個(gè)空間的結(jié)構(gòu)比原始像素空間更規(guī)整，流匹配在里面效果就會(huì)好一點(diǎn)。這確實(shí)有用，但本質(zhì)上是換了個(gè)戰(zhàn)場，并沒有直接解決距離度量不對的問題。

另一種思路是換用"黎曼幾何"（Riemannian Geometry），也就是在彎曲的曲面上重新定義距離和路徑。這就像在地球表面上，從北京到紐約的最短路不是直線穿地球，而是沿著地球曲面走的大圓弧。把流匹配搬到這種彎曲空間里，理論上更符合數(shù)據(jù)的真實(shí)分布。但問題是，你得事先知道數(shù)據(jù)流形的形狀才行，而這個(gè)形狀正是我們想學(xué)習(xí)的東西——雞生蛋還是蛋生雞的死循環(huán)。

還有一種思路是用一個(gè)預(yù)先訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)來充當(dāng)"感知距離計(jì)"，讓模型的訓(xùn)練目標(biāo)從歐氏距離換成這個(gè)網(wǎng)絡(luò)認(rèn)為的"像不像"。深層神經(jīng)網(wǎng)絡(luò)確實(shí)比像素距離更擅長判斷兩張圖在感知上的差距，麻省理工等機(jī)構(gòu)的研究者早就驗(yàn)證了這一點(diǎn)。但固定的距離計(jì)有個(gè)致命弱點(diǎn)：生成模型會(huì)慢慢摸清它的規(guī)律，找到各種"走捷徑"的方式來欺騙它，讓生成圖在這個(gè)距離計(jì)的眼里看起來很棒，但在真實(shí)人眼里依然奇怪。

解決"被欺騙"問題的自然延伸，是讓這個(gè)距離計(jì)和生成模型一起訓(xùn)練，互相博弈——你學(xué)著生成，我學(xué)著分辨，誰也別想一勞永逸地騙過對方。這就是生成對抗網(wǎng)絡(luò)（GAN）的核心思想，由深度學(xué)習(xí)先驅(qū)伊恩·古德費(fèi)洛在2014年提出。GAN的鑒別器在圖片的紋理、清晰度、輪廓等感知細(xì)節(jié)上表現(xiàn)出色，在ImageNet等圖像生成基準(zhǔn)上屢創(chuàng)佳績，也被廣泛應(yīng)用于流模型的"蒸餾加速"——通過對抗訓(xùn)練讓模型用極少步數(shù)就生成高質(zhì)量圖片。

在GAN和流模型的融合方向上，此前已經(jīng)有"對抗流模型"（AFM）的工作存在，它把對抗訓(xùn)練引入了離散時(shí)間的流模型，取得了不錯(cuò)的效果。但AFM在時(shí)間步長無限縮小的時(shí)候會(huì)不穩(wěn)定，根本上無法推廣到連續(xù)時(shí)間的流建?？蚣?。這個(gè)空白，就是本文想要填補(bǔ)的。

**三、核心創(chuàng)新：讓鑒別器學(xué)會(huì)"分辨速度"而非"分辨圖片"**

字節(jié)跳動(dòng)Seed團(tuán)隊(duì)提出的方法叫做"連續(xù)對抗流模型"（Continuous Adversarial Flow Models，簡稱CAFM）。它的核心創(chuàng)新點(diǎn)，是徹底解決了如何在連續(xù)時(shí)間框架下做對抗訓(xùn)練的問題。

在普通的GAN里，鑒別器看的是生成的圖片本身，判斷它是真是假。在離散時(shí)間的AFM里，鑒別器看的是從一個(gè)時(shí)間步跳到另一個(gè)時(shí)間步的"傳輸結(jié)果"。但在CAFM要處理的連續(xù)時(shí)間流中，基本單元不再是有限的"步"，而是一個(gè)瞬間的"速度"——也就是粒子在路徑上某一刻應(yīng)該往哪走、走多快這個(gè)向量。

速度是位置對時(shí)間的導(dǎo)數(shù)，它是個(gè)方向和大小都隨時(shí)變化的東西，你沒法直接把它塞進(jìn)一個(gè)普通的鑒別器里說"你來分辨這個(gè)速度是真是假"。那怎么辦？

團(tuán)隊(duì)想到的方法非常精妙，用到了數(shù)學(xué)里一個(gè)叫"雅可比-向量積"（Jacobian-Vector Product，JVP）的工具。先不管這個(gè)名字，用一個(gè)直覺來理解：鑒別器D本質(zhì)上是一個(gè)把空間中的每個(gè)點(diǎn)映射到一個(gè)數(shù)值的"勢場"——就像地圖上的海拔高度圖，每個(gè)位置對應(yīng)一個(gè)高度數(shù)字。在這個(gè)勢場里，一個(gè)向量（速度）的"好壞"，可以用它沿著該速度方向前進(jìn)時(shí)勢場高度的變化率來衡量。如果朝著某個(gè)方向走，勢場高度上升很快，那這個(gè)方向就是"好的方向"。

JVP干的正是這件事：它計(jì)算的是當(dāng)你站在空間中某個(gè)位置，沿著某個(gè)給定方向（速度向量）前進(jìn)時(shí)，鑒別器的值會(huì)以多快的速度變化。這個(gè)變化率本身是個(gè)標(biāo)量（一個(gè)單獨(dú)的數(shù)），就可以被當(dāng)作鑒別器的輸出來使用了。

具體來說，訓(xùn)練時(shí)的對抗游戲是這樣進(jìn)行的：鑒別器D被訓(xùn)練成，對于真實(shí)的條件速度（標(biāo)準(zhǔn)答案），JVP輸出接近+1；對于生成模型G預(yù)測的速度，JVP輸出接近-1。與此同時(shí)，生成模型G被訓(xùn)練成讓自己預(yù)測的速度在鑒別器眼里越來越像真實(shí)速度——也就是讓JVP輸出盡量接近+1。

這個(gè)設(shè)計(jì)有一個(gè)非常優(yōu)雅的性質(zhì)：鑒別器現(xiàn)在看的不再是圖片或者某個(gè)中間狀態(tài)，而是整條流路徑的"局部方向偏好"。而且，由于JVP是線性的（它只是在當(dāng)前點(diǎn)對速度做線性近似），對整條路徑上所有點(diǎn)的JVP做積分，恰好等于鑒別器在路徑終點(diǎn)和起點(diǎn)的值之差。這意味著鑒別器在全局路徑上的判斷是自洽的，不會(huì)出現(xiàn)互相矛盾的評價(jià)。

為了防止訓(xùn)練過程中一些不穩(wěn)定的現(xiàn)象，團(tuán)隊(duì)還加入了幾個(gè)輔助的正則化項(xiàng)。一個(gè)叫"中心化懲罰"，因?yàn)镴VP只約束了鑒別器的導(dǎo)數(shù)，而鑒別器本身的絕對值是自由漂移的，需要把它拉回到零附近。另一個(gè)叫"最優(yōu)傳輸正則化"，它鼓勵(lì)生成模型在預(yù)測速度時(shí)傾向于選擇范數(shù)最小的方向，這和物理上最省力路徑的直覺相符，有助于在高維空間里防止模型利用鑒別器的"盲區(qū)"走捷徑。

還有一個(gè)工程細(xì)節(jié)同樣重要：對抗訓(xùn)練歷來有個(gè)"梯度消失"的問題，就是當(dāng)真實(shí)數(shù)據(jù)和生成數(shù)據(jù)的分布差得太遠(yuǎn)、沒有重疊時(shí)，鑒別器能輕松分辨二者，于是給生成模型的梯度信號就近乎為零，學(xué)習(xí)陷入停滯。JVP的線性化特性在數(shù)學(xué)上保證了這個(gè)問題不會(huì)發(fā)生——只要生成的速度和真實(shí)速度不同，鑒別器的雅可比矩陣就會(huì)給出非零梯度，學(xué)習(xí)信號始終存在。因此，CAFM無需像AFM那樣依賴梯度懲罰和鑒別器重置等繁瑣的補(bǔ)丁措施。

**四、工程落地：如何讓這套方法真正跑起來**

從數(shù)學(xué)原理到能在GPU集群上運(yùn)行，還需要一系列工程決策。

JVP的計(jì)算在現(xiàn)代深度學(xué)習(xí)框架里并不復(fù)雜——PyTorch的`torch.func.jvp`函數(shù)支持前向模式自動(dòng)微分，可以在一次前向傳播中同時(shí)算出鑒別器的輸出值和JVP值，非常高效。更妙的是，訓(xùn)練鑒別器時(shí)需要同時(shí)用真實(shí)速度和生成速度各算一次JVP，利用向量化映射（`vmap`）可以把這兩次計(jì)算批量并行處理，無需跑兩遍網(wǎng)絡(luò)。

在網(wǎng)絡(luò)架構(gòu)上，生成模型G和原來的流匹配模型完全一樣，沒有任何改動(dòng)，直接復(fù)用現(xiàn)有架構(gòu)。鑒別器D則采用和G相同的變換器（Transformer）架構(gòu)，但有一個(gè)關(guān)鍵修改：把所有的層歸一化（LayerNorm）替換成均方根歸一化（RMSNorm）。這個(gè)看似微小的改動(dòng)極大提升了訓(xùn)練穩(wěn)定性。實(shí)驗(yàn)發(fā)現(xiàn)，LayerNorm在JVP計(jì)算過程中會(huì)產(chǎn)生巨大的梯度尖峰，而RMSNorm則完全沒有這個(gè)問題。這與其他涉及JVP計(jì)算的工作中的發(fā)現(xiàn)一致。

在訓(xùn)練策略上，團(tuán)隊(duì)采用了"N步鑒別器更新，1步生成器更新"的節(jié)奏，即每更新一次生成模型，就把鑒別器單獨(dú)訓(xùn)練N步，讓鑒別器始終保持在一個(gè)接近最優(yōu)的狀態(tài)。實(shí)驗(yàn)表明N=16是個(gè)合適的選擇——太少（N=8）會(huì)導(dǎo)致鑒別器跟不上生成模型而訓(xùn)練發(fā)散，太多（N=32）則會(huì)使生成模型學(xué)得太慢。

大規(guī)模分布式訓(xùn)練方面，JVP和vmap能夠與PyTorch的多機(jī)并行訓(xùn)練框架（DDP、FSDP）以及梯度檢查點(diǎn)（用于節(jié)省顯存）完美配合，唯一需要注意的是包裝順序：應(yīng)該是`ddp(jvp(D))`而非`jvp(ddp(D))`，前者讓JVP只包裹網(wǎng)絡(luò)本身，后者則會(huì)把JVP套在包含梯度同步邏輯的分布式包裝器上，造成不兼容。

**五、主要用途是"后訓(xùn)練"而非從頭訓(xùn)練**

CAFM有一個(gè)非常實(shí)際的定位：它主要被設(shè)計(jì)為對現(xiàn)有流匹配模型的"后訓(xùn)練"工具，而非替代從頭訓(xùn)練。

道理很簡單：CAFM和標(biāo)準(zhǔn)流匹配在理論上收斂到同一個(gè)"真實(shí)速度場"，兩者的本質(zhì)區(qū)別只在于有限容量的模型如何"泛化"——也就是在見過的訓(xùn)練樣本之外，如何應(yīng)對新的情況。既然目標(biāo)相同，就沒必要從零開始，完全可以先用標(biāo)準(zhǔn)流匹配把模型訓(xùn)練到一個(gè)不錯(cuò)的狀態(tài)，再切換到CAFM目標(biāo)進(jìn)行微調(diào)，讓模型的泛化方向從"歐氏距離最近"調(diào)整為"感知距離最近"。

從頭用CAFM訓(xùn)練也是可以的，團(tuán)隊(duì)也做了這個(gè)實(shí)驗(yàn)。但結(jié)果符合預(yù)期：在相同的訓(xùn)練輪次下，CAFM從頭訓(xùn)練的收斂速度比標(biāo)準(zhǔn)流匹配慢——畢竟額外引入了鑒別器和JVP計(jì)算，計(jì)算開銷約是標(biāo)準(zhǔn)流匹配的4.8倍。而且從頭訓(xùn)練時(shí)需要精心調(diào)節(jié)最優(yōu)傳輸正則化的權(quán)重λ和鑒別器更新步數(shù)N，隨著訓(xùn)練進(jìn)行，λ應(yīng)逐漸減小，N應(yīng)逐漸增大，才能獲得最佳效果。相比之下，后訓(xùn)練只需10個(gè)訓(xùn)練輪次，設(shè)置λ=0（完全關(guān)閉最優(yōu)傳輸正則化），就能獲得顯著的性能提升，簡單得多。

**六、ImageNet實(shí)驗(yàn)：數(shù)字說明一切**

團(tuán)隊(duì)在最經(jīng)典的圖像生成基準(zhǔn)——ImageNet 256像素分類條件生成任務(wù)上驗(yàn)證了CAFM的效果，測試對象是兩個(gè)有代表性的流匹配模型。

第一個(gè)是SiT-XL/2，一個(gè)在SD-VAE潛在空間（也就是把圖片壓縮成更小的表示再處理）中運(yùn)行的模型。它有6.75億參數(shù)，已經(jīng)過1400個(gè)訓(xùn)練輪次的標(biāo)準(zhǔn)流匹配預(yù)訓(xùn)練。用CAFM對它進(jìn)行10個(gè)輪次的后訓(xùn)練后，在不使用任何引導(dǎo)的情況下，衡量生成質(zhì)量的FID分?jǐn)?shù)（越低越好，越接近真實(shí)圖片分布越好）從8.26驟降至3.63——這是一個(gè)質(zhì)的飛躍，相當(dāng)于僅用極小的額外訓(xùn)練代價(jià)就幾乎將"出戲感"減半。同期做的對照實(shí)驗(yàn)表明，用標(biāo)準(zhǔn)流匹配再繼續(xù)訓(xùn)練10個(gè)輪次反而讓FID從8.26微升到8.64，說明這個(gè)提升完全來自CAFM目標(biāo)本身，而非額外的訓(xùn)練數(shù)據(jù)或輪次。

在有引導(dǎo)的情況下，CAFM同樣表現(xiàn)出色。掃描一系列引導(dǎo)強(qiáng)度（CFG）發(fā)現(xiàn)，CAFM在CFG=1.3時(shí)就能達(dá)到最優(yōu)FID=1.53，而原始SiT需要CFG=1.5才能達(dá)到2.06。這意味著CAFM不僅在無引導(dǎo)時(shí)更接近真實(shí)分布，還讓引導(dǎo)變得更高效——需要的引導(dǎo)強(qiáng)度更小，得到的質(zhì)量卻更好。

第二個(gè)測試對象是JiT-H/16，一個(gè)直接在像素空間（不經(jīng)過潛在空間壓縮）運(yùn)行的模型，有9.56億參數(shù)，已經(jīng)過600個(gè)訓(xùn)練輪次的預(yù)訓(xùn)練。CAFM后訓(xùn)練同樣10個(gè)輪次，無引導(dǎo)FID從7.17降至3.57，最佳引導(dǎo)FID從1.86降至1.80。

與同期其他方法的橫向?qū)Ρ雀苷f明問題。在SD-VAE潛在空間模型中，同樣使用DiT架構(gòu)和類似訓(xùn)練設(shè)置的各方法中，CAFM的無引導(dǎo)FID（3.63）超過了DiT-XL/2的9.62、SiT的8.26、加入特殊正則化的SiT+Disperse的7.43，以及引入了表示對齊技術(shù)的SiT+REPA的5.90（后者借助了DINOv2這個(gè)強(qiáng)大的預(yù)訓(xùn)練視覺模型）。在有引導(dǎo)的情況下，CAFM的1.53也優(yōu)于SiT+Disperse的1.97和原始SiT的2.06，只遜于同樣借助DINOv2的SiT+REPA（1.42）和DDT-XL（1.26）。

**七、文生圖實(shí)驗(yàn)：從工廠級到產(chǎn)品級**

ImageNet實(shí)驗(yàn)驗(yàn)證了方法的可行性，而真正的"戰(zhàn)場"在于實(shí)際產(chǎn)品中廣泛使用的文生圖模型。團(tuán)隊(duì)選擇在Z-Image上進(jìn)行后訓(xùn)練實(shí)驗(yàn)——這是字節(jié)跳動(dòng)開源的、擁有60億參數(shù)的單流擴(kuò)散變換器，是一個(gè)真正產(chǎn)品級規(guī)模的模型。

實(shí)驗(yàn)設(shè)計(jì)同樣注重公平性。由于Z-Image的原始訓(xùn)練數(shù)據(jù)不可獲取，團(tuán)隊(duì)用了自己整理的開源自然圖像數(shù)據(jù)集。為了排除數(shù)據(jù)集差異對結(jié)果的干擾，他們先用標(biāo)準(zhǔn)流匹配在這批數(shù)據(jù)上微調(diào)Z-Image訓(xùn)練1萬次迭代，再分兩路：一路繼續(xù)用流匹配訓(xùn)練，另一路切換到CAFM訓(xùn)練，兩路都跑到同樣的總迭代次數(shù)，然后對比。

在鑒別器架構(gòu)上，這次沒有在輸入端加入分類標(biāo)記，而是在最后一層的視覺特征上加了一個(gè)交叉注意力層來輸出鑒別分?jǐn)?shù)，這樣主干網(wǎng)絡(luò)可以完全保持不變，改動(dòng)最小。

GenEval基準(zhǔn)（測試文生圖對各種細(xì)粒度視覺語義的理解，如兩個(gè)物體、顏色屬性、空間位置、計(jì)數(shù)等）和DPG基準(zhǔn)（測試圖像與復(fù)雜文本描述的一致性）的結(jié)果顯示，CAFM后訓(xùn)練顯著提升了無引導(dǎo)生成的質(zhì)量。在有提示詞擴(kuò)展且有引導(dǎo)的完整配置下，CAFM的GenEval總分從0.81提升至0.85，DPG總分從83.7提升至85.2。在兩個(gè)物體、顏色屬性、位置理解等細(xì)粒度指標(biāo)上，提升尤為明顯，反映出CAFM確實(shí)讓模型對復(fù)雜語義場景的理解更準(zhǔn)確、生成更到位。

**八、方法的局限與邊界**

研究團(tuán)隊(duì)也坦誠地指出了方法的局限。CAFM在經(jīng)驗(yàn)上確實(shí)能讓模型的泛化更接近真實(shí)數(shù)據(jù)分布，但無法從理論上保證它能完美覆蓋低密度區(qū)域，也就是那些在訓(xùn)練數(shù)據(jù)中很罕見的特殊情況。文生圖實(shí)驗(yàn)的失敗案例也印證了這一點(diǎn)：對于"四支筆圍成一個(gè)矩形，中間五支鉛筆排成圓圈"這樣極度精細(xì)的空間計(jì)數(shù)描述，無引導(dǎo)的CAFM生成結(jié)果依然會(huì)出錯(cuò)，需要加上引導(dǎo)才能勉強(qiáng)處理。

這說明CAFM改善了模型的泛化方向，但沒有神奇地解決所有問題。引導(dǎo)作為一種"低溫采樣"技術(shù)，可以和CAFM疊加使用，正交互補(bǔ)。實(shí)驗(yàn)數(shù)據(jù)也確認(rèn)，在有引導(dǎo)的情況下，CAFM的底層模型質(zhì)量提升會(huì)同樣傳遞到引導(dǎo)生成的結(jié)果上。

歸根結(jié)底，字節(jié)跳動(dòng)Seed團(tuán)隊(duì)這項(xiàng)工作解決的是流匹配模型一個(gè)根本性的訓(xùn)練目標(biāo)問題：與其用直尺量感知距離，不如訓(xùn)練一個(gè)懂感知的裁判來打分。通過將對抗訓(xùn)練優(yōu)雅地?cái)U(kuò)展到連續(xù)時(shí)間框架，并用JVP將鑒別器錨定在流速度場的導(dǎo)數(shù)空間中，他們在不改變模型架構(gòu)、不增加推理成本的前提下，讓AI生成的圖片更自然地融入了真實(shí)圖像的世界。

Q&A

Q1：CAFM和普通流匹配模型有什么本質(zhì)區(qū)別？

A：兩者都在學(xué)習(xí)同一條從噪聲到圖片的路徑，理論上收斂到同一個(gè)速度場。本質(zhì)區(qū)別在于訓(xùn)練目標(biāo)不同：普通流匹配用歐氏距離衡量速度預(yù)測的好壞，這種距離不符合圖像感知規(guī)律；CAFM引入了一個(gè)和生成模型一起訓(xùn)練的鑒別器，用感知質(zhì)量來評判速度預(yù)測的好壞。這種差異不影響模型結(jié)構(gòu)，只影響"泛化方向"，所以CAFM可以直接對已有的流匹配模型做后訓(xùn)練，不用從頭來過。

Q2：CAFM使用的JVP技術(shù)是什么，為什么要這么設(shè)計(jì)？

A：JVP（雅可比-向量積）本質(zhì)上是計(jì)算一個(gè)函數(shù)在某個(gè)方向上的變化率。CAFM的鑒別器是一個(gè)把圖片位置映射到標(biāo)量勢能的函數(shù)，JVP則計(jì)算這個(gè)勢能沿某個(gè)速度方向的變化率。這樣鑒別器就能直接對速度向量好壞進(jìn)行打分，而不需要看圖片本身。這個(gè)設(shè)計(jì)的好處在于：數(shù)學(xué)上自洽、訓(xùn)練中不會(huì)出現(xiàn)梯度消失、還能保證鑒別器對整條生成路徑的判斷前后一致。

Q3：CAFM后訓(xùn)練大概需要多少計(jì)算資源？

A：以ImageNet上SiT-XL/2模型的實(shí)驗(yàn)為例，后訓(xùn)練只需要10個(gè)訓(xùn)練輪次，批次大小256，學(xué)習(xí)率1e-5，整體設(shè)置非常輕量。但由于引入了鑒別器網(wǎng)絡(luò)以及JVP的前向和反向計(jì)算，每個(gè)輪次的墻鐘時(shí)間約是標(biāo)準(zhǔn)流匹配的4.8倍。綜合來看，相對于從頭訓(xùn)練一個(gè)大模型，這點(diǎn)額外開銷對于后訓(xùn)練場景是完全可以接受的。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.