国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

字節(jié)跳動(dòng)Seed團(tuán)隊(duì)讓AI畫圖從"差強(qiáng)人意"變"以假亂真"

0
分享至


這項(xiàng)由字節(jié)跳動(dòng)Seed部門完成的研究,以預(yù)印本形式于2026年4月13日發(fā)布于arXiv,論文編號為arXiv:2604.11521,有興趣深入了解的讀者可以通過這個(gè)編號查詢完整論文。

**一、AI畫圖有個(gè)藏了很久的老毛病**

你有沒有注意到,用AI生成圖片的時(shí)候,如果不開什么"引導(dǎo)"功能,出來的圖往往怪怪的?狗的毛發(fā)亂成一團(tuán),魚缸里的魚像是從噩夢里游出來的,整張圖透著一股說不清道不明的"不對勁"。但一旦開了引導(dǎo)功能,質(zhì)量就蹭蹭上去了——只不過那樣生成的圖,和真實(shí)世界里的數(shù)據(jù)分布已經(jīng)不完全一樣了,像是經(jīng)過了某種美化濾鏡。

這背后有一個(gè)根本性的矛盾,而字節(jié)跳動(dòng)Seed團(tuán)隊(duì)的這篇論文,正是專門沖著解決這個(gè)矛盾去的。

在講他們的解法之前,先得理解主角——流匹配模型(Flow Matching)是怎么工作的??梢园阉斫獬梢粋€(gè)"流水線導(dǎo)航員":它的任務(wù)是把一團(tuán)隨機(jī)的噪聲,沿著一條預(yù)先規(guī)劃好的路徑,一步步引導(dǎo)成一張真實(shí)的圖片。這條路徑是固定的,而"導(dǎo)航員"要學(xué)的,是在路徑上的每一個(gè)位置告訴粒子"接下來往哪里走、走多快",也就是預(yù)測所謂的"速度場"。

訓(xùn)練這個(gè)導(dǎo)航員的方式,是讓它預(yù)測的速度和真實(shí)應(yīng)該走的速度之間的距離盡可能小,用的是最經(jīng)典的方法——?dú)W氏距離,也就是空間中兩點(diǎn)之間最直的那條線的長度。聽起來合情合理,但問題就藏在這里。

歐氏距離衡量的是幾何空間上的遠(yuǎn)近,而真實(shí)圖片其實(shí)分布在一個(gè)極其復(fù)雜、彎彎繞繞的"數(shù)據(jù)流形"上。簡單來說,不是所有在幾何上"近"的圖片,在感知上也"像"。兩張圖在像素值上差不多,但一張可能是正常的金毛獵犬,另一張可能是被壓扁的幽靈獵犬。歐氏距離對這兩種情況一視同仁,但人類的眼睛絕對不會(huì)。

正因如此,當(dāng)模型的容量有限、無法死記硬背所有訓(xùn)練圖片時(shí),它就會(huì)用歐氏距離來"猜"應(yīng)該生成什么。這種"猜法"不符合真實(shí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu),于是生成的圖就會(huì)偏離正常分布,出現(xiàn)那些叫人看了難受的怪異樣本。這就是導(dǎo)航員雖然在正確的路上走,卻不知道目的地長什么樣的困境。

**二、前人想了哪些辦法,又卡在哪里**

當(dāng)然,不止字節(jié)跳動(dòng)一家在想這個(gè)問題。過去已經(jīng)有幾條思路被嘗試過。

一種思路是換個(gè)空間再做流匹配。把圖片先壓縮到一個(gè)特殊的"表示空間"里,那個(gè)空間的結(jié)構(gòu)比原始像素空間更規(guī)整,流匹配在里面效果就會(huì)好一點(diǎn)。這確實(shí)有用,但本質(zhì)上是換了個(gè)戰(zhàn)場,并沒有直接解決距離度量不對的問題。

另一種思路是換用"黎曼幾何"(Riemannian Geometry),也就是在彎曲的曲面上重新定義距離和路徑。這就像在地球表面上,從北京到紐約的最短路不是直線穿地球,而是沿著地球曲面走的大圓弧。把流匹配搬到這種彎曲空間里,理論上更符合數(shù)據(jù)的真實(shí)分布。但問題是,你得事先知道數(shù)據(jù)流形的形狀才行,而這個(gè)形狀正是我們想學(xué)習(xí)的東西——雞生蛋還是蛋生雞的死循環(huán)。

還有一種思路是用一個(gè)預(yù)先訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)來充當(dāng)"感知距離計(jì)",讓模型的訓(xùn)練目標(biāo)從歐氏距離換成這個(gè)網(wǎng)絡(luò)認(rèn)為的"像不像"。深層神經(jīng)網(wǎng)絡(luò)確實(shí)比像素距離更擅長判斷兩張圖在感知上的差距,麻省理工等機(jī)構(gòu)的研究者早就驗(yàn)證了這一點(diǎn)。但固定的距離計(jì)有個(gè)致命弱點(diǎn):生成模型會(huì)慢慢摸清它的規(guī)律,找到各種"走捷徑"的方式來欺騙它,讓生成圖在這個(gè)距離計(jì)的眼里看起來很棒,但在真實(shí)人眼里依然奇怪。

解決"被欺騙"問題的自然延伸,是讓這個(gè)距離計(jì)和生成模型一起訓(xùn)練,互相博弈——你學(xué)著生成,我學(xué)著分辨,誰也別想一勞永逸地騙過對方。這就是生成對抗網(wǎng)絡(luò)(GAN)的核心思想,由深度學(xué)習(xí)先驅(qū)伊恩·古德費(fèi)洛在2014年提出。GAN的鑒別器在圖片的紋理、清晰度、輪廓等感知細(xì)節(jié)上表現(xiàn)出色,在ImageNet等圖像生成基準(zhǔn)上屢創(chuàng)佳績,也被廣泛應(yīng)用于流模型的"蒸餾加速"——通過對抗訓(xùn)練讓模型用極少步數(shù)就生成高質(zhì)量圖片。

在GAN和流模型的融合方向上,此前已經(jīng)有"對抗流模型"(AFM)的工作存在,它把對抗訓(xùn)練引入了離散時(shí)間的流模型,取得了不錯(cuò)的效果。但AFM在時(shí)間步長無限縮小的時(shí)候會(huì)不穩(wěn)定,根本上無法推廣到連續(xù)時(shí)間的流建??蚣?。這個(gè)空白,就是本文想要填補(bǔ)的。

**三、核心創(chuàng)新:讓鑒別器學(xué)會(huì)"分辨速度"而非"分辨圖片"**

字節(jié)跳動(dòng)Seed團(tuán)隊(duì)提出的方法叫做"連續(xù)對抗流模型"(Continuous Adversarial Flow Models,簡稱CAFM)。它的核心創(chuàng)新點(diǎn),是徹底解決了如何在連續(xù)時(shí)間框架下做對抗訓(xùn)練的問題。

在普通的GAN里,鑒別器看的是生成的圖片本身,判斷它是真是假。在離散時(shí)間的AFM里,鑒別器看的是從一個(gè)時(shí)間步跳到另一個(gè)時(shí)間步的"傳輸結(jié)果"。但在CAFM要處理的連續(xù)時(shí)間流中,基本單元不再是有限的"步",而是一個(gè)瞬間的"速度"——也就是粒子在路徑上某一刻應(yīng)該往哪走、走多快這個(gè)向量。

速度是位置對時(shí)間的導(dǎo)數(shù),它是個(gè)方向和大小都隨時(shí)變化的東西,你沒法直接把它塞進(jìn)一個(gè)普通的鑒別器里說"你來分辨這個(gè)速度是真是假"。那怎么辦?

團(tuán)隊(duì)想到的方法非常精妙,用到了數(shù)學(xué)里一個(gè)叫"雅可比-向量積"(Jacobian-Vector Product,JVP)的工具。先不管這個(gè)名字,用一個(gè)直覺來理解:鑒別器D本質(zhì)上是一個(gè)把空間中的每個(gè)點(diǎn)映射到一個(gè)數(shù)值的"勢場"——就像地圖上的海拔高度圖,每個(gè)位置對應(yīng)一個(gè)高度數(shù)字。在這個(gè)勢場里,一個(gè)向量(速度)的"好壞",可以用它沿著該速度方向前進(jìn)時(shí)勢場高度的變化率來衡量。如果朝著某個(gè)方向走,勢場高度上升很快,那這個(gè)方向就是"好的方向"。

JVP干的正是這件事:它計(jì)算的是當(dāng)你站在空間中某個(gè)位置,沿著某個(gè)給定方向(速度向量)前進(jìn)時(shí),鑒別器的值會(huì)以多快的速度變化。這個(gè)變化率本身是個(gè)標(biāo)量(一個(gè)單獨(dú)的數(shù)),就可以被當(dāng)作鑒別器的輸出來使用了。

具體來說,訓(xùn)練時(shí)的對抗游戲是這樣進(jìn)行的:鑒別器D被訓(xùn)練成,對于真實(shí)的條件速度(標(biāo)準(zhǔn)答案),JVP輸出接近+1;對于生成模型G預(yù)測的速度,JVP輸出接近-1。與此同時(shí),生成模型G被訓(xùn)練成讓自己預(yù)測的速度在鑒別器眼里越來越像真實(shí)速度——也就是讓JVP輸出盡量接近+1。

這個(gè)設(shè)計(jì)有一個(gè)非常優(yōu)雅的性質(zhì):鑒別器現(xiàn)在看的不再是圖片或者某個(gè)中間狀態(tài),而是整條流路徑的"局部方向偏好"。而且,由于JVP是線性的(它只是在當(dāng)前點(diǎn)對速度做線性近似),對整條路徑上所有點(diǎn)的JVP做積分,恰好等于鑒別器在路徑終點(diǎn)和起點(diǎn)的值之差。這意味著鑒別器在全局路徑上的判斷是自洽的,不會(huì)出現(xiàn)互相矛盾的評價(jià)。

為了防止訓(xùn)練過程中一些不穩(wěn)定的現(xiàn)象,團(tuán)隊(duì)還加入了幾個(gè)輔助的正則化項(xiàng)。一個(gè)叫"中心化懲罰",因?yàn)镴VP只約束了鑒別器的導(dǎo)數(shù),而鑒別器本身的絕對值是自由漂移的,需要把它拉回到零附近。另一個(gè)叫"最優(yōu)傳輸正則化",它鼓勵(lì)生成模型在預(yù)測速度時(shí)傾向于選擇范數(shù)最小的方向,這和物理上最省力路徑的直覺相符,有助于在高維空間里防止模型利用鑒別器的"盲區(qū)"走捷徑。

還有一個(gè)工程細(xì)節(jié)同樣重要:對抗訓(xùn)練歷來有個(gè)"梯度消失"的問題,就是當(dāng)真實(shí)數(shù)據(jù)和生成數(shù)據(jù)的分布差得太遠(yuǎn)、沒有重疊時(shí),鑒別器能輕松分辨二者,于是給生成模型的梯度信號就近乎為零,學(xué)習(xí)陷入停滯。JVP的線性化特性在數(shù)學(xué)上保證了這個(gè)問題不會(huì)發(fā)生——只要生成的速度和真實(shí)速度不同,鑒別器的雅可比矩陣就會(huì)給出非零梯度,學(xué)習(xí)信號始終存在。因此,CAFM無需像AFM那樣依賴梯度懲罰和鑒別器重置等繁瑣的補(bǔ)丁措施。

**四、工程落地:如何讓這套方法真正跑起來**

從數(shù)學(xué)原理到能在GPU集群上運(yùn)行,還需要一系列工程決策。

JVP的計(jì)算在現(xiàn)代深度學(xué)習(xí)框架里并不復(fù)雜——PyTorch的`torch.func.jvp`函數(shù)支持前向模式自動(dòng)微分,可以在一次前向傳播中同時(shí)算出鑒別器的輸出值和JVP值,非常高效。更妙的是,訓(xùn)練鑒別器時(shí)需要同時(shí)用真實(shí)速度和生成速度各算一次JVP,利用向量化映射(`vmap`)可以把這兩次計(jì)算批量并行處理,無需跑兩遍網(wǎng)絡(luò)。

在網(wǎng)絡(luò)架構(gòu)上,生成模型G和原來的流匹配模型完全一樣,沒有任何改動(dòng),直接復(fù)用現(xiàn)有架構(gòu)。鑒別器D則采用和G相同的變換器(Transformer)架構(gòu),但有一個(gè)關(guān)鍵修改:把所有的層歸一化(LayerNorm)替換成均方根歸一化(RMSNorm)。這個(gè)看似微小的改動(dòng)極大提升了訓(xùn)練穩(wěn)定性。實(shí)驗(yàn)發(fā)現(xiàn),LayerNorm在JVP計(jì)算過程中會(huì)產(chǎn)生巨大的梯度尖峰,而RMSNorm則完全沒有這個(gè)問題。這與其他涉及JVP計(jì)算的工作中的發(fā)現(xiàn)一致。

在訓(xùn)練策略上,團(tuán)隊(duì)采用了"N步鑒別器更新,1步生成器更新"的節(jié)奏,即每更新一次生成模型,就把鑒別器單獨(dú)訓(xùn)練N步,讓鑒別器始終保持在一個(gè)接近最優(yōu)的狀態(tài)。實(shí)驗(yàn)表明N=16是個(gè)合適的選擇——太少(N=8)會(huì)導(dǎo)致鑒別器跟不上生成模型而訓(xùn)練發(fā)散,太多(N=32)則會(huì)使生成模型學(xué)得太慢。

大規(guī)模分布式訓(xùn)練方面,JVP和vmap能夠與PyTorch的多機(jī)并行訓(xùn)練框架(DDP、FSDP)以及梯度檢查點(diǎn)(用于節(jié)省顯存)完美配合,唯一需要注意的是包裝順序:應(yīng)該是`ddp(jvp(D))`而非`jvp(ddp(D))`,前者讓JVP只包裹網(wǎng)絡(luò)本身,后者則會(huì)把JVP套在包含梯度同步邏輯的分布式包裝器上,造成不兼容。

**五、主要用途是"后訓(xùn)練"而非從頭訓(xùn)練**

CAFM有一個(gè)非常實(shí)際的定位:它主要被設(shè)計(jì)為對現(xiàn)有流匹配模型的"后訓(xùn)練"工具,而非替代從頭訓(xùn)練。

道理很簡單:CAFM和標(biāo)準(zhǔn)流匹配在理論上收斂到同一個(gè)"真實(shí)速度場",兩者的本質(zhì)區(qū)別只在于有限容量的模型如何"泛化"——也就是在見過的訓(xùn)練樣本之外,如何應(yīng)對新的情況。既然目標(biāo)相同,就沒必要從零開始,完全可以先用標(biāo)準(zhǔn)流匹配把模型訓(xùn)練到一個(gè)不錯(cuò)的狀態(tài),再切換到CAFM目標(biāo)進(jìn)行微調(diào),讓模型的泛化方向從"歐氏距離最近"調(diào)整為"感知距離最近"。

從頭用CAFM訓(xùn)練也是可以的,團(tuán)隊(duì)也做了這個(gè)實(shí)驗(yàn)。但結(jié)果符合預(yù)期:在相同的訓(xùn)練輪次下,CAFM從頭訓(xùn)練的收斂速度比標(biāo)準(zhǔn)流匹配慢——畢竟額外引入了鑒別器和JVP計(jì)算,計(jì)算開銷約是標(biāo)準(zhǔn)流匹配的4.8倍。而且從頭訓(xùn)練時(shí)需要精心調(diào)節(jié)最優(yōu)傳輸正則化的權(quán)重λ和鑒別器更新步數(shù)N,隨著訓(xùn)練進(jìn)行,λ應(yīng)逐漸減小,N應(yīng)逐漸增大,才能獲得最佳效果。相比之下,后訓(xùn)練只需10個(gè)訓(xùn)練輪次,設(shè)置λ=0(完全關(guān)閉最優(yōu)傳輸正則化),就能獲得顯著的性能提升,簡單得多。

**六、ImageNet實(shí)驗(yàn):數(shù)字說明一切**

團(tuán)隊(duì)在最經(jīng)典的圖像生成基準(zhǔn)——ImageNet 256像素分類條件生成任務(wù)上驗(yàn)證了CAFM的效果,測試對象是兩個(gè)有代表性的流匹配模型。

第一個(gè)是SiT-XL/2,一個(gè)在SD-VAE潛在空間(也就是把圖片壓縮成更小的表示再處理)中運(yùn)行的模型。它有6.75億參數(shù),已經(jīng)過1400個(gè)訓(xùn)練輪次的標(biāo)準(zhǔn)流匹配預(yù)訓(xùn)練。用CAFM對它進(jìn)行10個(gè)輪次的后訓(xùn)練后,在不使用任何引導(dǎo)的情況下,衡量生成質(zhì)量的FID分?jǐn)?shù)(越低越好,越接近真實(shí)圖片分布越好)從8.26驟降至3.63——這是一個(gè)質(zhì)的飛躍,相當(dāng)于僅用極小的額外訓(xùn)練代價(jià)就幾乎將"出戲感"減半。同期做的對照實(shí)驗(yàn)表明,用標(biāo)準(zhǔn)流匹配再繼續(xù)訓(xùn)練10個(gè)輪次反而讓FID從8.26微升到8.64,說明這個(gè)提升完全來自CAFM目標(biāo)本身,而非額外的訓(xùn)練數(shù)據(jù)或輪次。

在有引導(dǎo)的情況下,CAFM同樣表現(xiàn)出色。掃描一系列引導(dǎo)強(qiáng)度(CFG)發(fā)現(xiàn),CAFM在CFG=1.3時(shí)就能達(dá)到最優(yōu)FID=1.53,而原始SiT需要CFG=1.5才能達(dá)到2.06。這意味著CAFM不僅在無引導(dǎo)時(shí)更接近真實(shí)分布,還讓引導(dǎo)變得更高效——需要的引導(dǎo)強(qiáng)度更小,得到的質(zhì)量卻更好。

第二個(gè)測試對象是JiT-H/16,一個(gè)直接在像素空間(不經(jīng)過潛在空間壓縮)運(yùn)行的模型,有9.56億參數(shù),已經(jīng)過600個(gè)訓(xùn)練輪次的預(yù)訓(xùn)練。CAFM后訓(xùn)練同樣10個(gè)輪次,無引導(dǎo)FID從7.17降至3.57,最佳引導(dǎo)FID從1.86降至1.80。

與同期其他方法的橫向?qū)Ρ雀苷f明問題。在SD-VAE潛在空間模型中,同樣使用DiT架構(gòu)和類似訓(xùn)練設(shè)置的各方法中,CAFM的無引導(dǎo)FID(3.63)超過了DiT-XL/2的9.62、SiT的8.26、加入特殊正則化的SiT+Disperse的7.43,以及引入了表示對齊技術(shù)的SiT+REPA的5.90(后者借助了DINOv2這個(gè)強(qiáng)大的預(yù)訓(xùn)練視覺模型)。在有引導(dǎo)的情況下,CAFM的1.53也優(yōu)于SiT+Disperse的1.97和原始SiT的2.06,只遜于同樣借助DINOv2的SiT+REPA(1.42)和DDT-XL(1.26)。

**七、文生圖實(shí)驗(yàn):從工廠級到產(chǎn)品級**

ImageNet實(shí)驗(yàn)驗(yàn)證了方法的可行性,而真正的"戰(zhàn)場"在于實(shí)際產(chǎn)品中廣泛使用的文生圖模型。團(tuán)隊(duì)選擇在Z-Image上進(jìn)行后訓(xùn)練實(shí)驗(yàn)——這是字節(jié)跳動(dòng)開源的、擁有60億參數(shù)的單流擴(kuò)散變換器,是一個(gè)真正產(chǎn)品級規(guī)模的模型。

實(shí)驗(yàn)設(shè)計(jì)同樣注重公平性。由于Z-Image的原始訓(xùn)練數(shù)據(jù)不可獲取,團(tuán)隊(duì)用了自己整理的開源自然圖像數(shù)據(jù)集。為了排除數(shù)據(jù)集差異對結(jié)果的干擾,他們先用標(biāo)準(zhǔn)流匹配在這批數(shù)據(jù)上微調(diào)Z-Image訓(xùn)練1萬次迭代,再分兩路:一路繼續(xù)用流匹配訓(xùn)練,另一路切換到CAFM訓(xùn)練,兩路都跑到同樣的總迭代次數(shù),然后對比。

在鑒別器架構(gòu)上,這次沒有在輸入端加入分類標(biāo)記,而是在最后一層的視覺特征上加了一個(gè)交叉注意力層來輸出鑒別分?jǐn)?shù),這樣主干網(wǎng)絡(luò)可以完全保持不變,改動(dòng)最小。

GenEval基準(zhǔn)(測試文生圖對各種細(xì)粒度視覺語義的理解,如兩個(gè)物體、顏色屬性、空間位置、計(jì)數(shù)等)和DPG基準(zhǔn)(測試圖像與復(fù)雜文本描述的一致性)的結(jié)果顯示,CAFM后訓(xùn)練顯著提升了無引導(dǎo)生成的質(zhì)量。在有提示詞擴(kuò)展且有引導(dǎo)的完整配置下,CAFM的GenEval總分從0.81提升至0.85,DPG總分從83.7提升至85.2。在兩個(gè)物體、顏色屬性、位置理解等細(xì)粒度指標(biāo)上,提升尤為明顯,反映出CAFM確實(shí)讓模型對復(fù)雜語義場景的理解更準(zhǔn)確、生成更到位。

**八、方法的局限與邊界**

研究團(tuán)隊(duì)也坦誠地指出了方法的局限。CAFM在經(jīng)驗(yàn)上確實(shí)能讓模型的泛化更接近真實(shí)數(shù)據(jù)分布,但無法從理論上保證它能完美覆蓋低密度區(qū)域,也就是那些在訓(xùn)練數(shù)據(jù)中很罕見的特殊情況。文生圖實(shí)驗(yàn)的失敗案例也印證了這一點(diǎn):對于"四支筆圍成一個(gè)矩形,中間五支鉛筆排成圓圈"這樣極度精細(xì)的空間計(jì)數(shù)描述,無引導(dǎo)的CAFM生成結(jié)果依然會(huì)出錯(cuò),需要加上引導(dǎo)才能勉強(qiáng)處理。

這說明CAFM改善了模型的泛化方向,但沒有神奇地解決所有問題。引導(dǎo)作為一種"低溫采樣"技術(shù),可以和CAFM疊加使用,正交互補(bǔ)。實(shí)驗(yàn)數(shù)據(jù)也確認(rèn),在有引導(dǎo)的情況下,CAFM的底層模型質(zhì)量提升會(huì)同樣傳遞到引導(dǎo)生成的結(jié)果上。

歸根結(jié)底,字節(jié)跳動(dòng)Seed團(tuán)隊(duì)這項(xiàng)工作解決的是流匹配模型一個(gè)根本性的訓(xùn)練目標(biāo)問題:與其用直尺量感知距離,不如訓(xùn)練一個(gè)懂感知的裁判來打分。通過將對抗訓(xùn)練優(yōu)雅地?cái)U(kuò)展到連續(xù)時(shí)間框架,并用JVP將鑒別器錨定在流速度場的導(dǎo)數(shù)空間中,他們在不改變模型架構(gòu)、不增加推理成本的前提下,讓AI生成的圖片更自然地融入了真實(shí)圖像的世界。

Q&A

Q1:CAFM和普通流匹配模型有什么本質(zhì)區(qū)別?

A:兩者都在學(xué)習(xí)同一條從噪聲到圖片的路徑,理論上收斂到同一個(gè)速度場。本質(zhì)區(qū)別在于訓(xùn)練目標(biāo)不同:普通流匹配用歐氏距離衡量速度預(yù)測的好壞,這種距離不符合圖像感知規(guī)律;CAFM引入了一個(gè)和生成模型一起訓(xùn)練的鑒別器,用感知質(zhì)量來評判速度預(yù)測的好壞。這種差異不影響模型結(jié)構(gòu),只影響"泛化方向",所以CAFM可以直接對已有的流匹配模型做后訓(xùn)練,不用從頭來過。

Q2:CAFM使用的JVP技術(shù)是什么,為什么要這么設(shè)計(jì)?

A:JVP(雅可比-向量積)本質(zhì)上是計(jì)算一個(gè)函數(shù)在某個(gè)方向上的變化率。CAFM的鑒別器是一個(gè)把圖片位置映射到標(biāo)量勢能的函數(shù),JVP則計(jì)算這個(gè)勢能沿某個(gè)速度方向的變化率。這樣鑒別器就能直接對速度向量好壞進(jìn)行打分,而不需要看圖片本身。這個(gè)設(shè)計(jì)的好處在于:數(shù)學(xué)上自洽、訓(xùn)練中不會(huì)出現(xiàn)梯度消失、還能保證鑒別器對整條生成路徑的判斷前后一致。

Q3:CAFM后訓(xùn)練大概需要多少計(jì)算資源?

A:以ImageNet上SiT-XL/2模型的實(shí)驗(yàn)為例,后訓(xùn)練只需要10個(gè)訓(xùn)練輪次,批次大小256,學(xué)習(xí)率1e-5,整體設(shè)置非常輕量。但由于引入了鑒別器網(wǎng)絡(luò)以及JVP的前向和反向計(jì)算,每個(gè)輪次的墻鐘時(shí)間約是標(biāo)準(zhǔn)流匹配的4.8倍。綜合來看,相對于從頭訓(xùn)練一個(gè)大模型,這點(diǎn)額外開銷對于后訓(xùn)練場景是完全可以接受的。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
看到如今的伊朗,才懂左宗棠當(dāng)年多偉大!沒有他,西北或無險(xiǎn)可守

看到如今的伊朗,才懂左宗棠當(dāng)年多偉大!沒有他,西北或無險(xiǎn)可守

賤議你讀史
2026-04-17 01:48:21
降壓藥飯前吃還是飯后吃?再三提醒:牢記3個(gè)原則,否則等于白吃

降壓藥飯前吃還是飯后吃?再三提醒:牢記3個(gè)原則,否則等于白吃

DrX說
2026-04-22 14:55:06
乘聯(lián)分會(huì):4月1-19日全國乘用車市場零售62.7萬輛 同比下降26%

乘聯(lián)分會(huì):4月1-19日全國乘用車市場零售62.7萬輛 同比下降26%

財(cái)聯(lián)社
2026-04-22 16:38:09
中國鐵礦石談判大獲全勝!“鎖喉”必和必拓:不降價(jià)?那就別賣了

中國鐵礦石談判大獲全勝!“鎖喉”必和必拓:不降價(jià)?那就別賣了

動(dòng)漫里的童話
2026-04-22 05:35:55
4月22日俄烏:兩個(gè)意義非凡的軍事行動(dòng)

4月22日俄烏:兩個(gè)意義非凡的軍事行動(dòng)

山河路口
2026-04-22 18:15:08
安徽省交通控股集團(tuán)有限公司黨委委員盛明宏接受審查調(diào)查

安徽省交通控股集團(tuán)有限公司黨委委員盛明宏接受審查調(diào)查

界面新聞
2026-04-22 17:07:51
4月21日俄烏最新:俄羅斯創(chuàng)造的神話

4月21日俄烏最新:俄羅斯創(chuàng)造的神話

西樓飲月
2026-04-21 20:24:18
五連敗切爾西徹底崩盤!主帥放豪言:6年合同在手,絕不下課!

五連敗切爾西徹底崩盤!主帥放豪言:6年合同在手,絕不下課!

田先生籃球
2026-04-22 06:57:15
連虧5年,越虧越多!知名超市學(xué)胖東來效果不佳,去年關(guān)店414家,巨虧9.57億元,最新市值僅35億元

連虧5年,越虧越多!知名超市學(xué)胖東來效果不佳,去年關(guān)店414家,巨虧9.57億元,最新市值僅35億元

每日經(jīng)濟(jì)新聞
2026-04-22 18:31:06
36億罰單背后,30名被開除員工的代價(jià)

36億罰單背后,30名被開除員工的代價(jià)

慕容律師
2026-04-21 22:31:56
穆鐵柱的最后一天:在家中蹬自行車健身,突然兩眼一黑癱倒在地

穆鐵柱的最后一天:在家中蹬自行車健身,突然兩眼一黑癱倒在地

大運(yùn)河時(shí)空
2026-04-21 16:30:03
曾經(jīng)那些真實(shí)的特供,超出普通人的想象…

曾經(jīng)那些真實(shí)的特供,超出普通人的想象…

深度報(bào)
2026-04-21 22:56:47
火箭丟了G2后,烏度卡全方位甩鍋,杜蘭特主動(dòng)攬責(zé),申京自我反思

火箭丟了G2后,烏度卡全方位甩鍋,杜蘭特主動(dòng)攬責(zé),申京自我反思

萌蘭聊個(gè)球
2026-04-22 17:47:03
2032奧運(yùn)主辦地確定,結(jié)果吃驚全球,奧運(yùn)格局將重塑

2032奧運(yùn)主辦地確定,結(jié)果吃驚全球,奧運(yùn)格局將重塑

天馬幸福的人生
2026-04-22 06:41:59
NBA官方:亞歷山大當(dāng)選年度最佳關(guān)鍵球員 多項(xiàng)關(guān)鍵數(shù)據(jù)聯(lián)盟第一

NBA官方:亞歷山大當(dāng)選年度最佳關(guān)鍵球員 多項(xiàng)關(guān)鍵數(shù)據(jù)聯(lián)盟第一

羅說NBA
2026-04-22 06:18:26
炸翻全球軍界!沙特怒砸120億買斷中國神裝,美軍徹底被踢出局

炸翻全球軍界!沙特怒砸120億買斷中國神裝,美軍徹底被踢出局

風(fēng)信子的花
2026-04-21 14:31:44
男子買彩票中了5340萬 偷偷轉(zhuǎn)給別的女人2100萬 前妻起訴返還 法院判了

男子買彩票中了5340萬 偷偷轉(zhuǎn)給別的女人2100萬 前妻起訴返還 法院判了

閃電新聞
2026-04-21 10:35:14
當(dāng)年張柏芝抱著lucas后面居然是大s,到現(xiàn)在才發(fā)現(xiàn),真美呀

當(dāng)年張柏芝抱著lucas后面居然是大s,到現(xiàn)在才發(fā)現(xiàn),真美呀

可樂談情感
2026-04-22 00:14:41
解決掉提問的人,問題就解決了?北師大“神操作”火了

解決掉提問的人,問題就解決了?北師大“神操作”火了

虔青
2026-04-20 14:07:53
有錢真能改變?nèi)说纳顔峥淳W(wǎng)友講述父親有錢沒錢真實(shí)現(xiàn)狀,驚呆了

有錢真能改變?nèi)说纳顔峥淳W(wǎng)友講述父親有錢沒錢真實(shí)現(xiàn)狀,驚呆了

侃神評故事
2026-04-22 11:15:03
2026-04-22 19:40:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

體育要聞

網(wǎng)易傳媒再度簽約法國隊(duì)和阿根廷隊(duì)

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長停火期限

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

藝術(shù)
游戲
數(shù)碼
教育
公開課

藝術(shù)要聞

無花不風(fēng)景

《黑旗RE》官宣直播!B站抖音中文預(yù)告片首發(fā)!

數(shù)碼要聞

Beats發(fā)布3米USB-C數(shù)據(jù)線:售229元 最高240W快充

教育要聞

【媒體聚焦】南方工報(bào) | 廣東省教育研究院走進(jìn)湛江開展教研幫扶

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版