国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ICLR 2026 | ESC — 解構(gòu)一步生成,厘清細節(jié),探尋本質(zhì)

0
分享至





  • 論文標題:On the Design of One-step Diffusion via Shortcutting Flow Paths
  • 論文地址: https://openreview.net/forum?id=k6q8rRYVQR
  • 代碼開源: https://github.com/EDAPINENUT/ExplicitShortCut/
  • 項目主頁: https://edapinenut.github.io/explicitshortcut-project-page/

前言

近期,基于捷徑化概率流路徑(shortcut probability flow trajectory)并從頭訓練的一步擴散生成模型,展現(xiàn)出強大的實證有效性。然而,這類方法的提出通常建立在較為復雜的理論推導之上,并且往往與具體實現(xiàn)細節(jié)高度耦合。這帶來一個直接的問題:究竟哪些設(shè)計是方法成立的本質(zhì)要素,哪些又只是可以靈活替換的實現(xiàn)組件。

對于研究人員,這種復雜性進一步體現(xiàn)在多個層面:一方面是深奧的理論背景,繁復的方法形式推導、對應(yīng)的學習目標設(shè)計,另一方面,是應(yīng)用實現(xiàn)上的技術(shù)細節(jié),包括時間采樣器、課程學習方法等。面對這些內(nèi)容,研究人員往往很難迅速抓住不同方法之間真正共享的核心思想,也因此缺少一種足夠直觀的設(shè)計范式,來理解這類一步生成模型到底 “為什么這樣設(shè)計”。

為了解決這個問題,西湖大學研究人員首先從一個更實用的角度出發(fā),嘗試為這類 shortcut 模型提出一個統(tǒng)一的設(shè)計框架。其指出,無論是離散時間還是連續(xù)時間的一步生成方法,其背后都遵循著同一個基本原則:用單步參數(shù)化預(yù)測去逼近一個兩步擴散構(gòu)建的目標。在此基礎(chǔ)上,該工作進一步給出了這一設(shè)計范式成立的一般性理論說明。這樣的統(tǒng)一視角,使得原本耦合在一起的生成方法模塊能夠被拆解開來,以供研究人員更清晰地理解各個組件之間是如何協(xié)同作用的,以及在整體方法設(shè)計中究竟還保留了多少可調(diào)整的自由度。

得益于這一框架,本文對當前具有代表性的離散時間與連續(xù)時間一步擴散生成方法進行更細粒度的組件級分析,包括路徑選擇、時間采樣器等關(guān)鍵模塊。通過這一分析,本文進一步定位了影響訓練 — 推理穩(wěn)定性以及逼近誤差的一個關(guān)鍵來源:損失函數(shù)設(shè)計中,學習目標里的速度場監(jiān)督帶來的方差。基于這一發(fā)現(xiàn),本文對現(xiàn)有的一步擴散生成方法進行了改進,并提出了 ESC(ExplicitShortCut) 變體。該方法在訓練穩(wěn)定性和生成質(zhì)量上都取得了進一步提升。在 ImageNet 256×256 上,基于 SiT-XL/2 架構(gòu),ESC 在 1-NFE 設(shè)置下達到 FID50k 2.53,超越了此前所有從頭訓練的捷徑擴散模型。

如何從頭訓練一個一步擴散模型?



圖 1 離散時間與連續(xù)時間的一步擴散模型在理想學習與實際學習中的物理圖景 (a) 展示了從 N (0,1) 到高斯混合分布的邊緣速度場。(b)(c) 對應(yīng)理想學習情形,此時 xr 采樣自 PF-ODE 的同一條軌跡,因此構(gòu)造的學習目標可作為正確監(jiān)督信號;(d)(e) 則展示實際學習情形,此時目標偏離原始軌跡,從而導致模型預(yù)測也相應(yīng)發(fā)生漂移。







表 1 代表性的一步生成模型中,具體的組件選擇



如何選擇設(shè)計組件?



圖 2 不同一步生成模型在訓練過程中 FID50k 的比較:(a) 表示在 CIFAR-10 上的無條件生成(Uncond.);(b) 表示在 CIFAR-10 上的類別條件生成(Cond.);(c) 表示在 ImageNet-256×256 上的 classifier-free guidance(CFG)訓練。

Q1: 路徑選擇:線性 vs 余弦?

一般而言,線性路徑擴散如 Rectified Flow、DiT 等工作在理論上更加簡潔,實踐上更方便以使用各種訓練和采樣技巧,而余弦路徑擴散如 EDM 等工作往往被認為像素空間生成中通常因固定方差的隨機過程而被視為更穩(wěn)定。

本文在此探尋路徑選擇對模型的影響。根據(jù)圖 2 (a),(b) 中 sCT (-Cosine) 以及 sCT-Linear 的實驗結(jié)果表明,在線性路徑與余弦路徑的對比中,線性路徑在一步生成的設(shè)定下通常更有競爭力。一種合理的解釋是:線性路徑作為條件路徑時,對應(yīng)的邊緣速度場具有更低的凸運輸代價,因此軌跡彎曲程度更小。這意味著,由兩步采樣映射構(gòu)造出來的監(jiān)督目標更接近理想情形,從而讓 “一步去逼近兩步” 這件事本身更容易成立。換句話說,在一步生成的問題設(shè)定里,線性路徑并不只是實現(xiàn)更方便,而是更符合這一類模型的近似需求。

Q2: 損失類型:離散 vs 連續(xù)?

前面討論過,當 s→t 的時候,損失函數(shù)就會將一步擴散推至連續(xù)時間模型。本文在此探尋連續(xù)與離散模型的優(yōu)劣勢。在相同訓練設(shè)置和統(tǒng)一代碼實現(xiàn)下,根據(jù)圖 2 (a), (b), (c) 中的 MeanFlow、sCT 這樣的連續(xù)時間上的一步擴散模型與 CT、SCD、IMM 等離散時間方法的對比,可以得到連續(xù)時間一步擴散模型整體上明顯優(yōu)于離散時間變體

進一步,本文給出了推理誤差分析,其核心結(jié)論是:對于線性路徑,連續(xù)時間方法的誤差上界相比離散時間方法少了一項與局部 Lipschitz 常數(shù)、時間步長以及監(jiān)督方差耦合的額外誤差項;而這項額外項很可能會直接放大訓練不穩(wěn)定性和一步推理誤差。也就是說,連續(xù)時間方法更強,并不只是因為 “參數(shù)化更平滑”,而是因為它在目標逼近誤差的結(jié)構(gòu)上更占優(yōu)。這也解釋了為什么同樣是一步生成擴散,基于連續(xù)時間的模型往往表現(xiàn)得更穩(wěn)、更準。

Q3: 時間采樣:固定終點時間 vs 隨機化



換句話說,固定終止時間更像是在優(yōu)化 “早期易學性”,而隨機化終止時間則是在優(yōu)化 “最終生成與表達能力”。

如何改進現(xiàn)有難題?

基于上述理論和實證分析,我們采用連續(xù)時間線性路徑基線(MeanFlow with SiT-B/2),并通過三個方向進行改進:

1. 即插即用的理想速度(Plug-in velocity)

第一個改進方向是用 plug-in velocity 替代直接使用單樣本對應(yīng)的條件速度作為監(jiān)督信號。其動機來自前面的誤差分析:在訓練時,真正難以處理的不是目標形式本身,而是引入條件速度而帶來的高方差。本文指出,如果能夠使用基于整個經(jīng)驗分布構(gòu)造的 “理想速度”,那么速度項的方差可以顯著下降;但這需要對整個訓練集求和,在大規(guī)模數(shù)據(jù)集上幾乎不可行。為此,作者采用在一個 mini-batch 上的 plug-in velocity,將一個批次內(nèi)多個樣本的條件速度以不同加權(quán)的形式組合起來,從而在僅引入較小偏差的代價下,將監(jiān)督方差從依賴單樣本的水平降到與批次大小相關(guān)的更低水平。這種替換直接帶來更穩(wěn)定的訓練監(jiān)督和更低的一步推理誤差,是對核心瓶頸的直接修正。

2. 漸進時間采樣器(Gradual time sampler)

第二個改進方向是設(shè)計一個漸進式時間采樣器,讓訓練從更容易的目標開始,再平滑過渡到完整的 MeanFlow 式時間采樣。這個設(shè)計直接回應(yīng)了前面對 “固定終止時間還是隨機化” 的分析:固定 r=0 的監(jiān)督更像去噪任務(wù),早期更容易優(yōu)化,而覆蓋完整區(qū)間的隨機時間采樣雖然更難,卻更有助于模型學習全局 “捷徑模式”;谶@一點,本文采用了一個 漸進式課程策略:在訓練初期,以較高概率采樣 r=0,讓模型先獲得更穩(wěn)定、更直接的監(jiān)督;隨著訓練推進,再逐步衰減這一概率,最終完全過渡到 MeanFlow 的采樣方式。這樣做的好處是同時兼顧了前期收斂速度后期全局建模能力,本質(zhì)上是在易學性與最終性能之間建立了一條更平滑的訓練路徑。

3. 優(yōu)化技巧 (Other techniques)

第三個方向則是吸收已有連續(xù)時間一步擴散方法中已經(jīng)驗證有效的訓練技巧,并將其系統(tǒng)整合到新的框架中。包括一些已經(jīng)在原始工作中驗證過的優(yōu)化手段,例如 variational adaptive loss weighting,進一步提升優(yōu)化過程的穩(wěn)定性、緩解訓練早期的脆弱性,并改善不同監(jiān)督項之間的平衡。此外,在 classifier-free guidance 的訓練場景下,本文額外引入類別一致的批次處理技術(shù)(class-consistent mini-batching):通過同類采樣避免 mini-batch 平均過程過度稀釋類別信號,以達到大規(guī)模訓練中真正 “跑得穩(wěn)、訓得動、效果好” 的工程化方案。

綜合上述提出的技術(shù),本文在SiT-B/2的網(wǎng)絡(luò)架構(gòu)上,進行了實驗消融,說明幾種改進的結(jié)合可以穩(wěn)定地提升模型的生成能力。



大規(guī)模實驗評估結(jié)果

我們在 ImageNet-256x256 的潛空間中使用 SiT-XL/2(約 676M 參數(shù))評估 ESC。遵循 MeanFlow 在分類器自由引導下的訓練協(xié)議,ESC 從頭訓練 240 個 epoch(約 120 萬次迭代),ESC+ 延長至 480 個 epoch(約 240 萬次迭代)。

在 ImageNet-256x256 的 1-NFE 設(shè)置下,ESC 將 FID 從 3.43 提升至 2.85,ESC+ 進一步提升至 2.53。這一結(jié)果不僅大幅超越了此前所有從頭訓練的捷徑模型,甚至超過了 MeanFlow 的兩步結(jié)果(2-NFE,F(xiàn)ID50k 2.93)。

此外,我們還可以從中觀察到:

1)類別一致的批次處理可以提高收斂速度。

2)即插即用的理想速度幾乎不增加計算開銷 (千分之九),同時提高穩(wěn)定性。

3) 性能提升在更大的骨干網(wǎng)絡(luò)上更明顯,表明降低方差對于模型穩(wěn)定性的提升,隨著模型容量增長,效果越來越明顯





ESC 在 ImageNet-256x256 上展現(xiàn)出卓越的一步生成能力(SiT-XL/2 架構(gòu)),且能夠生成高質(zhì)量、多樣化的圖像。(FID:2.85)

ExplicitShortCut (ESC)通過統(tǒng)一的設(shè)計空間分析,系統(tǒng)性地理解了一步擴散模型的關(guān)鍵設(shè)計選擇。通過改進目標構(gòu)建和降低監(jiān)督方差,ESC 在 ImageNet-256x256 上實現(xiàn)了 FID 2.53 的 SOTA 一步生成性能,也為之后設(shè)計高效的一步擴散生成提供了關(guān)鍵見解。

然而,目前的從頭訓練的一步生成模型仍然面臨著極大的挑戰(zhàn),比如在連續(xù)情形下 jvp 函數(shù)的使用以及其導致的顯存開銷、對 CFG 的依賴導致設(shè)計不夠靈活、超參數(shù)空間龐大等,即便如此,一步生成的擴散模型仍然是未來的研究熱門,正如何凱明在 CVPR 上的演講所說:

“生成模型正處在一個類似「AlexNet 之前」的階段:從多步推理,走向端到端的一步生成。” 一步擴散不是終點,它是下一個 AIGC 時代的開始。

作者及團隊簡介

本文第一作者為林海濤,來自西湖大學,共同一作為胡佩炎,來自中科院數(shù)學所。其研究方向關(guān)注生成模型,一步擴散與蒸餾,離散擴散模型等,以第一作者在 ICML、ICLR、NeurIPS 等人工智能頂級會議或期刊上發(fā)表論文超過十篇;本文的通訊作者為西湖大學李子青、吳泰霖,以及深勢科技柯國霖。李子青實驗室關(guān)注人工智能及生命科學交叉領(lǐng)域。吳泰霖實驗室關(guān)注生成式 AI(包括擴散模型、多智能體等)及其在聚變、水下具身智能、虛擬細胞領(lǐng)域的應(yīng)用,長期招募希望在以上領(lǐng)域做出有影響力工作的同學(博士生、博后、助理研究員、實習生)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
只剩6天!醫(yī)保全國統(tǒng)一,41-61歲抓緊辦這幾件事,否則就晚了!

只剩6天!醫(yī)保全國統(tǒng)一,41-61歲抓緊辦這幾件事,否則就晚了!

另子維愛讀史
2026-03-25 22:09:07
曝張雪峰倒下30分鐘后才被發(fā)現(xiàn),飲食習慣糟糕,一口氣吃8根雪糕

曝張雪峰倒下30分鐘后才被發(fā)現(xiàn),飲食習慣糟糕,一口氣吃8根雪糕

古希臘掌管松餅的神
2026-03-25 11:08:46
東契奇43分7助攻湖人戰(zhàn)勝步行者,勒布朗23分9板9助里夫斯25分

東契奇43分7助攻湖人戰(zhàn)勝步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
周杰倫的INS被網(wǎng)友沖爆,新歌MV里手表調(diào)到“83”,疑用舊戀情炒作賣新唱片

周杰倫的INS被網(wǎng)友沖爆,新歌MV里手表調(diào)到“83”,疑用舊戀情炒作賣新唱片

回旋鏢
2026-03-25 20:38:44
美方提“15點計劃”,伊朗稱“又一個謊言”,美國“一邊準備談判一邊握拳”

美方提“15點計劃”,伊朗稱“又一個謊言”,美國“一邊準備談判一邊握拳”

環(huán)球網(wǎng)資訊
2026-03-26 06:58:33
高速統(tǒng)一限速3月26日正式落地!五檔限速+清理非標不會再亂扣分!

高速統(tǒng)一限速3月26日正式落地!五檔限速+清理非標不會再亂扣分!

沙雕小琳琳
2026-03-26 09:41:30
人民日報轉(zhuǎn)發(fā),三大巧合坐實“遺言”,猝死前說的話全應(yīng)驗了!

人民日報轉(zhuǎn)發(fā),三大巧合坐實“遺言”,猝死前說的話全應(yīng)驗了!

奇思妙想草葉君
2026-03-25 12:40:13
美媒曬NBA球隊市值排名:勇士113.3億美元居首 湖人第2火箭第10

美媒曬NBA球隊市值排名:勇士113.3億美元居首 湖人第2火箭第10

羅說NBA
2026-03-26 06:18:02
到底有多無知,才能做出這樣的判決!

到底有多無知,才能做出這樣的判決!

槽三刀
2026-03-25 22:01:04
315晚會后,不出意外的話,這7樣東西再“無人問津”,白給也不要

315晚會后,不出意外的話,這7樣東西再“無人問津”,白給也不要

海豚女王
2026-03-25 04:16:54
人社部:職稱評審將重大調(diào)整!!

人社部:職稱評審將重大調(diào)整!

新浪財經(jīng)
2026-03-25 21:42:36
伊朗重要人事任命,釋放強烈信號!

伊朗重要人事任命,釋放強烈信號!

斐君觀點
2026-03-25 21:08:16
張雪峰家人首發(fā)聲:不設(shè)追思會喪事從簡,謝絕所有人去家中慰問

張雪峰家人首發(fā)聲:不設(shè)追思會喪事從簡,謝絕所有人去家中慰問

娛樂圈圈圓
2026-03-26 11:08:26
熱搜上63萬人破防的“奧特曼蛋糕”事件:有毒父母,逼瘋中國孩子

熱搜上63萬人破防的“奧特曼蛋糕”事件:有毒父母,逼瘋中國孩子

小椰子專欄
2026-03-25 13:00:11
山姆門店緊急下架!監(jiān)管部門:已立案

山姆門店緊急下架!監(jiān)管部門:已立案

揚子晚報
2026-03-25 23:08:22
張雪峰離世!北京蘇州房產(chǎn)不在名下,1400名員工等安撫,好友停工

張雪峰離世!北京蘇州房產(chǎn)不在名下,1400名員工等安撫,好友停工

阿纂看事
2026-03-25 21:31:59
中方駁斥“闖館事件”日方荒謬說法:你見過未經(jīng)允許持刀進入使館同大使交談的先例嗎?

中方駁斥“闖館事件”日方荒謬說法:你見過未經(jīng)允許持刀進入使館同大使交談的先例嗎?

環(huán)球網(wǎng)資訊
2026-03-26 07:09:09
4個LV包都是假的!女子送檢后傻眼:全在專柜買的啊,最新回應(yīng)

4個LV包都是假的!女子送檢后傻眼:全在專柜買的啊,最新回應(yīng)

半島晨報
2026-03-25 15:30:03
伊朗外長:伊朗經(jīng)調(diào)解方與美“交流信息”,沒有談判;白宮稱美伊談判“仍在繼續(xù)”;俄羅斯:烏克蘭問題談判已暫停;布油跌超2%丨每經(jīng)早參

伊朗外長:伊朗經(jīng)調(diào)解方與美“交流信息”,沒有談判;白宮稱美伊談判“仍在繼續(xù)”;俄羅斯:烏克蘭問題談判已暫停;布油跌超2%丨每經(jīng)早參

每日經(jīng)濟新聞
2026-03-26 06:49:04
聯(lián)大認定“奴隸制”為最嚴重反人類罪:123票贊成,美國、以色列、阿根廷共3票反對

聯(lián)大認定“奴隸制”為最嚴重反人類罪:123票贊成,美國、以色列、阿根廷共3票反對

都市快報橙柿互動
2026-03-26 07:59:37
2026-03-26 12:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12601文章數(shù) 142593關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

36歲男子辭百萬年薪工作 在電商賣玩具半年賺了300萬

頭條要聞

36歲男子辭百萬年薪工作 在電商賣玩具半年賺了300萬

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰家人首發(fā)聲 不設(shè)追思會喪事從簡

財經(jīng)要聞

黃仁勛:芯片公司的時代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
房產(chǎn)
家居
手機
旅游

教育要聞

江蘇省2026—2028年度中小學生競賽活動名單來了!

房產(chǎn)要聞

質(zhì)價比標桿!三亞首創(chuàng)浮島全景艙亮相,還得是萬科!

家居要聞

傍海而居 靜觀蝴蝶海

手機要聞

小米MIUI正式停更,最后兩款設(shè)備停止支持

旅游要聞

南京珍珠河櫻花滿樹夢幻燦爛

無障礙瀏覽 進入關(guān)懷版