国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

兼得快與好!訓(xùn)練新范式TiM,原生支持FSDP+Flash Attention

0
分享至

TiM團(tuán)隊 投稿
量子位 | 公眾號 QbitAI

生成式AI的快與好,終于能兼得了

從Stable Diffusion到DiT、FLUX系列,社區(qū)探索了很多技術(shù)方法用于加速生成速度和提高生成質(zhì)量,但是始終圍繞擴(kuò)散模型和Few-step模型兩條路線進(jìn)行開發(fā),不得不向一些固有的缺陷妥協(xié)。

這便是訓(xùn)練目標(biāo)引發(fā)的“生成質(zhì)量”與“生成速度”之間的矛盾根源

要么只監(jiān)督無窮小局部動力學(xué)(PF-ODE),要么只學(xué)習(xí)有限區(qū)間的端點映射,兩者都各有內(nèi)在限制。

一項新研究提出了名為Transition Model(TiM)的新范式,試圖從根本上解決這一矛盾。

它放棄了傳統(tǒng)擴(kuò)散模型學(xué)習(xí)“瞬時速度場”或Few-step模型學(xué)習(xí)“端點映射”的做法,轉(zhuǎn)而直接建模任意兩個時間點之間的完整狀態(tài)轉(zhuǎn)移。

這意味著TiM在理論上支持任意步長的采樣,并能將生成過程分解為多段粒度可靈活調(diào)整的細(xì)化軌跡

什么是Transition Model?

為什么說“PF-ODE”與“概率分布匹配”對于生成模型都不是理想的訓(xùn)練目標(biāo)?

來看擴(kuò)散模型,它以迭代去噪獲得高保真,在于它學(xué)習(xí)的是PF-ODE的局部向量場,訓(xùn)練時只對無窮小時間步的瞬時動力學(xué)做監(jiān)督,采樣時必須用很小步長或高階多步求解器來壓離散誤差,導(dǎo)致NFEs居高不下。

又比如少步生成(如 Consistency/Shortcut/Distillation/Meanflow)雖快,但因為沒有刻畫中間動力學(xué),增步后收益很快飽和,常遭遇 “質(zhì)量天花板”,增加步數(shù)反而不再帶來收益,生成能力上限不及擴(kuò)散模型。

這些固有的缺陷來源于模型訓(xùn)練過程中監(jiān)督信號的引入方式,或是求解局部的PFE方程,或是匹配固定的概率分布;換句話說,生成過程中,模型做出預(yù)測被clean data所監(jiān)督的粒度,直接決定了模型在推理過程中的離散誤差和生成質(zhì)量上限。

所以,對于生成模型,什么才是一個合適的訓(xùn)練目標(biāo)呢?

從擴(kuò)散模型與Few-step模型的訓(xùn)練目標(biāo)的局限性出發(fā),可以得到以下分析——

局部(無窮小)監(jiān)督:PF-ODE/SDE類目標(biāo)。

這類目標(biāo)只在極小時間步上擬合瞬時動力學(xué)(Δt→0),要想維持連續(xù)時間解的精度,采樣時就必須用很小步長/很多步,于是NFEs很高;一旦把步數(shù)壓到很少,質(zhì)量就會明顯掉隊。

因此,對于能夠帶來高保真度的局部監(jiān)督信號而言,時間區(qū)間,或者說單步步長理想情況下應(yīng)該是要能靈活改

全局端點監(jiān)督:few-step/一致性/蒸餾一類目標(biāo)/mean-flow/short-cut。

這類訓(xùn)練目標(biāo)學(xué)習(xí)固定跨度的端點映射(或者平均速度場),核心是一步 “吃掉” 整段軌跡,因而少步很強(qiáng);但因為 “把整條軌跡平均化”,細(xì)節(jié)動力學(xué)被抹掉,再加步也難以繼續(xù)提升——出現(xiàn)質(zhì)量飽和。

因此,訓(xùn)練目標(biāo)應(yīng)該要求沿軌跡保持一致,要存在中間步驟充當(dāng)單個軌跡的細(xì)化,而不是偏離新的軌跡,這使得sampler對采樣規(guī)劃不敏感,并能夠通過更多步驟實現(xiàn)穩(wěn)定的質(zhì)量改進(jìn)。

因此,一個能兼得快速生成(few-step)與高保真度生成(擴(kuò)散模型)的訓(xùn)練目標(biāo)應(yīng)該是:

在“多段細(xì)化軌跡”里實現(xiàn)“靈活的單步尺寸”(任意步長),這便是Transition Model。



想要兼得推理速度與高保真度質(zhì)量,需要一個核心設(shè)計,“在多段細(xì)化的軌跡”里面實現(xiàn)“靈活的單步尺寸”。

這一工作基于此設(shè)計了Transition Model:

將模型的訓(xùn)練從單一時刻t,拓展到建模任意兩個時刻t與r的狀態(tài)x_t, x_r.

設(shè)計1:實現(xiàn)“靈活的單步尺寸”

對于給定的兩個時刻t與r之間的狀態(tài)轉(zhuǎn)移,通過化簡其微分方程得到了“通用狀態(tài)轉(zhuǎn)移恒等式”(State Transition Identity);基于通用狀態(tài)轉(zhuǎn)移恒等式,得以描述任意的一個時間間隔內(nèi)的具體狀態(tài)轉(zhuǎn)移,而不是作為數(shù)值擬合求解。

設(shè)計2:實現(xiàn)“多段細(xì)化軌跡的生成路徑”

在設(shè)計1中,已經(jīng)實現(xiàn)了任意步長(任意時間間隔), 因此對于多段細(xì)化軌跡的生成路徑,這個方法就可以直接的描述任意時刻t下對于此前任意時刻r之間的狀態(tài)轉(zhuǎn)移,那么“多段細(xì)化的生成路徑”就變成了“任意狀態(tài)與前狀態(tài)之間的狀態(tài)轉(zhuǎn)移動態(tài)(state transition dynamics)”,這樣就能在保持快速生成的同時保證高保真度的生成質(zhì)量。

通過設(shè)計1和設(shè)計2,這篇文章提出的Transition Model將“在任意狀態(tài)下,任意時間間隔內(nèi),與前狀態(tài)之間的狀態(tài)轉(zhuǎn)移的動力學(xué)方程”作為訓(xùn)練目標(biāo),它就滿足了兼得推理速度與高保真度質(zhì)量的核心設(shè)計。

Transition Model的數(shù)學(xué)本質(zhì)

Diffusion model是建模瞬時速度場,局限性是瞬時速度需要時間區(qū)間趨近于0;

Meanflow核心是建模平均速度場,局限性是平均速度丟了局部優(yōu)化的dynamics細(xì)節(jié),生成質(zhì)量早早收斂,過了few-step后近乎為定值;

不同于前兩者,Transition Model做的是任意時間區(qū)間的任意狀態(tài)間的狀態(tài)轉(zhuǎn)移,可以認(rèn)為是任意速度場,自然而然地包含了瞬時速度和平均速度;

從解的形式上講 Diffusion是局部PF-ODE的數(shù)值解,meanflow是局部平均速度場中的解集,transition model求的是全局生成路徑上的解的流型,special case情況下可以退化為平均速度場,解的流型退化為局部解集。



作者們主要在圖文生成(Text-to-Image)任務(wù)上進(jìn)行了驗證

在Geneval數(shù)據(jù)集上,分別比較了Transition Model在不同推理步數(shù)(NFE), 不同分辨率,不同橫縱比下的生成能力:



這篇文章發(fā)現(xiàn)865M參數(shù)大小的Transition Model(TiM)可以在明確地超過FLUX.1-Schnell(12B參數(shù))這一蒸餾模型;與此同時,在生成能力上限上也可以超過FLUX.1-Dev(12B參數(shù))

并且由于TiM結(jié)合了Native-Resolution預(yù)訓(xùn)練的訓(xùn)練策略(詳見Native-Resolution Image Synthesis),這篇文章所提出的模型在分辨率和橫縱比上也更加靈活。

Transition Model的訓(xùn)練穩(wěn)定性與擴(kuò)展性

讓Transition Model訓(xùn)練具有可擴(kuò)展性.



在Transition Model的訓(xùn)練過程中,它的訓(xùn)練目標(biāo)的關(guān)鍵在于計算網(wǎng)絡(luò)關(guān)于時間的導(dǎo)數(shù)$\frac{\mathrmlhhrzwx f_{\theta^{-}, t, r}}{\mathrmsgorgnd t}$

以MeanFlow和Short-cut Model為代表的既有方法通常依賴雅可比—向量乘積(JVP)來完成這一計算。

然而,JVP在可擴(kuò)展性上構(gòu)成了根本性瓶頸:

不僅計算開銷高,更麻煩的是它依賴Backward自動微分,這與諸如FlashAttention和分布式框架Fully Sharded Data Parallel(FSDP)等關(guān)鍵訓(xùn)練優(yōu)化并不兼容,致使基于JVP的方法難以實際用于十億參數(shù)級的基礎(chǔ)模型訓(xùn)練。

為此,他們提出差分推導(dǎo)方程(DDE),用一種有原則且高效的有限差分近似來突破該限制:



如表中所示,這篇文章所提出的DDE計算方式不僅比JVP約快2倍,更關(guān)鍵的是其僅依賴前向傳播,與FSDP天然兼容,從而將原本不可擴(kuò)展的訓(xùn)練流程變?yōu)榭纱笠?guī)模并行計算的方案.

讓Transition Model訓(xùn)練更加穩(wěn)定.

除了可擴(kuò)展性,基于任意時間間隔訓(xùn)練的另一大挑戰(zhàn)是控制梯度方差

比如,當(dāng)轉(zhuǎn)移跨越很大的時間間隔($\Delta t \to t$)時,更容易出現(xiàn)損失突增。

為緩解這一問題,作者們引入一種損失加權(quán)策略,優(yōu)先考慮短間隔轉(zhuǎn)移——這類轉(zhuǎn)移更為常見,也能提供更穩(wěn)定的學(xué)習(xí)信號。



其中,$\tau(\cdot)$是對時間軸進(jìn)行重新參數(shù)化的單調(diào)函數(shù)。

在這篇文章最終模型中,他們采用正切空間變換(tangent space transformation來有效拉伸時間域,從而得到具體的加權(quán)形式:



其中,$\sigma_{\text{data}}$表示干凈數(shù)據(jù)(clean data)的標(biāo)準(zhǔn)差,這一方法有效地提升了訓(xùn)練的穩(wěn)定性。



研究團(tuán)隊提出了Transition Model(TiM)作為生成模型的新的范式:

不再只學(xué)習(xí)瞬時向量場或固定跨度的端點映射,而是直接建模任意兩時刻間的狀態(tài)轉(zhuǎn)移,用“通用狀態(tài)轉(zhuǎn)移恒等式”支撐任意步長與多段細(xì)化軌跡,從而兼顧少步速度與高保真質(zhì)量。

在理論上,從學(xué)習(xí)生成路徑上特定的解拓展到學(xué)習(xí)全局生成路徑的解的流形;在實踐上,通過DDE的前向有限差分替代JVP,原生兼容 FSDP/FlashAttention、訓(xùn)練更快更可擴(kuò)展;同時用時間重參化+核函數(shù)的損失加權(quán)優(yōu)先短間隔,降低梯度方差、提升穩(wěn)定性。

實驗表明,TiM-865M在多分辨率與多橫縱比設(shè)置下,少步即可超越 FLUX.1-Schnell/Dev(12B)的速度-質(zhì)量權(quán)衡。

總體而言,TiM以全局路徑視角嘗試解決“速度與質(zhì)量難兩全”的根本矛盾,提供了更通用、可擴(kuò)展且穩(wěn)定的生成建模。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
僅出場2分46秒,鋒線大將已經(jīng)徹底失去了中國隊教練組的信任?

僅出場2分46秒,鋒線大將已經(jīng)徹底失去了中國隊教練組的信任?

稻谷與小麥
2026-03-02 01:10:00
女人一旦有這幾種表現(xiàn),就別再聯(lián)系了,真的沒必要

女人一旦有這幾種表現(xiàn),就別再聯(lián)系了,真的沒必要

加油丁小文
2026-02-27 05:00:03
媒體人:中國男籃是一支很難執(zhí)教的球隊,信心像玻璃一樣易碎

媒體人:中國男籃是一支很難執(zhí)教的球隊,信心像玻璃一樣易碎

懂球帝
2026-03-01 17:37:06
全紅嬋家庭近況曝光。全家搬到果園住,母親無奈感嘆:害怕說錯話

全紅嬋家庭近況曝光。全家搬到果園住,母親無奈感嘆:害怕說錯話

小椰的奶奶
2026-03-01 01:10:22
里斯-詹姆斯:現(xiàn)在足球發(fā)展就是這樣,主要得分方式是定位球

里斯-詹姆斯:現(xiàn)在足球發(fā)展就是這樣,主要得分方式是定位球

懂球帝
2026-03-02 03:35:14
基辛格直言,美國100年搞垮了4個世界老二,第五個會反手干掉美國

基辛格直言,美國100年搞垮了4個世界老二,第五個會反手干掉美國

文史達(dá)觀
2024-03-07 14:02:52
李保田:我一生不接廣告,不和張國立、王剛合作,不參加兒子婚禮

李保田:我一生不接廣告,不和張國立、王剛合作,不參加兒子婚禮

小熊侃史
2026-02-15 07:25:11
連續(xù)2場逆轉(zhuǎn),中國男籃兩連勝,李弘權(quán)9+11成奇兵 高詩巖防守拉滿

連續(xù)2場逆轉(zhuǎn),中國男籃兩連勝,李弘權(quán)9+11成奇兵 高詩巖防守拉滿

替補(bǔ)席看球
2026-03-01 17:55:20
回顧:那個因拍“假老虎”,被判刑2年的陜西農(nóng)民,后來怎樣了?

回顧:那個因拍“假老虎”,被判刑2年的陜西農(nóng)民,后來怎樣了?

可樂88
2024-04-18 08:31:32
你有什么無心插柳的經(jīng)歷?網(wǎng)友:賣獸藥的,一個半月,賺了190萬

你有什么無心插柳的經(jīng)歷?網(wǎng)友:賣獸藥的,一個半月,賺了190萬

夜深愛雜談
2026-02-24 20:10:07
伊朗稱重創(chuàng)美軍艦!安理會應(yīng)中俄要求緊急開會!聯(lián)合國秘書長發(fā)表聲明

伊朗稱重創(chuàng)美軍艦!安理會應(yīng)中俄要求緊急開會!聯(lián)合國秘書長發(fā)表聲明

每日經(jīng)濟(jì)新聞
2026-02-28 23:06:38
價格已漲2.5倍!網(wǎng)友網(wǎng)購2條8GB內(nèi)存故障退貨:還被商家收15%折舊費

價格已漲2.5倍!網(wǎng)友網(wǎng)購2條8GB內(nèi)存故障退貨:還被商家收15%折舊費

快科技
2026-03-01 11:11:48
哈梅內(nèi)伊全家死傷慘重!30枚炸彈炸出三個巨大地洞:一定藏有內(nèi)奸

哈梅內(nèi)伊全家死傷慘重!30枚炸彈炸出三個巨大地洞:一定藏有內(nèi)奸

諾諾談史
2026-03-01 11:21:42
廣東“要大發(fā)”了,這3個地方被國家選中,即將騰飛!有你家鄉(xiāng)嗎

廣東“要大發(fā)”了,這3個地方被國家選中,即將騰飛!有你家鄉(xiāng)嗎

瓜哥的動物日記
2026-03-02 00:52:45
“母子落魄吃蛋糕”視頻火了,獲贊過百萬:誰不羨慕這樣的父母?

“母子落魄吃蛋糕”視頻火了,獲贊過百萬:誰不羨慕這樣的父母?

妍妍教育日記
2026-02-25 20:58:43
新款嵐圖知音內(nèi)飾發(fā)布,搭載乾崑智駕ADS 4與鴻蒙座艙 5

新款嵐圖知音內(nèi)飾發(fā)布,搭載乾崑智駕ADS 4與鴻蒙座艙 5

皆電
2025-07-23 14:08:49
美以聯(lián)手空襲伊朗 伊朗誓言“毀滅式報復(fù)”

美以聯(lián)手空襲伊朗 伊朗誓言“毀滅式報復(fù)”

新華社
2026-02-28 23:16:14
斯諾克最新積分排名!希金斯升至第9,肖國棟跌出前12,趙心童第2

斯諾克最新積分排名!希金斯升至第9,肖國棟跌出前12,趙心童第2

越嶺尋蹤
2026-03-01 08:41:27
男籃官方曬賽后動態(tài)!繼偉興奮慶祝,郭振明開心,趙睿更衣室哭了

男籃官方曬賽后動態(tài)!繼偉興奮慶祝,郭振明開心,趙睿更衣室哭了

籃球資訊達(dá)人
2026-03-01 21:14:36
逆襲成功!55順位+1500萬,23歲啊,勇士撿到大寶貝了

逆襲成功!55順位+1500萬,23歲啊,勇士撿到大寶貝了

球童無忌
2026-03-01 20:31:40
2026-03-02 04:00:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12211文章數(shù) 176399關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

特朗普警告伊朗“不要報復(fù)” 伊朗外長回應(yīng)

頭條要聞

特朗普警告伊朗“不要報復(fù)” 伊朗外長回應(yīng)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

藝術(shù)
家居
教育
親子
公開課

藝術(shù)要聞

看!這位伊朗超模如何顛覆你的美麗認(rèn)知!

家居要聞

素色肌理 品意式格調(diào)

教育要聞

初中階段的分化,從習(xí)慣悄悄開始

親子要聞

帶娃看醫(yī)生,聽懂這幾句話少走90%彎路!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版