国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

兼得快與好!訓練新范式TiM,原生支持FSDP+Flash Attention

0
分享至

TiM團隊 投稿
量子位 | 公眾號 QbitAI

生成式AI的快與好,終于能兼得了

從Stable Diffusion到DiT、FLUX系列,社區(qū)探索了很多技術方法用于加速生成速度和提高生成質量,但是始終圍繞擴散模型和Few-step模型兩條路線進行開發(fā),不得不向一些固有的缺陷妥協(xié)。

這便是訓練目標引發(fā)的“生成質量”與“生成速度”之間的矛盾根源

要么只監(jiān)督無窮小局部動力學(PF-ODE),要么只學習有限區(qū)間的端點映射,兩者都各有內在限制。

一項新研究提出了名為Transition Model(TiM)的新范式,試圖從根本上解決這一矛盾。

它放棄了傳統(tǒng)擴散模型學習“瞬時速度場”或Few-step模型學習“端點映射”的做法,轉而直接建模任意兩個時間點之間的完整狀態(tài)轉移。

這意味著TiM在理論上支持任意步長的采樣,并能將生成過程分解為多段粒度可靈活調整的細化軌跡

什么是Transition Model?

為什么說“PF-ODE”與“概率分布匹配”對于生成模型都不是理想的訓練目標?

來看擴散模型,它以迭代去噪獲得高保真,在于它學習的是PF-ODE的局部向量場,訓練時只對無窮小時間步的瞬時動力學做監(jiān)督,采樣時必須用很小步長或高階多步求解器來壓離散誤差,導致NFEs居高不下。

又比如少步生成(如 Consistency/Shortcut/Distillation/Meanflow)雖快,但因為沒有刻畫中間動力學,增步后收益很快飽和,常遭遇 “質量天花板”,增加步數(shù)反而不再帶來收益,生成能力上限不及擴散模型。

這些固有的缺陷來源于模型訓練過程中監(jiān)督信號的引入方式,或是求解局部的PFE方程,或是匹配固定的概率分布;換句話說,生成過程中,模型做出預測被clean data所監(jiān)督的粒度,直接決定了模型在推理過程中的離散誤差和生成質量上限。

所以,對于生成模型,什么才是一個合適的訓練目標呢?

從擴散模型與Few-step模型的訓練目標的局限性出發(fā),可以得到以下分析——

局部(無窮小)監(jiān)督:PF-ODE/SDE類目標。

這類目標只在極小時間步上擬合瞬時動力學(Δt→0),要想維持連續(xù)時間解的精度,采樣時就必須用很小步長/很多步,于是NFEs很高;一旦把步數(shù)壓到很少,質量就會明顯掉隊。

因此,對于能夠帶來高保真度的局部監(jiān)督信號而言,時間區(qū)間,或者說單步步長理想情況下應該是要能靈活改

全局端點監(jiān)督:few-step/一致性/蒸餾一類目標/mean-flow/short-cut。

這類訓練目標學習固定跨度的端點映射(或者平均速度場),核心是一步 “吃掉” 整段軌跡,因而少步很強;但因為 “把整條軌跡平均化”,細節(jié)動力學被抹掉,再加步也難以繼續(xù)提升——出現(xiàn)質量飽和。

因此,訓練目標應該要求沿軌跡保持一致,要存在中間步驟充當單個軌跡的細化,而不是偏離新的軌跡,這使得sampler對采樣規(guī)劃不敏感,并能夠通過更多步驟實現(xiàn)穩(wěn)定的質量改進。

因此,一個能兼得快速生成(few-step)與高保真度生成(擴散模型)的訓練目標應該是:

在“多段細化軌跡”里實現(xiàn)“靈活的單步尺寸”(任意步長),這便是Transition Model。



想要兼得推理速度與高保真度質量,需要一個核心設計,“在多段細化的軌跡”里面實現(xiàn)“靈活的單步尺寸”。

這一工作基于此設計了Transition Model:

將模型的訓練從單一時刻t,拓展到建模任意兩個時刻t與r的狀態(tài)x_t, x_r.

設計1:實現(xiàn)“靈活的單步尺寸”

對于給定的兩個時刻t與r之間的狀態(tài)轉移,通過化簡其微分方程得到了“通用狀態(tài)轉移恒等式”(State Transition Identity);基于通用狀態(tài)轉移恒等式,得以描述任意的一個時間間隔內的具體狀態(tài)轉移,而不是作為數(shù)值擬合求解。

設計2:實現(xiàn)“多段細化軌跡的生成路徑”

在設計1中,已經(jīng)實現(xiàn)了任意步長(任意時間間隔), 因此對于多段細化軌跡的生成路徑,這個方法就可以直接的描述任意時刻t下對于此前任意時刻r之間的狀態(tài)轉移,那么“多段細化的生成路徑”就變成了“任意狀態(tài)與前狀態(tài)之間的狀態(tài)轉移動態(tài)(state transition dynamics)”,這樣就能在保持快速生成的同時保證高保真度的生成質量。

通過設計1和設計2,這篇文章提出的Transition Model將“在任意狀態(tài)下,任意時間間隔內,與前狀態(tài)之間的狀態(tài)轉移的動力學方程”作為訓練目標,它就滿足了兼得推理速度與高保真度質量的核心設計。

Transition Model的數(shù)學本質

Diffusion model是建模瞬時速度場,局限性是瞬時速度需要時間區(qū)間趨近于0;

Meanflow核心是建模平均速度場,局限性是平均速度丟了局部優(yōu)化的dynamics細節(jié),生成質量早早收斂,過了few-step后近乎為定值;

不同于前兩者,Transition Model做的是任意時間區(qū)間的任意狀態(tài)間的狀態(tài)轉移,可以認為是任意速度場,自然而然地包含了瞬時速度和平均速度;

從解的形式上講 Diffusion是局部PF-ODE的數(shù)值解,meanflow是局部平均速度場中的解集,transition model求的是全局生成路徑上的解的流型,special case情況下可以退化為平均速度場,解的流型退化為局部解集。



作者們主要在圖文生成(Text-to-Image)任務上進行了驗證

在Geneval數(shù)據(jù)集上,分別比較了Transition Model在不同推理步數(shù)(NFE), 不同分辨率,不同橫縱比下的生成能力:



這篇文章發(fā)現(xiàn)865M參數(shù)大小的Transition Model(TiM)可以在明確地超過FLUX.1-Schnell(12B參數(shù))這一蒸餾模型;與此同時,在生成能力上限上也可以超過FLUX.1-Dev(12B參數(shù))

并且由于TiM結合了Native-Resolution預訓練的訓練策略(詳見Native-Resolution Image Synthesis),這篇文章所提出的模型在分辨率和橫縱比上也更加靈活。

Transition Model的訓練穩(wěn)定性與擴展性

讓Transition Model訓練具有可擴展性.



在Transition Model的訓練過程中,它的訓練目標的關鍵在于計算網(wǎng)絡關于時間的導數(shù)$\frac{\mathrmlrxlhld f_{\theta^{-}, t, r}}{\mathrmfxtzdjf t}$

以MeanFlow和Short-cut Model為代表的既有方法通常依賴雅可比—向量乘積(JVP)來完成這一計算。

然而,JVP在可擴展性上構成了根本性瓶頸:

不僅計算開銷高,更麻煩的是它依賴Backward自動微分,這與諸如FlashAttention和分布式框架Fully Sharded Data Parallel(FSDP)等關鍵訓練優(yōu)化并不兼容,致使基于JVP的方法難以實際用于十億參數(shù)級的基礎模型訓練。

為此,他們提出差分推導方程(DDE),用一種有原則且高效的有限差分近似來突破該限制:



如表中所示,這篇文章所提出的DDE計算方式不僅比JVP約快2倍,更關鍵的是其僅依賴前向傳播,與FSDP天然兼容,從而將原本不可擴展的訓練流程變?yōu)榭纱笠?guī)模并行計算的方案.

讓Transition Model訓練更加穩(wěn)定.

除了可擴展性,基于任意時間間隔訓練的另一大挑戰(zhàn)是控制梯度方差

比如,當轉移跨越很大的時間間隔($\Delta t \to t$)時,更容易出現(xiàn)損失突增。

為緩解這一問題,作者們引入一種損失加權策略,優(yōu)先考慮短間隔轉移——這類轉移更為常見,也能提供更穩(wěn)定的學習信號。



其中,$\tau(\cdot)$是對時間軸進行重新參數(shù)化的單調函數(shù)。

在這篇文章最終模型中,他們采用正切空間變換(tangent space transformation來有效拉伸時間域,從而得到具體的加權形式:



其中,$\sigma_{\text{data}}$表示干凈數(shù)據(jù)(clean data)的標準差,這一方法有效地提升了訓練的穩(wěn)定性。



研究團隊提出了Transition Model(TiM)作為生成模型的新的范式:

不再只學習瞬時向量場或固定跨度的端點映射,而是直接建模任意兩時刻間的狀態(tài)轉移,用“通用狀態(tài)轉移恒等式”支撐任意步長與多段細化軌跡,從而兼顧少步速度與高保真質量。

在理論上,從學習生成路徑上特定的解拓展到學習全局生成路徑的解的流形;在實踐上,通過DDE的前向有限差分替代JVP,原生兼容 FSDP/FlashAttention、訓練更快更可擴展;同時用時間重參化+核函數(shù)的損失加權優(yōu)先短間隔,降低梯度方差、提升穩(wěn)定性。

實驗表明,TiM-865M在多分辨率與多橫縱比設置下,少步即可超越 FLUX.1-Schnell/Dev(12B)的速度-質量權衡。

總體而言,TiM以全局路徑視角嘗試解決“速度與質量難兩全”的根本矛盾,提供了更通用、可擴展且穩(wěn)定的生成建模。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
燒光15億!曾叫板迪士尼的樂園,開業(yè)4年倒閉,今竟成網(wǎng)紅打卡地

燒光15億!曾叫板迪士尼的樂園,開業(yè)4年倒閉,今竟成網(wǎng)紅打卡地

品牌觀察官
2025-12-17 20:24:55
臺軍派F-16“偷拍”福建艦

臺軍派F-16“偷拍”福建艦

揚子晚報
2025-12-18 12:35:36
國家統(tǒng)計局原局長邱曉華:很多人按揭買的房子,房子的價格已經(jīng)比首付還要低!它給人帶來的心理沖擊是很大的

國家統(tǒng)計局原局長邱曉華:很多人按揭買的房子,房子的價格已經(jīng)比首付還要低!它給人帶來的心理沖擊是很大的

和訊網(wǎng)
2025-12-18 17:46:52
江蘇文旅廳調查南博藏品現(xiàn)身拍賣事件,龐萊臣后人不認可偽作說法

江蘇文旅廳調查南博藏品現(xiàn)身拍賣事件,龐萊臣后人不認可偽作說法

極目新聞
2025-12-18 14:34:14
2026央視跨年晚會陣容曝光,看完路透和明星名單,廁所都不敢上了

2026央視跨年晚會陣容曝光,看完路透和明星名單,廁所都不敢上了

社會日日鮮
2025-12-19 03:32:04
“南京博物院藏仇英名作現(xiàn)身拍賣市場”追蹤

“南京博物院藏仇英名作現(xiàn)身拍賣市場”追蹤

新華社
2025-12-19 00:20:41
中足聯(lián)公布首批債務清償俱樂部名單:中超暫無國安、西海岸、海牛

中足聯(lián)公布首批債務清償俱樂部名單:中超暫無國安、西海岸、海牛

懂球帝
2025-12-18 20:53:10
本田將暫停在華工廠生產(chǎn)

本田將暫停在華工廠生產(chǎn)

第一財經(jīng)資訊
2025-12-18 13:51:09
韋瑟斯龐56+6+6本季最高!青島輕取同曦3連勝 郭昊文18+9失誤

韋瑟斯龐56+6+6本季最高!青島輕取同曦3連勝 郭昊文18+9失誤

醉臥浮生
2025-12-18 21:24:48
南京博物院盜賣文物,捐贈后人追查十年遭打碼“證據(jù)”糊弄,失蹤五件國寶還有多少黑幕

南京博物院盜賣文物,捐贈后人追查十年遭打碼“證據(jù)”糊弄,失蹤五件國寶還有多少黑幕

爆角追蹤
2025-12-18 15:36:33
拒春晚、解散公司,和沈騰“決裂”,43歲的賈玲把自己作沒了?

拒春晚、解散公司,和沈騰“決裂”,43歲的賈玲把自己作沒了?

查爾菲的筆記
2025-12-17 13:22:25
韓國特工與泰軍合作,潛入電詐園抓獲殺害韓國女人質的中國籍綁匪

韓國特工與泰軍合作,潛入電詐園抓獲殺害韓國女人質的中國籍綁匪

環(huán)球熱點快評
2025-12-18 11:43:15
偉大的3-2!馬競鐵衛(wèi)轉型主帥:將巴黎拖進點球大戰(zhàn)!1年奪5冠1亞

偉大的3-2!馬競鐵衛(wèi)轉型主帥:將巴黎拖進點球大戰(zhàn)!1年奪5冠1亞

球場沒跑道
2025-12-18 09:13:28
南京導航集體失靈,定位軟件全趴窩!連北斗都不行,戰(zhàn)時就危險了

南京導航集體失靈,定位軟件全趴窩!連北斗都不行,戰(zhàn)時就危險了

Thurman在昆明
2025-12-19 01:09:28
海南封關之后當?shù)鼐W(wǎng)友吐槽物價變貴,油條7塊菠菜32一斤

海南封關之后當?shù)鼐W(wǎng)友吐槽物價變貴,油條7塊菠菜32一斤

映射生活的身影
2025-12-18 22:03:06
廣州一公司突發(fā)公告:董事長逝世

廣州一公司突發(fā)公告:董事長逝世

南方都市報
2025-12-18 14:20:30
泰國駐華大使館評論區(qū)爆了,感恩不斷

泰國駐華大使館評論區(qū)爆了,感恩不斷

深度報
2025-12-18 22:18:22
以色列暗殺伊朗核科學家細節(jié)曝光:和美國反復磋商,暗殺名單從100人縮減至12人

以色列暗殺伊朗核科學家細節(jié)曝光:和美國反復磋商,暗殺名單從100人縮減至12人

爆角追蹤
2025-12-18 19:38:52
海南封關,新加坡的沉默震耳欲聾!

海南封關,新加坡的沉默震耳欲聾!

環(huán)球策論
2025-12-18 22:39:23
香港中環(huán)發(fā)生巨額劫案 4持刀男劫走10億日元

香港中環(huán)發(fā)生巨額劫案 4持刀男劫走10億日元

看看新聞Knews
2025-12-18 14:16:03
2025-12-19 07:27:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11877文章數(shù) 176339關注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

特朗普命令2028年登月 在月球部署核反應堆

頭條要聞

特朗普命令2028年登月 在月球部署核反應堆

體育要聞

紐約尼克斯,板正的球隊

娛樂要聞

絲芭放大招了!實名舉報鞠婧祎經(jīng)濟犯罪

財經(jīng)要聞

尹艷林:呼吁加快2.5億新市民落戶進程

汽車要聞

在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

態(tài)度原創(chuàng)

房產(chǎn)
健康
親子
時尚
本地

房產(chǎn)要聞

搶藏瘋潮!封關時代,海口頂奢王炸壓軸,傳世資產(chǎn)即刻登場!

這些新療法,讓化療不再那么痛苦

親子要聞

這些兒童常用藥,有娃的家庭趕緊備起來

陳妍希這婚,離晚了

本地新聞

云游安徽|決戰(zhàn)烽火照古今,千秋一脈看宿州

無障礙瀏覽 進入關懷版