網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GenEval從61%狂拉到92%，全面超越GPT-4o的TDM-R1模型來(lái)了

2026-04-09 19:57:13　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

超快速 AI 生圖領(lǐng)域再破性能天花板！香港科技大學(xué)唐靖團(tuán)隊(duì)、香港科技大學(xué)（深圳分校）胡天陽(yáng)、小紅書(shū) hi-lab 羅維儉提出全新通用強(qiáng)化學(xué)習(xí)框架 TDM-R1，精準(zhǔn)破解超快速擴(kuò)散生成的核心痛點(diǎn) —— 僅需 4 步采樣（4 NFE），便將組合式生成指標(biāo) GenEval 從 61% 飆升至 92%，不僅碾壓 80 步基礎(chǔ)模型的 63%，更直接超越 GPT-4o 的 84%，讓快節(jié)奏生圖不僅實(shí)現(xiàn) “高效低成本”，更能 “精準(zhǔn)聽(tīng)懂指令、貼合真實(shí)需求”。

TDM-R1-zimage 模型4步生成超高清圖像

當(dāng)前，少步擴(kuò)散模型已成為 AI 生圖的主流方向 —— 通過(guò)蒸餾、軌跡匹配等核心技術(shù)，將原本幾十步、上百步的采樣過(guò)程，壓縮至 4 步、8 步，大幅降低推理成本，完美適配工業(yè)級(jí)部署需求。但一個(gè)致命痛點(diǎn)始終難以突破：像 “圖中需包含 3 只狗”“英文單詞無(wú)拼寫(xiě)錯(cuò)誤”“用戶(hù)偏好 A 類(lèi)圖像” 這類(lèi) “不可量化” 的反饋，無(wú)法穩(wěn)定應(yīng)用于少步擴(kuò)散模型的強(qiáng)化學(xué)習(xí)，導(dǎo)致模型即便推理速度再快，也始終 “聽(tīng)不懂指令、做不對(duì)任務(wù)”。

TDM-R1 的出現(xiàn)，正是為打破這一行業(yè)困局。該框架無(wú)需依賴(lài)可微獎(jiǎng)勵(lì)反傳，創(chuàng)新地將學(xué)習(xí)過(guò)程拆分為 “代理獎(jiǎng)勵(lì)學(xué)習(xí) + 生成器學(xué)習(xí)” 兩部分，首次實(shí)現(xiàn)各類(lèi)自由形式的不可微獎(jiǎng)勵(lì)，與少步生成模型后訓(xùn)練的深度融合。相關(guān)研究成果以論文《TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward》形式發(fā)布，作者團(tuán)隊(duì)來(lái)自香港科技大學(xué)、香港中文大學(xué)（深圳）、小紅書(shū) hi-lab、港科大（廣州）四大機(jī)構(gòu)。

論文標(biāo)題：TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward
論文作者：Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang
作者單位：香港科技大學(xué)、香港中文大學(xué)（深圳）、小紅書(shū) hi-lab、港科大（廣州）
論文地址：https://arxiv.org/abs/2603.07700
GitHub 代碼倉(cāng)庫(kù)：https://github.com/Luo-Yihong/TDM-R1
項(xiàng)目主頁(yè)：https://luo-yihong.github.io/TDM-R1-Page/

痛點(diǎn)直擊：少步擴(kuò)散 “快是快了，就是不聽(tīng)話(huà)”

少步擴(kuò)散模型的優(yōu)勢(shì)十分突出 —— 推理速度快、部署成本低，早已成為產(chǎn)業(yè)界的核心選擇，但它的短板同樣頑固，即便當(dāng)前主流少步模型，也難逃三大核心問(wèn)題，嚴(yán)重制約實(shí)用化落地：

復(fù)雜指令遵循能力弱：例如生成 “左側(cè)紅蘋(píng)果、右側(cè)綠香蕉” 這類(lèi)包含位置與屬性約束的指令時(shí)，模型常出現(xiàn)位置顛倒、屬性對(duì)應(yīng)錯(cuò)誤等問(wèn)題；
文字渲染穩(wěn)定性差：即便生成圖像畫(huà)面精美，也頻繁出現(xiàn)英文拼寫(xiě)錯(cuò)誤、漢字缺筆畫(huà)、文字黏連或排版混亂等問(wèn)題，影響實(shí)際應(yīng)用；
組合式生成能力拉胯：目標(biāo)計(jì)數(shù)（如 “3 只貓”）、位置關(guān)系（如 “貓?jiān)诠放赃叀保?、屬性綁定（?“黑色小狗”）等任務(wù)中，模型往往 “看似能完成，實(shí)際效果偏差極大”，難以滿(mǎn)足精準(zhǔn)需求。

從直覺(jué)來(lái)看，這些問(wèn)題可通過(guò)強(qiáng)化學(xué)習(xí)解決 ——“對(duì)不對(duì)”“好不好看”“符不符合要求”，本身就是最直接的獎(jiǎng)勵(lì)信號(hào)。但核心難題在于，這類(lèi)獎(jiǎng)勵(lì)大多是離散、不可微的（無(wú)法量化為模型可直接學(xué)習(xí)的梯度）。而此前超快速擴(kuò)散模型的強(qiáng)化學(xué)習(xí)方法，均默認(rèn) “獎(jiǎng)勵(lì)必須可微”，這就將大量真實(shí)場(chǎng)景中最具價(jià)值的反饋，直接排除在模型優(yōu)化范圍之外。

TDM-R1 的核心出發(fā)點(diǎn)，便是打破這一限制，讓少步擴(kuò)散模型真正 “聽(tīng)懂” 人類(lèi)的真實(shí)需求，實(shí)現(xiàn) “快且精準(zhǔn)” 的實(shí)用化突破。

TDM-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練曲線

核心思路：不硬剛獎(jiǎng)勵(lì)反傳，兩步拆分破解困局

TDM-R1 建立在作者此前提出的少步生成框架 TDM（軌跡分布匹配）之上，與傳統(tǒng)擴(kuò)散強(qiáng)化學(xué)習(xí)最大的區(qū)別的是：它不強(qiáng)行要求不可微獎(jiǎng)勵(lì) “實(shí)現(xiàn)反傳”，而是將整個(gè)學(xué)習(xí)過(guò)程拆分為兩條獨(dú)立且關(guān)聯(lián)的路線，分工明確、高效協(xié)同，徹底解決不可微獎(jiǎng)勵(lì)的適配難題。

第一步：訓(xùn)練 “獎(jiǎng)勵(lì)翻譯官”—— 代理獎(jiǎng)勵(lì)模型

針對(duì)離散、不可微的獎(jiǎng)勵(lì)（如 “文字是否正確”“計(jì)數(shù)是否準(zhǔn)確”“用戶(hù)是否偏好”），研究團(tuán)隊(duì)首先訓(xùn)練一個(gè) “代理獎(jiǎng)勵(lì)模型”。該模型如同 “翻譯官”，將模糊、不可量化的反饋，轉(zhuǎn)化為模型可理解、可學(xué)習(xí)的細(xì)粒度信號(hào)，同時(shí)精準(zhǔn)擬合每一步去噪軌跡的優(yōu)劣關(guān)系。簡(jiǎn)單來(lái)說(shuō)，就是讓模型先學(xué)會(huì) “判斷好壞”，再針對(duì)性地 “學(xué)好”，為后續(xù)優(yōu)化奠定基礎(chǔ)。

第二步：培育 “高效畫(huà)師”—— 少步生成器

在 “4 步采樣” 的嚴(yán)格約束下，訓(xùn)練少步生成器最大化代理獎(jiǎng)勵(lì)模型給出的 “優(yōu)質(zhì)信號(hào)”；同時(shí)引入反向 KL 正則，將生成模型的分布穩(wěn)定在預(yù)訓(xùn)練基礎(chǔ)模型附近，有效避免模型 “學(xué)偏”“走火入魔”，確保生成質(zhì)量的穩(wěn)定性。

形象而言，這一設(shè)計(jì)相當(dāng)于將 “判斷作品好壞” 與 “創(chuàng)作作品” 徹底拆分：“翻譯官” 專(zhuān)注解讀人類(lèi)需求、評(píng)判生成效果，“畫(huà)師” 專(zhuān)注在快速創(chuàng)作的前提下，產(chǎn)出符合要求的作品，兩者高效配合，實(shí)現(xiàn) “快、準(zhǔn)、優(yōu)” 三者兼顧。

關(guān)鍵創(chuàng)新：三大核心設(shè)計(jì)，鑄就少步生圖 “封神” 實(shí)力

TDM-R1 的成功并非簡(jiǎn)單的方法拼接，而是精準(zhǔn)抓住少步擴(kuò)散模型的核心特性，設(shè)計(jì)三大關(guān)鍵創(chuàng)新點(diǎn)，三者相輔相成、缺一不可，最終實(shí)現(xiàn)性能的顛覆性提升：

1. 確定性軌跡：讓中間步驟的獎(jiǎng)勵(lì)估計(jì)更精準(zhǔn)

傳統(tǒng)擴(kuò)散模型采樣過(guò)程充滿(mǎn)隨機(jī)性，如同 “同一張草圖，每次上色效果都不同”，難以給中間去噪步驟分配穩(wěn)定的獎(jiǎng)勵(lì) —— 多數(shù)方法只能將最終圖像的獎(jiǎng)勵(lì) “一刀切” 應(yīng)用于所有中間步驟，誤差極大，嚴(yán)重影響模型收斂效果。

TDM-R1 充分利用 TDM 框架的核心優(yōu)勢(shì)：采樣軌跡具有確定性。也就是說(shuō)，從初始噪聲到最終圖像的 “創(chuàng)作路徑” 固定不變，每一步中間狀態(tài)的優(yōu)劣，都能被精準(zhǔn)估計(jì)。這一設(shè)計(jì)大幅降低了獎(jiǎng)勵(lì)估計(jì)的誤差，讓模型收斂速度更快、最終生成效果更優(yōu)。實(shí)驗(yàn)數(shù)據(jù)明確證明，若替換為隨機(jī)采樣變體，模型收斂速度與性能會(huì)出現(xiàn)明顯下降。

核心總結(jié)：TDM-R1 并未照搬 LLM 的 RLHF 方法，而是精準(zhǔn)適配少步軌跡的特殊性，先實(shí)現(xiàn) “每一步獎(jiǎng)勵(lì)的精準(zhǔn)計(jì)算”，再推進(jìn)強(qiáng)化學(xué)習(xí)，從根源上提升優(yōu)化效率。

2.組偏好優(yōu)化（GRPO，DGPO等）：生成更穩(wěn)定的動(dòng)態(tài)獎(jiǎng)勵(lì)信號(hào)

僅實(shí)現(xiàn)中間步驟獎(jiǎng)勵(lì)的精準(zhǔn)估計(jì)還不夠，如何將不可微的獎(jiǎng)勵(lì)信號(hào)，轉(zhuǎn)化為穩(wěn)定的訓(xùn)練信號(hào)，也是核心難題。TDM-R1 借鑒 RLHF 與組偏好優(yōu)化的核心思路，摒棄 “單一樣本評(píng)判好壞” 的傳統(tǒng)模式，通過(guò) “成組樣本的相對(duì)偏好” 來(lái)學(xué)習(xí)獎(jiǎng)勵(lì)。

具體而言，研究團(tuán)隊(duì)采用 Bradley-Terry 模型，對(duì) “優(yōu)質(zhì)樣本組” 與 “劣質(zhì)樣本組” 的關(guān)系進(jìn)行建模，再根據(jù)組內(nèi)樣本的優(yōu)勢(shì)差異，為不同中間樣本分配對(duì)應(yīng)權(quán)重 —— 讓模型更關(guān)注 “優(yōu)勢(shì)明顯的優(yōu)質(zhì)樣本” 和 “差距顯著的劣質(zhì)樣本”，大幅提升學(xué)習(xí)效率，也更貼合當(dāng)前大模型強(qiáng)化學(xué)習(xí)的優(yōu)化趨勢(shì)。相較于傳統(tǒng)的 “兩兩對(duì)比” 模式，這種組偏好優(yōu)化能充分利用更細(xì)粒度的排序信息，優(yōu)化效果更突出。

3. 動(dòng)態(tài)參考模型：靈活適配，避免訓(xùn)練僵局

現(xiàn)有多數(shù)方法會(huì)采用完全凍結(jié)的參考模型，約束代理獎(jiǎng)勵(lì)學(xué)習(xí)，導(dǎo)致 “規(guī)則過(guò)于嚴(yán)苛”，使得獎(jiǎng)勵(lì)模型無(wú)法適應(yīng)少步生成器的輸出分布，最終陷入訓(xùn)練僵局，難以實(shí)現(xiàn)性能突破。

TDM-R1 做出實(shí)用性創(chuàng)新：采用代理獎(jiǎng)勵(lì)模型參數(shù)的 EMA 版本（動(dòng)態(tài)更新的平均版本）作為參考模型，既保留了訓(xùn)練過(guò)程的穩(wěn)定性，又允許獎(jiǎng)勵(lì)模型逐步跟上少步生成器的分布變化，實(shí)現(xiàn)動(dòng)態(tài)適配。實(shí)驗(yàn)結(jié)果驗(yàn)證，該設(shè)計(jì)相較于靜態(tài)參考模型，不僅訓(xùn)練過(guò)程更穩(wěn)定，最終生成性能也更優(yōu)。

實(shí)驗(yàn)：4 步采樣碾壓 80 步模型，全面超越 GPT-4o

TDM-R1 的實(shí)驗(yàn)表現(xiàn)堪稱(chēng) “降維打擊”，核心實(shí)驗(yàn)圍繞組合式生成能力展開(kāi)，在 GenEval 基準(zhǔn)測(cè)試（專(zhuān)門(mén)考察組合式生成能力，覆蓋單目標(biāo)、多目標(biāo)、計(jì)數(shù)、顏色、位置、屬性綁定等核心難點(diǎn)）上，交出了驚艷全場(chǎng)的答卷：

4 步基線模型（TDM-SD3.5-M）：GenEval 僅 61%，組合式生成能力薄弱；
加入 TDM-R1 后（仍為 4 步采樣）：GenEval 直接飆升至 92%，實(shí)現(xiàn)質(zhì)的飛躍；
對(duì)比組 1（80 步原始 SD3.5-M）：GenEval 僅 63%，被 4 步 TDM-R1 全面碾壓；
對(duì)比組 2（GPT-4o）：GenEval 為 84%，同樣被 TDM-R1 超越，凸顯模型核心優(yōu)勢(shì)。

更關(guān)鍵的是，92% 的高分并非 “單點(diǎn)僥幸”，而是所有子項(xiàng)全面開(kāi)花，尤其是最難的位置關(guān)系和屬性綁定任務(wù)，徹底擺脫 “看似會(huì)、實(shí)則不會(huì)” 的困境，具體表現(xiàn)如下：

單目標(biāo) 1.00、雙目標(biāo) 0.96、計(jì)數(shù) 0.88、位置關(guān)系 0.93、屬性綁定 0.91—— 這一結(jié)果充分證明，TDM-R1 并非簡(jiǎn)單 “拉高分?jǐn)?shù)”，而是實(shí)打?qū)嵮a(bǔ)齊了少步生成模型的組合式指令遵循能力，讓模型真正 “聽(tīng)懂指令、做好任務(wù)”。

TDM-R1與Z-image模型的直接比較

不止刷分：圖像質(zhì)量不降級(jí)，實(shí)現(xiàn)協(xié)同提升

面對(duì) GenEval 從 61% 到 92% 的夸張?zhí)嵘?，不少人?huì)質(zhì)疑：是否存在 “刷分” 嫌疑？即模型僅迎合 GenEval 指標(biāo)，實(shí)際圖像質(zhì)量反而下降？

研究團(tuán)隊(duì)專(zhuān)門(mén)設(shè)計(jì)針對(duì)性驗(yàn)證實(shí)驗(yàn)，在 DrawBench 基準(zhǔn)上引入 5 個(gè)不參與訓(xùn)練的 “場(chǎng)外指標(biāo)”（Aesthetic Score、DeQA、ImageReward、PickScore、UnifiedReward），全面檢驗(yàn)?zāi)Ｐ褪欠?“刷分不長(zhǎng)本事”。實(shí)驗(yàn)結(jié)果令人信服：

TDM-R1（4 步采樣）不僅將 GenEval 從 61% 提升至 92%，在 5 項(xiàng)圖像質(zhì)量 / 偏好指標(biāo)上，不僅沒(méi)有出現(xiàn)掉點(diǎn)，反而整體優(yōu)于 4 步基線模型和 80 步基礎(chǔ)模型。例如，TDM-R1 的 Aesthetic=5.42、DeQA=4.07、ImageReward=1.11，均顯著超過(guò)基線模型的對(duì)應(yīng)數(shù)值。

作者特別強(qiáng)調(diào)，此前傳統(tǒng)擴(kuò)散強(qiáng)化學(xué)習(xí)方法，雖能提升目標(biāo)指標(biāo)，但往往伴隨圖像質(zhì)量退化；而 TDM-R1 在少步場(chǎng)景下，完美兼顧 “更聽(tīng)話(huà)” 與 “更好看”，真正實(shí)現(xiàn) “高效、精準(zhǔn)、優(yōu)質(zhì)” 三者兼得。

TDM-R1在Geneval測(cè)試上，通過(guò)強(qiáng)化學(xué)習(xí)技術(shù)，僅憑4步生成，將Geneval得分從61提升到92。

額外驚喜：文字渲染大突破，實(shí)現(xiàn)跨任務(wù)協(xié)同增益

除組合式生成能力的顛覆性提升外，TDM-R1 在文字渲染這一行業(yè) “老大難” 問(wèn)題上，也交出亮眼答卷 ——OCR 準(zhǔn)確率（文字識(shí)別準(zhǔn)確率）從 4 步基線模型的 55%，直接提升至 95%，徹底解決了 “文字寫(xiě)錯(cuò)、缺筆畫(huà)、黏連” 的核心痛點(diǎn)，大幅提升圖像生成的實(shí)用性。

更令人意外的是，論文發(fā)現(xiàn)了顯著的 “協(xié)同增益”：用 GenEval 這類(lèi)可驗(yàn)證指標(biāo)訓(xùn)練模型，能同步提升 OCR 指標(biāo)；反過(guò)來(lái)，用 OCR 獎(jiǎng)勵(lì)訓(xùn)練，也能促進(jìn)其他可驗(yàn)證任務(wù)的表現(xiàn)。作者認(rèn)為，這一現(xiàn)象表明，只要選對(duì)代理任務(wù)，就能通過(guò)某類(lèi)可驗(yàn)證獎(jiǎng)勵(lì)，低成本提升少步模型的通用指令遵循能力 —— 這或許是圖像模型走向 “通用對(duì)齊” 的一條便捷路徑。

可擴(kuò)展性驗(yàn)證：適配 6B Z-Image，通用范式實(shí)力凸顯

TDM-R1 并非 “針對(duì)特定模型的技巧性?xún)?yōu)化”，而是一套通用的強(qiáng)化學(xué)習(xí)范式，可輕松擴(kuò)展至更強(qiáng)的開(kāi)源大模型。研究團(tuán)隊(duì)將其應(yīng)用于近期熱門(mén)的 6B 參數(shù) Z-Image 模型，以 HPSv3（一款優(yōu)質(zhì)獎(jiǎng)勵(lì)模型，能有效避免 “獎(jiǎng)勵(lì)黑客” 現(xiàn)象，提升生成圖像實(shí)際質(zhì)量）作為獎(jiǎng)勵(lì)信號(hào)進(jìn)行對(duì)齊，實(shí)驗(yàn)結(jié)果同樣亮眼：

Z-Image（100 步）：GenEval 0.66，OCR 0.74；
Z-Image-Turbo（4 步）：GenEval 0.73，OCR 0.78；
TDM-R1-ZImage（4 步）：GenEval 0.77，OCR 0.79。

同時(shí)，在 HPSv3、Aesthetic 等多項(xiàng)質(zhì)量指標(biāo)上，TDM-R1-ZImage 也整體優(yōu)于 100 步原模型和 4 步 Turbo 版本，進(jìn)一步驗(yàn)證了 TDM-R1 的通用性與擴(kuò)展性，為其大規(guī)模工業(yè)應(yīng)用奠定基礎(chǔ)。

關(guān)鍵消融實(shí)驗(yàn)：傳統(tǒng) RL 無(wú)法適配少步場(chǎng)景的核心原因

針對(duì) “將傳統(tǒng)擴(kuò)散 RL 損失函數(shù)直接加到少步模型上是否可行” 這一行業(yè)疑問(wèn)，論文通過(guò)對(duì)比實(shí)驗(yàn)給出明確答案：不可行。

研究團(tuán)隊(duì)將傳統(tǒng)擴(kuò)散 RL 的損失，與少步蒸餾目標(biāo)直接相加，結(jié)果顯示，訓(xùn)練出的模型不僅容易出現(xiàn)圖像模糊問(wèn)題，性能還極不穩(wěn)定。核心原因在于：傳統(tǒng)擴(kuò)散 RL 本質(zhì)上仍是一種加權(quán)去噪損失，這種去噪目標(biāo)與少步蒸餾追求的反向 KL 軌跡匹配，并不天然兼容 —— 在多步擴(kuò)散場(chǎng)景中尚可勉強(qiáng)工作，但在 4 步這樣的少步場(chǎng)景下，會(huì)產(chǎn)生嚴(yán)重沖突，導(dǎo)致模型無(wú)法正常收斂。

這也正是 TDM-R1 的核心價(jià)值所在：它并非簡(jiǎn)單照搬已有 RL 方法，而是針對(duì)少步生成機(jī)制的特性，設(shè)計(jì)了一套與之完美匹配的后訓(xùn)練方法論，真正解決了少步擴(kuò)散模型的強(qiáng)化學(xué)習(xí)適配難題。

行業(yè)意義：不止一個(gè) SOTA，更是少步生圖的全新方向

4 步采樣、GenEval 從 61% 飆升至 92%、超越 GPT-4o，這些亮眼數(shù)據(jù)只是 TDM-R1 的表面成就，其真正的行業(yè)價(jià)值，在于為少步擴(kuò)散模型打開(kāi)了三條全新的發(fā)展可能，推動(dòng)超快速 AI 生圖邁入實(shí)用化新階段：

少步模型可實(shí)現(xiàn) LLM 式 RL 后訓(xùn)練：過(guò)去行業(yè)普遍將少步擴(kuò)散視為 “蒸餾的終點(diǎn)”，認(rèn)為 “快就足夠”，而 TDM-R1 證明，少步模型不僅能繼續(xù)優(yōu)化，還能通過(guò)通用不可微獎(jiǎng)勵(lì)持續(xù)變強(qiáng)，打破 “少步即終點(diǎn)” 的固有認(rèn)知；
不可微獎(jiǎng)勵(lì)實(shí)現(xiàn)系統(tǒng)性接入：未來(lái)，無(wú)論是人類(lèi)的二元偏好、產(chǎn)品側(cè)的離散反饋，還是用戶(hù)交互點(diǎn)擊數(shù)據(jù)，都能用于少步模型的優(yōu)化，讓模型更貼合真實(shí)場(chǎng)景需求，提升實(shí)用價(jià)值；
可驗(yàn)證任務(wù)成為通用對(duì)齊的低成本路徑：從 GenEval 與 OCR 的協(xié)同增益來(lái)看，未來(lái)圖像模型或許能像語(yǔ)言模型一樣，通過(guò)少量高質(zhì)量、可程序驗(yàn)證的任務(wù)，撬動(dòng)更廣泛的能力提升，為圖像模型通用對(duì)齊提供全新思路。

結(jié)語(yǔ)

在大模型強(qiáng)化學(xué)習(xí)的熱潮中，圖像生成領(lǐng)域長(zhǎng)期缺少一套真正適配少步模型的通用 RL 框架，而 TDM-R1 的出現(xiàn)，恰恰補(bǔ)上了這塊關(guān)鍵拼圖。它不要求獎(jiǎng)勵(lì)可微，不依賴(lài)額外真值圖像數(shù)據(jù)，憑借確定性軌跡和動(dòng)態(tài)代理獎(jiǎng)勵(lì)兩大核心設(shè)計(jì)，將不可微反饋轉(zhuǎn)化為可優(yōu)化信號(hào)，讓少步模型真正實(shí)現(xiàn) “既快又準(zhǔn)、既高效又聽(tīng)話(huà)”。

GenEval 從 61% 到 92% 的跨越，不僅是一個(gè)數(shù)字的提升，更預(yù)示著下一代工業(yè)圖像生成系統(tǒng)的全新形態(tài)：采樣步數(shù)極少、推理成本極低，但對(duì)人類(lèi)偏好、結(jié)構(gòu)約束和復(fù)雜指令的響應(yīng)能力，卻持續(xù)增強(qiáng)。香港科技大學(xué)、香港中文大學(xué)（深圳）與小紅書(shū) hi-lab 聯(lián)合帶來(lái)的這一突破，無(wú)疑為少步生圖的發(fā)展按下了加速鍵，推動(dòng)超快速 AI 生圖向更精準(zhǔn)、更實(shí)用、更通用的方向邁進(jìn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.