国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讓擴(kuò)散模型「可解釋」不再降質(zhì),開啟圖片編輯新思路

0
分享至



過去三年,擴(kuò)散模型席卷圖像生成領(lǐng)域。以 DiT (Diffusion Transformer) 為代表的新一代架構(gòu)不斷刷新圖像質(zhì)量的極限,讓模型愈發(fā)接近真實(shí)世界的視覺規(guī)律。

然而,與 LLM 可解釋性研究的蓬勃發(fā)展相對(duì),擴(kuò)散模型內(nèi)部的語義結(jié)構(gòu)、時(shí)間規(guī)律以及因果路徑仍然像被深深封住的「黑箱」。研究者可以憑直覺優(yōu)化架構(gòu),但外界無法真正理解擴(kuò)散模型在生成過程中的「思考方式」。

更棘手的是,已有的可解釋性嘗試往往伴隨著明顯的性能下降:特征分解、激活分析、插值擾動(dòng)……無論采用哪種方法,只要試圖將擴(kuò)散模型拆開來看,生成質(zhì)量就會(huì)顯著劣化。這讓「可解釋擴(kuò)散模型」在很長一段時(shí)間里被視為不切實(shí)際的小眾方向。

在這樣的背景下,香港中文大學(xué) MMLab 與上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了一個(gè)不同的觀點(diǎn):擴(kuò)散模型作為當(dāng)今視覺世界最重要的生成器,其內(nèi)部機(jī)制不應(yīng)永遠(yuǎn)處于不可見狀態(tài);可解釋性也不應(yīng)該以犧牲生成質(zhì)量為代價(jià)。

基于這一理念,他們提出了被 AAAI 2026 接收的TIDE (Temporal-Aware Sparse Autoencoders)—— 首個(gè)真正意義上面向擴(kuò)散 Transformer 的時(shí)序稀疏自編碼器框架。



  • 論文標(biāo)題:TIDE: Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation
  • 論文鏈接:
  • https://arxiv.org/pdf/2503.07050

TIDE:

讓「時(shí)序」成為擴(kuò)散可解釋性的核心

以往的可解釋方法大多忽視了擴(kuò)散過程最大的特點(diǎn):生成是一個(gè)隨時(shí)間展開的漸進(jìn)式構(gòu)造過程。早期步驟決定物體形狀和布局,中期步驟塑造語義和結(jié)構(gòu),后期步驟填充材質(zhì)與細(xì)節(jié)。如果忽略這條時(shí)間線,擴(kuò)散模型看起來就像一團(tuán)混亂的噪聲與特征。TIDE 的突破在于,它不是「硬拆」一個(gè)靜態(tài)特征,而是讓模型自己在時(shí)間維度上對(duì)齊語義:

同一個(gè)因子會(huì)在不同時(shí)間步中保持一致的語義軌跡,最終形成一個(gè)可讀、可控、穩(wěn)固的「時(shí)間語義剖面」。

也正是在這樣的時(shí)序框架下,擴(kuò)散模型內(nèi)部原本模糊的過程第一次被清晰呈現(xiàn)出來:粗結(jié)構(gòu)從噪聲中浮現(xiàn)、語義逐漸成型、紋理被不斷潤色……模型的「思考流」沿著時(shí)間軸被完整雕刻出來。

更重要的是,這一切并不會(huì)破壞原模型的生成能力。TIDE 的稀疏自編碼器在特征空間進(jìn)行無損重構(gòu),擴(kuò)散軌跡保持穩(wěn)定,模型幾乎感受不到被「觀察」的存在。同時(shí)在 scaling latent 維度時(shí),也優(yōu)于原有 vanilla SAE 方法。



TIDE 架構(gòu)與訓(xùn)練

在 Stable Diffusion XL、PixArt-α、Flux 等主流擴(kuò)散框架上,TIDE 將擴(kuò)散特征分解為具有可控語義的因子:

負(fù)責(zé)輪廓的因子、負(fù)責(zé)物體姿態(tài)的因子、負(fù)責(zé)材質(zhì)紋理的因子……甚至可以捕捉到跨時(shí)間的概念演化?;谶@些因子,研究團(tuán)隊(duì)構(gòu)建出一種全新的圖像編輯方式:編輯不再依賴繁瑣的提示語或反復(fù)調(diào)參,而是可以沿著清晰的語義方向直接操控?cái)U(kuò)散過程。例如:

  • 提升紋理細(xì)節(jié)而不改變?nèi)纸Y(jié)構(gòu)
  • 調(diào)整物體姿態(tài)但保持背景一致
  • 加強(qiáng)某類語義而不干擾其它部分



這些編輯操作完全基于 TIDE 生成的語義因子完成,意味著未來擴(kuò)散模型有望出現(xiàn)一種全新的「因子級(jí)編輯器」,具備高度可控性與透明性。

與此同時(shí),TIDE 對(duì)模型生成質(zhì)量的影響幾乎可以忽略不計(jì)。FID、sFID 變化小于 0.1%,噪聲預(yù)測軌跡保持穩(wěn)定,實(shí)現(xiàn)了真正意義上的「可解釋而不降質(zhì)」。

TIDE 的效果

TIDE 在不同設(shè)置、不同模型規(guī)模以及不同任務(wù)維度下的整體表現(xiàn)。無論是在超參數(shù)選擇、在 DiT 不同層級(jí)進(jìn)行因子學(xué)習(xí),還是在 SDXL、FLUX-dev 等主流擴(kuò)散架構(gòu)上的泛化能力,TIDE 都表現(xiàn)出高度穩(wěn)定且持續(xù)的優(yōu)勢。

可以看到,TIDE 在幾乎不增加 FID 代價(jià)的前提下,顯著提升了 AlignScore 中的語義綁定(顏色、形狀、紋理)以及跨區(qū)域關(guān)系理解(空間與非空間關(guān)系),其中多處指標(biāo)在表中以綠色標(biāo)記為最優(yōu)表現(xiàn)。

此外,在安全性評(píng)測部分,TIDE 相比多個(gè)現(xiàn)有方法大幅降低了攻擊成功率,顯示出更穩(wěn)健的特征理解能力。整體來看,這幅表格清楚證明:TIDE 不僅帶來了高質(zhì)量、可解釋的語義因子,還在保持生成質(zhì)量的同時(shí),提升了模型的結(jié)構(gòu)理解、關(guān)系推理與安全性,成為一種真正可泛化、可落地的可解釋擴(kuò)散框架。



TIDE 的意義:

補(bǔ)齊擴(kuò)散模型的「理解」能力

擴(kuò)散模型已經(jīng)成為現(xiàn)代視覺生成系統(tǒng)的核心支柱,但它們的內(nèi)部機(jī)制一直缺乏系統(tǒng)、透明的解釋路徑。TIDE 的出現(xiàn)不僅提供了首個(gè)真正實(shí)用的可解釋性方案,更重要的是,它讓研究者第一次能夠沿著「時(shí)間」這條線索觀察擴(kuò)散模型內(nèi)部的語義結(jié)構(gòu)。



這種理解能力將直接影響未來的多個(gè)方向:

  • 更可控、更穩(wěn)健的擴(kuò)散編輯系統(tǒng)
  • 統(tǒng)一理解——生成模型的因子級(jí)橋接
  • 擴(kuò)散模型的因果與語義理論研究
  • 新一代透明、可信的視覺生成系統(tǒng)

TIDE 不僅是一個(gè)方法,更是一種新的研究范式:擴(kuò)散模型并非不可解釋,只是缺少一個(gè)合適的視角。

未來展望

研究團(tuán)隊(duì)表示,當(dāng)前 TIDE 已成功驗(yàn)證了時(shí)序稀疏自編碼器框架的有效性,但可解釋擴(kuò)散模型的潛力遠(yuǎn)未被完全發(fā)掘。未來的工作將進(jìn)一步:

  • 擴(kuò)展更大規(guī)模、更精細(xì)的時(shí)序字典
  • 探索跨模態(tài)共享的語義因子
  • 結(jié)合 LLM-SAE 構(gòu)建統(tǒng)一解釋空間
  • 將因子級(jí)編輯推向產(chǎn)品化工具

隨著更多研究者的加入,擴(kuò)散模型的「黑箱壁壘」正逐漸被揭開,而 TIDE 或許是這一轉(zhuǎn)變具有代表性的第一步。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
李雨桐泄露薛之謙手機(jī)號(hào)、身份證號(hào),被北京朝陽警方行政拘留

李雨桐泄露薛之謙手機(jī)號(hào)、身份證號(hào),被北京朝陽警方行政拘留

封面新聞
2026-04-19 18:38:11
小學(xué)生拒絕“借”車遭毆打還被搜家,8人未滿14歲不處罰、1人被處行拘免執(zhí)行,家長稱看施暴視頻氣得吃救心丸

小學(xué)生拒絕“借”車遭毆打還被搜家,8人未滿14歲不處罰、1人被處行拘免執(zhí)行,家長稱看施暴視頻氣得吃救心丸

極目新聞
2026-04-19 22:39:27
阿森納崩盤!國內(nèi)賽事四連敗,失去爭冠主動(dòng)權(quán),3年首次連負(fù)曼城

阿森納崩盤!國內(nèi)賽事四連敗,失去爭冠主動(dòng)權(quán),3年首次連負(fù)曼城

奧拜爾
2026-04-20 01:39:09
以色列已失控?以軍炮打聯(lián)合國維和部隊(duì),法軍犧牲,馬克龍表態(tài)

以色列已失控?以軍炮打聯(lián)合國維和部隊(duì),法軍犧牲,馬克龍表態(tài)

來科點(diǎn)譜
2026-04-19 07:15:46
金像獎(jiǎng)獲獎(jiǎng)名單出爐:梁家輝五封影帝,章子怡馬麗坐了一晚冷板凳

金像獎(jiǎng)獲獎(jiǎng)名單出爐:梁家輝五封影帝,章子怡馬麗坐了一晚冷板凳

萌神木木
2026-04-19 22:54:32
全場嘩然!29歲女子在相親舞臺(tái)稱“娶我一定讓你爽”,王婆也懵了

全場嘩然!29歲女子在相親舞臺(tái)稱“娶我一定讓你爽”,王婆也懵了

火山詩話
2026-04-19 06:42:57
5月1日起物業(yè)行業(yè)徹底大變天!新規(guī)落地,業(yè)主終于不用再忍氣吞聲

5月1日起物業(yè)行業(yè)徹底大變天!新規(guī)落地,業(yè)主終于不用再忍氣吞聲

另子維愛讀史
2026-04-19 19:37:43
印度油輪霍爾木茲海峽遭炮擊,船員喊話錄音:你們批準(zhǔn)我們通行,卻又向我們開火

印度油輪霍爾木茲海峽遭炮擊,船員喊話錄音:你們批準(zhǔn)我們通行,卻又向我們開火

紅星新聞
2026-04-19 17:03:18
美國妹子崩潰大哭:借9.6萬美元上大學(xué),已還16.5萬,還欠22萬

美國妹子崩潰大哭:借9.6萬美元上大學(xué),已還16.5萬,還欠22萬

賤議你讀史
2026-04-19 04:30:07
伊朗向中國通報(bào)內(nèi)幕!談判團(tuán)差點(diǎn)被美軍“團(tuán)滅”,連電話都不敢打

伊朗向中國通報(bào)內(nèi)幕!談判團(tuán)差點(diǎn)被美軍“團(tuán)滅”,連電話都不敢打

風(fēng)信子的花
2026-04-19 16:46:59
微信這個(gè)開關(guān)不關(guān),你住哪、干啥,別人全知道!快關(guān)掉!

微信這個(gè)開關(guān)不關(guān),你住哪、干啥,別人全知道!快關(guān)掉!

侃故事的阿慶
2026-04-18 17:54:13
嚴(yán)肅辟謠:小鵬 GX沒有抄襲路虎攬勝!

嚴(yán)肅辟謠:小鵬 GX沒有抄襲路虎攬勝!

車市博覽
2026-04-19 16:06:34
以軍:打死阿里·里達(dá)·阿巴斯

以軍:打死阿里·里達(dá)·阿巴斯

南方都市報(bào)
2026-04-19 21:17:31
英超德比2-1:兩人重傷+火爆沖突+100分鐘絕殺 10.2億豪門坐穩(wěn)前5

英超德比2-1:兩人重傷+火爆沖突+100分鐘絕殺 10.2億豪門坐穩(wěn)前5

狍子歪解體壇
2026-04-19 23:07:25
章澤天洛杉磯外媒生圖美到發(fā)光!劉強(qiáng)東的臉盲,果然是頂級(jí)凡爾賽

章澤天洛杉磯外媒生圖美到發(fā)光!劉強(qiáng)東的臉盲,果然是頂級(jí)凡爾賽

觀魚聽雨
2026-04-17 22:15:44
罕見!黃仁勛談芯片禁售突然情緒失控:你不是在和一個(gè)Loser說話

罕見!黃仁勛談芯片禁售突然情緒失控:你不是在和一個(gè)Loser說話

DeepAuto車探
2026-04-19 20:37:54
4月19日最新油價(jià),國際油價(jià)大降21.8%,國內(nèi)汽柴油“顯著”下跌中

4月19日最新油價(jià),國際油價(jià)大降21.8%,國內(nèi)汽柴油“顯著”下跌中

豬友巴巴
2026-04-19 17:30:03
悲?。V東一96年女生開會(huì)時(shí)心梗猝死,網(wǎng)友稱她為20000月薪太拼

悲??!廣東一96年女生開會(huì)時(shí)心梗猝死,網(wǎng)友稱她為20000月薪太拼

火山詩話
2026-04-19 09:35:22
雷軍宣布:小米車主安全行駛里程達(dá)十萬公里,可獲贈(zèng)實(shí)體限量徽章、精美虛擬勛章,一鍵生成專屬行車故事

雷軍宣布:小米車主安全行駛里程達(dá)十萬公里,可獲贈(zèng)實(shí)體限量徽章、精美虛擬勛章,一鍵生成專屬行車故事

魯中晨報(bào)
2026-04-18 16:20:17
絕不談判!永久關(guān)閉豁免窗口!中國打響光刻機(jī)反擊戰(zhàn)

絕不談判!永久關(guān)閉豁免窗口!中國打響光刻機(jī)反擊戰(zhàn)

素衣讀史
2026-04-19 21:49:57
2026-04-20 02:32:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12795文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

藝術(shù)
教育
游戲
時(shí)尚
房產(chǎn)

藝術(shù)要聞

超模施特洛耶克寫真曝光,簡直美到窒息,別錯(cuò)過!

教育要聞

655家單位、1.29萬個(gè)崗位,湖南用心幫大學(xué)生找工作

如何將ZH-1火力最大化?《戰(zhàn)艦世界》15.3版本造船廠加點(diǎn)攻略

裝修“精神角落”,就是這么上癮

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!??跇鞘?,突然殺入神秘房企!

無障礙瀏覽 進(jìn)入關(guān)懷版