国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓擴散模型「可解釋」不再降質(zhì),開啟圖片編輯新思路

0
分享至



過去三年,擴散模型席卷圖像生成領(lǐng)域。以 DiT (Diffusion Transformer) 為代表的新一代架構(gòu)不斷刷新圖像質(zhì)量的極限,讓模型愈發(fā)接近真實世界的視覺規(guī)律。

然而,與 LLM 可解釋性研究的蓬勃發(fā)展相對,擴散模型內(nèi)部的語義結(jié)構(gòu)、時間規(guī)律以及因果路徑仍然像被深深封住的「黑箱」。研究者可以憑直覺優(yōu)化架構(gòu),但外界無法真正理解擴散模型在生成過程中的「思考方式」。

更棘手的是,已有的可解釋性嘗試往往伴隨著明顯的性能下降:特征分解、激活分析、插值擾動……無論采用哪種方法,只要試圖將擴散模型拆開來看,生成質(zhì)量就會顯著劣化。這讓「可解釋擴散模型」在很長一段時間里被視為不切實際的小眾方向。

在這樣的背景下,香港中文大學 MMLab 與上海人工智能實驗室的研究團隊提出了一個不同的觀點:擴散模型作為當今視覺世界最重要的生成器,其內(nèi)部機制不應永遠處于不可見狀態(tài);可解釋性也不應該以犧牲生成質(zhì)量為代價。

基于這一理念,他們提出了被 AAAI 2026 接收的TIDE (Temporal-Aware Sparse Autoencoders)—— 首個真正意義上面向擴散 Transformer 的時序稀疏自編碼器框架。



  • 論文標題:TIDE: Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation
  • 論文鏈接:
  • https://arxiv.org/pdf/2503.07050

TIDE:

讓「時序」成為擴散可解釋性的核心

以往的可解釋方法大多忽視了擴散過程最大的特點:生成是一個隨時間展開的漸進式構(gòu)造過程。早期步驟決定物體形狀和布局,中期步驟塑造語義和結(jié)構(gòu),后期步驟填充材質(zhì)與細節(jié)。如果忽略這條時間線,擴散模型看起來就像一團混亂的噪聲與特征。TIDE 的突破在于,它不是「硬拆」一個靜態(tài)特征,而是讓模型自己在時間維度上對齊語義:

同一個因子會在不同時間步中保持一致的語義軌跡,最終形成一個可讀、可控、穩(wěn)固的「時間語義剖面」。

也正是在這樣的時序框架下,擴散模型內(nèi)部原本模糊的過程第一次被清晰呈現(xiàn)出來:粗結(jié)構(gòu)從噪聲中浮現(xiàn)、語義逐漸成型、紋理被不斷潤色……模型的「思考流」沿著時間軸被完整雕刻出來。

更重要的是,這一切并不會破壞原模型的生成能力。TIDE 的稀疏自編碼器在特征空間進行無損重構(gòu),擴散軌跡保持穩(wěn)定,模型幾乎感受不到被「觀察」的存在。同時在 scaling latent 維度時,也優(yōu)于原有 vanilla SAE 方法。



TIDE 架構(gòu)與訓練

在 Stable Diffusion XL、PixArt-α、Flux 等主流擴散框架上,TIDE 將擴散特征分解為具有可控語義的因子:

負責輪廓的因子、負責物體姿態(tài)的因子、負責材質(zhì)紋理的因子……甚至可以捕捉到跨時間的概念演化?;谶@些因子,研究團隊構(gòu)建出一種全新的圖像編輯方式:編輯不再依賴繁瑣的提示語或反復調(diào)參,而是可以沿著清晰的語義方向直接操控擴散過程。例如:

  • 提升紋理細節(jié)而不改變?nèi)纸Y(jié)構(gòu)
  • 調(diào)整物體姿態(tài)但保持背景一致
  • 加強某類語義而不干擾其它部分



這些編輯操作完全基于 TIDE 生成的語義因子完成,意味著未來擴散模型有望出現(xiàn)一種全新的「因子級編輯器」,具備高度可控性與透明性。

與此同時,TIDE 對模型生成質(zhì)量的影響幾乎可以忽略不計。FID、sFID 變化小于 0.1%,噪聲預測軌跡保持穩(wěn)定,實現(xiàn)了真正意義上的「可解釋而不降質(zhì)」。

TIDE 的效果

TIDE 在不同設置、不同模型規(guī)模以及不同任務維度下的整體表現(xiàn)。無論是在超參數(shù)選擇、在 DiT 不同層級進行因子學習,還是在 SDXL、FLUX-dev 等主流擴散架構(gòu)上的泛化能力,TIDE 都表現(xiàn)出高度穩(wěn)定且持續(xù)的優(yōu)勢。

可以看到,TIDE 在幾乎不增加 FID 代價的前提下,顯著提升了 AlignScore 中的語義綁定(顏色、形狀、紋理)以及跨區(qū)域關(guān)系理解(空間與非空間關(guān)系),其中多處指標在表中以綠色標記為最優(yōu)表現(xiàn)。

此外,在安全性評測部分,TIDE 相比多個現(xiàn)有方法大幅降低了攻擊成功率,顯示出更穩(wěn)健的特征理解能力。整體來看,這幅表格清楚證明:TIDE 不僅帶來了高質(zhì)量、可解釋的語義因子,還在保持生成質(zhì)量的同時,提升了模型的結(jié)構(gòu)理解、關(guān)系推理與安全性,成為一種真正可泛化、可落地的可解釋擴散框架。



TIDE 的意義:

補齊擴散模型的「理解」能力

擴散模型已經(jīng)成為現(xiàn)代視覺生成系統(tǒng)的核心支柱,但它們的內(nèi)部機制一直缺乏系統(tǒng)、透明的解釋路徑。TIDE 的出現(xiàn)不僅提供了首個真正實用的可解釋性方案,更重要的是,它讓研究者第一次能夠沿著「時間」這條線索觀察擴散模型內(nèi)部的語義結(jié)構(gòu)。



這種理解能力將直接影響未來的多個方向:

  • 更可控、更穩(wěn)健的擴散編輯系統(tǒng)
  • 統(tǒng)一理解——生成模型的因子級橋接
  • 擴散模型的因果與語義理論研究
  • 新一代透明、可信的視覺生成系統(tǒng)

TIDE 不僅是一個方法,更是一種新的研究范式:擴散模型并非不可解釋,只是缺少一個合適的視角。

未來展望

研究團隊表示,當前 TIDE 已成功驗證了時序稀疏自編碼器框架的有效性,但可解釋擴散模型的潛力遠未被完全發(fā)掘。未來的工作將進一步:

  • 擴展更大規(guī)模、更精細的時序字典
  • 探索跨模態(tài)共享的語義因子
  • 結(jié)合 LLM-SAE 構(gòu)建統(tǒng)一解釋空間
  • 將因子級編輯推向產(chǎn)品化工具

隨著更多研究者的加入,擴散模型的「黑箱壁壘」正逐漸被揭開,而 TIDE 或許是這一轉(zhuǎn)變具有代表性的第一步。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
所有發(fā)達國家都有一個共性:人工很貴,勞動很值錢。

所有發(fā)達國家都有一個共性:人工很貴,勞動很值錢。

流蘇晚晴
2026-01-27 18:18:22
2萬余名旅客滯留 阿聯(lián)酋政府將承擔因此產(chǎn)生費用

2萬余名旅客滯留 阿聯(lián)酋政府將承擔因此產(chǎn)生費用

看看新聞Knews
2026-03-01 18:15:18
美國警方承認谷愛凌曾遭毆打,手臂抓傷嚴重,未來人身安全存隱患

美國警方承認谷愛凌曾遭毆打,手臂抓傷嚴重,未來人身安全存隱患

削桐作琴
2026-03-01 14:27:41
詹皇轟24+5迎里程碑!湖人24分勝國王,威少14+5遭東契奇小里嘲笑

詹皇轟24+5迎里程碑!湖人24分勝國王,威少14+5遭東契奇小里嘲笑

你的籃球頻道
2026-03-02 12:53:02
航母無損成焦點!特朗普改口,伊朗擊中法塔赫-2了嗎?

航母無損成焦點!特朗普改口,伊朗擊中法塔赫-2了嗎?

起喜電影
2026-03-02 12:09:40
凌晨5點半火光沖天!昆明一老舊小區(qū)柴房突發(fā)火情,多輛消防車緊急出動

凌晨5點半火光沖天!昆明一老舊小區(qū)柴房突發(fā)火情,多輛消防車緊急出動

8099999街頭巷尾
2026-03-01 13:27:21
偉大的9-5!名將打破3年冠軍荒,鎖定2站紅包賽,追平趙心童成就

偉大的9-5!名將打破3年冠軍荒,鎖定2站紅包賽,追平趙心童成就

劉姚堯的文字城堡
2026-03-02 06:40:19
為了巴結(jié)英日,撕毀中國百億投資項目,被耍后還想和中國再續(xù)前緣

為了巴結(jié)英日,撕毀中國百億投資項目,被耍后還想和中國再續(xù)前緣

流史歲月
2026-02-26 16:45:04
洗草莓時,有人放食鹽,有人放面粉,果農(nóng):都不對,教你正確做法

洗草莓時,有人放食鹽,有人放面粉,果農(nóng):都不對,教你正確做法

阿龍美食記
2026-02-28 10:49:43
電影院抓小三后續(xù)!為求刺激上演燈下黑?孩子也不是丈夫親生的

電影院抓小三后續(xù)!為求刺激上演燈下黑?孩子也不是丈夫親生的

社會醬
2026-03-01 20:43:29
“吸血”親爹、寵妾滅妻,侄女再曝大瓜,楊議徹底活成全網(wǎng)笑話!

“吸血”親爹、寵妾滅妻,侄女再曝大瓜,楊議徹底活成全網(wǎng)笑話!

手工制作阿殲
2026-03-02 00:53:35
3月2日A股猛料:美伊沖突烈度超預期!美國林肯號航母被襲!

3月2日A股猛料:美伊沖突烈度超預期!美國林肯號航母被襲!

有范又有料
2026-03-02 10:28:29
什么調(diào)料最易致癌?是蠔油嗎?提醒:這3種調(diào)料做飯時盡量少放

什么調(diào)料最易致癌?是蠔油嗎?提醒:這3種調(diào)料做飯時盡量少放

冷眼看世界728
2026-03-02 10:00:13
伊朗用血淚換來的教訓:一旦中美開戰(zhàn),中國必須首先鎖定這一點

伊朗用血淚換來的教訓:一旦中美開戰(zhàn),中國必須首先鎖定這一點

冷峻視角下的世界
2026-02-20 07:45:35
江西女子用公驢器官泡酒,三個月后給丈夫喝,不料發(fā)生意外

江西女子用公驢器官泡酒,三個月后給丈夫喝,不料發(fā)生意外

古怪奇談錄
2025-06-28 13:49:02
第九波打擊!伊朗襲擊美軍航母,美英油輪被炸,特朗普急了

第九波打擊!伊朗襲擊美軍航母,美英油輪被炸,特朗普急了

全球熱點大揭秘
2026-03-02 13:38:50
男子因鉀過低不幸離世!醫(yī)生提醒:平時寧愿少吃點肉,要多吃幾物

男子因鉀過低不幸離世!醫(yī)生提醒:平時寧愿少吃點肉,要多吃幾物

神奇故事
2025-11-27 22:13:57
大量食用油被檢測出致癌物!自查廚房是否有這3種油,可別再吃了

大量食用油被檢測出致癌物!自查廚房是否有這3種油,可別再吃了

讀懂世界歷史
2026-03-01 18:09:06
成都無縫鋼管廠的那些事兒

成都無縫鋼管廠的那些事兒

寶哥精彩賽事
2026-03-02 00:58:40
賀希寧曬合影慶祝男籃勝利,胡明軒評論:樂邦詹士先生

賀希寧曬合影慶祝男籃勝利,胡明軒評論:樂邦詹士先生

懂球帝
2026-03-02 10:09:20
2026-03-02 15:16:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12388文章數(shù) 142574關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓

體育要聞

卡里克主場5連勝!隊史第2人通過最大考驗

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

中東局勢影響如何?十大券商策略來了

汽車要聞

預售11.28萬起 狐全新阿爾法S5標配寧德時代

態(tài)度原創(chuàng)

旅游
親子
本地
公開課
軍事航空

旅游要聞

【花Young貴陽】南明區(qū)永樂鄉(xiāng)萬畝桃花競相綻放

親子要聞

小時候“不合群”的孩子,長大后更有出息?3個優(yōu)勢普通人比不了

本地新聞

津南好·四時總相宜

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍動用新型武器:山寨伊朗的

無障礙瀏覽 進入關(guān)懷版