国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

讓擴散模型「可解釋」不再降質,開啟圖片編輯新思路

0
分享至



過去三年,擴散模型席卷圖像生成領域。以 DiT (Diffusion Transformer) 為代表的新一代架構不斷刷新圖像質量的極限,讓模型愈發(fā)接近真實世界的視覺規(guī)律。

然而,與 LLM 可解釋性研究的蓬勃發(fā)展相對,擴散模型內部的語義結構、時間規(guī)律以及因果路徑仍然像被深深封住的「黑箱」。研究者可以憑直覺優(yōu)化架構,但外界無法真正理解擴散模型在生成過程中的「思考方式」。

更棘手的是,已有的可解釋性嘗試往往伴隨著明顯的性能下降:特征分解、激活分析、插值擾動……無論采用哪種方法,只要試圖將擴散模型拆開來看,生成質量就會顯著劣化。這讓「可解釋擴散模型」在很長一段時間里被視為不切實際的小眾方向。

在這樣的背景下,香港中文大學 MMLab 與上海人工智能實驗室的研究團隊提出了一個不同的觀點:擴散模型作為當今視覺世界最重要的生成器,其內部機制不應永遠處于不可見狀態(tài);可解釋性也不應該以犧牲生成質量為代價。

基于這一理念,他們提出了被 AAAI 2026 接收的TIDE (Temporal-Aware Sparse Autoencoders)—— 首個真正意義上面向擴散 Transformer 的時序稀疏自編碼器框架。



  • 論文標題:TIDE: Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation
  • 論文鏈接:
  • https://arxiv.org/pdf/2503.07050

TIDE:

讓「時序」成為擴散可解釋性的核心

以往的可解釋方法大多忽視了擴散過程最大的特點:生成是一個隨時間展開的漸進式構造過程。早期步驟決定物體形狀和布局,中期步驟塑造語義和結構,后期步驟填充材質與細節(jié)。如果忽略這條時間線,擴散模型看起來就像一團混亂的噪聲與特征。TIDE 的突破在于,它不是「硬拆」一個靜態(tài)特征,而是讓模型自己在時間維度上對齊語義:

同一個因子會在不同時間步中保持一致的語義軌跡,最終形成一個可讀、可控、穩(wěn)固的「時間語義剖面」。

也正是在這樣的時序框架下,擴散模型內部原本模糊的過程第一次被清晰呈現出來:粗結構從噪聲中浮現、語義逐漸成型、紋理被不斷潤色……模型的「思考流」沿著時間軸被完整雕刻出來。

更重要的是,這一切并不會破壞原模型的生成能力。TIDE 的稀疏自編碼器在特征空間進行無損重構,擴散軌跡保持穩(wěn)定,模型幾乎感受不到被「觀察」的存在。同時在 scaling latent 維度時,也優(yōu)于原有 vanilla SAE 方法。



TIDE 架構與訓練

在 Stable Diffusion XL、PixArt-α、Flux 等主流擴散框架上,TIDE 將擴散特征分解為具有可控語義的因子:

負責輪廓的因子、負責物體姿態(tài)的因子、負責材質紋理的因子……甚至可以捕捉到跨時間的概念演化。基于這些因子,研究團隊構建出一種全新的圖像編輯方式:編輯不再依賴繁瑣的提示語或反復調參,而是可以沿著清晰的語義方向直接操控擴散過程。例如:

  • 提升紋理細節(jié)而不改變全局結構
  • 調整物體姿態(tài)但保持背景一致
  • 加強某類語義而不干擾其它部分



這些編輯操作完全基于 TIDE 生成的語義因子完成,意味著未來擴散模型有望出現一種全新的「因子級編輯器」,具備高度可控性與透明性。

與此同時,TIDE 對模型生成質量的影響幾乎可以忽略不計。FID、sFID 變化小于 0.1%,噪聲預測軌跡保持穩(wěn)定,實現了真正意義上的「可解釋而不降質」。

TIDE 的效果

TIDE 在不同設置、不同模型規(guī)模以及不同任務維度下的整體表現。無論是在超參數選擇、在 DiT 不同層級進行因子學習,還是在 SDXL、FLUX-dev 等主流擴散架構上的泛化能力,TIDE 都表現出高度穩(wěn)定且持續(xù)的優(yōu)勢。

可以看到,TIDE 在幾乎不增加 FID 代價的前提下,顯著提升了 AlignScore 中的語義綁定(顏色、形狀、紋理)以及跨區(qū)域關系理解(空間與非空間關系),其中多處指標在表中以綠色標記為最優(yōu)表現。

此外,在安全性評測部分,TIDE 相比多個現有方法大幅降低了攻擊成功率,顯示出更穩(wěn)健的特征理解能力。整體來看,這幅表格清楚證明:TIDE 不僅帶來了高質量、可解釋的語義因子,還在保持生成質量的同時,提升了模型的結構理解、關系推理與安全性,成為一種真正可泛化、可落地的可解釋擴散框架。



TIDE 的意義:

補齊擴散模型的「理解」能力

擴散模型已經成為現代視覺生成系統的核心支柱,但它們的內部機制一直缺乏系統、透明的解釋路徑。TIDE 的出現不僅提供了首個真正實用的可解釋性方案,更重要的是,它讓研究者第一次能夠沿著「時間」這條線索觀察擴散模型內部的語義結構。



這種理解能力將直接影響未來的多個方向:

  • 更可控、更穩(wěn)健的擴散編輯系統
  • 統一理解——生成模型的因子級橋接
  • 擴散模型的因果與語義理論研究
  • 新一代透明、可信的視覺生成系統

TIDE 不僅是一個方法,更是一種新的研究范式:擴散模型并非不可解釋,只是缺少一個合適的視角。

未來展望

研究團隊表示,當前 TIDE 已成功驗證了時序稀疏自編碼器框架的有效性,但可解釋擴散模型的潛力遠未被完全發(fā)掘。未來的工作將進一步:

  • 擴展更大規(guī)模、更精細的時序字典
  • 探索跨模態(tài)共享的語義因子
  • 結合 LLM-SAE 構建統一解釋空間
  • 將因子級編輯推向產品化工具

隨著更多研究者的加入,擴散模型的「黑箱壁壘」正逐漸被揭開,而 TIDE 或許是這一轉變具有代表性的第一步。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國要做好戰(zhàn)爭準備,中國的下場戰(zhàn)爭不是印度菲律賓越南而是日本

中國要做好戰(zhàn)爭準備,中國的下場戰(zhàn)爭不是印度菲律賓越南而是日本

百態(tài)人間
2026-01-09 17:17:17
哈梅內伊死了,美伊戰(zhàn)爭烈度比想象的要大很多

哈梅內伊死了,美伊戰(zhàn)爭烈度比想象的要大很多

黑噪音
2026-03-01 09:49:45
史無前例的封殺令:特朗普拉黑 3800 億 AI 巨頭,Anthropic 遭全網“斷供”

史無前例的封殺令:特朗普拉黑 3800 億 AI 巨頭,Anthropic 遭全網“斷供”

鈦媒體APP
2026-02-28 11:09:22
美國發(fā)出警告:中國不還100年前的舊債,美國絕不承認欠中國的錢

美國發(fā)出警告:中國不還100年前的舊債,美國絕不承認欠中國的錢

霽寒飄雪
2026-01-26 16:18:59
當不成總統了?27座美軍基地遇襲,美本土爆發(fā)混亂,特朗普被逼宮

當不成總統了?27座美軍基地遇襲,美本土爆發(fā)混亂,特朗普被逼宮

荷蘭豆愛健康
2026-03-02 13:11:10
票房128.6億,密鑰又一次延期,超過《哪吒2》只是時間問題

票房128.6億,密鑰又一次延期,超過《哪吒2》只是時間問題

白公子探劇
2026-03-02 15:26:41
王楚欽擊敗林昀儒奪得冠軍賽后居然對王皓吐槽說了三個字讓人心疼

王楚欽擊敗林昀儒奪得冠軍賽后居然對王皓吐槽說了三個字讓人心疼

不似少年游
2026-03-02 17:28:21
俄專家:美國如今面對的中國,是一個沒有任何缺陷的超級大國!

俄專家:美國如今面對的中國,是一個沒有任何缺陷的超級大國!

花花娛界
2025-11-07 20:54:57
河南洛陽一女子過年離家,智能馬桶17天耗水超200噸,當事人:馬桶晝夜不停自動工作

河南洛陽一女子過年離家,智能馬桶17天耗水超200噸,當事人:馬桶晝夜不停自動工作

黃河新聞網呂梁
2026-02-28 14:27:42
蔣介石至死想不通:為何25萬大軍搜不到毛澤東,主席藏在眼皮底下

蔣介石至死想不通:為何25萬大軍搜不到毛澤東,主席藏在眼皮底下

小莜讀史
2026-03-01 17:16:27
伊朗教育部:美以對伊朗的襲擊已致175名師生死亡

伊朗教育部:美以對伊朗的襲擊已致175名師生死亡

環(huán)球網資訊
2026-03-02 17:45:23
所有AI全軍覆沒!學者出2500道題,GPT-5得分25.3%,GPT-4o 2.7%

所有AI全軍覆沒!學者出2500道題,GPT-5得分25.3%,GPT-4o 2.7%

DeepTech深科技
2026-03-01 17:25:27
《美人魚2》永不上映真相就一個,周星馳你太慢了慢到被時代拋棄

《美人魚2》永不上映真相就一個,周星馳你太慢了慢到被時代拋棄

楊仔述
2026-03-01 19:20:27
受美伊以沖突影響 中國男籃8月賽程撲朔迷離

受美伊以沖突影響 中國男籃8月賽程撲朔迷離

體壇周報
2026-03-02 13:57:38
美軍上尉回憶:志愿軍沖入陣地后,拿刺刀捅死看到的每一個美國兵

美軍上尉回憶:志愿軍沖入陣地后,拿刺刀捅死看到的每一個美國兵

阿器談史
2026-02-26 17:42:09
醫(yī)生勸告:動過心臟支架的人,這3事別再干了!后果無法承受

醫(yī)生勸告:動過心臟支架的人,這3事別再干了!后果無法承受

阿兵科普
2026-03-02 09:53:51
伊朗稱重創(chuàng)美軍艦!安理會應中俄要求緊急開會!聯合國秘書長發(fā)表聲明

伊朗稱重創(chuàng)美軍艦!安理會應中俄要求緊急開會!聯合國秘書長發(fā)表聲明

每日經濟新聞
2026-02-28 23:06:38
肝癌后才懂放手!孫志浩全部遺產歸梧桐妹,這結局誰也沒料到

肝癌后才懂放手!孫志浩全部遺產歸梧桐妹,這結局誰也沒料到

小椰的奶奶
2026-03-01 10:32:16
離岸人民幣兌美元跌破6.88

離岸人民幣兌美元跌破6.88

每日經濟新聞
2026-03-02 08:44:35
“突然理解道明寺媽媽了”,高鐵上小少爺走紅,讓普通人看透現實

“突然理解道明寺媽媽了”,高鐵上小少爺走紅,讓普通人看透現實

妍妍教育日記
2026-02-28 17:41:50
2026-03-02 18:28:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12393文章數 142575關注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

36歲副鎮(zhèn)長開會暈倒除夕當天不幸離世 家中有3個孩子

頭條要聞

36歲副鎮(zhèn)長開會暈倒除夕當天不幸離世 家中有3個孩子

體育要聞

“想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經要聞

金銀大漲 市場仍在評估沖突會否長期化

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

游戲
房產
家居
手機
公開課

停擺800天仍堅挺,《坦克世界》為何讓6000萬軍迷念念不忘

房產要聞

配套大升級!三亞灣,終于迎來一批頂豪酒店!

家居要聞

萬物互聯 享科技福祉

手機要聞

vivo韓伯嘯揭秘X300 Ultra手機視頻拍攝升級亮點

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版