国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ICCV 2025最佳學(xué)生論文 | FlowEdit:告別反演,一種更直接的圖像編輯范式,結(jié)構(gòu)保持力SOTA!

0
分享至

文章來(lái)源:我愛計(jì)算機(jī)視覺(ID:aicvml)


剛剛ICCV 2025 大會(huì)公布了最佳論文和最佳學(xué)生論文,最佳論文由卡內(nèi)基梅隆大學(xué)研究團(tuán)隊(duì)摘得,最佳學(xué)生論文由以色列理工學(xué)院獲得,從11000多篇投稿論文中被選中,這些論文有哪些值得關(guān)注的點(diǎn),我們一起來(lái)看看。(本文關(guān)注的是最佳學(xué)生論文,最佳論文解讀請(qǐng)參見今天的另一篇文章)

簡(jiǎn)單來(lái)說(shuō),我們想讓AI根據(jù)一句話(比如“把貓變成狗”)來(lái)修改圖片,同時(shí)又盡可能保留原圖的結(jié)構(gòu)和風(fēng)格,這其實(shí)并不容易。傳統(tǒng)的“先反演再編輯”方法,就像是把一張畫拆解成一堆雜亂的顏料點(diǎn)(噪聲),然后再用這些顏料點(diǎn)根據(jù)新的指令去畫一幅新畫。這個(gè)過(guò)程很容易“手抖”,導(dǎo)致最終畫面要么不像話,要么丟失了原作的精髓。

而這篇論文提出的 FlowEdit ,則完全跳過(guò)了“拆解成顏料點(diǎn)”這一步。它更像一位高明的畫家,直接在原畫上進(jìn)行修改,構(gòu)建了一條從“原始圖像”到“目標(biāo)圖像”的直接、平滑的路徑。這樣做的好處是顯而易見的:編輯過(guò)程更穩(wěn)定,對(duì)原圖結(jié)構(gòu)的破壞更小,效果達(dá)到了新的SOTA水平。



  • 論文標(biāo)題 :FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models

  • 作者 :Vladimir Kulikov, Matan Kleiner, Inbar Huberman-Spiegelglas, Tomer Michaeli

  • 機(jī)構(gòu) :以色列理工學(xué)院 (Technion – Israel Institute of Technology)

  • 會(huì)議 :ICCV 2025 Oral

  • 論文終稿地址 : https://openaccess.thecvf.com/content/ICCV2025/papers/Kulikov_FlowEdit_Inversion-Free_Text-Based_Editing_Using_Pre-Trained_Flow_Models_ICCV_2025_paper.pdf

  • 項(xiàng)目主頁(yè) :https://matankleiner.github.io/flowedit/

  • 代碼倉(cāng)庫(kù) :https://github.com/fallenshock/FlowEdit

ps.下載該論文并所有ICCV 2025 論文,請(qǐng)?jiān)凇拔覑塾?jì)算機(jī)視覺”公眾號(hào)后臺(tái)回復(fù)“頂會(huì)論文”(小寫)。

為何需要“告別反演”?

在深入了解 FlowEdit 之前,我們先快速回顧一下當(dāng)前主流的AI圖像編輯范式。很多方法,比如大家熟知的 SDEdit、Prompt-to-Prompt 等,都依賴于一個(gè)叫做“反演”(Inversion)的過(guò)程。

這個(gè)過(guò)程有點(diǎn)像一個(gè)“先拆解再重建”的流程:

  1. 反演(拆解) :首先,將原始圖片(比如一張老虎的照片)通過(guò)一個(gè)前向的常微分方程(ODE)過(guò)程,一步步“拆解”成一個(gè)純粹的噪聲圖。這個(gè)噪聲圖可以看作是生成這張圖片的“種子”。

  2. 編輯與生成(重建) :然后,用這個(gè)“種子”噪聲圖,結(jié)合新的文本指令(比如“把老虎換成貓”),通過(guò)一個(gè)反向的ODE過(guò)程,再一步步“重建”出一張新的圖片。


上圖生動(dòng)地展示了“反演編輯”與FlowEdit的路徑差異。左側(cè)(a)就是傳統(tǒng)的反演路徑,需要先走到噪聲空間(N(0,1)),再返回。而右側(cè)(c)的FlowEdit則選擇了一條更直接的路徑。

這個(gè)“繞遠(yuǎn)路”去噪聲空間溜達(dá)一圈的范式,雖然可行,但存在明顯缺陷:

  • 信息損失 :在“拆解”和“重建”的過(guò)程中,很容易丟失原始圖像的精細(xì)結(jié)構(gòu)和布局信息。

  • 錯(cuò)誤累積 :反演過(guò)程本身可能不完全精確,導(dǎo)致最終生成的圖像與原圖結(jié)構(gòu)偏差較大,出現(xiàn)不自然的“P圖”痕跡。

深入技術(shù):從ODE反演到FlowEdit

為了真正理解FlowEdit的巧妙之處,我們需要深入其數(shù)學(xué)原理。

技術(shù)背景:基于ODE反演的編輯范式

當(dāng)前許多方法都基于流模型(Flow Models),特別是矯正流(Rectified Flow)。這類模型學(xué)習(xí)一個(gè)含時(shí)的速度場(chǎng)(velocity field)V(Z_t, t, C),它可以將一個(gè)分布的樣本(如高斯噪聲)通過(guò)求解一個(gè)常微分方程(Ordinary Differential Equation, ODE)“輸送”到另一個(gè)分布(如真實(shí)圖像)。這里的 Z_tt 時(shí)刻的圖像狀態(tài),C 是文本條件。

基于此,“反演編輯” 的具體技術(shù)步驟如下(對(duì)應(yīng)上圖a):

  1. 前向過(guò)程(反演) :給定源圖像 X_src 和源提示 C_src 。我們從 Z_0 = X_src 開始,求解前向ODE: dZ_t = V(Z_t, t, C_src) dt ,直到 t=1 時(shí)刻,得到一個(gè)理論上與 X_src 對(duì)應(yīng)的噪聲向量 Z_1 。這就是所謂的“反演到噪聲”。

  2. 后向過(guò)程(生成) :拿到這個(gè)噪聲 Z_1 后,我們換上新的目標(biāo)提示 C_tar 。從 Z_1 開始,反向求解ODE: dZ_t = V(Z_t, t, C_tar) dt ,從 t=1 回到 t=0 ,最終得到編輯后的圖像 X_tar 。

這個(gè)過(guò)程雖然理論上可行,但其致命弱點(diǎn)在于,它將源圖像和目標(biāo)圖像的關(guān)聯(lián)完全寄托于那個(gè)唯一的、在反演時(shí)計(jì)算出的噪聲向量 Z_1 上。任何計(jì)算上的不精確都會(huì)導(dǎo)致結(jié)構(gòu)信息的丟失。

FlowEdit的核心思想:從“單一路徑”到“多路徑平均”

FlowEdit的作者首先提出了一個(gè)深刻的洞見:上述兩步走的“反演編輯”過(guò)程,其實(shí)等價(jià)于一個(gè)從 X_srcX_tar直接ODE路徑(對(duì)應(yīng)上圖b)。這條直接路徑的速度場(chǎng),恰好是目標(biāo)速度場(chǎng)與源速度場(chǎng)的差值 V_tar - V_src。

然而,這條由反演決定的“唯一”直接路徑,依然不是最優(yōu)的。因?yàn)樗?jīng)過(guò)了噪聲空間的“瓶頸”,會(huì)導(dǎo)致不合理的匹配(如下圖所示,源分布中的藍(lán)點(diǎn)可能被錯(cuò)誤地匹配到目標(biāo)分布中較遠(yuǎn)的紅點(diǎn),而不是更近的藍(lán)點(diǎn)),從而增加了“傳輸成本”,損害了圖像結(jié)構(gòu)。


FlowEdit的解決方案(對(duì)應(yīng)上圖 Figure 2中的 c)正是為了打破這種僵硬的“唯一路徑”。它的核心思想是:不再依賴于某一次具體的反演,而是通過(guò)對(duì)大量可能的“編輯方向”進(jìn)行平均,來(lái)動(dòng)態(tài)地、啟發(fā)式地尋找一條更好的路徑。

具體步驟如下: 在求解編輯路徑的每一步 t,對(duì)于當(dāng)前的中間結(jié)果 Z_FE_t

  1. 它并不進(jìn)行完整的反演,而是構(gòu)造一個(gè)“假設(shè)的”帶噪源圖像 ?_src_t 。這是通過(guò)給原始圖像 X_src 混合一個(gè) 隨機(jī)高斯噪聲 N_t 得到的。

  2. 基于這個(gè)帶噪源圖像 ?_src_t 和當(dāng)前編輯狀態(tài) Z_FE_t ,可以推算出一個(gè)“假設(shè)的”帶噪目標(biāo)圖像 ?_tar_t

  3. 然后,模型分別計(jì)算出指向這兩個(gè)“假設(shè)”圖像的速度場(chǎng) V_src(?_src_t)V_tar(?_tar_t) 。

  4. 計(jì)算出當(dāng)前這個(gè)隨機(jī)噪聲下的“編輯速度”: V_delta = V_tar - V_src 。

  5. 最關(guān)鍵的一步 :重復(fù)上述1-4步多次(每次都用 新的隨機(jī)噪聲 N_t ),然后將得到的多個(gè) V_delta 取平均值 。

  6. 使用這個(gè)平均后的、更魯棒的“編輯速度”,來(lái)更新當(dāng)前圖像 Z_FE_t ,完成ODE的一步積分。

CV君認(rèn)為,這個(gè)“隨機(jī)采樣與平均”的策略是FlowEdit的精髓所在。它不再把寶押在一次反演上,而是通過(guò)“集思廣益”,綜合了大量可能路徑的“意見”,從而找到了一條整體上“傳輸成本”更低、更能保持原始結(jié)構(gòu)的演化路徑。這是一種非常聰明的啟發(fā)式搜索,它讓編輯過(guò)程變得更加靈活和穩(wěn)定。

實(shí)驗(yàn)效果:眼見為實(shí)

理論說(shuō)再多,不如直接看效果。FlowEdit 在各種復(fù)雜的編輯任務(wù)上,都展現(xiàn)出了SOTA級(jí)別的性能。


無(wú)論是物體替換(自行車變Vespa、兔子變小狗)、概念更換(皇冠變禮帽、椰子變棒球),還是更細(xì)微的屬性修改,F(xiàn)lowEdit都能精準(zhǔn)地執(zhí)行指令,同時(shí)幾乎完美地保留了背景、光照、姿態(tài)等原始圖像信息。


比如這個(gè)將蛋糕上的“水果”換成“草莓”的例子,F(xiàn)lowEdit不僅準(zhǔn)確地添加了草莓,還保持了蛋糕原有的奶油質(zhì)感和盤子背景。

定量對(duì)比:用數(shù)據(jù)說(shuō)話

除了肉眼可見的出色效果,F(xiàn)lowEdit在量化指標(biāo)上也全面超越了基于反演的方法。


在一個(gè)“千貓變千狗”的合成數(shù)據(jù)集實(shí)驗(yàn)中,研究者對(duì)比了FlowEdit和反演編輯的“傳輸成本”(即編輯前后圖像的差異)。結(jié)果顯示,F(xiàn)lowEdit的傳輸成本(MSE 1376 vs 2239, LPIPS 0.15 vs 0.25)遠(yuǎn)低于反演方法,同時(shí)在生成圖像的真實(shí)性指標(biāo)(FID/KID)上也表現(xiàn)更優(yōu)。這有力地證明了其在結(jié)構(gòu)保持上的巨大優(yōu)勢(shì)。


上圖展示了不同方法在“文本-圖像一致性”(CLIP,越高越好)和“結(jié)構(gòu)保持性”(LPIPS,越低越好)上的權(quán)衡。FlowEdit(Ours)在兩個(gè)維度上都取得了最佳的平衡點(diǎn)。


在風(fēng)格編輯方面,F(xiàn)lowEdit同樣游刃有余,可以在動(dòng)漫、繪畫等風(fēng)格間自由切換,同時(shí)保留主體內(nèi)容。

總結(jié)

總的來(lái)說(shuō),F(xiàn)lowEdit的提出,為基于流模型的文本圖像編輯領(lǐng)域帶來(lái)了一股清新的空氣。它不僅在效果和性能上達(dá)到了新的SOTA,更重要的是,它提供了一種更優(yōu)雅、更符合直覺的“直接編輯”新范式。CV君認(rèn)為,這種“告別反演”的思路,很可能會(huì)啟發(fā)未來(lái)更多的研究,并有望被集成到主流的文生圖模型(如Stable Diffusion、FLUX)中,讓AI“P圖”變得更加得心應(yīng)手。

大家對(duì)這種“直接編輯”的思路怎么看?歡迎在評(píng)論區(qū)留下你的看法!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
浙江官宣:即將舉辦城市足球聯(lián)賽

浙江官宣:即將舉辦城市足球聯(lián)賽

新京報(bào)政事兒
2025-12-21 20:13:40
海南封關(guān)首日:30克金飾省近萬(wàn)元,居民排長(zhǎng)隊(duì)買榴蓮

海南封關(guān)首日:30克金飾省近萬(wàn)元,居民排長(zhǎng)隊(duì)買榴蓮

極目新聞
2025-12-21 08:11:42
石宇奇衛(wèi)冕失?。〉诙?-7崩盤手腕明顯不適 祝賀波波夫顯格局

石宇奇衛(wèi)冕失??!第二局0-7崩盤手腕明顯不適 祝賀波波夫顯格局

顏小白的籃球夢(mèng)
2025-12-21 19:37:05
考古最新證實(shí):阿房宮既沒(méi)建好也沒(méi)被火燒,杜牧《阿房宮賦》所描述的阿房宮景象非寫實(shí)之作

考古最新證實(shí):阿房宮既沒(méi)建好也沒(méi)被火燒,杜牧《阿房宮賦》所描述的阿房宮景象非寫實(shí)之作

大象新聞
2025-12-21 10:49:06
羅永浩稱收入超99%中國(guó)人

羅永浩稱收入超99%中國(guó)人

超角度
2025-12-21 12:35:06
南博事件再升級(jí)!《江南春》調(diào)撥人是凌波,神秘顧客也浮出水面

南博事件再升級(jí)!《江南春》調(diào)撥人是凌波,神秘顧客也浮出水面

奇思妙想草葉君
2025-12-21 13:59:16
臉都不要了,但還是低估了他們的無(wú)恥

臉都不要了,但還是低估了他們的無(wú)恥

胖胖說(shuō)他不胖
2025-12-21 11:00:20
南京博物館事件,我很擔(dān)心會(huì)走向“彭宇案”的老路

南京博物館事件,我很擔(dān)心會(huì)走向“彭宇案”的老路

人格志
2025-12-20 23:34:32
太不尋常了!日本外長(zhǎng)公開承認(rèn)波茨坦公告,日高官求中國(guó)一件事

太不尋常了!日本外長(zhǎng)公開承認(rèn)波茨坦公告,日高官求中國(guó)一件事

知鑒明史
2025-12-20 19:15:51
安徽省委決定:在全省開展持續(xù)深化違規(guī)吃喝問(wèn)題專項(xiàng)整治,對(duì)頂風(fēng)者嚴(yán)查快辦、絕不姑息

安徽省委決定:在全省開展持續(xù)深化違規(guī)吃喝問(wèn)題專項(xiàng)整治,對(duì)頂風(fēng)者嚴(yán)查快辦、絕不姑息

新京報(bào)政事兒
2025-12-21 20:13:56
日退將妄稱“美日臺(tái)聯(lián)手作戰(zhàn)”,帥化民打臉:美國(guó)沒(méi)那個(gè)意愿、日本沒(méi)那個(gè)能力

日退將妄稱“美日臺(tái)聯(lián)手作戰(zhàn)”,帥化民打臉:美國(guó)沒(méi)那個(gè)意愿、日本沒(méi)那個(gè)能力

海峽導(dǎo)報(bào)社
2025-12-21 12:36:02
陳慧琳素顏逛美國(guó)超市,臉好方,腮幫子鼓起來(lái)了,牙齒不整齊!

陳慧琳素顏逛美國(guó)超市,臉好方,腮幫子鼓起來(lái)了,牙齒不整齊!

庭小娛
2025-12-21 14:51:03
威武!倆中國(guó)女生埃及游,與當(dāng)?shù)?人互毆,完勝后獲圍觀者豎拇指

威武!倆中國(guó)女生埃及游,與當(dāng)?shù)?人互毆,完勝后獲圍觀者豎拇指

阿纂看事
2025-12-20 10:16:59
張學(xué)良三個(gè)兒子瘋的瘋,死的死,都以為張家就要絕后,結(jié)局如何?

張學(xué)良三個(gè)兒子瘋的瘋,死的死,都以為張家就要絕后,結(jié)局如何?

古書記史
2025-12-12 11:32:56
北京一副局長(zhǎng)騎電動(dòng)車送外賣,“原以為騎手最關(guān)心社保政策,沒(méi)想到他們張口就是‘別罰我款’”

北京一副局長(zhǎng)騎電動(dòng)車送外賣,“原以為騎手最關(guān)心社保政策,沒(méi)想到他們張口就是‘別罰我款’”

第一財(cái)經(jīng)資訊
2025-12-21 08:55:57
同仁堂假貨泛濫!央視曝光,3元成本翻20倍賣,家里有老人的速查

同仁堂假貨泛濫!央視曝光,3元成本翻20倍賣,家里有老人的速查

觀察鑒娛
2025-12-21 12:02:11
中美較量開始了:世紀(jì)號(hào)油輪事件,是特朗普對(duì)中國(guó)的敲打,中國(guó)硬核回?fù)簦?>
    </a>
        <h3>
      <a href=V記錄號(hào)
2025-12-21 14:58:44
彭珮云同志逝世

彭珮云同志逝世

新華社
2025-12-21 17:03:03
韓紅直呼“太離譜”,三甲醫(yī)生連番追問(wèn)!5月齡小洛熙手術(shù)后離世仍需更多真相……

韓紅直呼“太離譜”,三甲醫(yī)生連番追問(wèn)!5月齡小洛熙手術(shù)后離世仍需更多真相……

新民周刊
2025-12-21 14:48:33
這次,美國(guó)徹底把我們打醒了!

這次,美國(guó)徹底把我們打醒了!

戎評(píng)
2025-12-20 14:02:05
2025-12-21 20:40:49
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5273文章數(shù) 64595關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬(wàn)個(gè)應(yīng)用

頭條要聞

妻兒三人被發(fā)小入室殺害 家屬:兇手還假裝毫不知情

頭條要聞

妻兒三人被發(fā)小入室殺害 家屬:兇手還假裝毫不知情

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂(lè)要聞

星光大賞太尷尬!搶話擋鏡頭,場(chǎng)地還小

財(cái)經(jīng)要聞

老房子“強(qiáng)制體檢”,政府出手了

汽車要聞

-30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
本地
家居
公開課

藝術(shù)要聞

Anatoliy Lukash陽(yáng)光明媚的風(fēng)景,真是美!

房產(chǎn)要聞

中交·藍(lán)色港灣一周年暨藍(lán)調(diào)生活沙龍圓滿舉行

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

家居要聞

高端私宅 理想隱居圣地

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版