평범한 필기장

[평범한 학부생이 하는 논문 리뷰] FluxSpace : Disentangled Semantic Editing in Rectified Flow Transformers (CVPR 2025) 본문

AI/Generative Models

[평범한 학부생이 하는 논문 리뷰] FluxSpace : Disentangled Semantic Editing in Rectified Flow Transformers (CVPR 2025)

junseok-rh 2025. 6. 9. 00:37

Paper : https://arxiv.org/abs/2412.09611

 

FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers

Rectified flow models have emerged as a dominant approach in image generation, showcasing impressive capabilities in high-quality image synthesis. However, despite their effectiveness in visual generation, rectified flow models often struggle with disentan

arxiv.org

Abstract

기존 문제

 Rectified Flow Model은 이미지의 disentangled editing을 어려워한다. 이 한계는 이미지의 관계없는 부분에 영향을 주지 않고 정확하고 attribute-specific한 수정을 수행하는 능력을 방해한다.

해결법

 Flux와 같은 rectified flow transformers로 생성된 이미지의 semantics를 컨트롤하는 능력을 가진 representation space를 활용한 domain-agnostic image editing method인 FluxSpace를 제안한다. 이 representation을 활용해서, 본 논문은 다양한 image editing task를 가능하게 하는 semantically interpretable representations을 제안한다.

1. Methodology

 본 논문은 Flux의 joint attention layer의 output을 FluxSpace라고 지정하고, 이는 semantic image editing이 disentangled manner로 수행될수 있는 linear representation space이다. 이 space안에서, 본 논문은 attention output에 대한 변환을 할 수 있고, 이는 semantic modification을 가능하게 한다.

 본 논문의 주 목적은 유연한 수준의 control을 가진 inference-time image editing 알고리즘을 도입하는 것이다.

1.1 Fine-Grained Editing

 Pre-trained attention layer $l_\theta$와 noisy image input으로부터의 image token $x$가 주어졌을 때, 본 논문은 이 layer를 통해 얻은 세 가지 다른 output을 이용한다.

  1. $l_\theta(x,c,t)$, 여기서 $c$는 unedited image를 생성하기 위해서 하용된 text condition이다.
  2. $l_\theta(x,c_e,t),l_\theta(x,\phi,t)$, 여기서 $c_e$는 editing condition이고 $\phi$는 null-text이다.

 본 논문의 framework는 attention output의 linearity assumption에 의존하고, 이는 주어진 input condition $c_e$에 대한 latent direction을 정의할 수 있다. 먼저, 이미지와 연관된 detail들로부터 conditional output $l_\theta(x_t,c_e,t)$을 분리시키기 위해서, null prediction $l_\theta(x_t,\phi,t)$으로부터 얻은 image prior에 orthogonal prejection을 적용하고, 다음 수식으로부터 $\operatorname{proj}_\phi l_\theta(x,c_e,t)$를 얻는다.

Attention output에 대한 projection이 주어지면, $l_\theta(x,\phi,t)$에 대한 $l_\theta(x,c_e,t)$의 orthogonal component를 다음과 같이 나타낸다.

이 vector로, 본 논문은 editing prompt $c_e$의 관점에서 image content를 latent pixel상에서 효과적으로 shift하는 semantic direction을 알아낸다.

 이 linear direction을 사용해서, 다음과 같이 editing scheme을 나타낸다.

$\lambda_{fine}$을 통해서 editing strength를 컨트롤할 수 있다.

Content Preservation with Attention Masking

 수행된 editing에 대한 further disentanglement를 용이하게 하기 위해서, 본 논문은 image feature와 editing condition의 interaction에 기초한 self-supervised mask를 도입한다. 먼저, image feature로부터 계산되는 query feature $Q_i$와 editing condition으로부터 오는 key feature $K_{edit}$를 베이스로 mask $M_{i,edit}$을 도입한다.

본 논문은 intermediate estimate으로써 text condition에 강하게 반응하는 pixel을 위해서 image를 query한다. 그리고 이는 low attention value를 가진 pixel들을 mask out하는데 사용된다. 본 논문은 첫번째 text token의 attention map을 사용한다.

 Mask $M_{i, edit}$이 주어지면, 본 논문은 boundary coefficient $d=10$과 sigmoid operator $\sigma$, min-max normalization operator $normalize$로 soft decision boundary $M^\prime_{i,edit}$을 도입한다.

 마지막 단계로, thresholding amsk $M^{\prime\prime}_{i,edit}$을 위해서 $\tau_m$을 가지고 thresholding operation을 수행한다.

 이 thresholding mask를 사용해서, 수식 (5)에서 editing direction $l^\prime_\theta(x,c_e,t)$로부터 low attention을 얻은 latent pixel들을 masking out함으로써 수식 (5)에 제시된 content editing equation을 수정한다.

1.2 Editing Coarse Level Details

 Attention 계산을 수행하기 전에, 생성된 이미지의 coarse structure에 관한 정보를 제공하는 pooled CLIP embedding에 기초한 modulation을 적용한다. 특정 editing은 전체적인 구조와 형상을 바꿀 필요가 있기 때문에, appearance-based change에 대한 추가적인 control mechanism을 도입한다. 구체적으로, attention feature의 orthogonal projection에 기초한 editing approach를 CLIP embedding으로 확장한다. 본 논문은 $\hat{c}_{pool}$을 얻기 위해서 pooled generation condition $c_{pool}$을 pooled editing condtion $c_{e,pool}$의 방향으로 수정하고, 이는 attention feature를 normalize하는데 사용된다.
 본 논문은 disentangled manner로 coarse condition을 edit하기 원하기 때문에, pooled CLIP embedding에 대한 linear representation 가설의 적용을 기반으로 editing scheme을 수행한다. 이를 위해서, 먼저 본 논문은 orthogonal projection을 수행한다. 이를 통해 이미지의 coarse representation을 위한 editing direction을 얻는다.

Attention feature와 다르게, projection의 basis로 base generation condition을 사용한다.

 Linear direction이 주어지면, original condition과 editing direction사이의 linear interpolation으로 edit을 정의한다. $\lambda_{coarse}$는 editing의 정도를 컨트롤한다.

 생성 동안, 이미지 content를 보존하고 desired edit으로 image에 영향을 주기 위해서, 본 논문은 text와 image feature에 대한 다른 modulation을 사용한다. 구체적으로, 본 논문은 image feature를 $c_{pool}$로 normalize하는 반면, text feature는 $\hat{c}_{pool}$로 modulate한다.

2. Experiments

2.1 Qualitative Results

2.2 Real Image Editing

2.3 Quantitative Results

2.4 Ablation Studies