평범한 필기장

[평범한 학부생이 하는 논문 리뷰] MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing (ICCV 2023) 본문

AI/Diffusion Models

[평범한 학부생이 하는 논문 리뷰] MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing (ICCV 2023)

junseok-rh 2025. 1. 10. 22:32

Paper : https://arxiv.org/abs/2304.08465

 

MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing

Despite the success in large-scale text-to-image generation and text-conditioned image editing, existing methods still struggle to produce consistent generation and editing results. For example, generation approaches usually fail to synthesize multiple ima

arxiv.org

0. Abstract

 본 논문은 consistent image generation과 복잡한 non-rigid image editing을 동시에 달성하는 tuning-free method MasaCtrl을 제안한다.

1. Introduction

 기존 T2I image generation model에서의 문제점은 consistent generation과 editing이 여전히 잘 안된다는 것이다. T2I generation에서는 동일한 object/character를 여러 장 생성하기를 원하지만, 생성된 이미지 사이에 structure와 identity 차이가 여전히 존재한다. 또한 T2I editing에서는 전체적인 texture와 identity를 유지하면서 pose나 view를 바꾸는 것에 실패한다.

 본 논문에서는 다양한 이미지의 consistent generation과 fine-tuning없이 복잡한 non-rigid editing을 가능하게 해서 위 문제들을 해결하는 tuning-free method를 제안한다. 본 논문에서는 이 method를 위해서 mask-guided mutual self-attention을 제안한다.

2. Tuning-Free Mutual Self-Attention Control

 본 논문의 목표는 source image $I_s$와 source prompt $P_s$가 주어졌을 때, $P_s$에서 수정된 target prompt $P$를 따르는 image $I$를 생성하는 것이다. 이 때, $I$는 $I_s$의 object contents를 보존한다.

2.1 Mutual Self-Attention

 Source image $I_s$에서 image content를 얻기 위해서 본 논문은 mutual self-attention을 제안한다. Mutual self-attention의 구조는 위 이미지와 같다. Source image를 생성하는 과정에서 self-attention의 key와 value feature를 target image에서 그대로 사용한다.

 모든 레이어와 모든 timestep에서 mutual self-attention을 적용하게 되면 $I_s$와 동일한 $I$를 생성하게 된다.

위 실험에서 볼 수 있듯이, 초반 step에서는 target image의 layout이 아직 생성되지 않고 U-Net의 encoder 부분에서는 수정된 prompt와 대응되는 명백한 layout과 structure를 얻을 수 없다. 그래서 본 논문에서는 몇 스텝 후에 U-Net의 decoder 부분에만 mutual self-attention을 컨트롤하는 것을 제안한다. Alg.1에서 EDIT function은 다음과 같다.

본 논문의 method는 finetuning과 optimization을 필요로 하지 않는다.

2.2 Mask-Guided Mutual Self-Attention

 위 방식대로 했을 때, 배경과 object가 너무 비슷한 경우에는 실패한다고 한다. 그래서 본 논문에서는 source와 target image $I_s, I$ 둘 다에서 foreground와 background를 구분하는 mask를 생성하기 위해서 semantic cross-attention map을 활용한다.

 먼저 timestep $t$에 대해서 $P_s, P$를 가지고 U-Net backbone에서 forward process를 수행해서 intermediate cross-attention map을 생성한다. 그리고 나서 모든 head와 layer에 대한 attention map을 평균낸다 ($A^c_t \in \mathbb{R}^{16 \times 16 \times N}$, $N$은 textual token의 개수). 그 후에는 foreground object와 연관된 token에 대한 averaged cross-attention map을 얻는다. $I_s, I$ 각각에서 foreground object에 대해 추출한 mask를 $M_s, M$라 한다. 이 마스크들로 $I$에서의 object를 $I_s$에서 object region으로부터만의 content 정보를 query하는 것으로 제한할 수 있다.

Object region과 background region은 모든 feature들 대신 대응되는 제한된 지역으로부터의 content 정보를 query한다.

2.3 Integration to Controllable Diffusion Models

 본 논문의 method는 더 faithful한 non-rigid image systhesis와 editing을 위해서 기존의 controllable image synthesis method에 쉽게 통합될 수 있다. Alg. 1와 동일한 process를 진행하고 SD 대신에 controllable model을 넣어서 사용 가능하다.

3. Experiments

 별도로 지정하지 않는한 $P_s$와 $P$에 대한 starting noise map은 동일하게 셋팅한다. CFG는 7.5로 두고 수식 (5)에서 $S=4, L=10$으로 둔다.

3.1 Comparisons with Previous Works

3.2 Results with T2I-Adapter

3.3 Robustness to Other Models : Anything-V4

3.4 Extension to Video Synthesis

3.5 Ablation Study

위 결과를 통해, 본 논문의 method는 몇 denoising step이 지난 후에 U-Net에서 decoder part에서 수행돼야 한다.

4. Limitations and Discussion

본 논문은 Stable Diffusion의 한계점의 대부분을 가진다. 1) SD가 생성하지 못하는 prompt에 대해서는 생성하지 못한다. 2) target image가 보이지 않은 content를 가지고 있거나 급격하게 바뀌는 content에 대해서는 잘 생성하지 못한다. 3) 여전히 source image와 target image 사이의 차이가 존재한다.