일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- controlnext
- image editing
- dreammotion
- diffusion models
- 프로그래머스
- emerdiff
- masactrl
- transformer
- diffusion
- 네이버 부스트캠프 ai tech 6기
- video generation
- 논문리뷰
- controllable video generation
- score distillation
- video editing
- diffusion model
- Programmers
- segmentation map
- 코딩테스트
- Python
- 3d generation
- Vit
- 3d editing
- DP
- segmenation map generation
- magdiff
- BOJ
- visiontransformer
- 코테
- VirtualTryON
- Today
- Total
평범한 필기장
[평범한 학부생이 하는 논문 리뷰] MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing (ICCV 2023) 본문
[평범한 학부생이 하는 논문 리뷰] MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing (ICCV 2023)
junseok-rh 2025. 1. 10. 22:32Paper : https://arxiv.org/abs/2304.08465
0. Abstract
본 논문은 consistent image generation과 복잡한 non-rigid image editing을 동시에 달성하는 tuning-free method MasaCtrl을 제안한다.
1. Introduction
기존 T2I image generation model에서의 문제점은 consistent generation과 editing이 여전히 잘 안된다는 것이다. T2I generation에서는 동일한 object/character를 여러 장 생성하기를 원하지만, 생성된 이미지 사이에 structure와 identity 차이가 여전히 존재한다. 또한 T2I editing에서는 전체적인 texture와 identity를 유지하면서 pose나 view를 바꾸는 것에 실패한다.
본 논문에서는 다양한 이미지의 consistent generation과 fine-tuning없이 복잡한 non-rigid editing을 가능하게 해서 위 문제들을 해결하는 tuning-free method를 제안한다. 본 논문에서는 이 method를 위해서 mask-guided mutual self-attention을 제안한다.
2. Tuning-Free Mutual Self-Attention Control
본 논문의 목표는 source image $I_s$와 source prompt $P_s$가 주어졌을 때, $P_s$에서 수정된 target prompt $P$를 따르는 image $I$를 생성하는 것이다. 이 때, $I$는 $I_s$의 object contents를 보존한다.
2.1 Mutual Self-Attention
Source image $I_s$에서 image content를 얻기 위해서 본 논문은 mutual self-attention을 제안한다. Mutual self-attention의 구조는 위 이미지와 같다. Source image를 생성하는 과정에서 self-attention의 key와 value feature를 target image에서 그대로 사용한다.
모든 레이어와 모든 timestep에서 mutual self-attention을 적용하게 되면 $I_s$와 동일한 $I$를 생성하게 된다.
위 실험에서 볼 수 있듯이, 초반 step에서는 target image의 layout이 아직 생성되지 않고 U-Net의 encoder 부분에서는 수정된 prompt와 대응되는 명백한 layout과 structure를 얻을 수 없다. 그래서 본 논문에서는 몇 스텝 후에 U-Net의 decoder 부분에만 mutual self-attention을 컨트롤하는 것을 제안한다. Alg.1에서 EDIT function은 다음과 같다.
본 논문의 method는 finetuning과 optimization을 필요로 하지 않는다.
2.2 Mask-Guided Mutual Self-Attention
위 방식대로 했을 때, 배경과 object가 너무 비슷한 경우에는 실패한다고 한다. 그래서 본 논문에서는 source와 target image $I_s, I$ 둘 다에서 foreground와 background를 구분하는 mask를 생성하기 위해서 semantic cross-attention map을 활용한다.
먼저 timestep $t$에 대해서 $P_s, P$를 가지고 U-Net backbone에서 forward process를 수행해서 intermediate cross-attention map을 생성한다. 그리고 나서 모든 head와 layer에 대한 attention map을 평균낸다 ($A^c_t \in \mathbb{R}^{16 \times 16 \times N}$, $N$은 textual token의 개수). 그 후에는 foreground object와 연관된 token에 대한 averaged cross-attention map을 얻는다. $I_s, I$ 각각에서 foreground object에 대해 추출한 mask를 $M_s, M$라 한다. 이 마스크들로 $I$에서의 object를 $I_s$에서 object region으로부터만의 content 정보를 query하는 것으로 제한할 수 있다.
Object region과 background region은 모든 feature들 대신 대응되는 제한된 지역으로부터의 content 정보를 query한다.
2.3 Integration to Controllable Diffusion Models
본 논문의 method는 더 faithful한 non-rigid image systhesis와 editing을 위해서 기존의 controllable image synthesis method에 쉽게 통합될 수 있다. Alg. 1와 동일한 process를 진행하고 SD 대신에 controllable model을 넣어서 사용 가능하다.
3. Experiments
별도로 지정하지 않는한 $P_s$와 $P$에 대한 starting noise map은 동일하게 셋팅한다. CFG는 7.5로 두고 수식 (5)에서 $S=4, L=10$으로 둔다.
3.1 Comparisons with Previous Works
3.2 Results with T2I-Adapter
3.3 Robustness to Other Models : Anything-V4
3.4 Extension to Video Synthesis
3.5 Ablation Study
위 결과를 통해, 본 논문의 method는 몇 denoising step이 지난 후에 U-Net에서 decoder part에서 수행돼야 한다.
4. Limitations and Discussion
본 논문은 Stable Diffusion의 한계점의 대부분을 가진다. 1) SD가 생성하지 못하는 prompt에 대해서는 생성하지 못한다. 2) target image가 보이지 않은 content를 가지고 있거나 급격하게 바뀌는 content에 대해서는 잘 생성하지 못한다. 3) 여전히 source image와 target image 사이의 차이가 존재한다.