| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |
- unlearning
- video generation
- image editing
- Programmers
- flow matching models
- Concept Erasure
- rectified flow models
- 논문리뷰
- BOJ
- diffusion
- rectified flow matching models
- 프로그래머스
- flow matching
- Python
- inversion
- 코테
- video editing
- diffusion model
- image generation
- 3d generation
- flow models
- VirtualTryON
- diffusion models
- ddim inversion
- Machine Unlearning
- 네이버 부스트캠프 ai tech 6기
- visiontransformer
- 3d editing
- rectified flow
- memorization
- Today
- Total
평범한 필기장
[평범한 대학원생이 하는 논문 간단 요약] FADE : Adversarial Concept Erasure in Flow Models (ArXiv 2507) 본문
[평범한 대학원생이 하는 논문 간단 요약] FADE : Adversarial Concept Erasure in Flow Models (ArXiv 2507)
junseok-rh 2025. 9. 19. 18:17Paper : https://arxiv.org/abs/2507.12283
FADE: Adversarial Concept Erasure in Flow Models
Diffusion models have demonstrated remarkable image generation capabilities, but also pose risks in privacy and fairness by memorizing sensitive concepts or perpetuating biases. We propose a novel \textbf{concept erasure} method for text-to-image diffusion
arxiv.org
Abstract
본 논문은 trajectory-aware finetuning strategy와 adversarial objective를 결합한 새로운 concept erasure 방식인 FADE(Fair Adversarial Diffusion Erasure)를 제안한다.
1. FADE : Fair Adversarial Diffusion Erasure

1.1 Adversarial Concept Removal Objective
본 논문은 diffusion model $M_\theta$와 concept discriminator $D_\phi$사이의 adversarial game을 도입한다. $D_\phi$와 $M_\theta$를 나란히 학습한다. $D_\phi$는 $M_\theta$의 output image에 $c$가 존재하는지를 정확히 구별하려고 하고, $M_\theta$는 $c$가 prompt에 존재하지만 없다고 믿도록 $D_\phi$를 속이도록 finetuning된다.
Discriminator는 다음의 binary cross-entropy loss를 통해 학습된다.

반면에, Diffusion Model은 다음과 같은 generator loss로 학습된다.

이는 $M_\theta(y_c)$가 $D_\phi$가 concept이 없다고 판별하는 $x_c$를 생성하도록 한다.
Optimum에서, $D_\phi$가 $x_c$와 $x_{\neg c}$를 구별할 수 없게 되고, 이는 $M_\theta$의 output이 더이상 이 concept에 대한 정보를 담지 않는다는 것을 의미한다. 이 접근법은 $c$의 real image를 필요로 하지 않는다. $D_\phi$를 학습시키위한 데이터를 model이 생성한다. 이는 $c$에 대해 무엇을 알고 있는지의 knowledge distillation과 유사하다.
Concept Prompt Design
Concept $c$에 대한 prompt : "a photo of a [airplane]", "a [airplane] in the sky" 등등 + aircraft나 jet와 같은 common synonyms도 이용
Neutral prompt : "a photo of an object", "a photo of the sky"와 같인 object로 대체하거나 제거한 prompt.
1.2 Trajectory Preservation and Salient Weight Fine-tuning
$c$를 지우기 위해서 model을 finetuning하는 것은 불가피하게 연관 없는 concept의 생성에서의 성능 하락과 같은 결과를 야기할 수 있다. 이를 완화하기 위해서, 본 논문은 다음 두 가지 전략을 택한다.
(1) Trajectory preservation loss $\mathcal{L}_{pres}$
본 논문은 $c$를 포함하지 않는 prompt들에 대한 early denoising trajectory를 유지하는 메커니즘을 택한다. $c$가 없는 prompt에 대해서는, $M_{\theta^\prime}$가 $M_\theta$와 유사하게 행동해야한다. 그래서 본 논문은 early timestep에서 두 모델의 noise prediction을 비교하는 $\mathcal{L}_{pres}$를 다음과 같이 정의한다.

나중 step에서는 concept이 만들어지고, 본 논문은 이를 허용하기 위해서 $T_0 < T$까지로 강제한다. Early step을 보존하게 함으로써, 본 논문은 이미지의 coarse structure는 유지하도록 보장하고 $M_{\theta^\prime}$이 data manifold안에서 normal trajectory를 여전히 따르도록 보장한다. 이는 finetuning으로부터 발생할 수 있는 unusual artifacts나 model collapse를 피하도록 한다.
(2) Salient weight restriction
모든 파라미터를 finetuning시키기 보다는, concept $c$에 가장 영향을 끼치는 subset $\Theta_{salient}$를 찾아서 이들만 학습시키거나 더 높은 learning rate를 줘서 finetuning시킨다. $c$를 포함하는 여러 이미지를 생성하고, $c$의 존재 유무 결과의 차이의 norm과 같은 concept-related loss의 gradient를 계산한다. 그 후에, gradient 크기로 weight의 순위를 매긴다. 이러한 weight들을 update함으로써 finetuning한다. 이는 unrelated concept들에 대한 개입의 위험성을 줄여서 더 좋은 specificity를 달성한다.
최종적인 FADE에서의 loss는 다음과 같다.

본 논문은 unrelated concept들의 생성을 유지하기위한 term을 따로 포함시키지 않는다. 이는 $\mathcal{L}_{pres}$에 의해서 간접적으로 다뤄지기 때문이다.
1.3 Training Procedure and Implementation Details
$D_\phi$와 $M_\theta$를 번갈아가면서 학습하는데, 간단한 접근법으로 초기의 output으로 몇 epoch 동안 $D_\phi$를 pretrain시키고 그 후에 동시에 학습시킨다. $D_\phi$는 상대적으로 작은 CNN이나 CLIP-based classifier on image를 사용한다. $D_{\phi}$는 랜덤하게 초기화하고 $M_\theta$는 원래 모델로 초기화한다. Guidance weight는 2와 같은 값으로 한다. 이는 $D_\phi$의 일을 쉽게 만들고 $\mathcal{L}_{rem}$에 대한 더 명백한 gradient를 제공한다.
$\Theta_{salient}$를 찾기 위해서, 여러 방식이 있지만 본 논문은 concept image들의 batch에 대한 summed absolute gradient를 통해서 구한다. $\Theta_{salient}$는 종종 $c$ token에 대한 attention weight들을 포함하고 적은 갯수의 late-stage convolution kernel들을 포함한다.
기존 model의 지식을 단지 reshaping하는 거여서 상대적으로 적은 수의 반복으로 converge한다. 일단 $D_\phi$가 지속적으로 $c$를 감지 못하면( output $\approx 0.5$), 본 논문은 concept이 지워졌다고 판단한다. 또한 본 논문은 $c$가 사라졌는지와 전체적인 image의 퀄리티가 좋은지 정성적으로도 검사한다.
2. Experiments
2.1 Quantitative Results

2.2 Ablation Study

3. Limitation
- $D$를 따로 학습하는 게 필요함. 이게 오버헤드로 작용할 수 있고, $D$가 정확하지 않거나 $D$가 판단하기에 너무 추상적이면 지우는게 힘듦.
- 너무 많은 concept들(100개 이상)을 지우는 경우, 모델의 성능에 영향을 줌
Take Away
- Discriminator $D$를 이용해서adversarial하게 학습
- 초반 timestep에서 preservation하도록 하는 loss는 image editing에서 종종 사용했던걸 봤었는데, unlearning에서 이용 가능