| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |
- rectified flow
- ddim inversion
- video editing
- Programmers
- diffusion
- Concept Erasure
- Machine Unlearning
- BOJ
- rectified flow models
- flow matching
- image editing
- 3d generation
- 3d editing
- visiontransformer
- diffusion model
- inversion
- 코테
- memorization
- VirtualTryON
- rectified flow matching models
- 네이버 부스트캠프 ai tech 6기
- flow matching models
- 논문리뷰
- video generation
- flow models
- image generation
- diffusion models
- unlearning
- 프로그래머스
- Python
- Today
- Total
평범한 필기장
[평범한 대학원생이 하는 논문 간단 요약] One Image is Worth a Thousand Words:A Usability Preservable Text-Image Collaborative Erasing Framework (ICML 2025) 본문
[평범한 대학원생이 하는 논문 간단 요약] One Image is Worth a Thousand Words:A Usability Preservable Text-Image Collaborative Erasing Framework (ICML 2025)
junseok-rh 2025. 9. 9. 21:26Paper : https://arxiv.org/abs/2505.11131
One Image is Worth a Thousand Words: A Usability Preservable Text-Image Collaborative Erasing Framework
Concept erasing has recently emerged as an effective paradigm to prevent text-to-image diffusion models from generating visually undesirable or even harmful content. However, current removal methods heavily rely on manually crafted text prompts, making it
arxiv.org

Abstract
기존 concept erasure 방식들은 text에 집중했다. 하지만 본 논문에서는 text와 image 사이의 modality gap 때문에 text만 이용하는 것은 부족하다고 지적한다. 그래서 본 논문은 이 문제를 해결하기 위해서 text와 image를 모두 이용해서 concept erasure하는 framework을 제안한다.
1. Methodology
1.1 Limitations of Text-only Erasing


"nudity"와 관련 없는 text prompt에 대해서 부적절한 이미지가 생성된다. 이는 text와 image 모달리티 사이의 gap을 보여주는 결과이다.

단순히 더 많은 단어를 사용하는 것이 erasing efficacy를 향상하지 않고, 오히려 관계없는 concept의 생성 능력을 약화시킨다.

위 결과를 통해, 본 논문은 text뿐만 아니라 image 정보를 활용해 text prompt와 unwanted concept사이의 gap을 우회하는게 합리적이라는 것을 보인다. 이를 바탕으로 본 논문은 visual template으로써 지우고자 하는 concept에 대응되는 이미지들을 활용할 것을 제안한다.
1.2 Text-Image Collaborative Erasing

1.2.1 Integrating Image with Text Prompts
위에서 설명한 것처럼 본 논문은 image feature를 이용한다. 이를 위해서 본 논문은 text embedding과 image embedding이 각각 따로 들어가는 decoupled cross-attention을 제안한다.

$\mathbf{Q} = \mathbf{Z}_t \mathbf{W}_q$는 query matrix이고, $\mathbf{Z}_t$는 cross-attention으로 들어가기전 latent variable이다. $\mathbf{K} = c_{text}\mathbf{W}_k, \ \mathbf{V} = c_{text}\mathbf{W}_v, \ \mathbf{K} = c_{image}\mathbf{W}_k, \ \mathbf{V} = c_{image}\mathbf{W}_v$ 이다. Cross-attention 이후에는 최종 latent를 $\mathbf{Z}^{att}_t = \mathbf{Z}^{text}_t + \mathbf{Z}^{image}_t$로 얻는다.
Image branch는 학습동안에만 필요하다. Pretrain된 Image encoder를 load해서 U-Net으로부터 컨셉과 연관된 knowledge를 제거하도록 full parameter에 대해서 fine-tuning을 한다.
1.2.2 Text-Guided Image Concept Refinement
강하게 축약되고 추상인 text modality와 다르게, image modality는 매우 풍부하고 장황한 visual 정보를 가지고 있다.

위 이미와 같이 "a photo of church"로 생성된 이미지에 "tree"와 같은 다른 정보도 들어있다. 그래서 refinement 없이, untargeted visual content가 erasing process를 방해할 수 있다.
이를 해결하기 위해서, 본 논문은 image prompt로부터 target concept을 추출하는 text-guided refinement module을 적용한다. 이미지 $\mathbf{X}$와 word $\mathbf{Y}$를 통해 refined image embedding을 다음과 같이 얻는다.

$\mathbf{Q}^r = \mathcal{E}_{image}(\mathbf{X}), \ \mathbf{K}^r = \mathbf{V}^r = \mathcal{E}_{text} = \mathbf{Y}$
$c_{image}$는 $c_{text}$와 병렬적으로 cross-attention layer에 들어간다.

$c = [c_{text}, c_{image}]$
이 refinement module을 가지고, 모델은 관계없는 정보를 막으면서 target concept에 집중할 수 있다.
1.2.3 Erasing with Self-Generated Images
본 논문은 model 스스로로부터 concept을 지우는 것을 목표로하기 때문에, self-generated image들을 사용한다. 이는 정확하게 target concept의 모델의 지식을 나타낸다.

위 이미지를 보면 NSFW dataset의 분포와 생성모델로 생성된 이미지의 분포가 다른 것을 볼 수 있다. 이는 erasing prompt로 self-generated image 사용의 필요성을 강조한다.
2. Experiments
2.1 Experiment Setups
Training Setups
학습 전에, target concept $c$에 대해 "a photo of $c$"를 통해서 $n$개의 sample을 SD로 생성한다. 각 iteration동안 self-generated dataset으로부터 하나의 이미지를 랜덤하게 샘플링한다.
2.2 Overall Performance



Take Away
- Image prompt로 target concept을 추가로 줬음
- LoRA와 같은 adapter가 아닌 전체 파라미터를 finetuning하는 방식 $\rightarrow$ 이건 쪼오오금 위험해 보임
- Model이 생성한 image로 학습
위와 같은 것들이 다른 논문들과의 차별성인 것 같다.