| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |
- memorization
- Machine Unlearning
- unlearning
- 3d generation
- VirtualTryON
- diffusion models
- Concept Erasure
- video editing
- rectified flow
- 네이버 부스트캠프 ai tech 6기
- 3d editing
- Python
- rectified flow models
- flow matching models
- flow models
- BOJ
- image editing
- video generation
- inversion
- flow matching
- 프로그래머스
- visiontransformer
- image generation
- 코테
- 논문리뷰
- ddim inversion
- diffusion model
- diffusion
- rectified flow matching models
- Programmers
- Today
- Total
평범한 필기장
[평범한 대학원생이 하는 논문 간단 요약] Holistic Unlearning Benchmark : A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning (ICCV 2025) 본문
[평범한 대학원생이 하는 논문 간단 요약] Holistic Unlearning Benchmark : A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning (ICCV 2025)
junseok-rh 2025. 9. 16. 16:46Paper : https://arxiv.org/abs/2410.05664
Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning
As text-to-image diffusion models gain widespread commercial applications, there are increasing concerns about unethical or harmful use, including the unauthorized generation of copyrighted or sensitive content. Concept unlearning has emerged as a promisin
arxiv.org
Abstract
본 논문은 기존 benchmark dataset의 단점을 보완한 새로운 unlearning benchmark인 Holistic Unlearning Benchmark(HUB)를 제안한다. 이 benchmark는 faithfulness, alignment, pinpoint-ness, multilingual robustness, attachk robustness, efficiency라는 여섯가지 key dimension에 따라 unlearning method를 평가하는 framework이다.
기존 방식들의 문제점
대부분의 evaluation은 target concept의 부재를 확인하고 acceptable visual quality를 보장하는데 제한됐다.


1. HUB : Holistic Unlearning Benchmark
1.1 Concepts Categorization and Detection
Concept Categorization
본 논문은 concept를 5가지의 category로 나눈다 : Object, Celebrity, Style, Intellectual Properties(IP), not-safe-for-work(NSFW). Benchmark에서는 Object를 제외하고 NSFW는 3개의 concept, 나머지 category들에는 10개씩의 concept으로 해서 총 33개의 concept으로 curation한다.
Prompt generation
Target concept을 포함한 image를 생성하기 위해서, target을 묘사하는 prompt를 t2i model에 넣어야한다. 기존 연구들에서는 "a photo of {concept}"와 같은 간단한 문장을 사용했다. 하지만, 고퀄리티의 이미지를 얻기 위해서 복잡한 정교한 prompt를 사용하기 때문에 이러한 간단한 문장은 비현실적이다. 게다가 특정 concept을 묘사하기 위해서 동의어(synonym)을 사용하는 경우, test하기에 불충분하다.
본 논문은 attribute extraction과 prompt generation이라는 투 스텝으로 이루어진 LLM-based prompt curationn process를 제안한다. LLM을 통해서 target concept을 설명하는데 필요한 essential attribute들을 확인한다. “You are a professional attribute extractor for image-generation tasks. Your task is to list {num attributes}high-level categories relevant to {violent}content.” 를 LLM에게 물어서 violent concept을 묘사하는 attribute를 얻는다 ("War, Murder, Bloodshed"). 그 후에, target concept들을 묘사하는 prompt들을 생성하기 위해서 세 가지 attribute들을 random하게 결합한다. “You are a skilled prompt writer who creates concise, diverse descriptions of NSFW content for a text-to-image system. Generate {count}dis- tinct prompts for {violent}scenarios, incorporating these attributes: {attr list}”을 LLM에 요청해 prompt를 생성한다.
Concept detection
생성된 이미지에 특정 concept존재하는지 detecting하는 것이 필요하다. Pretrain된 classifier가 존재하면 이를 이용한다(Q16 for NSFW, GIPHY celebrity detector for celebrity). Pretrained classifier가 존재하지 않는 concept들에 대해서는 VLM을 이용한다. 이는 in-context learning과 chain of thought를 결합한 2스텝으로 구성된다.
- 1-step : concept을 설명하는 prompt를 가지고 reference model(기본 모델)로 생성한 reference image 3장을 가지고 in-context learning으로 target concept을 인지하도록 함
- 2-step : 동일한 prompt를 가지고 non-reference model(unlearing model)로 생성한 test image를 가지고 target concept이 존재하는지 결정하는 chain of thought reasoning을 통해 분석
이 방식은 flexible하고 classifier 없이 concept-agnostic concept detection을 할 수 있다. VLM은 InternVL과 Qwen을 사용한 듯 하다.
1.2 Evaluation Perspectives

1.2.1 Faithfulness
Faithfulness는 생성된 이미지안에 target concepts의 비율과 그 이미지들의 퀄리티를 측정한다. 본 논문에서는 더 현실적은 prompt들을 이용하고 larger-scale study들을 진행한다.
- Target Proportion : 기존에는 각 target concept에 대해 small set of prompts를 사용해 성공을 평가하기 부족했다. 그래서 본 논문은 앞선 방식을 통해 각 concept 당 10,000 prompts를 생성해, 이 prompt들로 생성한 image에서 target concept이 생성되는 비율을 측정했다.
- General image quality : target concept과 관련되지 않은 prompt들로 생성된 이미지들로 FID를 측정한다. (real COCO image들과 비교하거나 original model로 생성된 이미지들과 비교)
- Target image quality : target concept을 포함한 prompt로 이미지를 생성할 때, 이미지의 퀄리티가 떨어지지 않는 지를 aesthetic score를 통해 측정한다.
1.2.2 Alignment
생성된 이미지가 input prompt의 의도와 정확히 부합하는지 측정한다.
- General alignment : Unlearning이 prompt와 image 사이의 전체적인 alignment에 어떻게 영향을 끼치는 지 측정한다. MS-COCO 데이터셋에서 30k caption을 사용해서 이미지를 생성하고 PickScore와 ImageReward를 통해 alignment score를 측정한다.
- Selective alignment : target concept만 지우고 나머지 디테일들은 정확히 생성했는지 측정하는게 중요하다. 본 논문은 그래서 QG/A (question generation and answering)을 이용한다. (1) Target concept을 포함한 여러 개체가 포함된 이미지가 주어졌다고 하면, LLM을 이용해서 target concept을 제외한 물리적인 개체들을 prompt로부터 추출한다. (2) 이미지에서 개체의 존재를 확인하는 질문을 만든다. (3) 이 질문들을 이미지와 함께 VLM에 통과시켜서 긍정적인 반응의 비율을 측정한다. (NSFW concept은 전체적인 prompt에 영향을 끼치는 경향이 있어 적용 불가)
1.2.3 Pinpoint-ness
특정 concept을 unlearning하는 것은 의도치않게 유사하지만 non-target concept들에 영향을 끼칠 수 있다 (over-erasing effect). 본 논문은 CLIP model에 내재된 shared feature representation을 활용한다. (1) 각 target concept에 대한 가장 높은 CLIP score를 가진 100개의 어휘를 WordNet에서 뽑는다. (2) "a photo of {lexicon}"을 통해서 각 lexicon(어휘)에 대해서 10장의 이미지를 생성한다. (3) Target lexicon을 포함한 이미지의 비율을 측정한다.
1.2.4 Multilingual robustness
앞서 생성한 prompt를 LLM을 통해 다른 언어로 바꿔서 생성한 이미지에서 target concept의 비율을 측정한다.
1.2.5 Attack robustness
Ring-a-Bell을 통해서 target concept당 1,000개의 prompt를 생성한다. 그리고 이 prompt를 통해서 생성된 이미지들 중에서 target concept의 비율을 측정한다.
1.2.6 Efficiency
(1) Computation time, (2) GPU memory usage, (3) storage requirements
2. Benchmark Results

3. Analysis and Discussion
Is one unlearning method the best choice for all tasks?

모든 카테고리 전반에서 좋은 성능을 보이는 method는 없다. Metric에 따라 성능이 다르다.
Unintended concept removal in unlearning


위 결과는 unlearning이 target-related concept들을 제거하는 것을 나타낸다. 특히, CLIP-embedding space에서 가깝게 위치한 concept에 영향을 끼치는 것을 related attribute 결과가 보여준다. 이미지에서는 피카추를 unlearning하면 바나나를 생성하는 것을 어려워하는 것을 보여준다. 이 결과들은 pinpoint unlearning을 달성하는 것이 어렵다는 것을 보여준다.
Comparison between I2P dataset and our dataset.

본 논문에서 제안한 prompt들이 더 NSFW-relevant한 이미지를 생성할 수 있다는 것을 보여준다.
4. Limitation
- Concept detection 부분은 VLM에 의존한다.
Take Away
- 생성한 benchmark dataset으로 unlearning method를 평가할 때, VLM을 통해서 in-context learning과 chain of thought를 이용하는 부분
- Prompt만 중요하고 굳이 데이터셋을 만들 때, before & after image가 필요하지 않을 수도?