| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |
- image editing
- diffusion models
- Concept Erasure
- rectified flow
- Programmers
- 논문리뷰
- visiontransformer
- rectified flow matching models
- diffusion model
- BOJ
- rectified flow models
- 3d editing
- ddim inversion
- unlearning
- inversion
- Python
- Machine Unlearning
- flow models
- VirtualTryON
- 프로그래머스
- 3d generation
- flow matching models
- 코테
- image generation
- memorization
- diffusion
- video generation
- flow matching
- video editing
- 네이버 부스트캠프 ai tech 6기
- Today
- Total
평범한 필기장
[평범한 대학원생이 하는 논문 간단 요약] K-LoRA: Unlocking Training-Free Fusion of Any Subject and Style LoRAs (CVPR 2025) 본문
[평범한 대학원생이 하는 논문 간단 요약] K-LoRA: Unlocking Training-Free Fusion of Any Subject and Style LoRAs (CVPR 2025)
junseok-rh 2025. 10. 13. 15:27Paper : https://arxiv.org/abs/2502.18461
K-LoRA: Unlocking Training-Free Fusion of Any Subject and Style LoRAs
Recent studies have explored combining different LoRAs to jointly generate learned style and content. However, existing methods either fail to effectively preserve both the original subject and style simultaneously or require additional training. In this p
arxiv.org
Abstract
다른 LoRA들을 조합하는 기존 연구들은 원래 object나 style을 보존하지 못하거나 추가적인 training을 필요로 한다. 이 문제를 해결하기 위해서 본 논문은 training-free LoRA fusion appoach인 K-LoRA를 제안한다.

1. Method
1.1 Findings
- LoRA를 스탭당 Layer의 subset에만 적용하는 것은 모든 Layer에 적용하는 것과 비슷한 효과를 보인다.
- Earlier diffusion step에 subject LoRA를 적용하는 것은 subject information을 잘 생성하는 경향을 보이고, later step에서 style LoRA를 적용하는 것은 content의 구성에 영향을 주지 않고 style과 detail들을 생성하는데 더 효과적인 것을 보인다.
1.2 K-LoRA
본 논문의 목표는 좋은 weight selection method와 원래의 LoRA weight를 수정하지 않고 각 step이나 layer에 대한 정확한 LoRA positioning을 찾는 대안을 찾는 것이다.


Fig 3(a)에서 볼 수 있듯이, $x$% 이상의 attention layer를 사용하면 original model과 구별하기 힘든 결과를 생성한다. 그러나 $x$%미만을 사용할 경우 원래 personalized concept들을 유지하는 능력이 현저히 감소한다. 또한 Fig 2의 결과에서 볼 수 있듯이, style LoRA를 이른 timestep에 적용하는 것은 original object의 reconstruction에 영향을 끼치는 반면, later timestep에 적용하면 original object에 영향을 끼치지 않고 style 정보를 유지한다. Content LoRA에 대해서는, 이른 timestep에 적용하는 것이 더 좋은 결과를 보였다.
위의 결과들을 통해, 본 논문은 각 attention layer들에 대해서 adaptively하게 LoRA를 선택함으로써 object와 style의 merging을 달성한다. Findings 1에 따르면, selection strategy는 전체적인 object와 style 정보를 보존한다. Findings 2에 따르면, early diffusion step들에서는 모델이 object reconstruction에 더 집중하고 later diffusion step들에서는 미세한 디테일과 함께 style에 더 집중한다. 그러므로 본 논문은 학습된 subject와 style을 merging하기 위해 적절한 LoRA layer를 adaptively하게 선택하는 K-LoRA를 제안한다.

먼저, generation process에서 특정 값이 중요한 역할을 하는지 확인하기 위해서 LoRA layer에서 각 element의 절대값을 계산한다.

Dominant element들의 small subset이 original generation effect을 달성할 수 있기 때문에, 본 논문은 $\Delta W^\prime_c$와 $\Delta W^\prime_s$로부터 가장 높은 값들을 통해 top K를 뽑는다.

K 값은 rank를 통해 다음과 같이 계산한다.

(3)과 (4)의 값을 비교함으로써 attention layer에서 적절한 weight들을 결정한다.

Object와 style이 다른 stage에서 각각의 역할을 더 잘하기 위해서, 본 논문은 scaling factor $S$를 도입한다. 이는 Top-K selection process에 직접 적용돼, 이른 stage에서는 object content를 강화하고 점진적으로 나중 stage에서 style을 강조한다.

Top-K selection을 비효율적으로 만드는 과도한 weight disparity를 피하기 위해서, 본 논문은 새로운 factor $\gamma$를 도입한다.

$\gamma$는 각 layer $l$ 안에서 절대값들의 합을 계산한 후에, 각 layer별로 합한다.

$\gamma$는 Fig 3(b)에서 보이는 것 처럼, 두 LoRA component들에서 element들 사이의 상당한 numerical discrepancy를 해결한다.
본 논문은 style LoRA에 $S^\prime$을 적용해 $S_s$를 업데이트한다.

$S^\prime$을 도입함으로써, 본 논문은 이른 timestep동안 content의 영향을 강화시키고 later step에서 style의 dominance를 강화한다. 이는 Findings 2의 이점을 효과적으로 가져온다.

아래 이미지는 selection proportion을 보여준다.

2. Experiments
- SDXL v1.0 & FLUX
- locally trained LoRA & community trained LoRA
- $\alpha = 1.5 \ \& \ \beta = 0.5$
2.1 Results
Quantitative comparisons

Qualitative comparisons


2.2 Ablation Analysis


TakeAway
- LoRA weight의 절대값을 비교해서, 각 layer마다 절대값이 큰 LoRA weight를 쓴다