평범한 필기장

[평범한 학부생이 하는 논문 리뷰] DreamMotion : Space-Time Self-Similar Score Distillation for Zero-shot Video Editing (ECCV 2024) 본문

AI/Video

[평범한 학부생이 하는 논문 리뷰] DreamMotion : Space-Time Self-Similar Score Distillation for Zero-shot Video Editing (ECCV 2024)

junseok-rh 2024. 12. 14. 23:35

Paper : https://arxiv.org/abs/2403.12002

 

DreamMotion: Space-Time Self-Similar Score Distillation for Zero-Shot Video Editing

Text-driven diffusion-based video editing presents a unique challenge not encountered in image editing literature: establishing real-world motion. Unlike existing video editing approaches, here we focus on score distillation sampling to circumvent the stan

arxiv.org

Project Page : https://hyeonho99.github.io/dreammotion/

 

SOCIAL MEDIA TITLE TAG

SOCIAL MEDIA DESCRIPTION TAG TAG

hyeonho99.github.io

0. Abstract

본 논문은 기존의 Video Editing 방식들과 다르게, standard reverse diffusion process를 우회하고 이미 자연스러운 motion을 보이는 video로부터의 optimization을 초기화하기 위해 score distillation sampling에 집중한다. 본 논문은 video score distillation이 target text으로 나타내지는 새로운 content를 효과적으로 도입할 수 있지만, 이는 또한 상당한 structure와 motion deviation을 가져올 수 있다. 이를 해결하기 위해서, 본 논문은 score distillation동안 original video와 edited video의 space-time self-similarity들을 매칭하는 것을 제안한다.

1. Introduction

 Image editing을 Video editing으로 확장하려고 할 때, temporally consistent real-world motion을 모델링하는 것이 challenge이다. 기존 method들은 attention layer를 확장해서 T2I diffusion model을 이용했다고 한다. 하지만 이런 방식들은 확장된 attention layer을 통한 motion의 implicit preservation에 의존하기 때문에 smooth하고 complete한 motion을 달성하는 것에 한계를 가진다. 그래서 흔히 적용되는 방식은 (1) self-attention map을 주입하거나 cross-attention을 조작해서 attention map guidance를 사용하는 방식과 (2) depth나 edge map과 같은 spatially-aligned structural cues를 denoising process에 통합하는 방식이 있었다.

 잘 학습된 T2V diffusion model의 존재에도, zero-shop video editing은 여전히 상당한 허들을 지닌다. 이는 공개된 T2V model들은 생성된 video들에서 real-world motion을 정확히 묘사할 충분히 부유한 temporal prior가 부족하기 때문이다.

T2I나 T2V model을 사용하든, 전통적인 reverse diffusion process는 추가적인 visual condition이나 특정 video에 대한 spatial-temporal prior를 overfitting시키는 것으로 보와되는 것 없이는 복잡하고 real-world인 motion을 reprogram하는데 어려움을 겪는다.

 이를 해결하기 위해서, 본 논문은 standard denoising process를 피하고 대신에 SDS기반의 optimization을 활용해서 video를 editing하는 DreamMotion을 제안한다. Input video으로부터 시작해서, 본 논문은 motion의 완전성을 유지하면서 video의 appearance를 점진적으로 수정하려고 한다. 정확하게, 본 논문의 framework는 DDS gradient를 사용해서 target appearance를 video에 주입한다. 이 과정동안, 본 논문은 blurriness와 over-saturation을 피하기 위해 추가적인 binary mask로 gradient를 필터링한다. 위 방식은 structural error를 쌓고, 이는 최종 output frame들 사이에 motion에서의 deviation을 야기한다. 이를 해결하기 위해서, 본 논문은 self-similarity-based space-time regularization 방식을 제안한다.

2. DreamMotion

2.1 Overview

 Input video $\hat{\mathbf{x}}^{1:N}$과 그에 대응하는 text prompt $\hat{y}$, target text $y$가 주어지면, $y$를 잘 반영하면서 $\hat{\mathbf{x}}^{1:N}$의 구조적인 완전함과 전체적인 모션을 보존하는 editing된 video $\hat{\mathbf{x}}^{1:N}$을 생성하는 것이 목표이다. DreamMotion은 original video $\hat{\mathbf{x}}^{1:N}$을 $\hat{\mathbf{x}}^{1:N}(\theta)$로 initialize하고 시작한다. 본 논문의 optimization strategy은 다음 세 가지로 구성된다.

  1. $\mathcal{L}_{V-DDS}$ : $y$에 맞는 appearance를 매칭하도록 $\mathbf{x}^{1:N}$를 그린다.
  2. $\mathcal{L}_{S-SSM}$ : $\mathbf{x}^{1:N}$의 구조가 $\mathbf{x}^{1:N}$에 맞도록 한다.
  3. $\mathcal{L}_{T-SSM}$ : temporal dimension에 대해 gradient를 smoothen한다.

2.2 Appearance Injection

Video Score Distillation with Masked Gradients

 본 논문은 pretrained T2V diffusion model $\epsilon_{\phi}$를 활용해서, video score를 distill하는데 DDS mechanism을 확장한다. 본 논문은 다음 objective를 최소화함으로써 target text $y$를 반영하도록 video variable $\mathbf{x}_0^{1:N}(\theta)$를 optimize한다.

하지만 위 V-DDS (Video DDS)는 blurriness와 over-saturation이라는 문제를 가진다. 본 논문은 추가적인 mask conditioning으로 이 문제를 완화한다. 각 프레임에서 editing하려는 객체를 annotate하는 sequence of masks $m^{1:N}$로 gradients를 필터링한다.

$$ \nabla_\theta \mathcal{L}_{V-DDS} \odot m^{1:N}$$

이 필터링된 gradient는 $\mathbf{x}^{1:N}_0(\theta)$에서 의도되지 않은 부분을 영향받지 않도록 그대로 남긴다.

 더 중요한 issue는 optimization process동안 $\mathcal{L}_{V-DDS}$의 부정확한 gradient가 구조적인 error를 축적할 때 발생한다. 이미지 editing과 다르게, 이러한 error들은 프레임에서의 temporal consistency를 막고 종종 motion deflection을 야기하기 때문에 video editing에서 특히 문제이다. 이러한 문제들은 아래 이미지에서 볼 수 있다.

2.3 Structure Correction

Spatial Self-Similarity Matching

 본 논문의 contribution은 target video $\mathbf{x}^{1:N}$과 original video $\mathbf{\hat{x}}^{1:N}$ 사이의 구조적인 correspondence를 보장하기 위해 deep diffusion feature를 통해 self-similarity를 적용하는 것을 개척한 것이다. 이를 달성하기 위해, 본 논문은 두 비디오에 timestep $t$의 identical noise를 넣어서 $\mathbf{x}_t^{1:N}$과 $\mathbf{\hat{x}}_t^{1:N}$를 만든다. 그리고 이들은 video diffusion U-Net $\mathbf{\epsilon}_\phi$에 feed-forward돼 attention key feature 페어 $K(\mathbf{x}_t^{1:N}), K(\mathbf{\hat{x}}_t^{1:N}) \in \mathbb{R}^{N \times (H \times W) \times C}$를 추출한다. 각 n번째 frame의 spatial self-similarity map를 다음과 같이 계산한다.

Spatial self-similarity matching objective는 다음과 같다.

이를 통해 target과 original video의 self-similarity map사이의 차이를 최소화한다.

2.4 Temporal Smoothing

Temporal Self-Similarity Matching

 비록 spatial self-similarity alignment가 original과 target video 사이의 structural consistency를 유지시키지만, 이는 frame간의 temporal correlation을 고려하지 않는 frame-independent optimization method로써 작동한다. 이러한 operation은 optimized frame에서의 localized distortions과 notable flickering을 야기한다. 이를 해결하기 위해서 본 논문에서는 frame 축에 따라서 self-similarity를 활용함으로써 temporal correlation을 모델링하는 $\mathcal{L}_{S-SSM}$의 temporal regularization을 도입한다.

 시간에 대해 self-similarity를 계산하는 것은 필수적인 spatial detail들을 유지하면서 spatial 정보를 압축하는 method를 필요로 한다. 본 논문에서는 추출된 key features $K(\mathbf{x}^{1:N}_t) \in \mathbb{R}^{N \times (H \times W) \times C}$를 다음과 같이 $M[K(\mathbf{x}^{1:N}_t)] \in \mathbb{R}^{N \times C}$로 압축한다. (Spatial Marginal Mean)

이를 이용해서 다음과 같이 temporal self-similarity를 구한다.

Temporal self-similarity matching loss는 다음과 같다.

이 세 가지 Loss $\mathcal{L}_{V-DDS}, \mathcal{L}_{S-SSM}, \mathcal{L}_{T-SSM}$는 동일한 noise $\mathbf{\epsilon}$과 time $t$를 공유하기 때문에, computationally efficient inteegration of optimization을 보인다.

2.5 Expansion to Cascade Video Diffusion

 Cascade Video Diffusion model은 Keyframe Generation, Temporal Interpolation, Spatial Super Resolution 이렇게 세 가지로 구성된다. 본 논문은 본 논문에서 제시한 method를 Keyframe Generation에만 적용한다고 한다.

3. Experiments

3.1 Non-cascaded Video Diffusion Framework

Qualitative Results

Quantitative Results

- Text alignment와 frame consistency는 CLIP을 통해 계산해서 측정

- Spatial consistency는 tracking-based motion fidelity score와 framewise LPIPS로 측정

3.2 Cascaded Video Diffusion Framework

Qualitative Results

Quantitative Results

Structure and Motion Preservation (SM-Preserve)에서 큰 차이를 보인다.

3.3 Ablation Studies

$\mathcal{L}_{V-DDS}$를 업데이트하는 동안 gradient를 mask를 통해 filtering하는 것에 대한 효과는 위 이미지에서 볼 수 있다. Appearance injection에 영향을 주는 gradient를 filtering하는 것은 blurriness와 saturation의 문제를 피하면서 video editing에 대한 정밀도를 강화하고  visual fidelity를 향상시킨다.

 아래 이미지들은 본 논문에서 제안한 self-similarity guidance에 대한 ablation study 결과이다. Spatial self-similarity loss의 부재는 프레임에 따라 object structure에서의 inconsistency를 야기한다. 두 번째 이미지에서 첫 번째 예시를 보면 새의 날개 형태가 다른 것을 볼 수 있다. Spatial self-similarity가 구조적인 integrity를 보존하지만, artifacts를 생성할 수 있다. 그러나 이러한 artifact들은 temporal self-similarity를 통해 해결된다.

아래는 ablation study의 정량적인 결과이다.

4. Conclusion

 본 논문은 score distillation-based optimization으로 video editing을 하는 DreamMotion을 제안했다.

Limitation

 DreamMotion은 원본 video의 구조를 보존하면서 editing을 하는 방식이기에 구조 변화가 큰 editing에는 적합하지 않다.

A. Additional Comparison