[평범한 학부생이 하는 논문 리뷰] Pathways on the Image Manifold: Image Editing via Video Generation (CVPR 2025)
Paper : https://arxiv.org/abs/2411.16819
Pathways on the Image Manifold: Image Editing via Video Generation
Recent advances in image editing, driven by image diffusion models, have shown remarkable progress. However, significant challenges remain, as these models often struggle to follow complex edit instructions accurately and frequently compromise fidelity by
arxiv.org
Abstract
기존 문제
기존의 image diffusion model을 이용한 image editing은 여러 문제점을 지닌다. 이러한 모델들은 종종 복잡한 edit instruction들을 정확하게 따르지 못하고 종종 original image의 key elements를 바꿈으로써 fidelity를 해친다.
해결 방안
본 논문은 image editing을 위해서 image-to-video video models를 활용함으로써 두 field를 merge하는 것을 제안한다. 이 접근법은 image manifold를 연속적으로 지나고, 이는 original image의 key aspects를 보존하면서 consistent edit을 보장한다.
1. Frame2Frame
본 논문은 image editing을 temporal transformation process로 재정의한 framework인 Frame2Frame을 제안한다.
1.1 Temporal Editing Captions
Text-based image editing은 source image $I_s$와 target caption $c$를 input으로 작동한다. 그런데 본 논문의 approach는 temporal process로써 editing을 modeling하기 때문에 근본적으로 다르다. 그래서 본 논문은 Temporal Editing Caption $\tilde{c}$라는 새로운 타입의 prompt를 필요로 한다. 이는 source에서 target image로의 sequential transformation을 묘사한다.
본 논문은 VLM (ChatGPT-4o)를 통해서 $I_s,c$로부터의 정보를 결합해서 $\tilde{c}$를 구축한다. 생성 퀄리티를 향상시키기 위해서, 9개의 prompt-caption 페어 예시를 통해 in-context learning를 활용한다.
1.2 Video Generation
본 논문은 image-to-video CogVideoX를 사용한다. 생성 과정에서, $I_s$는 인코딩되고 latent space에서 noise에 concat된다. 그리고 model은 temporal caption $\tilde{c}$로 가이드되는 denoising process를 적용한다. 이러한 conditioning은 생성된 video가 $I_s$에서 시작되게 하고 image manifold에 따라 자연스럽게 진행하는 것을 가능하게 한다. 이를 통해 coherence와 consistency가 유지된다. 또한, model의 transformer 아키텍쳐는 visual과 textual 정보를 효과적으로 융합하게 한다.
1.3 Frame Selection
$f_T$가 optimal edited image라는 보장은 없다. 그러므로 자동적으로 optimal edited frame을 식별하는 방식이 필요하다. 본 논문은 매 4번째 frame을 샘플링하고 $I_s$와 함께 콜라주를 만든다. 그리고 GPT-4o를 이용해서 콜라주와 editing prompt $c$가 주어졌을 때, 가장 의도를 만족하면서 가장 index를 가지는 frame $f_{t^*}$를 고르도록 한다.
2. Editing Manifold Pathway
본 논문은 기존의 image-to-image 방식에 대한 본 논문의 방식의 이점을 보이기 위해서, natural image manifold안에서 editing process를 시각화한다.
세가지 prompt 각각에 대해서 200개의 이미지를 생성하고, CLIP ViT-B/32를 이용해서 각 이미지에 대한 512-dimensional feature vector를 뽑는다. 이러한 feature들과 25개의 random noise image들로부터 추출된 feature vector들을 사용해서 PCA를 통해서 2-dimensional subspace로 dimensionality를 줄인다.
AI그룹에서 AI+Heart Hands그룹으로 이동시키는 것이 목적이라고 하면, 위 이미지 처럼 기존의 방식은 single image를 생성한다. 이는 갑작스러운 변환을 야기하고 티셔츠의 AI를 지운다. 대조적으로, 본 논문은 video generation을 활용해서 원하는 manifold로 점점 이동시켜 smooth하게 edit을 수행한다. 위 실험을 통해서 본 논문에서 제안한 paradigm은 image manifold를 따라 smooth한 이동을 가능하게 해서, original image의 본질적인 특징은 유지하면서 consistent edit을 가능하게 한다.
3. Experiments
3.1 TEdBench Evaluation Results
3.2 PosEdit Benchmark
본 논문은 사람의 포즈에 대한 benchmark인 PosEdit Benchmark를 도입한다.
3.3 Additional Vision Tasks
Denoising, deblurring, outpainting, relighting과 같은 fundamental image manipulation task에도 적용해봤다. 이 경우에는 video generation backbone을 Runway Gen-3을 사용했다.
4. Limitations
- Video generation model을 사용하기 때문에, 의도치 않은 perspective shifts가 발생할 수 있다.
- Model의 training data와 상당히 거리가 먼 결과는 생성하기 힘들다.
- Computationally intensive
Appendix
A. Temporal Editing Captions
A.1 VLM Instruction
Temporal editing caption을 생성하기 위한 instruction은 다음과 같다.
또 in-context learning을 활용하는데, 각기 다른 예시를 9번 넣어준다고 한다.
A.2 Ablation
B. Frame Selection
B.1 VLM Instruction
Frame selection에서는 다음과 같은 instruction을 사용한다.
B.2 Ablation