일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- transformer
- image editing
- visiontransformer
- diffusion
- masactrl
- video generation
- diffusion models
- Programmers
- 3d generation
- Vit
- VirtualTryON
- 3d editing
- BOJ
- flow matching
- diffusion model
- Python
- noise optimization
- video editing
- memorization
- 프로그래머스
- segmentation map
- rectified flow
- 네이버 부스트캠프 ai tech 6기
- inversion
- 코테
- flipd
- segmenation map generation
- 코딩테스트
- DP
- 논문리뷰
- Today
- Total
목록전체 글 (103)
평범한 필기장

1. Introduction 기존 diffusion models는 LSUN과 ImageNet과 같은 어려운 generation에서는 GAN (BIgGAN-deep)에 경쟁이 되지 않는 FID score를 냈다. 본 논문에서 diffusion models와 GANs사이의 차이는 (1) 최신 GAN의 architecture는 고도로 연구되고 refine되었다는 것과 (2) GANs는 다양성을 fidelity로 맞바꿀 수 있다는 것이다. 본 논문에서는 이 두 가지의 이점을 가져오는 것을 목표로 한다. (1)은 모델 아키텍쳐를 향상시킴으로써 (2)는 다양성을 fidelity로 맞바꾸는 계획을 구상함으로써 해결하려한다. 이를 통해 몇 개의 metric과 dataset에서 GAN을 뛰어넘는 sota를 달성했다고 한..

이번에 리뷰할 논문은 DDIM 이다. 붓캠 기간동안 진행한 diffusion 스터디의 마지막 논문이였는데, 이 논문을 읽는 기간이 최종 프로젝트때문에 한창 정신이 없을 기간이어서 제대로 집중해서 읽지 못했었다. 그래서 최종 프로젝트를 제출하고 다시 읽고 리뷰를 남겨야지라고 미루다가 이제야 리뷰를 하게 됐다. https://arxiv.org/pdf/2010.02502.pdf 0. Abstract DDPM은 높은 수준의 이미지 생성할 수 있다. 그렇지만 이미지를 생성하려면 많은 스텝을 거쳐야한다. 그래서 DDPM과 동일한 training 절차를 거치지만 더 효율적인 DDIM을 제안한다. 본 논문은 DDPM을 non-Markovian diffusion 프로세스를 통해 일반화한다. 이러한 non-Markovia..

이번 논문은 최종 프로젝트에서 메인으로 쓰일 ControlNet이다.프로젝트에 관한 포스팅은 여기에서 확인할 수 있다.Why ControlNet?본 논문에서 ControlNet을 왜 제시했을까? 일단 먼저 기존의 text-to-image generation diffusion모델을 생각해보자. Stable Diffusion을 통해 우리는 고퀄리티의 이미지를 텍스트를 통해 생성할 수 있었다. 하지만 본 논문에서는 이러한 text-to-image generation에는 두 가지 한계점이 존재한다고 말하고 있다.Text만으로는 이미지의 spatial composition을 제공하는 것에는 한계가 있다.특정 condition에 대한 데이터셋이 작기 때문에 직접 finetuning하거나 continued train..

다음주에 있을 멘토님 피드백을 대비해 어느 정도는 우리의 프로젝트가 틀이 잡혀야 했다. 그래서 나를 제외한 두 분은 product serving에 엄청 열중해 주셨다. 나는 ControlNet으로 옷 이미지 생성을 고도화 하는 것에 집중했다. Llava 이용 프로젝트에서 처음에 사용한 Multimodal VITON-HD 데이터셋은 https://arxiv.org/pdf/2304.02051.pdf에서 소개된 데이터 셋이다. 하지만 이 데이터셋을 보면 옷에 대한 설명인 text데이터가 만족스럽지 않다고 판단했다. 색에 대한 정보가 부족하다거나 여러 색을 지닌 옷이면 multicolor라는 단어로 퉁치는? 경우가 대부분으로 보여졌다. 그래서 나는 image captioning이나 vqa를 통해 옷 이미지에 대..

1주차에는 데이터 수집하고 제작하고 클랜징을 주로하면서 ControlNet 논문을 읽고 공식 깃헙에 있는 튜토리얼을 진행하면서 ControlNet이 뭔지를 익혔었다. 이번 주에는 이제 우리의 데이터로 ControlNet을 학습시키기 시작했다. 이 부분은 내가 전담으로 맡아서 했다. 처음 계획은 아무것도 건들이지 않고 custom 데이터셋으로 학습시키고 결과를 지켜보면서 데이터를 수정하고 모델을 잘 학습시키기 위한 여러 기법(DreamBooth, LoRA 등)을 논문을 읽어보고 직접 적용해서 우리의 서비스에 맞게 finetuning을 해나가는 것이었다. 당연히 데이터셋만 바꾸면 될 줄 알았기에 금방 실험을 진행할 수 있을 줄 알았다... 튜토리얼 데이터로 진행된 학습 Diffusers를 이용해서 다들 di..

앞서 최종 프로젝트 준비 기간을 포스팅 했다. 준비 기간 동안 팀원 각자의 역할을 정하고 프로젝트 주제를 확정짓고 우리가 쓸 모델들을 리서치하고 데이터를 리서치했었다. 그러고 우리의 계획에 대해 멘토님께 설명해 드리고 피드백을 받았다. 멘토님의 피드백을 받고 주제를 어떻게 수정할지, 우리의 문제점을 어떻게 보완할지 고민을 했었다. 주제의 큰 틀을 변화시키지 않으면서 문제점을 수정하기 위해 나는 새로운 주제를 제안했다. 기존 쇼핑몰 사용자를 위한 서비스가 아닌 디자이너를 위한 서비스! 기존 주제는 문제점으로는 virtual try on 모델을 학습시키가 까다롭고 학습 시키기 위한 데이터를 찾고 제작하는게 쉽지 않다는 것이 있었고, 이 때문에 그냥 모델을 가져다 쓰는게 끝인 프로젝트였다. 그래서 내가 생각한..
이번 포스팅을 통해 네이버 부스트캠프 ai tech에서 최종 프로젝트를 진행하면서 내가 어떻게 진행했는지 정리하려고 한다. 이런 프로젝트가 처음이다 보니 프로젝트를 진행하면서 겪었던 것들과 배운 것들, ... 등등을 정리할 겸 포스팅을 해야겠다고 마음을 먹었다. 주제 우리 팀의 주제는 팀을 모을 때부터 virtual try-on이었다. 온라인에서 옷을 쇼핑할 때 옷을 직접 입어보지 않아도 나와 어울리는지를 볼 수 있게 돕는 서비스라고 보면 된다. 우리는 단순히 옷만 입히는 것이 아니라 모션도 생성해서 움직이는 것까지 보여줌으로써 우리만의 +α를 보여주자라는 생각으로 프로젝트 주제를 선정했다. Vitual Try On Model + Pose Generation Model 팀 내 역할 팀 내에서..

부스트캠프 내에서 내가 진행하고 있는 diffusion 스터디에서는 아직 SDE diffusion 논문을 읽고 있고, DDIM까지 읽고 나서 Stable Diffusion을 읽으려 했지만, 최종 프로젝트 때문에 미리 읽게 되었다. 다행히 NCSN, DDPM, SDE diffusion처럼 수식이 엄청 많고 그런 논문이 아니라서 이 세 논문처럼 힘들지는 않았던 것 같다! 다들 stable diffusion에 관심이 많고 부스트캠프에서도 생성모델을 통한 프로젝트를 여러 팀에서 하는 것 같아서 부스트캠프 내에서 진행되는 논문 세미나에서도 이 논문을 발표하기로 했다. 그렇기에 최대한 꼼꼼하게 공부하고 리뷰를 하려고 한다. https://arxiv.org/abs/2112.10752 High-Resolution Im..

이번에 리뷰할 논문은 그 유명한! DDPM! Diffusion의 기초 논문들은 확실하게 이해하고 넘어가는 것이 좋다는 멘토님의 조언에 따라 이번 ddpm도 시간은 오래 걸리겠지만 최대한 꼼꼼하게 읽어서 자세히 리뷰하는 것을 목표로 포스팅을 할 것이다. 이전 NCSN논문도 꼼꼼하게 했다고 생각하지만 아직 100프로 이해했다고 자부할 수 없었다. 그래서 ddpm도 100프로는 아니지만 70,80프로를 넘어 90프로는 이해하자는 목표로 공부했다. https://arxiv.org/pdf/2006.11239.pdf 그럼 이제 논문 리뷰를 시작하겠다. 1. Introduction 이 논문에서는 diffusion probablilistic model (diffusion model)의 진전을 소개한다고 한다. Diff..

이번에는 Diffusion에 제대로 도전해보자! 하는 마인드로 Diffusion 논문들도 블로그에 올리기로 다짐했다. 그래서 첫 논문으로 NCSN을 들고 왔다. 스터디해보면서 엄청 벽을 느낀 논문들이지만 다시 읽고 제대로 이해해서 넘어갈겸 포스팅에 도전했다. https://arxiv.org/pdf/1907.05600.pdf 1. Introduction 1.1 기존 생성모델들의 단점 기존 생성모델들은 각 모델들마다 단점을 지닌다. 예를 들면 likelihood-based 모델은 autoregressive model이나 flow model과 같이 정규화된 확률 모델을 구축하기 위해 특수 아키텍처를 사용하거나 학습을 위해 VAE에서의 ELBO와 같은 surrogate loss를 사용해야 한다. 그리고 GAN ..