일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- Vit
- 코딩테스트
- 3d generation
- 프로그래머스
- diffusion model
- rectified flow
- DP
- masactrl
- Programmers
- BOJ
- 논문리뷰
- 네이버 부스트캠프 ai tech 6기
- inversion
- 코테
- video generation
- score distillation
- image editing
- VirtualTryON
- 3d editing
- Python
- dreammotion
- segmentation map
- video editing
- flow matching
- segmenation map generation
- visiontransformer
- emerdiff
- diffusion
- transformer
- diffusion models
- Today
- Total
목록AI/Computer vision (5)
평범한 필기장
data:image/s3,"s3://crabby-images/1267c/1267c97d22a822c6b427f116bf3a213bf93b7aa7" alt=""
https://arxiv.org/abs/2404.09512 Magic Clothing: Controllable Garment-Driven Image SynthesisWe propose Magic Clothing, a latent diffusion model (LDM)-based network architecture for an unexplored garment-driven image synthesis task. Aiming at generating customized characters wearing the target garments with diverse text prompts, the image controllarxiv.org1. Introduction 본 논문의 주 contribution을 요약하..
data:image/s3,"s3://crabby-images/dcd75/dcd75a6daa9a5544ebb3f23ab2e7cff9fc6431b9" alt=""
직전에 ViT 논문을 리뷰했는데, 이번에는 ViT의 문제점을 개선하고 더 general한 task에서 사용가능 하도록 한 모델인 Swin Transformer 논문을 리뷰하려고 한다. https://arxiv.org/abs/2103.14030 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows This paper presents a new vision Transformer, called Swin Transformer, that capably serves as a general-purpose backbone for computer vision. Challenges in adapting Transformer from language..
data:image/s3,"s3://crabby-images/e5d45/e5d45272207fe0a165af5bee6445214b7d917dc0" alt=""
Transformer 아키텍쳐가 NLP에서 많이 쓰이지만 Vision 분야에서도 쓰인다는 것을 최근에 들었다. Transformer 논문을 최근에 리뷰했는데 이를 Vision 분야에서도 이용한 논문을 읽어봐야겠다는 생각이 들었다. 그 중에서 가장 대표적인 논문인 ViT를 읽게 되었다. 그래서 이번엔 ViT 논문에 대한 리뷰를 진행할 생각이다. 본 논문 리뷰는 원본 paper와 유튜브 거꾸로 읽는 AI 이야기의 발표 자료를 가지고 진행할 예정이다. 1. Abstract & Introduction Transformer 아키텍처는 NLP분야에서는 표준이지만 Vision분야에서는 제한적으로 쓰이고 있다. 비전에서 attention는 컨볼루션 네트워크와 함께 적용되거나 전체 구조를 그대로 유지하면서 컨볼루션 네트..
data:image/s3,"s3://crabby-images/12ecc/12ecc9ad975b3e957dba36ba5dda140c453249e4" alt=""
최근에 Virtual Try-On이라는 분야에 관심을 갖게되면서 두번 째로 읽게 된 논문이 바로 VITON-HD: High-Resolution Virtual Try-On via Misalignment-Aware Normalization이라는 논문이다. 이 논문을 선택한 이유 중 하나는 바로 저자분들이 한국분들이라는 것이다. 특히 주재걸 교수님이 저자에 있어서 더 눈에 띄었다. 0. 기존 Virtual Try-On의 한계Image-based Virtual Try-On은 주어진 인물사진에 대상 의상 아이템으로 변경한 이미지를 생성하는 모델이다. 기존 Virtual Try-On 모델들의 한계점은 바로 고해상도의 이미지를 만들 수 없다는 것이다. 해상도를 높일 수록 misaligned된 부분의 artifact..
data:image/s3,"s3://crabby-images/f55ed/f55ed2173f06112eb0202c9ea05eb6758c585985" alt=""
평소에 패션에 관심이 많아서 패션과 관련 AI 분야를 찾다가 Virtual Try-on이라는 분야를 지인에게 듣게 되었다. 그래서 이번 방학 때 이 분야와 관련된 논문을 읽어봐야겠다고 결심하게 되었다.Virtual Try-on 관련된 논문들 중에서 첫 논문은 이 논문으로 정해서 이 논문을 처음으로 읽게 되었다. Abstract & Introduce많은 온라인 쇼핑몰에서 Virtual Try-on 기술을 이용하려한다. 대부분은 3D를 통해 기술을 구현하지만 많은 제약과 비싼 비용이 필요하다고 한다. 그런데 이 논문에서 제시한 VITION이라는 모델은 3D 정보를 이용하지 않고 RGB이미지에만 의존하는 모델이라고 설명한다. 그리고 이 모델에서 합성한 이미지는 (1) 인물의 신체 부위와 포즈가 원본 이미지와..