일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- dreamfusion
- 3d gaussian splatting
- 프로그래머스
- Programmers
- instructany2pix
- 코딩테스트
- Python
- novel view synthesis
- text2room
- transformer
- 코테
- objectdrop
- VirtualTryON
- sonicdiffusion
- visiontransformer
- 네이버 부스트캠프 ai tech 6기
- BOJ
- diffusion
- text-to-image diffusion
- magic clothing
- 3d editting
- insturctnerf2nerf
- DP
- text-to-video diffusion
- Vit
- 논문리뷰
- sound-to-image generation
- 3d generation
- autoregressive
- Visual Autoregressive
- Today
- Total
목록AI/Computer vision (2)
평범한 필기장
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/di5UDX/btsudSLPmQw/eTOU3Xy7Pqwnr2uRTUHaTk/img.png)
직전에 ViT 논문을 리뷰했는데, 이번에는 ViT의 문제점을 개선하고 더 general한 task에서 사용가능 하도록 한 모델인 Swin Transformer 논문을 리뷰하려고 한다. https://arxiv.org/abs/2103.14030 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows This paper presents a new vision Transformer, called Swin Transformer, that capably serves as a general-purpose backbone for computer vision. Challenges in adapting Transformer from language..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/v0LWs/btstcOqCm2M/2mHDy290Fi74cWV0K0lGa1/img.png)
Transformer 아키텍쳐가 NLP에서 많이 쓰이지만 Vision 분야에서도 쓰인다는 것을 최근에 들었다. Transformer 논문을 최근에 리뷰했는데 이를 Vision 분야에서도 이용한 논문을 읽어봐야겠다는 생각이 들었다. 그 중에서 가장 대표적인 논문인 ViT를 읽게 되었다. 그래서 이번엔 ViT 논문에 대한 리뷰를 진행할 생각이다. 본 논문 리뷰는 원본 paper와 유튜브 거꾸로 읽는 AI 이야기의 발표 자료를 가지고 진행할 예정이다. 1. Abstract & Introduction Transformer 아키텍처는 NLP분야에서는 표준이지만 Vision분야에서는 제한적으로 쓰이고 있다. 비전에서 attention는 컨볼루션 네트워크와 함께 적용되거나 전체 구조를 그대로 유지하면서 컨볼루션 네트..