반응형 pixart-α1 [1페이지 논문읽기] PIXART-α: FAST TRAINING OF DIFFUSION TRANSFORMER FOR PHOTOREALISTIC TEXT-TO-IMAGESYNTHESIS Stable diffusion 같은 Text-to-Image 모델들은 학습에 어마어마한 시간과 비용이 들어간다. 이를 해결하기 위해 저자들은 transformer 기반의 생성 모델 아키텍처를 제안하는데, 어떤 방법을 통해 어떤 문제를 해결하는지 알아보겠다. 기존 연구의 한계점서두에서 밝힌 것처럼, stable diffusion, Imagen, Midjourney 같은 기존의 text-to-image 모델을 학습시킬 때는 시간과 비용이 굉장히 많이 발생한다. Stable diffusion 같은 경우, A100 한대로 6,250 시간의 학습시간이 발생하는데, A100 의 경우 클라우드 서버 호스팅을 이용하면 시간당 약 $5 정도이니, 비용은 약 3천5백만원 정도가 발생하게 된다. (저자들은 논문에서 이를 .. 2024. 11. 27. 이전 1 다음