반응형 1페이지 논문읽기9 [1페이지 논문읽기] PIXART-α: FAST TRAINING OF DIFFUSION TRANSFORMER FOR PHOTOREALISTIC TEXT-TO-IMAGESYNTHESIS Stable diffusion 같은 Text-to-Image 모델들은 학습에 어마어마한 시간과 비용이 들어간다. 이를 해결하기 위해 저자들은 transformer 기반의 생성 모델 아키텍처를 제안하는데, 어떤 방법을 통해 어떤 문제를 해결하는지 알아보겠다. 기존 연구의 한계점서두에서 밝힌 것처럼, stable diffusion, Imagen, Midjourney 같은 기존의 text-to-image 모델을 학습시킬 때는 시간과 비용이 굉장히 많이 발생한다. Stable diffusion 같은 경우, A100 한대로 6,250 시간의 학습시간이 발생하는데, A100 의 경우 클라우드 서버 호스팅을 이용하면 시간당 약 $5 정도이니, 비용은 약 3천5백만원 정도가 발생하게 된다. (저자들은 논문에서 이를 .. 2024. 11. 27. [1페이지 논문읽기] SPDiffusion: Semantic Protection Diffusion for Multi-concept Text-to-image Generation 기존의 foundation 모델들은 multi object를 생성하는데 어려움을 겪고 있다. 예를 들어, 아래 그림에서 보듯, "초록색 옷을 입고 있는 토끼와 빨간 모자를 쓴 여우"를 그리라고 하면, 토끼만 두 마리를 그리거나 둘 다 초록색 옷을 입고 있는 이미지를 그려준다.이러한 문제를 해결해 멀티 object의 생성을 보다 잘 하게 해주는 연구가 있어 소개해본다. 기존 연구의 문제점서두에서 밝힌 것처럼, 기존 연구들은 object 간의 속성들이 섞이거나 제대로 그려지지 않는 "attribute confusion" 이슈가 있고, 이를 해결하기 위한 다양한 시도가 있었다.몇몇 연구들에서는 inference 때 latent representation을 optimize해서 텍스트와 이미지간의 연관성을 강제.. 2024. 11. 22. [1페이지 논문읽기] An Image is Worth Multiple Words: Multi-attribute Inversion for Constrained Text-to-Image Synthesis 원본 이미지가 있다면, AI는 원본이미지처럼 새로운 그림을 그릴 수 있을까? 원본이미지"처럼" 이라는 뜻은 무엇일까? 색감이 비슷하게? 비슷한 스타일로? 비슷한 오브제가? 사람도 답하기 힘든 이러한 질문에 답하듯 그림을 그려주는 연구가 있다. 2023년 Adobe 에서 발표한 An Image is Worth Multiple Words: Multi-ttribute Inversion for Constrained Text-to-Image Synthesis 논문인데, 어떤 문제를 어떤 방법으로 해결하는지 알아보자. 기존 연구의 한계점Stable diffusion 기반의 이미지 personalization 연구들이 디테일한 컨트롤이 어렵다는 한계점을 가지고 있어, controllability를 강화하는 방법.. 2024. 11. 20. [1페이지 논문읽기] ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs Style transfer task, 즉 이미지를 원하는 그림체 또는 색감으로 변환하는 문제를 해결하고자 한 논문이다. 어떠한 관점에서 문제를 바라보고 있고, 어떤 방법으로 task를 해결하고 있는지 알아보자. 아이디어Personalization task에 LoRA를 이용한 fine-tuning이 많이 사용되는데, 저자들은 LoRA를 이용해 style에 대한 정보를 학습할 수 있다면, 이를 style transfer task에 사용할 수 있다는 점에 착안했다.특히, 아래 2가지 observation에서 영감을 얻었다.1. LoRA finet-tuning을 통해 update된 matrix는 sparse하다.LoRA를 이용해 fine-tuning을 하게 되면, 기존의 weight 이외에 delta wei.. 2024. 11. 19. 이전 1 2 3 다음