반응형 컴퓨터비전2 [1페이지 논문읽기] ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs Style transfer task, 즉 이미지를 원하는 그림체 또는 색감으로 변환하는 문제를 해결하고자 한 논문이다. 어떠한 관점에서 문제를 바라보고 있고, 어떤 방법으로 task를 해결하고 있는지 알아보자. 아이디어Personalization task에 LoRA를 이용한 fine-tuning이 많이 사용되는데, 저자들은 LoRA를 이용해 style에 대한 정보를 학습할 수 있다면, 이를 style transfer task에 사용할 수 있다는 점에 착안했다.특히, 아래 2가지 observation에서 영감을 얻었다.1. LoRA finet-tuning을 통해 update된 matrix는 sparse하다.LoRA를 이용해 fine-tuning을 하게 되면, 기존의 weight 이외에 delta wei.. 2024. 11. 19. [1페이지 논문읽기] AttnDreamBooth: Towards Text-Aligned Personalized Text-to-Image Generation Dreambooth, Textual Inversion 등 stable diffusion과 같은 foundataion 모델에서 학습하지 않은 custom concept을 적은 데이터셋으로 학습해 원하는 이미지를 만드는 연구는 계속되고 있지만, 여전히 프롬프트에 맞는 그림을 그려내지 못하거나, 복잡한 프롬프트를 제대로 그리지 못하는 문제점이 있다.Dreambooth와 Textual Inversion 각기 다른 두 방식은 꽤 좋은 결과를 그려주지만, 방법에 따른 명확한 한계점을 가지고 있는데, 한계점이 있다. AttnDreamBooth는 이러한 두 방법의 한계점을 극복하고 해결하는 연구이며, 2024 Neurips에 accept되었다. AttnDreamBooth가 어떠한 문제점을 어떻게 해결했는지 아래에 간단.. 2024. 10. 21. 이전 1 다음