반응형 딥러닝7 [1페이지 논문읽기] ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs Style transfer task, 즉 이미지를 원하는 그림체 또는 색감으로 변환하는 문제를 해결하고자 한 논문이다. 어떠한 관점에서 문제를 바라보고 있고, 어떤 방법으로 task를 해결하고 있는지 알아보자. 아이디어Personalization task에 LoRA를 이용한 fine-tuning이 많이 사용되는데, 저자들은 LoRA를 이용해 style에 대한 정보를 학습할 수 있다면, 이를 style transfer task에 사용할 수 있다는 점에 착안했다.특히, 아래 2가지 observation에서 영감을 얻었다.1. LoRA finet-tuning을 통해 update된 matrix는 sparse하다.LoRA를 이용해 fine-tuning을 하게 되면, 기존의 weight 이외에 delta wei.. 2024. 11. 19. [1페이지 논문읽기] Implicit Style-Content Separation using B-LoRA 한 장의 그림이나 사진을 원하는 스타일로 변환하는 태스크를 해결하고자 한 논문이다. 기존 연구들과 비교했을 때, 꽤 좋은 결과를 보여주고 있는데, 어떤 방법으로 문제를 해결했는지 알아보자. 기존 연구의 한계점기존 연구, 특히 기존에 가장 좋은 성능을 보이는 연구는 ZipLoRA 이다. ZipLoRA의 경우, 스타일과 content를 한가지 모델에서 학습시킨 다음, inference 때 사용하는 방법으로 이미지를 그려냈다.저자들은 이 때문에 style 변화와 content preserving 간의 trade-off 가 있다고 보았다. 아이디어SDXL 을 파운데이션 모델로 활용했는데, SDXL의 unet layer는 총 11개의 트랜스포머 블럭으로 구성되어 있다. 저자들은 이 중 2,4번째 블럭은 cont.. 2024. 11. 17. [1페이지 논문읽기] CustomContrast: A Multilevel Contrastive Perspective For Subject-Driven Text-to-Image Customization Subject-driven image generation task를 풀고 있는 연구이다. 특히 contrastive learning을 이용해서 subject간의 또한, subject 내의 consistency 문제를 해결했다. 구체적으로 어떤 방법 어떤 문제를 해결했는지 알아보겠다. 기존 연구의 한계점많은 기존 연구들이 주장하는 것처럼, 이 논문 역시 기존 연구들의 detail과 controllability, 즉 subject의 detail을 얼마나 살려주는지와 text prompt대로 얼마나 잘 생성되는지 사이의 trade off를 지적하고 있다. 저자들은 그 원인을 subject의 identity와 subject와는 관계없는 것들 (view, 포즈, 배경 등)이 disentangle되지 않아 그렇다.. 2024. 11. 12. [1페이지 논문읽기] HybridBooth: Hybrid Prompt Inversion for Efficient Subject-Driven Generation 기존 optimization-based 튜닝 방법과 direct-regression 방법의 장점을 합친 HybridBooth 아키텍처를 제안한다. 이 논문에서 저자들은 word embedding을 잘 refine해서 subject-driven generation task를 해결했다고 주장한다. 어떠한 아이디어로 어떻게 문제를 해결했는지 알아보겠다. 기존 연구의 한계점기존 연구는 크게 보면, 여러장의 이미지를 입력으로 받아 fine-tuning 하는 optimization-based 튜닝 방법과 다량의 데이터에서 pretrained된 모델과 이미지 한장을 이용해 이미지를 그려내는 direct-regression 방법으로 나눌 수 있는데, 각각 정확성과 속도의 장점을 가지고 있지만, 역시 속도와 정확성이라는.. 2024. 11. 11. 이전 1 2 다음