반응형 분류 전체보기87 LoRA를 활용한 효율적인 Stable Diffusion Fine-Tuning Stable Diffusion 모델의 성능을 높이기 위해 Fine-Tuning은 필수적이지만, 이 과정은 큰 비용과 시간이 소요되는 단점이 있습니다. 이에 대한 해결책으로 Microsoft에서 개발한 LoRA(Low-Rank Adaptation) 기술이 주목받고 있습니다. LoRA는 원래 대규모 언어 모델의 효율적인 Fine-Tuning을 위해 개발되었으나, 최근에는 이미지 생성 모델인 Stable Diffusion에도 적용되고 있습니다. 이 글에서는 "Stable Diffusion Fine-Tuning"과 "Stable Diffusion LoRA"에 대해 알아보고, LoRA가 어떻게 모델 성능을 향상시키면서도 효율성을 높이는지 설명하겠습니다.LoRA란 무엇인가?LoRA는 대규모 사전 학습 모델을 대상으.. 2024. 11. 13. [1페이지 논문읽기] CustomContrast: A Multilevel Contrastive Perspective For Subject-Driven Text-to-Image Customization Subject-driven image generation task를 풀고 있는 연구이다. 특히 contrastive learning을 이용해서 subject간의 또한, subject 내의 consistency 문제를 해결했다. 구체적으로 어떤 방법 어떤 문제를 해결했는지 알아보겠다. 기존 연구의 한계점많은 기존 연구들이 주장하는 것처럼, 이 논문 역시 기존 연구들의 detail과 controllability, 즉 subject의 detail을 얼마나 살려주는지와 text prompt대로 얼마나 잘 생성되는지 사이의 trade off를 지적하고 있다. 저자들은 그 원인을 subject의 identity와 subject와는 관계없는 것들 (view, 포즈, 배경 등)이 disentangle되지 않아 그렇다.. 2024. 11. 12. [1페이지 논문읽기] HybridBooth: Hybrid Prompt Inversion for Efficient Subject-Driven Generation 기존 optimization-based 튜닝 방법과 direct-regression 방법의 장점을 합친 HybridBooth 아키텍처를 제안한다. 이 논문에서 저자들은 word embedding을 잘 refine해서 subject-driven generation task를 해결했다고 주장한다. 어떠한 아이디어로 어떻게 문제를 해결했는지 알아보겠다. 기존 연구의 한계점기존 연구는 크게 보면, 여러장의 이미지를 입력으로 받아 fine-tuning 하는 optimization-based 튜닝 방법과 다량의 데이터에서 pretrained된 모델과 이미지 한장을 이용해 이미지를 그려내는 direct-regression 방법으로 나눌 수 있는데, 각각 정확성과 속도의 장점을 가지고 있지만, 역시 속도와 정확성이라는.. 2024. 11. 11. [1페이지 논문읽기] FaceChain-FACT: Face Adapter with Decoupled Training for Identity-preserved Personalization 이 논문은 제목에서 보여지는 것처럼 특정인의 얼굴을 활용해 원하는 이미지를 그려내는 personalization task를 풀고 있다. 기존 연구의 어떤 문제를 어떻게 해결했는지를 알아보겠다. 기존 연구의 문제점 기존에도 ip-adapter 또는 photomaker, instantID 같이 얼굴 이미지를 활용해 원하는 이미지를 그려내는 연구는 많이 있었다. 하지만, 저자들은 이들 연구들이 입력 이미지를 결과 이미지에 어떻게 합성하는지에 대해서만 고민했기 때문에 원본 이미지의 머리방향, 스타일, 포즈 같은 다른 property들이 decouple 되지 않았다고 한다. 이에 저자들은 이를 decouple하는데 초점을 맞춘 FACT 아키텍처를 제안한다. 아이디어 크게 IMM (Identity Mergi.. 2024. 11. 10. 이전 1 2 3 4 5 6 7 ··· 22 다음